首席数据官

Hi, 请登录

《大数据时代》读书心得

夏厦

伴随互联网技术产生的“大数据”成为当下人们关注和探讨的焦点之一,但是在众多口口声声宣扬大数据的人群中,大概只有不到10%的人理解大数据的真正内涵,这还是乐观估计,实际可能更少。人们总是在人云亦云中盲目追逐虚无缥缈的表象,却忽视其背后的本质。在这本书之前,我对大数据只有一个十分模糊的概念,而在读过之后,关于大数据的内涵、分析过程以及未来的发展趋势在我脑海里面更加清晰。维克托·迈尔—舍恩伯格的《大数据时代》从宏观的视角上不仅为我们勾勒了大数据的轮廓,核心特征,还在此基础上预测了大数据未来的发展趋势,是指引我们拨开云雾把握大数据发展要诀的专著。

什么是大数据?按照我之前的理解,大数据就是海量数据的总称,只不过因其源于互联网而得此名称。在书中,舍恩伯格认为大数据本质上是一种分析方法,其对大数据的定义是“不用随机分析法这样的途径,而采用所有数据的方法”。看到这里,我马上联想到了平时做研究用到的社会科学研究方法,尤其是定量研究这个跟数据密切相关的领域,它会和大数据产生什么样的碰撞呢?在看到“不是随机样本,而是全体数据”《大数据时代》读书报告,“样本=总体”时颇有种哭笑不得的感觉。没错,好像研一传播学研究方法课程中的各种抽样方法什么随机抽样分层抽样还有滚雪球都没有存在的必要了,大数据一门就可以代替所有的抽样分析法。而且,未来制约研究效果的主要因素似乎也不是样本数量和构成是否科学,而是能否拿到足够多的数据并找到分析的方法。虽然以上的质疑和推理并不一定正确《大数据时代》读书报告,但是推动这种思维产生的大数据本身已经让我脑洞大开。

那么大数据如何开展分析呢?传统的研究和分析方法有一套十分精细且严谨的数据收集与统计分析规则,在进行数据录入的时候对单个数字的格式都有详细的要求,都是为了通过分析模型得到最准确的结果。记得之前在做研究方法课程的作业时就有用到问卷调查法及其后的数据统计和分析,但是在我调查的过程中对这种调研的代表性和准确性都产生了怀疑。问卷的样本选取需要十分严格,包括对性别、年龄、地区、职业等因素的比例控制,然而这在实际操作中很难执行,无法确保能够覆盖所有的人群类型也无法剔除交叉样本的存在。此外,我认为问卷所填内容并不能确切反映一个人的真实状态和想法,大部分时候囿于各种原因人们总是倾向于展现他们愿意别人知道的东西而不是毫无保留。按照这样推断,除非有足够的规模和资金支持,否则得出的研究结果都很难具备参考价值。以上这些以抽样为基础的定量研究方法都被舍恩伯格称为“小数据”时代的分析方法,大数据时代需要以混杂和错误来取代一直坚持与倡导的精确性,瞬间感觉这简直是在和从诞生之日起就以精确和严谨著称的自然科学研究领域作对。然而十分神奇的是,大数据是基于计算机科学和统计学理论分析的产物,但是它本身又包含极大的混杂性、不确定性与错误性,这有点自相矛盾。以此为基础,舍恩伯格对“数据量大到足以忽略个别错误”的解释还是挺有道理的,就好像一大片湖水里面滴入几滴墨汁可以瞬间被溶解。然而长期追求精确的惯性思维还是很难立刻接受这种突来的变化,大数据的发展速度好像也没有给人们留下适应的时间,世界很快又会像当年互联网出现之后一样发生翻天覆地的变化,尽快的了解和接受是人们面对席卷而来的大数据的一大挑战。

说到相关关系,想起之前的高中数学课有学过计算相关性的公式,依计算出来的结果判断两个事物是否有内在联系,问题是在众多的数据中如何发现数据之间的相关性,测评过程中的指标如何确定,选择的依据又是什么。虽然看似比依靠人类自我感觉预判的因果关系靠谱很多,但是真正能够从数据关联中挖掘出不一样的意义是十分困难的。这也推动舍恩伯格在如何开展数据创新方面给出了诸多的建议和设想。书中关于“数据废气”的描述让我印象深刻,在小数据时代被视为衍生品的数据在大数据时代具有了超越主体的价值,它让我们了解数据作为一种资源和自然资源一样也可以进行回收再利用,甚至二次利用才是它的真正价值所在。可以看出,大数据已经不再是分析定量和几个相关变量之间的关系这么简单,它可以通过分析驾驶员的坐姿变化判断汽车是否被盗,也可以通过监控拍摄检验超市的物品摆放和营销效果,通过将两个毫无关

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论