卫生机构使用传统方法预测流感的传播,很多时候存在滞后性。而作为一家互联网公司,谷歌通过分析用户在搜索引擎上的搜索记录来预测流感传播,其准确率比卫生机构还高,而且预测输出时间比机构提前了2周!这就是大数据给人类带来的惊喜。
现在我们经常听到别人在谈论“大数据”,但是当大家在侃侃而谈的时候,究竟有多少人理解“什么是大数据”?
今天林猫咪结合《大数据时代》这本书的内容,跟大家聊聊大数据那些事。
一、什么是大数据?
我的理解的大数据是一种状态。在这种状态中,我们面对的数据是海量的。因为现代科技的发展,我们有了对海量数据存储和处理的技术,而且这些技术还会不断发展完善。更重要的是我们对各种数据的处理方法和态度都发生了转变,我们开始积极地发掘并利用各种数据。在这个时代,数据已经成为一种非常重要的资源。
二、大数据时代下的3个思维变革
1、不是随机样本,而是全体数据
以前我们开展研究时,习惯采取抽样调查的方式。因为之前人类对于数据的收集、储存和处理的能力有限。那时采取随机抽样是让我们最大限度了解真实情况的可行方案。
但是随着科技的发展,我们已经有了解所有样本的能力。这时对全部的样本进行研究,将让我们输出接近100%的真相。
例如:古代人如果要了解全国人均寿命,可行的方法是:随机调查全国几个城市的部分人员寿命,以此推出全国大概的人均寿命。但是现在我们每一个人从出生到死亡的信息都会被记录。这样我们就可以从全体数据的角度来看问题了。
理解这一点,并不是要求我们每个研究都选择全体数据,这只是为我们的研究拓宽一条渠道而已。毕竟目前我们还需要考虑处理海量数据的经济成本。
2、不是精确性,而是混杂性
大数据时代我们要学会拥抱混杂性。传统的语言翻译系统,会输入大量复杂的算法逻辑,结合大量例句、单词、短语、和语法习惯,来进行翻译活动。但这样的结果是:翻译范围有限、翻译对象仅限于2种语言之间。
而谷歌抛弃了精确算法这条路子,选择大量收集和处理全球能找到的所有翻译,掌握用不同语言翻译的、质量参差不齐的数十亿页文档,用此来搭配组合出质量最好的结果。这种混杂性下,谷歌的翻译系统就像一个成长中的孩子,不断学习和积累。即使它会吸收部分错误的信息,但这并不会影响它整体的成才。
所以说,大数据的简单算法比小数据的复杂算法更有效。
3、不是因果关系,而是相关关系
经济学中有一个“啤酒尿布”现象——将尿布和啤酒放在一起,这两样产品的销量会同时增加。
对此经济学家尝试给出了各种解释,希望从中找出因果关系。例如:家庭主妇采购尿布时,看到啤酒就会顺便为丈夫准备一点。
而在这本书中,作者强调:知道“是什么”就够了,没必要知道“为什么”。即关注相关关系即可。
现在我们已经有了收集和存储海量数据的设备,我们也有了进行数据挖掘的工具,那么就只管去寻找数据之间的相关关系就可以了,至于他们为什么会有这个相关关系我们可以不管,只要懂得应用就好。
以上便是《大数据时代》的部分内容分享,接下来是这本书的整体介绍:
【今日好书】:《大数据时代》,豆瓣评分7.5分。
【作者】:维克托.迈尔-舍恩伯格(Viktor Mayer-Sch·nberger),被
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。