随着大数据时代的到来,我们越来越多的使用电子产品,使我们的活动信息被越来越多的收集起来。我们知道,机器学习的一大目标就是利用历史数据去预测未来,那么,我们的行为会不会被预测呢?
本文是《爆发:大数据时代预见未来的新思维》的读书笔记。该书作者巴拉巴西 (Barabasi)是复杂网络研究的重要领军人物,曾经在《自然》、《科学》杂志上发表30余篇论文。在Coursera上的《Social Network Analysis》课程里,也有讲到过他的Barabási–Albert模型。可以说,他是社交网络与大数据研究的领头羊。
书中观点
本书花了很大篇幅来讲述人类的活动规律,他从最简单的模型讲起,直至得出人类活动具有爆发性的结论。
首先是由分子扩散得到的随机与扩散理论,它虽然能解释人类活动的随机性,但不能解释出其规律,比如,在钞票追踪中不能解释出为什么少数钞票的超长距离的跳跃。同时,放射性元素的半衰期理论也不能应用到人类的阅读新闻活动上。从而证明,简单的物理规律不能同样套到人类活动的预测上。
然后是泊松分布,虽然泊松分布在预测意外的发生上很准确,称为了保险业的基本理论,也是路由器设计的基本原理之一。但其仍然假设人类的活动是无规律的。事实恰恰相反,人类的活动反而是有规律可循的。
人类活动的规律就是幂律,人们口中常说的二八定律就是幂律的一种简单阐述。幂律产生的根源就是优先级模型,如何理解它呢?设想你有一个优先级清单,而且不停的有新事件添加进来,那么,每件事情等待的时间就遵循幂律分布。再形象化一点,书中举出了信件模型,爱因斯坦回信的方式是集中在一段时间回复很多信,然后长久不去回复,这样,每封信被回复的等待时间就服从幂律分布。当然,书中还提出了条件,当爱因斯坦回信的速度比信到来的速度大时,其实是服从指数分布;当回信速度小于来信速度时爆发:大数据时代预见未来的新思维,才服从幂律分布。而那个回信的动作就被称为爆发。
进一步将幂律用于人类行为活动规律上来,书中又提到了列维飞行模式。它也是随机运动模型的一种,当随机运动每次运动的距离相近时,是分子扩散模型,当每次运动的距离相差很大时,就是列维飞行模式。很多动物如信天翁、猴子等的觅食行为,都符合这一模型,这主要是因为食物的稀缺。而且,钞票追踪也符合这一模式。现在在DNA上找转录因子,也采用这一模型。
但是,列维飞行模式不能解释人类经常在某一范围内活动的现象。然后就得到了最终的结论,即人类活动有一定的重复性,这个重复性在80%以上,平均为93%,也就是说,一个人的行为活动有93%是可以预测的,剩下的7%就是爆发。而爆发似乎是生物的一个基本规律,细胞活动,生物进化都符合这一规律。
以上就是对书中理论内容的主线总结,由于简化可能说的不清楚,有兴趣的可以读原文。值得一提的是,在里面还有一个关于圣乔治的三个月爆发史的历史故事。
一些想法
人类行为真的可预测么?我想就以现在的技术来说,大部分人的大部分行为都是可以预测出来的。为什么呢?因为我们的信息已经被收集的足够多了。互联网使大家的连接更加的紧密,依赖的越重,对隐私的保持就越少。按照书中的说法,人的行为平均有93%都会被预测的到。那么,我们该怎么做呢?我觉得与其拒绝将自己的数据分享,还不如把这些数据交给机器,用预测来让我们生活的更美好,而我们则专注于那不可预测的7%。
写到这,突然有一种莫名的伤感,丫活了一辈子,居然大部分都是重复的过。而且还是一个难以打破的规律,毕竟人还是倾向于简化自己,过简单的生活。假如可以用熵来衡量人类行为的重复性的话,那就是我们的内心还是倾向于过熵比较低的生活。按照《罗辑思维》经常分析问题的方式爆发:大数据时代预见未来的新思维,这或许就是进化的原因。但对于一个不安分(这三个字不知能不能用来描述我,毕竟我通常是以一个老实人的面孔出现)的人来说,追求生活的刺激,也就是增熵,也许是生活的主调。但是逆着人类的进化规律办事情,和几百万年的惯性作斗争,该是很难吧。
再YY一下假如我们
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。