信号与噪声:大数据时代预测的科学与艺术_数据资讯

排序书名:信号与噪声:大数据时代预测的科学与艺术

日期:08 12月 2018

uuid:665aebfd-4eda-4592-bd5f-645aaeb7cf60

id:469

出版日期:9月 2013

修改日期:08 12月 2018

大小:8.21MB

语言:中文

对美国职业棒球大联盟的游击手来说，有些比赛可以打好，有些比赛永远也无法打好，有些比赛则一定要奋力打好。球员们奋力拼搏的比赛是最精彩的，而且总能吸引人们的注意，但这样的比赛也会使人们低估游击手的能力。

德瑞克·基特一直是“点球成金”时代备受争议的主角。赛事转播员和球探们注意到基特的比赛似乎都十分精彩，从而得出结论，认为他是该赛季的最佳游击手。而统计怪才在分析这些比赛时，却发现了这种结论的缺陷。尽管基特是一个极好的棒球运动员，但他跃起接球的速度较慢，不得不俯冲上垒以弥补失去的时间。实际上，有分析数据显示，尽管曾 5 次赢得大联盟“金手套奖”，但基特其实只是一个表现极其一般的防守游击手。基特奋力拼搏的比赛得到的荣誉不会太多，因为这些比赛算不得惊心动魄，若是换了奥奇·史密斯这样的防御游击高手，拿下这些比赛可能就是轻而易举的事。

图 1 游击手奋力接球的范围

不论能力范围如何，总会有任务等着我们竭尽全力去完成。如果我们用最难的任务来判断自己的能力，那么轻而易举且按照常规完成的事就会被视为理所当然的了。

历史上最引人注意的正确预测来自英国天文学家埃德蒙·哈雷，他在 1705 年曾经预测，一颗巨大的彗星会在 1758 年回归。曾经有很多人怀疑过他的预测，但彗星恰恰就在 1758 年回归了。在古代，彗星被视为上帝赐予的完全无法预测的事物，如今却成了有规律且可预测的事物。

天文学家预测，哈雷彗星下一次最接近地球的时间是在 2061 年 7 月 28 日，到那个时候，现在困扰着我们的自然界的许多预测难题，都会在我们的知识范围内了。

自然法则并没有改变多少，只要人类知识不断积累（自从古腾堡的印刷机问世以来确实是这样），即使不能完全领悟大自然的奥秘，我们对大自然中信号的理解也会逐渐加深。

然而，如果说科学与技术是本书的主角，那么在大数据时代，人们对科技所能完成的事恐怕过于乐观了。

没有理由认为人类活动越来越可预测，同样也没有理由认为人类活动越来越不可预测。科学使得社会变得明朗，但科学同样也使得社会组织变得更加复杂。技术完全改变了人们彼此之间的联系。1990 年发明万维网的蒂姆·伯纳斯·李对我说：“正因为有了互联网，整个环境、所有方程式、所有信息的动态传播都发生了变化。”

大量的信息成倍增加，但有用的信息却非常有限，信号的比例正在缩小，我们需要找到更好的方法对信号和噪声进行区分。

本书讨论我们已知的部分较少，讨论更多的是已知与未知之间的差异，并向人们推荐了缩小鸿沟的策略——人们既需要迈出重大转变的步子，同时也得走好细微谨慎的步子。而重大的一步就是要求大家采用贝叶斯关于预测的概率式思考方法。

以概率的方法思考问题

贝叶斯定理的开始和结束，都是以对真实世界可能性的盖然论表达出来的。贝叶斯定理并不要求每个人都相信这个世界从本质上来讲就是不确定的，这一定理提出的时候正是牛顿运动定律成为科学典范的时候。然而，贝叶斯定理却要求人们接受这样的观点，那就是人对这个世界的主观看法确实是十分接近真相的。

贝叶斯定理主张的概率式思考方法，起初可能会让人感到有些不舒服。除非是玩牌或其他概率性游戏，否则人们不会以概率的方法思考问题。例如在数学课上，人们花在几何和微积分这样的抽象学科上的时间要大大多于花在概率论和统计学上的时间。而在现实世界的各行各业里，不确定性甚至会被误认为是不自信的表现。

当你第一次对概率进行预测时，可能不会特别准确。但有两条利好消息：第一，这些预测只是一个开始，当你得到新信息时，贝叶斯定理会指导你对你的预测进行修正。第二，有证据表明，我们可以通过学习识别各种信号改进预测。例如，军队有时就会使用这些技术训练士兵，效果相当不错。医生也会用贝叶斯定理进行医疗诊断。

与电视专家相比，效仿医生和士兵的方法可能会更好一些。

大脑在处理信息时使用的是近似法。与其说这是一种既成事实，不如说它是一种生物必要性：我们察觉到的信息远多于我们有意识进行思考的信息，我们处理信息的方式是按照规律和模式对它们进行分类。

在高度的压力下，生活的规律会慢慢被揭示出来。针对“9·11”恐怖袭击事件的幸存者作过的一项研究发现，幸存者对他们所经历的事只能回忆起几分钟的细节，但对于“更大的环境”他们几乎完全不记得了。在这样的情况下，第一直觉和第一近似解可能非常不准确，无法意识到威胁的严重性。那些在强压下被迫做出决定的人，如在战场上的人，更容易成为带领其他人脱离险境的英雄。

在日常生活中，大脑也会尽可能地简化事物并求取其近似值。利用既有经验，这些简化和求取近似值的过程会成为有用的向导，构建起我们在日常生活中应用的可操作性知识。这两种方法并不完美，而我们也经常意识不到它们的粗糙性。

仔细思考以下 7 条陈述，它们与有效市场假说和个人投资者能否击败股票市场有关。每条陈述都只是上述关系的近似值（即粗略说明），但每一条都建立在最后一条的基础上，而且越来越准确。

1.没有哪个投资者能够击败股票市场。

2.长期看来，没有哪个投资者能够击败股票市场。

3.相对于其风险水平而言，长期看来，没有哪个投资者能够击败股票市场。

4.相对于其风险水平而言，考虑到其交易成本，长期看来，没有哪个投资者能够击败股票市场。

5.相对于其风险水平而言，考虑到其交易成本，长期看来，没有哪个投资者能够击败股票市场，除非他有内部信息。

6.相对于其风险水平而言，考虑到其交易成本，长期看来，几乎没有哪个投资者能够击败股票市场，除非他有内部信息。

7.长期看来，有多少投资者能够击败股票市场是一件很难说清的事，因为数据非常嘈杂，但我们知道，相对于其风险水平而言，大多数投资者都无法击败股票市场，因为股票交易存在交易成本，也就不会产生净超额回报。这样一来，除非他有内部信息，投资指数基金或许能有不错的赢利。

第一条陈述，即“没有哪个投资者能够击败股票市场”这条无限制条件的陈述，似乎极为确定。而到了最后一条则充满了不确定性，并不适合用作“车贴”式的标语，但这却是一个对客观世界更加完整的描述。

生活中处处都有近似事物，这很正常。如果你遇到一个对股票一无所知的陌生人，你告诉他，即使是在第一条陈述所描述的无限制条件的情况下，人们也很难击败股票市场，知道这一点也比一无所知好得多。

但是，一旦我们把近似误认作现实，问题就出现了，菲尔·特罗克提出的刺猬型专家就是这样。越简单的陈述似乎越符合一般情况，越能证明更加伟大的真相或是理论。然而，特罗克发现，刺猬型专家很不擅长作预测，他们总会遗漏所有能够使生活更加真实、使预测更加准确的点点滴滴。

我们的大脑有智慧，但我们生活的宇宙更是大得令人费解。以概率的方法思考问题的优点是，我们可以借这种方法强迫自己停下来，查出数据，放慢速度，仔细思考自己想法的不足之处。随着时间的流逝，我们会发现概率法会使我们的决定更加合理。

知道自己的观点源于何处

贝叶斯定理要求我们在权衡各种迹象之前，就要指出——并且是明确地指出——这一事件发生的可能性有多大。这种预测被称作“初始观点”。

我们的初始观点从何而来呢？从理论上讲，我们希望将初始观点建立在过去的经验——最好是社会经验——的集合之上。这是市场可以扮演的有用的角色之一。市场当然不是完美无瑕的，但绝大多数时间内群体判断都要优于个体判断。市场在权衡新迹象的时候形成了一个好的起点，在你还没有在某个问题上花费太多时间的情况下，尤其如此。

当然，市场并不适用于所有情况，将一些个案挑出来作为默认情况也是很有必要的。即使是常识，也可以作为贝叶斯定理的前提条件，与容易轻信的统计模型的输出结果进行比对。（这些统计模型虽然看似可以保证数学精确性，但其给出的都是近似结果，而且非常粗糙。）信息只有在恰当的环境下才会成为知识，没有环境，我们就无法从噪声中区分信号，我们对真相的追寻也会陷入错误判断的泥潭。

贝叶斯定理不能接受的，就是你假装自己没有任何初始观点的做法。人们应该努力减少偏见，但如果你说一点儿偏见都没有，反而暗示了你有很多偏见。预先陈述自己的观点——如“我的观点正源于此”——是诚信预测的方式，由此也可以认识到，我们对事实的感知是经过主观过滤的。

在不断的试错中进步

不断犯错，不断尝试，这或许是贝叶斯定理应用起来最容易的一个原则了：进行大量的预测。你可能不会将自己的公司或是生活赌在预测上，尤其是刚起步的时候，但这是唯一能够让自己取得进步的方式。

贝叶斯定理告诉我们，任何时候获得新信息，我们都应该更新自己的预测。简单地说就是，不断犯错，不断尝试。真正“拥有”大数据的公司，比如谷歌公司，并不会在建立模型的问题上花费太多时间。它每年会进行上千次实验，并在真正的客户身上检验它的想法。

贝叶斯定理鼓励我们权衡新信息时要遵守规律。如果我们的想法确实有价值，我们就应该建立可以证伪的假设来验证它们，并且将它们应用于预测当中。大多数时候，我们意识不到数据是多么嘈杂，所以对于最新的数据我们总是强加了太多个人偏见。政治记者经常会忘记，他们所报道的民调会存在误差幅度，而金融记者总是不能很好地向公众传达大多数经济统计数据是多么不精确。制造新闻的人往往是局外人。

但是，当我们在解决某个问题时，个人情感过多或是过于专业化，当事实发生改变而我们却无法改变时，就可能会产生相反的偏见。如果某个专家属于刺猬型，那么当数据与他的世界观不一致时，他可能会因为过于骄傲而不去改变自己所作的预测。各党派支持者总是期望他们的每个想法都能印在保险杠贴纸上，在他们承认自己对事实进行了过分简化之前，会经历各种错误。

验证想法的频率越高，就能越早地避开这些问题。眺望大海，等待着灵感迸发，想法就出现了，这是电影里才会有的情节。在真实世界中，即使已经准备就绪，想法也很少会出现，“大”想法就更不用说了。更加常见的情况是，我们只能凭借微小的、渐进式的，有时甚至是偶然出现的想法取得进步。

对可预测性的认知能力

预测之所以难做与其之所以重要的原因是一样的：预测是主观事实与客观事实交汇的产物。从噪声中区分信号既需要科学知识，也需要自知之明，比如，平静地承认我们无法预测的事物、勇敢地说出我们能够预测的事物，还有就是明智地区分二者的不同。

多年来，对于我们能否预测世界的观点经历了各种兴衰成败。一个简单的衡量标准就是，学术期刊中“可预测性”和“不可预测性”这两个词出现的频率。20 世纪之初信号与噪声:大数据时代预测的科学与艺术 pdf，这两个词出现的频率相当。“大萧条”和第二次世界大战使得“不可预测”一词占据上风，而等到世界从危机中走出，“可预测性”一词便强势回归，在 20 世纪 70 年代达到顶峰。而最近几年，“不可预测性”一词又卷土重来，气势高涨。

对“可预测性”的认知能力受科学思潮和人类短暂的记忆力（比如记性不好的我们常会问，最近发生什么不好的事了吗？）的影响，要多于预测技能中的任何实质性改变对它的影响。我们对自己的预测有多满意和我们的预测准确与否，这两者之间或许是负相关的关系。20 世纪 50 年代，世界仍因为战争而动荡不安，局势相当难以预测，而到了 20 世纪 70 年代，人们以为自己能够预测所有事物，但实则不能，这两个 10 年相比，20 世纪 50 年代的经济和科学生产力更胜一筹。

作家约瑟夫·艾本斯坦曾经说过，完成一本书的感觉很棒，但是创作的过程却很痛苦。确实，写书需要有组织、有条理、有耐性，还需要其他许多品质，而我正缺少这些品质，撰写博客并没有帮助我养成这些品质。

因此，我得依靠那些拥有这些品质的人，他们的智慧或多或少地影响了本书的架构。

在此，我要感谢我的父母布莱恩·戴维·希尔福和莎莉·特伦·希尔福尔，以及我的姐姐瑞贝卡，谨将本书献给他们。

感谢编辑弗吉尼亚·史密斯，她在各方面都十分优秀，感谢劳拉·斯蒂克尼、安·戈多夫以及斯科特·莫耶斯这 3 位编辑对本书前景的信心。他们十分专业，编辑过的书几乎都饱受赞誉；当我需要更多的时间写作时，他们对我提出的各类借口十分宽容，对此，我深表谢意。

感谢我的文学经纪人赛德勒·克莱默，感谢他帮助我构思和运作本书的推广计划。他的建议谦虚有度信号与噪声:大数据时代预测的科学与艺术 pdf，却不过分低调，事实证明他的建议总是正确的。

感谢我的研究助理艾瑞基亚·米利肯为本书投入无比高的热情，对本书在科学和技术方面的兴趣导向产生了很大的影响。感谢茱莉亚·卡明，她的组织能力帮助我顺利通过几次创作的瓶颈期。还要感谢简·卡罗莱纳和埃伦·卡罗莱纳·波特，感谢两位能在高强度下完成本书的誊写工作。

感谢艾米丽·沃图巴、维罗妮卡·

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

信号与噪声:大数据时代预测的科学与艺术

相关推荐