大数据时代，统计学方法有多大的效果？_数据资讯

我们从一个常见的场景聊起，相信大家经常看到媒体上，描述我们所在的行业或城市的平均收入时，绝大多数人会感到，自己的实际收入，远低于报道中的平均收入。

新闻里的平均数，往往用的是算术平均数，即工资总额除以人数。而往往那些少数的收入极高者，抬高了整体的平均值。

那，如果用中位数来算，即如有 100 人，从高到底排序，第 50 人的收入，作为平均值，是否没毛病？我曾看过某销售公司的招聘材料，宣传员工年收入的中位数是 60 万。的确很高，而且看上去比算术平均数合理。可我稍微打听了下，原来这公司，刚刚淘汰了排名后 30% 的销售人员。所以大数据时代下的统计，中位数显著高于行业平均水平。看似实锤的各种统计数据，背后都是满满的套路。

所以，统计这种神秘的语言，很多时候看似证据确凿，实际却会被无意或有意利用，成为恶意夸大、忽悠他人的工具，并让人作出错误的决策。

1954 年，达莱尔·哈夫，写下了《统计数字会撒谎》。这本书一经出版，便畅销美国长达 60 年，并被翻译成多国文字，在世界流传。

达莱尔用风趣的插图和通俗语言，把高深的统计学，写得像故事书一样精彩，给你揭露大量至今仍被销售员、专家、记者或者广告撰稿人沿用的「行骗方式」，如使用偏差样本、遗漏某些重要数据，混淆因果关系等。这本书是史上流传最广泛的统计学普及读物之一，与《漫步华尔街》《股票作手回忆录》等，一起并列为所有时代最伟大的 25 本投资经典之一。它将快速教会你，如何避免被数据忽悠，如何看懂这些数据背后真正的故事，从而做出正确的决策。

这本书，我主要想跟大家分享三点。第一点，是作者重点列出的，日常工作生活中，常见的八种误导方式。第二点，告诉大家，统计资料是如何被操纵的。第三点，是如何反驳统计资料，即只要通过五个问题，凭你双眼，就能识破并揭穿虚假的统计资料。更为重要的是，在具有欺骗性的数据海洋中，找出可靠有用的资料。

下面我们先来说说，有哪八种常见的误导方式。

先从 1949 年的一篇新闻报道说起，报道说，「1924 级的耶鲁毕业生，平均年收入为 25111 美元」。这在当时是一个非常高的收入，会让你感觉，只要把孩子送进耶鲁大学，他的下半生一定富贵。可真是这样吗？

常识告诉我们，25 年后，能够取得联系的人并不多。而且许多人不会回答涉及隐私的问卷。所以这个收入的数据，局限在一个特定的样本上，即能够取得联系，并愿意回答问卷的耶鲁学生。那么，这个样本真的有代表性吗？能代表没联系上，以及没回答的毕业生吗？而且还要假设，他们说的都是真话。也就是说，这个统计样本，是有偏向的。

所以，为了确保统计有价值，根据抽样得出的结论，一定要采用具有代表性的样本，即完全遵循随机原则，从总体中选出样本。但因为这样的难度很大大数

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

大数据时代，统计学方法有多大的效果？

相关推荐