首席数据官

Hi, 请登录

干货 :百度数据分析之道(PPT)

百度《数据分析之道》目录:

内容摘要:

1)数据分析是什么?

2)什么是做好数据分析的关键?

数据分析 之道

数据分析是什么?

字面拆解: 数据 + 分析

有骨有肉方成一个人

–分析是骨架(主)

–数据是血肉(附)

常见错误

–只有数据:机器报表不行么?

–只有分析:你是瞎猜的吧?

什么是做好数据分析的关键?

数据分析的核心:思路 > 方法

–思路:业务调研+逻辑思考+创新灵感+可行建议

–方法:汇总统计,Make it Simple(切忌喧兵夺主)

数据分析的价值与定位

–百度的T序列不重视数据分析(数据分析的能力难以评价)

–麦肯锡一个分析报告卖了上千万(仅有简单统计)

–数据分析对一个企业有巨大价值,作用于业务发展的前(探索)期或阶段性改进期(颠覆创新),先有数据分析,才能定业务模型,再后是建模优化(机器学习)

数据分析人才

–同样的数据,仁者见仁智者见智,分析人才的不可复制性

–做好数据分析的人不一定能当老大,但至少能当军师

分析要思考业务,尤其要接地气

数据分析要轻方法,重调研

–方法上,基本统计即可

–调研上,亲临一线去询问、了解实际情况,切近“数据空想”

–只有熟悉业务,才能提供有价值的分析和建议

客户流失仅仅是推广效果不够理想吗?

分析要言之有物,行之有效

数据分析,我们真的是仅仅想分析么? 价值

–分析报告的及格线是“言之有物” --- 事实

–优秀线是“振聋发聩”或“醍醐灌顶” --- 分析

–满分线是产生了切实有效的行动方案 --- 建议

分析实例:我们处于市场领先地位,针对次位的竞争对手近期发展进行数据分析

–及格线:竞争对手发展势头很猛,市场份额怎样变化

–优秀线:虽然竞争对手近期势头发展很猛,但实际上他突出的优势在X,劣势在Y,未来可能会采取什么行动,同时市场上的其它竞争对手也不容忽视

–满分线:针对于竞争对手的可能动作,我们有如下方面需要改进:加强优势A、B、C,与X达成进一步战略合作关系,并收购Y等等

汇总统计

起源:用单个数或者数的小集合捕获可能很大值集的各种特征

–频率度量:众数

–位置度量:均值和中位数

–散度度量:极差和方差

–数据分布:频率表、直方图

–多元汇总统计:相关矩阵、协方差矩阵

汇总数据指标的设计,源于非常朴素的思想

标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考

–每个样本的偏差累加就可以衡量 (real num - mean)加和

–偏差较大的值应该具有更大的权重 (real num - mean)^2

–集合中数字越多,方差越大,应该与集合大小无关 Mean((real num - mean)^2)

–量纲与原始数据不同林彪 数据分析,无法比 Sqrt(Mean((real num - mean)^2))

–最终结果,RMSE

汇总统计 --- 需要多少样本

在美国总统选举的各种民意测验中林彪 数据分析,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢?

计算出N=1067,至少要一千个样本以上,才能满足需求

–Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到

–n是样本数量,n越大,置信区间越小

–p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大

汇总统计 --- 细拆与汇总的权衡

在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义。

OLAP 概念 --- 汇总统计的极致工具

机器学习 --- 模型为什么work?

为什么存在实例“毛泽东抽烟比林彪不抽烟活的久”,还要劝人不要抽烟?

–概率分布问题,“人事”与“天命”

–虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移)

如果没有附加的抽烟信息,如何从一组寿龄数据中作预测?

–目标:MSE做为评价指标,MSE越小越好

–方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小

通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁

如果再多一个酗酒的信息呢?

精心挑选的平均数

实例:小区业主申请减税 vs 卖房子

当数据分布呈现正态分布特点(钟形的曲线)时,均值、中位数、众数都落在相同的点上。而数据分布成有偏差的特征(类似于滑梯)时,那么均值、众数、中位数就相差甚远了。

以书思今,学以致用

–分布与平均数一样重要

–两个特例往往使得数据的统计结果产生很大的变化

无所不能的图形

同样一份数据,2010年的前6个月,使用产品的客户数量由最初的2w,以每个月100个的速度增长。

缺失或不匹配的比较

实例1(缺失的比较)

–临床显示,本药品在10分钟内可以杀死5w个感冒病毒

–数据因为缺失了比较对象,而毫无意义

实例2(不匹配的比较)

–美国海军的死亡率是0.9%, 而同时期纽约市民的死亡率是1.6%,得出结论参军是很安全的。

–比较对象不明确、或者根本不可比,也是常见的

以书思今,学以致用

–为什么评估策略效果要有对照组?

偏差的抽样

实例

–10个硬币抛1000次

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论