首席数据官

Hi, 请登录

为什么要做数据分析?

马老师在多年前就提到,我们会从 IT 时代走向 DT 时代。当我第一次听到这句话时,说实话我没有啥感觉。那个时候,我也不知道数据是个啥玩意儿,给我的直观感受就是一堆数字而已。

当我进入数据行业之后,我其实对于数据本身的理解也没有多大进步,稍微进步的方面可能就在于我知道了数据原来是可以被处理的,而我就只是一直在处理这些数据罢了。当然我也了解到处理数据是为了获得一些结论,这些结论可能对应着各种各样的目的。

可能是随着自己这两年来对我所在业务的理解逐渐加深,直到最近,我才开始对数据慢慢有感觉起来。那些曾经的金句,“数据是生产资料”、“数据是石油”、“数据是企业最有价值的资产”...都是些大实话,只是这些东西,我个人花了好几年时间去理解。

从传统产业的角度去理解数据,很难想象数据的价值到底在哪。因为只有当企业开始慢慢数字化之后,数据的价值才会慢慢浮现出来。更为重要的是,企业老板们的数字化意识要首先建立起来,否则企业数字化就无从发生。

一堆数据如果就躺在那儿,本身并不会自然就产生价值,数据作为一种生产资料,只有当它投入到生成环节中,它的价值才会体现出来。而对数据的生产加工过程,数据分析是非常重要的一环。

为什么要做数据分析?

关于数据分析的价值,管理学大师彼得·德鲁克曾经有一句名言:你如果无法度量它,就无法管理它。

接下来,我们来看几个关于对数据进行分析而产生价值的案例。

数据新闻推动英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。

大数据与乔布斯癌症治疗

乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

微软大数据成功预测奥斯卡21项大奖

2013年,微软纽约研究院的经济学家大卫•罗斯柴尔德(David Rothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。

啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

一女生因为 42 条 iPhone 数据线走上人生巅峰

一哥们儿有次聚会时说自己买了很多条 iPhone 数据线,家里每个房间插一条,走到哪都能随时充电。在场的姑娘们都当成段子笑笑就过去了,只有个细心的姑娘悄悄问他买了多少条,那哥们儿说 42 条。现在她和他在北京三环内总共 42 个房间的数套豪宅内愉快地生活着,下个月结婚。

可以看到,数据分析产生的价值可以影响战争局势,也可以影响到我们的生命和生活。显而易见的是,训练自己的数据敏感度以及不断修炼自己的数据分析能力就是非常必要的事情了。

什么是数据分析?

在数据行业,有一个对数据分析的常见定义:

基于对业务问题的深入理解,利用数据分析工具对业务数据进行处理与分析,定位出业务问题的原因,从而指导业务决策与行动。

从这个定义中,我们可以看到要对数据进行分析,需要我们对业务本身有一定的理解,这一点在我以前的文章中就多次提到过。

我在和我的另一位搭档合作的过程中,也不断向他灌输 “理解业务” 的意识。因为作为数据工作者,不理解业务,就只能作为一个取数机器,对自身的职业发展非常不利。

数据分析怎么做?

要做好数据分析,我们需要知道现在常见的分析工具都有哪些。其实技术更新换代到现在,针对数据分析的工具已经非常非常多了,常见的比如说有:excel、sql 语言、python、统计学、数据挖掘算法与模型...

面对这些纷繁复杂的数据分析工具和语言,我们不需要全都去学,我们每个人的时间精力都是有限的,而技术发展是不会停止的。

我个人的学习习惯是,只有当我很明确知道我的业务需要我具备某种能力时,我就会拿出那种 “我不会,但我可以学” 的精神去学某种技术。顺便提一下,美团创始人王兴对 “我不会,但我可以学” 的行事态度非常推崇。

技术工具始终都是工具层面的事情,这些东西在真正实践的过程中去学是可以接受的;同时,在我看来学习效果也是最好的。

比较重要的是分析思维的建立,一些基本的分析方法论我们是需要重点去关注的。我就不止一次和我的工作搭档说 “具体的技术点我不会经常和你聊,这些东西你都可以 google,遇到问题我会兜底。反倒是我和你聊方法论的时候,你要重点去关注。”

数据分析方法,我们常见的分类有两种:描述性统计分析和数据挖掘算法。

描述性统计分析就包括,求和、记录数、平均、中位数、方差、最值、T 检验、卡方检验...

举个例子,比如我们开发两套课程,A 课程和 B 课程,现在我们针对这两款课程的付费情况做一下简单的分析。

假如运营一段时间之后,A 课程和 B 课程的付费总额(求和)都是 200W数据分析论文,这能看出什么?好像看不出什么,对吧,我们就此就得出 A 课程比 B 课程好之类的结论...从这个付费总额我们只能看出这两套课程的营收是一样的。

然后我们对数据处理一下,做一个去重统计,得到 A 课程的付费客户数是 100 个,B 课程的付费客户数是 20000 个。从这两个数据看上去,好像 B 课程的用户基数更大...A 课程的用户基础貌似没有 B 课程大,但是付费金额要高一些。从数据上又应该如何体现呢?

接下来,我们再对数据进行一下处理,我们可以看看 A 课程和 B 课程的人均付费金额(平均),得到 A 课程的人均付费金额是 20000 元,B 课程的人均付费金额是 100 元。从这里就可以看到,A 课程的客户里面,土豪更多一些哈。

然后我们还可以对数据做处理,我们可以分别看一下 A 课程和 B 课程的付费金额的中位数,发现 A 课程的付费金额中位数是 1W ,B 课程的付费金额中位数是 10 元。 从这里就可以看出来,不管是 A 课程还是 B 课程,有很多人是被平均的,那么真正的土豪到底会花多少钱呢?

最后,我们就可以简单排个序,看下 A 课程和 B 课程付费最多的土豪分别花了多少钱,也就是看一下付费金额最大值(最值)。得到 A 课程最土豪的哥们儿花了 5W ,B 课程最土豪的哥们儿花了 6W。所以,我们可以看到 B 课程虽然平均每个人花钱比较少,但是最有钱的人却是在 B 课程这里玩儿~

数据挖掘算法就包括,回归、时间序列、聚类、决策树、关联、购物篮分析、协同过滤...

举个例子,这里我们拿聚类这个算法简单看一下刚刚那个 A/B 课程的案例。

在各种分析理论中

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论