不请自来,这个话题很有讨论的价值
在回答“我需要什么样的数据分析工具之前”,需要问自己几个问题:
一、为什么需要数据分析?
这个问题的含义,不是去质疑数据分析本身的价值,而是做数据分析我们需要去思考,我做的数据分析对于我的价值有哪些。这里可以罗列一些简单的,数据分析背后我们的诉求:
为什么需要厘清这个问题,因为每一个具体的,做数据分析的需求背后,都对于你需要的工具有着不同的需求,个人的想法是,没有万能的工具,只有最契合你的需求的工具;只有认可了这一点,才能真的开始有效率地学习和使用新工具。
那现在我们可能会面临一个新的难题:我知道了我需要用到数据分析的场景,那么我怎么知道在这个场景下需要用到什么样的工具呢?
这个时候excel数据分析自动化,我们就需要回答下一个问题:
二、理想当中的数据分析工作流是什么样的?
在面对繁多的工具的时候,我们往往会被各种炫酷的功能和产品演示淹没,学了这个,看看又觉得那个不错,总是担心捡了芝麻丢了西瓜。今天看着Excel觉得对着表格一同操作可以统计各种东西,明天看到Tableau那炫目的案例库又觉得可视化分析才是王道,三天两头心猿意马,反倒是没法沉下心来学好一件工具。
问题在于哪里?问题出在我们面对诸多的产品,选择了用自己宝贵的时间和精力去迁就/适应产品,而非让产品来“适应”我们,这种“倒贴”式的学习当然累而且成效不显著
所以整个过程中,我们需要不停的问自己:我需要的是什么?我想要的是什么?弄清楚这些,你会觉得有些产品体验极佳,有的工具就是对不上你的胃口
所以我们需要设想一个“理想的数据分析工作流”,也就是你希望的数据分析的样子:
举两个朴素得过分得例子:
小明每天的工作就是从公司的数据库当中拿出表格进行分析,每天的任务就是统计一些KPI来做文字汇报,顺便生成简单的可视化报表,对于小明来说,他的理想是每天上班的时候泡一壶茶,对着数据分析的工具点几下,输入一些东西,KPI的统计值就出来了,然后自己就可以专心去写汇报的文案了
小红每天的工作,是了解产品A/B测试的情况,每天的任务是实时拿到最新的测试数据集,然后进行在线分析和猜想验证,对于她来说,数据分析的工具最好就是,她有个什么想法就可以立刻去印证/反证,得出的结论可以直接反馈给其他同事帮助他们做决策
上面的两个案例中,小明和小红对于理想的工作状态是什么是有很大的差别的,这里对于理想的数据分析状态有一个小小的总结:
*理想的数据分析工作流有两种模式:决策驱动型数据分析 与 任务驱动型数据分析。
两者的区别顾名思义,前者是将数据分析的结果作为辅助决策(产品决策,营销决策)的利器,而后者当中,数据分析的结果本身就是目的。
而基于这个分类会衍生出两个对于工作模式的子分类:可控型数据分析与自动化数据分析。
可控型数据分析,追求的是在分析的过程当中对于分析的环节高度可控,就像上面的小红excel数据分析自动化,她可能需要控制每次拿到的数据究竟是多少天内的,每次A/B test怎么分组,拿到的数据当中哪些数据是异常数据等等。
而自动化数据分析,则是一种“托管”模式,对于上面的小明来说,数据分析只是个必要但是他不想花时间的事情,如果有人能替代他做掉这件事那是最好的,如果不能,那最好这个工具可以自动化的解决他的问题。
*为什么说是理想的,因为现实的场景下往往是决策驱动型和任务驱动型的数据分析混合的情况。
三、如何选择工具
上面总结了两种不同的工作流(决策型,任务型),以及两种工作模式(可控型,自动化),所以我们有2×2=4种组合,那么再说一下每个类别下我们对于工具的要求
决策型 + 自动化:
2. 决策型+ 可控型:
3. 任务型 + 可控型
4. 任务型 + 自动化
下面我们分几点来说明:
那么说了这么多,可以针对市面上的一些产品做一些分析了~
四、数据分析工具的分析
这里我们把数据分析的工具分成三个大类,每个大类都点出一个代表(欢迎大家补充)
表格系:
代表:Excel
爸爸级的数据分析工具,背后有着强大的团队作为实力担保,对于很多任务驱动型的数据分析来说,往往Excel已经是一个足够好的选择了,Excel自己的产品内容非常的丰富,分析的效率和稳定性都不错
对大部分人来说,Excel最终没能成为他们的核心工具是他的学习曲线,如果需要熟练的使用其60%的功能,可能只需要投入20%,但是从入门到精通(60% -90%),这里面就需要很多奇技淫巧了,这也是一个老产品的必然:越到了后期为了达到服务更多需求的目的且更好的满足不同技能等级的用户,Excel的“技巧”必然是越来越多的,这就导致了学习的时候会难以感觉到“学”,而更多的是“习”,To be honest,好的工具其实是用着用着就知道了该怎么用它,而不是单纯地依靠肌肉记忆来提升熟练度。
这也是我们对表格系的工具的一个整体看法:在任务驱动型为主的数据分析工作中,表格系的数据分析工具依然是最好的选择,因为大部分的表格系产品都有着相对简单的入门门槛和技术要求,能够高效率稳定的解决任务驱动型的问题,特别是其中需要自动化的问题。
而这一系列的产品为了确保入门门槛低以及适应的人群丰富这两个有些矛盾的点,往往是功能技巧繁多,可操作上限高但是后期学习曲线陡峭,而且,该类产品用久了之后比较难去适应其他的,哪怕是同类型的产品。
2. BI系:
代表:Tableau
严格来说Tableau和BI系工具的关系更加微妙一些,但是从使用体验上来讲,Tableau可能是所有BI产品的原型机和参考系
Tableau的核心优点,在于其围绕数据可视化和数据看板这两个主题进行的工具构造,我们往往是被Tableau Gallery里面那些五光十色的可视化模型吸引进而开始使用。而Tableau本身的特色其实反而是基于可视化看板的对于数据/数据流的处理,相比于表格系的产品,Tableau给予用户对于数据操控的自由度更高,同时极尽所能地赋能用户的数据表达,在保证这些的同时还能够做到入门门槛较低且适用人群较广,这些优点使得Tableau成为了数据(可视化)分析的标尺
而绝大部分的BI系工具都或多或少了继承Tableau的上述特色:
更高的数据操控自由度(方便联接不同的表格,自由拉取字段等等)赋能用户的数据表达(各种可定制化的看板,报表等)入门门槛较低,适用人群较广
站在数据分析类型的高度来说,BI系的产品升级了工具自动化的体验,并且同时顾及任务驱动型和决策驱动型的数据分析的工作场景,同时赋予了用户相较于表格系的产品更多的控制。
而其相比于表格系的不足,便是其对于数据本身的直观认知较低,同时用户对于数据分析实现的方法往往是难以了解的(所谓的黑箱化),同时在赋能用户的数据表达能力上也是有一定的局限性的。
3. Jupyter系:
代表:JupyterLab/和鲸K-Lab
从上面得两个大类,我们不难看出,无论是表格系的工具还是BI系的工具,其共性是对于参与数据分析的门槛要求很低,人人都能轻松上手,但是凡是有利有弊:简单易上手的工具往往要达到精通就需要很强的对工具依赖性(上文提到的学习曲线),同时大量的功能在使用的时候是工具提供者精心打造的,往往在工具使用的自由度上限上有所限制。
而Jupyter系的产品完全是从另一个角度出发来构造自己的数据分析工具,Jupyter系,或者宽泛点说,所有以编程为基础数据分析工具,其核心在于最大限度地给予用户数据分析的自由度和控制性,进而让用户能够最大程度的施展自己的能力。同时,该系列工具不容易让用户产生强的工具依赖性,以及更加
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。