2017年3月28日晚8点30分,乐逗游戏挖掘团队负责人,资深R语言用户,业界知名讲师,多本专业图书的作者——Daniel谢佳标老师带来了主题为《数据可视化之美:经典案例与实践解析》的交流。以下是主持人hrshy整理的问题精华,记录了谢老师和读者间问答的精彩片段。
作者预订中的Chat专题:《用R语言探索数据挖掘》
问:希望老师能有更多原创内容和具体例子。
答: 数据可视化在当前是一个热门话题,旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。
可视化流程如下:
以游戏行业的数据为例d3js数据可视化实战,需要重点研究基于复杂数据的展现技术,提高游戏数据的直观性和可视性,使数据更易于被感知和接受,使用户可以参与知识发现的过程。基于游戏数据完整性不高、种类繁杂,相关指标复杂等特点,研究利用相关系数可视化展示不同游戏运营指标间的相似情况,通过可视化的手段展示各变量间的相关关系;通过sunburst事件路径图对用户的流向进行可视化展示;通过词云展示不同道具间的销售情况;通过对应分析研究用户购物偏好;通过关联规则可视化查看不同的道具间的关联关系;利用决策树图表示分类模型生成的规则。用户可以方便地以交互的方式管理和分析数据,得到知识,数据分析人员可以通过对原始数据的多维度可视化,了解数据的整体特征,不同参量间的相关关系等,为下一步数据分析建模提供依据。
比如,我们想对用户未来是否流失进行预测,可以先研究自变量与因变量(是否流失)间的关系d3js数据可视化实战,此时就可以借助相关系数可视化的手段来展现:
上图中的椭圆表示了变量两两间的相关系数值,其中椭圆的颜色代表了正负,绿色表示负相关,黑色表示正相关。椭圆的形状表示了相关系数值的大小,椭圆越扁说明相关系数值越大。从上图可以看出,性别对用户是否流失几乎没有什么影响,但是登录总次数和活跃度变量对用户是否流失有强相关性,说明这两个变量是影响玩家流失的主要因素。
我们可以利用随机森林模型中varImpPlot()函数查看每个属性的重要性。
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。