首席数据官

Hi, 请登录

大数据分析常用软件工具综述

摘要:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。在大数据时代已经到来的时候,要用大数据思维和工具去发掘大数据的潜在价值。面对高数据量、高维度与异构化的特点,以及分析方法思路的转变,传统统计工具已经难以应对。众多新的软件分析工具作为深入大数据洞察研究的重要助力,已成为数据科学家必须掌握的知识技能。

关键词:大数据 数据挖掘 软件工具

中图分类号:TP301 文献标识码:A 文章编号:1007-9416(2015)11-0000-00

在维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》[1]??中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种程度上说,大数据是数据分析的前沿技术。本文针对数据分析与数据挖掘研究人员的实际情况,介绍当前大数据研究涉及的一些主要工具软件。

1传统分析及商业统计

传统数据分析最广泛使用的软件工具是Excel。作为电子表格软件,适合简单统计需求,其内置的数据分析工具箱不仅方便好用,功能也能基本齐全。其自带的数据分析功能也可以完成专业数据分析工作,比如:描述性统计、相关系数、概率分布、均值推断、线性、非线性回归、多元回归分析、时间序列等内容。其缺点在于功能单一,处理数据规模小,不能海量数据分析,作图功能也相对较差。

SPSS是一款商业统计分析软件,它轻量、易于使用,SPSS是世界上最早采用图形菜单驱动界面的统计软件,操作界面友好,输出结果美观。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。

SAS统计分析软件,功能丰富,具有强大绘图能力,且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。

上述三种软件应对传统数据分析绰绰有余,但在面对大数据环境则出现了各种不适应。大数据的海量原始数据需要经过降维和统计汇总才可使用这些进行研究。

2通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,Tableau是卓越代表。其能帮助人们看清并理解数据,不同个体快速且简便的分析、可视化和分享信息,能够将数据图片转化为数据库查询。Tableau 的优势主要在于支持多种大数据源和可视化图表类型,拖拽式的使用方式,非常适合研究员使用。

3关系分析

关系分析是大数据环境下的一个新的分析热点(比如信息传播图、社交关系网等),其本质计算的是点之间的关联关系。大数据的意义在于从海量的数据里寻找出一定的相关性,寻找的就是非相关数据的相关性。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,最常用的是Gephi。Gephi主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具,依赖于它的APIs,开发者可以编写自己感兴趣的插件,创建新的功能。

4时空数据分析

数据量越来越大,人们对时空数据的实时处理和探索显得越加困难。如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间、地理分布、发布设备等,涉及到了各个维度上的聚合统计,并且在时间和空间维度还涉及到了不同的粒度。为了支持多维度、多粒度时空数据的实时聚合分析,可使用 NanoCubes,以对高维多粒度的时空数据进行高效的存储和检索,提供对亿级时空数据的快速展示和多级实时钻取探索分析。

5 大数据处理编程语言

前面介绍的各种大数据分析工具,可应对的数据都在亿级以下数据分析工具,也以结构化数据为主。当面临亿级以上、半实时性处理、非标准化复杂需求,通常就需要借助编程(甚至借助于Hadoop/Spark等分布式计算框架)来完成相关的分析。

R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言是最适合统计研究

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论