数据挖掘研究方向_技术分析

数据挖掘领域主要包括以下方面：

研究热点是大数据挖掘、社交网络和大规模图挖掘。

下面，在说一下什么是大数据挖掘，它跟传统的方法其本质区别是什么？

大数据挖掘可以分为三点：算法的扩展、分布式框架开发、多源数据融合分析。

通过阅读KDD’13，KDD’14，几篇KDD’15的 big data session 中的文章，几乎百分之百的文章都提到了算法的scalability。由此可见，现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说，现在研究的算法在不仅仅能处理小规模数据集，当数据增加时也具有较大范围内的适合。

算法的扩展理解为两个方面：scale out-纵向扩展以及scale up-横向扩展。

这里所说的“大数据”，在不同的挖掘领域（文本、图结构、机器学习、图像）所对应的数据量是不同的。对文本来说，几百万个样本可能就是“大数据”；对机器学习来说，千万个样本，几十维、几百维（MB/GB）就是“大数据”；对大规模图挖掘来说，千万级节点、亿级边（GB），也是“大数据”；对图像数据，百万级图像（TB）完全可以称得上“大数据”。

那么，要做算法的可扩展性是不是必须用到并行技术、分布式编程技术？答案是一般需要，但并不绝对。

算法如果做到了极致，单台计算机也能处理“大数据”问题数据分析考研方向，比如：TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。文章仅仅在一台计算机上利用线程并行（多核）实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验（Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process）、有些文章是利用hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见，算法的实现方式不重要，重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘，可能不见得数据集有非常大，但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如： heterogeneous hashing 文章用了两个异构数据集（text、image）进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data，这篇文章就是融合了5个数据集（气象数据、空气质量数据、POI

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！