数据大未必是大数据—-三谈大数据时代_数据资讯

大数据时代，只要数据够多，就能称为大数据公司吗？实则不然，大数据与否取决于数据规模，结构复杂性和关联性。

前不久写了一篇《迎接大数据时代》的文章，发表后颇有反响。一些朋友找我去开这方面的会，一些媒体采访发这方面的文章，一些资本想找这方面的项目投入。这可有点似曾相识燕归来的感觉了。当年写过关于WEB2.0革命，写过网络平台大数据时代赚钱，写过开放，业内和社会上也都有过类似反应，想搭顺风车，混吃混喝的大有人在。为了避免以往悲剧的产生，减少鱼龙混杂，以假乱真的现象，只好多写几篇这方面的感想，权作免责条款吧。

极而言之，如果全世界网民的网络行为记录都能紧密整合在一起，那当然称得起大数据这个名称。反之，如果只有一个网民的一条孤零零网络记录，那当然撑不起大数据这个概念。问题在于如何在这两个极端之间，找到一个划分大数据与否的区分点，或者找到一组指标，能够具体衡量数据量从量变到质变的相对标准。这无论在学术研究上或是在商业实战上都很重要。试想若是某个公司自认为自己网络服务产生的数据量很大，觉得可以自称大数据公司了。于是说服董事会和投资者加大这方面的投入，购买大批专用设备和第三方专业服务，组建这方面的团队。经过一段时间的实践，发现投入产出不成比例，建立在大数据基础上的商业模式和产品服务研发不能得到理想的回报，那岂不是个悲剧？

以我的观察和实践经验，网络业中一个公司是否称得起拥有大数据至少要从三个维度考量：

数据规模----所谓大数据最基本的要求当然是数据规模大，但很难给出一个绝对的数字标准来确定大小，而只能用一些模糊的感觉来相对比较。例如，一个公司在年度预算中有了专门的，显著的数据存储和分析预算（例如，总预算的3-5%），有了独立的数据处理和分析部门，有了比较完整的数据存储，安全和保密政策与管理流程，有了高度依赖数据分析结果的商业模式，那么，可以说这个公司面临着利用大数据的机会或挑战了。

数据结构----数据量只是反映数据性质的一个指标，也许还不是最重要的指标。一天产生一百万个T数据的公司也许算不上大数据公司，而另一个一天只产生一万个T数据的公司也许反而是个大数据公司，其奥妙在于数据结构的复杂性。例如，A公司拥有一亿用户，但用户在A公司网站上只干一件事或一类事，比如获取新闻资讯，买买东西，或者玩玩游戏。那么由此产生的数据量虽然不小，但结构简单，重复性高，分析起来很容易，无非就是根据用户背景和使用习惯分分组，归归类，简单数据挖掘基本功足够，扯什么大数据就有点故弄玄虚了。B公司只有一千万用户，却是个开放平台，用户在此可以干互联网能够支持的所有事情，网络行为又可分为个人，群体，组织等层次，那么这个数据的结构就够复杂，能够支持深度挖掘和复杂建模，因而就可以算作大数据。

数据关联度----网络业一个常见现象就是随着数据量的增加，用户行为所产生的数据间的关系越来越不清晰，越来越难以捉摸，越来越相互孤立，也就是所谓的数据碎片化。这种碎片化主要来自两个方面：一是网站结构碎片化，逻辑混乱化，各种产品与服务之间相互孤立化，因而导致数据之间关系断裂，关联度很低。例如，明明是同一个用户在一个网站上使用了十种不同的产品和服务，但由于其中五种无需注册使用，其他五种又需要分别注册使用，结果这十种网络行为的数据无法整合在一起，或者需要通过种种技术手段和工具进行高成本的数据整合，以至于入不敷出。这也就减少了数据的含金量，降低了数据的可挖掘度，使得无论数据量如何大，结构如何复杂，也形成不了大数据。反之，如果一个WEB2.0时代的开放平台，架构清晰，逻辑分明，用户与用户，用户与用户行为，行为与行为之间都具有确定的关联性，那么这样的数据就具有极高的含金量，极高的分析挖掘价值，也就可以形成大数据。

所以，简而言之，大数据与否取决于数据规模，结构复杂性和关联性，

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

数据大未必是大数据—-三谈大数据时代

相关推荐