编者按:一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量)……这些成万上亿的数据让我们深刻地体会到,我们所生活的时代已经成为一个“大数据”时代,而“大数据时代”的讨论也开始与文化、商业、甚至政治紧紧挂钩。《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
然而到底什么是大数据?大数据和普通数据的关系是什么?我们应该如何甄别和运用这些庞大的数据?大数据的运用对于当前商业新模式的探索,甚至细化到陶卫产业的进一步创新开拓是否有会所帮助?
数据与大数据
进入2012年,大数据(bigdata)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
在2012年3月份,《纽约时报》网络版曾撰文称,随着科学技术的不断发展,人类即将迎来大数据时代。不少专家学者认同了这个大数据时代的说法,下一个时代的到来很有可能会被大数据所推动。MIT计算社会科学家以及人类活力实验室主任阿莱克斯·彭特兰教授是其中之一,“这种数据是我们新的资产,你会希望这些数据流动起来并使用它。”他相信未来是一个由数据推动的时代。
大数据这个说法最早是由全球知名咨询公司麦肯锡提出的,麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用,将预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡的报告发布后,大数据概念在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,因为近年来互联网和信息行业的发展而引起人们关注。
大数据,顾名思义,就是海量的数据,是由数量巨大、结构复杂、类型众多数据构成的数据集合,即就是包含网页、浏览习惯、传感器信号、智能手机位置跟踪、基因信息等资料量规模巨大的数据。它与一般的传统数据不同,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。
而数据,在拉丁文里是“已知”的意思,也可理解为“事实”,欧几里得在一般经典著作曾以“数据”为标题,这边本书用已知的或是可由已知推导的知识来解释几何学,如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它,这是传统意义上的数据。而大数据区别于一般数据的特征就是“大”。这些数据量如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P(1000个T),E(一百万个T)或Z(10亿个T)为计量单位。
国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB,1EB数据相当于美国国会图书馆中存储的数据的4000多倍。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快,以秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。
大数据时代的信息甄别与挑选
麦肯锡在一份名为《大数据,是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”。IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM执行总裁罗睿兰认为,“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”在国内,百度已经致力于开发自己的大数据处理和存储系统;腾讯也提出目前已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
大数据的获取
海量数据现在已经进入全球经济的各个部门。就像其他的生产必备要素(硬资产和人力资本)一样,许多现代经济活动离开了它也根本不能发生。然大数据是建立在掌握所有数据,至少是尽可能多的数据基础上的,因而借助大数据来进行分析论证,就需要去获取海量的数据。
资金投入获取数据是最精确的一种方法,即一个企业若是需要获得庞大的数据资源,则与某些国际性的数据机构合作,如IBM、CSM等媒介研究机构,企业通过金钱购买数据机构调研统计出的海量数据,因为这些机构人员的专业性能力较高,能从不同方面进行全面性分析,透过不断的数据挖掘,可以从海量的数据信息中获取到有效而精准的价值信息,数据价值高,所以一般资金耗费比较大。
一个实体店的开业是需要做实际的市场调查,分析当地客流、消费水平、消费习惯等等方面的信息,而这些信息得来是通过企业的业务人员或是市场人员进行实地考察大量了数据,并形成信息,网上商城也是如此,需要平时商品售卖数据的积累以及各大商城的价格、销量,或通过百度指数、百度统计等数据累计与分析。这就大数据获取的另一种方式,自身调研,这种数据获取需要长时间和大量精力来进行,工作量大,因而人工投入比较大,而且所接触范围的局限,所获取的数据资源繁复,不甚具体。
企业与企业之间信息交换融合。在工作中,企业获取信息更多方面是通过从合作伙伴和客户那里收集信息,通过双方所获得数据和信息进行交流互换,增加双方已知信息,如通过社交网站,新浪微博、Facebook进行交流获得,这些数据比较繁杂,存在部分信息缺失容量巨大,但也有部分信息则更为精细化和复杂化。
真假信息的甄别
到2012年4月,Facebook每天评论32亿条、新上传照片近3亿张,每周新增图片容量60TB,图片总量约2600亿张,已超过20PB,平均每秒3500次写操作。在这快速大量传递的大数据库中,就像是一个大染缸,是鱼龙混杂,质量参差不齐,并非所有的数据都是真实可靠的。
微博,拥有强烈的互动性、终端的便捷性与围观的无限性,拥有巨大的传播力和影响力。它通过个性化定制信息源以及对于通过转发功能将信息组织与传播链路的决定权交给了个体,又制定了信息流动的新秩序,实现了海量信息的重新组织,而且还通过转发功能实现海量信息的重新组织与增值,海量信息中存在很多无用信息,容易导致信息泛滥。例如,微博谣言。2011年一年,网上就出现了金庸“病故”、广州眼癌儿的母亲闹市跪求救助、“宁可为*绝不为师”的杭州“西子可儿”、“南昌大桥数百人自杀”等谣言,不仅给当事人造成伤害,不少人因不了解实情,亦出现不同程度的担忧甚至恐慌。
因而,面对海量数据的筛选与分析,必须要凭借丰富的阅历和正确的渠道来获取,“严谨就是关爱”,在海量数据的甄别中,需要抱着严谨求真的态度来对待。
价值信息的挑选
大数据无疑是有价值的,但是挖掘大数据的价值类似沙里淘金。根据技术研究机构IDC的预计,大量新数据无时不刻不在涌现,它们以每年50%的速度在增长,或者说每两年就要翻一番多。统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。斯坦福大学的统计学教授特TrevorHastie说,在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针”。大数据还为恶搞统计和带偏见的实情调查研究提供了更多的原材料。乔治梅森大学的数学家RebeccaGoldin说,这就是“数据利用最有害的方式之一。”大数据的价值所在,就是要清楚针的位置,以便能在茫茫的大海中打捞到它。
然而,目前国内企业对于信息的关注点仍停留在数据而非大数据上;其次因不少企业对在行业中的业绩、财务报表才会上心,而对于当地经济环境、市场容量、消费潜力、消费偏好、产品价位等行业大数据的研究力度不够,却投入极少;再次国内企业缺少相关的专业人才和足够大的数据储备空间的设备。
大数据的存储
大数据时代,很多数据在收集的时候并无意用作其他用途,或是对于其本身的用途并无意义。譬如视频监控,每天产生24小时的视频数据,绝大部分都没有利用价值。可能是几秒镜头捕捉到某罪犯体貌特征,对公安部门而言就是弥足珍贵的。为了这几秒钟,必须要保存全部的24小时。比方说,总部位于西雅图的交通数据处理公司汇集了来自美洲和欧洲近1亿量汽车的实时交通数据,这些交通数据信息能产生的价值要远远超过它们被单独利用时的价值,它们还可以用来平常一个地方的经济情况,因为它也可以提供关于失业率、零售额、业余活动等信息。
面对信令流量快速增长、扩展困难、成本高的情况,采用海量分布式文件系统,数据存储量不受限制,可以按需扩展,同时NoSQL数据库可以有效处理达PB级的数据,实时流处理及分析平台保证实时处理海量数据。
一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但对于文章来自于华夏陶瓷网大数据应用而言,必须要在1秒钟内形成答案,否则这些结果可能就是过时的,无效的。这使得大数据拥有者必须增加大处理数据的基础。
大数据时代对生活的影响
《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”大数据将为人类的生活创造前所未有的可量化的维度。
改变人类思维习惯
美国有句谚语叫“除了上帝,任何人都必须用数据来说话”。在小数据时代,我们会假想这个世界是怎么运作的,然后从建立假设开始,通过收集和分析数据行实验大数据时代 百度,证实或是推翻假设问题。但由于两者都是始于假设,这些分析就都有偏见影响的可能,而极易出错。然而,在大数据时代,我们会在大数据的指导下探索世界,不再受限于各种假想,并且在大数据的指导下,因为数据会发现以前不曾发现过的联系。
大数据可通数据的全面感知、收集、分析、共享,为人们提供了一种全新的看待世界的方法。更多地基于事实与数据做出决策,这样的思维方式,可以预见,将推动一些习惯于靠“差不多”运行的社会发生巨大变革。大数据时代对人最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
大数据是随着网络在全世界范围内普及到一定程度之后产生的、是特定时代的产物。也就是收如果离开网络,大数据时代也就无从说起。网络的普及其实在某些方面已经在默默的改变人类的思维与行为习惯。就像当下淘宝购物,消费者对产品好坏的评判已经不再仅仅局限于根据产品的材质与款式而做出,消费者更注重的是产品的好评率、好评内容、销量、还有店铺的总体得分。很多时候在面对同样两款产品的选择的时候,消费者往往都会选择销量更多的、评价更好的店铺购买。在这个过程当中,其实很多消费者已经默认销量跟多、评价跟好、综合评分跟高的店铺宝贝一定更好这种相关关系。所以说大数据时代,它是在潜移默化中影响人类的思维与行为习惯。
提高决策依据
在小数据时代,很多企业对自身经营发展的分析只停留在数据和信息的简单汇总层面,缺乏对客户、业务、营销风方面的深入分析,结构决策者只能凭借本能主观对市场的估测进行决策,价值定位不准确大数据时代 百度,存在很大的失误风险。
随着数据的不断发展,海量数据带来了截然不同类型的决策可能性。利用对照实验,企业可以测试各种假设和分析结果以指导投资决策和运营变革。事实上,实验可以帮助管理者将因果关系与单纯的相关性区分开来,从而减少结果的可变性和改善财务表现和产品性能。伴随着数据信息爆炸式的发展,数据价值正在逐渐形成辅佐企业成长的价值动力,在提供商业机会的同时,也让企业的数据管理回归理性。企业可以找到建立起从客户、经营、对手资料等一系列数据,对市场和自身进行科学评估,提出基于数据科学分析的企业产品定位,价值定位和企业的价值主张,从而提高决策力。
大数据时代的商业运用
有人预测,如果说2012年是大数据概念为人所知、引人瞩目、小试牛刀的一年,那么2013年大数据将会实现产品部署,早期投资获得回报,一小部分的产业被颠覆。到了2014年,各种大数据项目和系统很可能成为标准配置,到处可见。2015年消费者所面对的公司都在花费大部分时间用于研究外部信息,围绕大数据题材的整合并购开始加速。2016年开始仔细思考数据的使用,数据驱动的决策代替了直觉和常识。2017年,云和大数据、数据仓库合并起来,成为了一项服务,“分析即服务”和“数据即服务”成为主流。
今3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
变革商业
大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式,既可直接为企业带来盈利,也可通过正反馈为企业带来难以复制的竞争优势。据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别介绍3000亿美金和1000亿欧元,利用个人位置信息潜在可创造出6000亿美金的消费者剩余,因此大数据应用拥有超过万亿美金的大市场。
“数据是新的石油。”亚马逊前任首席科学家AndreasWeigend说。2012年4月9日,Facebook宣布以10亿美元的现金和股票收购Instagram公。据悉,Facebook成立于2004年,月度活跃用户8.45亿,估值高达千亿美元;被收购方Instagram,诞生551天,员工十数人,提供拍照分享服务,此次出售价为10亿美元。而正当Instagram以10亿美元出售之时,成立于1881年的世界最大影像产品及服务商柯达正申请破产。由此可见,无论是Facebook还是Instagram,都是当今互联网时代的产物,信息、数据是一块肥沃且富有创造力的新土壤,它们帮助当代企业以须臾之速达到了过去百年老店也未能企及的规模。
而且随着数据开始进入市场,使得大数据产生了一个中间人的价值关系链在里面,即数据研究机构以及百度数据库、淘宝魔方等数据拥有者,这些中间人通过数据的直接买卖在这个价值链上站了一个收益丰厚的位
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。