大数据时代已经到来,你了解吗?一、大数据出现的背景 进入2012 年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时 代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街 日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中, 甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。 据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企 业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、 全面的洞察能力提供了前所未有的空间与潜力。 早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的 挖掘和运用, 预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境 生态学等领域以及军事、金融、通讯等行业存在已有时日, 却因为近年来互联网和信息行 业的发展而引起人们关注。 大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络 行为数据。
这些数据的规模是如此庞大,以至于不能用 来衡量,大数据的起始计量单位至少是P(1000 个T)、E(100 二、什么是大数据?信息技术领域原先已经有“海量数据”、“大规模数据”等概念,但这些概念只着眼于数据 规模本身,未能充分反映数据爆发背景下的数据处理与应用需求,而“大数据”这一新概念 不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术 与应用三者的统一。 1、大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流 软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的 的资讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据 库,也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。 大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增 长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具 处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法 的数据集。 亚马逊网络服务(AWS)、 大数据科学家 JohnRauser 提到一个简单的定义:大数据就是任何 超过了一台计算机处理能力的庞大数据量。
研发小组对大数据的定义:“大数据是最大的 传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据 是可能不包含所有的 信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是 如此之大,分析它需要多个工作负载,这是AWS 的定义。 2、大数据技术,是指从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包 括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术,包括 大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算 平台,互联网,和可扩展的存储系统。 3、大数据应用,是 指对特定的大数据集合,集成应用大数据技术,获得有价值信息的行为。 对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务 需求、数据集合和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有 着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展如何认识大数据时代,才 能充分实现大数 据的价值。 当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何 使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。
这与传统的 数据库相比,开源的大数据分析工具的如Hadoop 的崛起,这些非结构化的数据服务的价值 在哪里。 三、大数据的类型和价值挖掘方法 1、大数据的类型大致可分为三类: 1)传统企业数据(Traditionalenterprisedata):包括 CRM systems 的消费者数据,传统的ERP 数据,库存数据以及账目数据等。 2)机器和传感器数据(Machine-generated/sensor data):包括呼叫记录(CallDetail Records), 智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。 3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如 Twitter,Facebook 这样的 社交媒体平台。 2、大数据挖掘商业价值的方法主要分为四种: 1)客户群体细分,然后为每个群体量定制特别的服务。 2)模拟现实环境,发掘新的需求同时提高投资的回报率。 3)加强部门联系,提高整条管理链条和产业链条的效率。 4)降低服务成本,发现隐藏线索进行产品和服务的创新。 四、大数据的特点 业界通常用 Volume、Variety、Value、Velocity)来概括大数据的特征。
具体来说,大数据具有4 个基本特征: 1、是数据体量巨大 据体量(volumes)大,指代大型数据集,一般在10TB 规模左右,但在实际应用中,很多 企业用户把多个数据集放在一起,已经形成了 PB 级的数据量; 百度资料表明,其新首页导 航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5 千亿张 A4 纸。有资料证实,到目前 为止,人类生产的所有印刷材料的数据量仅为200PB。 2、是数据类别大和类型多样 数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限 定的结构化 数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式, 更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。 3、是处理速度快 在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1 秒定律”,可 从各种类型的数据中快速获得高价值的信息。 4、是价值真实性高和密度低 数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传 统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。
以视频为 例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。 五、大数据的作用 1、对大数据的处理分析正成为新一代信息技术融合应用的结点 移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这 些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对 不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济 和社会价值。 大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据 分析和激发管理创新的环境(Ramayya Krishnan,卡内基梅隆大学海因兹学院院长)。 2、大数据是信息产业持续高速增长的新引擎 面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域, 大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算 等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的 发展。 3、大数据利用将成为提高核心竞争力的关键因素 行各业的决策正在从“业务驱动”转变“数据驱动”。对大数据的分析可以使零售商实 时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持; 可以帮助企业为消费 者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和 药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重 4、大数据时代科学研究的方法手段将发生重大改变例如,抽样调查是社会科学的基本研究方法。
在大数据时代,可通过实时监测、跟踪研究对 象在互联网上产生的海量行为数据,进行挖掘分析如何认识大数据时代,揭示出规律性的东西,提出研究结论和 对策。 六、大数据的商业价值 1、对顾客群体细分 “大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定 的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分 析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。 2、模拟实境 运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装 有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook 和微博等社交网络也在产生着海量的数据。 计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以 数据化。“大 数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断 不同变量(比如不同地区不同促销方案)的情况下何种方案 投入回报最高。 3、提高投入回报率 提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。
“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大 数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。 4、数据存储空间出租 业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用 户两大类。 主要是通过易于使用的 API,用户可以方便地将各种数据对象放在云端,然后再像使用水、 电一样按用量收费。目前已有多个公司推出相应服务,如亚 马逊、网易、诺基亚等。运营 商也推出了相应的服务,如中国移动的彩云业务。 5、管理客户关系 户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失 率、提高客户 消费等。对中小客户来说,专门的CRM 显然大而贵。不少中小商家将飞信作为初级CRM 使用。比如把老客户加到飞信群里,在群朋友圈里发布新产品预告、特价销售通知,完成 售前售后服务等。 6、个性化精准推荐 运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分 析算法后,可以将 之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户 增值部分的分成。
以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。 通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了 有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商 DoCoMo 的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店 消费,消费频次多少,然后精准推送优惠券给用户。 7、数据搜索 数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求 也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是 将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。 运营商掌握的用户网上行为信息,使得所获取的数据“具备更
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。