首席数据官

Hi, 请登录

大数据的典型应用场景及展望

大数据的典型应用场景及展望2015 年 1 月 24 号,2015 China Hadoop Summit 技术峰会在北京如期 举行。本次大会作为国内大数据行业最具影响力的 IT 大会,吸引了 众多从事 Hadoop 研究与推广的权威技术专家、Hadoop 技术爱好者 和 IT 厂商前往参加。 现任星环信息科技(上海)有限公司联合创始人兼首席技术官,曾任英 特尔数据中心软件部亚太区 CTO 的孙元浩老师在本次大会上带来了 主题为《2014 年大数据的典型应用场景及展望》的分享,本文主要 针对目前 Hadoop 主流应用场景,实时流数据的处理以及大数据技术 给未来生活的设想等内容进行了整理。四年前的硅谷,风投埃里森拿出一亿美金来投资大数据公司,他认为 Hadoop 技术在未来的若干年中会从底层的数据平台,从传统的关系 型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代, 可视化层和应用分析会有更多的新工具出现, 并认为这个市场将达到 几百亿美金的规模。 过去几年,Hadoop 的发展非常迅猛。我们常讲大数据的四 V 特征, Hadoop 在大数据处理上表现出的处理量、性能、挖掘能力的提升和 碎片化处理能力,使其得到越来越广泛的应用。

一、Hadoop 的主流应用场景:数据仓库的主要组成部分 传统的企业有若干个主机,用于销售、运营管理等等,产生的数据首 先经过 ODS 层,将数据从多个业务系统中集中起来,进行清洗、转换等集成操作,然后将过加工的数据进入企业 IT 架构的核心——数 据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传 统的企业数据仓库的架构, 经常采用主流的甲骨文等数据库技术来实 现。 Hadoop 作为数据仓库组成部分的四个驱动力 互联网公司早年的时候,是把 Hadoop 做在数据仓库的核心,比如 Facebook 早期的时候是从服务器采集是通过实时的日志的采集工具, 经过 Hadoop 把 Hadoop 作为数据分析工具,呈现把结果放在甲骨文 中做展现。 互联网公司之所以这么做, 是因为互联网数据量大到在传统的数据库 不能处理。现在传统的企业也面临同样的问题,将 Hadoop 作为数据 仓库主要组成部分有四个驱动力: 效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理 的延迟从一天到了一周。 成本:传统的数据架构成本动辄几千万。Hadoop 可以实现成本若干 倍的降低。 数据来源多样: 视频、 音频等企业非结构化数据来源增多。

MapReduce 对于非结构化或半结构化数据的读取非常有效。 数据分析需求的演进: 数据分析不再只满足于统计。使用 Hadoop 的技术,能够对数据进行深度的挖掘和分析,实现对未来的预测。 Hadoop 改变企业数据仓库架构的线路图 第一步:数据仓库的补充2011、2012 年的时候 Hadoop 主要是作为数据仓库的补充在做数据 的清洗。这一层 Hadoop 很擅长。Hadoop 的优势是能够把计算任务 对全要素进行统计分析, 这是方式非常适合简单的场景, 早年 Hadoop 的最佳用途是作为 ETL 的平台, 第二步:逐渐进入核心 随着 Hadoop 生态系统逐渐完善, 有更多的数字化工具支持 Hadoop, Hadoop 开始进入数据仓库的核心领域。有些企业开使用 Hadoop 来 直接做数据可视化,在有些行业中已经开始用 Hadoop 逐渐取代传统 的关系数据库来建立数据仓库。从整个的数据仓库的架构来看,有一 半的架构已经开始被 Hadoop 覆盖了。 第三步:Hadoop 使资源管理变为可能,最终将取代企业完整的整据 仓库 在一两年之内有些企业完整的数据仓库架构都可能会被 Hadoop 取代 掉。

运营商大数据应用场景_大数据行业应用场景_大数据应用场景 ppt

过去企业数据仓库的时候任务很繁重,系统效率低下。造成这种状况 的重要原因是,客户把过多的负载放在数据仓库上面,数据仓库本身 又没有资源配合的方式。 Hadoop2.0 推出了管理框架,使得资源管理变成了可能,使得数据仓 库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的 业务都是动态创建虚拟集群实现的,每个集群都有一定的资源配额, 这样的配额用时不会超过这个配额, 使得用户任何的负载不会影响其 他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,24 小时不间断运行的保障。过去上千人在访问 Hadoop 的时候,也是 通过调度机制实现的, 随着 Hadoop2.0 的出现和资源管理能力的提升, 通过资源管理层可以方便的配置资源。 我们可以设定 CPU 的内存和存储资源,每个部门使用的时候有配额 的最低保障。当另外一个部门的用户上线使用的时候,比如创建了一 个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个 用户的资源被收缩了,更多的用户进来的时候,第一个用户的资源被 进一步收缩,收缩到一个最低的指标。一方面充分保障了每个用户最 低资源的配额,第二也保证系统整体运行的情况下可以充分有效利用 整体的计算资源。

二、 随着云计算和物联网的逐渐兴起大数据行业应用场景, 实时流数据的处理将成为关注 重点 云计算和物联网使得数据呈现两个主要特点。首先,数据在没有人工 干预的情况下 24 小时不间断的产生;第二数据并发量高,使得单一 的统计已经不能满足用户要求, 对数据模式的分析和深度挖掘的要求 增强 现在的大数据处理不光需要做统计,而是需要做机器学习,快速地检 测出异常的状态。 比如在交通行业部署的实时监控平台大数据行业应用场景, 这是一个发展得比较成熟的案 例,在全国已经得到了广泛部署。其主要用途是把路面上装的摄像机 的照片和分析出来的车牌等信息,实时的传送到中心的大集群中,然 后把所有的车流信息实时汇总至省级集群部署, 通过流处理形成实时的应用,比如说区间测速、实时路况、公安部实时布控的应用等。相 关数据也会进入到数据库,对外提供车辆轨迹的查询,实时路况的检 索,比如行车分析和交通管理的应用等。 过去在常见的部署架构中由数据集群做实时的处理时, 包括应用和查 询的功能,数据会经过蜂窝队列,分布量是非常高的,单节点的服务 器可以支撑一秒钟十万条结果的插入,基本上是满负荷。 传统的流处理加上 Hadoop,可以解耦前端应用和后端的分析应用。

运营商大数据应用场景_大数据应用场景 ppt_大数据行业应用场景

由于分布队列的吞吐量很高,可以在几百万个地方写入,可以基本满 足上千万传感器同时传送峰值的压力, 后端的是流处理的引擎做数据 分析。 我们把数据流按时间切片,每个小切片一百毫秒左右。我们需要在数 据经过这个流的时候在流上直接做异常检测,包括多种算法,最基本 的是希望将这些算法直接移植到流上,实现流式的异常检测。这里面 有一个挑战是,刚开始出现的异常可能并不准确,尽量要避免误报的 情况,通常会用 SQL 来做聚合和预先的数据处理,而 Spark 可以实现 小片的批处理流程, 我们在小的批量上能够实现延迟是一秒钟内可以 发出告警。 这种方式的好处是可以对实时数据和历史数据实现综合的分析, 都同 在一个数据库中,可以在上面用完整的统计分析的挖掘,包括可以做 计算和预测,这些分析超出了以前统计的范畴,而且需要历史数据和 实时数据进行统一的分析。这个领域今年可能会是比较热门的领域, 预计这个模式在物联网实时处理上得到更加广泛的应用。三、大数据技术能给我们的生活带来什么 我们把数据源分两大类: 1.人的行为产生的数据:包括网上购物、通过运营商通话、发微信都 会留下数据,这些分析无外乎是给客户提供更好的服务,或者是帮助 商家更准确的找到客户进行精准营销; 2.机器产生的数据:帮助发现一些客观规律,比如说交通的模式是怎 样的,用电的消耗量和气侯和电网的关系是怎样的,也对数据进行分 析和能够做实时报警和诊断优化生产线的流程提供依据。

数据分析和挖掘开始出现,目前还不是主流。大数据描绘的场景是能 够进行预测,这逐渐开始成为事实。 人流密度实时预警 比如通过对基站的数据基本上可以比较粗的定位人的大致位置。 通过 对数据进行密度的统计,可以非常迅速的找出区域内部密度的值,基 础值是每个基站每英里多少个用户数,这是基站可以提供的数据,利 用这个数据可以非常快的知道人群的密度。 也可以利用银联

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论