《大数据技术应用场景解决方案.pptx》由会员分享,可在线阅读,更多相关《大数据技术应用场景解决方案.pptx(34页珍藏版)》请在悟道方案网上搜索。
1、,BIG DATA,大数据技术应用场景解决方案,目录,05,大数据计算与分析研判,04,大数据存储与管理,06,大数据项目建设经验,02,大数据概述,01,现状与问题,03,大数据采集与处理,PPT模板: PPT素材: PPT图表: PPT下载: PPT教程: 资料下载: 范文下载: 试卷下载: 教案下载: PPT论坛: PPT课件: 语文课件: 数学课件: 英语课件: 美术课件: 科学课件: 物理课件: 化学课件: 生物课件: 地理课件: 历史课件: DATA,1.1,用户使用方面,查询模式固化,01,查询操作复杂,02,查询效率低,03,结果不准确,04,结果不全面,05,缺少一个简便、
2、高效、准确的在线检索工具!,1.2,应用建设方面,交管,警综,户政,出入境,数据源,基础设施,部级系统,省级系统,市级系统,区级系统,业务系统,系统多了,资源分散,点对点交互,重复建设,共享困难,重复建设现象突出!信息如何有效共享?,1.3,数据的管理与应用方面,结构化数据,图像,音频,视频,非结构化信息的飞速增长为存储带来巨大压力,对非结构化信息的利用缺乏有效手段,矛盾,巨大的复杂的数据资源怎么用起来?,02,大数据技术概述,BIG DATA,2.1,大数据发展的萌芽期,大数据发展的突破期,大数据发展的孕育期,发展历程,大数据不是最近才有的, 数据一直存在,只是分析数据的技术近几年有了革命性
3、的突破!所以,大数据也可以称为一种技术“大数据技术”,90年代,2003年-2006年,2006年-2009年,2010年-至今,大数据发展的爆发期,2.2,概述,大数据指那些数据量特别大、数据类别特别复杂的数据集,并且这些数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务。,1、大量,2、多样,3、快速,4、价值,大数据,存储量大TB-PB计算量大,数据增长快处理速度要求快,数据来源多数据类型多,商业价值如:行为分析、信息挖掘 广告定投、信息预测,结构化数据、非结构化文档、视频、照片等,大数据不仅仅是“大”,2.3,大数据的发展方向,01,02,03,04,这方向最常见的问
4、题是数据的多源和多样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题,目前很多公司已经推出了多种数据清洗和质量控制工具(如IBM的Data Stage),大数据采集与预处理方向,在数据量迅速膨胀的同时,还要进行深度的数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的R Hadoop版、基于MapReduce开发的数据挖掘算法等等,大数据分析与挖掘方向,这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统、分布式数据库、NoSQL数据库相关技术的发展正在有效的解决这些方
5、面的问题。,大数据存储与管理方向,由于大数据处理多样性的需求大数据应用场景 ppt,目前出现了多种典型的计算模式,包括大数据查询计算(如Hive)、批处理计算(如Hadoop MapReduce)、流式计算(如Storm)、和内存计算(如Hana),而这些计算模式的组合使用将成为满足多样性大数据处理和应用需求的有效手段。,大数据计算方向,03,大数据采集与处理,Big Data,3.1,大数据采集的方式,大数据采集就是使用多种技术或手段 “组合出击”,将数据收集起来并存储在大数据存储系统中。根据数据的类型常见的采集方式包括一下四种:,01,数据库采集,通过ETL工具将分布的、异构数据源中的结构化数据经过清洗、转化、
6、整合操作后抽取到大数据存储系统,02,文本数据采集,通过各类接口从电子文件中获取数据的过程。可以将txtxmlwordexcelpdf等文件内的数据提取出来,并以结构化的方式存储大数据存储系统,03,实时流式数据采集,实时采集物联网内RFID标签、GPS定位设备、北斗定位设备、温度传感器等各类传感器的实时状态信息、位置信息,并以结构化的方式存储在大数据存储系统,04,多媒体数据采集,通过视频分析技术、图形分析技术将视频、图片文件内的要素信息提取出来,并以结构化数据存储到大数据存储系统,3.2,大数据采集工具(ETL采集工具),ETL即数据抽取(Extract)、转换(Transform)、装载
7、(Load)的过程。ETL负责将分散的、异构数据源中的数据抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库中。,Kettle,开源工具纯java编写,绿色无需安装支持Window、Linux、Unix运行环境依赖JDK可视化图形界面,Informatica PowerCenter,软件一次性购买,但技术支持按项目收费支持Window、Linux、Unix客户端与服务端分离可视化图形界面广泛支持各类结构化、非结构化的数据源,3.3,大数据采集工具(文件数据采集),零散文件(非结构化),快递、饮食店等员工名单,截获黑客犯罪人员电脑资料,小区住户、租户登记信息,旧犯罪记录等文字卷宗,文件
8、筛选,文件分类,Excel文件,Word文件,文本文件,PDF文件,内容抓取,人员和单位数据(结构化),审核入库,大数据存储系统,由于业务特点的不同,开源软件或商业产品的解决方案针对性较弱,更倾向于由软件开发商定制开发采集器,通过插件的方式扩展支持的文件类型。,3.4,大数据采集工具(实时流式数据采集),基于多源的实时流式数据(如:GPS定位信息、北斗定位信息、移动定位终端实时位置信息、传感器),提供数据接入、存储、分发、自动识别、报警、监控等实时处理功能。并支持通过插件的方式扩展接入类型。,车载终端,手持终端,固定设备,定位方式,终端支撑,各个业务系统,北斗,GPS,WIFI,RFID,基站
9、,网络,智能终端,04,大数据存储与管理,Big Data,4.1,大数据存储方案,大数据存储方案应该是根据数据的特点及业务需求进行“专项治理”,产品和技术选型应该不仅仅局限于1种产品或技术。一般大数据存储是由多种数据存储方案或技术组合使用。,1,2,3,4,5,存储方案,高增长、海量关系型数据存储方案(Hbase),海量大个文件存储方案(Hadoop HDFS),海量小文件存储方案( FastDFS),高速缓存方案(Redis),传统关系型数据存储方案(Oracle集群、MySQL集群),4.2,传统关系型数据存储方案,应用场景:用于存储结构化的人员、物品、组织、数据字典等数据或业务关联紧密
10、的事物性数据技术选型:Oracle RAC 或 MySQL集群特 点:MPP架构、数据结构固定、数据量相对较小、安全性及稳定性较高,MySQL集群,4.3,高增长、海量关系型数据存储方案,应用场景:用于存储数据量大且数据增长量较快的数据(如:卡口过车信息等)技术选型:HBase集群特 点:运行在Hadoop之上适合超大数据量的写入,数据按列存储、只访问查询涉及的列-大量降低系统IO,4.4,海量大个文件存储方案,应用场景:适合存储、访问、下载大个文件(通常是指百MB、GB、甚至GB大小的文件),如视频网站类应用。技术选型:HDFS 分布式文件系统特 点:运行于廉价的商用机器集群上、多副本、采用
11、了切分存储的方式,4.5,海量小文件存储方案,应用场景:对海量小文件进行管理,包括:文件存储、文件同步、文件上传、文件下载。如:百度文库、相册网站等应用场景技术选型:FastDFS 分布式文件系统特 点:不对文件进行切分存储、适合小文件存储、支持线性扩容,05,大数据计算与分析研判,Big Data,5.1,大数据计算,大数据计算的核心思想是:分而治之大数据应用场景 ppt,把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。,5.1,大数据计算-海量数据检索,智能检索,检索结果以“档案”形式展示,5.2,大数据离线计算,文本分析和数据分类、聚类对人力情报信息通过文本分析工具进行处理,实现关键词提
12、取,包括地名、敏感词语(如6.4事件、老兵、上访、嗑粉等)、人名、各类号码等,生成人力情报关键字库(也称“标签库”)。同时基于关键词库,关联分析技术、聚类分析技术,实现热点情报、相似情报等宏观分析。文本分析工具文本分析是文本挖掘、信息检索的一项基本技术,是指对文本中表示其特征项的“关键词”自动识别与提取,可以实现word文档内情报信息的解析和标签属性创建。标签
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。