大数据应用技术介绍.ppt 69页_业务场景

四、空间大数据的存储文档集合数据库集合就是一组文档。集合是无模式的。多个文档组成集合多个集合数据库。它包含多个键/值对文档中的键/值对是有序的文档型数据库四、空间大数据的存储四、空间大数据的存储四、空间大数据的存储分类 Examples举例典型应用场景数据模型优点缺点键值（key-value） Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存，主要用于处理大量数据的高访问负载，也用于一些日志系统等等。 Key 指向 Value 的键值对，通常用hash table来实现查找速度快数据无结构化，通常只被当作字符串或者二进制数据列存储数据库 Cassandra, HBase, Riak 分布式的文件系统以列簇式存储，将同一列数据存在一起查找速度快，可扩展性强，更容易进行分布式扩展功能相对局限文档型数据库 CouchDB, MongoDb Web应用（与Key-Value类似，Value是结构化的，不同的是数据库能够了解Value的内容） Key-Value对应的键值对，Value为结构化数据数据结构要求不严格，表结构可变，不需要像关系型数据库一样需要预先定义表结构查询性能不高大数据应用场景 ppt，而且缺乏统一的查询语法。

图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络，推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址，N度关系查找等很多时候需要对整个图做计算才能得出需要的信息，而且这种结构不太好做分布式的集群方案。四、空间大数据的存储四、空间大数据的存储这便是一个document，使用JSON格式，一目了然。其中的"geom"即为Geometry类型的数据，即地理空间数据大数据应用场景 ppt，也是采用JSON格式存储，这样后续的空间索引与空间查询将十分方便。四、空间大数据的存储 >db.xqpoint.find({"geom.coordinates":[122.53233,52.968872]}) 精确查询邻域查询 >db.xqpoint.find({"geom.coordinates":{$near:[122,52]}})? >db.xqpoint.find({"geom.coordinates":{$near:[122,52]}}).limit(5) >db.xqpoint.find({"geom.coordinates":{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储范围查询 > box = [[80,40],[100,50]]?> db.xqpoint.find({"geom.coordinates":{$within:{$box:box}}}) > center = [80,44]?> radius =5?> db.xqpoint.find({"geom.coordinates":{$within:{$center:[center,radius]}}}) > polygon1 = [[75,35],[80,35],[80,45],[60,40]]?> db.xqpoint.find({"geom.coordinates":{$within:{$polygon:polygon1}}})? 五、总结大数据研究带来的挑战多源数据的分析和挖掘空间大数据的位置安全结合地理计算的可视分析可扩展的动态海量数据管理新的数据共享机制需要建立 /slides/1224 * /imotov/boston-hopper-elasticsearch-hackathon /guide/en/elasticsearch/reference/master/search-aggregations-bucket-missing-aggregation.html * Hbase shell Hbase与RDBMS 数据类型：Hbase只有简单的字符串类型。

大数据应用场景 ppt_大数据应用场景_各种数据算法应用场景

数据操作：Hbase只有很简单的插入、查询、删除、清空操作，没有复杂的表和表之间的关系。存储模式：Hbase是基于列式存储，每个列族由几个文件保存，不同列族的文件是分离的。数据维护：更新操作是替换版本，删除只是逻辑标记可伸缩性：参考资料 Lucene搜索结构基于文档的搜索 Tika是一个内容抽取的工具集合。支持work，ppt，execl，PDF等大数据统计 Elasticsearch：开源的分布式实时搜索系统，结合Hbase实现海量数据存储和检索，同时提供索引数据统计功能，满足海量数据的实时统计要求。ya 软件兴企报国创造引领未来 Thank You! 空间大数据目录一、大数据的涵义与研究意义二、与空间信息和位置相关的大数据三、空间大数据的应用四、空间大数据的存储五、总结一、大数据的涵义与研究意义大数据：大型复杂数据集的聚合，这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。一、大数据的涵义与研究意义大数据的特点：１）Volume（体量大）：大量TB级以上已有的数据等待处理；２）Velocity（速度快）：需要响应以s甚至ms计的流数据不断产生；３）Variety（模态多样）：数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存；４）Veracity（真伪难辨）：由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性；５）Value（价值）：大数据使得人们以前所未有的维度量化和理解世界，蕴含了巨大的价值，大数据的终极目标在于从数据中挖掘价值。

大数据的核心：预测一、大数据的涵义与研究意义研究大数据的意义：科学进步图灵奖获得者吉姆?格雷提出：大数据是科学研究的第四范式，是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。科学研究方法的发展真正的革命并不发生在分析数据的机器，而在于数据本身和我们如何运用数据。一、大数据的涵义与研究意义研究大数据的意义：社会变革 2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。 21世纪数据的价值有可能等同于20世纪的石油，大数据研究使得人们降低了对因果关系的渴求，而关注相关关系。只需要知道是什么，而不需知道为什么。这将使得理解现实和做决定的基础也将受到根本性挑战。社会价值一、大数据的涵义与研究意义研究大数据的意义：经济增长二、与空间信息和位置相关的大数据指直接或间接关联着相对于地球的某个地点的数据，包括自然地理数据和社会经济数据。空间媒体数据地理数据轨迹数据包含位置的数字化的文字、图形、图像、视频影像等媒体数据，主要来源于移动社交网络、微博等新型互联网应用指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据，可以被用来反映用户的位置和用户的社会偏好。

大数据应用场景 ppt_各种数据算法应用场景_大数据应用场景

位置大数据的分类二、与空间信息和位置相关的大数据地理数据内容：土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。特点：数据体量大、较为规则化、变化较慢。二、与空间信息和位置相关的大数据轨迹数据内容：个人轨迹数据、群体轨迹数据、车辆轨迹数据等特点：数据体量大、信息碎片化、准确性较低、半结构化出租车轨迹数据示例二、与空间信息和位置相关的大数据社会交流、个性化信息推送、驾驶安全、智能驾驶为个人生活服务城市规划、疾病控制、智能交通、节能减排、环境保护、应急响应企业调度、门店选址、广告推送、位置营销为企业经济服务为城市运行服务位置大数据的作用三、空间大数据的应用 1.空间大数据与智能交通Inrix是美国的一家交通数据处理公司，也是全球领先的道路交通信息和驾驶员服务供应商。他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。三、空间大数据的应用利用大数据预判未来交通信息和路况是核心 2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。

三、空间大数据的应用 2015年2月11日，国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。千方科技在国内智能交通行业具有深厚的理解和市场、技术积累，INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。双方将结合各自的优势，整合交通信息化及数据分析解决方案和产品，共同拓展智能交通行业市场，双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流，提升双方专业化及技术能力。不过，由于涉及国内职能部门的数据保护问题，国内手机用户还未能够体验这款App。三、空间大数据的应用 2.空间大数据与社会生活 2014年春节期间，百度地图定位可视化大数据播报的国内春节人口迁徙情况。 2015年最近一周南京夫子庙景区热力图三、空间大数据的应用 3.空间大数据与应急管理 2013年4月15日，波士顿马拉松爆炸案事发几小时内，数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上，这些照片和视频图像来自各种相机，手机和平板电脑。不到一天时间，嫌犯被确认并在纽约被抓获这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合，建立的城市安全与应急新体制位置大数据研究涉及到数据采集、数据处理、计算和存储以及可视化等一套完整的方法体系四、空间大数据的存储四、空间大数据的存储海量数据的高效存储支持丰富的数据类型处理速度快数据库应当易于扩展大数据下对于数据库的需求四、空间大数据的存储 CAP NOSQL BASE 不保证遵循 ACID原则分布式的非关系型的四、位置大数据的存储必须保证两者权衡一致性可用性分区容错性 BASE 四、空间大数据的存储灵活高可用性高性能易扩展 NoSQL数据库的特点四、空间大数据的存储 Key-value型文档型图形数据库列式存储四、空间大数据的存储定义一个大的有序结构数组HashValue[m]，用来存放各信息查询哈希表哈希函数当查询的时候再使用哈希函数得到这个下标值编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值x Key-value型单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式单击此处编辑母版标题样式大数据应用技术介绍 2014年2月 Hadoop生态系统 Hadoop生态系统 Sub Project 描述 common 分布式文件系统和通用I/O的组件与接口（序列化，Java RPC和持久化数据结构） Avro 支持高效的跨语言RPC和持久数据存储的序列化系统 MapReduce 分布式数据处理模型和执行环境，运行在大型商用机集群 HDFS 分布式文件系统，用于大型商用机集群 PIG Pig是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。

Hive 分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言（由运行时引擎翻译成MapReduce作业） Hbase 分布式、按列存储的数据库。HBase使用HDFS作为底层存储，同时支持MapReduce的批量式计算和点查询（随机读取） ZooKeeper 分布式、可用性高的协调服务。提供类似分布式锁的基础服务。 Sqoop 在数据库和HDFS之间高效传输数据的工具 Flume 分布式、可靠、和高可用的海量日志聚合的系统。 Chukwa Chukwa是基于Hadoop的大集群监控系统，由yahoo贡献。 Hadoop介绍 HDFS 特点 HDFS缺点 HDFS 部署结构 HDFS 读写过程 MapReduce 部署结构 MapReduce 计算模型 Input k1, v1 Map k2, v2 Reduce k3, v3 Output MapReduce 扩展接口 InputFormat Mapper Partitioner Reducer OutputFormat Map Reduce MapReduce实例 MapReduce内部结构 Hadoop 2.0 引入一个新的资源管理系统YARN H

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！