四、空间大数据的存储 文档 集合 数据库 集合就是一组文档。 集合是无模式的。 多个文档组成集合 多个集合数据库。 它包含多个键/值对 文档中的键/值对是有序的 文档型数据库 四、空间大数据的存储 四、空间大数据的存储 四、空间大数据的存储 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。 Key 指向 Value 的键值对,通常用hash table来实现 查找速度快 数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库 Cassandra, HBase, Riak 分布式的文件系统 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 文档型数据库 CouchDB, MongoDb Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 查询性能不高大数据应用场景 ppt,而且缺乏统一的查询语法。
图形(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络,推荐系统等。专注于构建关系图谱 图结构 利用图结构相关算法。比如最短路径寻址,N度关系查找等 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。 四、空间大数据的存储 四、空间大数据的存储 这便是一个document,使用JSON格式,一目了然。其中的"geom"即为Geometry类型的数据,即地理空间数据大数据应用场景 ppt,也是采用JSON格式存储,这样后续的空间索引与空间查询将十分方便。 四、空间大数据的存储 >db.xqpoint.find({"geom.coordinates":[122.53233,52.968872]}) 精确查询 邻域查询 >db.xqpoint.find({"geom.coordinates":{$near:[122,52]}})? >db.xqpoint.find({"geom.coordinates":{$near:[122,52]}}).limit(5) >db.xqpoint.find({"geom.coordinates":{$near:[122,52],$maxDistance:5}}).limit(5) 四、空间大数据的存储 范围查询 > box = [[80,40],[100,50]]?> db.xqpoint.find({"geom.coordinates":{$within:{$box:box}}}) > center = [80,44]?> radius =5?> db.xqpoint.find({"geom.coordinates":{$within:{$center:[center,radius]}}}) > polygon1 = [[75,35],[80,35],[80,45],[60,40]]?> db.xqpoint.find({"geom.coordinates":{$within:{$polygon:polygon1}}})? 五、总结 大数据研究带来的挑战 多源数据的 分析和挖掘 空间大数据 的位置安全 结合地理计算的 可视分析 可扩展的动态 海量数据管理 新的数据共享机制 需要建立 /slides/1224 * /imotov/boston-hopper-elasticsearch-hackathon /guide/en/elasticsearch/reference/master/search-aggregations-bucket-missing-aggregation.html * Hbase shell Hbase与RDBMS 数据类型:Hbase只有简单的字符串类型。
数据操作:Hbase只有很简单的插入、查询、删除、清空操作,没有复杂的表和表之间的关系。 存储模式:Hbase是基于列式存储,每个列族由几个文件保存,不同列族的文件是分离的。 数据维护:更新操作是替换版本,删除只是逻辑标记 可伸缩性: 参考资料 Lucene搜索结构 基于文档的搜索 Tika是一个内容抽取的工具集合。 支持work,ppt,execl,PDF等 大数据统计 Elasticsearch:开源的分布式实时搜索系统,结合Hbase实现海量数据存储和检索,同时提供索引数据统计功能,满足海量数据的实时统计要求。ya 软件兴企报国 创造引领未来 Thank You! 空间大数据 目录 一、大数据的涵义与研究意义 二、与空间信息和位置相关的大数据 三、空间大数据的应用 四、空间大数据的存储 五、总结一、大数据的涵义与研究意义 大数据:大型复杂数据集的聚合,这些数据集的规模和复杂程度常超出目前数据库管理软件和传统数据处理技术在可接受时间下的获取、管理、检索、分析、挖掘和可视化能力。 一、大数据的涵义与研究意义 大数据的特点: 1)Volume(体量大):大量TB级以上已有的数据等待处理; 2)Velocity(速度快):需要响应以s甚至ms计的流数据不断产生; 3)Variety(模态多样):数据来源和类型繁多文本、图片、视频等结构化和非结构化数据并存; 4)Veracity(真伪难辨):由于数据的噪音、缺失、不一致性、歧义等引起的数据不确定性; 5)Value(价值):大数据使得人们以前所未有的维度量化和理解世界,蕴含了巨大的价值,大数据的终极目标在于从数据中挖掘价值。
大数据的核心:预测一、大数据的涵义与研究意义 研究大数据的意义:科学进步 图灵奖获得者吉姆?格雷提出:大数据是科学研究的第四范式,是从计算密集型科研发展到以大数据为基础的数据密集型科研方法。 科学研究方法的发展真正的革命并不发生在分析数据的机器,而在于数据本身和我们如何运用数据。 一、大数据的涵义与研究意义 研究大数据的意义:社会变革 2009至今美国政府全面开放了40万联邦政府原始数据集。大数据已成为美国国家创新战略、国家安全战略、国家IT产业发展战略以及国家信息网络战略的交叉领域、核心领域。 21世纪数据的价值有可能等同于20世纪的石油,大数据研究使得人们降低了对因果关系的渴求,而关注相关关系。只需要知道是什么,而不需知道为什么。这将使得理解现实和做决定的基础也将受到根本性挑战。 社会 价值 一、大数据的涵义与研究意义 研究大数据的意义:经济增长 二、与空间信息和位置相关的大数据 指直接或间接关联着相对于地球的某个地点的数据, 包括自然地理数据 和社会经济数据。 空间媒体数据 地理数据 轨迹数据 包含位置的数字化的文字、图形、图像、视频影像等媒体数据,主要来源于移动社交网络、微博等新型互联网应用 指通过GNSS等测量手段以及网络签到等方法获得的用户活动数据,可以被用来反映用户的位置和用户的社会偏好。
位置大数据的分类 二、与空间信息和位置相关的大数据 地理数据 内容:土地覆盖类型数据、地貌数据、土壤数据、水文数据、植被数据、居民地数据、河流数据、行政境界及社会经济方面的数据等。 特点:数据体量大、较为规则化、变化较慢。 二、与空间信息和位置相关的大数据 轨迹数据 内容:个人轨迹数据、群体轨迹数据、车辆轨迹数据等 特点:数据体量大、信息碎片化、准确性较低、半结构化 出租车轨迹数据示例 二、与空间信息和位置相关的大数据 社会交流、个性化信息推送、 驾驶安全、智能驾驶 为个人生活服务 城市规划、疾病控制、智能交通、 节能减排、环境保护、应急响应 企业调度、门店选址、广告推送、位置营销 为企业经济服务 为城市运行服务 位置大数据的作用 三、空间大数据的应用 1.空间大数据与智能交通Inrix是美国的一家交通数据处理公司,也是全球领先的道路交通信息和驾驶员服务供应商。他们设计的APP是一款致力于为全球交通问题带来智能数据和先进的分析方法的交通智能化平台。 三、空间大数据的应用 利用大数据预判未来交通信息和路况是核心 2012年英国伦敦奥运会利用INRIX软件和在线服务确保交通顺畅;在美国有超过25个州的交通部门使用INRIX数据辅助交通管理。
三、空间大数据的应用 2015年2月11日,国内智能交通行业领军企业北京千方科技股份有限公司与INRIX签署战略合作协议。 千方科技在国内智能交通行业具有深厚的理解和市场、技术积累,INRIX在欧美地区具有成熟的交通信息化解决方案和先进理念。双方将结合各自的优势,整合交通信息化及数据分析解决方案和产品,共同拓展智能交通行业市场,双方将在交通大数据分析、增值挖掘、交通仿真等技术方向深度交流,提升双方专业化及技术能力。不过,由于涉及国内职能部门的数据保护问题,国内手机用户还未能够体验这款App。 三、空间大数据的应用 2.空间大数据与社会生活 2014年春节期间,百度地图定位可视化大数据播报的国内春节人口迁徙情况。 2015年最近一周南京夫子庙景区热力图 三、空间大数据的应用 3.空间大数据与应急管理 2013年4月15日,波士顿马拉松爆炸案事发几小时内,数以千计的在场群众将事发现场拍摄的照片和视频放到了公共网络平台上,这些照片和视频图像来自各种相机,手机和平板电脑。不到一天时间,嫌犯被确认并在纽约被抓获 这是一种典型的利用空间社会媒体的位置大数据与反犯罪机构的专业能力结合,建立的城市安全与应急新体制 位置大数据研究涉及到数据采集、数据处理、计算和存储以及可视化等一套完整的方法体系 四、空间大数据的存储 四、空间大数据的存储 海量数据的高效存储 支持丰富的数据类型 处理速度快 数据库应当易于扩展 大数据下对于数据库的需求 四、空间大数据的存储 CAP NOSQL BASE 不保证遵循 ACID原则 分布式的 非关系型的 四、位置大数据的存储 必须保证 两者权衡 一致性 可用性 分区容 错性 BASE 四、空间大数据的存储 灵活 高可用性 高性能 易扩展 NoSQL数据库的特点 四、空间大数据的存储 Key-value型 文档型 图形数据库 列式存储 四、空间大数据的存储 定义一个大的有序结 构数组HashValue[m], 用来存放各信息 查询 哈希表 哈希函数 当查询的时候 再使用哈希函数 得到这个下标值 编写一个哈希函数将关键值的名字转换为HashValue[m]中的某个下标值x Key-value型 单击此处编辑母版标题样式 单击此处编辑母版标题样式 单击此处编辑母版标题样式 单击此处编辑母版标题样式 大数据应用技术介绍 2014年2月 Hadoop生态系统 Hadoop生态系统 Sub Project 描述 common 分布式文件系统和通用I/O的组件与接口(序列化,Java RPC和持久化数据结构) Avro 支持高效的跨语言RPC和持久数据存储的序列化系统 MapReduce 分布式数据处理模型和执行环境,运行在大型商用机集群 HDFS 分布式文件系统,用于大型商用机集群 PIG Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。
Hive 分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业) Hbase 分布式、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取) ZooKeeper 分布式、可用性高的协调服务。提供类似分布式锁的基础服务。 Sqoop 在数据库和HDFS之间高效传输数据的工具 Flume 分布式、可靠、和高可用的海量日志聚合的系统。 Chukwa Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。 Hadoop介绍 HDFS 特点 HDFS缺点 HDFS 部署结构 HDFS 读写过程 MapReduce 部署结构 MapReduce 计算模型 Input k1, v1 Map k2, v2 Reduce k3, v3 Output MapReduce 扩展接口 InputFormat Mapper Partitioner Reducer OutputFormat Map Reduce MapReduce实例 MapReduce内部结构 Hadoop 2.0 引入一个新的资源管理系统YARN H
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。