首席数据官

Hi, 请登录

大数据:大数据知识框架汇总

一、什么是大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合魔镜大数据可视化,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。IBM提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

二、大数据技术

GFS、BigTable、Map-Reduce三篇论文是Hadoop的基础。

Hadoop相关组件介绍

HDFS:分布式文件系统,提供高吞吐量访问应用程序数据;

YARN:集群资源管理框架,用户作业调度和集群资源管理;

MapReduce:基于YARN的大数据集并行处理系统;

Common:支持其他模块通用功能,如序列化,RPC,持久化数据结构等;

Ambari:部署管理和监视的开源框架,提供直观操作工具和健壮性的API;

Hbase:可拓展的分布式列式数据库魔镜大数据可视化,支持大表的结构化存储;

Hive:分布式数据仓库系统,提供基于类SQL查询语言;

Mahout:机器学习和数据挖掘领域经典算法实现;

Pig:高级数据流语言和执行环境,用来检索海量数据集;

Spark:快速通用计算引擎,支持多应用的编程模型;

Sqoop:在关系型数据库与Hadoop之间进行数据传输的工具;

Tez:从MR演化而来的通用DAG计算框架,作为底层数据处理引擎;

ZooKeeper:提供Hadoop集群高性能的分布式协调服务。三、大数据应用

大数据应用方向主要有:可视化分析、数据挖掘算法、预测性分析、语音引擎、数据质量与管理。

3.1 啤酒与尿布

全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

3.2 意料之外:胸部最大的是新疆妹子

淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。

3.3 魔镜”预知石油市场走向

如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝,而且是真实世界中的一款神器。其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,而且是国内首款喔。

在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论