提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。
本文列出了 25 个必须掌握的大数据术语。
算法(Algorithm)
指用于执行数据分析的数学公式或统计过程。那么算法与大数据有什么关系呢?虽然算法是一个通用术语,但大数据分析使得这个词变得更具时代性,更受欢迎。
分析(Analytics)
你的信用卡公司会将附有你全年交易情况的年终报表寄给你。如果具体看在食物,衣服,娱乐等方面花了多少钱呢?那么你就在进行“分析”。你正在从原始数据中获得一些见解,这可以帮助你决定来年的支出。
如果你对朋友、网络或者自己的公司发的推文以及 facebook 帖子进行同样的操作,那我们现在就涉及的就是大数据分析了。它是通过使用大量数据进行推论并得出结论。共有三种不同类型的分析。
1. 描述性分析(Descriptive Analytics)
如果你告诉我,去年你的信用卡消费中 25% 用于食物,35% 用于服装,20% 用于娱乐活动,其他的用于杂物大数据涉及的技术,这就是描述性的分析。当然,你也可以进行更详细的了解。
2. 预测分析(Predictive Analytics)
如果你分析了过去5年的信用卡记录,发现当中有一定的一致性,那么你可以较有把握地预测,明年的情况将与过去几年类似。值得注意的是,这并不是“预测未来”,而是“预测事情发生的可能性”。在大数据预测分析中,数据科学家会使用数据挖掘,机器学习和高级统计过程等先进技术,进行天气,经济等方面的预测。
3.规范分析(Prescriptive Analytics)
还是用信用卡的例子,你可能会想知道哪些消费目标(例如食品、娱乐、服装等)会对你的整体消费产生巨大的影响。规范分析通过包括“行为”(即减少购买食物、衣服或娱乐)和对结果进行分析,从而预测规范相应目标,从而减少你的总开销。将此扩展到大数据,你可以想象管理人员如何通过研究各种行为影响,从而做出数据驱动的决策。
批量处理(Batch processing)
尽管从大型计算机时代开始,批量处理就已经出现了。由于处理大型数据集,批量处理对大数据具有额外的意义。批量数据处理是处理一段时间内收集的大量数据的有效方式。稍后我将介绍的 Hadoop 就是专注于批量数据处理。
Cassandra
是由 Apache 软件基金会管理的一个流行的开源数据库管理系统。Apache 属于大数据技术,Cassandra 旨在处理跨分布式服务器的大量数据。
云计算(Cloud computing)
云计算已经变得无所不在,所以在这里仅处于完整性的考虑将其归纳在内。它本质上是在远程服务器上托管和运行的软件及数据,并可从互联网的任何地方进行访问。
集群计算(Cluster computing)
这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。
暗数据(Dark Data)
基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?
数据湖(Data lake)
当第一次听到这个概念,我还以为是在开玩笑。但这真是一个术语。数据湖是原始格式的企业级数据的大型存储库。与此同
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。