一、大数据的简介以及个人思考1、大数据的定义
通俗的说法:
大数据,按照我的理解比较通俗易懂的是在数据量很多很大的情况下数据处理速度需要足够快,用我们以前传统意义上的的技术比如关系型数据库mysql没办法处理或者处理起来非常复杂,必须有一些新的处理技术也就是大数据处理技术来帮助我们实现数据处理的需求。
正式的说法:
1、是指无法在可承受的时间范围内用常规软件进行捕捉、管理和处理的数据集合。
2、是需要新的处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
3、大数据加云计算被认为是继信息化和互联网后整个信息产业的第三次革命。
2、大数据的特征
网上各种参考资料关于大数据的特征和定义都有各自的说法,有些说是'5v'特征,有些说是'4v'特征,有些的概括内容的多点,有些概括的内容少点,其实我们并不需那么纠结和论证哪个说法更为准确点,这又不是考试题目的得分点,没有什么标准答案,只要关注核心的理论点能够帮助你去理解大数据,通过自己的经验和实践有自己的认知,能够分享他人自己的认识他人能够理解就行了。
比较核心的理论特征是:
1、数据量巨大大数据应用场景,可以从两方面去理解。一方面是从进入信息时代到目前为止产生的数据很多达到ZB(数据计量单位)之多,另一方面是数据增长量巨大,随着数字化、信息化、互联网化以及物联网化,各种各样的应用越来越多,未来每个人每个机器每时每科的各种行为都会被当作数据录入到系统,可想而知数据增长得多少。
2、数据来源以及类型多,数据可以来自于现有的软件系统,未来可预见的软件系统,以及各个物联网传感器等等;文本/图片/视频等各种结构化(有固定的格式)、半结构化以及非结构化数据,数据类型复杂多样对数据处理能力提出更高要求。
3、要求处理速度快,基本上在如此大的数据量业务人员也是要求能够在短时间内获取数据处理结果,得到数据反馈。
4、数据价值密度低,数据量巨大有价值的数据很少,需要从海量的数据提取想要的信息表困难,所以很多数据分析以及数据挖掘技术也由此而诞生,所以还是那句话,需求和场景迫使大家去总结经验创造新技术来解决问题。
3、大数据带来的变革
1、更多,因为诞生了很多大数据处理技术,作为业务人员我们可以很贪心的想要更多更全的数据来帮助我们更好地做业务运营、决策,让数据驱动业务,让数据更有价值,我们只需要交给专业的数据人员来处理。
2、更好,现在数据处理技术可以很方便的关联更多信息和数据,让数据与数据之间有了更多的相关关系,也可以用可以各种数据清洗技术协助我们过滤不必要的数据,再者可以用数据挖掘技术得到更有价值的数据帮助业务成长。
3、更杂,数据的类型和来源繁多,数据也是更加复杂了,与之配套的清洗和数据应用起来也是更复杂,凡事都是有利有弊,带来了好的东西同时也带来了些不好的东西,所以很难有完美的东西存在。
4、关于大数据的个人思考
1、大数据必经的三个层面
想要从事大数据的相关工作,基本上都是从大数据的基础理论学起,然后开始大数据相关技术组件的学习,最后就是公司实际项目的锻炼。学习的路线大体上是按照这样的层次结构去进行,也没有必要说等我这个层次的所有知识学习完了再进入下一个层次的知识学习,很多时候先学习实践一些层次的核心理论之后再不断的补充完善自己的知识面,先让自己能够理解胜任现有的工作让自己的整个流程跑起来,至于过程中的那些不懂的知识点记录起来慢慢去弄懂和理解大数据应用场景,有些时候真的是积累到一定程度了才能真正的去理解这些东西。还有我觉得信息、计算机、自动化专业的会比较有优势,因为学习过专业的计算机基础理论知识,理解这些东西会更加容易些。
2、大数据是互联网发展到一定阶段的表象或者特征,没有必要神话它。
3、大数据不仅仅是技术,关键是产生价值,要让大数据在很多应用场景产生很多数据产品来驱动业务,提升业务。
4、至于公司对大数据的使用原因基本上都是随着业务的发展,数据量增大,数据价值越来越突出。经历的过程基本上只是从简单的运用部分大数据处理技术解决现有问题,到梳理数据梳理业务需求采用更加专业的数据架构打通数据搭建统一大数据处理平台,最后上升到数据资产平台上升到数据应用、数据产品。
5、关于的大数据培训课程认识
1、概览类培训课程
这是最常见的培训课程,其实很多行业的公司对于大数据都只停留在概念或者别人家公司使用的层面上,会邀请一些外部人员来组织大数据的培训。这类培训课程培训受众比较普遍,知识点通俗易懂。一般涉及以下内容:
1.大数据是什么?
2.大数据的特征和结构?
3.大数据时代的机遇和挑战?
4.大数据的发展过程、发展现状、发展趋势?
5.大数据的行业应用、行业案例、行业场景?
内容比较宽泛,例子比较贴近生活,对于我们开发人员来说更关心为什么这么做、怎么做以及做的更好。
2、解决方案培训
这里是专门针对具体行业具体的一些应用、场景的培训,主要讲利用哪几个大数据组件搭建大数据平台解决数据问题,一般涉及到数据架构设计、比较深入讲解怎么实现。比如电商行业比较热门的就是用户画像、商品画像、推荐系统、个性化push。这种培训基本上是大数据服务提供商神策、GIO或者是平台服务提供商阿里云、腾讯云当然我们也有有赞云来针对某个行业的需求以及痛点给出大数据技术解决方案。
3、针对大数据组件详细介绍培训
具体介绍某个组件的具体知识点,比如基础概念定义、如何使用、环境搭建、基本原理、应用场景、高级应用以及与其他技术集成使用,比较深入详细介绍这个技术点,能够对日常工作有指导作用,这类培训课程比较深入要专业的大数据开发相关人员才比较感兴趣。
二、大数据技术分类
大数据技术不单单是指一门技术,它包含的技术组件种类繁多差不多我目前所知道的有三四十种组件,其中著名的肯定就是hadoop家族的组件,以下的图就是我截取的目前hadoop家族组件图,大家可以感受下。
大数据组件技术一直在发展,先前说了大数据的爆炸增长带来更多的应用场景,需要更多的技术来满足这些应用场景。目前为止,很多大数据组件技术都是有开源版本的,在apache下都可以下载,大数据技术的快速发展得益于开源社区的不断活跃,很大程度上是大家共同推进技术不断进步。笔者因为技术水平有限并不能成为这
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。