首席数据官

Hi, 请登录

依托于Spark平台的大数据挖掘技术分析论文

数据分析与挖掘论文_论文中的问卷数据怎么分析_如何从网络中挖掘大数据的营销价值

数据分析与挖掘论文_论文中的问卷数据怎么分析_如何从网络中挖掘大数据的营销价值

SCI论文():

摘要:大数据表现出数据规模庞大、数据类型多样化的特征,所以在实际开展大数据分析工作时,对数据处理速度以及数据处理实效性都有着较为苛刻的要求。数据挖掘技术是依托于特定的建模算法,从大规模数据中挖掘出其中的隐藏信息,充分发挥大数据的应用价值。Spark平台是一个面向海量数据集合的高效率集群分布式计算系统,依托于该平台开展大数据挖掘有助于获得更好的效果,本文对此开展了简单的探讨。

关键词:Spark平台;大数据;据挖掘技术

Analysis of Big Data Mining Technology Based on Spark Platform

CAO Haiping

(Hubei Land Resources Vocational College,Wuhan Hubei 430090)

【Abstract】:Big data shows the characteristics of large data scale and diversified data types.Therefore,when actually carrying out big data analysis,there are strict requirements for data processing speed and effectiveness.Data mining technology relies on specific modeling algorithms to mine the hidden information from large-scale data and give full play to the application value of big data.Spark platform is an efficient cluster distributed computing system for massive data sets.Relying on this platform to carry out big data mining will help to obtain better results.This paper makes a simple discussion on this.

【Key words】:Spark platform;big data;according to mining technology

0引言

在大数据时代背景下,无时无刻都会产生庞大的数据信息,根据相关研究数据显示,2020年我国产生的数据规模达到了9.1ZB,涵盖了金融、互联网以及医疗等许多不同产业,在这种情况下对大数据分析与挖掘提出了更高标准要求。所以,为了更好地满足大数据时代的数据处理需求,构建一个处理速度快、处理结果准确度高的计算平台十分重要。

\

Spark是在美国加州大学的一个AMP实验室中发明出来的,属于开源计算框架范畴,这种框架能够很好地满足大数据高性能分布式并行计算的要求[1]。Spark拥有较多优点,比如说能够与Python、Java等不同编程语言相融合,应用便捷;能够在大数据集上开展较为繁琐的查询;拥有良好的兼容性,能够兼容Yarn、Mesos等不同架构;处理效率高同时精准度好[2]。现阶段,Spark已经在国内外许多行业领域中有着十分广泛的应用。当下Spark平台在一些场景实际应用过程中,对大数据的处理仍然存在一定的不足,所以,必须要对其进行更加深入的研究,确保其能够更好适应数据挖掘与分布式机器学习需求。

1 Spark大数据生态系统与处理架构

Spark生态系统主要涵盖了三个层面,分别是Spark Runtime层、GarphX层以及Spark Streaming层[3]。其中Spark Core层属于核心层,主要囊括了Spark的主要关键内容,可以在核心功能分区开展分布式的算子,之后能够对Cluster Manager与Data Manager层的集群进行数据管理。在针对集群开展管理过程中可以依照具体管理状况选取适宜系统,例如HDFS、F3等。在现代社会工业发展背景下,应用范围非常广的便是Spark on Yarn[4]。因为Spark SQL是依托于SQL开展分布式工作内容查找的,MLlib通常是基于分布式机器学习库,来完成对Spark的系统化编写,同时利用大规模计算模块,依托于大数据的流式核算方法,可以让不同模块有效连接到一起,从而达到最终的目的。如图1所示为Spark生态组成架构图。

Spark Core是Spark Runtime中十分重要的组成部分,其涵盖的功能主要有任务管理与内存调控等,Spark在基于RDD这种架构实施数据传输过程中,首先应当要精准把握Spark的核心逻辑数据,该数据和目标概念有较多雷同的元素。其关键特征主要表现在以下几个方面:(1)任意一个数据合集都包含有较多个数据子集,同时任意一个数据子集都能够作为一个独立个体被传输到集群中的不同节点位置,并完成相应的处理工作;(2)计算中间环节均得到了有效的存储,从精准性视域出发进行分析,计算结果一样也能够在不同子集节点中存储相应内容;(3)当众多子集中有一个数据子集发生计算错误时,则需要重新更改与处理该子集,从而完成容错体系。

2 Spark开发环境及其分布式集群构建

依托于Spark平台进行数据挖掘技术,针对其进行深入探究就可以得知,能够创设有效的Spark集群[5]。在实际应用Spark集群过程中,基于Spark单机模式可以创设有效的Spark开发环境,同时针对集群中的部分内容进行初步系统开发,在完成Hadoop Yarn集群构建之后,可以实现将全部Spark集群放置在Yarn上面,从而构建优异的Spark应用开发平台。

\

2.1系统硬件

为了获得更好的兼容性与运行性能,应当要以Linux系统为载体开展Spark分布式集群创设。使用1个主机中的3台虚拟机开展环境检测,同时创设好相应的Spark分布式集群,主要包含了2个Worker节点以及1个Master节点,不同节点能够实现的功能各不相同。通常情况下和Master节点相匹配的是4G内存以及四核处理器。在这方面Worker节点与此有较大区别,该节点一般匹配的是2G内存以及二核处理器。此外,为了确保所有节点功能都可以充分体现,为各个节点配备SSD固态硬盘,不仅能够很好提高数据读写达标率,同时也可以有效强化运行效率与质量[6]。依托于对集群的合理管控,在进一步降低运行成本的基础之上,还可以实现更好速度的运转,得到更好的运行品质,同时还可以依照具体需求匹配科学的节点数量。

2.2 Spark的IDEA开发环境

IDEA不单单是属于Scala语言的开发环境,同时还是其运行的关键性载体,因此可以将IDEA当成是Spark应用程序编程以及开发环境。事实上IDEA在实际运用过程中会产生大量的数据缓存,既会占用较多的内存空间,也会浪费一定的I/O资源,为了有效避免该问题的产生,使用SSD固态硬盘来实现对不同文件的储存,确保其始终拥有优异的运行性能。当IDEA各项配置工作都结束以后,就能够正式开展Spark程序测试。

\

3依托于Spark平台的Apriori算法分布式实现

Apriori算法是建立在挖掘关联规则标准之上的反复项集算法,可以对交易数据库信息进行多次的查找与扫描,紧接着根据候选反复集得到相应的结果。如图2所示为依托于Spark平台的Apriori算法实现路径图,具体来说可以分为以下两个方面[7]:首先,产生反复项集,将事务集基于RDD<Srting,I>途径在不通过机器上进行分布,将各个项目数量进行相加,同时将支持度靠前的项集留存下来。其次,依托于反复集得到相应的反复项集,项集可以自主连接并得到CK+1,对数据库中的信息进行全面扫描,并依照CK+1获得反复项集。

4依托于Spark平台的分布协同过滤实现

4.1 MLlib算法库

Spark平台对机器学习给予了特别的关注,因此在实际运用过程中需要注意以下几个部分。因为机器算法涵盖了较多的流程,在实际开展迭代计算过程中,所有的计算都必须要写入到磁盘中做好启动准备,然而这种方式会占用较多的CPU资源。为了有效解决这一弊端,在依托于Spark平台运行过程中,可以将一些工作放置到系统内存中直接运行,并将迭代计算任务都放入到内存中,不仅有助于进一步强化迭代计算速度,同时也能够在特定情况下实现对磁盘与网络的控制。总的来说,Spark能够很好地适用于迭代计算,并且也能够支持分布式机器学习平台的构建[8]。此外,从通讯层面来分析,Spark表现出优越的综合性能,拥有非常高的通信速度。在进行分布式机器学习过程中,一些资源分布在各个集群节点上,在高速度通讯支持下可以进一步提高分布式算法运行效率。

\

4.2协同过滤算法

协同过滤算法是指大家在实际运用过程中会使用一个靠谱想法,同时将想法分享给用户。协同过滤算法途径主要涵盖了两个部分,分别是系统过滤以及协同过滤。首先,系统过滤是在众多用户中选择有相近喜好的用户,同时联系其具体爱好确定相关物品,将其整合到一起形成全新的集合。用

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论