数据挖掘类本科毕业论文范文与基于数据挖掘的Greenplum分析有关论文范文

《基于数据挖掘的Greenplum分析》

该文是数据挖掘相关大学毕业论文范文和数据挖掘和Greenplum分析和Greenplum类论文范文文献。

摘要] 随着网络技术的发展,特别是移动互联网的飞速发展,互联网企业的业务不断拓展,每天通过各类平台产生的数据也成级数增长.面对数据量的不断暴涨,传统数据库的处理能力已是捉襟见肘,针对这种情况,提出了应用开源数据仓库Greenplum 作为企业运营的数据仓库,提高大数据处理的时效性,让企业决策者能快速感知市场变化,掌握市场先机,从而制定相应决策抢占市场,并通过关联规则挖掘算法在不同数据库上进行挖掘实验为例来分析Greenplum 的性能优势.

[关键词] 数据库；Greenplum；数据挖掘；数据处理

中图分类号：TP274 文献标志码：A 文章编号：1008-1739（2017）16-62-4

1 引言

据IT 与咨询公司Gartner 研究表明,全球的数据总量已达12 ZB,中国的数据总量在10 EB,并且数据在呈指数级增长,各行各业对大数据的依赖也日趋提高,企业对行业数据的掌控能力,决定着企业的未来.大数据价值被不断发掘的同时,人们对大数据重要性的认识程度也不断提高,企业对IT 相关方面的投入逐年增加,以满足企业发展的需要,我们已经进入大数据时代.在大数据时代,不管是政府部门还是大小企业,要想合理规划未来,都将不能像工业时代一样只依靠以往经验、领导的直觉或者简单的数据报表,而是建立在对相关行业数据深入分析和研究的基础之上,开源数据仓库Greenplum 就是应运而生的适合大数据处理的数据库软件系统[1].

2 Greenplum 数据仓库

Greenplum 是基于PostgreSQL 开发的一个分布式的数据仓库,它将任务分配给多个节点服务器主机,实现对事务的管理和处理.就用户体验来说,Greenplum 与传统的数据库相似,但对任务处理却有本质的区别.Greenplum 数据仓库是基于MPP 大规模并行处理和完全无共享架构的数据库软件系统,其架构如图1 所示.

Greenplum 数据主要由Master Host、SegmentHost 和Interconnect Gigabit Ethernet Switch 三部分组成.① Master Host 是Greenplum 数据仓库提供给用户的接口,具有权限的用户只需接入网络就可以使用Greenplum 数据仓库,用户将任务提交给Master Host,Master Host 将任务拆分并形成执行计划分配给Segment Host,并接受Segment Host 返回的执行结果给用户.Master Host 不存储用户数据,只作为全局视图,是整个数据仓库的中枢,负责管理所有的SegmentHost、所有存储在Greenplum 上的数据以及处理用户提交的服务请求；

② Segment Host 是Greenplum 数据库系统中具体任务的执行者,它接收Master Host 分发的任务,将执行结果返回给Master Host,并存储着整个数据仓库的用户数据.相对于Master Host,所有的Segment Host 是平等的,Greenplum 数据库系统根据哈希算法将用户数据存储到多个SegmentHost 的不同部分,这种存储方式在执行任务时有效地提高了数据库系统的运行效率,并且Segment Host 越多,数据库系统的效率越高.为了提高数据库系统的可靠性,每个Segment Host 上的数据在其他的Segment Host 上都有其备份；

③ Interconnect Gigabit Ethernet Switch 是Greenplum 数据库系统实现内部数据高速传输的关键,是Master Host 与Segment Host、Segment Host 之间相连的高速内部网络,它既可以使用TCP 协议也可使用UDP 协议,通常情况下使用的是UDP 协议.

2.1 Greenplum 的特点

将Greenplum 数据仓库与几个传统的数据库系统做比较,如表1 所示.

从表中可以看出Greenplum 数据库系统较传统数据库系统具备以下几个特点：① 支持大规模数据的存储和处理；② 高并发支持；③ 支持线性扩展；④ 高性价比；⑤ 支持Just InTime BI；⑥ 高可用性支持；⑦ 系统易用性.

2.2 作为大数据存储仓库的优势分析

在当前移动互联网快速发展的趋势下,很多互联网企业面临着业务服务向移动智能终端的转移,由于移动互联网使用的方便性,企业的业务数据量必然暴涨,面对大规模不规则的数据,传统的关系数据库系统已经难以适应当前应用形势,选择Greenplum 数据系统作为企业业务数据的管理和处理平台具有以下几个优势.

① Greenplum 采用大规模并行处理模式就是应对当前大规模数据处理而设计[2],根据预测数据显示,到2017 年末,中国移动互联网用户数量将达到10.9 亿人,而截至2016 年12 月,中国移动智能终端用户已经产生135 PB 数据,规模如此巨大的数据量是传统关系数据库难以胜任的,而Greenplum 采用大规模并行处理和无共享模式,利用分散查询和结果综合技术,使数据库系统效率大幅提升,是大规模数据处理平台的理想选择.

② 易操作性和稳定性为企业业务高效稳定的运行提供了保证,由于Greenplum 数据库系统是基于PostgreSQL 开发,继承了PostgreSQL 数据库操作简单的优点,数据库系统维护人员能快速地掌握,缩短了维护人员的培养时间,并减少了误操作的几率,而Greenplum 的高可靠性为系统的稳定运行提供了保证.

③ Greenplum 数据仓库独有的线性扩展能力为数据库系统的扩容和处理能力的升级提供了技术上的保障,随着企业和市场的不断发展,数据库系统在质和量上的升级是不可避免的,Greenplum 数据库系统的线性扩展能力保证企业业务安全可靠运行的同时也节约了成本.

④ Greenplum 数据仓库的BI 性能为企业的管理者把握市场变化增加了信心,现在市场瞬息万变,能领先一步发现市场变化就能赢得决策先机.

2.3 国内的发展现状

自2008 年12 月Greenplum 数据库进入中国市场以来,得到了快速的发展,并于2010 年元旦宣布在中国独立运行,经过近十年的发展,Greenplum 数据仓库在国内已经得到大量知名企业的认可,特别是得到了互联网、金融、保险及电信等领域企业的青睐和重视.目前中信银行、阿里巴巴、中国远洋及中国电信等大型企业选择使用Greenplum 数据库系统,很多企业在Greenplum 数据仓库中管理着超过100 TB 的数据,我们每天都直接或间接享受着Greenplum 数据库系统带来的便利[3].

3 关联规则算法

本文采用的是关联规则经典挖掘算法———Apriori 算法,并在不同的数据库上运行,比较不同的数据库的性能.Apriori算法在挖掘关联规则过程中需要多次访问事务数据库,所以数据库的性能好坏对算法性能的影响较大.

3.1 Apriori 算法Apriori 算法[4]的算法输入：事物数据库T,最小支持度min_sup；算法输出：所有的频繁项集L.算法伪代码描述如下：

L1等于find_frequent_1_itemset（s T）；//找出频繁1项集

for（k等于2；Lk-1≠ ；k++）

{// 产生候选项集,并剪枝

Ck等于aproiri_gen（Lk-1）；

for each transaction t ∈T// 扫描事物数据库T 进行候选项集计数

{

Ct 等于 subse（t Ck,t）；//得到t的子集

for each candidate c∈ Ct

c.count++；

}

Lk等于 {c ∈Ck | c.count ≥ min_sup}// 返回候选项集中不

小于最小支持度min_sup 的项集

}

return L等于∪kLk；// 得到所有频繁项集L

其中Aproiri_gen（Lk-1）函数为连接频繁k-1 项集得到候选集Ck

3.2 算法流程图

Apriori 算法流程如图2 所示.

4 挖掘实验及结果分析

本文选取的数据源是移动通信业务数据,由于每天通过智能移动终端上网的用户数量是巨大的,而且每个用户产生的业务数据也是大量的,所以移动通信运营商每天的移动通信业务数据量是巨大的,对这些数据进行挖掘能得到用户上网的行为习惯,从而为移动通信运营商提供决策参考[5],数据量大小为200 M.

4.1 数据预处理

原始数据由于多种原因总是存在一些瑕疵和规范问题,所以在挖掘之前需要对数据进行预处理,使之能满足挖掘所需.一般需要样本提取、数据清理、数据集成和数据变换等[6]过程,预处理完的一部分数据如图3 所示.

4.2 挖掘及结果分析

实验环境：系统为Windows 7,内存为4 GB.本文对Greenplum 数据仓库、Orcal 数据库和DB2 数据库进行了挖掘实验,比较三者的性能,选取算法约束条件为最小支持度为0.6、0.3、0.1、0.01,挖掘结果图表2 和图2 所示.

从以上的运行结果我可以看出当支持度选择较大（如0.6和0.3）时,3 个数据库性能差别不大,但当支持度选择较小（如0.01）时,Greenplum 数据库性能明显优于另外二者,这是因为在约束条件严格时,Apriori 算法产生大量的候选集需要频繁的访问数据库,Greenplum 数据库大规模并行处理和完全无共享架构的优势就发挥出来了.

5 结束语

Greenplum 数据仓库作为企业大数据存储仓库,对数据提取进行挖掘和分析方面,相比其他的数据仓库有很大的优势,能节约成本提高价值的时效性,为决策者感知市场变化并制定相应决策取得市场先机争取时间.

数据挖掘论文参考资料：

此文评论：该文是关于对不知道怎么写数据挖掘和Greenplum分析和Greenplum论文范文课题研究的大学硕士、数据挖掘本科毕业论文数据挖掘论文开题报告范文和文献综述及职称论文的作为参考文献资料。