基于Hadoop云计算平台的K-Means聚类算法研究

日期：2018年02月11日编辑：ad201107111759308692 作者：无忧论文网点击次数：1004

论文价格：150元/篇论文编号：lw201705250941367134 论文字数：29876 所属栏目：计算机数据库论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

第一章绪论

第一节研究目的及意义
随着现代计算机科学的飞速发展以及互联网的普及，世界已经进入了一个高度信息化的时代，各式各样数据量庞大的信息充斥在人们周围。在信息量越来越大的数据面前，传统基于数据库存储的解决方案显得越来越捉襟见肘[1]。如何利用现代计算机的高计算能力，在无人工监督情况下自动地从大数据中提取出潜在的、对人们生产生活有价值的信息就成为了一个迫在眉睫的问题[2]。聚类分析是一种根据不同规则将输入的原始数据集进行分类的方法[3]。想要从数据中提取信息，首要任务就是将其分类处理，因此聚类分析是数据挖掘过程的第一个步骤。随着移动互联网、物联网以及人工智能的发展，Web端产生的信息量越来越庞大，每天都会产生 PB 级别的日志信息，这使得传统的聚类算法正在面临着空前的挑战。受限于计算机的单个计算节点的硬件限制，传统的基于单机运行的聚类算法在处理如此规模的数据时，提升能力极其有限。
...............

第二节国内外发展现状
如今分布式云计算平台的应用场景随处可见。这些应用场景无一例外的都有计算海量数据的需求，比如我们常见的搜索引擎。所为全世界范围内的搜索引擎巨头，Googole 每天需要处理 PB 级的数据，一直以来都拥有着全世界最大规模的分布式计算集群。其云计算平台最大的特点就是高效、稳定，然而其集群却是以数百万个非专业计算的 PC 机构成的，由此可见分布式云计算平台的神奇与强大之处。为了高效地从超大规模数据集中提取所需信息，Google 设计了一套前所未有的分布式架构，系统分别由分布式文件存储系统GFS、集群共享锁 Chubby、非传统结构模式 DB 的 Bigtable 以及分布式并行计算框架 MapReduce 等[10-12]。作为世界范围内首次公布的关于分布式云计算系统架构搭建方案的范本，Google 提出的三驾马车至今都有着非常大的影响力[13]。
...............

第二章相关技术研究与分析

第一节Hadoop 云计算平台
在各类大数据处理框架之中，Hadoop 最富盛名，高效、可靠、可伸缩是它最显著的特点，也因此被企业及开发者广泛推崇与研究，它常被用来对大数据进行储存、处理以及分析等操作。
...............

第二节系统架构概述
Hadoop最初由Apache基金会投入开发，它的基本框架遵循了Google早前公布的三大核心组件，即轰动一时的GFS、MapReduce以及BigTable。它的诞生使得用户可以利用现代大规模的集群取代传统的单机服务器进行高速存储和运算操作，这也为开发分布式大数据处理程序奠定了坚实的基础。Hadoop有许多特点，例如效率高、可靠性强、容错能力好以及部署运维成本低等。下面对其特点详细描述。
...............

第三章聚类分析系统的设计与实现............................19
第一节系统简介........................................... 19
第二节底层环境搭建........................................21
第四章 K-Means 并行算法的改进.............................32
第一节传统 K-Means 算法...................................32
第二节K-Means 算法改进方案................................34

第四章 K-Means 并行算法的改进

第一节、传统 K-Means 算法

作为最典型的聚类算法之一，K-Means 算法已经问世了半个世纪。作为典型的基于样本距离计算类簇的算法，K-Means 算法的效率相对较高，因此无论在理论研究还是实际生产中都被大规模的使用，具有很高的地位及影响力。算法的改进研究也有许多，例如基于随机采样原理的 Random K-Means算法、增量处理原始数据集 Online K-Means 算法等。K-Means 算法思路：首先需要用户确定最终聚类结果的簇数目（即 K 值），然后在原始数据集中随机选择数量为 K 的初始类簇中心。之后就是反复迭代的过程，需要计算全量的数据对象到各个类簇中心的间距，并依据间距将它们合并到各自的类簇中。待所有数据点归类后，计算每个类簇内对象的平均间距，并用新的类簇中心替换掉原始中心。这个迭代过程一直持续直到目标函数收敛截止。而目标函数的收敛标志则是在一次分类结束后，重新计算新的类簇中心并没有发生变化，则算法结束。

结论

本文通过对分布式云计算平台和聚类算法在国内外的发展现状进行深入研究分析，设计并实现了基于 Hadoop 平台的聚类分析系统，并使用该系统对 K-Means 算法进行了并行化改进。通过本课题的研究，得出如下结论：聚类分析系统方面：1. 系统的分层设计使得各层之间对实现进行隔离，可以透明地修改各层内部具体实现，有效的提高了系统的可维护能力。在实际测试过程中，用户可以通过系统快速地配置实验环境，同时系统能够提供稳定的并行计算环境。2. 基于模块化设计的中间逻辑层，在修改系统功能时可以高效的复用原有代码，有效的加快了系统开发、调试的速度。基于 REST 的接口设计能够稳定地处理 Web 通信操作。通过对系统核心功能的接口封装，使得用户可以简单高效的操作聚类分析系统。3. 以 Hadoop 为核心的底层驱动环境能够提供高效、稳定的并行服务。通过增加分布式环境的计算节点，能够有效提高底层环境的任务处理速度。改进的 K-Means 并行算法方面：1. 在本课题设计的聚类分析系统提供的云计算环境下，改进的并行随机采样较于传统的初始化采样方法在速率上有显著提升。通过并行随机采样和预处理方法的改进，使得算法正确率有所提升。同时 K-Means 并行算法具有更好的收敛性。2. 当数据量较大时，改进的 K-Means 并行算法与传统 K-Means 算法相比，运行速度有很大提升。并且改进算法的加速比随着机器节点增加能够显著的提高。综上，本文设计的基于 Hadoop 分布式云计算平台的聚类分析系统能够提供高效、稳定、可配置的聚类分析服务。改进的 K-Means 并行聚类算法能够快速处理大规模的聚类分析计算。基本达到了本课题预期设计的目标。

参考文献（略）