基于Spark动态选择缓存替换策略的DBSCAN算法优化探讨 (第2页) - 软件工程硕士

基于Spark动态选择缓存替换策略的DBSCAN算法优化探讨

日期：2021年08月13日编辑：ad201107111759308692 作者：无忧论文网点击次数：620

论文价格：150元/篇论文编号：lw202108061557538212 论文字数：35666 所属栏目：软件工程硕士论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

响任务运行效率的关键因素，Spark 框架 LRU 替换算法在存储内存空间不足时没有全面考虑 Spark 集群环境和 RDD 特性因素，在缓存替换时易造成抖动现象，增加资源消耗和运行时间。传统基于密度的 DBSCAN 算法在聚类分析中存在不足：在大数据环境下串行计算无法满足运行时效性，在数据规模逐步增大并显示特征无规律的样本集下，人为干预确定同一阈值参数使得聚类敏感度提升，在密度不均匀的数据样本下同一阈值参数造成样本点划分出现误差，降低聚类准确率，同时 Mllib 模块没有相应 DBSCAN 算法并行化实现。本文对上述问题展开研究并提出优化算法和策略：

（1）提出动态选择 RDD 缓存替换算法 DSR-CRA。对 Spark 内存分配机制和缓存替换算法展开研究，并针对 RDD 分区特征以及执行任务的 Spark 集群环境整体分析，提出七项 RDD 缓存替换影响因子，根据执行任务时设定的 RDD 分区缓存命中次数，动态选择 LRU 或改进 Topsis 综合评价 RDD 排序权重模型 ITCE-RRWM，并提出预留内存空间与重复标识，助于缓存替换算法灵活匹配各种 RDD 计算模型，提升 RDD 分区缓存命中率和任务执行效率。

（2）在 Spark2.4.3 源码版本上实现了改进缓存替换算法 DSR-CRA，并设计对比实验。搭建 Spark 集群环境，进行实验并通过实验结果分析验证了 DSR-CRA 改进算法具有较高的内存占用率，以及较高的运行效率，提升了任务执行性能。

（3）提出并行化改进聚类算法 SDKB-DBSCAN。通过研究 DBSCAN 算法特征以及 Spark 并行化运行机制，提出不规则动态判定密度差将区域划分，以及 RDD 分区自适应设定阈值 Eps 以及 Minpts，提升聚类算法准确率；提出并行局部聚类，边界单元并行合并规则以及结合 DSR-CRA 改进算法执行聚类任务，提升聚类算法运行效率。

（4）编写源码实现并行化改进聚类算法 SDKB-DBSCAN，并设计对比实验。搭建执行聚类算法的 Spark 集群环境，进行对比实验并从实验结果分析出，SDKB-DBSCAN改进算法较对比算法有较高的执行效率以及较高的聚类准确率。

参考文献（略）