软件工程硕士论文栏目提供最新软件工程硕士论文格式、软件工程硕士硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于Spark动态选择缓存替换策略的DBSCAN算法优化探讨

日期:2021年08月13日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:620
论文价格:150元/篇 论文编号:lw202108061557538212 论文字数:35666 所属栏目:软件工程硕士论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis
相关标签:软件工程硕士论文
响任务运行效率的关键因素,Spark 框架 LRU 替换算法在存储内存空间不足时没有全面考虑 Spark 集群环境和 RDD 特性因素,在缓存替换时易造成抖动现象,增加资源消耗和运行时间。 传统基于密度的 DBSCAN 算法在聚类分析中存在不足:在大数据环境下串行计算无法满足运行时效性,在数据规模逐步增大并显示特征无规律的样本集下,人为干预确定同一阈值参数使得聚类敏感度提升,在密度不均匀的数据样本下同一阈值参数造成样本点划分出现误差,降低聚类准确率,同时 Mllib 模块没有相应 DBSCAN 算法并行化实现。本文对上述问题展开研究并提出优化算法和策略:

(1)提出动态选择 RDD 缓存替换算法 DSR-CRA。对 Spark 内存分配机制和缓存替换算法展开研究,并针对 RDD 分区特征以及执行任务的 Spark 集群环境整体分析,提出七项 RDD 缓存替换影响因子,根据执行任务时设定的 RDD 分区缓存命中次数,动态选择 LRU 或改进 Topsis 综合评价 RDD 排序权重模型 ITCE-RRWM,并提出预留内存空间与重复标识,助于缓存替换算法灵活匹配各种 RDD 计算模型,提升 RDD 分区缓存命中率和任务执行效率。

(2)在 Spark2.4.3 源码版本上实现了改进缓存替换算法 DSR-CRA,并设计对比实验。搭建 Spark 集群环境,进行实验并通过实验结果分析验证了 DSR-CRA 改进算法具有较高的内存占用率,以及较高的运行效率,提升了任务执行性能。

(3)提出并行化改进聚类算法 SDKB-DBSCAN。通过研究 DBSCAN 算法特征以及 Spark 并行化运行机制,提出不规则动态判定密度差将区域划分,以及 RDD 分区自适应设定阈值 Eps 以及 Minpts,提升聚类算法准确率;提出并行局部聚类,边界单元并行合并规则以及结合 DSR-CRA 改进算法执行聚类任务,提升聚类算法运行效率。

(4)编写源码实现并行化改进聚类算法 SDKB-DBSCAN,并设计对比实验。搭建执行聚类算法的 Spark 集群环境,进行对比实验并从实验结果分析出,SDKB-DBSCAN改进算法较对比算法有较高的执行效率以及较高的聚类准确率。

参考文献(略)