(1)提出动态选择 RDD 缓存替换算法 DSR-CRA。对 Spark 内存分配机制和缓存替换算法展开研究,并针对 RDD 分区特征以及执行任务的 Spark 集群环境整体分析,提出七项 RDD 缓存替换影响因子,根据执行任务时设定的 RDD 分区缓存命中次数,动态选择 LRU 或改进 Topsis 综合评价 RDD 排序权重模型 ITCE-RRWM,并提出预留内存空间与重复标识,助于缓存替换算法灵活匹配各种 RDD 计算模型,提升 RDD 分区缓存命中率和任务执行效率。
(2)在 Spark2.4.3 源码版本上实现了改进缓存替换算法 DSR-CRA,并设计对比实验。搭建 Spark 集群环境,进行实验并通过实验结果分析验证了 DSR-CRA 改进算法具有较高的内存占用率,以及较高的运行效率,提升了任务执行性能。
(3)提出并行化改进聚类算法 SDKB-DBSCAN。通过研究 DBSCAN 算法特征以及 Spark 并行化运行机制,提出不规则动态判定密度差将区域划分,以及 RDD 分区自适应设定阈值 Eps 以及 Minpts,提升聚类算法准确率;提出并行局部聚类,边界单元并行合并规则以及结合 DSR-CRA 改进算法执行聚类任务,提升聚类算法运行效率。
(4)编写源码实现并行化改进聚类算法 SDKB-DBSCAN,并设计对比实验。搭建执行聚类算法的 Spark 集群环境,进行对比实验并从实验结果分析出,SDKB-DBSCAN改进算法较对比算法有较高的执行效率以及较高的聚类准确率。
参考文献(略)