(1)针对数据集类不平衡问题以及特征高维性问题,本论文提出了一种预处理算法(DBFS-LSDCC),该算法分为两步,一是首先使用混合类别平衡与合成采样算法,先对不平衡数据集使用欠采样技术Tomek Links算法去除数据中的噪声样本,在此基础上使用K-Means Smote算法平衡数据集,二是在第一步的基础上使用综合局部与全局相关性的特征选择算法,先对数据集进行特征与类别间的相关性分析,获得强相关特征子集,再进行特征间的冗余性分析,获得最优特征子集,从而获得高质量数据集。通过在12个软件项目上进行对比实验,充分验证了DBFS-LSDCC算法的有效性。
(2)针对大多数单一分类器只能对部分数据集进行有效分类预测且分类器算法优化难度较高而导致预测能力有限的问题,本论文提出了一种多模型加权投票融合算法SKRF,使用集成学习的思想训练3个不同的基分类器支持向量机(SVM)、K-最近邻(KNN)和随机森林(RF),使用训练好的基分类器分别对测试子集进行分类,得到分类结果的accuracy值,根据accuracy值为每个基分类器设置权重,通过加权投票的方式得出测试样本的分类类别,通过在12个软件项目上进行对比实验,充分验证了SKRF算法的有效性。本论文将DBFS-LSDCC算法和SKRF算法结合起来,提出一种基于多模型加权投票融合的软件缺陷预测方法WECSDP,通过在12个软件项目上进行对比实验,充分验证了软件缺陷预测方法WECSDP构建的软件缺陷预测模型具有良好的预测性能
参考文献(略)