第六章 结论与展望
6.1 结论
本文基于 Stacking 算法对小样本的高层住宅工程的施工成本进行了预测,主要工作与结论如下:
(1)数据预处理。本文先使用热力图对影响高层住宅工程施工成本的特征进行相关性分析,得出部分特征之间关联较大,需要进一步进行降维处理的结论;再利用箱型图,将原始数据集中的异常值进行修改;最后利用 PCA 对数据集进行降维,该方法不仅保留了影响高层住宅工程施工成本的数据特征,还可以对数据进行特征提取,保证了后续建模的准确性与时效性。
(2)将模型与高层住宅工程实际工程情况相结合。本文使用 SHAP 值对 RF、GBDT算法中对单方造价有影响的 17 个特征进行特征重要性分析,对各自算法中对单方造价有较大影响的特征进行归纳总结,对高层住宅工程类似工程中的数据收集与分析具有指导性的实际意义。
(3)单一模型的选择与优化。Stacking 算法建模过程主要分为两级,首先是对单一模型进行筛选,从五种机器学习算法中使用默认参数进行预测,然后对预测结果较好的三种算法进行参数优化,最后进行特征贡献度分析,有效量化各个特征的重要性。
(4)二级元学习器的选择与优化。为进一步提高 Stacking 算法预测的准确度,本文先使用训练好的单一模型进行预测后组成新的训练集,再择优选择元学习器对新的训练集进行训练,将得到的最终结果与单一模型的结果进行对比分析,得出结果如下:
①Stacking 算法可以对高层住宅工程的施工成本进行有效的预测,它作为集成学习中的一种,通过从不同算法的不同角度对数据的空间与结构进行训练,使得算法之间可以取长补短,达到比单一模型更加精确的预测结果。
②对通过算例测试表明,对部分算法进行特征贡献度分析,能够有效量化各个特征的重要性。根据不同的算法,分析得出哪些特征会对高层住宅工程的施工成本产生怎样的影响。
③包含了 SVM 的 Stacking 算法在小样本施工成本的预测问题中,可以将单一模型中的误差值降的更低,在施工成本预测问题的研究上有较高的应用价值。
参考文献(略)