基于Stacking算法的高层住宅施工成本预测探讨

日期：2022年04月08日编辑：ad201107111759308692 作者：无忧论文网点击次数：652

论文价格：300元/篇论文编号：lw202111251446187726 论文字数：44655 所属栏目：建筑施工与管理论文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

本文是一篇建筑施工与管理论文，本文基于 Stacking 算法对小样本的高层住宅工程的施工成本进行了预测，主要工作与结论如下：（1）数据预处理。本文先使用热力图对影响高层住宅工程施工成本的特征进行相关性分析，得出部分特征之间关联较大，需要进一步进行降维处理的结论；再利用箱型图，将原始数据集中的异常值进行修改；最后利用 PCA 对数据集进行降维，该方法不仅保留了影响高层住宅工程施工成本的数据特征，还可以对数据进行特征提取，保证了后续建模的准确性与时效性。

第一章绪论

1.1 研究背景与意义

1.1.1 研究背景

成本预测对于每个建筑企业而言都是至关重要的流程，它是项目前期准备阶段最主要的任务之一，更是建筑企业项目投标的重要依据。而实际上，我国建筑企业很难在短时间内获得足够的相关数据以用于成本的预测分析。而传统的预测方法所需数据收集数量庞大，内容复杂，耗时较长，对于项目前期准备阶段不足够充分的建筑企业来说，如果在项目准备阶段无法正确预测成本，那么即使在项目实施阶段积极采取措施控制成本，也会使成本控制过程变得更加困难。

高层住宅工程具有建筑标准高、面积大、规模大、建设周期较长、投资规模较大等特点，属于高风险投资项目，因此，寻找一种可以利用收集到少量的数据集便可以快速、准确的进行成本预测的方法，是我国建筑行业所迫切需要的。

机器学习理论对于无法准确描述或者样本采集数量较少的复杂非线性数据集进行建模并分析数据集都较为快捷。通过建模，可以同时实现建筑企业项目的成本预测，由此得出，我们可以通过机器学习理论来快速、准确的进行成本预测。

集成学习理论是作为机器学习理论中较热门的方向之一，它可以通过将多个同质或者异质的学习模型结合并构建一个分类“好而不同”的学习模型，以达到单一学习模型无法达到的预测精准度。Stacking 作为集成学习理论三种方法中唯一可以结合异质学习模型的算法，不仅对于样本数据的要求较低，而且灵活度较高，目前已经在图像的分类识别、计算机技术、临床医学等领域有所建树，但是在建筑造价预测方面，Stacking 算法的应用在我国尚未进行相关研究。本文对预测模型的选取、一级学习模型模型优化、Stacking 算法建模与一级学习模型之间优化效果的比较、预测速度等方面进行了较为深入的研究，以达到可以在项目准备前期，用较少的数据可以快速准确的进行成本预测的目的。

1.2 施工成本预测研究现状

国内的建筑企业成本管理分为三个时期：项目前期的准备阶段、项目中期的施工阶段以及项目后期的试运行阶段，其中影响最大、对建筑企业成本管理最重要的阶段是项目前期[1]，在项目前期进行科学的施工成本预测可以避免建设项目“三超”的情况的发生，节约了自然与社会资源，可以促进社会的进步，建筑业的发展[2]，因此在项目前期进行科学合理的评价与成本管理是十分必要的。

影响施工成本的因素众多，传统的预测方法通常以大量数据作为算法的基础，但是由于建筑行业的特殊性与多变性，难以通过一个或者几个数学模型得到较为精确的施工成本预测值，更何况数据的收集需要耗费大量时间与精力。

目前国内使用较多的依然是回归预测法[3]，是指通过判断影响成本的主要因素，并且获得相当的数量，从而预测成本的方法，这种方法预测比较准确，但是需要确定判断影响成本的主要因素的种类跟数量，还要掌握充分高质量的统计数据，由于回归预测法对于样本要求较高，所以只适用于项目前期准备时间充分的建筑单位。

同样常用的方法还有指标估算法[4]与时间序列分析法[5]等，前者是套用概算指标来估算成本的一种预测方法，由于它是套用概算指标，项目相关性较差，故精确度较低。后者是一种定量的预测方法，利用收集过去的数据，预测成本的变化趋势，与此同时还要考虑到事物发展的随机性，因此要用加权平均法对过去的数据进行一定的处理，所以时间序列分析法一般只适用于短期内需要完成的项目。

还有概算指标估计法，它按照单位工程的构成分别套用各自的概算指标进行计算，包含材料消耗指标、单位面积造价、单位能力设备价格等指标，但是这些指标体系大多是根据地方或者行业规定，缺乏广泛的适用性，无法指导所有地区的成本计算。

机器学习中应用于回归问题的算法众多，如 BP 神经网络、K 近邻、决策树等，它们在处理回归问题中尤其是成本预测，都有较好的表现，对于部分工程领域的应用已经逐渐成熟，但是由于建筑工程施工成本预测体系构建并不完整，模型选择缺乏合理性，以及数据收集较为耗时耗力，使得预测结果的准确性较低。针对这一问题，本文对机器学习中表现同样出色的 SVM 算法与集成算法进行了研究，并尝试应用于施工成本的预测。

第二章文章相关理论与原理

2.1 建筑工程与施工成本

2.1.1 建筑工程的分类

根据建筑物的用途，大致可以将建筑物分为民用建筑、工业建筑与农业建筑。具体指：民用建筑是为人们使用频率较多的非生产性建筑；工业建筑指的是为工业生产服务的各类建筑；农业建筑为用于农业、牧业生产和加工的建筑。民用建筑根据具体使用功能的不同又可进行分类，如表 2-1 所示。

建筑施工与管理论文怎么写

根据《民用建筑设计统一标准》GB50352-2019 进一步对民用建筑进行分类：

（1）建筑高度不大于 27m 的住宅建筑、建筑高度不大于 24m 的公共建筑及建筑高度大于 24m 的单层公共建筑为低层或多层民用建筑。

（2）建筑高度大于 27m 的住宅建筑和建筑高度大于 24m 的非单层公共建筑，且高度不大于 100m，为高层民用建筑。

目前，我国建筑行业主要以住宅建筑为主，由于城市发展迅速，而高层住宅提高了土地使用率，因此市场上大部分新建项目为高层住宅。本文选用高层住宅工程即高度在27-100m 之内的住宅建筑为单方造价的预测对象。

2.2 集成式机器学习理论

2.2.1 Bagging 集成学习

Bagging 集成学习是一种有放回的抽样算法，它可以由多个毫无联系的弱学习器并行组成，对于回归问题使用简单平均法，其最后的结果为对多个弱学习器得到的回归结果取得的算术平均值。

Bagging 的基模型为决策树（Decision Tree），它是一种树形结构，选取目前选取特征中的最优特征以作为该决策树的内部节点，每一个子树则代表一个判断结果，直到每个叶子节点代表了一种分类结果。CART 则是回归分类树，为决策树的一种，其每一个叶子节点处只能做二分类。

由图可知，Bagging 算法的特点在于随机取样。假设训练集包含 m 个样本，对训练集中的数据取 N 次 m 个样本，因为 N 次取样全部为有放回的取样，所以之前被选取的数据也有可能多次被重复选取，最终通过对 m 个样本采样集的训练结果取算术平均值，以该值作为最后的模型输出结果。

随机森林则是改进版的 Bagging 算法，随机森林的名称中有两个关键词，随机是指每棵树选取特征值的数量以及选取样本的数量都是随机的，森林则是指由多颗 CART 树组成，这也是随机森林集成思想的体现。随机森林的改进地方主要有两个地方：

（1）随机森林以 CART 树作为基础。

（2）随机森林随机从 a 个特征中选取 b 个特征（a＞b），从 b 个特征中选取最优的特征以作为划分 CART 树左右子树的节点。

单颗 CART 树作为随机森林算法的基础，随机森林算法的正确率与单颗 CART 树算法的正确率息息相关。关系如图 2-2 所示:

建筑施工与管理论文参考

第三章数据来源与处理 ............................. 26

3.1 数据来源 ................................ 26

3.1.1 数据集描述 ................................ 26

3.1.2 特征描述 ............................... 29

第四章单一预测模型选择与优化 ................................ 48

4.1 单一预测模型选择 .......................... 48

4.2 特征重要性分析 .................................. 50

4.3 RF 算法参数优化 ........................ 53

第五章 Stacking 集成学习建模 ................................ 70

5.1 单一预测模型关联度分析 ...................... 70

5.2 Stacking 集成学习参数设置 ......................... 71

5.3 Stacking 组合模型性能分析 ............................ 72

第五章 Stacking 集成学习建模

5.1 单一预测模型关联度分析

Stacking 算法的准确性与第一层预测模型的选择息息相关，在 4.1.1 中本文使用默认参数对五种机器学习算法进行了建模，将预测结果相对较好的三种算法筛选出后进行调参，优化模型的学习能力。本节将对这三种算法进行关联度分析，以确保 Stacking 算法的性能可以达到较好的状态。

首先，将主成分分析后的数据集分为训练集与测试集，再对之前调参后的 SVM、GBDT、RF 三个算法使用训练集进行训练，最后用测试集建模进行预测，将预测结果列出后进行关联度分析。方法如图 5-1 所示：

建筑施工与管理论文参考

通过模