工程论文栏目提供最新工程论文格式、工程论文硕士论文范文。详情咨询QQ:1847080343(论文辅导)

基于机器学习的建筑业总产值预测与发展探讨——以湖北省为例

日期:2023年11月11日 编辑:ad201107111759308692 作者:无忧论文网 点击次数:255
论文价格:150元/篇 论文编号:lw202311090926534000 论文字数:38522 所属栏目:工程论文
论文地区:中国 论文语种:中文 论文用途:硕士毕业论文 Master Thesis

本文是一篇工程论文,本文重点研究了特征选择和预测模型两个方面,基于机器学习的原理和算法对这两个方面进行了研究与改进。

第1章绪论

1.1 研究背景与问题

1.1.1 研究背景

(1)建筑业是国民经济的重要支柱产业

建筑业总产值是建筑业生产规模、发展水平、经营成果的具体体现,也是政府与企业规避风险、产业定位、制定规章制度的重要依据。 近年来,我国建筑业整体保持良好的发展态势,生产和经营规模不断扩大,为促进经济社会发展、提升城乡建设水平,以及提高劳动力就业率做出了重要贡献。建筑业的重要除了体现在它的规模上,还体现在它对经济发展的作用上,产业关联度较高,相关产业带动作用显著。建筑业为国民经济的发展提供了物质基础,国内生产总值为建筑业总产值的增长提供了有力保障,建筑业总产值在二者相互促进的良性循环中持续增长[1]。

工程论文怎么写

2010年以来,我国建筑业总产值稳步提升。2011年完成总产值11.6万亿元,突破十万亿大关;2017年完成总产值21.4万亿元,突破二十万亿大关。2010~2021年全国建筑业总产值年复合增长率为9.67%,市场空间广阔。

然而,随着宏观经济增速的持续放缓,加上新冠疫情的冲击,经济下行压力显著增大,我国建筑业总产值年增长率从2010年的25.03%大幅下降至2020年的6.24%,增速整体呈放缓趋势。在新形势下,建筑业难以再依靠规模快速扩张的传统发展模式,必须在经济增长方式上做出转变,从传统产业向智慧密集型现代产业转型升级,以实现经济高质量发展的内在要求。

1.2 研究目的与意义

1.2.1 研究目的

(1)筛选建筑业总产值的影响因素。现阶段有关建筑业总产值影响因素指标体系并没有一个准确标准,本文基于相关的文献并结合建筑业发展现状,分析影响建筑业经济发展与产出的关键因素,构建出包含发展规模、经济效益、生产要素、技术创新、资源环境五个维度的建筑业总产值影响因素指标体系。在影响因素体系模型的基础上,运用随机森林算法进行重要性排序和降维处理。

(2)构建建筑业总产值的预测模型。本文针对传统预测方法存在的对样本数量要求高、预测精度低、学习能力和容错能力差等不足,将机器学习引入建筑业总产值预测中,建立基于BP神经网络和支持向量机的建筑业总产值预测模型。选择湖北省建筑业作为实证,进行仿真模拟与性能比较,并根据建筑业总产值预测结果提出措施建议,以期为建筑业相关政策提供一定的参考和支持。

1.2.2 研究意义

(1)理论意义

首先,制定科学合理的建筑业总产值影响因素的层次结构,基于随机森林算法对进行降维分析,为我国建筑业总产值影响因素指标体系的完善提供了借鉴。其次,基于所筛选的影响因素,将神经网络、支持向量机理论模型应用到建筑业总产值的预测问题中,构建预测模型并进行对比分析。通过对湖北省建筑业的实证研究,为建筑业总产值的预测提供一些新的思路与方法。具有重要的理论意义。

(2)现实意义

首先,通过相关建筑业经济理论研究并根据建筑业经济指标增长特点,诊断出关键因素,有利于避免盲目无序的建设和资源的投入等情况,开拓新的增长空间和转变经济增长方式。其次,以湖北省作为实证研究对象,通过机器学习构建总产值预测模型,有助于把握湖北省建筑业经济发展规律和增长趋势。为企业、投资者和政府部门制定经营战略、投资规划、产业政策等决策提供参考依据。具有重要的现实意义。

第2章 相关理论基

2.1 传统预测方法与机器学习算法

2.1.1 传统预测方法

(1)指数平滑模型

指数平滑法是一种基于移动平均法的时间序列分析预测方法,通过计算任一期实际观察值与前一期指数平滑值的加权平均,得出本期的指数平滑值。根据平滑次数的不同,指数平滑法可以分为三种:一次平滑法,是历史数据的加权预测;二次平滑法,适用于具有一定线性趋势的数据;三次平滑法(Holt-Winters法),是在二次指数平滑的基础上再进行一次平滑,适用于具有一定曲线趋势关系的数据。一般情况下,三次指数平滑法更为常用。指数平滑法的预测依据来源于历史数据,适用于没有明显趋势和波动的序列,且只适合做1~3期的短期预测。

(2)ARIMA模型

差分整合移动平均自回归模型(ARIMA),是广泛应用的一种单变量时间序列预测方法。ARIMA( p, d, q)模型由自回归(AR(p))模型、差分部分(I)、滑动平均(MA(q))模型组成[43];其中,d为差分阶数,用于将非平稳的时间序列转化为平稳序列。ARIMA预测模型算法简单、收敛速度快,适用于自身较为稳定的时间序列数据或经差分后是稳定的,且只能捕捉线性关系,对非线性、不稳定的数据预测精度低。

(3)线性回归模型

线性回归模型把影响建筑业总产值的影响因素通过多元线性函数包含在其中。该模型的表达式:0 1 1()()...()()n ny t =a +a x t ++a x t +a t;其中,y(t)为建筑业总产值预测值,1 2(),(),...,()nx t x t x t为影响总产值的n个因素。0 1,,...,na a a为𝑛个影响因素的回归系数,a(t)为随机变量,须满足均值等于0且方差是常数。使用最小二乘法求出模型参数,得到建筑业总产值与相关影响因素之间的线性关系,以此进行建筑业经济发展预测工作。此类方法对数据的质量要求高,无法处理非线性的预测问题。

2.2 机器学习模型概述

2.2.1 随机森林

随机森林(Random Forest, RF)算法是由Breiman[46]等人于2001年提出的一种基于决策树的集成学习方法。其随机性体现在样本和特征的选取是随机性,通过特征选择,删除高维度样本中的冗余特征和噪声特征,具有参数少、效率高、准确性高等优势。随机森林是一种机器学习算法,现普遍用于解决分类和回归问题,其重要应用就是通过训练模型得到样本特征的重要性排序,以此来探究各个特征的影响程度。

随机森林算法是一种基于自助采样法(bootstrap)的分类器,它通过从原始训练样本集N中有放回地随机抽取k个样本,获得与原始样本量相同的新的训练子集,并将未被抽中的样本作为袋外数据(OOB,out-of-bag samples),用于做验证集,以交叉验证的结果作为重要性得分的依据。再根据k个训练子集建立k个决策树组成随机森林,随机森林模型的最终结果由所有决策树基模型进行综合判定,用测试集作为评价每棵决策树好坏的依据。

随机森林回归算法中,变量重要性度量的主要评价指标为精度平均减少值Inc-MSE(increasing the mean square error)和节点不纯度减少值IncNodePurity(increasing the node impurity)。IncNodePurity等价于Mean Decrease Gini,表示在一个样本集合中,随机抽取的样本被错误分类的可能性,从而计算出每个变量对分类树中每个节点上观测值的异质性的影响。该值较大,表示该变量的重要性较高,反之则相对较低。采用随机森林进行特征的重要性评估和筛选,计算每个特征在每棵树上的贡献并取其平均值[47],然后根据贡献大小对特征进行重要性排序。通常选取Gini指数来衡量不纯度减少值。

第3章 建筑业总产值影响因素筛选 ............................. 18

3.1 建筑业总产值影响因素指标体系的构建 ............ 18

3.2 基于随机森林的影响因素二次筛选 ....................... 23

3.3 本章小结 ............................... 27

第4章 基于机器学习的建筑业总产值预测模型构建 ........................ 28

4.1 基于BP神经网络的预测模型构建 ......................... 28

4.2 基于支持向量机的预测模型构建 ........................ 31

4.3 模型性能对比与分析 ............................... 35

第5章 建筑业总产值预测模型的优化与应用 .................. 42

5.1 粒子群算法优化支持向量机模型 .............................. 42

5.2 基于 PSO-SVM 模型的仿真实验与对比分析 ........................... 44

5.3 湖北省建筑业总产值预测的实证研究 ........................................ 48

第5章 建筑业总产值预测模型的优化与应用

5.1 粒子群算法优化支持向量机模型

根据第4章对建筑业总产值预测模型的分析,支持向量机模型在预测精度和稳定性方面有待改善。核函数参数g和惩罚因子C对基于SVM的建筑业总产值预测模型的性能影响较大,选取最佳的参数组是得到准确预测值的关键。粒子群优化算法是一种受鸟群捕食行为的启发而发明的群体智能算法,其优势在于模型的搜索效率高和收敛性能好,因此本文采用PSO优化算法对SVM中的重要参数C和g进行寻优。在PSO-SVM模型中,需要初始化的参数主要有粒子种群规模、惯性权重、学习因子和最大限制速度。

群体规模sizepop。如果种群数量的值大,能够保证种群中的自由粒子能够在比较大的空间范围内进行最优解搜索,但可能会出现不收敛的情况;如果种群中自由粒子的取值个数过小,会导致种群中自由粒子的搜索能力下降,进而进入局部最优状况。研究表明,对于一般的粒子群优化问题,设置种群规模为20~40就能获得较好的优化结果。根据研究对象的复杂程度,本文将模型的种群规模选定为sizepop=20,最大进化数量maxgen=200。

惯性