摘要:自组织理论是基于神经网络和计算机科学的迅速发展而产生和发展起来的。它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。其主要思想是通过简单的初始输入(局部变量)的交叉组合产生第一代中间候选模型,再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型,重复这样一个产生、选择和遗传进化过程,使模型复杂度不断增加,直到选出最优复杂度模型为止。本文利用自组织方法进行数据筛选和建立税收预测模型,并在数据筛选基础上建立线性回归预测模型和BP神经网络预测模型,然后结合时间序列的预测模型,利用自组织方法建立组合预测模型。通过预测结果比较得出了组合预测模型比其它单个模型具有更高的预测精度。
关键词:组合预测;自组织方法;神经网络;线性回归;时间序列
一、 引言
税收收入的增长与变化受多方面因素的影响,一方面,税收收入变化与税收政策因素有很强的联系,同时也存在着由未知不确定因素引起的随机波动;另一方面,税收收入又随着经济的增长而增长,并且与很多因素密切相关,如居民消费水平、财政支出总量、社会消费品销售量等。税收收入预测可以使用统计技术,其使用的模型一般分为时间序列模型和回归模型。时间序列模型的缺点在于不能充分利用与税收收入密切相关的经济因素,导致预测的数据不准确和不稳定。回归模型虽然考虑了经济因素,但需要事先知道其它经济因素与税收收入间的函数关系,而且为了获得比较精确的预测结果,需要大量的计算。许多实验表明BP神经网络用于税收等经济指标的预测也是一种适合的方法。神经网络的优点在于它具有模拟多变量而不需要对输入变量做复杂的相关假定的能力,只要利用以往的历史数据,就可以从训练过程中通过学习来抽取和逼近隐含的输入/输出非线性关系。但BP神经网络也有缺点,特别是在复杂系统建模时输入变量确定主观化等缺陷。为结合回归模型、时间序列模型和神经网络模型的优点,这里我们利用自组织方法将多种模型的预测结果进行组合,实现自组织方法的组合预测模型。所谓组合预测,就是将不同的预测方法进行适当的组合,综合利用各种方法所提供的有用信息,从而尽可能地提高预测精度。
为提高预测的精度,贺昌政、俞海等人提出了自组织的组合预测方法,实验结果表明预测精度有明显提高。自组织理论在复杂系统的模拟、预测、模式识别、样本聚类等诸方面都有成功的应用。李晓峰提出了自组织方法与BP神经网络算法结合的预测优化模型,并通过实验说明在自组织方法对相关变量进行筛选的基础上进行预测时效果得到提高。故此,本文提出了结合李晓峰的自组织变量筛选并参照贺昌政、俞海等人的组合预测算法,即在自组织方法对变量筛选的基础上将多元线性回归模型、时间序列模型、神经网络模型预测结果进行组合,再使用自组织方法进行组合预测的方法。
二、自组织方法组合预测模型
1.自组织理论及算法
自组织理论的核心技术是数据分组处理方法GMDH(Groupmethod of Data Handing),是基于神经网络和计算机科学的迅速发展而产生和发展起来的。它将黑箱思想、生物神经元方法、归纳法、概率论、数理逻辑等方法有机地组合起来。其主要思想是通过简单的初始输入(局部变量)的交叉组合产生第一代中间候选模型,再从第一代中间候选模型中选出最优的若干项组合而产生第二代中间候选模型,重复这样一个产生、选择和遗传进化的过程,使模型复杂度不断增加,直到选出最优复杂度模型为止。
GMDH算法的特点是将数据样本分成学习集和检测集。在学习集上产生复杂度渐进增加的模型,并利用外准则(选择准则)在检测集上对产生的模型进行择优选择。其选择过程的终止法则由自组织原理给出:当模型的复杂度逐渐增加时,具有“外补充”(数理逻辑中Godel不完备定理中的术语)性质的称之为外准则的准则值达到极小,全局极小的实现标示最优复杂度模型的存在。
对经济变量进行筛选,则将各经济变量作为输入,税收收入作为输出,通过以上步骤的选择、淘汰,最后模型中剩余的变量即为经过筛选后的变量。对于自组织组合预测,则将各预测方法的预测值作为自组织算法的输入,其输出即为组合预测结果。
2.预测数据的获取
本文参考漆莉莉的税收收入统计预测模型进行相关模型变量的选择,根据影响因素的大小、资料的可比性及预测模型的要求等原因,选择农业总产值、社会消费品零售总额、进出口总额、职工工资总额、固定资产投资总量、居民消费水平、全国城乡储蓄存款年末余额、国内生产总值、财政支出总量等9项指标作为神经网络的输入变量。数据为从中国统计年鉴取得的1981~2001年的数据,单位为亿元,见表1。
3.利用自组织方法对数据进行预处理
利用自组织方法,将税收收入作为因变量,其余变量作为自变量,通过自组织GMDH方法的实现工具KnowledgeMiner 5.0建立模型得到税收与相关变量的模型方程为:Y=-190.456894-0.033271X7+0.105339X2+0.736523X9其中,决定系数R2=0.9934,预测误差平方和:0.0079,平均绝对百分比误差:4.53%,近似误差:0.0066。
从模型的拟合效果看,除1985年左右的拟合税收数据与实际税收相差超过5%之外,其余年份的数据拟合误差大多小于5%,说明回归模型建立成功。
根据该方程可知,该组变量中最能反映税收变化的变量有财政支出总量、城乡储蓄存款年末余额、社会消费品零售总额。自组织方法挖掘结果表明,由于相关性等原因,尽管税收收入与很多经济指标相关联,如与GDP之间就有非常密切的关系,但从拟合和预测的角度讲,并不是经济指标越多越好,也不一定是有密切关联的就一定选用,而应该选择最恰当的组合。
4.组合预测模型的建立
(1)利用以上变量建立四个单项模型。
①自组织方法建立模型Y1:Y1=-190.456894-0.033271X7+0.105339X2+0.736523X9
②多元线性回归模型Y2:利用最小二乘法,根据实际税收观测值与回归估计值的偏差平方和最小为原则,通过SPSS软件计算得多元线性回归方程:Y2=-432.738+0.158X2-0.077X7+0.7652X9
通过拟合检验,除1985年左右的拟合税收数据与实际税收数据相差超过5%以外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。
③时间序列模型Y3:时间序列模型基本思想是将预测对象随时间推移而形成的数据序列视为一个随机序列,即除去个别的因偶然原因引起的观测值外,认为时间序列是一组依赖于时间的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来就可以从时间序列的过去值及现在值来预测其未来值。时间序列模型一般有:自回归(AR)模型、自回归滑动平均(ARMA)模型等。
这里使用AR模型,时滞因子为1,通过KnowledgeMiner建立时间序列模型:Y3(t)=-58.077019+1.182588Y3(t-1),其中t=2,3,…21,Y3(1)=629.89
通过拟合检验除1985年左右的拟合税收数据与实际税收数据相差超过5%之外,其余年份的数据拟合误差大多小于3%,说明时间序列模型建立成功。
(2)自组织方法组合预测模型。组合预测理论“组合预测”思想是由J.M.Bates和C.W.J Granger 1969年首次提出,其研究成果引起了预测学界的高度重视,其应用范围也逐渐扩大。组合预测理论的基本原理是:通过个体预测值的加权算术平均而得到其组合预测值,在确定加权权重(也称组合权重)时,以组合预测误差方差最小为原则。其本质就是将各种单项预测看作代表不同信息的片段,通过信息的集成分散单个预测特有的不确定性和减少总体的不确定性,从而提高预测精度。组合预测模型为:Y=(fY1,Y2,Y3,Y4),利用以上四种预测方法的数据拟合值和历年实际税收数据,使用KnowledgeMiner 5.0进行挖掘的组合预测模型:Y=47.07665+0.7708Y1-0.22236Y3+0.42303Y4
自组织方法挖掘的结果舍弃了按照观测值与回归估计值的偏差平方和最小为原则的线性回归方程而选用自组织方法建立的方程。研究表明,通过自组织理论数据挖掘得到的方程比按照观测值与回归估计值的偏差平方和最小为原则的线性回归方程在有噪声的情况下预测效果更佳。通过实际比较也确实发现自组织方法建立的方程拟合效果略差,而预测效果较好。
由于神经网络模型对数据的拟合非常精确,若只使用神经网络的训练数据通过自组织方法进行数据挖掘,很可能数据挖掘的结果会出现组合预测模型只与神经网络模型的结果相关而舍弃其它模型的预测结果,因此在使用自组织方法进行数据挖掘时不应全部使用神经网络拟合数据,而应适当使用预测数据。
5.预测结果从中国统计年鉴取得2002~2004年财政支出总量、城乡储蓄存款年末余额、社会消费品零售总额和税收收入数据,见表2。分别通过以上建立的四个模型进行税收收入预测,并与实际税收收入进行比较,见表3。其预测误差平方和(FSSE)的计算
三、 结论
通过自组织建模方法可挖掘出税收与各经济指标间的内在联系。线性回归模型、时间序列模型、神经网络模型都可较好地做相关预测工作;组合预测方法可进一步提高预测效果。由于税收收入很大程度上还受政策因素等影响(1985年前后税收数据),因此在进行数据选择和整理时还需尽量考虑这一因素。
【参考文献】
[1]H.R.Madala and A.G.Ivakhnenko.Inductive learning algorithms forcomplex systems modelling[M].Boca Raton,London,Toky