分析软计算方法和数据挖掘理论在电力系统负荷预测中的应用
摘要 数据挖掘技术能够从大量数据中发现潜在知识,软计算是创建智能系统的有效方法,本文将两者结合,电力论文范文完成电力预测过程的两个主要任务:负荷坏数据处理和多因素负荷预测模型的建立。通过对Kohonen网聚类挖掘和BP网分类挖掘的效果分析,设计由这两种网络组合而成的神经网络模型,完成坏数据辨识和调整的任务;以模糊推理系统为基础构建多因素负荷预测模型,本文采用CART分类挖掘技术解决模糊结构辨识中的两个难点问题:输入空间划分和输入变量选择,在此基础上设计ANFIS网络进行参数辨识。良好的实例分析效果说明,数据挖掘思想和软计算方法相结合,是电力系统负荷预测的一种有效的思路和方法。
关键词 负荷预测 模糊推理 数据挖掘 分类和聚类 软计算
1 引言
分类方法与聚类分析是数据挖掘技术的两种重要的思想。本文关于负荷预测问题的研究始终贯穿了这两种思想。神经网络和模糊系统是软计算的重要基础,它们是设计智能系统的精髓。本文详细讨论了BP网、Kohonen网两种神经网络和TSK型模糊推理系统的原理、结构和算法,其中前两者用于对负荷坏数据的处理,后者用在多因素负荷预测建模。坏数据的处理是预测建模之前必须解决的问题,根据负荷曲线相似性和平滑性的特性,我们设计了一个由Kohonen网[1]和若干BP网组成的组合神经网络模型,先利用Kohonen网络对日负荷曲线进行分类,确定出每一类负荷曲线的特征曲线,然后用BP网对特征曲线进行辨识训练,最后利用特征曲线对坏数据进行调整。在短期负荷预测中除了考虑到负荷本身的时间序列外,还要考虑到多种非负荷因素的影响,如气象,节假日等,在传统的预测方法中只有人工神经网络[1]和模糊推理系统[4]可以考虑到不同因素对电力负荷的影响,模糊系统的规则结构适于描述不同种类变量之间的复杂关系,效果较人工神经网络要更清晰直观。输入变量选择和输入空间划分是模糊建模的前提,对于电力负荷的大样本数据,要正确反映输入变量对输出值的影响的重要性程度和他们之间的实际关系,必须建立一个更为简便有效的分类模型,以完成模糊推理系统的结构辨识,根据数据挖掘技术中的一种重要的分类思想,既从大量定性与定量的数据中学会一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,我们采用了分类和回归树(CART,classification and regression tree)算法[3]构造了这个模型,在此基础上采用TSK模型构造相应的ANFIS(adaptive neural-fuzzy inference system)网络进行参数辨识。
2 坏数据的辨识与调整的神经网络模型
2.1 坏数据辨识与调整的基本思想坏数据辨识的过程包含了两个问题:首先从大量可能含有坏数据的负荷曲线中提取正常曲线模式,然后实现不正常曲线模式与正常曲线模式的分类。我们可以采用一种抗差性能较好的聚类方法,将正常曲线和含有坏数据的曲线以及与它们相似的其他曲线聚成一类,那么,这一聚类的代表曲线是一条没有坏数据特征的正常负荷曲线。当一个聚类成功的产生后,该类的正常曲线模式只有一类,即这一聚类的特征曲线。但是,不正常曲线模式的类别数量非常大。以每天96个采样为例,每个数据点可能有三种模式:过高和过低的两种坏数据模式和一种正常数据模式。总的坏数据模式组合就有396- 1种,显然,把它们一个个精确地描述出来是不可能的,必须采用一种泛化能力较强的分类算法,用较少的、有代表性的坏数据模式将这一分类算法模型建立起来,那么,其他的坏数据模式就可以用它辨识出来。坏数据准确定位以后,还需要按照正常数据的模式加以调整。每一聚类的代表曲线为调整坏数据提供了参考依据,这样调整的结果尽可能地“复原”了正常模式应有的负荷值。
2.2 Kohonen网进行负荷曲线抗差聚类和产生特征曲线聚类的方法有多种,其中有一类重要的自组织神经网络方法,不需要或极少需要数据矢量的先验知识,抗差性能好,而且使用极为方便,我们采用了自组织特征映射算法实现负荷曲线的抗差聚类。自组织特征映射的重要特征是其相邻神经元之间的侧反馈。图1为自组织特征映射网络的拓扑结构,该网仅有输入层和输出层,两层之间为全互联结,输出层神经元之间存在侧反馈。网络经过训练以后,每一输出节点所连接的权矢量即为该节点所代表模式类的特征矢量。每天的负荷数据作为一个输入矢量,将某时期负荷作为输入样本集对Kohonen网进行训练。训练结束后,每一聚类的特征矢量对应一条日负荷特征曲线。图1 Kohonen网拓扑结构
2.3 非正常曲线模式分类采用多输出BP完成非正常曲线模式分类的任务。BP网分类模型的建立分两个步骤:训练样本集的产生和网络的训练。也就是存在两个问题:①以少量的训练样本获得对于巨量的坏数据模式的识别能力;②尽可能缩短网络的训练时间。
2.3.1 BP网反向传播神经网络(BP网)[1]算法是数据挖掘中的一种重要的和有效的算法。它可以实现从输入到输出的任意复杂的非线性映射关系,并具有良好的泛化能力,能够完成复杂模式识别的任务。其缺点为收敛速度慢,并存在许多局部极小值,为此,采用附加动量法和自适应调整学习率相结合的方法对BP算法加以改进[2]。
2.3.2 用特征曲线产生BP网训练样本集设Kohonen网将负荷曲线分成S类,则同时产生S条特征曲线,记为X1,…,Xi,…,XS,共对应S个BP网,记为BP1,…,BPS。每个BP网的输入层和输出层的神经元数目相同,输出分量的值指示对应的输入分量是否为坏数据。规定所有BP网的结构,即隐层数及各层节点数完全相同。以BP1为例,输入输出样本集的生成过程如下。(1)将特征曲线X1作为一个输入样本,对应输出样本Y为(0,…,0);(2)将X1的第一个分量叠加一个偏差e(e为一个正数,大小依经验而定),即X1(1) =X1(1) +e(1)产生一条含有一个坏数据的曲线,对应输出Y为(c,0,…,0),c为小于1的正数。其余分量均如此处理,得到正偏差样本集;(3)将e换成-e,c换成-c,重复第(2)步,得到负偏差样本集。至此,BP1的样本集就形成了。用类似的方法得到BP2,…,BPS的输入输出样本集。
2.3.3 BP网的训练先将BP1中的权值初始化为随机数,用前述的改进的BP网训练算法对BP1进行训练,得到权值集合P1。然后将P1作为BP2的初始权值对BP2进行训练,得到权值集合P2。类似地,BPi+1的初始值Pi+1选为BPi的训练结果Pi,直至全部BP子网训练完成。显然,由P1,…,Ps对应的解空间中S个点连成的曲线是求解BPs网的一条较短的路线。
2.4 坏数据辨识的组合神经网络模型完成了以上的讨论,就可以建立如图2所示的组合神经网络。模型第一层为Kohonen自组织特征映射网络,将样本曲线进行聚类,并给出各类的特征曲线;第二层为若干BP子网,由各类的特征曲线产生的,一次只能有一个BP子网被激活,实现坏数据精确定位。图2 坏数据辨识模型 整个网络训练好之后,即可以用它来辨识坏数据。设定一个正常数据接受域[-d, +d],(0
2.5 基于特征曲线的坏数据的调整调整方法是将特征曲线Xt的相应段平移到被检曲线Xd上。设检出某曲线Xd的p点至q点为坏数据,其特征曲线为Xt,修正后的曲线为Xr,采用式(2)对坏数据进行调整。Xr(i) =Xt(i)×Xd(p- 1)Xt(p- 1)+Xd(q+ 1)Xt(q+ 1)2(2)i=p,p+ 1,…,q调整结果使得修正后的曲线Xr更加符合本类曲线的特征。即使偶有正常数据被误检为坏数据,用上述方法调整也不会产生大的偏差。
3 多因素负荷预测的模糊建模
3.1 基于CART算法的模糊推理系统结构辨识考虑多因素的电力负荷预测,实际上是用一个对象的多个属性确定其一个或多个数值属性。决策树分类算法是一种有效的数据挖掘技术,它可以采用的变量属性非常灵活,尤其适用于不同性质的变量组成的矢量的分类问题。我们采用CART构造分类模型,能够自动剔除那些对负荷预测无显著影响的输入变量,实现输入变量的自动辨识,将与负荷水平有关的因素组成的数据集输入空间划分为若干互斥区域,每个区域对应一个属性值,该属性值即相应的预测结果。CART算法分为树生长和树剪枝两部分[5]。将输入数据集分为训练和测试两个部分,树生长是通过将训练数据集划分为不相连的子集来完成。选择误差指标减少最大的分叉点,在此处将数据集划分成两个子集,重复此过程,直到误差指标减少到小于某个值域时,过程结束。在分叉过程中为考虑噪声,会产生对训练数据的过度拟合和泛化能力差的问题。树剪枝是一种克服噪声的技术,逐次寻找最弱的子树进行剪枝,同时用测试数据集进行树性能测试,选择最佳规模树。
3.2 确定模糊推理系统的结构树结构形成以后,剔除那些从未存在分叉点的变量,就完成了变量的选择和输入空间的划分,并给出一组决策规则集。在对其进行模糊化以后,采用TS K模型构造一个与之等价的自适应网络,即相应的零阶ANFIS模型[4],这样,负荷预测的模型结构就基本确定下来。
3.3 模糊系统的参数辨识用电力负荷及其影响因素的历史数据对ANFIS网络进行有导师的学习,完成参数辨识的任务。由CART算法产生的决策规则集转化而来的模糊推理系统具有激励强度归一化的重要性质。采用T-范式算子作为乘积算子,设P为ANFIS的参数集,Xi为ANFIS的一个输入矢量,yti、y(Xi,P)分别为相应的负荷实际值和预测值(模型输出值),共有N组训练数据,则ANFIS网络训练误