文献标识码: A
DOI:10.16157/j.issn.0258-7998.173985
中文引用格式: 方芳,田世明,卜凡鹏,等. 一种自适应选择样本的用电负荷预测方法[J].电子技术应用,2017,43(11):18-21,26.
英文引用格式: Fang Fang,Tian Shiming,Bu Fanpeng,et al. An electric load forecasting method based on adaptive selection of samples[J].Application of Electronic Technique,2017,43(11):18-21,26.
0 引言
短期负荷预测是电力系统实现安全运行与经济调度的前提与保障[1-3],及时准确的预测能为电力网络运行各个环节的管理者及调度部门提供决策依据,同时也是实时电价策略制定、电力市场规划实施的基础。短期负荷预测,尤其是未来24小时的短期预测,由于负荷波动随机性强、影响因素种类众多、负荷周期性差异大[4],一直是负荷预测工作中的难点与重点。
影响未来负荷波动状况的因素众多,除了气温、湿度、降雨量等气象因素,经济产业波动、重大节假日等也与其存在相关关系,如何在模型中考虑多种因素而又能消除因素间的多重共线性及样本数不足的缺陷,成为研究的阻碍[5-6]。在机器学习领域,岭回归技术恰好对样本数小于特征数、特征间存在多重共线性这一预测场景适用。文献[7]将主成份分析与岭回归结合进行了短期负荷分析,文献[7-8]则结合偏最小二乘与岭回归建立了PLSR-RE预测模型进行中长期负荷预测。由于缺少特征相似样本的提取,这些预测方法都没有发掘出岭回归技术在小样本多特征情形下相较普通最小二乘回归的优势。
面对短期负荷预测在较短时期内就存在较大非周期性差异的特点,固定的预测模型即使使用了较多的历史数据做训练,也很可能在预测数周后预测效果就大为下降。因此在24小时负荷预测中,一个改进趋势便是依据预测日的某些特征,自适应选择其适用的预测模型。自适应的思想在人工智能领域应用广泛,自适应系统可以从自身的挫折、对外部世界的观察和经历中进行学习[9-14]。当条件发生变化时,它能够对自身做出相应调整。本文将自适应的思想结合岭回归预测技术,建立了一套预测精度较好的24小时短期负荷预测模型,并结合某区实际数据分析模型的预测效果。
1 自适应负荷预测原理
自适应预测的目标是针对不同的预测日,通过某种指标自动比较各种预测模型在对预测日进行预测时的性能,一方面自适应地选择合适的预测方法,另外一方面,还要自适应地进行模型参数的寻优,以实现自动地将具有最优参数的最优模型应用于下一次预测。
通常评价预测模型的主要指标是模型的预测精确度,而由于对待预测日的实际负荷未知,其实际预测精确度难以估计。因此在使用自适应技术时,可以考虑使用两种自适应模式:预测日特征自适应及虚拟预测日自适应。
预测日特征自适应,即通过预测日的特征,如气象特征、节假日信息、人流密度等预报信息,在历史日中选择与预测日特征相近的相似日进行模型自适应训练与寻优,最终完成预测。其优点是训练时间较短,缺点是特征相似日的自适应模型可能对预测日精度较差。
虚拟预测日自适应,是首先通过预测日的特征,在历史日中选择与预测日最相近的虚拟预测日,通过对虚拟预测日预测精度不断寻优,得到一个精度较高的模型用于实际预测日。该预测方法优点是自适应程度高,预测效果好,缺点是寻优时间较长,对虚拟日的寻优过程可能造成过拟合而在实际预测中性能下降。
2 岭回归与带交叉验证的岭回归
岭回归是一种适用于共线性数据分析的有偏估计回归方法,属于一种改进的最小二乘法。岭回归最为经典的应用场景是不考虑多重共线性,引入较多的影响因素来对模型进行拟合,这一场景下时常会造成样本的特征维度大于样本的个数,从而自变量矩阵是不满秩的,在普通最小二乘法中需要对自变量自乘矩阵求逆,而该场景下该矩阵接近于奇异,对其求逆存在很大误差,而岭回归则不会存在这一问题。
回归分析中常用的最小二乘法是一种无偏估计,对于一个适定问题,X通常是列满秩的,回归模型可以表述如下:
其中X为自变量矩阵,θ为回归参数矩阵,y为因变量向量。
采用最小二乘法,定义的损失函数为残差的平方和,表述如下:
为求取最小化损失,对上述问题求导后,可得到时残差平方和最小化的参数矩阵:
当X不是列满秩时,或者其某些列之间的线性相关性较大时,XTX的行列式接近于0,即XTX接近于奇异,上述问题转变为一个不适定问题。此时对XTX求逆的误差急剧增大,传统的最小二乘法表现出非稳定性和不可靠性。
为解决上述问题,在上述的损失函数中加入一个正则化项,即变为:
带交叉验证的岭回归算法则是通过预先设定好α的不同取值(通常设定一个步长与范围,在一定区间内等步长取值作为α的取值集合),通过对样本所有点随机划分训练点的测试点,对每一个测试点遍历α的取值集合做岭回归预测,最终通过交叉验证选取使整体拟合误差最小的α值作为最终的岭回归模型的α值。
3 模型输入变量数值化
对于一天之后的短期负荷预测,影响其负荷大小的相关因子主要是星期类型、月份、总体的时间趋势、该日的气象值、该日相对于前一日的气象变化、前一日的负荷值。将以上因素数值化表述如下:
星期类型:
其中wi,j表示第i个气象类型(如温度、湿度、气压等)在该日第j个时点的气象值。
相对前一日气象变化值:
其中wdi,j表示第i个气象类型(如温度、湿度、气压等)该日第j个时点的值与前一日第j个时点的值作差分得到的气象变化量。
前一日负荷:
即44+8×m维,m为考虑的气象因素种类数,假设考虑4种天气因素,则模型输入为236维向量,而在3年的历史数据中选择的与预测日天气类型相近的训练样本显然不会超过236个,因此需要使用岭回归技术实现这一预测模型。
综上,对预测日i第k个时点负荷的预测模型可写为:
4 自适应预测方法
依据预测模型的自适应程度,分别建立了模式1至模式3三种预测模型。
4.1 模式1:训练所有样本的RidgeCV回归模型
该模式即将预测日之前所有历史日的负荷及相关因素均用于模型的训练,其基本流程如图1所示。
模式1的优点是方法简单、实现容易,对每一个预测日只需要使用所用历史数据训练好的一个模型,从而预测速度快。但由于缺乏对待预测日自身特点的针对性,预测效果容易受到整体训练样本中无关样本的干扰,因此可以考虑已经不同预测日自身特点筛选用于训练的样本,从而提高训练的效率与针对性,达到提高预测精度的目的。由此提出模式2的预测方法。
4.2 模式2:依据预测日天气自适应选择最优训练样本训练模型
模式2考虑具体实现自适应预测中的依据预测日特征自适应方法。具有相同天气类型与气象变化情况的日期,其负荷与天气因素、前日负荷变化情况也存在相似性,通过寻找对预测日有较高气象相似度的历史日作为训练样本训练模型,能够最大程度地排除无关样本对建立预测模型的干扰,从而提高最终预测模型的准确性与针对性。
模式2基本预测流程如图2所示。其相比模式1增加了相关样本筛选功能,排除了无关样本对预测日的干扰,减少模型训练时间的同时提高最终预测精度。
4.3 模式3:最小化虚拟日预测误差自适应选择权重筛选训练样本的预测模型
模式3相比模式2,加入了虚拟预测日预测的概念,将虚拟预测日预测误差极小化作为模型优化的目标,通过优化用于筛选的权重系数向量ω1、ω2,使得最终用于训练的样本与预测日气象状况高度相关,从而最终模型更适用于预测日,以提高对最终预测日的预测精度。
具体流程如图3所示。
5 预测结果
通过实际使用模式2和模式3对某地区电网的实际负荷数据进行预测,同时与短期负荷预测中精度较高的SVR预测方法进行精度的比较,分析使用自适应技术后模型的预测结果。
图4为模式2、模式3与SVR测试结果,通过观察可发现,在对节假日与工作日交汇的日期及负荷变化大的日期的预测中,模式2与模式3的预测效果要好于支持向量回归预测,模式3相比模式2预测效果差别不大,但整体的预测误差要小于模式2,其中模式2预测MAPE为1.024%,模式3预测MAPE为0.978%,SVR预测MAPE1.464%,模式2虽然误差较模式3大,但对于气象变化大的预测日效果更好,模式3则在负荷平稳时段预测精度最高。
6 结论
在岭回归预测模型及自适应思想的基础上,本文提出了一种应用虚拟预测日方法的自适应岭回归预测模型,并依据自适应程度提出了两种预测模式。模型在实际运用中体现了对不同类型预测日的针对性,相比常用的SVR预测模型精度更高,对负荷突变日的适应性更强,总体预测效果更好。
参考文献
[1] 康重庆,夏清,刘梅,等.电力系统负荷预测[M].北京:中国电力出版社,2007.
[2] 牛东晓,曹树华,赵磊,等.电力负荷预测技术及其应用[M].北京:中国电力出版社,2009.
[3] 刘晨晖.电力系统负荷预报理论与方法[M].哈尔滨:哈尔滨工业大学出版社,1987.
[4] TAYLOR R C.An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics[J].BMC Bioinformatics,2010,11(12):S1.
[5] DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[6] ENE A,IM S,MOSELEY B.Fast clustering using Map-Reduce[C].Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2011:681-689.
[7] 杨卓.基于负荷混沌特性和最小二乘支持向量机的短期负荷预测[D].西安:西安理工大学,2008.
[8] 何永秀,王跃锦,杨丽芳,等.基于最小二乘支持向量机的居民用电预测研究[J].电力需求侧管理,2010,12(3):19-23.
[9] WONG P C,SHEN H W,JOHNSON C R,et al.The top 10 challenges in extreme-scale visual analytics[J].IEEE computer graphics and applications,2012,32(4):63.
[10] 顾丹珍,艾芊,陈陈,等.自适应神经网络在负荷动态建模中的应用[J].中国电机工程学报,2007,27(16):31-36.
[11] GUO H,MAO N,YUAN X.Wysiwyg(what you see is what you get)volume visualization[J].Visualization and Computer Graphics,IEEE Transactions on,2011,17(12):2106-2114.
[12] AHRENS J,BRISLAWN K,MARTIN K,et al.Large-scale data visualization using parallel data streaming[J].Computer Graphics and Applications,IEEE,2001,21(4):34-41.
[13] ROSS R B,PETERKA T,SHEN H W,et al.Visualization and parallel I/O at extreme scale[C].Journal of Physics:Conference Series IOP Publishing,2008.
[14] JAGADISH H V,OOI B C,TAN K L,et al.Distance:An adaptive B+-tree based indexing method for nearest neighbor search[J].ACM Transactions on Database Systems(TODS),2005,30(2):364-397.
作者信息:
方 芳1,田世明2,卜凡鹏2,苏 运3
(1.国网北京市电力公司昌平供电公司,北京102200;
2.中国电力科学研究院,北京100192;3.国网上海市电力公司,上海200437)