一种基于核主成分分析和随机森林的短期负荷预测方法

文档序号：9547641阅读：311来源：国知局

一种基于核主成分分析和随机森林的短期负荷预测方法
【技术领域】
[0001] 本发明属于电力系统技术领域，具体涉及一种基于核主成分分析和随机森林的短期负荷预测方法。
【背景技术】
[0002] 电力负荷预测是电力系统调度、用电、计划、规划等管理部门的重要工作之一。准确的短期负荷预测是合理安排发电机组的起停、提高电能质量、保持电网安全稳定性运行的重要依据，有助于减少不必要的旋转储备容量、合理安排机组检修计划、有效降低发电成本、提高经济和社会效益。
[0003] 为了提高短期负荷预测的精度，众多研究者展开了长期研究与探索，并形成了以时间序列法为代表的传统预测方法和以人工神经网络（Artif icial Neural Networks, ANN)为代表的人工智能方法。与此同时，支持向量机（Support Vector Machines, SVM)等新的机器学习算法，也得到越来越广泛的应用。
[0004] 但是在实际应用过程中普遍存在以下两个问题：第一个问题是当输入影响因素过多时，将会导致预测模型结构过于复杂，训练效率低；第二个问题是ANN方法在训练中容易导致学习不足或过拟合的问题。SVM等机器学习算法虽能有效避免陷入局部最小的风险，能实现较为精确的预测，但是仍存在以下不足：（1)核函数必须满足Mercer条件，可选核函数较少；（2)只能实现点预测，无法描述数据的不确定信息；(3)参数较多，且支持向量随着训练样本的增加而线性增长，计算量较大。
[0005] 对于第一个问题，目前常用的解决思路是进行样本输入的降维，其中核主成分分析（Kernel Principle Component Analysis，KPCA)能通过其核函数实现非线性降维，可有效避免粗糙集理论、灰色关联分析法等传统降维方法只能提取出部分影响因素，而剩余的影响因素则被完全舍弃的不足，以及主成分分析（Principle Component Analysis, PCA)方法因其本质为一种线性算法，不能提取数据中的非线性关系的不足。
[0006] 对于第二个问题，随机森林（Random Forest, RF)是数据挖掘思想的代表算法，能够从有限的数据中挖掘出大量的有效信息。RF算法以Bootsrap重抽样法获取训练样本，其基本思想是构造多决策树模型，具有预测精度高、泛化误差可控、收敛速度快、调节参数少等优点，可有效避免"过拟合"现象发生，尤其适用于高维数据的运算。已有文献将RF算法与SVM和ANN算法进行了比较，证明了 RF算法的优越性。RF算法早期多应用于图像识别、故障诊断等分类问题，目前将该算法运用于负荷预测的成果非常少。

【发明内容】

[0007] 发明目的：本发明的目的是提供一种结合核主成分分析和随机森林模型、提高预测精度与效率的短期预测负荷方法。
[0008] 技术方案：本发明所述的基于核主成分分析和随机森林的短期负荷预测方法包括如下步骤：
[0009] (1)分析和选取运行的电力系统中影响待预测日负荷预测精度的数据，初步构造训练、预测样本集；进一步说，所述数据包括历史负荷、气温、湿度以及光照数据。
[0010] (2)采用核主成分分析对训练样本数据进行降维；采用核主成分分析对样本的输入数据进行优选降维，是为了能在保证输入数据相对较少的同时，保留绝大多数有效信息，核主成分分析的构建方法进一步说包括如下步骤：
[0011] (21)给定M个样本，每个样本有N维的原始输入，输入样本数据构成M行N列矩阵；
[0012] (22)选择核函数，根据
得到核函数矩阵KN(即一般情况下的核函数矩阵），计算该矩阵的特征值λ和特征向量v，其中，KNlj 表示核函数矩阵中第i行第j列的核函数，Klj表示中心化时的核函数矩阵中第i行第j列的核函数，I ini表示第i行第m列的修正系数，K 表示第m行第j列的核函数，I ιη表示第 i行第η列的修正系数，Knj表示第η行第j列的核函数，K m表示第m行第η列的核函数， Inj表示第η行第j列的修正系数；选择的核函数优选可为高斯径向基核函数Κ(χ，X J = exp(_I |χ-χ」I/σ 2)，其中，σ为核函数参数，X为任一点，X1为某一点；
[0013] (22)计算上述特征值的贡献率以及累计贡献率，提取主成分分量，并计算KN在提取出的特征向量α上的投影Υ = ΚΝ· α，其中，所述Y为经核主成分分析降维后的训练样本，KN表示核函数矩阵。
[0014] (3)采用随机森林模型对上述已降维的训练样本数据进行训练，得到训练后的随机森林模型；随机森林模型的构建方法进一步说包括如下步骤：
[0015] (31)应用Bootstrap方法对已降维的训练样本数据进行重抽样，随机产生k个训练子集S 1，…，Sk;采用Bootstrap方法对已降维的训练样本数据进行重抽样进一步说是对集合S中含有η个不同的样本{ Xl, -,xj，有放回地从集合S中抽取一个样本，抽取η次，汇总抽取的样本形成新的集合S%
[0016] (32)对每个训练子集构建对应的不剪枝决策树CART1，…，CART k，在对决策树内部节点进行分裂过程中，是从M个属性中随机抽取m个属性作为该分裂节点的分裂属性集，其中，M为训练样本的属性个数，m为大于0且小于M的整数；
[0017] (33)对于测试样本X，利用每个决策树进行测试，得到对应的决策树CART1(X),…， CARTk (X)，对k个决策树的结果求平均值，得到测试样本X对应的最终预测结果。最终的预测结果进一步表示为
其中，H(X)为预测输出，k为决策树的个数，ht(x)为第 t个CART决策树模型。
[0018] (4)将预测样本数据输入训练后的随机森林模型，进行待预测日的短期负荷预测。
[0019] 有益效果：与现有技术相比，本发明的显著优点为通过结合核主成分分析和随机森林模型对电力系统进行短期预测负荷，提高了预测的精度、效率以及数据的合理性，可较好的运用于工程实际问题。核主成分分析降低了样本输入的维数，该方法能实现输入的非线性降维，在保证输入数据相对较少的同时，保留绝大多数有效信息；随机森林方法具有预测精度高、泛化误差可控、收敛速度快、调节参数少等优点，可有效避免"过拟合"现象，尤其适用于高维数据的运算。
【附图说明】
[0020] 图1为本发明的短期负荷预测流程框图；
[0021] 图2为随机森林预测示意图；
[0022] 图3为预测效果示意图。
【具体实施方式】
[0023] 下面结合附图对本发明的技术方案进行详细说明。需要说明的是，此处的说明仅仅以短期负荷预测为例，该发明还可适用于风速预测、光伏出力预测等其他范围与领域。
[0024] 为了提高短期负荷预测的预测精度与运算效率，本发明提出一种基于核主成分分析和随机森林的短期负荷预测方法，如图1所示。一方面引入核主成分分析对初始的高维样本输入进行非线性降维，在保证输入数据相对较少的同时，保留绝大多数有效信息，降低了模型的规模，缩短了模型的运行时间；另一方面采用已降维的新训练样本训练随机森林模型，充分挖掘训练样本中的有效信息；最后使用训练好的模型进行待预测日的短期负荷预测。
[0025] 本发明所述的基于核主成分分析和随机森林的短期负荷预测方法包括如下步骤：
[0026] 步骤（1):分析和选取运行的电力系统中影响待预测日负荷预测精度的数据，初步构造训练、预测样本集；进一步说，影响待预测日负荷预测精度的数据包括历史负荷、气温、湿度以及光照数据。
[0027] 步骤（2):采用核主成分分析对训练样本数据进行降维；采用核主成分分析对样本的输入数据进行优选降维，是为了能在保证输入数据相对较少的同时，保留绝大多数有效信息，核主成分分析的构建方法进一步说包括如下步骤：
[0028] (1)给定M

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙永辉;范磊;卫志农;孙国强;臧海祥;朱瑛;陈通;梁智;郭勉;宗文婷;
技术所有人：河海大学;
我是此专利的发明人

上一篇：一种区域电网的负荷预测系统及其方法
上一篇：医院内急性肾损伤预警系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。