一种变量选择与高斯过程回归的短期负荷预测方法与流程

文档序号:11691369阅读:836来源:国知局
一种变量选择与高斯过程回归的短期负荷预测方法与流程

本发明涉及一种电力系统短期负荷预测方法,对电力系统负荷进行预测,属于电力系统技术领域。



背景技术:

提高电力系统负荷预测精度是有效保障电力系统安全、稳定、经济运行的技术措施之一,不同时间尺度的负荷预测对安排电力生产调度、设备检修计划及中长期电网规划都具有极其重要的意义。实际系统运行积累海量的历史负荷、气象等数据,充分挖掘这些数据蕴含的信息,为提高电力负荷预测精度提供了新的途径。

高斯过程回归(gaussianprocessregression,gpr)以贝叶斯理论和统计学习理论为基础,在处理高维数、非线性等复杂回归问题时具有易编程实现、超参数自适应获取以及输出具有概率分布等优点,在时间序列分析、动态系统模型辨识、系统控制等多领域获得了广泛应用。基于以上优点,本发明采用高斯过程回归建立短期负荷预测模型。常用共轭梯度(conjugategradient,cg)方法求解高斯过程回归模型超参数,但该方法存在易陷入局部最优解、优化性能受初值选取影响大、迭代次数难以确定等缺点。因此,在建立高斯过程回归短期负荷预测模型过程中,需要采取措施对模型参数进行优化处理。

短期负荷预测建模过程中,输入变量的选取对模型预测结果有很大影响。常通过经验选取输入变量,但该做法依赖技术人员主观经验,缺乏理论依据。同时,人工选择的输入变量维数过高,容易引入冗余变量,增加模型训练复杂度,降低了预测性能。选择少量输入变量时,又难以获得足够的信息表征输出特性。因此,在训练模型前需要建立最优变量集合以克服人工经验选取的不足。



技术实现要素:

发明目的:本发明针对现有电力系统负荷预测技术中存在的问题,如应用高斯过程回归建立负荷预测模型时,传统的共轭梯度方法求解模型超参数存在易陷入局部最优解、优化性能受初值选取影响大、迭代次数难以确定等缺点,导致预测结果准确度不高的缺陷,提供一种基于改进粒子群优化高斯过程回归的短期负荷预测方法,即pso-gpr负荷预测方法。同时,利用随机森林算法给出输入变量重要性评分,结合高斯过程回归模型选择最优变量集合,提高了预测精度。

技术方案:一种基于变量选择与高斯过程回归的短期负荷预测方法,包括以下步骤:

1)获取电力系统短期负荷预测所需的基本数据:历史负荷数据和原始气象数据;其中历史负荷数据为历史日每日间隔1h的整点时刻负荷数据,原始气象数据包括整点时刻环境温度、湿度、预测日日期类型等影响因素;

2)数据预处理:对训练和测试样本集数据中坏数据进行剔除和补充,并对数据进行归一化处理,将样本数据尺度变换到区间[0,1]内;

3)考虑历史负荷值、温度、湿度因素及其累积效应对预测日负荷大小的影响,选取一定数量的备选输入变量,利用随机森林算法计算各输入变量重要性评分并进行排序;

4)设置初始最优变量集合为空集,利用序列前向搜索策略逐一添加重要性评分最高的输入变量并利用高斯过程回归模型计算其预测准确率,直至遍历所有输入变量,由预测误差最小可确定最优变量集合。

5)基于确定的最优变量集合训练高斯过程回归模型,并利用改进粒子群算法优化模型参数;

6)在测试集中验证模型的预测性能。

有益效果:本发明的电力系统短期负荷预测方法利用随机森林方法给出各输入变量重要性评分并排序,采用序列前向搜索策略结合高斯过程回归模型确定最优变量集合,避免人工经验选取输入变量的不足,提高了模型预测性能。同时,采用改进粒子群算法优化高斯过程回归模型参数,进而改善预测模型的精度和泛化能力。

附图说明

图1为利用随机森林算法选取最优变量集合流程图;

图2为变量重要性评分及其预测误差曲线;

图3为高斯过程回归模型对数似然函数迭代曲线;

图4为测试的pso-gpr预测模型连续7日负荷预测曲线与实际曲线。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的思路是将随机森林算法用于电力系统短期负荷预测建模输入变量选择中,利用随机森林算法给出各输入变量重要性评分并排序,由此结合高斯过程回归模型并基于序列前向搜索策略确定最优输入变量集合,其预测误差最小即对应着最优变量集合。同时,采用改进粒子群(particleswarmoptimization,pso)算法优化高斯过程回归模型参数,进一步增强了模型预测性能,避免传统共轭梯度方法易陷入局部最优解的缺点。

短期负荷预测建模过程中,输入变量的选取对模型预测结果有很大影响。本发明采用随机森林算法选取最优变量集合并建立高斯过程回归短期负荷预测模型。随机森林(randomforest,rf)利用随机重采样技术bootstrap构建多个子样本数据集,在每个子样本集中随机选取部分输入变量并通过分支优度准则选取最佳分裂点,由各回归树构建鲁棒性能强的集成模型。

假定电力负荷数据训练集(x,y)含n个观测值,输入变量维数为m,利用bootstrap方法有放回的从原始训练数据集合中重复抽取b个子样本集,每个子集样本数为n,由此可构建b颗回归树;抽取第bi个子集时,未被选择的观测值构成袋外数据(out-of-bag,oob);构造第bi颗回归树时,从m维输入变量中随机选取固定数量为mtry(可取mtry=m/3)的输入变量集作为该颗回归树的特征空间。对于回归问题,分裂过程采用方差最小作为分支优度准则来选取分裂变量,即

式中,n为训练样本数,xk为变量k的样本值,为变量k的样本均值,i即为此次最优分裂变量。

每棵回归树采用无剪枝策略从根节点自顶向下递归分支,设定叶节点最小尺寸作为回归树生长终止条件。b颗回归树生长完成后,即可构建完整的rf回归模型。最后,通过袋外数据预测准确度评价模型的预测性能,即

式中,noob为袋外数据样本数量,yi为真实负荷值,为rf模型预测结果。

rf模型以变量重要性评分评价各输入变量对负荷的影响程度,通过均方残差减小量计量各输入变量重要性评分并排序。利用袋外数据对b颗回归树进行测试,得到均方残差分别为:mse1,mse2,l,mseb。变量xk在b个袋外数据集中使用随机扰动方法置换,形成新袋外测试集。利用新的袋外数据对b颗回归树重新进行测试,构成随机置换后的均方误差矩阵为

第k个输入变量重要性评分即为:将mse1,mse2,l,mseb与均方误差矩阵第k行对应相减并取b颗回归树平均值,最后除以b颗回归树标准误差se,得到变量xk的均方残差平均减小量。由此得到各输入变量重要性评分公式为

gpr用于短期负荷预测建模时,训练集合为d={(xi,yi)|i=1,2,3,…,n}=(x,y),其中:xi∈rm为m维输入向量,m×n维输入矩阵则可表示为x=[x1,x2,…,xn],n表示训练样本点数量,yi∈r为对应于xi的输出标量。

用数学语言描述gpr负荷预测过程为:定义函数空间f(x)=φ(x)tω,f(x(1))、f(x(2))、…、f(x(n))构成随机变量的一个集合,且服从联合高斯分布,高斯过程模型就可以表示为

式中:独立高斯白噪声服从均值为0,方差为的高斯分布,记做ε:δij为kroneckerdelta函数,当i=j时,函数δij=1;m(x)为有限维分布族的均值函数,描述负荷均值输出结果;k(x,x′)为协方差函数,刻画负荷方差大小。

为简化推导,负荷均值m(x)进行数据预处理使之为0。gpr预测模型在n维训练集d内建立先验分布,在n*维测试集d*={(xi,yi)|i=n+1,l,n+n*}=(x*,f*)下转变为后验分布,则训练样本观测值y和测试数据的输出向量f*之间构成联合高斯分布

其中,k(x,x)=kn表示n×n的核矩阵,其元素kij=k(xi,xj);k(x,x*)=k(x*,x)t为测试数据x*与训练集的输入x之间的协方差矩阵;k(x*,x*)为x*自身的协方差,i为单位矩阵。

由此得出预测值f*后验分布为

其中

均值向量为gpr模型负荷预测均值,对应于点预测输出,为对应于的方差,由此可获得具有概率分布意义的负荷区间不确定性预测结果。

本发明选取平方指数协方差函数(squaredexponentialcovariancefunction,se)计算核矩阵元素,其公式为

上式中包含未知超参数:m=diag(l-2),l为方差尺度;为核函数信号方差,为噪声方差。令θ为包含所有超参数的向量。训练样本的对数似然函数可表示为

其中:

gpr模型通过极大化似然函数自适应获得协方差函数中的最优超参数,获得超参数最优值后,即可以用确定的协方差函数得到预测点的预测均值和方差。本发明采用改进粒子群算法求解超参数,有效避免了共轭梯度方法的缺点。

粒子群优化算法是源于模拟鸟群觅食行为的启发式优化算法,被广泛用于非线性优化问题。标准pso进化公式如下

式中:w为惯性权重;c1,c2为加速因子;r1,r2∈rand[0,1];分别为第k次迭代中超参数i的第j维变量的速度、位置、个体极值最优位置和群体极值最优位置。

标准pso算法中惯性权重w和加速因子c1,c2为常数,在搜索过程中易导致群体多样性丧失、早熟、陷入局部最优等问题。改进粒子群算法采用式(14)使得在进化后期增强局部寻优能力,式(15)可以发挥粒子自身搜索能力及所有粒子群体认知能力。

w=wmax-(wmax-wmin)kt(14)

式中:wmax、wmin分别为初始惯性权重最大值和最小值;cmax、cmin分别为初始加速因子最大值、最小值,w、c1、c2分别为第k次迭代的惯性权重、加速因子值;t为迭代次数。

利用改进粒子群算法优化gpr超参数流程如下:

1)初始化算法参数。包括粒子规模、迭代次数、惯性权重、加速因子初始值。

2)超参数初始化。对超参数向量中的每个参数初始化,并确定各参数变化范围。

3)更新惯性权重和加速因子取值。

4)适应度计算。每个粒子位置对应着一个超参数解,计算此位置时的训练样本对数似然函数即为适应度值,并确定个体极值点和全局极值点。

5)最优解更新。若粒子目前位置优于自身记忆的最优位置,则用当前位置替换;若此次迭代全局最优位置优于到目前为止搜索到的全局最优位置,则用此次迭代的全局最优位置替换。

6)粒子状态更新与变异操作。由式(14)、(15)更新粒子速度与位置。若粒子位置超出参数变化范围,则用参数相应边界值代替。设定粒子变异概率并进行变异操作。

7)循环计算。返回步骤3)循环计算,直至满足收敛条件或达到最大迭代次数。

本发明在选取最优变量集合基础上,建立改进粒子群算法优化的高斯过程回归短期负荷预测模型,即pso-gpr模型。首先根据负荷特征,从历史负荷、气象因素等角度选取模型输入变量并构建训练集和验证集,在训练集中利用随机森林算法给出各输入变量重要性评分并进行排序。设置最优变量集合为空集,基于序列前向搜索策略将重要性评分最高的输入变量依次加入最优变量集合,在验证集上利用优化的高斯过程回归模型进行测试,得到此时输入变量集合的预测误差。在遍历所有输入变量后,最优变量集合即对应着预测误差最低的变量集合。

电力负荷是多种因素共同作用的结果,本发明主要从气象因素、历史负荷值及预测日日期类型三个方面考虑短期负荷预测建模输入变量的选取。电力负荷每日、每周负荷曲线的形状揭示负荷具有明显的周期性,同时年负荷曲线也具有一定的相似性。从历史负荷值可以发现负荷的变化趋势,是短期负荷预测重要的影响因素。同时,温度、湿度因素对日负荷大小具有直接影响,气象因素的累积效应,如前一天温度也会对预测日负荷产生作用。工作日及休息日由于人们的工作、休息习惯不同导致用电行为发生很大改变,负荷值具有明显差异。综合以上分析,本发明选取的输入变量如表1所示。

表1变量符号及其物理意义

为消除物理量纲的不同,在进行训练模型前需要对数据进行归一化处理,归一化公式为

式中:为某一输入变量归一化后的数据值;x(i)为输入变量原始数据;xmax、xmin分别为原始数据的最大值和最小值。

为量化预测值接近真实值的程度,本发明选择平均绝对百分比误差(meanabsolutepercentageerror,mape)和均方根误差(rootmeansquareerror,rmse)作为模型预测效果评价指标,计算公式分别为:

式中:n为预测点个数,yi为第i个预测点负荷真实值,为第i个预测点预测值。

为验证本发明方法的有效性,进行以下实验:采用某电网负荷2015年6月15日4时至8月24日23时共1700个实测负荷值作为训练样本序列,数据采样时间间隔为1h,建立pso-gpr负荷预测模型,对8月25日0时至8月31日23时的168个负荷值做提前一天的预测。

利用随机森林模型在训练集对24个输入变量重要性进行排序,设置随机森林参数为:回归树数目为500,节点最小尺寸为5,mtry=8。变量重要性序列如图2所示,重要性评分由高到低排序依次为:预测日前一日负荷、预测日温度、前七日负荷、前十四日负荷、前一日温度、前两日负荷、前三日负荷、预测日期类型、预测日湿度、前八日负荷、前两日温度、前一日湿度、去年同期湿度、前八日湿度、前八日温度、前十四日湿度、去年同期负荷、前三日温度、前三日湿度、前七日温度、前两日湿度、前七日湿度、前十四日温度、去年同期温度。可以看出,近期历史负荷值对预测日负荷具有很大影响,决定了负荷变化趋势,同时预测日温度、湿度、日期类型也具有较高重要性评分。由变量重要性评分结合高斯过程回归模型,得到不同输入变量个数时负荷预测误差如图2所示。从图中可以看出,较少输入变量难以获得足够信息表征负荷特征,预测精度较低。随着输入变量个数的增加,进一步丰富了信息,预测精度有所提高。当输入变量个数达到16个时,由误差曲线可看出此时预测误差最小。但随着输入变量的进一步增加,使得最优输入变量集合中混入了冗余信息,增加模型训练复杂度,降低了泛化能力,因此预测精度又会呈现下降趋势。由此,选择变量重要性序列前16个变量构成最优输入变量集合。另外,在变量相同情况下,改进粒子群算法相对共轭梯度法进行高斯过程回归预测时具有更好的预测效果。

图3为输入变量个数为16时,分别采用改进粒子群算法和共轭梯度算法求解模型超参数的适应度曲线。相对共轭梯度算法,改进粒子群迭代次数更少,获得更好的适应度值。

为验证pso-gpr模型预测性能,分别采用bp神经网络、svm(supportvectormachines)、cg-gpr建立短期负荷预测模型。图4为四种预测模型预测结果与实际负荷曲线。从图中可以看出,四种模型都能给出较精确的预测结果,svm和gpr模型性能优于神经网络模型。经改进粒子群算法优化的高斯过程回归模型更接近真实值,满足一定的工程精度需求。预测模型定量评价指标结果如表2所示,从不同日的预测结果可以看出,pso-gpr相对cg-gpr模型预测精度都有不同程度的提高,验证了改进粒子群算法的有效性。

表2负荷预测结果比较

综上所述,本发明基于变量选择与高斯过程回归的短期负荷预测方法具有如下优势:采用随机森林算法并基于序列前向搜索策略选取最优变量集合,避免人工选取输入变量的不足,提高了模型预测精度;同时,采用改进粒子群算法优化高斯过程回归模型参数,避免传统共轭梯度方法易陷入局部最优解缺点,优化后的高斯过程回归模型增强了预测性能,提高了负荷预测精度。对于电力系统安排日前调度计划及保证电网安全稳定运行具有一定的参考价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1