基于ME-TD3算法的风电场动态参数智能校核方法

文档序号:25610872发布日期:2021-06-25 14:57阅读:301来源:国知局
基于ME-TD3算法的风电场动态参数智能校核方法
基于me

td3算法的风电场动态参数智能校核方法
技术领域
1.本发明属于电力系统仿真验证的应用领域,是一种基于me

td3算法的风电场动态参数智能校核方法。


背景技术:

2.电力系统动态仿真是电力系统稳定分析与控制的主要工具,也是电网调度部门指导电力系统运行的主要依据,仿真结果是涉及到电力系统规划、运行、控制设计等诸多方面的决策依据。如果它不能准确描述电力系统的动态行为,电力系统稳定运行将失去保证。因此,电力系统仿真的可信度直接影响到电网的安全运行。在实际系统中,已多次出现动态仿真无法反映系统实际行为的问题,仿真的有效性问题受到越来越多的关注。大量实验表明,引起实测数据与仿真数据差异性的主要原因是电力系统的模型参数不准确。目前,电力系统模型一般采用的都是出厂的简化参数,未考虑到实际运行中的各种情况,例如老化、磨损等。这就导致模型参数与实际参数出现偏差,偏差大时能够使电力系统的安全运行产生蝴蝶效应,致使系统出现大范围停电。此时需要对仿真所用的动态参数进行校核,以重建仿真的准确性。现有技术对仿真所用的动态参数进行校核采用的是启发式算法,启发式算法的缺陷在于:在解决高维度的参数校核问题时易陷入局部最优,且不具有记忆性,每次都需要重新搜索。由此可见,丞需一种准确有效智能的方法来对风电场的动态参数进行校核。


技术实现要素:

3.本发明所要解决的技术问题是,克服现有技术的不足,利用广域量测系统实测扰动数据,通过深度强化学习的方法对风电场动态参数进行校核,进而提供一种科学合理,适用性强,效果佳且能够提高动态安全分析数值仿真精度的基于me

td3算法的风电场动态参数智能校核方法。
4.解决其技术问题采用的方案是:一种基于me

td3算法的风电场动态参数智能校核方法,其特征是,它包括以下内容:
5.1)裁剪双q学习:在对裁剪双q学习的基础上,对裁剪双q学习进行改进,设置两套评价网络来估算q值,并取相对较小的q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的q值会出现差异,通过选择小的q值进行估计,
[0006][0007][0008]
式中,y为目标值函数,r为即刻回报值,γ为折扣率,为状态s'和动作下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志
位,表示存放经验的经验池;
[0009]
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
[0010]
3)目标策略平滑:me

td3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
[0011][0012]
式中,a'(s')为状态s'下的动作值,为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,

c和c分别为正态分布扰动值的上、下限,a
low
和a
high
分别为动作值上、下限;
[0013]
4)多经验池概率回放:me

td3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低,具体步骤为:
[0014]

首先初始化psat仿真环境和me

td3算法中的动作网络、评价网络1以及评价网络2的权重参数θ
μ
、θ
μ

、以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
[0015]

将参数初值s输入到me

td3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s

,将调整后的参数s

与仿真环境psat进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s

,以及校核策略a、回报函数值r、仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于

1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
[0016]

当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1

ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为batch_size,对于me

td3算法的评价网络,将样本的调整后参数s

输入到动作网络中得到下一步的调整策略a

,将下一步的调整策略a

加入服从正态分布的噪声后与调整后参数s

一同输入到me

td3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetq,将调整前参数s和校核策略a一同分别输入到me

td3算法的评价网络1和2中得到主网络的评价值currentq1和currentq2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用adam优化器分别对me

td3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于me

td3算法的动作网络,将调整前的参数s和校核策略a一同输入到me

td3算法的评价网络1中,取输出值的负平均值作为me

td3算法动作网的损失值,me

td3算法的动作网络和评
价网络均采用软更新的方式对网络参数进行更新,且更新频率为me

td3算法的评价网络更新k次,me

td3算法的动作网络更新1次;
[0017]

对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
[0018]
targetq=r+(1

done)
·
γ
·
q
min
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0019][0020]
me

td3算法的动作网络的应用过程如图4所示,具体步骤为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到me

td3算法的动作网络中,动作根据保存下来的知识给出一个能使me

td3算法的评价网络评价最高的参数校核策略,使有功功率、极端电压的仿真轨迹与实测数据轨迹参数最接近。
[0021]
本发明的一种基于me

td3算法的风电场动态参数智能校核方法,是在双馈风电场等值模型的基础上,对深度强化学习的新进展深度确定性策略梯度算法进行改进,提出了多经验池概率回放的双延迟深度确定性策略梯度算法。针对深度确定性策略梯度算法存在的高维度状态动作空间收敛速度较慢和网络高方差、过拟合的问题,该算法采取双经验池的方法提高了抽样时有效经验被选取的概率,提高了网络训练的效率,同时采取多种技巧来提高me

td3算法中评价网络估值的准确度,从而提高了风电场动态参数校核的准确性,具有科学合理、适用性强、效果佳等优点。
附图说明
[0022]
图1为一种基于me

td3算法的风电场动态参数智能校核方法的动作网络结构图;
[0023]
图2为一种基于me

td3算法的风电场动态参数智能校核方法的评价网络结构图;
[0024]
图3为一种基于me

td3算法的风电场动态参数智能校核方法的网络训练流程图;
[0025]
图4为一种基于me

td3算法的风电场动态参数智能校核方法的网络应用流程图;
[0026]
图5为校核前后有功功率对比图;
[0027]
图6为校核前后电压幅值对比图。
具体实施方式
[0028]
本发明的一种基于me

td3算法的风电场动态参数智能校核方法,其中me

td3是multiple experience pool experience replay twin delayed deep deterministic policy gradient的英文缩写,中文名称为:多经验池概率回放的双延迟深度确定性策略梯度。me

td3算法是在深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法的基础上做出了相应的改进,使得参数校核所用的时间更短,精度更高。
[0029]
本发明的一种基于me

td3算法的风电场动态参数智能校核方法,它包括以下内容:
[0030]
1)裁剪双q学习:双q起源于深度q网络(deep q

network,dqn),用于解决q值被过高估计的问题,在对裁剪双q学习的基础上,对裁剪双q学习进行改进,设置两套评价网络来估算q值,并取相对较小的q值作为两个网络更新的目标,目标值计算见式(1),损失函数见式(2),网络的初始参数不同决定两个网络的q值会出现差异,通过选择小的q值进行估计,
[0031][0032][0033]
式中,y为目标值函数,r为即刻回报值,γ为折扣率,为状态s'和动作下的目标价值函数,θ为评价网络的权重参数,φ为动作网络的权重参数,d为动作停止标志位,表示存放经验的经验池;
[0034]
2)延迟策略更新:当动作网络保持不变时,是否更新目标网络都不会影响价值函数的正确收敛;但当动作和评价网同步更新时,不采用目标网络就能够使得训练不稳定或发散,因此,为减小动作网络更新所导致的目标变化所带来的波动性,评价网络的更新频率要高于动作网络的更新频率,评价网更新k次后动作网更新1次来解决策略和值函数的耦合问题;
[0035]
3)目标策略平滑:me

td3算法在构建价值函数的更新目标过程中,在原有动作的基础上针对每一维度都施加一个服从正态分布的扰动值,并将施加扰动后的动作值限定在规定范围之内,见式(3),
[0036][0037]
式中,a'(s')为状态s'下的动作值,为动作网络输出值,ε为正态分布扰动值,σ为正态分布方差,

c和c分别为正态分布扰动值的上、下限,a
low
和a
high
分别为动作值上、下限;
[0038]
4)多经验池概率回放:me

td3算法根据样本对网络训练的影响程度对其进行分类,将经验池一分为二,经验池1存放优质样本,经验池2存放一般样本,优质样本取到的概率高,一般样本取到的概率低。
[0039]
下面利用附图和实施例,对本发明的一种基于me

td3算法的风电场动态参数智能校核方法作进一步说明。
[0040]
1.状态、动作空间和回报函数的设定
[0041]
本发明采用的风电场等值模型一共有18个参数,其中包含无物理意义的定、转子电阻及电抗、激磁电抗等10个参数;也含有风叶长度、个数等具有实际意义的8个参数。本发明选择对10个无物理意义的参数进行校核。10个参数分别为:定、转子电阻及电抗r
s
、r
r
、x
s
、x
r
,激磁电抗x
m
,惯性时间常数h
m
,桨距角控制时间常数及增益t
p
、k
p
,电压控制增益k
v
,功率控制时间常数t
ε
。采用上述无物理意义参数作为状态量、参数的变化量作为动作量进行计算,其形式如下所示:
[0042]
状态量:[r
s
,x
s
,r
r
,x
r
,x
m
,h
m
,k
p
,t
p
,k
v
,t
ε
]
[0043]
动作量:[δr
s
,δx
s
,δr
r
,δx
r
,δx
m
,δh
m
,δk
p
,δt
p
,δk
v
,δt
ε
]
[0044]
为保证网络收敛,需对状态量与动作量进行归一化处理。
[0045]
强化学习能够收敛的关键,就在于如何设计短期回报函数,对于本问题,认为仿真轨迹越和实测轨迹接近越理想,所以采用式(4)方式来构建回报函数:
[0046][0047]
其中i代表第i个状态,j代表第j个时间点。u

ij
代表第j个时间点实际电压的标么值,u
ij
代表第j个时间点仿真电压的标么值,p

ij
代表第j个时间点有功功率的标么值,p
ij
代表第j个时间点仿真有功功率的标么值。对于该问题的时间长度,本发明选取5.03s,且每0.01s进行一次计算,因此n取503。由于ddpg算法求得的是回报函数的最大值,因此回报函数取负值进行求解。
[0048]
2.网络结构和探索规则的设定
[0049]
网络结构由动作网络和评价网络组成,分别如图1、2所示。动作网共有3个隐层,隐层所包含神经元数分别为64、32、16,每层所采用的激活函数均为relu,输出层采用的激活函数为tanh;评价的两个网均含有3个隐层,隐层所包含神经元数分别为64、32、16,隐层以及输出层所采用的激活函数均为tanh;动作和两个评价网络均采用自适应矩估计(adaptive moment estimation,adam)优化器对网络进行优化;最大回合数为500,每个回合的步数为200。网络参数设定如表1所示。
[0050]
表1 me

td3网络参数表
[0051][0052]
3.me

td3网络的训练及应用
[0053]
me

td3网络的训练过程如图3所示,其详细过程如下:
[0054]

首先初始化psat仿真环境和me

td3算法中的动作网络、评价网络1以及评价网络2的权重参数θ
μ
、θ
μ

、以及探索方差σ,对于每个回合,都给出一组符合校核参数范围要求的参数初值s;
[0055]

将参数初值s输入到me

td3算法中的动作网络中,通过施加探索方差σ得到参数的一组校核策略a,通过校核策略求出调整后的参数s

,将调整后的参数s

与仿真环境psat进行交互,求出有功功率、机端电压的仿真轨迹与实测轨迹的偏差值,即回报函数值r,以及仿真轨迹是否发散的标志位done,将调整前后的参数s和s

,以及校核策略a、回报函数值r、
仿真轨迹是否发散的标志位done作为一条经验根据回报函数来决定这条经验存入经验池1,还是经验池2中,当经验池1容量不足一半时,回报函数值r大于

1的经验存入经验池1中,其他经验存入经验池2中;当经验池1容量大于等于一半时,若回报函数值r大于经验池1中所存经验回报函数r的平均值,则本条经验存入经验池1中,否则存入经验池2中;
[0056]

当经验池1的经验达到最大容量时,开始进行网络的学习过程,首先按照采样概率ξ和1

ξ分别从经验池1、经验池2中采样,并将所采集的样本顺序打乱以便网络学习,采样数量为batch_size,对于me

td3算法的评价网络,将样本的调整后参数s

输入到动作网络中得到下一步的调整策略a

,将下一步的调整策略a

加入服从正态分布的噪声后与调整后参数s

一同输入到me

td3算法的评价网络1和2中,将两个网络输出的评价值取最小值后由公式5得到目标网络的评价值targetq,将调整前参数s和校核策略a一同分别输入到me

td3算法的评价网络1和2中得到主网络的评价值currentq1和currentq2,评价网络的损失值即为目标网络评价值与主网络评价值的均方误差,计算出评价网络的损失值后,采用adam优化器分别对me

td3算法的评价网络1和2进行参数的反向传递更新,优化网络权重参数,对于me

td3算法的动作网络,将调整前的参数s和校核策略a一同输入到me

td3算法的评价网络1中,取输出值的负平均值作为me

td3算法动作网的损失值,me

td3算法的动作网络和评价网络均采用软更新的方式对网络参数进行更新,且更新频率为me

td3算法的评价网络更新k次,me

td3算法的动作网络更新1次;
[0057]

对于每个回合,若到某一步仿真轨迹是否发散的标志位done为1,则跳出该回合并进入下一回合,并重置参数初值s;若仿真轨迹是否发散的标志位done一直为0,则保持马尔可夫过程一直到最大步数为止,然后进入下一回合并重置参数初值s,学习过程期间,每进行一步都需对探索方差按照方差下降率进行计算,以保证随着学习过程的进行,探索方差逐渐减小至0,
[0058]
targetq=r+(1

done)
·
γ
·
q
min
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0059][0060]
式中,done为仿真轨迹是否发散的标志位,r为即刻回报值,γ为折扣系数,q
min
为目标价值函数最小值,targetq为me

td3算法评价网络中目标网络的评价值,currentq1和currentq2分别为me

td3算法评价网络1和2中主网络的评价值,loss1和loss2分别为me

td3算法评价网络1和2的网络损耗值;
[0061]
me

td3算法的动作网络的应用过程如图4所示,具体步骤为:首先,初始化网络参数并将训练网络时保存的收敛后的知识,即网络权重参数加载进来,然后,将待校核的参数输入到me

td3算法的动作网络中,动作根据保存下来的知识给出一个能使me

td3算法的评价网络评价最高的参数校核策略,即能使有功功率、极端电压的仿真轨迹与实测数据轨迹最接近的参数校核策略。
[0062]
为了更明确地说明本发明的实施方案,以某省网实际系统为例,在psat平台上进行混合动态仿真。将1号风机从系统中解耦,并把wams实测数据注入仿真软件psat的边界节点,对其进行参数校核。仿真时间为5s,仿真步长与实测数据保持一致,故选择0.01s。设定故障发生在0.5s,并在0.6s切除故障。
[0063]
采用me

td3算法进行10参数校核,校核结果见表2,校核前后结果分别如图5、6所
示。电压、有功功率比较结果分别如表3、表4所示。ddpg算法训练时间约为5h,me

td3算法效率大幅提高,仅约为1h。
[0064]
表2 me

td3校核结果表
[0065][0066][0067]
表3电压结果比较
[0068][0069]
表4有功功率结果比较
[0070][0071]
通过以上分析可知,本发明的一种基于多经验池概率回放的双延迟深度确定性策略梯度算法的风电场动态参数智能校核的新方法,通过大量的仿真探索并逐步习得风电场动态参数智能校正知识,实现了基于“知识”的风电场动态参数校核。相比于采用ddpg算法的校核结果,me

td3算法的网络训练时间更短,给出的参数校核策略更优。经校核后的参数准确性、仿真有效性均显著提高,验证了所提方法的有效性。
[0072]
本发明的实施例并非穷举,本领域技术人员不经过创造性劳动的简单复制和改进,仍属于本发明权利保护的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1