一种基于强化学习的电网运行方式自动调整方法

文档序号:31052561发布日期:2022-08-06 08:18阅读:148来源:国知局
一种基于强化学习的电网运行方式自动调整方法

1.本公开涉及属于电力系统调度领域,具体涉及一种基于强化学习的电网运行方式自动调整方法。


背景技术:

2.以新能源为主体的新型电力系统运行问题凸显。新能源海量场景下,电网已从单一或少量目标的优化问题发展为复杂场景下多层多区优化问题,电网运行方式调整是方式计算中任务量最大、重复度最高的内容。人工手动调整的传统运行方式不但耗时耗力,而且新能源出力和负荷设定较为固定,难以反映和解决高比例新能源电力系统在实际运行场景中源荷双侧不确定性所带来的平衡和消纳问题。
3.近年来,随着人工智能技术的发展,强化学习逐渐被应用到电网运行方式自动调整中来。强化学习通过对状态空间和动作空间进行探索,使用探索过程中获得的信息更新动作效用函数,进而形成经验指导电网运行方式的自动调整。但是强化学习模型的状态空间和动作空间大小,会随系统节点数的增加而呈现指数级的拓展,而指数级增长的状态空间和动作空间会使探索成本急剧增加。并且,由于电力系统,尤其是复杂电力系统,对运行方式要求较高。可是,在强化学习模型训练过程中,随机生成的新电网运行方式却往往无法满足潮流计算的收敛性要求,即生成无效运行方式,探索效率极为低下。因此,直接使用传统强化学习模型在电网运行方式的自动调整上仍然存在较大问题。


技术实现要素:

4.有鉴于此,本技术的主要目的至少在于提供一种依据特别设计的专家系统,解决现有强化学习模型在电网运行方式自动调整中存在的问题,为处理高比例新能源电力系统中源荷双侧不确定性带来的平衡和消纳问题,实现电网运行方式自动调整提供新的技术方案。
5.基于上述目的,本发明提出一种基于强化学习的电网运行方式自动调整方法,所述包括以下步骤:
6.确定下一时刻火电机组有功功率总调整量;
7.若每一组火电机组的动作空间处于出力调整区间,则按照最优机组调控顺序,将有功功率总调整量分摊到各个火电机组上;
8.若每一组火电机组的动作空间低于火电机组的动作空间的下限或高于火电机组的动作空间的上限,则在开关机操作后,按照最优机组调控顺序,将有功功率总调整量分摊到各个火电机组上;
9.在完成分摊后,根据线路过载或临界重载进行潮流调整量重新分配,并进行机端电压调整;
10.所述最优机组调控顺序通过强化学习模型获取。
11.在上述技术方案中,所述方法能够实现电网运行方式的自动调整,能够有效解决
在有高比例新能源电力系统中由于源荷双侧不确定性带来的平衡和消纳问题,从而能够保障电网安全稳定运行,并实现新能源的最大消纳。通过强化学习模型,能够提升最优机组调控顺序的探索效率。
12.作为上述技术方案的进一步改进,在所述方法中,对分摊后系统检验各分摊后系统校核线路是否过载或临界重载,针对过载线路或临界重载线路牵涉的主要机组,进行潮流调整量的重新分配,以提高电网运行的安全性。所述潮流调整量的重新分配包括下述步骤:
13.识别线路负载率关键机组;
14.若关键机组为新能源机组,当负载率大于第一设定阈值时,降低所述新能源机组出力至第一设定值;当负载率大于1小于等于第一设定阈值时,若连续降低的次数达到设定次数时仍然过载,则降低所述新能源机组出力至第二设定值;
15.若关键机组为火电机组,则降低火电机组出力至该机组出力下限。
16.作为上述技术方案的进一步改进,在所述方法中,所述关键机组通过有功功率-线路负载率灵敏度矩阵确定,进而快速准确确定过载线路或者基础机组调控顺序,包括:
17.提取有功功率-线路负载率灵敏度矩阵所在行向量;
18.筛选机组所在节点对应分量;
19.将绝对值最大的分量所对应的节点挂载机组确定为关键机组;
20.所述有功功率线路负载率灵敏度矩阵为m
×
n阶矩阵,m为电力系统支路数,n为电力系统节点数。
21.作为上述技术方案的进一步改进,在所述方法中:所述最优机组调控顺序通过将基础机组调控顺序输入强化学习模型获得;所述基础机组调控顺序通过对有功功率-线路负载率灵敏度矩阵进行列向量求和后排序获得;所述有功功率线路负载率灵敏度矩阵为m
×
n阶矩阵,m为电力系统支路数,n为电力系统节点数。利用强化学习模型在训练过程中探索到的获得最大奖励可能性最高的机组调控顺序。
22.作为上述技术方案的进一步改进,在所述方法中,所述有功功率-线路负载率灵敏度矩阵基于所有机组完全开机且网架中无断线的历史运行数据提取,从而使关键机组的识别以及过载的判断更接近真实电网,有利用电网安全有效稳定的自动调整。
23.作为上述技术方案的进一步改进,在所述方法中,所述强化学习模型将机组调控顺序作为智能体的状态,将顺序中的两个位置作为智能体的动作,并将综合评估指标作为奖励;所述综合评估指标的影响因素包括新能源相对消纳量、线路越限情况、机组出力约束、节点电压约束、运行经济成本,从而使获得的最优机组调控顺序能够满足在保障电网安全运行的前提下,能够对新能源的最大消纳,提高新能源利用率,从而降低电网运行成本。并且在模型中只需要学习由两个标量坐标组成的2维离散动作向量,收敛较为简单。
24.作为上述技术方案的进一步改进,在所述方法中,通过奖励反馈将每次探索输出电网运行方式的有效性,提升探索效率,将指数级增长的探索成本变为线性增长;所述奖励通过下式计算:
[0025][0026]
式中:r为奖励;ri为分奖励取值;
[0027]
当i=1时,
[0028]
式中:renewable
t+1,j
为第j组新能源机组出力在t+1时刻的出力;为第j组新能源机组出力在t+1时刻的出力上限;re为新能源机组个数;
[0029]
当i≠1时,
[0030]
式中,a表示约束;当i为2时,约束为线路电流;当i为3时,约束为机组出力;当i为4时,约束为节点电压;当i为5时,约束为运行经济成本;下标max和min分别表示对应约束的上下限。
[0031]
作为上述技术方案的进一步改进,在所述方法中,所述下一时刻火电机组有功功率总调整量通过下式确定:
[0032]
δthermal=thermal
t+1-thermal
t
[0033]
式中:thermal
t
为当前时刻t火电出力,thermal
t+1
为下一时刻火电出力;
[0034]
thermal
t+1
通过下式计算:
[0035][0036]
式中:
[0037]
l为负荷总个数,l为负荷个数变量,re为新能源机组个数,j为新能源机组个数变量;
[0038]
为t+1时刻总负荷;
[0039]
renewable
t+1,j
为第j组新能源机组出力在t+1时刻的出力;
[0040]
balance
t+1
为t+1时刻平衡机出力;
[0041]
loss
t+1
为下一时刻的网络损耗功率,通过下式计算:
[0042]
loss
t+1
=loss
t
·
lfactor
[0043]
其中lfactor为网络损耗估计系数,通过下式计算:
[0044][0045]
作为上述技术方案的进一步改进,在所述方法中,当第i台火电机组,当其动作空间越过火电动作空间下限或上限,则根据机组有功功率总调整量,综合考量机组调控顺序、机组容量、和网络参数,进行开关机操作,以保障网络损耗维持在较小水平。所述开关机操作包括:
[0046]
当负荷波动导致火电需调整量超出火电机组的爬坡约束上界时,按照线路负载率的灵敏度由小到大,对火电机组进行开机操作;开机火电的台数所提供的功率,能够补偿火电需调整量超出爬坡约束上界部分;
[0047]
当负荷波动导致火电需调整量低于火电机组的爬坡约束下界时,按照线路负载率的灵敏度由大到小,对火电机组进行关机操作;关机火电的台数所减小的功率,能够抵消火电需调整量低于火电机组的爬坡约束下界;
[0048]
当所有运行发电机的实际处理与最大处理的比值超过第二设定阈值时,按照线路负载率的灵敏度由小到大的顺序开机,使所述比值小于第二设定阈值;
[0049]
当所有运行发电机的实际处理与最大处理的比值低于第三设定阈值时,按照线路
负载率的灵敏度由大到小的顺序关机,使所述比值大于第三设定阈值。
[0050]
作为上述技术方案的进一步改进,在所述方法中,在完成火电机组调整出力后,通过对发电机组的电压进行调整的方式,期望控制无功的范围在[-180,100],以保障电网正常运行,且网损最小。所述机端电压调整包括:
[0051]
将发电机组的电压记作uk,将无功记作qk,其中k表示发电机组标识;
[0052]
若qk≥100,则将uk用u
k-0.01后的值更新;
[0053]
若60≤qk<100,则将uk用u
k-0.004后的值更新;
[0054]
若-90<qk<60,则uk不变;
[0055]
若-180<qk≤-90,则uk用uk+0.0015后的值更新;
[0056]
若qk≤-180,则uk用uk+0.01后的值更新。
附图说明
[0057]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0058]
图1、一个实施例中关于专家系统和强化学习结合应用的示意图;
[0059]
图2、一个实施例中关于仅采用强化学习模型和采用本公开方法的强化学习模型性能对比示意图;
[0060]
图3、一个实施例中正常场景调整效果示意图;
[0061]
图4、一个实施例中极端场景调整效果示意图。
具体实施方式
[0062]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0063]
术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。
[0064]
在实施例1中,基于本公开的方法实现了一个专家系统和一个强化学习模型,两者结合实现电网运行方式自动调整。通过专家系统保障每次探索输出电网运行方式的有效性,极大提升探索效率,将强化学习模型的指数级增长的探索成本变成线性增长,而通过强化学习在训练过程中探索到的获得最大奖励可能性最高的机组调控顺序,指导专家系统对电网进行自动调整,从而实现在保障电网安全稳定运行的条件下实现新能源的最大消纳。
[0065]
在专家系统中,其实现下述方法步骤:
[0066]
(1.1)识别下一时刻的总负荷其中l为负荷总个数,l为负荷个数变量;
[0067]
(1.2)识别下一时刻的新能源机组出力上限之和其中re为新
能源机组个数,j为新能源机组个数变量;
[0068]
(1.3)将下一时刻的每一台新能源机组出力均置为其最大值,则有
[0069]
(1.4)计算网络损耗估计系数lfactor:
[0070][0071]
式中:l为负荷总个数,l为负荷个数变量;
[0072]
(1.5)基于上一时刻的损耗loss
t
和网络损耗估计系数lfactor,计算下一时刻的网络损耗功率loss
t+1

[0073]
loss
t+1
=loss
t
·
lfactor
[0074]
(1.6)将下一时刻平衡机出力balance
t+1
置为其上限和下限的算术平均值,保留充分裕度。
[0075]
(1.7)计算下一时刻期望的火电总出力thermal
t+1

[0076][0077]
(1.7)下一时刻火电机组有功功率总调整量通过下式确定:
[0078]
δthermal=thermal
t+1-thermal
t
[0079]
式中:thermal
t
为当前时刻t火电出力,thermal
t+1
为下一时刻火电出力。
[0080]
对于火电机组个数t,第k台火电机组gk,其动作空间δgk,存在下限lowk,lowk<0,上限highk,即:
[0081]
lowk<δgk<highk[0082]
对于所有的火电机组,获取每一台的动作空间,如果每一台都处于合理的出力调整区间,则按照机组调控顺序,将有功功率总调整量分摊到各个火电机组上;否则,若每一组火电机组的动作空间低于火电机组的动作空间的下限或高于火电机组的动作空间的上限,则在开关机操作后,按照机组调控顺序,将有功功率总调整量分摊到各个火电机组上。
[0083]
在将有功功率总调整量分摊到各个火电机组上时,当δthermal>0时,将所有的火电机组gk置为下限lowk,即:
[0084][0085]
将得到的δthermal
*
按照最优机组调控顺序进行顺序分发。当δthermal<0时,将所有的火电机组gk置为下限highk,即:
[0086][0087]
将得到的δthermal
*
按照最优机组调控顺序进行逆序分发。
[0088]
在完成分摊后,根据线路过载或临界重载进行潮流调整量重新分配,即完成火电机组调整出力后,通过对发电机组的电压uk进行调整的方式,期望控制无功qk的范围在[-180,100],以保障电网正常运行,且网损最小。将发电机组的电压记作uk,将无功记作qk,其中k表示发电机组标识;所述机端电压调整包括:
[0089]
若qk≥100,则将uk用u
k-0.01后的值更新;
[0090]
若60≤qk<100,则将uk用u
k-0.004后的值更新;
[0091]
若-90<qk<60,则uk不变;
[0092]
若-180<qk≤-90,则uk用uk+0.0015后的值更新;
[0093]
若qk≤-180,则uk用uk+0.01后的值更新。
[0094]
在实施例1中,通过设置线路负载率报警阈值,当线路电流负载率超过报警阈值时,即被识别为过载线路。当系统出现过载线路时,需要识别过载线路并根据过载线路寻找影响线路过载的关键发电机组g
key

[0095]
定义每个节点发电机功率与负荷和为节点净注入功率。由于负载率ρ与节点的净注入有功功率p与净注入无功功率q为近似线性关系,即存在着下述关系:
[0096]
δρ=h
p
·
δp+hq·
δq
ꢀꢀ
(1)
[0097]
式中:h
p
为节点注入有功功率-线路负载率灵敏度矩阵,hq为节点注入无功功率-线路负载率灵敏度矩阵,δρ为线路负载率变化量矩阵,δp为节点注入有功功率调整量矩阵,δq为节点注入无功功率调整量矩阵。
[0098]
由于δq对负载率的影响较小,因此对其忽略,即式(1)变为:
[0099]
δρ≈h
p
·
δp
ꢀꢀ
(2)
[0100]
从数值仿真,或者实际运维中获取海量历史运行数据,提取所有机组完全开机且网架中无断线的典型运行场景,形成采样数据:节点注入有功功率调整量矩阵δp和线路负载率变化量矩阵δρ。其中:
[0101]
δρ=[δρ1,δρ2,...,δρ
x
],δp=[δp1,δp2,...,δp
x
],x为采样次数。
[0102]
式(2)中的有功功率-线路负载率灵敏度矩阵h
p
,使用最小二乘法求解:
[0103]hp
=δρ(δp
t
δp)-1
δp
t
[0104]
式中:h
p
为m
×
n阶矩阵,m为系统支路数,n为系统节点数。提取h
p
中过载线路所在行向量,筛选机组所在节点对应分量,绝对值最大的分量所对应的节点挂载机组,即为影响该过载线路的关键机组。
[0105]
如果关键机组为火电机组,则降低火电机组出力至该机组出力下限。如果关键机组为新能源机组,当负载率大于第一设定阈值时,降低所述新能源机组出力至第一设定值;当负载率大于1小于等于第一设定阈值时,若连续降低的次数达到设定次数时仍然过载,则降低所述新能源机组出力至第二设定值。第一设定阈值可以为1.1,1.2,1.3等等,第一设定值为9%、10%,11%,12%等等,第二设定值为25%,30%,35%等等,迭代次数可以为2次、3次、4次、5次等等,以保障电网安全稳定运行,实现新能源最大消纳。
[0106]
采用开关机操作能够保障网络损耗维持在较小水平,基于网络拓扑、线路容量和线路导纳的网络参数信息,指定开机顺序,优先开启网络中离负荷较近的火电机组,反序使用将优先关闭网络中离负荷较远的火电机组。
[0107]
当系统出现以下两种情况时,将执行开关机操作:
[0108]
第一种情况:当负荷波动较大时,在新能源已达最大消纳情况下,火电需调整量超出火电机组的爬坡约束范围,考虑火电开关机操作以保证功率平衡。
[0109]
第二种情况:当所有运行火电机组的实际出力之和与出力上限之和的比值超过第二设定阈值或者低于第三设定阈值时,考虑进行开关机操作,在所有运行火电机组的实际
出力求和过程中,停机状态机组贡献的实际出力和出力上限均为0。第二设定阈值或第三设定阈值根据电力系统实际运行情况可以调整。
[0110]
对于第一种情况:
[0111]
(i)当负荷波动导致火电需调整量超出火电机组的爬坡约束上界时,即(i)当负荷波动导致火电需调整量超出火电机组的爬坡约束上界时,即应当对火电机组进行开机操作。开机操作中涉及的开机顺序为按照线路负载率的灵敏度由小到大,,对线路负载率影响越小,开机优先级越高。开机火电的台数所提供的功率δthermal
open
,补偿火电需调整量超出爬坡上界部分即可终止开机,即:
[0112][0113]
(ii)当负荷波动导致火电需调整量低于火电机组的爬坡约束下界时,即(ii)当负荷波动导致火电需调整量低于火电机组的爬坡约束下界时,即对火电机组进行关机操作。关机顺序为开机顺序的反序,为每台火电对于线路负载率的灵敏度由大到小排序,对线路负载率影响越大,关机优先级越高。与开机同样,关机台数取决于关机火电所减小的功率δthermal
close
,能够抵消火电需调整量低于火电机组的爬坡约束下界,即保证:
[0114][0115]
对于第二种情况:
[0116]
(iii)当所有运行发电机的实际处理与最大处理的比值超过第二设定阈值时,此时在运行发电机处于重负载情况,需要开机均摊部分负荷,同样按照开机顺序进行开机,开机后使得所有运行发电机的实际处理与最大处理的比值小于第二设定阈值即可终止。
[0117]
(iv)当所有运行发电机的实际处理与最大处理的比值低于第三设定阈值时,此时负荷不大,在运行发电机处于低负载情况,需要关机,按照关机顺序,即开机顺序的反序进行关机,关机后使得所有运行发电机的实际处理与最大处理的比值大于第三设定阈值即可终止。
[0118]
在实施例1中,最优机组控制顺序通过强化学习模型获取。在强化学习模型中,使用机组调控顺序作为智能体的状态s,使用顺序中的两个位置坐标作为智能体的动作a,在每个时间步内,智能体通过交换这两个坐标上的机组位置,从旧的状态转化到新的状态。
[0119]
采用综合评估指标的影响因素包括新能源相对消纳量、线路越限情况、机组出力约束、节点电压约束、运行经济成本,从而使获得的最优机组调控顺序能够满足在保障电网安全运行的前提下,能够对新能源的最大消纳,提高新能源利用率,从而降低电网运行成本。因此,一种奖励可行的实现为:
[0120][0121]
式中:r为奖励;ri为分奖励取值;
[0122]
当i=1时,
[0123]
式中:renewable
t+1,j
为第j组新能源机组出力在t+1时刻的出力;为第j组新能源机组出力在t+1时刻的出力上限;re为新能源机组个数;
[0124]
当i≠1时,
[0125]
式中,a表示约束;当i为2时,约束为线路电流;当i为3时,约束为机组出力;当i为4时,约束为节点电压;当i为5时,约束为运行经济成本;下标max和min分别表示对应约束的上下限。
[0126]
在模型的训练过程中,智能体交换机组调控顺序中两随机索引上的机组位置,并输出新的调控顺序。将基础机组调控顺序输入强化学习模型的智能体,输出最优机组调控顺序,实施例1的方法在电网运行中根据最优机组调控顺序进行调整。根据调整后的系统潮流,计算智能体所获取的奖励。
[0127]
具体地,强化学习模型学习的成果为动作效用函数q:(s,a)

r,若当前(s,a)组合没有被探索过,即q中没有相关信息,则随机生成两个位置组成随机动作a进行探索;若当前(s,a)组合已经被探索过。使用下式对q进行更新:
[0128]
q(s,a)

(1-α)q(s,a)+α[r(s,a)+γmaxaq(s

,a)]
[0129]
其中,α为学习速率,γ为折扣因子。
[0130]
当训练完成后,将动作效用函数q:(s,a)

r,上卷为状态评估函数v:s

r,,选取评分最高的状态所对应的机组调控顺序,该顺序即为最终的优化机组调控顺序。
[0131]
在强化学习模型中使用的基础机组调控顺序通过下述步骤获得:
[0132]
对有功功率-线路负载率灵敏度矩阵h
p
的列向量进行求和,并从大到小进行排序,各发电机机组在此排序中的相对顺序,即为基础机组调控顺序。
[0133]
在实施例2中,将报警阈值设置为小于1,同时识别过载线路和临界重载线路,能够有利于提前进行保护动作,从而提升控制策略的鲁棒性。将该顺序写入专家系统,完成闭环。
[0134]
在实施例3中,将本公开方法使用python语言实现后,设置如下算例场景:使用ieee标准算例case118系统网架。该系统含有118个节点、54台发电机组、186条输电线路和91个负荷,将其中18台机组设置为新能源机组。按照新能源出力和负荷波动特性,随机仿真生成8760小时的新能源出力和负荷数据。每个时间步长度为5分钟。每回合随机抽取断面作为起始断面,使用连续288个时间步内累计获取的总奖励对潮流自动调整方案进行评估,若出现潮流无法收敛的情况,则提前结束回合。使用强化学习模型ddpg(deep deterministic policy gradient,深度确定性策略梯度)作为本次的强化学习模型。
[0135]
(一)有无专家系统的强化学习模型对比
[0136]
图2为测试算例是否引入专家系统的强化学习模型性能对比图。
[0137]
当没有引入专家系统时,强化学习模型需要直接学习54台发电机组的有功出力调整量和机端电压调整量,即一个108维的连续动作向量,收敛极为困难,在图2中表现为训练600余回合模型性能无明显提升。除此之外,强化学习模型对电网运行方式直接进行随机探索时,探索到有效运行方式的概率较低,在图2上表现为,在600余回合的训练中,直接使用强化学习模型的评分始终没有超过100分,徘徊在一个极低的水平。
[0138]
当引入专家系统,使用融合专家系统的强化学习模型时,模型性能得到了显著的提升。这样的提升来自于两个方面:一是强化学习模型通过指导专家系统间接影响电网运行方式,具体的运行方式由专家系统生成,其质量有保障,刚开始训练时评分便达到了400
分以上;二是强化学习模型只需要学习由两个标量坐标组成的2维离散动作向量,收敛较为简单,训练300余回合模型便已经收敛。
[0139]
(二)正常场景下运行效果
[0140]
图3为该电网运行方式自动调整方法在正常场景下的运行效果示意图。正常场景下,负荷波动和新能源出力波动较为平缓,该调整方法能够在保障电网安全稳定运行的条件下,实现新能源出力的完全消纳。
[0141]
(三)极端场景下运行效果
[0142]
图4为该电网运行方式自动调整方法在极端场景下的运行效果示意图。极端场景下,负荷迅速减少同时新能源发电机组出力急剧增加。在此场景下,为保障电网稳定,新能源发电机组出力无法完全消纳。该调整方法通过在第一时间部分弃风弃光,后续向完全消纳进行及时调控,实现在保障电网安全稳定运行的条件下新能源出力的最大消纳。
[0143]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本公开方法可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本公开而言更多情况下,软件程序实现是更佳的实施方式。
[0144]
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1