一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

文档序号:29711014发布日期:2022-04-16 17:23阅读:314来源:国知局
一种基于多智能体深度强化学习的有源配电网协同调压方法及系统

1.本发明涉及配电网电压调节与人工智能交叉技术领域,尤其涉及一种基于多智能体深度强化学 习的有源配电网协同调压方法及系统。


背景技术:

2.传统配电网的潮流是从首段节点沿馈线方向向各节点负荷供电,呈放射型,沿馈线潮流方向电 压逐渐降低。而分布式电源的并网,改变了潮流的分布,进而出现分布式电源向本节点或附近节点 供电的情况,造成局部节点电压的升高。因此,非常有必要对含分布式电源的配电网进行实时协同 控制,使其在控制各节点电压在安全范围内的同时最小化分布式电源有功功率削减量。
3.传统方法的有源配电网协同调压方法主要包括:如基于经验规则的方法和基于安全最优功率流 的方法(如模型预测控制)。前者采用预先设定的门限值作为决策的依据,计算量小,但容易造成 不必要的负荷切除。后者需要知晓系统模型的准确知识而且计算量大。为了减少对精准模型的依赖, 一些基于数据驱动的方法被提出,如强化学习方法。这些方法可以学习到端到端的策略,即根据电 网的反馈信息直接得到控制决策。然而,传统的强化学习方法无法有效应对状态空间较大的情况, 即方法缺乏稳定性甚至不收敛。为此,现有研究提出了一些基于深度强化学习的电压控制方法,如 基于多智能体深度强化学习方法,其中包括multi-agent deep deterministic policy gradient (maddpg)等方法,这些方法虽然能有效控制电压,但算法稳定性和可扩展性较弱,无法实现大规 模分布式电源之间的高效协作,进而降低有功功率削减量。


技术实现要素:

4.本发明的目的是提供一种基于多智能体深度强化学习的有源配电网协同调压方法及系统,具备 多智能体近端策略优化算法和专家知识带来的稳定性和注意力机制带来的高可扩展性。
5.本发明为实现上述发明目的采用如下技术方案:
6.本发明提供了一种基于多智能体深度强化学习的有源配电网协同调压方法,包括:
7.获取高比例可再生能源配电网协同电压控制模型;
8.将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈问题;
9.采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题,最终得到每个分 布式电源逆变器的本地有功功率和无功功率最优控制策略;
10.将训练获得的最优控制策略部署进行在线协同调压。
11.进一步地,所述协同电压控制模型包含目标函数、决策变量和约束条件;
12.若配电网节点数为m,接入分布式电源数为n,其目标函数表述为:
[0013][0014]
式(1)中:[
·
]
+
=max(
·
,0),|
·
|表示取绝对值,v
min
和v
max
分别表示节点可接受的最低 和最高电压值,v
j,t
表示t时隙节点电压,m表示配电网节点数,δp
i,t
表示第i个分布式电源在t 时隙的有功功率削减量,δq
i,t
为第i个分布式电源逆变器在t时隙的无功补偿量,n表示配电网接 入分布式电源数,α为分布式电源有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系 数,β为分布式电源逆变器无功相对于电压偏离程度导致的惩罚成本的重要性系数;
[0015]
决策变量和约束条件,公式如下:
[0016][0017][0018][0019]
式(2)中:和为第i个分布式电源逆变器的最小与最大无功补偿量,式(3)中:为第i个分布式电源在t时刻最大的有功功率,式(4)中p
i,t
为第i个分布式电源在t时隙未调整 下的有功功率,q
i,t
为第i个分布式电源在t时隙未调整下的无功功率,si为第i个分布式电源的 视在功率,其为固定值;
[0020]
在分布式电源进行无功补偿和有功削减后整体配电网应满足潮流等式约束,公式如下:
[0021][0022][0023]
式(5)和(6)中:和是负载需求接入节点i在t时隙的有功功率和无功功率, g
ij,t
和b
ij,t
是节点i和节点j之间导纳元素的实部和虚部。
[0024]
进一步地,所述马尔可夫博弈问题由环境状态、动作、奖励函数三部分表征;
[0025]
环境状态s
t
由如下多元组表示:
[0026]st
=(o
1,t
,o
2,t
,

,o
n,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0027]
式(7)中:o
i,t
=(p
i,t
,q
i,t
,v
i,t
),p
i,t
表示t时隙分布式电源接入节点i的有功功率,q
i,t
表示t时隙分 布式电源接入节点i的无功功率,v
i,t
表示t时隙分布式电源接入节点的电压;
[0028]
动作a
t
由如下多元组表示:
[0029]at
=(δq
i,t
,δp
i,t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0030]
式(8)中:a
t
为分布式电源逆变器在t时隙的行为,δq
i,t
为第i个分布式电源逆变器在t时隙 无功补偿量,δp
i,t
为第i个分布式电源的有功功率削减量;
[0031]
奖励函数r
t
表达式如下:
[0032]c1,t r
t
=c
1,t
+αc
2,t
+βc
3,t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0033]
式(9)中:c
1,t
是t时隙所有节点因违背安全电压导致的惩罚成本,c
2,t
是t时隙所有分布 式电源有功削减量之和,c
3,t
是t时隙所有分布式电源逆变器无功补偿量之和,α为分布式电源 有功削减成本相对于电压偏离程度导致的惩罚成本的重要性系数,β为分布式电源逆变器无功补 偿相对于电压偏离程度导致的惩罚成本的重要性系数。
[0034]
进一步地,所述多智能体注意力近端策略优化算法包括行动者网络、评论家网络、注意力网络; 对于分布式电源节点i,其评论家网络和注意力网络共同表征为:
[0035]vi
(o
i,t
)=fi(gi(oi),xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0036][0037]
式(10)中:vi(o
i,t
)是状态值函数,gi是分布式电源i的状态编码器,fi是一个双层的全连 接神经网络,xi来自其余分布式电源状态信息的贡献通过加权后所得;
[0038]
对于所有分布式电源逆变器,初始化策略参数θ=(θ1,θ2,

,θn),每次迭代中与配电网 环境进行交互,收集状态和行为并计算对应的优势函数,在对交互采集到的批量数据学习时,首先 将批量数据存储的若干个状态输入给评论家网络和注意力网络,然后注意力网络的输出给评论家网 络计算得到若干个优势函数,最后利用批量数据的优势函数对行动者网络和评论家网络的参数进行 多次优化,其目标函数如下:
[0039][0040]
式(12)中:π
θ'
是用来进行采样地策略,将采集地样本用于训练θ, 函数表示当大于1+ε时取1+ε,小于 1-ε时取1-ε,其中ε是超参数。
[0041]
进一步地,所述专家知识表达式如下:
[0042]vmin
≤v
i,t
≤v
max
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0043]
[0044][0045]
式(13)中:v
min
和v
max
分别表示节点可接受的最低和最高电压值;
[0046]
式(14)和(15)表示为:当前电压高于可容忍的最大电压时,分布式电源只能减少无功输出 和有功功率削减;当前电压低于可接受的最小电压时,分布式电源只能增加无功,且应满足实际物 理场景不能进行有功功率的增加。
[0047]
进一步地,得到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略的方法如下:
[0048]
步骤1:获取配电网的当前环境状态,输入到行动者网络,得到均值和方差;
[0049]
步骤2:根据均值和方差构建分布式电源逆变器动作的分布,然后通过采样得到分布式电源逆 变器当前的动作;
[0050]
步骤3:当前动作依据专家知识进行动作修剪后输出实际作用于环境的分布式电源逆变器无功 补偿量和有功削减量,并输入到配电网系统数字孪生仿真器环境中得到奖励和下一时隙的状态,然 后存储当前环境状态信息、所述当前动作、所述奖励在经验池中,再将下一时隙的配电网状态输入 到行动者网络,循环步骤1-3一定次数;
[0051]
步骤4:将步骤1-3循环完最后一个时隙的状态输入到嵌有注意力机制的评论家网络中,得到 状态值函数v',然后通过式(16)计算折扣奖励,得到r=[r1,r2,

,r
t
];
[0052]rt
=r
t
+γ1*r
t+1
+γ2*r
t+2
+


t-t
*v'
ꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0053]
式(16)中γ1,γ2,


t-t
是折扣因子,t为最后一个时隙;
[0054]
步骤5:将存储的所有状态组合输入到评论家网络中,得到所有状态值函数v,通过式(17) 计算分布式电源逆变器优势函数;
[0055]at
=r-v
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0056]
步骤6:计算评论家网络的损失函数,然后反向传播更新评论家网络;
[0057]
步骤7:通过式(12)计算行动者网络的损失函数,然后反向传播更新行动者网络;
[0058]
步骤8:循环步骤6-7进行多次更新;
[0059]
步骤9:循环步骤1-8,直到训练奖励曲线趋于平稳,训练结束,得到每个分布式电源逆变器 的本地有功功率和无功功率最优控制策略。
[0060]
进一步地,所述将训练获得的最优控制策略部署进行在线协同调压的方法如下:
[0061]
采集分布式电源节点的环境状态信息;
[0062]
将采集的环境状态信息送入给相应节点处分布式电源逆变器;
[0063]
分布式电源逆变器利用得到的最优控制策略输出当前时隙分布式电源逆变器无功补偿量和有 功削减量,进行在线协同调压。
[0064]
本发明提供了一种基于多智能体深度强化学习的有源配电网协同调压系统,包括:
[0065]
获取模块:用于获取高比例可再生能源配电网协同电压控制模型;
[0066]
设计模块:用于将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈 问题;
[0067]
求解模块:用于采用多智能体注意力近端策略优化算法以及专家知识求解马尔可
夫博弈问题, 最终得到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略;
[0068]
部署模块:用于将训练获得的最优控制策略部署进行在线协同调压。
[0069]
本发明的有益效果如下:
[0070]
与传统方法相比,本发明方法无需知晓系统模型的准确知识且在不确定性环境下支持端到端的 控制,具有毫秒级响应和低计算复杂度;
[0071]
与dqn,maddpg等基于深度强化学习的调压方法相比,本发明方法采用了多智能体注意力 近端策略优化算法和专家知识,稳定性更高;
[0072]
与现有方法相比,本发明方法可将所有节点电压控制在安全范围之内并显著降低分布式电源有 功功率削减量,具有更强的可再生能源消纳能力。
附图说明
[0073]
图1是本发明实施例所提供的基于多智能体深度强化学习的有源配电网协同调压方法流程示意 图;
[0074]
图2是本发明实施例所提供的基于多智能体深度强化学习的有源配电网协同调压方法与其他方 法的电压对比图;
[0075]
图3是本发明实施例所提供的基于多智能体深度强化学习的有源配电网协同调压方法与其他方 法的有功削减量对比图。
具体实施方式
[0076]
为更进一步阐述本发明所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本发 明的技术方案,进行清楚和完整的描述。
[0077]
如图1所示,本发明提供的基于多智能体深度强化学习的有源配电网协同调压方法的设计流程 图,包括如下步骤:
[0078]
步骤1:以控制所有节点电压在设置的安全范围前提下最小化分布式电源有功功率削减为目标, 建立高比例可再生能源配电网协同电压控制模型;
[0079]
步骤2:将建立的协同电压控制模型设计为与每个可再生能源逆变器相关的马尔可夫博弈问题;
[0080]
步骤3:采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题,最终得 到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略;
[0081]
步骤4:在实际应用场景中,依据训练获得的最优控制策略进行实际部署进行在线协同调压, 即:根据采集的环境状态信息立刻获得每个分布式电源逆变器的无功补偿量和有功削减量。
[0082]
选取ieee33 bus接入6个分布式电源为仿真实施对象,在上述步骤1中,协同电压控制模型包 含目标函数、决策变量和约束条件三部分组成,具体如下:
[0083]
若配电网节点数为m,接入分布式电源数为n,其目标函数表述为:
[0084][0085]
式(1)中:[
·
]
+
=max(
·
,0),|
·
|表示取绝对值,v
min
和v
max
分别表示节点可接受
的 最低和最高电压值,v
j,t
表示t时隙节点电压,m表示配电网节点数,δp
i,t
表示第i个分布式电 源在t时隙的有功功率削减量,n表示配电网接入分布式电源数,α为分布式电源有功削减成本 相对于电压偏离程度导致的惩罚成本的重要性系数。
[0086]
决策变量和约束条件如下:
[0087]
决策变量包括分布式电源逆变器无功补偿量和有功削减量。分布式电源有功削减量应小于当前 时隙分布式电源最大输出。无论分布式电源逆变器是选择增加无功还是减少无功输出,无功的调节 范围都要满足分布式电源逆变器可选择的无功范围,且需要满足有功功率、无功功率和视在功率三 者的约束条件,具体公式如下:
[0088][0089][0090][0091]
式(2)中:δq
i,t
为第i个分布式电源逆变器在t时隙的无功补偿量,和为第i 个分布式电源逆变器的最小与最大无功补偿量。式(3)中:为第i个分布式电源在t时刻最 大的有功功率。式(4)中p
i,t
为第i个分布式电源在t时隙未调整下的有功功率,q
i,t
为第i个分 布式电源在t时隙未调整下的无功功率,si为第i个分布式电源的视在功率。
[0092]
在分布式电源进行无功补偿和有功削减后整体配电网应满足潮流等式约束,具体公式如下:
[0093][0094][0095]
式(5)和(6)中:和分别表示负载需求接入节点i在t时隙的有功功率和无功功 率,g
ij,t
和b
ij,t
是节点i和节点j之间导纳元素的实部和虚部。
[0096]
在上述步骤2中,将建立的协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔 可夫博弈问题。具体而言,在马尔可夫博弈问题中,每个智能体基于当前局部状态信息选择动作进 而最大化自身期望回报。由于多智能体深度强化学习无需状态转移函数的信息,因此本实施例中, 主要设计环境状态、动作、奖励函数,分别如下:
[0097]
(1)环境状态:分布式电源接入节点环境状态s
t
由如下多元组表示:
[0098]st
=(o
1,t
,o
2,t
,

,o
n,t
)(7)
[0099]
式(7)中:o
i,t
=(p
i,t
,q
i,t
,v
i,t
),p
i,t
表示t时隙分布式电源接入节点i的有功功率,q
i,t
表示t时 隙分布式电源接入节点i的无功功率,v
i,t
表示t时隙分布式电源接入节点的电压。
[0100]
(2)动作:分布式电源逆变器动作a
t
由如下多元组表示:
[0101]at
=(δq
i,t
,δp
i,t
)(8)
[0102]
式(8)中:a
t
为分布式电源逆变器在t时隙的动作,δq
i,t
为第i个分布式电源逆变器在t时 隙无功补偿量,δp
i,t
为第i个分布式电源的有功功率削减量。
[0103]
(3)奖励函数:r
t
表达式如下:
[0104]rt
=c
1,t
+αc
2,t
(9)
[0105]
式(9)中:c
1,t
是t时隙所有节点因违背安全电压导致的惩罚成本,c
2,t
是t时隙所有分布 式电源有功削减量之和,α为分布式电源有功削减成本相对于电压偏离程度导致的惩罚成本的重 要性系数。
[0106]
奖励表达式(9)中电压偏离安全范围的成本c
1,t
,分布式电源有功削减成本c
2,t
,具体表达 式如下:
[0107][0108][0109]
在上述步骤3中,多智能体注意力近端策略优化算法架构如下:
[0110]
框架包括行动者网络、评论家网络、注意力网络三个部分。每个分布式电源相关的智能体具有 相同的网络结构,即行动者网络、评论家网络、所有评论家网络共用的注意力网络。行动者网络输 入层的神经元个数与本地观测状态信息的分量数相对应,输出层的神经元个数与连续动作的个数相 对应。具体而言,行动者网络的输入层对应智能体的本地观测状态s
i,t
,行动者网络的输出层对应 分布式电源逆变器的无功补偿量和有功削减量。
[0111]
对于分布式电源节点i,其评论家网络和注意力网络共同表征为:
[0112]vi
(o
i,t
)=fi(gi(oi),xi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0113][0114]
式(10)中:vi(o
i,t
)是状态值函数,gi是分布式电源i的状态编码器,fi是一个双层的 全连接神经网络。xi来自其余分布式电源状态信息的贡献通过加权后所得。
[0115]
对于所有分布式电源逆变器智能体,初始化策略参数θ=(θ1,θ2,

,θn),每次迭代中与 配电网环境进行交互,收集状态和动作并计算对应的优势函数。在对交互采集到的批量数据学习时, 首先将批量数据存储的若干个状态输入给评论家网络和注意力网络,然后注意力网络的输出将被送 入评论家网络计算得到若干个优势函数,最后利用批量数据的优势函数对行动者网络和评论家网络 的参数进行多次优化,其目标函数如下:
[0116][0117]
式(12)中:π
θ'
是用来进行采样的策略,将采集的样本用于训练θ。 函数表示当大于1+ε时取1+ε,小于 1-ε时取1-ε,其中ε是超参数。
[0118]
在步骤3中,所述专家知识具体表述如下:
[0119]vmin
≤v
i,t
≤v
max
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0120][0121][0122]
式(13)中:v
min
和v
max
分别表示节点可接受的最低和最高电压值。
[0123]
式(14)和(15)其意义在于,当前电压高于可容忍的最大电压时,分布式电源只能减少无功 输出和有功功率削减;当前电压低于可接受的最小电压时,分布式电源只能增加无功同时避免有功 功率削减。
[0124]
在上述步骤3中,所述求解过程本质是对每个分布式电源逆变器智能体内的深度神经网络模型 进行训练,具体训练步骤如下:
[0125]
(1)每个分布式电源逆变器智能体获取配电网的当前环境状态,输入到自身的行动者网络, 得到均值和方差;
[0126]
(2)每个分布式电源逆变器智能体根据均值和方差构建分布式电源逆变器动作的分布,然后 通过采样得到分布式电源逆变器当前的动作;
[0127]
(3)每个分布式电源逆变器智能体依据专家知识对当前动作进行修剪后输出实际作用于环境 的分布式电源逆变器无功补偿量和有功削减量。然后,将这些动作输入到配电网系统数字孪生仿真 器环境中得到奖励和下一时隙的环境状态,并存储当前环境状态信息、所述当前动作、所述奖励在 经验池中。紧接着,将下一时隙的配电网状态输入到每个分布式电源逆变器智能体的行动者网络, 循环步骤1-3一定次数。
[0128]
(4)将步骤1-3循环完最后一个时隙的状态输入到嵌有注意力机制的评论家网络中,得到状 态值函数v',然后通过式(16)计算折扣奖励,得到r=[r1,r2,

,r
t
];
[0129]rt
=r
t
+γ1*r
t+1
+γ2*r
t+2
+


t-t
*v'
ꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0130]
式(16)中γ1,γ2,


t-t
是折扣因子,t为最后一个时隙。
[0131]
(5)将存储的所有状态组合输入到评论家网络中,得到所有状态值函数v,通过式(17) 计算分布式电源逆变器智能体相关的优势函数;
[0132]at
=r-v
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0133]
(6)计算所有智能体评论家网络的损失函数,然后反向传播更新评论家网络;
[0134]
(7)通过公式(12)计算所有智能体行动者网络的损失函数,然后反向传播更新行动者网络;
[0135]
(8)循环步骤(6)-(7)进行多次更新;
[0136]
(9)循环步骤(1)-(8),直到训练奖励曲线趋于平稳时训练结束,最终得到每个分布式电 源逆变器智能体相关的最优控制策略。
[0137]
进一步,所述步骤4将训练获得的最优控制策略进行部署包含如下步骤:
[0138]
(1)采集分布式电源接入节点的环境状态信息;
[0139]
(2)将采集的环境状态信息送入给相应节点处分布式电源逆变器智能体;
[0140]
(3)分布式电源逆变器智能体利用得到的最优控制策略输出当前时隙分布式电源逆变器无功 补偿量和有功削减量。
[0141]
如图2所示,是本发明方法实施例与其他方法的电压对比图。对比方案一是采用多智能体注意 力近端策略优化算法(mappo),对比方案二是采用多智能深度确定性策略梯度算法(maddpg), 所提方法是采用多智能体注意力近端策略优化算法(amappo)和专家知识。具体而言,所用仿真 环境都是基于标准的ieee 33bus模型,在其6个节点接入分布式电源,分别用maddpg、mappo、 amappo和专家知识训练协同调压模型,根据测试结果图可以看出,所提方法能将电压调节到安 全范围内。
[0142]
如图2和3所示,在6个分布式电源节点环境下,基于多智能体注意力机制近端策略优化算法 与专家知识的有源配电网协同调压控制方法具有最优的电压调节效果,同时能够有效降低分布式电 源有功功率的削减量,相比对比方案一所提方法有功削减量降低了11.17%,相比对比方案二所提方 法有功功率削减量降低了35.38%。
[0143]
本发明提供了一种基于多智能体深度强化学习的有源配电网协同调压系统,包括:
[0144]
获取模块:用于获取高比例可再生能源配电网协同电压控制模型;
[0145]
设计模块:用于将协同电压控制模型设计为与每个分布式电源逆变器控制相关的马尔可夫博弈 问题;
[0146]
求解模块:用于采用多智能体注意力近端策略优化算法以及专家知识求解马尔可夫博弈问题, 最终得到每个分布式电源逆变器的本地有功功率和无功功率最优控制策略;
[0147]
部署模块:用于将训练获得的最优控制策略部署进行在线协同调压。
[0148]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不 脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保 护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1