无功优化决策的确定方法、装置、计算机设备和存储介质与流程

文档序号:32815976发布日期:2023-01-04 03:26阅读:34来源:国知局
无功优化决策的确定方法、装置、计算机设备和存储介质与流程

1.本技术涉及电力系统技术领域,特别是涉及一种无功优化决策的确定方法、装置、计算机设备和存储介质。


背景技术:

2.随着电力系统技术的发展,人们也面临下面临着电力系统难以稳定运行的难题,而电力系统的稳定运行与无功优化策略息息相关。传统技术中,主要是通过强化学习来计算得到应用于电力系统的智能学习体,再通过智能学习体得到电力系统的无功优化策略,但通过强化学习构建的智能学习体不能应用于发生状态变化的同一电力系统中,存在可迁移性差的问题。


技术实现要素:

3.基于此,有必要针对上述技术问题,提供一种能够提高可迁移性的无功优化决策的确定方法、装置、计算机设备和计算机可读存储介质。
4.第一方面,本技术提供了一种无功优化决策的确定方法,所述方法包括:构建电力系统的历史运行状态对应的第一无功优化拓扑图数据;将所述第一无功优化拓扑图数据融入图注意力强化学习智能体,得到所述历史运行状态的第一无功优化决策;获取所述电力系统对所述第一无功优化决策的即时奖励;基于所述即时奖励,对所述图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体;将所述电力系统的实时运行状态对应的第二无功优化拓扑图数据融入所述优化后的图注意力强化学习智能体,对所述优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到所述实时运行状态的第二无功优化决策。
5.在其中一个实施例中,所述构建电力系统的历史运行状态对应的第一无功优化拓扑图数据,包括:以电力系统中的实际节点为节点、以所述实际节点的历史运行状态为所述节点的节点特征,构建节点特征矩阵;以各所述实际节点之间的连接关系为所述节点间的连接关系,按照所述节点间的连接关系,构建节点连接矩阵;将所述节点特征矩阵和所述节点连接矩阵,确定为所述电力系统的历史运行状态对应的第一无功优化拓扑图数据。
6.在其中一个实施例中,所述将所述节点特征矩阵和所述节点连接矩阵,确定为所述电力系统的历史运行状态对应的第一无功优化拓扑图数据之后,包括:将所述节点特征矩阵融入所述图注意力强化学习智能体中进行特征提取,得到目标节点特征矩阵;
基于所述目标节点特征矩阵和所述节点连接矩阵,在全连接层中进行非线性映射处理,得到所述历史运行状态的第一无功优化决策。
7.在其中一个实施例中,所述将所述第一无功优化拓扑图数据融入图注意力强化学习智能体,得到所述历史运行状态的第一无功优化决策,还包括:获取所述电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值;根据每一所述控制变量的历史动作值、可变化的步长、以及动作阈值,确定所述电力系统中每一所述控制变量的目标动作值;将所述第一无功优化拓扑图数据和每一所述控制变量的目标动作值融入至所述图注意力强化学习智能体中的全连接层进行非线性映射处理,得到所述历史运行状态的第一无功优化决策。
8.在其中一个实施例中,所述动作阈值包括最大动作值和最小动作值中的至少一个;所述根据每一所述控制变量的历史动作值、可变化的步长、以及动作阈值,确定所述电力系统中每一所述控制变量的目标动作值,包括:当每一所述控制变量的目标动作值计算结果大于所述最大动作值时,将所述目标动作值的取值确定为所述最大动作值;当每一所述控制变量的目标动作值计算结果小于所述最小动作值时,将所述目标动作值的取值确定为所述最小动作值。
9.在其中一个实施例中,所述基于所述即时奖励,对所述图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体,包括:将所述即时奖励输入所述图注意力强化学习智能体中,并基于所述即时奖励与所对应的第一无功优化决策,确定所述图注意力强化学习智能体中的网络层和全连接层的参数的处理流程;基于所述参数的处理流程,对所述图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
10.在其中一个实施例中,所述将所述电力系统的实时运行状态对应的第二无功优化拓扑图数据融入所述优化后的图注意力强化学习智能体,对所述优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到所述实时运行状态的第二无功优化决策,包括:获取所述电力系统的实时运行状态,并构建所述实时运行状态对应的第二无功优化拓扑图数据;将所述第二无功优化拓扑图数据融入所述优化后的图注意力强化学习智能体中,得到所述实时运行状态的初始第二无功优化决策;获取所述电力系统对所述初始第二无功优化决策的初始即时奖励;基于所述初始即时奖励,对所述优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到所述实时运行状态的第二无功优化决策。
11.第二方面,本技术还提供了一种无功优化决策的确定装置,所述装置包括:第一无功优化决策确定模块,用于构建电力系统的历史运行状态对应的第一无功优化拓扑图数据;将所述第一无功优化拓扑图数据融入图注意力强化学习智能体,得到所述历史运行状态的第一无功优化决策;
即时奖励获取模块,用于获取所述电力系统对所述第一无功优化决策的即时奖励;参数优化模块,用于基于所述即时奖励,对所述图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体;第二无功优化决策确定模块,用于将所述电力系统的实时运行状态对应的第二无功优化拓扑图数据融入所述优化后的图注意力强化学习智能体,对所述优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到所述实时运行状态的第二无功优化决策。
12.第三方面,本技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
13.第四方面,本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
14.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
15.上述无功优化决策的确定方法、装置、计算机设备和存储介质,通过将电力系统的历史运行状态对应的第一无功优化拓扑图数据融入图注意力强化学习智能体中,并根据对得到的第一无功优化决策给出的即时奖励,以使图注意力强化学习智能体不断地修正网络层和全连接层的参数,从而实现对图注意力强化学习智能体的训练和优化。通过将优化后图注意力强化学习方法智能体应用于实时运行状态的电力系统中,并只对图注意力强化学习智能体的全连接层的参数进行修正,可以保留图注意力强化学习智能体中的网络层的特征提取能力和使训练的速度大幅提升,从而提高图注意力强化学习智能体的可迁移性。
附图说明
16.图1为一个实施例中无功优化决策的确定方法的应用环境图;图2为一个实施例中无功优化决策的确定方法的流程示意图;图3为另一个实施例中无功优化决策的确定方法的流程示意图;图4为另一个实施例中无功优化决策的确定方法的流程图;图5为一个实施例中图注意力强化学习智能体行动器构成示意图;图6为一个实施例中图注意力强化学习智能体评判器构成示意图;图7为一个实施例中图注意力强化学习智能体的运行机理示意图;图8为一个实施例中无功优化决策的确定装置的结构框图;图9为一个实施例中计算机设备的内部结构图。
具体实施方式
17.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
18.本技术实施例提供的无功优化决策的确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需
要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104在获取到电力系统的历史运行状态后,构建历史运行状态所对应的第一无功优化拓扑图数据,并将得到的第一无功优化拓扑图数据与图注意力强化学习智能体进行结合处理,从而输出电力系统的历史运行状态的第一无功优化决策。当第一无功优化决策应用在处于历史运行状态的电力系统后,服务器104会获取电力系统针对第一无功优化决策应用的反馈情况给出即时奖励。服务器104再根据电力系统给出的即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化和调整,从而得到优化后的图注意力强化学习智能体。服务器104将电力系统发生状态变化后的实时运行状态所对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体中,再通过优化图注意力强化学习智能体中的全连接层参数,从而得到处于实时运行状态的电力系统的第二无功优化决策。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
19.在一个实施例中,如图2所示,提供了一种无功优化决策的确定方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:步骤202,构建电力系统的历史运行状态对应的第一无功优化拓扑图数据。将第一无功优化拓扑图数据融入图注意力强化学习智能体,得到历史运行状态的第一无功优化决策。
20.其中,第一无功优化拓扑图数据和第二无功优化拓扑图数据都是将电力系统运行状态转化为非欧式空间下的图数据。例如,将电力系统在历史运行状态所对应的每一设备或者设备机组的特征转化为特征矩阵,将每一设备或者设备机组之间的连接关系转化为连接矩阵,特征矩阵和连接矩阵就是电力系统在历史运行状态所对应的非欧式空间下的第一无功优化拓扑图数据。
21.图注意力强化学习智能体是在传统具有自学习、自适应能力的强化学习智能体基础上,引入了图注意力神经网络后得到的图注意力强化学习智能体。图注意力强化学习智能体可以有效聚合信息之间的相关性并能对相邻节点信息重要度做注意力系数分配,从而弥补传统强化学习智能体的不足。
22.具体地,服务器在得到电力系统的历史运行状态后,则将电力系统的历史运行状态转化为非欧式空间下的图数据,得到电力系统的历史运行状态所对应的第一无功优化拓扑图数据。并将第一无功优化拓扑图数融入至结合了强化学习智能体和图注意力神经网络的图注意力强化学习智能体中,得到电力系统的历史运行状态的第一无功优化决策。
23.步骤204,获取电力系统对第一无功优化决策的即时奖励。
24.其中,即时奖励是强化学习中电力系统对决策的反馈,相当于告诉智能体当前决策可以获得多少收益,具体而言,可以定义为该运行状态下的电能在传输过程中的损耗量以及超过系统正常运行的范围的惩罚等。例如,当决策a和b同时应用在处于同一运行状态的电力系统中时,决策a可以得到的收益为10,决策b得到的收益为20,则可以理解为在该运行状态下,决策b比决策a会更加适用于电力系统。
25.步骤206,基于即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参
数进行优化,得到优化后的图注意力强化学习智能体。
26.其中,图注意力强化学习智能体中的全连接层在整个神经网络中起到“分类器”的作用,可以将学到的“分布式特征表示”映射到样本标记空间。
27.对图注意力强化学习智能体中的网络层和全连接层的参数进行优化是指对网络层和全连接层的可训练的参数和偏置参数进行修正处理,以实现对图注意力强化学习智能体的优化处理。
28.具体地,服务器根据电力系统对每一第一无功优化决策给出的即时奖励,不断地调整图注意力强化学习智能体中的网络层和全连接层的参数,使图注意力强化学习智能体进行多次的交互训练以达到优化的目的,从而得到优化后的图注意力强化学习智能体。
29.步骤208,将电力系统的实时运行状态对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体,对优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到实时运行状态的第二无功优化决策。
30.其中,电力系统的实时运行状态是指在同一个电力系统中发生了拓扑结构变化,从而由历史运行状态变化为了实时运行状态。例如,在电力系统的前一个运行状态中,设备a和设备b之是相互连接的,但是在电力系统的下一个运行状态中,设备a和设备之间是断开的状态,则表示该电力系统发生了拓扑结构的变化,由历史运行状态变化为了实时运行状态。
31.第一无功优化拓扑图数据和第二无功优化拓扑图数据都是将电力系统的运行状态转化为非欧式空间下得到的图数据。
32.具体地,服务器在得到电力系统发生拓扑结构变化的实时运行状态后,则将电力系统的实时运行状态转化为非欧式空间下的图数据,得到电力系统的实时运行状态所对应的第二无功优化拓扑图数据。再将第二无功优化拓扑图数融入至优化后的图注意力强化学习智能体中,通过冻结图注意力强化学习智能体中网络层以保留其特征提取能力,同时调整图注意力强化学习智能体中全连接层的参数,使图注意力强化学习智能体的训练大幅度提升,从而得到电力系统的实时运行状态的第二无功优化决策。
33.上述无功优化决策的确定方法中,通过将电力系统的历史运行状态对应的第一无功优化拓扑图数据融入图注意力强化学习智能体中,并根据对得到的第一无功优化决策给出的即时奖励,以使图注意力强化学习智能体不断地修正网络层和全连接层的参数,从而实现对图注意力强化学习智能体的训练和优化。通过将优化后图注意力强化学习方法智能体应用于实时运行状态的电力系统中,并只对图注意力强化学习智能体的全连接层的参数进行修正,可以保留图注意力强化学习智能体中的网络层的特征提取能力和使训练的速度大幅提升,从而提高图注意力强化学习智能体的可迁移性。
34.在一个实施例中,构建电力系统的历史运行状态对应的第一无功优化拓扑图数据,包括:以电力系统中的实际节点为节点、以实际节点的历史运行状态为节点的节点特征,构建节点特征矩阵。
35.其中,实际节点指的是电网中若干个等电位的物理点的集合,是一个逻辑概念,一般对应于运行电网的母线等。例如,变压器接到母线上,母线又有多条子线,那么这些线连接的点,就属于一个节点。
36.节点特征指的是电力系统中各个节点的发电机出力、新能源机组出力、负荷需求、电压分布、设备投切状态等物理量。节点特征矩阵是将各个节点的节点特征通过处理,以矩阵的形式进行表述。例如,对一个具有n个节点的电力系统,每一节点有发电机有功出力、发电机无功出力、新能源机组出力、有功负荷、无功负荷、电压分布、设备投切状态这7个节点特征,则该电力系统的节点特征可以组成一个n*f的节点特征矩阵。
37.具体地,服务器以电力系统中电流的汇集点或支路的汇集点等实际节点为节点,获取各个节点的发电机出力、新能源机组出力、负荷需求、电压分布、设备投切状态等节点特征,再根据实际节点数量和对应的节点特征,构建属于该电力系统的历史运行状态的节点特征矩阵。
38.以各实际节点之间的连接关系为节点间的连接关系,按照节点间的连接关系,构建节点连接矩阵。
39.具体地,服务器通过获取电力系统中各个实际节点的连接关系,确定第一无功优化拓扑图数据中各节点的连接关系,从而构建属于该电力系统的历史运行状态的节点连接矩阵。
40.在一个具体应用中,电力系统a具有n个实际节点,则该电力系统的节点连接矩阵就为一个n*n的矩阵。将各个实际节点编号为1,2,

,n,当节点1和节点2之间存在连接关系时,则矩阵中(1,2)和(2,1)位置上的数据等于1,当节点1和节点2之间不存在连接关系时,则矩阵中(1,2)和(2,1)位置上的数据等于0。
41.将节点特征矩阵和节点连接矩阵,确定为电力系统的历史运行状态对应的第一无功优化拓扑图数据。
42.具体地,服务器通过构建电力系统的历史运行状态的节点特征矩阵和节点连接矩阵,从而可以得到电力系统的历史运行状态对应的第一无功优化拓扑图数据。
43.本实施例中,通过将电力系统的历史运行状态转化为非欧式空间下的图数据,能够很直接的表示电力系统的各个节点的特征和节点之间的连接关系,同时也可以提高查询相关数据的速率。
44.在一个实施例中,将节点特征矩阵和节点连接矩阵,确定为电力系统的历史运行状态对应的第一无功优化拓扑图数据之后,包括:将节点特征矩阵融入图注意力强化学习智能体中进行特征提取,得到目标节点特征矩阵。
45.其中,目标节点矩阵是指图注意力强化学习智能体经过对节点特征矩阵的特征提取处理,得到的每一全连接层的节点特征矩阵。
46.具体地,服务器以节点特征矩阵中每一节点的节点特征矩阵为图注意力强化学习智能体中第一层网络层的目标节点特征矩阵,从而依次计算各网络层中的目标节点特征矩阵。计算过程如下:
公式(1)中h
i(l)
表示第l层网络层的i节点的节点特征,w
(l)
表示从第l层转换为第l+1层的可训练参数,z
i(l)
表示i节点的节点特征从第l层转换为第l+1层的中间转换量,z
j(l)
表示j节点的节点特征从第l层转换为第l+1层的中间转换量。公式(2)中e
ij(l)
表示节点i和节点j在第l层的原始注意力分数,是一个可以被训练的向量,可以通过随机初始化获得,表示可学习的权重向量,leakyrelu为激活函数,z
i(l)
||z
j(l)
表示将z
i(l)
和z
j(l)
进行拼接,将两个节点的节点特征组合。公式(3)中是对一个节点的所有关联边应用softmax操作,得到第l层的第i个节点与节点j之间连接线的注意力权重a
ij(l)
。公式(4)中σ表示对节点i的所有关联边进行基于注意力权重的加权求和,从而得到i节点在第l+1层的目标节点特征矩阵。
47.基于目标节点特征矩阵和节点连接矩阵,在全连接层中进行非线性映射处理,得到历史运行状态的第一无功优化决策。
48.具体地,服务器通过构建图注意力强化学习智能体中的行动器模块,以图注意力神经网络为核心,将目标节点特征矩阵和节点连接矩阵经由图注意力神经网络的全连接层进行非线性映射处理后,得到历史运行状态的第一无功优化决策。
49.在本实例中,通过使用将电力系统的节点特征矩阵与图注意力强化学习智能体融合,可以将电力系统的各个节点的节点特征进行聚合和提取,从而可以为得到图注意力强化学习智能体的各网络层中的目标节点特征矩阵。
50.在一个实施例中,将第一无功优化拓扑图数据融入图注意力强化学习智能体,得到历史运行状态的第一无功优化决策,还包括:获取电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值。
51.其中,控制变量是指电力系统中发电机机端电压、变压器抽头设置、节点电容器容量。历史动作值表示在对发电机机端电压、变压器抽头设置、节点电容器容量进行调整之前各个控制变量所处的状态。
52.可变化的步长表示每一控制变量单次可变动的区间。例如,数字排列1,3,5,7,9中,后面一项减去前面一项的值等于2,那么2就是该数字排列的步长。
53.动作阈值表示各个控制变量所能达到的最大范围和最小范围。例如,发电机机端电压最高可达360v,最低可达0v,则0v和360v为该电机电压的动作阈值。
54.根据每一控制变量的历史动作值、可变化的步长、以及动作阈值,确定电力系统中每一控制变量的目标动作值。
55.具体地,服务器通过获取每一控制变量在进行调整之前所处的状态、单次可变动的区间、以及可变化的范围,计算电力系统中每一控制变量的目标动作值。计算过程如下:
公式(5)中,t表示时隙,a
step
为控制变量可变化的步长,为t时隙控制变量处理后的目标动作值,a
t
表示t时隙控制变量处理前的动作值,a
max
和a
min
表示控制变量的动作阈值。
56.将第一无功优化拓扑图数据和每一控制变量的目标动作值融入至图注意力强化学习智能体中的全连接层进行非线性映射处理,得到历史运行状态的第一无功优化决策。
57.具体地,服务器将电力系统的历史运行状态的第一无功优化拓扑图数据和计算得到的目标动作值融入至图注意力强化学习智能体中的全连接层进行非线性映射处理后可以得到改电力系统处于历史运行状态的第一无功优化决策。同时,在图注意力强化学习智能体中的评判器模块,还可以通过非线性映射得到对状态动作对的q值。无功优化决策和q值更新的方式如下:公式(6)和公式(7)中π*表示最优无功优化决策,t表示时隙,a
t
表示在t时隙控制变量处理后的动作值,s
t
表示t时隙的状态,r(s
t
,a
t
)是对t时隙的状态动作对(s
t
,a
t
)的即时奖励,γ是折扣因子,h[
·
]表示t时隙动作集合的熵,α为温度系数权重,ρ表示瑞利分布,、、以及表示在状态动作对(s
t
,a
t
)和 (s
t+1
,a
t+1
)各自满足无功优化决策π的情况下求的期望值,v
t+1
(s
t+1
)表示状态s
t+1
的值函数,q(s
t
,a
t
)表示状态动作对(s
t
,a
t
)的 q值。
[0058]
行动器,评判器,目标评判器的更新如下:行动器,评判器,目标评判器的更新如下:公式(8)、公式(9)、以及公式(10)中的ω、
ϖ
为q网络的参数和目标q网络的参数,θ为行动器网络参数,λ为软更新系数,d表示独立同分布,γ是折扣因子,α为温度系数权重。表示针对q网络的参数ω要往回传播的损失值,表示在状态动作对(s
t
,a
t
)和(s
t+1
,a
t+1
)满足无功优化决策π的情况下求的期望值,r(s
t
,a
t
)是对t时隙的状态动作对(s
t
,a
t
)的即时奖励,表示q网络的参数为ω的评判器对状态动作对(s
t
,a
t
)的评价值,表示t+1时隙目标q网络的参数为
ϖ
的评判器对状态动作对(s
t+1
,a
t+1
)的评价值,表示t+1时隙无功优化决策为π,行动器网络参数为θ的熵,表示t时隙在状态动作对(s
t
,a
t
)满足无功优化决策π,行动器网络参数为θ的情况下的期望值,
表示针对无功优化决策π, 行动器网络参数θ要往回传播的损失值, 表示t时隙无功优化决策为π,行动器网络参数为θ,状态动作对为(s
t
,a
t
)的熵。
[0059]
当参数更新的时候,如果更新目标在不断变动,会造成更新困难,所以是用评判器计算q值,通过引入目标评判器,采用q值先更新目标评判器,然后再采用目标评判器的参数来更新评判器的参数。
[0060]
在本实例中,通过确定电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值,从而可以实现对优化决策中的各控制变量的目标动作值进行准确计算。
[0061]
在一个实施例中,动作阈值包括最大动作值和最小动作值中的至少一个。根据每一控制变量的历史动作值、可变化的步长、以及最大动作值与最小动作值,确定电力中每一控制变量的目标动作值,包括:当每一控制变量的目标动作值计算结果大于最大动作值时,将目标动作值的取值确定为最大动作值。
[0062]
当每一控制变量的目标动作值计算结果小于最小动作值时,将目标动作值的取值确定为最小动作值。
[0063]
具体地,当服务器计算得到的控制变量的目标动作值计算结果大于该控制变量的动作阈值中的最大动作值时,则不将计算得到的结果作为目标动作值,而是将该控制变量的动作阈值中的最大动作值确定为目标动作值;当服务器计算得到的控制变量的目标动作值计算结果小于该控制变量的动作阈值中的最小动作值时,则不将计算得到的结果作为目标动作值,而是将该控制变量的动作阈值中的最小动作值确定为目标动作值。
[0064]
在一个具体应用中,服务器通过计算得到的控制变量的目标动作值计算结果为10,而该控制变量的动作阈值中的最大动作值为8时,则不将计算得到的结果10作为目标动作值,而是将该控制变量的动作阈值中的最大动作值8确定为目标动作值。当服务器通过计算得到的控制变量的目标动作值计算结果为1,而该控制变量的动作阈值中的最小动作值为2时,则不将计算得到的结果1作为目标动作值,而是将该控制变量的动作阈值中的最小动作值2确定为目标动作值。
[0065]
在本实例中,通过设置各控制变量的动作阈值,可以在得到的目标动作值计算结果超出了动作阈值的范围时,对各控制变量的目标动作值进行约束,从而保证电力系统的安全稳定运行。
[0066]
在一个实施例中,基于即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体,包括:将即时奖励输入图注意力强化学习智能体中,并基于即时奖励与所对应的第一无功优化决策,确定图注意力强化学习智能体中的网络层和全连接层的参数的处理流程。
[0067]
其中,参数的处理流程表示通过第一无功优化决策和所对应的即时奖励可以得到的图注意力强化学习智能体中的网络层和全连接层的参数的调整方向。
[0068]
具体地,服务器将电力系统反馈的即时奖励输入图注意力强化学习智能体中,并通过对即时奖励和对应的第一无功优化决策进行分析,从而确定图注意力强化学习智能体中的网络层和全连接层的参数的调整方向,实现对参数的处理。
[0069]
基于参数的处理流程,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
[0070]
具体地,服务器通过根据电力系统对每一第一无功优化决策给出的即时奖励进行分析得到的参数的处理流程,不断地对图注意力强化学习智能体中的网络层和全连接层的参数进行调整和优化,以训练图注意力强化学习智能体,从而得到优化后的图注意力强化学习智能体。
[0071]
在本实例中,通过基于第一无功优化决策和所对应的即时奖励,可以明确图注意力强化学习智能体中的网络层和全连接层的参数的调整方向,从而对图注意力强化学习智能体中的网络层和全连接层的参数进行调整和优化,以实现对图注意力强化学习智能体的训练,从而使优化后的图注意力强化学习智能体可以应用于发生拓扑结构变化的电力系统中。
[0072]
在一个实施例中,如图3所示,将电力系统的实时运行状态对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体,对优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到实时运行状态的第二无功优化决策,包括:步骤302,获取电力系统的实时运行状态,并构建实时运行状态对应的第二无功优化拓扑图数据。
[0073]
其中,实时运行状态是指电力系统在历史运行状态发生拓扑结构变化后的运行状态。第二无功优化拓扑图数据和第一无功优化拓扑图数据都是将电力系统运行状态转化为非欧式空间下的图数据。例如,将电力系统在实时运行状态所对应的每一设备或者设备机组的特征转化为特征矩阵,将每一设备或者设备机组之间的连接关系转化为连接矩阵,特征矩阵和连接矩阵就是电力系统在实时运行状态所对应的非欧式空间下的第二无功优化拓扑图数据。
[0074]
具体地,服务器在得到电力系统在历史运行状态发生拓扑结构变化后的实时运行状态后,将电力系统的实时运行状态转化为非欧式空间下的图数据,得到电力系统的实时运行状态所对应的第二无功优化拓扑图数据。
[0075]
步骤304,将第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体中,得到实时运行状态的初始第二无功优化决策。
[0076]
其中,初始第二无功优化决策表示从优化后的图注意力强化学习智能体中得到最优或者次优的无功优化决策之前得到的非最优的无功优化决策,因为当二无功优化拓扑图数据融入优化后的图注意力强化学习智能体后不可能一次就可以得到最优或者次优的无功优化决策,还是需要对图注意力强化学习智能体中的全连接层的参数进行修正处理,不断地对图注意力强化学习智能体中的全连接层的参数进行训练才可以得到最优或者次优的无功优化决策。
[0077]
具体地,服务器获取到电力系统的实时运行状态对应的第二无功优化拓扑图数据后,将第二无功优化拓扑图数据融入至优化后的图注意力强化学习智能体中,使优化后的图注意力强化学习智能体在得到实时运行状态的初始第二无功优化决策的过程中不断地学习和训练。
[0078]
步骤306,获取电力系统对初始第二无功优化决策的初始即时奖励。
[0079]
步骤308,基于初始即时奖励,对优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到实时运行状态的第二无功优化决策。
[0080]
具体地,服务器基于电力系统反馈的关于初始第二无功优化决策的初始即时奖
励,冻结优化后的图注意力强化学习智能体中的网络层的参数,仅对全连接层参数进行修正处理,保留优化后的图注意力强化学习智能体的特征提取能力,从而得到实时运行状态的最优或者次优第二无功优化决策。
[0081]
在本实例中,通过将优化后图注意力强化学习方法智能体应用于实时运行状态的电力系统中,并只对图注意力强化学习智能体的全连接层的参数进行修正,可以保留图注意力强化学习智能体中的网络层的特征提取能力和使训练的速度大幅提升,从而提高图注意力强化学习智能体的可迁移性。
[0082]
本技术还提供一种应用场景,该应用场景应用上述的无功优化决策的确定方法。具体地,该无功优化决策的确定方法在该应用场景的应用如下:电力系统有4台变压器,5台发电机,接入2个光伏、2个风电,另外选取4个补偿点来满足无功优化的需求。电力系统的运行状态图实际节点有30个,其中节点特征包括发电机有功出力、发电机无功出力、新能源出力、负荷有功功率、负荷无功功率、节点电压、无功补偿容量。因此其节点特征矩阵为30*7维矩阵,节点连接矩阵为30*30维矩阵。状态图“边”共有41条。
[0083]
首先,根据电力系统给的历史运行状态,建立第一无功优化拓扑图数据,并将图数据与智能体结合,以输出无功优化决策,如图4所示。第一无功优化拓扑图数据中的节点为电力系统实际节点,节点特征为该节点发电机有功出力、发电机无功出力、新能源出力、负荷有功功率、负荷无功功率、节点电压、无功补偿容量。第一无功优化拓扑图数据中边为电力系统的节点间实际拓扑连接关系。然后,构建融入图注意力神经网络的强化学习智能体。图注意力强化学习智能体以6层神经网络作为行动器模型,如图5所示。其中网络的输入为电力系统的历史运行状态的第一无功优化拓扑图数据,首先使用1个全连接层进行特征变换,其后使用1个图注意力网络层提取图数据的结构特征,最后使用4个全连接层实现图注意力神经网络到无功优化决策的非线性映射。并以6层神经网络作为评判器和目标评判器的模型,以电力系统的节点特征矩阵经过1个全连接层进行特征变换后的目标节点特征矩阵作为图注意力神经网络的输入,然后把提取后的图数据和无功优化决策一起输入全连接层,输出为对状态动作对的q值,如图6所示。图注意力强化学习智能体通过输入构建的第一无功优化拓扑图数据,输出第一无功优化决策,并根据电力系统的历史运行状态及给出即时奖励,对自身的网络层和全连接层的参数进行优化,从而得到优化后的图注意力强化学习智能体。再将电力系统的历史运行状态的第一无功优化拓扑图数据作为优化后的图注意力强化学习智能体的输入,得到历史运行状态的最优或者次优无功优化决策。到下一个时间段,以上一个时间段的无功优化拓扑图数据、最优无功优化决策及对应的即时奖励为输入,对图注意力强化学习智能体进行再次训练,以确保图注意力强化学习智能体始终保持学习状态。最后,当电力系统运行过程中拓扑发生变化,变为实时运行状态时,对行动器、评判器的图注意力网络层进行参数冻结,只针对全连接层进行训练,实现无功优化知识的在线快速迁移,以得到电力系统的实时运行状态的最优的无功优化决策,图注意力强化学习智能体的运行机理示意图如图7所示。
[0084]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个
阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0085]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的无功优化决策的确定方法的无功优化决策的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个无功优化决策的确定装置实施例中的具体限定可以参见上文中对于无功优化决策的确定方法的限定,在此不再赘述。
[0086]
在一个实施例中,如图8所示,提供了一种无功优化决策的确定装置,包括:第一无功优化决策确定模块802,用于构建电力系统的历史运行状态对应的第一无功优化拓扑图数据。将第一无功优化拓扑图数据融入图注意力强化学习智能体,得到历史运行状态的第一无功优化决策。
[0087]
即时奖励获取模块804,用于获取电力系统对第一无功优化决策的即时奖励。
[0088]
参数优化模块806,用于基于即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
[0089]
第二无功优化决策确定模块808,用于将电力系统的实时运行状态对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体,对优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到实时运行状态的第二无功优化决策。
[0090]
在其中一个实施例中,第二无功优化决策确定模块还包括:节点特征矩阵构建单元,用于以电力系统中的实际节点为节点、以实际节点的历史运行状态为节点的节点特征,构建节点特征矩阵。
[0091]
节点连接矩阵构建单元,用于以各实际节点之间的连接关系为节点间的连接关系,按照节点间的连接关系,构建节点连接矩阵。
[0092]
第一无功优化拓扑图数据确定单元,用于将节点特征矩阵和节点连接矩阵,确定为电力系统的历史运行状态对应的第一无功优化拓扑图数据。
[0093]
在其中一个实施例中,第一无功优化拓扑图数据确定单元还包括:目标节点特征矩阵构建子单元,用于将节点特征矩阵融入图注意力强化学习智能体中进行特征提取,得到目标节点特征矩阵。
[0094]
第一无功优化拓扑图数据确定子单元,用于基于目标节点特征矩阵和节点连接矩阵,在全连接层中进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0095]
在其中一个实施例中,第一无功优化决策确定模块还包括:数据获取单元,用于获取电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值。
[0096]
目标动作值确定单元,用于根据每一控制变量的历史动作值、可变化的步长、以及动作阈值,确定电力系统中每一控制变量的目标动作值。
[0097]
映射处理单元,用于将第一无功优化拓扑图数据和每一控制变量的目标动作值融入至图注意力强化学习智能体中的全连接层进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0098]
在其中一个实施例中,目标动作值确定单元还包括:第一目标动作值确定子单元,用于当每一控制变量的目标动作值计算结果大于最
大动作值时,将目标动作值的取值确定为最大动作值。
[0099]
第二目标动作值确定子单元,用于当每一控制变量的目标动作值计算结果小于最小动作值时,将目标动作值的取值确定为最小动作值。
[0100]
在其中一个实施例中,参数优化模块还包括:处理流程确定单元,用于将即时奖励输入图注意力强化学习智能体中,并基于即时奖励与所对应的第一无功优化决策,确定图注意力强化学习智能体中的网络层和全连接层的参数的处理流程。
[0101]
智能体优化单元,用于基于参数的处理流程,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
[0102]
在其中一个实施例中,第二无功优化决策确定模块还包括:第二无功优化拓扑图数据获取单元,用于获取电力系统的实时运行状态,并构建实时运行状态对应的第二无功优化拓扑图数据。
[0103]
初始第二无功优化决策获取单元,用于将第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体中,得到实时运行状态的初始第二无功优化决策。
[0104]
初始即时奖励获取单元,用于获取电力系统对初始第二无功优化决策的初始即时奖励。
[0105]
第二无功优化决策获取单元,用于基于初始即时奖励,对优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到实时运行状态的第二无功优化决策。
[0106]
上述无功优化决策的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0107]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电力系统的历史运行状态、第一无功优化拓扑图数据、第一无功优化决策、第一无功优化决策的即时奖励、电力系统的实时运行状态、第二无功优化拓扑图数据、第二无功优化决策、节点特征矩阵、节点连接矩阵、目标节点特征矩阵、电力系统中各控制变量的历史动作值、可变化的步长、动作阈值、目标动作值、参数的处理流程、初始第二无功优化决策、以及初始即时奖励。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种无功优化决策的确定方法。
[0108]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0109]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:构建电力系统的历史运行状态对应的第一无功优化拓扑图数据。将第一无功优化拓扑图数据融入图注意力强化学习智能体,得到历史运行状态的第一无功优化决策;获取电力系统对第一无功优化决策的即时奖励;基于即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体;将电力系统的实时运行状态对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体,对优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到实时运行状态的第二无功优化决策。
[0110]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:以电力系统中的实际节点为节点、以实际节点的历史运行状态为节点的节点特征,构建节点特征矩阵;以各实际节点之间的连接关系为节点间的连接关系,按照节点间的连接关系,构建节点连接矩阵;将节点特征矩阵和节点连接矩阵,确定为电力系统的历史运行状态对应的第一无功优化拓扑图数据。
[0111]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将节点特征矩阵融入图注意力强化学习智能体中进行特征提取,得到目标节点特征矩阵;基于目标节点特征矩阵和节点连接矩阵,在全连接层中进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0112]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值;根据每一控制变量的历史动作值、可变化的步长、以及动作阈值,确定电力系统中每一控制变量的目标动作值;用于将第一无功优化拓扑图数据和每一控制变量的目标动作值融入至图注意力强化学习智能体中的全连接层进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0113]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当每一控制变量的目标动作值计算结果大于最大动作值时,将目标动作值的取值确定为最大动作值;当每一控制变量的目标动作值计算结果小于最小动作值时,将目标动作值的取值确定为最小动作值。
[0114]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将即时奖励输入图注意力强化学习智能体中,并基于即时奖励与所对应的第一无功优化决策,确定图注意力强化学习智能体中的网络层和全连接层的参数的处理流程;基于参数的处理流程,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
[0115]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取电力系统的实时运行状态,并构建实时运行状态对应的第二无功优化拓扑图数据;将第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体中,得到实时运行状态的初始第二无功优化决策;获取电力系统对初始第二无功优化决策的初始即时奖励;基于初始即时奖励,对优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到实时运行状态的第二无功优化决策。
[0116]
在一个实施例中,提供了一种计算机可读存储介质,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:构建电力系统的历史运行状态对应的第一无功优化拓扑图数据。将第一无功优化拓扑图数据融入图注意力强化学习智能体,得到历史运行状态的第一无功优化决策;获取电力系统对第一无功优化决策的即时奖励;基于即时奖励,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体;将电力系统的实时运行状态对应的第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体,对优化后的图注意力强化学习智能体中的全连接层参数进行优化,得到实时运行状态的第二无功优化决策。
[0117]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:以电力系统中的实际节点为节点、以实际节点的历史运行状态为节点的节点特征,构建节点特征矩阵;以各实际节点之间的连接关系为节点间的连接关系,按照节点间的连接关系,构建节点连接矩阵;将节点特征矩阵和节点连接矩阵,确定为电力系统的历史运行状态对应的第一无功优化拓扑图数据。
[0118]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将节点特征矩阵融入图注意力强化学习智能体中进行特征提取,得到目标节点特征矩阵;基于目标节点特征矩阵和节点连接矩阵,在全连接层中进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0119]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取电力系统中各控制变量的历史动作值、可变化的步长、以及动作阈值;根据每一控制变量的历史动作值、可变化的步长、以及动作阈值,确定电力系统中每一控制变量的目标动作值;用于将第一无功优化拓扑图数据和每一控制变量的目标动作值融入至图注意力强化学习智能体中的全连接层进行非线性映射处理,得到历史运行状态的第一无功优化决策。
[0120]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当每一控制变量的目标动作值计算结果大于最大动作值时,将目标动作值的取值确定为最大动作值;当每一控制变量的目标动作值计算结果小于最小动作值时,将目标动作值的取值确定为最小动作值。
[0121]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将即时奖励输入图注意力强化学习智能体中,并基于即时奖励与所对应的第一无功优化决策,确定图注意力强化学习智能体中的网络层和全连接层的参数的处理流程;基于参数的处理流程,对图注意力强化学习智能体中的网络层和全连接层的参数进行优化,得到优化后的图注意力强化学习智能体。
[0122]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取电力系统的实时运行状态,并构建实时运行状态对应的第二无功优化拓扑图数据;将第二无功优化拓扑图数据融入优化后的图注意力强化学习智能体中,得到实时运行状态的初始第二无功优化决策;获取电力系统对初始第二无功优化决策的初始即时奖励;基于初始即时奖励,对优化后的图注意力强化学习智能体中的全连接层参数进行修正处理,得到实时运行状态的第二无功优化决策。
[0123]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0124]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0125]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0126]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0127]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1