一种基于改进模仿学习的非实时观测有源配电网优化方法与流程

文档序号:32802855发布日期:2023-01-04 00:08阅读:35来源:国知局
一种基于改进模仿学习的非实时观测有源配电网优化方法与流程

1.本发明涉及配电网优化技术领域,具体为一种基于改进模仿学习的非实时观测有源配电网优化方法。


背景技术:

2.随着新能源的发展,大量分布式新能源接入配电网,带来的波动性和不确定性导致配电网的网损升高,运行不能无法处于经济最优状态,同时电压产生波动,甚至出现越限的问题,安全性也无法保证。仅依靠日前优化无法适应分布式新能源的波动性和不确定性,需要对配电网进行实时的优化。然而,配电网实时量测处于部分可获得的状态,其余节点仅可获得日前的历史数据,这让实时状态下配电网的优化问题无法求解,因此,如何仅通过可获得的实时数据,以及供参考的历史数据,实现对配电网的优化,对保证有源配电网运行的安全性与经济性有着重要意义。
3.综合国内外研究和应用情况来看,非实时观测有源配电网优化有两种方法,包括先对缺失的实时量测数据补全后再进行优化(补全优化)和基于深度强化学习的泛化能力的优化(泛化优化)。补全优化中的补全方法包括基于数学方式的插值,均值填充,张量补全等;基于智能方法的深度神经网络补全,生成对抗网络补全等。这种方式可以获得完整的实时数据用于优化,但是补全的数据存在误差,同时补全后再优化还需要再次对优化问题进行求解,实时性无法保证。泛化优化采用了深度强化学习,能够快速获得实时的优化指令,但是这种方法在非实时的节点增多时因为获取特征逐渐减少,越来越难以训练收敛,在数据量较小的情况下无法实现优化,为此,本发明提出了一种基于改进模仿学习的非实时观测有源配电网优化方法。


技术实现要素:

4.本发明的目的在于提供一种基于改进模仿学习的非实时观测有源配电网优化方法,能够在保证电压不越限的前提下实现配电网网损的降低,实现有源配电网的安全经济运行。
5.为实现上述目的,本发明提供如下技术方案:一种基于改进模仿学习的非实时观测有源配电网优化方法,具体如下:
6.获取电压越限状态、网损升高状态和正常运行状态下的历史断面数据,采用自适应粒子群优化,以电压不越限为约束,以网损最低为目标,获得优化指令,并基于获得的多个优化指令构建配电网优化最优指令库;
7.构建基于模仿学习的有源配电网优化模型,生成器的输入为量测数据,输出为优化指令,判别器的输入为量测数据和优化指令,输出为判定此优化指令是否为此配电网运行状态下的最优指令,最终得到能够输出优化指令的有源配电网优化模型;
8.对构建的基于模仿学习的有源配电网优化模型进行训练,在获取的历史断面数据中调用实时可观测的数据,同时从构建的最优指令库中采样对应最优指令,将两个采样数
据输入上述有源配电网优化模型中生成对抗网络训练,直至迭代训练到最优状态,有源配电网优化模型训练完成;
9.对训练好的基于模仿学习的有源配电网优化模型进行在线应用,将获得的实时量测数据输入训练完成的有源配电网优化模型中,得到对应的优化指令,即可对有源配电网进行优化。
10.进一步的,构建最优指令库的具体步骤如下:
11.粒子群的位置表示为:
12.其中ld表示搜索空间的上限,ud表示搜索空间的下限。
13.粒子群的速度表示为:vi=(v
i1
,v
i2
,...,v
ij
)
t
14.其中v
min v
max
分别表示最小和最大速度。
15.粒子群的进化过程以及粒子的位置更新过程为:
[0016][0017]
x
ij
(t+1)=x
ij
(t)+v
ij
(t+1)
[0018]
式中:w为惯性权重,c1,c2为学习因子,t为迭代次数,p
ij
,p
gi
为粒子在搜索空间的局部最优位置,r1,r2为0到1之间的常数,x(i)为第i个粒子的位置。
[0019]
进一步的,自适应适应粒子群相较于粒子群在不满足迭代条件之前可以自动增加迭代次数,对配电网进行优化,具体流程如下:
[0020]
输入参数,设置调控对象调控范围,初始化总体以及所有粒子的初始位置;
[0021]
确定目标位置,计算配电网运行质量,运行质量的公式如下:
[0022][0023][0024][0025]
式中:α,β为加权系数,p
loss
为网损,为实时电压越上限时的电压质量,u
max
为配电网接入优化指令后的电压最高值,为配电网允许的电压上限为实时电压越下限时的电压质量,u
min
为配电网接入优化指令后的电压最低值,为配电网允许的电压下限;
[0026]
计算所有粒子的适应值,搜索单个粒子的当前最优值和全局最优值并计算粒子的速度和位置,更新粒子位置。
[0027]
再次计算配电网的调控量,更新每个粒子的个体最优值和全局最优值并调整粒子群的惯性权重和学习因子,更新的步骤如下:
[0028]
[0029][0030][0031]
式中:w
start
为初始惯性权重,w
end
为迭代至最大次数时的惯性权重,k为当前迭代次数,t
max
为最大迭代次数,c
1start
,c
2start
为原始学习因子,c
1end
,c
2end
为迭代结束的学习因子。
[0032]
当迭代次数结束时,判定是否达到收敛条件,如果达到收敛条件,即电压处于正常范围,同时网损实现降低,则输出指令,如果没有达到收敛条件,则在循环中增加迭代次数,重新进入优化。
[0033]
进一步的,构建基于模仿学习的有源配电网优化模型,具体步骤如下:
[0034]
构建输入信息格式,将实时状态下可获得的配电网量测数据及从获得的历史断面数据中调用实时可观测的数据输入模型,定义输入为观测状态s:
[0035]
s:{p1,q1,u1,...,pn,qn,un}
[0036]
其中,p表示节点的有功注入,q表示节点的无功注入,u表示节点的电压,下标表示实时状态下可获得的节点编号;
[0037]
定义模型输出为可控设备的有功无功调节量,包括储能的有功功率以及光伏逆变器发出的无功功率,定义输出为调节指令a:
[0038]
a:{δp1,δp2,...;δq1,δq2,...}
[0039]
其中δp为储能吸收有功功率的调节量,下标为调节储能的编号,δq为光伏逆变器发出无功功率的调节量,下标为调节光伏的编号;
[0040]
构建基于生成对抗网络的模仿学习优化模型,包括生成器与判别器两个部分:
[0041]
生成器采用神经网络,输入为观测状态,输出为调节指令,生成器用g表示,表达式如下:
[0042]
a=g(s)
[0043]
生成器的神经元个数以2的倍数提高或者缩减,在精度接近的情况下,选择较小的神经元个数,在神经网络的激活函数库中选择relu函数作为激活函数;
[0044]
判别器也采用与生成器类似神经网络,输入为观测状态以及调节指令,输出为判定指令为最优指令的概率θ,判别器用d表示表达式如下:
[0045]
θ=d(s,a)
[0046]
判别器与生成器结构基本对称,不同点在于判别器网络的激活函数替换成leakyrelu激活函数;
[0047]
构建模型的损失函数及目标函数,对生成器和判别器进行优化,使得最终得到能够输出合适优化指令的模型:
[0048]
其中,判别器的损失函数设计为:
[0049]
ld=-e[d(x)]+e{d[g(s)]}
[0050]
式中,e表示期望分布,x表示从最优指令库中采样的最优指令。
[0051]
生成器的损失函数设计为:
[0052]
lg=-e{d[g(s)]}
[0053]
博弈过程中的目标函数为:
[0054][0055]
目标表示,生成器试图生成接近最优指令规律的调控指令,从而使得判别器无法辨识数据是否为最优指令,训练结束后生成器将获得配电网不同状态下最优指令的规律;
[0056]
为获得最优指令的分配规律,采用wasserstein距离衡量目标函数,具体训练时的wasserstein距离定义为:
[0057][0058]
式中,∏(pr,pg)是以pr和pg为边缘分布的联合概率分布γ的集合,w(pr,pg)为期望γ(x,y)的下确界;
[0059]
在生成对抗模仿学习中,需要对公式进行对偶,将目标函数修正为:
[0060][0061]
其中,为原目标函数中d(x),为原函数中g(s)。
[0062]
进一步的,对构建的基于模仿学习的有源配电网优化模型进行训练,具体方法如下:
[0063]
对判别器进行训练,让判别器判断输入指令是否为最优的能力提升;
[0064]
采用判别器结果对生成器进行反向优化,让生成器生成的优化指令更加接近最优指令;
[0065]
进行迭代更新,使生成器与判别器达到均衡的状态,即生成器生成的优化指令的特征和最优指令相同,此时模仿完成,基于模仿学习的有源配电网优化模型能够输出最优指令。
[0066]
进一步的,对判别器进行训练的具体方法如下:
[0067]
对模仿学习的生成器与判别器的网络进行初始化,采用随机初始化;
[0068]
设置一次训练的批次采样个数,从历史配电网状态数据中随机抽样同样的个数输入生成器,输出生成的优化动作,将生成动作及其对应配电网状态数据输入判别器;
[0069]
从最优指令库中抽取和采样个数相同的最优动作及其对应配电网状态数据,将其输入判别器;
[0070]
根据判别器判别结果的准确性,采用adam优化器对判别器进行优化。
[0071]
进一步的,对生成器的训练方法如下:
[0072]
设置批次采样个数,从历史配电网状态数据中随机抽样同样的个数输入生成器,输出生成的优化动作,将生成动作及其对应配电网状态数据输入判别器;
[0073]
根据判别器判断的结果,同样采用adam优化器对生成器进行优化。
[0074]
进一步的,对训练好的基于模仿学习的有源配电网优化模型进行在线应用,其具体步骤如下:
[0075]
将训练好的有源配电网优化模型部署到配电网的云主站,获得配电网实时节点量测数据后输入优化模型,对配电网内的可控资源下达优化指令;
[0076]
在离线状态下每月对有源配电网优化模型模型进行更新,即每月重新根据最新数据对模型进行训练,训练后将新模型替换原模型,保证对季节变动等原因导致的运行状态
较大变动的适应能力。
[0077]
根据本发明的一个方面,本发明提供一种设备,包括一个或多个处理器、存储器,用于存储一个或多个程序;
[0078]
当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器执行一种基于改进模仿学习的非实时观测有源配电网优化方法。
[0079]
根据本发明的另一个方面,本发明提供一种存储介质,所述存储介质中存储有计算机程序,运行该计算机程序,能执行一种基于改进模仿学习的非实时观测有源配电网优化方法。
[0080]
本发明至少具备以下有益效果:
[0081]
本发明能够在仅获得部分实时量测数据的情况下,对有源配电网因为分布式新能源的不确定性与波动性带来的网损升高,电压波动增大等问题进行优化,优化后在保证电压不越限的前提下实现配电网网损的降低,实现有源配电网的安全经济运行。
[0082]
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0083]
图1为本发明算例配电网拓扑示意图;
[0084]
图2为本发明优化前电压分布图;
[0085]
图3为本发明优化前网损图;
[0086]
图4为本发明优化后电压分布图;
[0087]
图5为本发明优化后网损图。
具体实施方式
[0088]
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
[0089]
请参阅图1-5,本发明提供一种技术方案:一种基于改进模仿学习的非实时观测有源配电网优化方法,具体如下:
[0090]
1.获取电压越限状态、网损升高状态和正常运行状态下的历史断面数据,采用自适应粒子群优化,以电压不越限为约束,以网损最低为目标,获得优化指令,并基于获得的多个优化指令构建配电网优化最优指令库,具体步骤如下:
[0091]
粒子群的位置表示为:
[0092]
其中ld表示搜索空间的上限,ud表示搜索空间的下限。
[0093]
粒子群的速度表示为:vi=(v
i1
,v
i2
,...,v
ij
)
t
[0094]
其中v
min v
max
分别表示最小和最大速度。
[0095]
粒子群的进化过程以及粒子的位置更新过程为:
[0096]
[0097]
x
ij
(t+1)=x
ij
(t)+v
ij
(t+1)
[0098]
式中:w为惯性权重,c1,c2为学习因子,t为迭代次数,p
ij
,p
gi
为粒子在搜索空间的局部最优位置,r1,r2为0到1之间的常数,x(i)为第i个粒子的位置。
[0099]
自适应适应粒子群相较于粒子群在不满足迭代条件之前可以自动增加迭代次数,对配电网进行优化,具体流程如下:
[0100]
(1)输入参数,设置调控对象调控范围,初始化总体以及所有粒子的初始位置;
[0101]
(2)确定目标位置,计算配电网运行质量,运行质量的公式如下:
[0102][0103][0104][0105]
式中:α,β为加权系数,p
loss
为网损,为实时电压越上限时的电压质量,u
max
为配电网接入优化指令后的电压最高值,为配电网允许的电压上限为实时电压越下限时的电压质量,u
min
为配电网接入优化指令后的电压最低值,为配电网允许的电压下限;
[0106]
(3)计算所有粒子的适应值,搜索单个粒子的当前最优值和全局最优值并计算粒子的速度和位置,更新粒子位置;
[0107]
(4)再次计算配电网的调控量,更新每个粒子的个体最优值和全局最优值并调整粒子群的惯性权重和学习因子,更新的步骤如下:
[0108][0109][0110][0111]
式中:w
start
为初始惯性权重,w
end
为迭代至最大次数时的惯性权重,k为当前迭代次数,t
max
为最大迭代次数,k
max
为自适应最大迭代次数,c
1start
,c
2start
为原始学习因子,c
1end
,c
2end
为迭代结束的学习因子;
[0112]
(5)当迭代次数结束时,判定是否达到收敛条件,如果达到收敛条件,即电压处于正常范围,同时网损实现降低,则输出指令,如果没有达到收敛条件,则在循环中增加迭代次数,重新进入优化。
[0113]
2.构建基于模仿学习的有源配电网优化模型,生成器的输入为量测数据,输出为优化指令,判别器的输入为量测数据和优化指令,输出为判定此优化指令是否为此配电网运行状态下的最优指令,最终得到能够输出优化指令的有源配电网优化模型,具体步骤如下:
[0114]
(1)构建输入信息格式,将实时状态下可获得的配电网量测数据及从获得的历史断面数据中调用实时可观测的数据输入模型,定义输入为观测状态s:
[0115]
s:{p1,q1,u1,...,pn,qn,un}
[0116]
其中,p表示节点的有功注入,q表示节点的无功注入,u表示节点的电压,下标表示实时状态下可获得的节点编号;
[0117]
(2)定义模型输出为可控设备的有功无功调节量,包括储能的有功功率以及光伏逆变器发出的无功功率,定义输出为调节指令a:
[0118]
a:{δp1,δp2,...;δq1,δq2,...}
[0119]
其中δp为储能吸收有功功率的调节量,下标为调节储能的编号,δq为光伏逆变器发出无功功率的调节量,下标为调节光伏的编号;
[0120]
(3)构建基于生成对抗网络的模仿学习优化模型,包括生成器与判别器两个部分:
[0121]
1)生成器采用神经网络,输入为观测状态,输出为调节指令,生成器用g表示,表达式如下:
[0122]
a=g(s)
[0123]
生成器的神经元个数以2的倍数提高或者缩减,在精度接近的情况下,选择较小的神经元个数,从神经网络激活函数库中选择relu函数作为激活函数;
[0124]
2)判别器也采用类似的生成器的神经网络,输入为观测状态以及调节指令,输出为判定指令为最优指令的概率θ,判别器用d表示表达式如下:
[0125]
θ=d(s,a)
[0126]
判别器与生成器结构基本对称,不同点在于判别器网络的激活函数替换成leakyrelu激活函数;
[0127]
(4)构建模型的损失函数及目标函数,对生成器和判别器进行优化,使得最终得到能够输出合适优化指令的模型:
[0128]
其中,判别器的损失函数设计为:
[0129]
ld=-e[d(x)]+e{d[g(s)]}
[0130]
式中,e表示期望分布,x表示从最优指令库中采样的最优指令。
[0131]
生成器的损失函数设计为:
[0132]
lg=-e{d[g(s)]}
[0133]
博弈过程中的目标函数为:
[0134][0135]
目标表示,生成器试图生成接近最优指令规律的调控指令,从而使得判别器无法辨识数据是否为最优指令,训练结束后生成器将获得配电网不同状态下最优指令的规律;
[0136]
为获得最优指令的分配规律,采用wasserstein距离衡量目标函数,具体训练时的wasserstein距离定义为:
[0137][0138]
式中,π(pr,pg)是以pr和pg为边缘分布的联合概率分布γ的集合,w(pr,pg)为期望γ(x,y)的下确界;
[0139]
在生成对抗模仿学习中,需要对公式进行对偶,将目标函数修正为:
[0140][0141]
其中,为原目标函数中d(x),为原函数中g(s)。
[0142]
3.对构建的基于模仿学习的有源配电网优化模型进行训练,在获取的历史断面数据中调用实时可观测的数据,同时从构建的最优指令库中采样对应最优指令,将两个采样数据输入上述有源配电网优化模型中生成对抗网络训练,直至迭代训练到最优状态,有源配电网优化模型训练完成,具体步骤如下:
[0143]
(1)对判别器进行训练,让判别器判断输入指令是否最优的能力提升,具体如下:
[0144]
1)对模仿学习的生成器与判别器网络进行初始化,采用随机初始化;
[0145]
2)设置一次训练的批次采样个数,从历史配电网状态数据中随机抽样同样的个数输入生成器,输出生成的优化动作,将生成动作及其对应配电网状态数据输入判别器;
[0146]
3)从最优指令库中抽取和采样个数相同的最优动作及其对应配电网状态数据,将其输入判别器;
[0147]
4)根据判别器判别结果的准确性,采用adam优化器对判别器进行优化
[0148]
(2)采用判别器结果对生成器进行反向优化,让生成器生成的优化指令更加接近最优指令,具体如下:
[0149]
1)设置批次采样个数,从历史配电网状态数据中随机抽样同样的个数输入生成器,输出生成的优化动作,将生成动作及其对应配电网状态数据输入判别器;
[0150]
2)根据判别器判断的结果,同样采用adam优化器对生成器进行优化
[0151]
(3)进行迭代更新,循环训练的过程,最终使生成器与判别器达到均衡的状态,即生成器生成的优化指令的特征和最优指令相同,此时模仿完成,基于模仿学习的有源配电网优化模型能够输出最优指令。
[0152]
4.对训练好的基于模仿学习的有源配电网优化模型进行在线应用,将获得的实时量测数据输入训练完成的有源配电网优化模型中,得到对应的优化指令,即可对有源配电网进行优化。
[0153]
本发明对如附图1所示结构的非实时观测有源配电网进行优化,其拓扑结构中包括节点5,8,14,18,19,21,29,31等8个非实时节点,仅可获得日前数据包括日前运行的电压、功率数据;其余节点可以获得实时的数据和历史数据。
[0154]
数据方面,获取uci机器学习库中提供的用户实际负荷,以及elia提供的光伏发电出力数据,通过潮流计算方式获得各节点电压以及配电网的网损数据,用于模拟配电网实际运行状态。
[0155]
一、本算例共准备了96*90组数据,15分钟采样一次,共3个月,作为数据集,随机挑选1天的数据作为示例,得到优化前的电压和网损分别如附图2和附图3所示。
[0156]
在图2中可以看到配电网优化前的电压存在越限的状况,同时网损也较高。
[0157]
二、从数据集中随机抽取一个月的数据采用改进粒子群算法进行优化,构建最优指令库。
[0158]
三、根据最优指令库中指令和历史状态数据对模仿学习模型进行训练,训练批次采样设置为32,循环次数为10000次,对应模仿学习网络结构如下表所示:
[0159]
表1模仿学习网络结构
[0160]
tab.1 imitate learning network structure
[0161][0162][0163]
训练过程中最优指令和生成指令,判别器对其判定是否最优指令的概率如下表所示。
[0164]
表2输入指令优秀程度判定
[0165]
tab.2 judgment of input instruction excellence
[0166][0167]
可见随着迭代次数的增加,生成的优化指令越来越接近参考指令,最终达到和参考指令具备同样的特征,能够实现对配电网的优化。
[0168]
四、在线应用训练好的优化模型,将实时量测数据输入优化模型,得到优化指令,优化的效果如附图4,5所示。
[0169]
在图4中可以看到相优化后电压已经不存在越限的状况,电压优化效果良好,同时从图5可以看出网损相比优化前下降明显,实现了在部分实时观测的情况下对配电网的优化。
[0170]
由此可见本发明的基于改进模仿学习的非实时观测有源配电网优化方法是切实
有效的。
[0171]
根据本发明的一个方面,本发明提供一种设备,包括一个或多个处理器、存储器,用于存储一个或多个程序;
[0172]
当所述一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器执行一种基于改进模仿学习的非实时观测有源配电网优化方法。
[0173]
根据本发明的另一个方面,本发明提供一种存储介质,所述存储介质中存储有计算机程序,运行该计算机程序,能执行一种基于改进模仿学习的非实时观测有源配电网优化方法。
[0174]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0175]
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。当元件被称为“装配于”、“安装于”、“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
[0176]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
[0177]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1