一种基于串行Q学习算法的电力系统离散无功优化方法与流程

文档序号:18864080发布日期:2019-10-14 17:09阅读:138来源:国知局
一种基于串行Q学习算法的电力系统离散无功优化方法与流程

本发明涉及电力系统无功优化领域,特别是涉及一种基于串行q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质。



背景技术:

在电力系统中,给定输电网络的拓扑结构和输电线路的参数的条件下,有功、无功负荷和发电机的出力可分别从负荷预测和经济调度过程中获得。另一方面,为了保持电压水平、降低输电网络功率损耗并确保电力系统的安全稳定运行,优化无功功率也至关重要。

无功优化问题(reactivepoweroptimization,rpo)是最优潮流计算的一个子问题。它通过调节发电机的无功功率输出、变压器的抽头比和无功补偿装置的容量等控制变量,达到最小化线路损耗的目的。同时,rpo受限于电力系统中一系列的物理和运行约束。由于无功补偿装置的容量和变压器抽头比本质上是离散变化的,而发电机的无功功率输出是连续变量,因此rpo问题的数学模型是一个混合整数非线性规划问题,其优化过程非常复杂,长期以来一直是最优潮流计算研究的焦点之一。

现有rpo研究工作在物理和运行约束条件下可以得到使网损最小化的控制变量最优解,但大多数工作忽略了最大化节点电压幅值和发电机无功出力的安全裕度的目标。当优化结果使得节点电压临近边界值,那么轻微的负荷波动很可能会导致节点电压越界,这对电力系统安全稳定运行是一个隐患。

在rpo问题的求解方法方面,常用的最优化方法包括适用于线性和非线性问题的单纯形法、适用于非线性问题的内点法,以及适用于混合整数规划问题的分支定界法等。在这些方法中,拉格朗日函数和惩罚因子的引入将含有约束的rpo模型转化为无约束的优化问题。然而,上述传统规划方法对初始点的选取较为敏感,易于陷入局部最优。并且,数学规划方法需要已知目标函数或其偏导数的具体表达式,要求目标函数具有凸性、连续性和可导性。

人工智能方法解决rpo问题,特别是进化计算方法,可用来弥补上述数学规划方法的不足。例如,使用遗传算法,进化策略或一些其他演化方法解决rpo问题时,对目标函数是否是凸函数、其表达式是否连续可导并无要求。其全局搜索能力较强,不易于陷入局部最优。然而,这些方法忽略了变压器变比和无功补偿容量的离散特性,需要将其视为连续变量进行优化,随后再选取最优解邻近的离散值作为最终结果,这种方法很难保证得到了控制变量的最优离散值。

综上所述可以看出,如何在优化电力系统网损的过程中保持变量的离散性且对状态变量的安全稳定裕度进行优化是目前有待解决的问题。



技术实现要素:

本发明的目的是提供一种基于串行q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质,以解决现有的无功优化方法忽略了变压器变比和无功补偿容量的离散特性导致很难保证得到控制变量的最优离散值的问题。

为解决上述技术问题,本发明提供一种基于串行q学习算法的电力系统离散无功优化方法,包括:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;对所述控制变量中的连续变量离散化后,根据串行q学习算法,结合奖励函数,利用n个代理分别对所述控制变量中n个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;依据优化后的n个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

优选地,所述根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型包括:

根据电力系统的控制变量x=[vg,tb,qc]、状态变量u=[vl,qg]、等式约束g(x,u)=0及不等式约束h(x,u)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:

其中,vg为发电机机端电压,tb为有载调压变压器变比,qc为无功补偿容量;vl为节点电压,qg为发电机无功出力;g(·)=0为潮流方程;f(x,u)为网损总和ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。

优选地,所述对所述控制变量中的连续变量离散化包括:

将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。

优选地,个代理对每个单维控制变量进行优化的步骤包括:

s1:根据目标代理采取的当前行为,确定目标单维控制变量的当前初始值;

s2:根据所述目标单维控制变量的当前初始值与所述等式约束,确定状态变量的当前值;

s3:根据所述目标单维控制变量的当前初始值与所述状态变量当前值,确定所述电力系统的当前网损总和;

s4:判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值,若是,则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值;其中,所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定;

s5:根据所述当前奖励函数值更新所述当前行为对应的值函数,以便所述目标代理根据更新后的值函数选取下一个行为;

s6:循环执行所述s1至所述s5,直至循环次数达到预设次数,完成所述目标单维控制变量的优化。

优选地,所述根据所述当前奖励函数值更新所述当前行为对应的值函数包括:

利用qk+1(xi)=(1-α)qk(xi)+αrk更新所述当前行为对应的值函数;

其中,rk为所述当前奖励函数值,xi为所述当前行为,qk(xi)为所述当前行为对应的值函数,qk+1(xi)为更新后的值函数,α为学习速率。

本发明还提供了一种基于串行q学习算法的电力系统离散无功优化装置,包括:

构建模块,用于根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;

优化模块,用于对所述控制变量中的连续变量离散化后,根据串行q学习算法,结合奖励函数,利用n个代理分别对所述控制变量中n个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;

确定模块,用于依据优化后的n个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

优选地,所述构建模块具体用于:

根据电力系统的控制变量x=[vg,tb,qc]、状态变量u=[vl,qg]、等式约束g(x,u)=0及不等式约束h(x,u)≤0,构建电力系统无功优化问题的目标模型构建电力系统无功优化问题的目标模型:

其中,vg为发电机机端电压,tb为有载调压变压器变比,qc为无功补偿容量;vl为节点电压,qg为发电机无功出力;g(·)=0为潮流方程;f(x,u)为网损总和ploss;所述不等式约束包括所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。

优选地,所述优化模块包括:

离散单元,用于将所述发电机机端电压的可行域范围离散化为若干格子,且离散化后的发电机机端电压对应的代理每次可采取的行为为所述若干格子中的一个格子。

本发明还提供了一种基于串行q学习算法的电力系统离散无功优化设备,包括:

存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于串行q学习算法的电力系统离散无功优化方法的步骤。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于串行q学习算法的电力系统离散无功优化方法的步骤。

本发明所提供的基于串行q学习算法的电力系统离散无功优化方法,根据电力系统的控制变量、状态变量、等式约束以及不等式约束构建电力系统无功优化问题的目标模型。对所述控制变量中的连续变量进行离散化后,根据串行q学习算法,结合根据所述状态变量的安全裕度值设置的奖励函数,利用n个代理分别对所述控制变量中n个单维控制变量进行优化。依据优化后的n个单维控制变量,得到所述电力系统的最小网损总和以及所述状态变量的安全稳定裕度。本发明针对现有技术的不足,提供了一种考虑电压安全稳定裕度的离散无功优化方法,本发明所提供的方法,利用串行q学习算法对控制变量中的单维控制变量分别进行学习,在最小化网损的同时,从控制变量的离散特性出发,并考虑了电压和发电机无功出力的安全稳定裕度,从而得到更加符合无功优化需求的最优解。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于串行q学习算法的电力系统离散无功优化方法的第一种具体实施例的流程图;

图2为使用串行q学习算法对所述rpo进行优化得到的节点电压偏移量的柱状图;

图3为每个代理对每个单维控制变量进行优化的方法流程图;

图4为本发明实施例提供的一种基于串行q学习算法的电力系统离散无功优化装置的结构框图。

具体实施方式

本发明的核心是提供一种基于串行q学习算法的电力系统离散无功优化方法、装置、设备以及计算机可读存储介质,采用串行q学习法进行优化,能够在优化过程中保持变量的离散性;并且在奖励函数中考虑了状态变量的安全稳定裕度,可以在优化网损的同时,对状态变量的安全稳定裕度进行优化。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明所提供的基于串行q学习算法的电力系统离散无功优化方法的第一种具体实施例的流程图;具体操作步骤如下:

步骤s101:根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;

构建电力系统无功优化(rpo)问题的目标模型:

其中,x=[vg,tb,qc]为控制变量,vg为发电机机端电压,tb为有载调压变压器变比,qc为无功补偿容量;u=[vl,qg]为状态变量,vl为节点电压,qg为发电机无功出力;等式约束g(x,u)=0为潮流方程;目标函数为网损总和,f(x,u)=ploss;所述不等式约束包括了所述控制变量和所述状态变量的上下限约束与输电线路的功率极限约束。

步骤s102:对所述控制变量中的连续变量离散化后,根据串行q学习算法,结合奖励函数,利用n个代理分别对所述控制变量中n个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;

假设控制变量的维数为n,所述串行q学习算法采用n个代理,每个代理负责一个单维控制变量的优化,n个代理轮流对各自的单维控制变量进行一个学习步骤。将控制变量第i个单维的可行域离散化为di(i=1,2,…,n)个格子,第i个代理可采取的行为集合为ai={1,2,…,di}。在rpo问题中,由于有载调压变压器变比和无功补偿容量本身是离散变量,算法的离散化仅针对发电机机端电压。

步骤s103:依据优化后的n个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

利用本实施例所提供的基于串行q学习算法的电力系统离散无功优化方法,建立电力系统无功优化问题的数学模型,设置串行q学习算法的参数设置为:α=0.9,ε=0.01,c1=1000,c2=50。使用串行q学习算法优化ieee30节点系统的无功,得到的最小网损和最大电压和发电机无功出力安全稳定裕度与粒子群算法比较的结果如表1所示,从表中可看出,本实施例所提供的利用串行q学习算法对rpo问题进行优化可以得到更小的网损以及更大的节点电压和发电机无功安全稳定裕度。

表1两种rpo问题优化方法优化结果对比表

使用串行q学习算法对所述rpo进行优化得到的节点电压偏移量如图2所示,从图2中可看出,pv和pq节点电压偏移量均在各自的范围内,并具有较大的安全稳定裕度。

本发明实施例所提供的方法,针对rpo问题中含有离散控制变量的特性,采用串行q学习法进行优化,能够在优化过程中保持变量的离散性;并且,本方法在奖励函数中考虑了状态变量的安全稳定裕度,可以在优化网损的同时,对状态变量的安全稳定裕度进行优化;本实施例中不需要引入惩罚因子,不需要构造拉格朗日函数,避免了惩罚因子对网损的收敛带来的影响。且本实施例中不涉及对目标函数的求导,不需要目标函数连续可导或具有凸性等特点,因此本实施例中所提供的基于串行q学习算法的电力系统离散无功优化方法便于实现,具有实用性。

基于上述实施例中的步骤s102,在本实施例中提供了每个代理对每个单维控制变量进行优化的步骤。请参考图3,图3为每个代理对每个单维控制变量进行优化的方法流程图,具体优化步骤包括:

步骤s301:根据目标代理采取的当前行为,确定目标单维控制变量的当前初始值;

所述目标代理为所述n个代理中的任意一个代理。在所述控制变量中的连续变量进行离散化后,采用目标代理对所述控制变量中任意一个目标单维控制变量进行学习。

步骤s302:根据所述目标单维控制变量的当前初始值与所述等式约束,确定状态变量的当前值;

步骤s303:根据所述目标单维控制变量的当前初始值与所述状态变量当前值,确定所述电力系统的当前网损总和;

根据所述目标单维控制变量初始值和潮流方程计算状态变量,根据所述目标单维控制变量的初始值和所述状态变量计算环境状态,由目标函数值量化表示,即电力系统的当前网损总和f(x,u)。

步骤s304:判断所述状态变量的当前值是否大于等于所述状态变量的当前预设下限值且小于等于所述状态变量的当前预设上限值,若是,则根据所述当前网损总和及所述状态变量的安全裕度值确定当前奖励函数值;其中,所述状态变量的安全裕度值根据所述状态变量的当前值与所述当前预设下限值及所述当前预设上限值的距离确定;

环境反馈给所述目标代理一个奖励函数,用以表征所述目标代理是否采取了有利的行为,将环境转变为更好的状态。第k步的奖励函数的计算规则如下:

其中,c1和c2是常数;m为状态变量的个数;uj,min和uj,max分别表示第j个状态变量的预设上限值以及预设下限值;sk表示所述状态变量的安全裕度值,其计算方法如下:

步骤s305:根据所述当前奖励函数值更新所述当前行为对应的值函数;

所述目标代理的每个行为xi对应一个值函数q(xi)。所述目标代理根据奖励函数更新当前采取的行为对应的值函数,其规则如下:

qk+1(xi)=(1-α)qk(xi)+αrk

其中,α为学习速率,用以表征新信息对值函数的影响。

步骤s306:所述目标代理根据更新后的值函数选取下一个行为;

所述目标代理根据更新后的值函数选择下一个行为;第i个目标代理的行为被选择的概率的计算方法如下:

式中,ε为探索率,并且0≤ε≤1。在集合ai中,得到最高奖励函数的行为即为最有利的行为,代理i有(1-ε)的概率选择该最有利的行为,有ε的概率根据值函数的大小探索其他行为。代理在学习过程中需要不断更新最高的奖励函数和最有利的行为,其更新规则如下:

其中,τk表示温度,取值范围为0≤τk≤1。当τk数值较大,剩余非最有利行为被选择的概率接近;当τk数值接近0,这些行为被选择的概率会根据值函数大小的区别而不同。τk的数值随学习次数逐渐减小,即:

步骤s307;循环执行所述步骤s301至所述步骤s306,直至循环次数达到预设次数,完成所述目标单维控制变量的优化。

每当所述目标代理完成一次所述步骤s301至所述步骤学s306的习过程后,计数器k加1,当k达到预设的阈值kmax时,算法终止,完成所述目标单维控制变量的学习。所述n个代理中的每个代理均采用上述步骤分别对所述控制变量中的n个单维控制变量进行学习。

请参考图4,图4为本发明实施例提供的一种基于串行q学习算法的电力系统离散无功优化装置的结构框图;具体装置可以包括:

构建模块100,用于根据电力系统的控制变量、状态变量、等式约束及不等式约束,构建电力系统无功优化问题的目标模型;

优化模块200,用于对所述控制变量中的连续变量离散化后,根据串行q学习算法,结合奖励函数,利用n个代理分别对所述控制变量中n个单维控制变量进行优化;其中,所述奖励函数根据所述状态变量的安全裕度值设定;

确定模块300,用于依据优化后的n个单维控制变量,确定所述目标模型的最优值,从而得到所述电力系统的最小网损总和与所述状态变量的目标安全稳定裕度。

本实施例的基于串行q学习算法的电力系统离散无功优化装置用于实现前述的基于串行q学习算法的电力系统离散无功优化方法,因此基于串行q学习算法的电力系统离散无功优化装置中的具体实施方式可见前文中的基于串行q学习算法的电力系统离散无功优化方法的实施例部分,例如,构建模块100,优化模块200,确定模块300,分别用于实现上述基于串行q学习算法的电力系统离散无功优化方法中步骤s101,s102和s103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。

本发明具体实施例还提供了一种基于串行q学习算法的电力系统离散无功优化设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于串行q学习算法的电力系统离散无功优化方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于串行q学习算法的电力系统离散无功优化方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于串行q学习算法的电力系统离散无功优化方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1