机组组合及调度分布式事件触发强化学习优化方法及系统

文档序号:29726930发布日期:2022-04-16 20:35阅读:189来源:国知局
机组组合及调度分布式事件触发强化学习优化方法及系统

1.本发明属于智能电网机组的优化组合及调度技术领域,尤其涉及一种机组组合及调度分布式事件触发强化学习优化方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.智能电网允许大规模直流输电和分布式发电进入系统,增强了供电可靠性且满足了用户电力增长需求。它以结构坚强化为物质基础,应用智能化为技术支撑,协调互动化为核心特征。智能电网发展的优势与挑战并存,系统运行的经济性是关键考虑因素,因此针对机组组合及调度开展研究具有重要意义。传统算法难以解决源-荷-储的不确定性和电网的复杂动态特性,而机组组合及调度作为随机序贯决策问题,其目标与强化学习目标一致。强化学习具有无需精确数学模型、可以获取长期回报等优势,使用强化学习算法解决机组组合及调度问题开始受到学者的广泛关注。考虑到智能电网具有分布式发电的特性,集中式的算法已不再适用。分布式强化学习算法分而自治、协同合作的设计原则可以有力支撑新一代电网机组安全稳定运行。
4.然而,现实世界中的通信网络带宽有限。当电网系统中机组数量较多且过度发送消息时,容易造成网络阻塞,延迟消息的传输,影响调度效果。传统的解决方法是采用时间触发,即事先设定触发时间以周期性的传输信息,不根据系统的状态或时间动态变化。然而,此方法仍然会造成不必要的资源浪费。


技术实现要素:

5.为了解决上述背景技术中存在的技术问题,本发明提供一种机组组合及调度分布式事件触发强化学习优化方法及系统,其能够提高机组资源的利用率。
6.为了实现上述目的,本发明采用如下技术方案:本发明的第一个方面提供一种机组组合及调度分布式事件触发强化学习优化方法,其包括:基于智能电网的发电机组的参数,得到机组组合及调度优化模型,并在预设约束条件下,构建固定动作集合,选出各机组的最优功率即虚拟发电功率;将约束条件转化为投影约束,将虚拟发电功率投影到相应约束范围内,得到符合约束范围内的各机组实际发电功率;基于无带宽约束下各机组实行实际发电功率时的成本,计算相应奖励,再根据q-学习算法更新q表中每个机组的局部q值,进而得到各机组在无带宽约束下的功率全局最优解即最优动作;固定各机组的最优动作,在考虑带宽的约束条件下,将通信带宽限制值描述为时间段内的惩罚阈值,得到满足有限带宽约束下的机组组合和调度问题的最优解。
7.本发明的第二个方面提供一种机组组合及调度分布式事件触发强化学习优化系统,其包括:虚拟发电功率筛选模块,其用于基于智能电网的发电机组的参数,得到机组组合及调度优化模型,并在预设约束条件下,构建固定动作集合,选出各机组的最优功率即虚拟发电功率;约束投影模块,其用于将约束条件转化为投影约束,将虚拟发电功率投影到相应约束范围内,得到符合约束范围内的各机组实际发电功率;全局最优解求解模块,其用于基于无带宽约束下各机组实行实际发电功率时的成本,计算相应奖励,再根据q-学习算法更新q表中每个机组的局部q值,进而得到各机组在无带宽约束下的功率全局最优解即最优动作;有限带宽约束求解模块,其用于固定各机组的最优动作,在考虑带宽的约束条件下,将通信带宽限制值描述为时间段内的惩罚阈值,得到满足有限带宽约束下的机组组合和调度问题的最优解。
8.与现有技术相比,本发明的有益效果是:(1)基于事件触发的分布式强化学习优化算法可以同时解决机组组合问题和调度问题,在有限带宽和各节点约束的条件下实现智能电网机组组合和调度的代价最小。
9.(2)本发明将有限带宽约束转化为求解带有约束的目标为最大化奖励和的优化问题,进一步用神经网络求解出最优信息交互策略,为带宽受限下实现机组组合和调度问题提供了新思路。
10.(3)本发明所提算法不使用函数逼近即可解决连续动作空间和功率负载的问题,与基于趋同的方法相比,不需要各机组代价函数的数学表达式,因此可以解决代价函数非凸以及难以精确刻画等情况,更具现实意义。
11.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
12.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
13.图1是本发明实施例的机组组合及调度分布式事件触发强化学习优化原理图;图2是本发明实施例的机组组合及调度分布式事件触发强化学习优化方法流程图。
具体实施方式
14.下面结合附图与实施例对本发明作进一步说明。
15.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
16.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
17.实施例一如图1所示,本实施例提供了一种机组组合及调度分布式事件触发强化学习优化方法,其具体包括如下步骤:s101:基于智能电网的发电机组的参数,得到机组组合及调度优化模型,并在预设约束条件下,构建固定动作集合,选出各机组的最优功率即虚拟发电功率。
18.建立智能电网统一的机组组合及调度问题的数学模型:该问题的主要目的是在一段时间内寻找一个最经济的调度方案,其中为机组个数,为折扣因子,机组在时间的状态,为机组在时间时的输出功率;为机组在时间时的发电成本,为机组在时间时的输出功率的成本,表示机组在时间时参与调度指标,若机组在时间时参与则,否则;表示机组在时间时可能的关闭成本;表示机组在时间时的热启动成本。
19.其中,为机组的最小启动时间,为机组的最小停机时间,为机组冷却方法的时间,和为机组的初始输出功率和初始输出电流,为机组的调度时间段,为机组在时间的输出功率;为机组在时间的输出电流,为机组在时间的输出电流。
20.上述优化目标需满足下列约束条件:(1)供需平衡约束
其中为总功率需求,为时间的传输线损。
21.(2)禁止作业区其中:和分别为机组参与的最大最小功率输出,分别为第和个禁止作业区,为禁止作业区的数量。
22.(3)最小启停时间约束其中为机组的最小启动时间,为机组的连续参与时间区间;为机组的连续退出时间,为机组的最小停机时间。
23.(4)发电斜坡约束其中为斜坡上升和下降限制。
24.(5)发电容量约束(6)旋转备用约束其中和分别为最低和最高旋转储备;,表示各个机组在时间的总功率需求。
25.s102:将约束条件转化为投影约束,将虚拟发电功率投影到相应约束范围内,得到符合约束范围内的各机组实际发电功率。
26.通过下列平均趋同算法估计在时间时的总功率需求:其中:
,为图的拉普拉斯矩阵。
27.定义在时间时的奖励为其中为正常数。
28.通过将容量约束区间划分,设定固定离散的虚拟动作集即虚拟发电功率集,机组在时间的第个动作为实际发电功率应在容量约束区间内,初始空间的实际动作被给出为,定义状态空间等于实际动作空间,其中为机组在时间的状态。
29.虚拟动作在虚拟动作集中根据概率被选择为最优的动作:和概率被选择为其他动作。其中,为机组在时间的动作。
30.通过约束投影方法求解实际可行动作,给出此问题的具体描述求解分布式奇异摄动的动态得到上述问题的解,即实际发电功率。为等式约束条件,和均为不等式约束条件。为范数。
31.s103:基于无带宽约束下各机组实行实际发电功率时的成本,计算相应奖励,再根据q-学习算法更新q表中每个机组的局部q值,进而得到各机组在无带宽约束下的功率全局最优解即最优动作。
32.观测环境进而得到各机组实行实际发电功率时的成本,定义参数,参数:其中为估计参数,为机组边到的邻接权重,通过上述动态平均趋同算法得到平均成本的无偏估计,则可得到奖励。
33.根据下述q-学习算法更新q表中每个机组的局部q值其中为学习率,表示奖励,表示下一时刻状态,表示下一时刻动作,分别表示当前时刻状态和动作,表示更新后的局部q值。
34.通过q表对各机组功率进行优化,得到各机组功率的全局最优解。
35.s104:固定各机组的最优动作,在考虑带宽的约束条件下,将通信带宽限制值描述为时间段内的惩罚阈值,得到满足有限带宽约束下的机组组合和调度问题的最优解。
36.固定假设不受带宽约束下求得的最优动作,将通信带宽限制值描述为时间段内的惩罚阈值c:其中表示惩罚函数;为被允许发送和接受信息的最大概率上限,表示惩罚阈值,表示占用带宽时的瞬时损失,表示门控策略,表示时刻获得的信息,其中为时刻之前最新获得的其他
的信息,为最新触发时刻接受到的信息,存到零阶保持器模块中;为最新触发时刻接受到的信息,存到零阶保持器模块中;表示在当前时间事件触发点的集合。
37.事件触发机制的设计转化为求解带有约束的目标为最大化奖励和的优化问题,其中,为机组在时间的奖励。
38.通过训练神经网络,求解出上述问题,得到最优的门控策略即事件触发机制。因此得到事件触发下的优化方法。
39.图2是算法流程图,具体步骤如下:步骤1:设置初始参数:如表1所示,发电机机组个数为4。
40.表1 初始参数初始化时间,学习率;每个单元的阀点负荷的成本函数:
其中,、和为发电成本系数,和为阀点负荷的系数;步骤2:测量在时间时的总功率需求;步骤3:识别当前每个机组的状态;步骤4:对每个机组的虚拟动作,根据概率选择最优的动作:和概率选择其他动作;步骤5:通过投影方法,得到实际动作即实际发电功率;步骤6:估计出每个机组的平均成本,进一步算出每个机组的奖励;步骤7:根据下述q-学习算法更新q表中每个机组的局部q值。
41.通过q表对各机组功率进行优化,得到各机组功率的全局最优解,步骤8.1:设,即动作策略固定为最优的,初始化观测值;步骤8.2:执行门控,更新存储信息和收到的信息;步骤8.3:执行动作,观测奖励,观测值和逼近全局状态,其中;步骤8.4:存储信息,其中,;为机组i在t时刻的当前信息;为最近事件触发时刻信息,为事件触发场景下不晚于时间t-1收到的信息,为t时刻的门控动作,为不晚于时间t收到的信息,为t时刻的的奖励,为t时刻的拉格朗日乘子,为t+1时刻的当前信息;从中采取小批量样本

42.步骤8.5:通过下述公式基于小样本更新拉格朗日网络的参数来估计门控神经网络的状态价值函数,其中:为拉格朗日网络的损失;为td误差;,通过下述公式基于小样本更新门控网络的参数:其中,为门控网络的损失;通过下述公式基于小样本更新惩罚网络的参数来估计门控神经网络的惩罚值函数;其中,是惩罚网络的损失;根据下面公式更新参数:
其中表示变量为正时被截断。为设定参数。
43.步骤8.6:得到最优门控策略;步骤9:重复步骤1-步骤7,在执行步骤2和步骤6时在最优门控策略下进行信息交互以解决带宽受限问题,最终得到机组组合和调度问题的最优解。
44.实施例二本实施例提供了一种机组组合及调度分布式事件触发强化学习优化系统,其包括如下模块:虚拟发电功率筛选模块,其用于基于智能电网的发电机组的参数,得到机组组合及调度优化模型,并在预设约束条件下,构建固定动作集合,选出各机组的最优功率即虚拟发电功率;约束投影模块,其用于将约束条件转化为投影约束,将虚拟发电功率投影到相应约束范围内,得到符合约束范围内的各机组实际发电功率;全局最优解求解模块,其用于基于无带宽约束下各机组实行实际发电功率时的成本,计算相应奖励,再根据q-学习算法更新q表中每个机组的局部q值,进而得到各机组在无带宽约束下的功率全局最优解即最优动作;有限带宽约束求解模块,其用于固定各机组的最优动作,在考虑带宽的约束条件下,将通信带宽限制值描述为时间段内的惩罚阈值,得到满足有限带宽约束下的机组组合和调度问题的最优解。
45.此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
46.本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
47.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1