基于多智能体强化学习的多能源优化方法、系统和介质与流程

文档序号：32311452发布日期：2022-11-23 11:46阅读：92来源：国知局

1.本发明属于区域能源互联网领域，具体涉及一种基于多智能体强化学习的多能源优化方法、系统和介质。

背景技术：

2.区域能源互联网是电力、天然气、热力及新能源等多种能源相耦合的综合能源系统，因此区域能源互联网运行优化问题，涉及到非线性、随机性、非凸性以及多目标问题求解问题，并且由于不同的能源体系中行业壁垒的存在，导致能源数据无法完全的交互，如何在多种能源的生产、传输、存储、消费等环节，更好的消纳可再生能源，同时提高多能源利用率，确保能源互联网多能源协同优化和系统安全、稳定、高效的运行，变得至关重要。
3.目前，清洁可再生能源大规模发展，区域能源互联网成为解决可再生能源就地消纳问题，实现能源网络紧密融合、提高整体系统能效的必然趋势。区域能源互联网具有更强的灵活性和可靠性，因此，获取能源供需信息，并实施快速合理优化策略，是控制多能源系统生产运行和实现能源的安全高效流动的关键。
4.区域能源互联网优化面临多种能源和多主体利益，目前应用于优化模型求解的方法，一般分为两方面，一类是为解决非凸非线性问题采用的传统非线性数学求解方法如序列二次规划算法，但是由于非线性数学优化属于局部最优搜索算法，所以非凸优化模型的全局最优性无法保证，并且计算求解时间较长；另一方面是启发类算法，如遗传算法和神经网络算法，然而启发式算法的构建，更多的是基于一种直观或经验的算法，所以无法保证给出最优解，只能求得一个近似最优解，并且区域能源互联网多主体之前的隐私信息无法保证。
5.目前的多智能体深度强化学习技术，指将深度学习和强化学习相结合，智能体以“试错”的方式进行学习，通过与区域能源互联网环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习中由区域能源互联网环境对智能体产生的协同优化决策动作的好坏做出一种评价，智能体依靠自身的经历进行学习，通过这种方式，智能体在动作-评价的环境中获得知识，改进协同优化动作方案以适应环境，如图1所示。当同时存在多个智能体与环境交互时，整个系统就变成一个多智能体系统，所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作，该各自动作带来的联合动作影响了环境状态的转移和更新，并决定了智能体获得的奖励反馈，从而达到最终的纳什均衡。
6.然而区域能源互联网运行优化，涉及多种能源形式的相互耦合和转化，决策结果大多集中在各种能源设备如发电机组、燃气轮机、电锅炉等设备出力多少，以满足系统的供需平衡和优化目标，但是对能源设备本身的工作效率关注较少，使得一些工作效率较低的能源出力设备为达到计划出力，造成能源浪费。其次，基于多智能体深度强化学习的区域能源互联网协同优化决策主要存在如下问题：1.区域能源互联网环境的不稳定性，每个智能体在做决策的同时，其他智能体也在采取动作，所有智能体的联合动作将导致环境状态的不断变化。2.智能体获取信息的局限性，智能体不一定能够获得全局的信息，存在智能体仅
能获取局部的观测信息，多智能体之间的信息交互程度设置存在困难。3.区域能源互联网中各智能体的优化目标和奖励函数设置，以及如何达到纳什均衡存在一定困难。4.随着能源互联网环境模型的复杂程度增加，而导致智能体数量的增加，也会造成状态和动作空间过大,以至于无法进行有效的探索和训练，从而使得区域能源互联网的优化问题难以得到很好的解决。

技术实现要素：

7.本发明的目的在于提供一种基于多智能体强化学习的多能源优化方法、系统和介质，以解决现有技术存在的缺陷，本发明通过多智能体深度强化学习和注意力机制相结合，以集中训练分布执行的模式，利用人工智能算法，保护多主体利益隐私的同时，实现区域能源互联网运行优化，进一步提高多能源利用率，从而保证能源互联网安全、稳定、高效运行。
8.为达到上述目的，本发明采用如下技术方案：
9.基于多智能体强化学习的多能源优化方法，包括：
10.获取区域能源互联网数据；
11.根据区域能源互联网数据设置区域能源互联网环境；
12.将多智能体深度强化学习与区域能源互联网环境进行交互训练，在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。
13.进一步地，所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；
14.所述电力系统参数包括：系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量；
15.所述天然气系统参数包括：天然气管道稳态流量、节点气压和温度以及气负荷；
16.所述热力系统参数包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷；
17.所述可再生能源参数包括：风力发电机组有功功率以及光伏发电机组有功功率。
18.进一步地，所述区域能源互联网环境包括状态空间和动作空间；
19.所述状态空间如下式所示：
[0020][0021]
式中，s
i,t
为状态空间，t为当前所处调度时段，为i子区域t时段火电机组有功功率，为i子区域t时段火电机组燃煤输入，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域t时段电储能电量，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率；
[0022]
所述动作空间如下式所示：
[0023][0024]
式中，a
i,t
为动作空间，为i子区域t时段火电机组有功功率，为i子区域t时
段电储能有功功率，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率。
[0025]
进一步地，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。
[0026]
进一步地，所述优化目标函数如下式所示：
[0027][0028]
式中：c
in
为区域能源互联网总体能源输入成本，为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，为区域能源互联网天然气能源输入，β为燃气成本系数；
[0029]
其中，
[0030]
式中，n为区域能源互联网中子区域的个数，每个子区域对应一个智能体，m为子区域中设备数量，为第i子区域第j个火力发电出力功率，为第i子区域第j个火力发电机工作效率；为i子区域在t时段第j个燃气锅炉天然气输入量，为i子区域在t时段第j个不包括燃气锅炉的气负荷；
[0031]
其中，
[0032]
式中，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率，为i子区域t时段电储能有功功率，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域在t时段第j个电锅炉有功功率。
[0033]
进一步地，所述约束条件包括：
[0034]
1)满足电力系统、热力系统和天热气系统运行供需平衡；
[0035]
2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内；电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内；
[0036]
3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。
[0037]
7.根据权利要求6所述的基于多智能体强化学习的多能源优化方法，其特征在于，所述奖励函数表示如下：
[0038]
r＝r1+r2+r3+r4+r5[0039]
式中，r为总奖励函数，r1为第一奖励函数，r2为第二奖励函数，r3为第三奖励函数，r4为第四奖励函数，r5为第五奖励函数，r2和r3中有一个满足条件时，另一个数值为0，r4和r5中有一个满足条件时，另一个数值为0；
[0040]
[0041][0042]
式中，l
step
为强化学习算法迭代步长，v为系统节点电压标幺值，k1和k2为奖励系数，k3为惩罚系数，c1和c2分别为结果满足条件时的奖励常数值。
[0043]
进一步地，所述将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：
[0044]
构建区域能源互联网优化运行算法模型框架；
[0045]
设计多智能体深度强化学习算法；
[0046]
基于区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法生成多能源协同优化运行策略；
[0047]
所述利用多智能体深度强化学习算法生成多能源协同优化运行策略，具体为：
[0048]
初始化智能体训练网络参数，预设多智能体训练轮次；
[0049]
随机初始化区域能源互联网环境，获得当前区域能源互联网状态数据；
[0050]
将当前区域能源互联网状态数据输入多智能体中，各子区域智能体进行优化决策，生成联合决策动作，同时环境反馈奖励值和下一时刻状态数据；
[0051]
将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中；
[0052]
通过经验池中数据对智能体训练网络参数进行更新，循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次，生成多能源协同优化运行策略。
[0053]
进一步地，所述在交互训练过程中引入注意力机制，具体为：
[0054]
各个智能体将观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，所述关键特征为可控设备的工作转换效率；
[0055]
各个智能体通过观测注意到其他智能体的可控设备情况后，调高工作转换效率高的可控设备能源输入，同时降低工作转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化；
[0056]
其中，工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备；
[0057]
工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。
[0058]
基于注意力机制多智能体深度强化学习的多能源协同优化系统，包括：
[0059]
数据获取模块：用于获取区域能源互联网数据；
[0060]
环境设置模块：用于根据区域能源互联网数据设置区域能源互联网环境；
[0061]
运行策略优化模块：用于将多智能体深度强化学习与区域能源互联网环境进行交互训练，在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。
[0062]
进一步地，所述数据获取模块中，区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；
[0063]
所述电力系统参数包括：系统频率、火力发电机组有功功率和无功功率、发电机组
燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量；
[0064]
所述天然气系统参数包括：天然气管道稳态流量、节点气压和温度以及气负荷；
[0065]
所述热力系统参数包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷；
[0066]
所述可再生能源参数包括：风力发电机组有功功率以及光伏发电机组有功功率。
[0067]
进一步地，所述环境设置模块中，区域能源互联网环境包括状态空间和动作空间；
[0068]
所述状态空间如下式所示：
[0069][0070]
式中，s
i,t
为状态空间，t为当前所处调度时段，为i子区域t时段火电机组有功功率，为i子区域t时段火电机组燃煤输入，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域t时段电储能电量，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率；
[0071]
所述动作空间如下式所示：
[0072][0073]
式中，a
i,t
为动作空间，为i子区域t时段火电机组有功功率，为i子区域t时段电储能有功功率，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率。
[0074]
进一步地，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数。
[0075]
进一步地，所述运行策略优化模块中，将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：
[0076]
构建区域能源互联网优化运行算法模型框架；
[0077]
设计多智能体深度强化学习算法；
[0078]
基于区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法生成多能源协同优化运行策略；
[0079]
所述利用多智能体深度强化学习算法生成多能源协同优化运行策略，具体为：
[0080]
初始化智能体训练网络参数，预设多智能体训练轮次；
[0081]
随机初始化区域能源互联网环境，获得当前区域能源互联网状态数据；
[0082]
将当前区域能源互联网状态数据输入多智能体中，各子区域智能体进行优化决策，生成联合决策动作，同时环境反馈奖励值和下一时刻状态数据；
[0083]
将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中；
[0084]
通过经验池中数据对智能体训练网络参数进行更新，循环训练直至满足约束条件
收敛或训练轮次大于预设的多智能体训练轮次，生成多能源协同优化运行策略。
[0085]
进一步地，所述运行策略优化模块中，在交互训练过程中引入注意力机制，具体为：
[0086]
各个智能体将观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，所述关键特征为可控设备的工作转换效率；
[0087]
各个智能体通过观测注意到其他智能体的可控设备情况后，调高工作转换效率高的可控设备能源输入，同时降低工作转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化；
[0088]
其中，工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备；
[0089]
工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。
[0090]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于多智能体强化学习的多能源优化方法的步骤。
[0091]
与现有技术相比，本发明具有以下有益的技术效果：
[0092]
本发明根据区域能源互联网运行特性，利用供需平衡原则和运行约束条件，采用多智能体深度强化学习引入注意力机制方式，实现区域能源互联网多能源多主体的人工智能算法协同互动，确保系统安全稳定运行，通过多智能体深度强化学习智能算法解决传统机理模型优化求解非凸非线性问题困难，实现多智能体非完全信息下多能源系统协同优化策略的自动快速生成。
[0093]
进一步地，通过计算可控设备如火力发电机组、电锅炉、燃气轮机工作转换效率的方法，设计区域能源互联网可控设备的合理能源输入控制，避免同一单位内可控设备控制策略不够精细，导致工作效率低的影响。
[0094]
进一步地，从可控设备的工作转换效率角度考虑区域能源互联网能源转换设备的控制问题，采用工作转换效率高的可控设备承担部分工作效率较低的可控设备出力，从而提升设备利用率，降低能源输入消耗，提高控制准确性，不仅提高了能源利用的经济效益，而且在节能环保低碳运行方面具有重要意义。
附图说明
[0095]
说明书附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
[0096]
图1为现有多智能体深度强化学习技术示意图；
[0097]
图2为本发明区域能源互联网优化运行模型算法框架示意图；
[0098]
图3为本发明多智能体深度强化学习算法流程示意图；
[0099]
图4为本发明多智能体深度强化学习引入注意力机制示意图。
具体实施方式
[0100]
为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是
本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
[0101]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0102]
实施例一
[0103]
本发明提供一种基于多智能体强化学习的多能源优化方法，通过多智能体深度强化学习方法求解区域能源互联网优化运行问题，并且在多智能体深度强化学习算法中引入注意力机制，通过智能体关注可控设备的工作转换效率，并且以提高工作转换效率较高可控设备出力，降低工作转换效率较低可控设备出力的方式，快速求解区域能源互联网多能源协同优化运行，提高多能源利用效率，主要包括七部分：
[0104]
(1)获取区域能源互联网数据，主要包含电力系统、热力系统、天然气系统和可再生能源参数四个方面的参数数据，如下所示：
[0105]
电力系统参数主要包括：系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率，电力系统网络节点数，系统电压幅值、相角以及电储能容量等参数。
[0106]
天然气系统参数主要包括：天然气管道稳态流量、节点气压和温度、气负荷等参数。
[0107]
热力系统参数主要包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、以及热网中各节点气压、温度、管道中介质流量和热负荷等参数。
[0108]
可再生能源参数主要包括：风力发电机组有功功率，光伏发电机组有功功率。
[0109]
(2)区域能源互联网环境设置，通过对区域能源互联网电气热等多类能源生产模式进行模型建立，为多智能体深度强化学习与环境的交互训练提供便利条件，同时确定区域能源互联网的状态空间和动作空间。
[0110]
状态空间设置：
[0111]
设定的每个区域的智能体的状态空间包括区域内火电机组有功功率、火电机组燃煤量、电负荷功率、电储能电量，电锅炉有功功率，燃气锅炉燃气输入量，风电有功功率，光伏有功功率，以及所处调度时段t。如下式所示：
[0112][0113]
式中：s
i,t
为状态空间，t为当前所处调度时段，为i子区域t时段火电机组有功功率，为i子区域t时段火电机组燃煤输入，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域t时段电储能电量，为i子区域t时段电锅炉有功功率，
为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率。
[0114]
动作空间设置：
[0115]
设置区域内可控设备如火电机组有功功率、电锅炉有功功率燃气锅炉燃气输入量、风电有功功率、光伏有功功率和电储能电量为动作空间。如下式所示：
[0116][0117]
式中，a
i,t
为动作空间，为i子区域t时段火电机组有功功率，为i子区域t时段电储能有功功率，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率。
[0118]
(3)奖励机制设置，该部分主要阐述多智能体深度强化学习的奖励机制，使智能体获得最大的奖赏目标，引导智能体与环境进行交互获得最优策略动作，包含多智能体深度强化学习的优化目标函数、约束条件及奖励函数设置。
[0119]
优化目标函数具体设置如下：
[0120]
本发明以区域能源互联网能源消耗最低为优化目标，优化目标函数如下：
[0121][0122]
式中：c
in
为区域能源互联网总体能源输入成本，为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，为区域能源互联网天然气能源输入，β为燃气成本系数。
[0123]
其中，公式(1)中：
[0124][0125]
式中，为第i子区域第j个火力发电出力功率，为第i子区域第j个火力发电机工作效率。
[0126][0127]
其中，n为区域能源互联网中子区域的个数，每个子区域对应一个智能体，m为子区域中设备数量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率，为i子区域t时段电储能有功功率，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域第j个t时段电锅炉有功功率。
[0128]
公式(1)中：
[0129][0130]
其中，为i子区域在t时段第j个燃气锅炉天然气输入量，为i子区域在t时段第j个不包括燃气锅炉的气负荷。
[0131]
约束条件具体设置如下：
[0132]
①
系统平衡约束：满足电力系统、热力系统、天热气系统运行供需平衡；
[0133]
②
能量生产转换设备约束：各能量生产转换设备如火电机组出力、电锅炉出力、燃气锅炉出力、风电出力、光伏出力、电储能均在其设备功率上下限范围内；电能、热能生产转换设备，如火电机组、电锅炉、燃气锅炉的爬坡率满足爬坡率上下限范围内；
[0134]
③
系统稳定约束：电力系统满足系统节点电压标幺值在[0.95,1.05]之间。
[0135]
由以上内容，奖励函数具体主要包含两部分：
[0136]
第一、即在t时段区域能源互联网系统能源消耗越小，该时段给予各智能体的奖励越大。如下式所示：
[0137][0138]
式中，r1为第一奖励函数，k1为奖励系数。
[0139]
第二、系统稳定约束：电力系统满足系统节点电压标幺值在[0.95,1.05]之间，奖励函数如下：
[0140][0141]
式中，r2为第二奖励函数，r3为第三奖励函数，r4为第四奖励函数，r5为第五奖励函数，k2奖励系数，k3为惩罚系数，c1和c2分别为结果满足条件时的奖励常数值。
[0142]
最终奖励函数如下式：
[0143]
r＝r1+r2+r3+r4+r5ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0144]
其中，r为总奖励函数，r2和r3有一个满足条件时，另一个数值为0，r4和r5有一个满足条件时，另一个数值为0。
[0145]
(4)多智能体深度强化学习算法流程设计，利用多智能体深度强化学习算法进行区域能源互联网多主体的划分，构建基于多智能体深度强化学习的区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法进行区域能源互联网运行优化控制决策生成。
[0146]
具体如图2所示，区域能源互联网为多智能体强化学习算法提供状态数据，然后由多智能体强化进行数据的输入，并且根据优化目标函数、奖励函数以及约束条件进行训练，生成控制决策反馈到区域能源互联网中运行。
[0147]
区域能源互联网主要分为电力系统、热力系统和天然气系统，电力系统又分为传统火力发电和新能源发电，新能源发电包含风力发电和光伏发电，整个能源互联网系统运行逻辑是首先各个区域满足各自区域电、气、热负荷需求，如果本区域还有多余的能量剩余，可以提供给其他区域进行协同优化。
[0148]
电力系统中优先进行风电、光伏消纳，满足电负荷和热力系统中电锅炉需求，多余电量可以存入电储能装置中，可控设备为传统火电发电机组和电锅炉设备。天然气系统一部分供给气负荷使用，另一部供给热力系统燃气锅炉设备供热，可控设备为燃气锅炉。通过不同能源系统之间和不能区域之间的能源协同互动，达到区域能源互联网优化运行。
[0149]
本发明主要通过消纳新能源和控制传统火电机组，电锅炉、燃气轮机等可控设备，
调节可控设备出力，一次达到能源优化目的。
[0150]
其中，使用的多智能体强化学习流程设计如图3所示：
[0151]
初始化智能体训练网络参数，预设智能体训练迭代的轮次m，通过随机初始化环境参数，获得当前区域能源互联网状态数据s
t
，状态数据输入多智能体中，进行模型训练，生成联合决策动作a，每个智能体代表区域能源互联网中的一个子区域，该子区域包含冷热器等可控设备，动作策略通过智能体与环境的不断交互，环境生成相应的奖励值r和下一时刻的状态数据s
t+1
，将{s
t
，a，r，s
t+1
}存储到经验池中，与此同时，通过存储在经验池中的数据，对智能体训练网络参数进行更新，从而使得累积的值函数期望值最大，最后当系统满足全部约束条件或训练轮次达到设置值时，结束模型训练，否则重复训练，直至满足收敛。
[0152]
(5)在(4)中引入注意力机制，通过每个智能体向其他智能体查询关于它们的观察和操作的部分可观信息，实现高效率可调节能源利用。
[0153]
在(4)中的多智能体深度强化学习算法中引入注意力机制，如图4所示，通过多个智能体将每个智能体观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，通过这种方式实现智能体对其他智能体关键特征的关注，从而引导多智能体对本区域的可控设备控制，提高能源利用率。
[0154]
(6)可调节设备能源工作转换效率判断，根据区域能源互联网实际工况，计算每个可调节发电机、电锅炉和燃气轮机等可控设备工作转换效率，并根据全部可控设备的平均工作转换效率来区分高或低工作转换效率的可控设备，用于(5)的注意力机制下智能体重点关注特征信息。
[0155]
采用可控设备发电机组工作转换效率，电锅炉工作转换效率和燃气轮机工作转换效率作为注意力机制关键特征，根据以下公式可以分别求得相应工作转换效率。
[0156][0157][0158][0159]
式中，为第i子区域第j个火力发电机工作转换效率，为第i子区域第j个火力发电出力功率，为第i子区域第j个火力发电机燃煤输入量，为第i子区域第j个电锅炉换热量，为i子区域在t时段第j个电锅炉有功功率，为第i子区域第j个燃气锅炉换热量，为i子区域在t时段第j个燃气锅炉天然气输入量；
[0160]
换热量可通过以下通式计算：
[0161]
h＝cmδt
[0162]
式中：h为设备换热量，c为水比热容，δt为热力系统管道中水的初始温度和加热后的温度差。
[0163]
将发电机组工作转换效率，电锅炉工作转换效率和燃气轮机工作转换效率返回给各个智能体，各个智能体通过观测注意到其他智能体的可控设备情况后，调高转换效率高的可控设备能源输入，同时降低转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化，从而节省能源消耗。
[0164]
以火力发电机组为例，区域中有10台发电机组，定义i子区域j台火电机组的工作转换效率为：
[0165][0166]
式中，为第i子区域第j个火力发电机工作转换效率，为第i子区域第j个火力发电出力功率，为第i子区域第j个火力发电机燃煤输入量。
[0167]
定义i子区域火电机组平均工作转换效率为所有火力发电机工作转换效率加和后除以总台数：
[0168][0169]
高于平均工作转换效率的机组为高工作转换效率火力发电机，低于平均工作转换效率的机组为低工作转换效率火力发电机。
[0170]
如公式(8)，假设各个火力发电机有功出力一定，那么工作转换效率高的火力发电机，其消耗的燃煤输入量必然小。也就是说，如果同样的有功出力由工作转换效率高的火力发电机完成，其燃煤消耗要小于工作转换效率低的火力发电机。
[0171]
根据火力发电机组工作转换效率的高低，提高工作转换效率高的火力发电机燃煤输入量，降低工作转换效率低的火力发电机燃煤输入量，调整后的单台火力发电机的燃煤输入量为：
[0172][0173]
式中，为单台火力发电机调整后的燃煤输入量，为单台火力发电机调整前的燃煤输入量，δ为火力发电机组的调整量。
[0174]
δ＝(δ1,δ2,
…
,δ
10
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0175]
所以在总有功出力不变的前提下，如果适当的增加工作转换效率高的火力发电机燃煤输入量，同时降低工作转换效率低的火力发电机燃煤输入量，则高效发电机增加的煤耗必然小于低效发电机降低的煤耗，从而达到调整后发电机组的燃煤输入量必然小于调整前的燃煤输入量。
[0176]
如下式所示：
[0177][0178]
根据公式(8)至(12)所示的推理过程，电锅炉和燃气锅炉的调整原理依次类推，调高区域内工作效率较高的设备有功出力和天然气输入量。
[0179]
调整量的控制策略，均由多智能体深度强化学习算法生成，最终实现多能源协同优化运行。
[0180]
(7)结合(1)至(6)进行多智能体深度强化学习训练，生成多能源协同优化运行策略。
[0181]
通过(1)至(4)构建了多智能体强化学习的状态空间、动作空间、奖励函数以及区域能源互联网运行优化框架，并且引入(5)和(6)的注意力机制，从而更好的引导多智能体
的能源优化策略生成，最终实现区域能源互联网以能源消耗最低为目标函数的多智能体深度强化学习生成方法。
[0182]
实施例二
[0183]
基于多智能体强化学习的多能源优化系统，包括：
[0184]
数据获取模块：用于获取区域能源互联网数据；区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数；
[0185]
所述电力系统参数包括：系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量；
[0186]
所述天然气系统参数包括：天然气管道稳态流量、节点气压和温度以及气负荷；
[0187]
所述热力系统参数包括：电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷；
[0188]
所述可再生能源参数包括：风力发电机组有功功率以及光伏发电机组有功功率。
[0189]
环境设置模块：用于根据区域能源互联网数据设置区域能源互联网环境；区域能源互联网环境包括状态空间和动作空间；
[0190]
所述状态空间如下式所示：
[0191][0192]
式中，s
i,t
为状态空间，t为当前所处调度时段，为i子区域t时段火电机组有功功率，为i子区域t时段火电机组燃煤输入，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域t时段电储能电量，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率；
[0193]
所述动作空间如下式所示：
[0194][0195]
式中，a
i,t
为动作空间，为i子区域t时段火电机组有功功率，为i子区域t时段电储能有功功率，为i子区域t时段电锅炉有功功率，为i子区域t时段燃气锅炉燃气输入量，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率。
[0196]
运行策略优化模块：用于将多智能体深度强化学习与区域能源互联网环境进行交互训练，通过设置奖励机制使智能体获得最大奖赏目标，所述奖励机制包括优化目标函数、约束条件及奖励函数，另外在交互训练过程中引入注意力机制，得到多能源协同优化运行策略。
[0197]
其中，所述优化目标函数如下式所示：
[0198][0199]
式中：c
in
为区域能源互联网总体能源输入成本，为区域能源互联网火力发电燃煤输入，α为燃煤成本系数，为区域能源互联网天然气能源输入，β为燃气成本系数；
[0200]
其中，
[0201]
式中，n为区域能源互联网中子区域的个数，每个子区域对应一个智能体，m为子区域中设备数量，为第i子区域第j个火力发电出力功率，为第i子区域第j个火力发电机工作效率；为i子区域在t时段第j个燃气锅炉天然气输入量，为i子区域在t时段第j个不包括燃气锅炉的气负荷；
[0202]
其中，
[0203]
式中，为i子区域t时段风电有功功率，为i子区域t时段光伏有功功率，为i子区域t时段电储能有功功率，为i子区域t时段不包含电锅炉的其他电负荷功率，为i子区域在t时段第j个电锅炉有功功率。
[0204]
所述约束条件包括：
[0205]
1)满足电力系统、热力系统和天热气系统运行供需平衡；
[0206]
2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内；电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内；
[0207]
3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。
[0208]
所述奖励函数表示如下：
[0209]
r＝r1+r2+r3+r4+r5[0210]
式中，r为总奖励函数，r1为第一奖励函数，r2为第二奖励函数，r3为第三奖励函数，r4为第四奖励函数，r5为第五奖励函数，r2和r3中有一个满足条件时，另一个数值为0，r4和r5中有一个满足条件时，另一个数值为0；
[0211][0212][0213]
式中，l
step
为强化学习算法迭代步长，v为系统节点电压标幺值，k1和k2为奖励系数，k3为惩罚系数，c1和c2分别为结果满足条件时的奖励常数值。
[0214]
另外，将多智能体深度强化学习与区域能源互联网环境进行交互训练，具体为：
[0215]
构建区域能源互联网优化运行算法模型框架；
[0216]
设计多智能体深度强化学习算法；
[0217]
基于区域能源互联网优化运行算法模型框架，利用多智能体深度强化学习算法生成多能源协同优化运行策略；
[0218]
所述利用多智能体深度强化学习算法生成多能源协同优化运行策略，具体为：
[0219]
初始化智能体训练网络参数，预设多智能体训练轮次；
[0220]
随机初始化区域能源互联网环境，获得当前区域能源互联网状态数据；
[0221]
将当前区域能源互联网状态数据输入多智能体中，各子区域智能体进行优化决策，生成联合决策动作，同时环境反馈奖励值和下一时刻状态数据；
[0222]
将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中；
[0223]
通过经验池中数据对智能体训练网络参数进行更新，循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次，生成多能源协同优化运行策略。
[0224]
在交互训练过程中引入注意力机制，具体为：
[0225]
各个智能体将观测到的环境信息输入到注意力机制中，进行关键特征提取，并且将特征权重输入到各智能体价值网络中，所述关键特征为可控设备的工作转换效率；
[0226]
各个智能体通过观测注意到其他智能体的可控设备情况后，调高工作转换效率高的可控设备能源输入，同时降低工作转换效率低的可控设备能源输入，达到每台可控设备的合理出力，实现能源互联网运行优化；
[0227]
其中，工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备；
[0228]
工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。
[0229]
相关术语解释
[0230]
能源互联网：综合运用先进的电力电子技术，信息技术和智能管理技术，将大量由分布式能量采集装置，分布式能量储存装置和各种类型负载构成的新型电力网络节点互联起来，以实现能量双向流动的能量对等交换与共享网络。
[0231]
能源互联网协同优化：协同优化是在优化每一子目标函数同时综合考虑其它子目标函数的结果，使子目标函数之间的优化结果能够一致。在能源互联网中一般优化目标包括降低系统运行成本、提高系统供能能效、降低系统环境成本等。
[0232]
多智能体强化学习：强化学习(reinforcement learning,rl)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是智能体(agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习中由环境对智能体产生动作的好坏作一种评价(通常为标量信号)，而不是告诉智能体如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价的环境中获得知识，改进行动方案以适应环境。
[0233]
当同时存在多个智能体与环境交互时，整个系统就变成一个多智能体系统。每个智能体仍然是遵循着强化学习的目标，也就是是最大化能够获得的累积回报，而此时环境全局状态的改变就和所有智能体的联合动作相关了。
[0234]
智能体：强化学习把学习看作试探评价过程，agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给agent，agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即奖励值，而且影响环境下一时刻的状态及最终的奖励值。
[0235]
动作空间：强化学习中智能体输出的动作集合。
[0236]
状态空间：强化学习中智能体输入的环境运行状态集合。
[0237]
奖励值：强化学习中由环境对智能体产生动作的好坏作一种评价。
[0238]
集中训练分布执行：在训练时，所有的智能体采用集中式结构进行训练,每个智能体可以通过无限制开放的信道获得其他智能体的信息.在训练结束之后则执行分布式策略,每个智能体只能通过自身的观测和有限信道传来的其他智能体的信息，进行动作的选择。
[0239]
注意力机制：起源于认知心理学和神经科学。人眼通过快速扫描聚焦于需要关注的目标位置，并对该区域投入更多的注意力，提取需要的细致的信息，并较少对其他区域的关注，抑制了信息的过载，这是人类可以利用有限资源从大量信息中快速筛选出有价值信息的一种能力。深度学习的注意力机制模拟了该过程，对于输入到神经网络的数据，通过学习，学会关注输入信息中的关键信息内容，在之后的预测或者推理过程中，对其重点关注或者利用。即在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。
[0240]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0241]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0242]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0243]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0244]
最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解:本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李健韩笑傅凯王新迎马慧远
技术所有人：国网北京市电力公司国家电网有限公司
我是此专利的发明人

上一篇：一种锅炉烟气处理装置及其监测方法与流程
上一篇：二维通孔柱结构及其制造方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。