一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法与流程

文档序号：16626618发布日期：2019-01-16 06:09阅读：313来源：国知局

本发明涉及一种电力系统智能发电控制技术，特别涉及一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法。

背景技术：

随着全球能源互联网的推行，未来将出现跨国跨洲级别的超大型互联电网，其电能协调管理的重要性突显而出。互联电网自动发电控制(automaticgenerationcontrol，agc)是电网能量管理系统中最基本的功能之一，是保证电力系统有功功率平衡和频率稳定的基本手段，其控制效果直接影响着电网品质。在互联电力系统中，其联络线功率偏差与频率变化是随着用户侧负荷的变化而变化的。通过控制发电机的有功出力来跟踪负荷的随机变化并提高电网频率质量，是当今控制研究领域的一项热点问题。自动发电控制是建立在利用调度监控计算机、通道、远方终端、执行(分配)装置、发电机组自动化装置等组成的闭环控制系统。它是电力系统调度自动化的主要内容之一。

目前，在智能电网大力发展的大背景下，开发具有自主学习能力和厂网协调能力的智能发电控制(smartgenerationcontrol，sgc)，已经逐步成为一种大趋势。agc转变为sgc须在控制策略、控制目标、控制适应性和鲁棒性三个核心技术上实现重大突破。在控制策略方面，sgc应从传统agc线性控制策略转变为具有自学习和自寻优能力的多智能体协调控制策略，在控制目标方面，sgc应从当前agc仅追求cps指标单目标优化转变为包括考虑实时减排在内的“多目标”优化，在控制适应性和鲁棒性方面，sgc应从当前agc适应电网弱不确定性转变为适应“强随机性”环境。然而，核心问题是采用什么方法对所提的sgc策略进行求解。

近年来，强化学习算法由于决策能力强、环境适应度高，被较多学者用于agc领域。如采用q学习算法，有效地实现了agc控制策略的在线学习和动态优化决策。如采用具有多步回溯资格迹的q(λ)算法，有效解决了agc火电机组大时滞环节带来的延时回报问题。然而上述方法均为单智能体强化学习方法，在分布式sgc系统中，各区域的智能体仅独立学习，无法实现各区域的信息共享、交互协作，控制效果较差。而多智能体强化学习的智能体可追踪其它智能体的决策，以协调自身行为，可有效提高分布式sgc系统的智能性。故笔者曾采用了一种基于相关均衡的多智能体强化学习-dceq(λ)算法，以解决互联电网sgc的协调控制问题，取得了较为满意的控制效果。然而当多智能体个数增加时，dceq(λ)在搜索多智能体均衡解时间呈几何数增加，限制了该方法在更大规模系统里的广泛应用，因此，笔者提出了具有变学习率的dwolf-phc(λ)算法，以平均混合策略取代了均衡，有效地解决了多智能体的异步决策问题，同时解决了智能体个数增加所带来的多解问题。但dwolf-phc(λ)在2*2博弈中，智能体无法精确计算其赢输标准，收敛至纳什均衡速度慢。为此笔者开发了具有时间隧道思想的pdwolf-phc(λ)算法，以解决传统方法收敛速度慢的问题，同时解决传统集中式agc无法解决的新能源接入所带来的强扰动问题。然而pdwolf-phc(λ)的各智能体间交互协调性差，同时由于采样复杂性以及探索空间广度问题，pdwolf-phc(λ)的动作集通常人为约束成固定集合，限制了算法的决策能力。故需要探索一种具有强交互协调能力的多智能体控制方法，以实现分布式sgc系统的最优协调控制。

技术实现要素：

本发明的目的在于克服现有技术的缺点与不足，提供一种基于具有动作自寻优能力的深度强化学习的智能控制方法。可有效获取电网最优协调控制，可从自动发电控制角度，解决大规模新能源以及分布式能源接入，为互联电网所带来的强随机扰动问题，与已有智能算法相比，具有更强的学习能力及鲁棒性，可减少碳排放，提高新能源利用率。

本发明采取的技术方案为：

一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法，包括以下步骤：

步骤1、确定状态集s；

步骤2、确定动作集ak；

步骤3、在每个控制周期开始时，采集各个区域电网的实时运行数据：频率偏差δf和功率偏差δp，计算各个区域控制误差acei(k)的瞬时值与控制性能标cpsi(k)的瞬时值；

步骤4、确定当前状态s与当前内部状态h，再根据当前状态s、内部状态h以及奖励函数，获取某区域电网i的一个短期奖励函数信号ri(k)；

步骤5、通过计算获取目标q值函数yk与损失函数lk；

步骤6、通过计算更新权值θk和

步骤7、搜索并评估新动作，更新动作集ak+1；

步骤8、对所有区域电网，基于当前状态s下的目标q值函数，选取并执行动作；

步骤9、返回步骤3。

所述步骤1的状态集s，通过控制性能标准cps1/cps2的值的划分来确定。

所述步骤2中，根据动作探索策略，确定初始动作集合。

所述步骤3的实时运行数据利用计算机和监控系统来采集。

所述步骤3中，所述区域i的区域控制误差acei(k)的瞬时值计算方法如下：

ace＝ta-ts-10b(fa-fs)，

其中，ta为联络线实际潮流值、ts为联络线期望潮流值，b为频率偏差系数，fa为系统实际频率值，fs为系统期望频率值；

所述区域i的控制性能标准1的cpsi(k)的瞬时值计算方法如下：

cps1＝(2-cf1)×100％,

其中，bi为控制区域i的频率偏差系数；ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n为该考核时段的分钟数；aceave-1min为区域控制误差ace在1分钟内的平均值；△fave为频率偏差△f在1分钟内的平均值；

所述区域i的控制性能标准2的cpsi(k)的瞬时值计算方法如下：

cps2＝(1-r)×100％,

其中，

ε10为互联电网对全年10分钟频率平均偏差均方根的控制目标值；bnet为整个互联电网的频率偏差系数；aceave-10min为区域控制误差ace在10分钟内的平均值。

所述步骤4的短期奖励函数信号ri(k)由下式所得到，式子如下：

其中，ri(k)为奖励函数；ace(k)代表ace的瞬时值；δpt(k)为第t机组的实际输出功率；η和1-η分别表示ace以及碳排放的权值，各个区域的η值相同，此处设η值等于0.5；m为区域机组总数；bt是第t机组的碳排放强度系数，单位为kg/kwh；和分别为第t机组容量的上下限；考虑火电发电机组效率，当第t机组可调容量大于600mw时，bt＝0.87，当第t机组额定容量小于等于600mw大于300mw时，取bt＝0.89，当第t机组容量小于等于300mw时，bt＝0.99，其余燃油机组、燃气机组和水电机组的bt分别设置为0.7、0.5、0。

所述步骤5的目标q值函数yk与损失函数lk由式子：

和lk＝[(yk-q(ok,hk-1,m,ak-1,ak；θk))²]

所获得，其中，yk为第k时刻的目标q值函数，sk为第k时刻的状态，γ为折扣因子，rk为第k时刻的奖励函数，ok为第k时刻的状态观测值，hk为第k时刻的内部状态，ak为第k时刻的探索动作，m为智能体个数，θk为第k时刻的权值，为第k时刻的目标权值，c(ok,ok+1)为第k时刻至第k+1时刻的成本函数值，lk为第k时刻的损失函数。

所述步骤6中的权值θk和根据式子

更新，式中，为梯度值，α为学习率，α^-为目标学习率。

所述步骤7中，通过式：

搜索并评估新动作，更新动作集ak+1，其中，ax为进行评估的新动作，c(ok-2,ok)为为第k-2时刻至第k时刻的成本函数值，δ为松弛变量，为第k时刻的潜在函数，ak为第k时刻的动作集，γ为折扣因子。

所述步骤8中，对所有区域电网，基于当前状态s下的目标q值函数，得出当前动作概率，从动作集中选取相应动作，并执行该动作。

本发明一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法，相对现有技术具有如下的优点及效果：

1.本发明控制方法的设计中，其智能体可在线更新动作集合，使动作集达到最优化，从而提高决策质量以及降低探索难度，使方法具有更高的鲁棒性和动态学习能力。

2.本发明控制方法具有较强的智能体交互协调能力，实现多智能体的通信一致，从而实现多区域电网的自适应协调控制。

3.本发明控制方法在不同运行工况下，均可满足系统控制性能要求，并且可减少碳排放、提高新能源利用率。

附图说明

图1为本发明agc多智能体控制框架。

图2为广东电网负荷频率控制模型图。

具体实施方式

一种基于具有动作自寻优能力的深度强化学习的智能发电控制方法，该智能发电控制方法的框架由测量智能体、集中控制智能体和分散控制智能体三类智能体所组成，该控制框架采用ddrqn-ad算法，分别实现agc的集中控制和分散控制。ddrqn-ad是一种具有动作自寻优能力的多智能体新算法，是针对解决互联复杂电力系统环境下自动发电协调控制问题而提出的。该算法在ddrqn的基础上，融合了动作探索策略，能有效获取互联电网的最优协调控制。ddrqn-ad相比于q学习、q(λ)、dceq(λ)、dwolf-phc(λ)和pdwolf-phc(λ)等多智能体学习算法，其拥有更强的鲁棒性及学习效率，可减少碳排放，提高新能源利用率。

测试智能体的数据输入为该区域的联络线功率偏差与频率偏差，输出为此区域的控制误差值和滚动cps值。之后，各区域的ace和cps值传输到集中agc控制器。如果各个区域的数据齐全且集中agc控制器正常工作，则输出为各个区域的动作值,采用方法为ddrqn-ad；否则，集中控制器传输所有已采集数据至各个区域的分散agc控制器。如果数据齐全，各分散agc控制器分配各自计算的动作并互不影响；如果数据不全，各分散控制器调入数据不齐全区域的上一次正常数据再行计算动作值并分配动作，采用方法为ddrqn-ad。整个互联电网有且仅有一个集中agc控制器，而测量智能体和分散agc控制器在每个区域电网都有一个。

控制框架所发明的方法ddrqn-ad，其控制决策过程分为三个阶段：

1)对所有智能体，利用ddrqn-ad更新其目标q值；

2)得出最优动作策略；

3)执行最优动作策略，并观察系统响应，返回奖励值与当前状态。

本发明的工作原理：

本发明是基于具有动作自寻优能力的深度强化学习的智能发电控制方法，本发明的主要工作过程如下：在一个控制周期开始时采集待控制的区域电网的实时运行数据；基于奖励函数的设定以及当前状态，获取奖励函数信号；通过函数求取最优目标q值函数及动作概率；更新所有控制区域电网的目标q值，获取最新动作。本发明可有效获取电网最优协调控制，可从自动发电控制角度，解决大规模新能源以及分布式能源接入，为互联电网所带来的强随机扰动问题，与已有智能算法相比，具有更强的学习能力及鲁棒性，可减少碳排放，提高新能源利用率。整个控制方法不需要外部环境的数学模型，可以把系统控制性能指标转化为一种评价指标，当系统性能满足要求时，得到奖励；否则，受到惩罚。控制器通过自身的学习，得到最优的控制动作，非常适合用于多区域强随机的互联电网智能发电系统。本发明所采用的相关原理包括：

1.动作探索策略

对于强化学习，由于采样复杂性以及探索空间广度，动作集通常人为约束成固定集合。若智能体在探索中，能够打破动作集的约束，发现并执行可适用的新动作，将在一定程度上提高学习决策的质量。而动作探索策略的提出，可在线探索新动作，寻求最优动作集合。

由于动作可被假定为状态转移的载体，则设定动作at表示状态st到状态st+1的转移。动作探索策略的关键在于两点：其一为引入成本函数c，以c(st,st+1)表示智能体执行动作at从状态st到状态st+1的转移成本，即引入成本作为衡量新动作的指标。若c(st,st+1)<∞，即说明存在动作at可实现状态st到状态st+1的直接转移；若c(st,st+1)＝∞，则at不存在；其二为采用潜在函数由于潜在函数值拥有精确探索目标、塑造奖励值以及降低强化学习采样复杂性的优点，因此引入潜在函数评估新动作。

对于一个已知智能体，通过执行动作at、at+1，实现连续状态st、st+1、st+2的转移。在状态st+2，智能体将确定是否存在一个动作at～t+2，可直接从状态st转移至状态st+2，且不属于目前动作集，满足c(st,st+2)<∞，若存在，则智能体成功发现新动作at～t+2，同时，动作探索策略采用了潜在函数评估新动作可适用性，评估公式入下：

2.ddrqn

ddrqn融合了深度学习与强化学习，是一种基于值函数迭代的在线学习和动态最优技术。强化学习以试错机制与环境进行交互，通过最大化累积奖励值获取最优策略，具有强决策能力。深度学习可直接从原始数据中提取高水平特征，ddrqn既具备了强决策能力，同时具备了复杂环境下的数据特征提取能力，非常适用于解决复杂系统的在线协调控制问题。

ddrqn使用带有参数θ的q函数以逼近值函数。迭代次数为i时，损失函数为

其中，目标q值函数为

式中：γ为折扣因子；θi为第i步迭代时网络权值；为第i步迭代时目标网络权值；st为t时刻的状态值；rt为t时刻的奖励函数；为智能体m在状态st下的状态观测值；为t时刻智能体m的内部状态；为t时刻智能体m的探索动作。

θi以及的更新率为

式中为梯度值，α为学习率，α^-为目标学习率。

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例是以广东电网为研究对象，仿真模型为广东省电力调度中心实际工程项目搭建的详细全过程动态仿真模型，详细模型参数与仿真设计原则请参阅席磊，陈建峰等发表的《基于具有动作自寻优能力的深度强化学习的智能发电控制》(中国科学：信息科学)。该仿真模型中广东电网分为粤东、粤西、粤北和珠三角四个区域电网，并在夏季和冬季两个负荷高峰期，加入随机白噪声扰动，使用simulink进行建模仿真研究，对模型性能进行评估。

基于具有动作自寻优能力的深度强化学习的智能发电控制方法设计如下：

1)分析系统特性以确定状态集s；此实例根据广东电网调度中心cps指标划分标准，将cps1/cps2值划分为6个状态(-∞，0)，[0,100％)，[100％，150％)，[150％，180％)，[180％，200％)，[200％，+∞)，再将ace分成正负2个状态，由此每个智能体可以确定有12个状态。ace的状态主要是为了区分引起cps指标波动的原因；

2)确定初始动作集a0。

3)在每个控制周期开始时，采集各个区域电网的实时运行数据：△f、△p，其中△f表示系统频率偏差，△p表示联络线功率偏差；根据国际通用考核办法，ace＝ta-ts-10b(fa-fs)，ta为联络线实际潮流值、ts为联络线期望潮流值，b为频率偏差系数，fa为系统实际频率值，fs为系统期望频率值、cps1＝(2-cf1)×100％、bi为控制区域i的频率偏差系数；ε1为互联电网对全年1分钟频率平均偏差均方根的控制目标值；n为该考核时段的分钟数；aceave-1min为区域控制误差ace在1分钟内的平均值；△fave为频率偏差△f在1分钟内的平均值；

cps2＝(1-r)×100％、ε10为互联电网对全年10分钟频率平均偏差均方根的控制目标值；bnet为整个互联电网的频率偏差系数；aceave-10min为区域控制误差ace在10分钟内的平均值、计算acei(k)、cpsi(k)的瞬时值。

4)根据各个区域的acei(k)、cpsi(k)的瞬时值确定当前状态s，再由状态s和奖励函数获取区域电网的一个短期的奖励函数信号ri(k)，奖励函数设计如下：

5)对所有区域电网，计算目标q值函数yk与损失函数lk

和lk＝[(yk-q(ok,hk-1,m,ak-1,ak；θk))²]，

6)对所有区域电网，计算权值θk和

和

式中，为梯度值，α为学习率，α^-为目标学习率。

7)对所有区域电网，通过式：

8)对所有区域电网，基于当前状态s下的目标q值函数，得出当前动作概率，从动作集中选取相应动作，并执行该动作。

9)在下一次控制周期到来时，返回步骤3。

本专利的核心是奖励函数的选择和动作集合的实时更新。其中在ddrqn的基础上，融合了动作探索策略是本专利的关键创新点，这一方法或相关方法的实施，有效地解决了传统强化学习算法动作集合受到人为约束的应用问题，使之获得了更高的鲁棒性及学习效率，并且在多区域强随机互联复杂电网环境下，能满足多区域电网间协调最优发电控制的需要，可减少碳排放，提高新能源利用率。

本发明控制方法可完整描述如下：

1)通过控制性能标准cps1/cps2的值的划分来确定状态集s；

2)确定动作集ak；

3)在每个控制周期开始时，采集各个区域电网的实时运行数据：频率偏差δf和功率偏差δp，计算各个区域控制误差acei(k)的瞬时值与控制性能标cpsi(k)的瞬时值；

4)确定当前状态s与当前内部状态h，再根据当前状态s、内部状态h以及奖励函数，获取某区域电网i的一个短期奖励函数信号ri(k)；

5)通过计算获取目标q值函数yk与损失函数lk；

6)通过计算更新权值θk和

7)搜索并评估新动作，更新动作集ak+1；

8)对所有区域电网，基于当前状态s下的目标q值函数，选取并执行动作；

8)返回步骤3

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含于本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：席磊;陈建峰;李玉丹;柳浪;余璐;张乐;武俊男
技术所有人：三峡大学
我是此专利的发明人

上一篇：一种含锰铬碳钢表面氧化处理方法与流程
上一篇：自动化无刀旋转式水果采摘机及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、朱老师：1.聚合物绝缘材料老化 2.电力系统可靠性分析
2、赵老师：1.智能控制理论及应用 2.机器人控制技术 3.新能源控制技术与应用
3、杨老师：工程电磁场与磁技术，无线电能传输技术
4、李老师：新型电力电子技术在微网中的应用
5、王老师：薄膜光电子材料与器件、太阳能电池、光伏能源器件及材料测试
如您是高校老师，可以点此联系我们加入专家库。