基于深度强化学习的热电联产系统经济调度方法与流程

文档序号:20705931发布日期:2020-05-12 16:26阅读:186来源:国知局
基于深度强化学习的热电联产系统经济调度方法与流程

技术领域:

本发明属于能源系统优化控制技术领域,具体设计到基于dppo深度强化学习算法的热电联产系统经济调度方法。



背景技术:

当今社会发展与能源消耗之间的矛盾日益明显,英国石油公司2018年发布的世界能源统计年鉴显示,世界煤炭探明储量大约只能维持134年的人类生产活动,而石油和天然气仅能维持53年左右,因而要实现极具挑战性的环保目标,并为当代和后代人类提供经济的、可持续的能源供给,急需创新变革当下的能源使用方式。在此背景下,综合能源系统(integratedenergysystem,ies)的概念应运而生,其实质是将各种能源(如电、气、热、氢等)相互整合,充分发挥它们之间的协同和互补作用,以此提高整体能源利用效率,促进可再生能源消纳,并降低能源消耗、成本和排放量。事实证明,ies是一种有效的能源解决方案,在构建安全、高效、清洁、灵活的未来能源系统方面潜力巨大。

作为综合能源系统的一种典型形式,热电系统通过耦合设备(如热电联产机组、电锅炉和电热泵)在电、热两个子系统之间建立广泛的联系。与传统的分立供应能源系统相比,热电联产系统可以充分利用发电过程中产生的余热来满足部分民用或工业供热负荷,从而提高整体能源利用效率。此外,供热系统的热惯性可以显著增加系统消纳可再生能源和运行优化的灵活性,并通过减弱可再生能源的波动性来增强电力系统的稳定性。所以,电热型综合能源系统由于其多方面的优势越来越受到国内外广泛的研究关注。

与单一供电系统的运行优化不同,由于设备耦合存在,以及多种设备、多种负荷的接入,热电联产系统需要面对更加复杂多变的运行环境,为系统的智能优化调度带来了巨大挑战。为了提供一种能够应对多运行场景的控制策略,提升经济调度的智能性,本发明选择了基于深度强化学习算法的优化策略,以其强大的数据存储效率学习记忆不同运行情况,从而训练生成能够应对多种运行场景的智能代理。



技术实现要素:

本发明的目的是针对上述存在的问题提供一种基于深度强化学习的热电联产系统经济调度方法,能够达到与传统优化方法相同的经济性表现,同时训练完成的智能代理可以重复利用,应对多种运行状态,大大提升了使用的便捷性。同时对比其他强化学习策略,改进的dppo算法(即分布式近端策略优化算法)有更好的收敛性能。

本发明的上述目的可通过以下技术方案来实现:

一种基于深度强化学习的热电联产系统经济调度方法,该方法包括如下步骤:

s1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;

s2,改进深度强化学习中的dppo算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。

作为本发明的一种改进,步骤s1中所述的马尔科夫链模型的构成因素包括环境和动作,针对热电联产系统运行环境智能代理会产生一动作环境会依据该动作指示运行,并反馈奖励r,因此,所述热电联产系统用一个六元组定义:其中p:是从某一状态转移到另一状态的矩阵,ρ0:是初始状态的概率分布,γ∈(0,1)是探索因数,参数间的具体关系用如下公式描述:

式中:i是指示函数,在一个训练回合内,如果功率不匹配小于限额ε,那么i=1,否则的话i=0;c=[pgt,qgt,qgb,qtst,pgrid,pwind]是设备运行状态参数,pgt,qgt,qgb,qtst,pgrid,pwind依次是燃气轮机的电出力,燃气轮机的热出力,燃气锅炉的热出力,储热罐的充热/放热的值,与电网的交互电量,风机发电电量;d=[(pl-ps),(ql-qs),pl,ql)]是功率不匹配值,pl为电负荷需求值,ps为电负荷供应值,ql为热负荷需求之,qs为热负荷供应值;x=[tsti,rtp]为两随机环境变量,tsti为第i时刻的储热罐的初始状态,rtp为分时电价;表示动作值,δpgt,δpgb,δqtst,δpgrid分别表示采取动作时燃气轮机出力,燃气锅炉出力,储热罐充热/放热和与电网交易量的变化值。

作为本发明的一种改进,步骤s1中所述对优化方法中的目标函数部分进行严格的转化,并给出了证明,具体方法是:假设π为智能代理生成的某一随机策略,π={a0,a1,…an},表示一个训练回合内从第0步到最后一步的动作的集合,如下为马尔科夫链问题的标准定义:

aπ(s,a)=rπ(s,a)-vπ(s)

上式中:st,at分别指的是第t时刻的状态和动作,下标t表示训练回合内的时刻值,rπ(st,at)指一个训练回合内的从第t时刻开始,采取策略轨迹π的情况下的累积奖励函数,r(st,at)指第t时刻在st状态,采取动作at的时候,环境反馈的奖励,积分函数下标t表示从第t时刻开始,上标表示在t+l时刻结束,符号表示在采取从策略轨迹π中采样的动作,并沿着此策略轨迹一直行动,vπ(st)是值函数,表示对在st状态下可能的累积奖励的估计,r(st)表示在状态st下对环境给出奖励的估计值,aπ(s,a)是差函数,表示实际奖励与估计奖励之间的差,用以评价当前动作的好坏程度,假设采取另一策略轨迹则新策略轨迹的累积奖励值可以在原策略轨迹π的累积奖励值的基础上表示为:

式中η(π)表示在采取策略轨迹π的情况下,智能体在一个训练回合内得到的累积奖励值,所以新策略轨迹的累积奖励值可以用原策略轨迹π的奖励加上累积的差函数的值表示;进而,只要保证即可保证每次更新后的策略比原策略好,最终收敛至最优解,根据差函数的定义aπ(s,a)=rπ(s,a)-vπ(s),最终收敛时的策略轨迹对应的累积奖励函数值最大,没法找到比该策略轨迹累积奖励值更大的策略,所以此时的策略轨迹即为最优解,根据上述说明,优化的目标函数可以转换为最大化回合内累积奖励值,即具体的奖励值的设定如下:

d=(ps-pl,qs-ql)

cgas和cgrid分别为燃气成本和电网交易费用,即利润,其中ρgas和ρgrid分别表示燃气和与电网交易的单位价格,η为能量转换效率,上标td表示时间段td内,下标gt和gb分别表示燃气轮机和燃气锅炉;d表示功率不匹配值,最终奖励由三部分构成:1)燃气和与电网交易成本,通过最大化累积奖励值可以鼓励智能代理学习如何最小化运营成本;2)功率不匹配值,通过最大化累积奖励可以鼓励智能代理学习如何最小化供需不平衡;3)stst表示储热罐的最终状态,为理想储热罐储热量,在正常运营情况下,在一段时间内运营商希望保证储热罐的最终储热变化不大,以供下一阶段使用,最小化该值可以保证储热罐可以最终稳定在理想状态附近。

作为本发明的一种改进,步骤s1中对优化方法中的约束目标部分进行严格的转化,并给出了证明,具体方法如下:

1)供需平衡约束:电热的供应值应该匹配需求值:

pgt+pwind+pgrid=pl,

qgt+qgb+qtst=ql,

qgt=αpgt,

式中:α为燃气轮机的电热转化效率,根据马尔科夫链模型中的奖励函数,将优化目标转化为最大化累积奖励,将供需平衡约束作为奖励函数中的一项,以保证最终产生的控制策略可以达到供需平衡的要求;

2)设备运行约束

式中上标min和max分别表示运行的最小值和最大值,表示设备应该运行在最大最小值范围内,根据马尔科夫链模型中的状态转移概率,如果当前动作会使状态转移至超出运行限制的状态,那么这个概率就为0,即不可能转移到超出运行限制的状态;

3)储能设备约束

s.t.

式中q表示储热罐储热值,上标tst表示储热罐,下标t表示时刻,下标min和max分别表示储热的最大值和最小值;分别表示储热罐的充热效率和放热效率,下标char表示充热,dis表示放热,上标min和max分别表示充热/放热效率的最大值和最小值,根据马尔科夫链模型中的动作的定义,充热/放热效率限制转化为针对储热罐的动作值的大小,动作的范围会在充热/放热效率的范围内;储热量的限制转化为状态转移概率;

作为本发明的一种改进,步骤s2进一步包括:

s21,在回合开始之前,根据运行真实数据的可行域,在可行域内随机生成热电联产系统的运行情况。包括:热负荷、电负荷、风力发电量、储热罐初始值、能源价格。构建智能代理内部存储学习经验的神经网络,称为动作网络,动作网络用来产生控制策略。

s22,在每个训练回合内,设置300步步长,即要求智能代理在300步内完成控制目标。智能代理会在300步内不断与环境交互,并获得相应的奖励值,并存储供训练使用。

s23,依据对优化目标函数的转化,只要保证选择的动作可以使回合内的累积奖励值最大,即就可以保证最终得到策略的最优性,设θ为动作网络的参数向量,根据一回合内得到的数据,计算出300步内的累积奖励函数值,沿着累积奖励函数的梯度方向:更新神经网络参数θ,使得下一回合得到的累积差函数值大于0,但是直接更新参数可能导致更新幅度过大,进而引发收敛困难的问题,所以将裁减技术应用于动作网络参数更新,下式为策略更新比:

上式中:πθ(at|st)表示在动作网络参数θ的情况下产生的策略轨迹,(at|st)表示在状态st下选择动作at;

zt(θ)∈(1-∈,1+∈)

上式中∈为裁减系数,上式表明每次动作网络的参数更新被限制在一定范围内,以达到更好的收敛性能。

作为本发明的一种改进,步骤s2中所述的回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互的过程中使用分布式的采集架构,即设置多个智能代理同时在相同的环境内探索,这样每个智能代理可以采集到不同的数据,最后统一更新。

有益效果:

本方法能够达到与传统优化方法相同的经济性表现,同时训练完成的智能代理可以重复利用,应对多种运行状态,大大提升了使用的便捷性。同时对比其他强化学习策略,改进的dppo算法有更好的收敛性能。

附图说明:

图1是本发明法法的步骤流程图;

图2是示例热电联产系统示意图;

图3是本发明应用结果示意图1;

图4是本发明应用结果示意图2。

具体实施方式:

下面结合附图和具体实施例对本发明作进一步的详细说明。

针对图2所示的热电联产系统,传统优化方法将其表述为由优化目标和约束条件构成的非线性方程组。本发明利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明,包括以下步骤:

s1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;

s2,改进深度强化学习中的dppo算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。

首先针对图2所示的热电联产系统建立基于马尔科夫链的运行模型。步骤s1中所述的马尔科夫链模型的构成因素包括环境和动作,针对热电联产系统运行环境智能代理会产生一动作环境会依据该动作指示运行,并反馈奖励r,因此,所述热电联产系统用一个六元组定义:其中p:是从某一状态转移到另一状态的矩阵,ρ0:是初始状态的概率分布,γ∈(0,1)是探索因数,参数间的具体关系用如下公式描述:

式中:i是指示函数,在一个训练回合内,如果功率不匹配小于限额ε,那么i=1,否则的话i=0;c=[pgt,qgt,qgb,qtst,pgrid,pwind]是设备运行状态参数,pgt,qgt,qgb,qtst,pgrid,pwind依次是燃气轮机的电出力,燃气轮机的热出力,燃气锅炉的热出力,储热罐的充热/放热的值,与电网的交互电量,风机发电电量;d=[(pl-ps),(ql-qs),pl,ql)]是功率不匹配值,pl为电负荷需求值,ps为电负荷供应值,ql为热负荷需求之,qs为热负荷供应值;x=[tsti,rtp]为两随机环境变量,tsti为第i时刻的储热罐的初始状态,rtp为分时电价;表示动作值,δpgt,δpgb,δqtst,δpgrid分别表示采取动作时燃气轮机出力,燃气锅炉出力,储热罐充热/放热和与电网交易量的变化值。

接着对优化方法中的目标函数部分进行严格的转化,并给出了证明,具体方法是:假设π为智能代理生成的某一随机策略,π={a0,a1,…an},表示一个训练回合内从第0步到最后一步的动作的集合,如下为马尔科夫链问题的标准定义:

aπ(s,a)=rπ(s,a)-vπ(s)

上式中:st,at分别指的是第t时刻的状态和动作,下标t表示训练回合内的时刻值,rπ(st,at)指一个训练回合内的从第t时刻开始,采取策略轨迹π的情况下的累积奖励函数,r(st,at)指第t时刻在st状态,采取动作at的时候,环境反馈的奖励,积分函数下标t表示从第t时刻开始,上标表示在t+l时刻结束,符号表示在采取从策略轨迹π中采样的动作,并沿着此策略轨迹一直行动,vπ(st)是值函数,表示对在st状态下可能的累积奖励的估计,r(st)表示在状态st下对环境给出奖励的估计值,aπ(s,a)是差函数,表示实际奖励与估计奖励之间的差,用以评价当前动作的好坏程度,假设采取另一策略轨迹则新策略轨迹的累积奖励值可以在原策略轨迹π的累积奖励值的基础上表示为:

式中η(π)表示在采取策略轨迹π的情况下,智能体在一个训练回合内得到的累积奖励值,所以新策略轨迹的累积奖励值可以用原策略轨迹π的奖励加上累积的差函数的值表示;进而,只要保证即可保证每次更新后的策略比原策略好,最终收敛至最优解,根据差函数的定义aπ(s,a)=rπ(s,a)-vπ(s),最终收敛时的策略轨迹对应的累积奖励函数值最大,没法找到比该策略轨迹累积奖励值更大的策略,所以此时的策略轨迹即为最优解,根据上述说明,优化的目标函数可以转换为最大化回合内累积奖励值,即具体的奖励值的设定如下:

d=(ps-pl,qs-ql)

cgas和cgrid分别为燃气成本和电网交易费用,即利润,其中ρgas和ρgrid分别表示燃气和与电网交易的单位价格,η为能量转换效率,上标td表示时间段td内,下标gt和gb分别表示燃气轮机和燃气锅炉;d表示功率不匹配值,最终奖励由三部分构成:1)燃气和与电网交易成本,通过最大化累积奖励值可以鼓励智能代理学习如何最小化运营成本;2)功率不匹配值,通过最大化累积奖励可以鼓励智能代理学习如何最小化供需不平衡;3)stst表示储热罐的最终状态,为理想储热罐储热量,在正常运营情况下,在一段时间内运营商希望保证储热罐的最终储热变化不大,以供下一阶段使用,最小化该值可以保证储热罐可以最终稳定在理想状态附近。

接着对优化方法中的约束目标部分进行严格的转化,并给出了证明,具体方法如下:

1)供需平衡约束:电热的供应值应该匹配需求值:

pgt+pwind+pgrid=pl,

qgt+qgb+qtst=ql,

qgt=αpgt,

式中:α为燃气轮机的电热转化效率,根据马尔科夫链模型中的奖励函数,将优化目标转化为最大化累积奖励,将供需平衡约束作为奖励函数中的一项,以保证最终产生的控制策略可以达到供需平衡的要求;

2)设备运行约束

式中上标min和max分别表示运行的最小值和最大值,表示设备应该运行在最大最小值范围内,根据马尔科夫链模型中的状态转移概率,如果当前动作会使状态转移至超出运行限制的状态,那么这个概率就为0,即不可能转移到超出运行限制的状态;

3)储能设备约束

s.t.

式中q表示储热罐储热值,上标tst表示储热罐,下标t表示时刻,下标min和max分别表示储热的最大值和最小值;分别表示储热罐的充热效率和放热效率,下标char表示充热,dis表示放热,上标min和max分别表示充热/放热效率的最大值和最小值,根据马尔科夫链模型中的动作的定义,充热/放热效率限制转化为针对储热罐的动作值的大小,动作的范围会在充热/放热效率的范围内;储热量的限制转化为状态转移概率;

最后基于dppo强化学习算法对智能代理进行训练,具体包括:

s21,在回合开始之前,根据运行真实数据的可行域,在可行域内随机生成热电联产系统的运行情况。包括:热负荷、电负荷、风力发电量、储热罐初始值、能源价格。构建智能代理内部存储学习经验的神经网络,称为动作网络,动作网络用来产生控制策略。

s22,在每个训练回合内,设置300步步长,即要求智能代理在300步内完成控制目标。智能代理会在300步内不断与环境交互,并获得相应的奖励值,并存储供训练使用。

s23,依据对优化目标函数的转化,只要保证选择的动作可以使回合内的累积奖励值最大,即就可以保证最终得到策略的最优性,设θ为动作网络的参数向量,根据一回合内得到的数据,计算出300步内的累积奖励函数值,沿着累积奖励函数的梯度方向:更新神经网络参数θ,使得下一回合得到的累积差函数值大于0,但是直接更新参数可能导致更新幅度过大,进而引发收敛困难的问题,所以将裁减技术应用于动作网络参数更新,下式为策略更新比:

上式中:πθ(at|st)表示在动作网络参数θ的情况下产生的策略轨迹,(at|st)表示在状态st下选择动作at;

zt(θ)∈(1-∈,1+∈)

上式中∈为裁减系数,上式表明每次动作网络的参数更新被限制在一定范围内,以达到更好的收敛性能。

同时,为了提升数据采集的效率和全面性,本发明使用了分布式的采集架构。即设置多个智能代理同时在相同的环境内探索,这样每个智能代理可以采集到不同的数据,最后统一更新。

不断重复上述训练回合,直至累积奖励值稳定,此时将训练完成的智能代理网络参数值保存,当需要使用时直接调用即可。针对不同的运行场景,将真实运行场景数据输入智能代理,即可生成最优控制策略。

图3表明了当输入某一时刻的热负荷为9000kw,电负荷为6000kw,风力发电量为700kw,实时电价为0.627$/kwh的情况下,热电联产系统内部设备运行参数变化。图中图例gt指的是燃气锅炉的运行状态,gb指的是燃气轮机的运行状态,tst指的是储热罐的运行状态,grid指的是与电网交易的电量。此刻电负荷比较全天平均水平较低,而热负荷水平较高,能源价格较低,所以燃气锅炉承担热负荷较多,燃气轮机出力较少,储热罐在能源价格较低时充热以保证利润最大,多余的电能卖出给电网。根据图3的结果,本发明得到的结果符合实际需求。

图4表明了在日前经济调度的情况下,输入全天24个不同时段运行场景下,智能代理产生的控制策略。图4(a)表示热负荷与供热之间的关系,图4(b)表示电负荷和供电之间的关系,图中图例tst指的是储热罐的充热/放热量,gt指的是燃气轮机输出热量/电量,grid指的是与电网交易的电量,gb指的是燃气锅炉输出的热量。图中带点的虚线指的是实际负荷需求,实线指的是能量供给值。由图4可以看出供热与实际负荷有些许差距,但是在实际运行中,供热量与热负荷需求并非完全匹配,因此该控制策略可以满足热负荷的需求。电负荷与供电量几乎完全拟合,说明供电满足负荷需求。同时我们也采用了传统优化方法求解该情况下的控制策略,得到全天的运行成本为16924.029$,采用本发明得到的控制策略,得到全天的运行成本为16874.28$。说明本发明的方法可以得到与传统优化方法相同的经济性能。

本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1