技术领域:
本发明属于能源系统优化控制技术领域,具体设计到基于dppo深度强化学习算法的热电联产系统经济调度方法。
背景技术:
:
当今社会发展与能源消耗之间的矛盾日益明显,英国石油公司2018年发布的世界能源统计年鉴显示,世界煤炭探明储量大约只能维持134年的人类生产活动,而石油和天然气仅能维持53年左右,因而要实现极具挑战性的环保目标,并为当代和后代人类提供经济的、可持续的能源供给,急需创新变革当下的能源使用方式。在此背景下,综合能源系统(integratedenergysystem,ies)的概念应运而生,其实质是将各种能源(如电、气、热、氢等)相互整合,充分发挥它们之间的协同和互补作用,以此提高整体能源利用效率,促进可再生能源消纳,并降低能源消耗、成本和排放量。事实证明,ies是一种有效的能源解决方案,在构建安全、高效、清洁、灵活的未来能源系统方面潜力巨大。
作为综合能源系统的一种典型形式,热电系统通过耦合设备(如热电联产机组、电锅炉和电热泵)在电、热两个子系统之间建立广泛的联系。与传统的分立供应能源系统相比,热电联产系统可以充分利用发电过程中产生的余热来满足部分民用或工业供热负荷,从而提高整体能源利用效率。此外,供热系统的热惯性可以显著增加系统消纳可再生能源和运行优化的灵活性,并通过减弱可再生能源的波动性来增强电力系统的稳定性。所以,电热型综合能源系统由于其多方面的优势越来越受到国内外广泛的研究关注。
与单一供电系统的运行优化不同,由于设备耦合存在,以及多种设备、多种负荷的接入,热电联产系统需要面对更加复杂多变的运行环境,为系统的智能优化调度带来了巨大挑战。为了提供一种能够应对多运行场景的控制策略,提升经济调度的智能性,本发明选择了基于深度强化学习算法的优化策略,以其强大的数据存储效率学习记忆不同运行情况,从而训练生成能够应对多种运行场景的智能代理。
技术实现要素:
:
本发明的目的是针对上述存在的问题提供一种基于深度强化学习的热电联产系统经济调度方法,能够达到与传统优化方法相同的经济性表现,同时训练完成的智能代理可以重复利用,应对多种运行状态,大大提升了使用的便捷性。同时对比其他强化学习策略,改进的dppo算法(即分布式近端策略优化算法)有更好的收敛性能。
本发明的上述目的可通过以下技术方案来实现:
一种基于深度强化学习的热电联产系统经济调度方法,该方法包括如下步骤:
s1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;
s2,改进深度强化学习中的dppo算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。
作为本发明的一种改进,步骤s1中所述的马尔科夫链模型的构成因素包括环境和动作,针对热电联产系统运行环境
式中:i是指示函数,在一个训练回合内,如果功率不匹配小于限额ε,那么i=1,否则的话i=0;c=[pgt,qgt,qgb,qtst,pgrid,pwind]是设备运行状态参数,pgt,qgt,qgb,qtst,pgrid,pwind依次是燃气轮机的电出力,燃气轮机的热出力,燃气锅炉的热出力,储热罐的充热/放热的值,与电网的交互电量,风机发电电量;d=[(pl-ps),(ql-qs),pl,ql)]是功率不匹配值,pl为电负荷需求值,ps为电负荷供应值,ql为热负荷需求之,qs为热负荷供应值;x=[tsti,rtp]为两随机环境变量,tsti为第i时刻的储热罐的初始状态,rtp为分时电价;
作为本发明的一种改进,步骤s1中所述对优化方法中的目标函数部分进行严格的转化,并给出了证明,具体方法是:假设π为智能代理生成的某一随机策略,π={a0,a1,…an},表示一个训练回合内从第0步到最后一步的动作的集合,如下为马尔科夫链问题的标准定义:
aπ(s,a)=rπ(s,a)-vπ(s)
上式中:st,at分别指的是第t时刻的状态和动作,下标t表示训练回合内的时刻值,rπ(st,at)指一个训练回合内的从第t时刻开始,采取策略轨迹π的情况下的累积奖励函数,r(st,at)指第t时刻在st状态,采取动作at的时候,环境反馈的奖励,积分函数下标t表示从第t时刻开始,上标表示在t+l时刻结束,
式中η(π)表示在采取策略轨迹π的情况下,智能体在一个训练回合内得到的累积奖励值,所以新策略轨迹
d=(ps-pl,qs-ql)
cgas和cgrid分别为燃气成本和电网交易费用,即利润,其中ρgas和ρgrid分别表示燃气和与电网交易的单位价格,η为能量转换效率,上标td表示时间段td内,下标gt和gb分别表示燃气轮机和燃气锅炉;d表示功率不匹配值,最终奖励由三部分构成:1)燃气和与电网交易成本,通过最大化累积奖励值可以鼓励智能代理学习如何最小化运营成本;2)功率不匹配值,通过最大化累积奖励可以鼓励智能代理学习如何最小化供需不平衡;3)stst表示储热罐的最终状态,
作为本发明的一种改进,步骤s1中对优化方法中的约束目标部分进行严格的转化,并给出了证明,具体方法如下:
1)供需平衡约束:电热的供应值应该匹配需求值:
pgt+pwind+pgrid=pl,
qgt+qgb+qtst=ql,
qgt=αpgt,
式中:α为燃气轮机的电热转化效率,根据马尔科夫链模型中的奖励函数,将优化目标转化为最大化累积奖励,将供需平衡约束作为奖励函数中的一项,以保证最终产生的控制策略可以达到供需平衡的要求;
2)设备运行约束
式中上标min和max分别表示运行的最小值和最大值,表示设备应该运行在最大最小值范围内,根据马尔科夫链模型中的状态转移概率,如果当前动作会使状态转移至超出运行限制的状态,那么这个概率就为0,即不可能转移到超出运行限制的状态;
3)储能设备约束
s.t.
式中q表示储热罐储热值,上标tst表示储热罐,下标t表示时刻,下标min和max分别表示储热的最大值和最小值;
作为本发明的一种改进,步骤s2进一步包括:
s21,在回合开始之前,根据运行真实数据的可行域,在可行域内随机生成热电联产系统的运行情况。包括:热负荷、电负荷、风力发电量、储热罐初始值、能源价格。构建智能代理内部存储学习经验的神经网络,称为动作网络,动作网络用来产生控制策略。
s22,在每个训练回合内,设置300步步长,即要求智能代理在300步内完成控制目标。智能代理会在300步内不断与环境交互,并获得相应的奖励值,并存储供训练使用。
s23,依据对优化目标函数的转化,只要保证选择的动作可以使回合内的累积奖励值最大,即
上式中:πθ(at|st)表示在动作网络参数θ的情况下产生的策略轨迹,(at|st)表示在状态st下选择动作at;
zt(θ)∈(1-∈,1+∈)
上式中∈为裁减系数,上式表明每次动作网络的参数更新被限制在一定范围内,以达到更好的收敛性能。
作为本发明的一种改进,步骤s2中所述的回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互的过程中使用分布式的采集架构,即设置多个智能代理同时在相同的环境内探索,这样每个智能代理可以采集到不同的数据,最后统一更新。
有益效果:
本方法能够达到与传统优化方法相同的经济性表现,同时训练完成的智能代理可以重复利用,应对多种运行状态,大大提升了使用的便捷性。同时对比其他强化学习策略,改进的dppo算法有更好的收敛性能。
附图说明:
图1是本发明法法的步骤流程图;
图2是示例热电联产系统示意图;
图3是本发明应用结果示意图1;
图4是本发明应用结果示意图2。
具体实施方式:
下面结合附图和具体实施例对本发明作进一步的详细说明。
针对图2所示的热电联产系统,传统优化方法将其表述为由优化目标和约束条件构成的非线性方程组。本发明利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明,包括以下步骤:
s1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;
s2,改进深度强化学习中的dppo算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。
首先针对图2所示的热电联产系统建立基于马尔科夫链的运行模型。步骤s1中所述的马尔科夫链模型的构成因素包括环境和动作,针对热电联产系统运行环境
式中:i是指示函数,在一个训练回合内,如果功率不匹配小于限额ε,那么i=1,否则的话i=0;c=[pgt,qgt,qgb,qtst,pgrid,pwind]是设备运行状态参数,pgt,qgt,qgb,qtst,pgrid,pwind依次是燃气轮机的电出力,燃气轮机的热出力,燃气锅炉的热出力,储热罐的充热/放热的值,与电网的交互电量,风机发电电量;d=[(pl-ps),(ql-qs),pl,ql)]是功率不匹配值,pl为电负荷需求值,ps为电负荷供应值,ql为热负荷需求之,qs为热负荷供应值;x=[tsti,rtp]为两随机环境变量,tsti为第i时刻的储热罐的初始状态,rtp为分时电价;
接着对优化方法中的目标函数部分进行严格的转化,并给出了证明,具体方法是:假设π为智能代理生成的某一随机策略,π={a0,a1,…an},表示一个训练回合内从第0步到最后一步的动作的集合,如下为马尔科夫链问题的标准定义:
aπ(s,a)=rπ(s,a)-vπ(s)
上式中:st,at分别指的是第t时刻的状态和动作,下标t表示训练回合内的时刻值,rπ(st,at)指一个训练回合内的从第t时刻开始,采取策略轨迹π的情况下的累积奖励函数,r(st,at)指第t时刻在st状态,采取动作at的时候,环境反馈的奖励,积分函数下标t表示从第t时刻开始,上标表示在t+l时刻结束,
式中η(π)表示在采取策略轨迹π的情况下,智能体在一个训练回合内得到的累积奖励值,所以新策略轨迹
d=(ps-pl,qs-ql)
cgas和cgrid分别为燃气成本和电网交易费用,即利润,其中ρgas和ρgrid分别表示燃气和与电网交易的单位价格,η为能量转换效率,上标td表示时间段td内,下标gt和gb分别表示燃气轮机和燃气锅炉;d表示功率不匹配值,最终奖励由三部分构成:1)燃气和与电网交易成本,通过最大化累积奖励值可以鼓励智能代理学习如何最小化运营成本;2)功率不匹配值,通过最大化累积奖励可以鼓励智能代理学习如何最小化供需不平衡;3)stst表示储热罐的最终状态,
接着对优化方法中的约束目标部分进行严格的转化,并给出了证明,具体方法如下:
1)供需平衡约束:电热的供应值应该匹配需求值:
pgt+pwind+pgrid=pl,
qgt+qgb+qtst=ql,
qgt=αpgt,
式中:α为燃气轮机的电热转化效率,根据马尔科夫链模型中的奖励函数,将优化目标转化为最大化累积奖励,将供需平衡约束作为奖励函数中的一项,以保证最终产生的控制策略可以达到供需平衡的要求;
2)设备运行约束
式中上标min和max分别表示运行的最小值和最大值,表示设备应该运行在最大最小值范围内,根据马尔科夫链模型中的状态转移概率,如果当前动作会使状态转移至超出运行限制的状态,那么这个概率就为0,即不可能转移到超出运行限制的状态;
3)储能设备约束
s.t.
式中q表示储热罐储热值,上标tst表示储热罐,下标t表示时刻,下标min和max分别表示储热的最大值和最小值;
最后基于dppo强化学习算法对智能代理进行训练,具体包括:
s21,在回合开始之前,根据运行真实数据的可行域,在可行域内随机生成热电联产系统的运行情况。包括:热负荷、电负荷、风力发电量、储热罐初始值、能源价格。构建智能代理内部存储学习经验的神经网络,称为动作网络,动作网络用来产生控制策略。
s22,在每个训练回合内,设置300步步长,即要求智能代理在300步内完成控制目标。智能代理会在300步内不断与环境交互,并获得相应的奖励值,并存储供训练使用。
s23,依据对优化目标函数的转化,只要保证选择的动作可以使回合内的累积奖励值最大,即
上式中:πθ(at|st)表示在动作网络参数θ的情况下产生的策略轨迹,(at|st)表示在状态st下选择动作at;
zt(θ)∈(1-∈,1+∈)
上式中∈为裁减系数,上式表明每次动作网络的参数更新被限制在一定范围内,以达到更好的收敛性能。
同时,为了提升数据采集的效率和全面性,本发明使用了分布式的采集架构。即设置多个智能代理同时在相同的环境内探索,这样每个智能代理可以采集到不同的数据,最后统一更新。
不断重复上述训练回合,直至累积奖励值稳定,此时将训练完成的智能代理网络参数值保存,当需要使用时直接调用即可。针对不同的运行场景,将真实运行场景数据输入智能代理,即可生成最优控制策略。
图3表明了当输入某一时刻的热负荷为9000kw,电负荷为6000kw,风力发电量为700kw,实时电价为0.627$/kwh的情况下,热电联产系统内部设备运行参数变化。图中图例gt指的是燃气锅炉的运行状态,gb指的是燃气轮机的运行状态,tst指的是储热罐的运行状态,grid指的是与电网交易的电量。此刻电负荷比较全天平均水平较低,而热负荷水平较高,能源价格较低,所以燃气锅炉承担热负荷较多,燃气轮机出力较少,储热罐在能源价格较低时充热以保证利润最大,多余的电能卖出给电网。根据图3的结果,本发明得到的结果符合实际需求。
图4表明了在日前经济调度的情况下,输入全天24个不同时段运行场景下,智能代理产生的控制策略。图4(a)表示热负荷与供热之间的关系,图4(b)表示电负荷和供电之间的关系,图中图例tst指的是储热罐的充热/放热量,gt指的是燃气轮机输出热量/电量,grid指的是与电网交易的电量,gb指的是燃气锅炉输出的热量。图中带点的虚线指的是实际负荷需求,实线指的是能量供给值。由图4可以看出供热与实际负荷有些许差距,但是在实际运行中,供热量与热负荷需求并非完全匹配,因此该控制策略可以满足热负荷的需求。电负荷与供电量几乎完全拟合,说明供电满足负荷需求。同时我们也采用了传统优化方法求解该情况下的控制策略,得到全天的运行成本为16924.029$,采用本发明得到的控制策略,得到全天的运行成本为16874.28$。说明本发明的方法可以得到与传统优化方法相同的经济性能。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。