城轨交通地面超级电容储能系统分布式协调控制优化方法与流程

文档序号:17495551发布日期:2019-04-23 21:17阅读:282来源:国知局
城轨交通地面超级电容储能系统分布式协调控制优化方法与流程

本发明涉及城市轨道交通超级电容储能系统控制技术领域,具体涉及一种基于动态合作博弈的城轨交通地面超级电容储能系统分布式协调优化控制方法。



背景技术:

在城轨交通牵引供电系统中,牵引变电所通常采用二十四脉波二极管整流,将10kv/35kvac交流电转换成750v/1500v直流电,给线路列车提供牵引能量。由于二极管整流具有单向性,当列车制动,制动能量传递到牵引网,若附近没有牵引列车吸收,将使牵引网电压迅速抬升,引起制动电阻的启动和再生失效的发生。为了充分回收列车再生能量、减少再生失效和牵引网电压波动,在各个牵引变电所安装超级电容储能系统,超级电容通过双向dc/dc连接到牵引网,与整流机组相并联。

城轨交通超级电容储能系统通常采用基于牵引网电压的控制策略,包括工作模式选择和电压电流双闭环控制两部分,为了保证储能系统稳定、正常地工作,分别在工作模式选择和电压电流双闭环控制中设置超级电容soc和电流限幅,使其维持在允许范围之内。

如图1所示,为现有技术中基于soc的多储能系统动态阈值控制策略,首先设置储能系统的充电阈值uch和放电阈值uds,当列车牵引,储能系统所在变电所网压低于放电阈值,超级电容放电,通过电压电流双闭环控制将牵引网电压稳定在放电阈值;当列车制动,牵引网电压高于充电阈值,超级电容进入充电模式,回收列车的再生制动能量,并维持网压的稳定。其中充电阈值和放电阈值随储能装置的soc变化,以实现不同变电所储能系统之间的均流。

上述基于soc的多储能系统动态阈值控制策略,虽然考虑了本套装置的soc来调整充放电阈值,但是没有考虑列车运行工况和其他变电所储能装置的soc,无法实现多个储能系统整体节能效果的最优。

如图2所示,为现有技术中采用多储能系统集中控制的方案,通过中心控制器获取不同变电所、线路的各列车信息,对获取的列车信息进行统一的处理得到控制指令,并将控制指令发给各个变电所的储能系统,调整控制超级电容储能系统的工作运行模式。

上述采用多储能系统集中控制的方案,在集中控制框架下,中心控制器获取大量的信息,其信息计算复杂度较高,并且控制的有效实施受到通信可靠性的影响较大,因此该技术的高效性和可靠性有待提升。

cn107895960a公开了一种基于强化学习的城轨交通地面式超级电容储能系统能量管理方法。该方法包括策略网络初始化和在线学习两部分;策略网络初始化部分利用城轨交通中已知的线路、车辆信息、事先编制的列车运行图,以及实际采集的历史车辆数据,建立多车运行场景模型;将多车运行场景模型、空载电压预测模型、直流供电潮流计算算法和近似动态规划算法结合,得到策略网络,作为在线学习模块的初值;在线学习模块采用无模型强化学习算法,通过超级电容智能代理试错的方法进行充放电阈值在线调整。

上述基于强化学习的超级电容储能系统能量管理方法,虽然能够实现单套储能系统的节能效果和稳压效果的优化,但当全线安装多个储能装置时,不同储能系统共同学习将导致系统环境具有非平稳性,不能保证多个储能系统整体的节能效果得到改进与优化。



技术实现要素:

本发明的目的在于提供一种能够有效协调管理并改善安装于不同牵引变电站的多套超级电容储能系统的能量流动,并提高所有超级电容储能系统整体的节能效果的城轨交通地面超级电容储能系统分布式协调优化控制方法,以解决上述背景技术中存在的技术问题。

为了实现上述目的,本发明采取了如下技术方案:

提供一种城轨交通地面超级电容储能系统分布式协调控制优化方法,该方法包括如下流程步骤:

步骤s110:获取某时刻下超级电容的soc状态、变电所状态及列车运行状态,构建状态集合;

步骤s120:将每个变电所的超级电容作为一个储能代理,根据牵引供电系统能量流动理论解析和多目标协调优化函数确定每个储能代理的收益函数;

步骤s130:根据所述状态集合和所述收益函数,构建多代理动态博弈模型;

步骤s140:基于所述多代理动态合作博弈模型,结合分布式q学习算法求解和优化地面超级电容储能系统分布式协调控制。

进一步的,所述步骤s110具体包括:

所述列车运行状态straink包括各个列车的位移dk、功率pk,其中k表示第k辆列车,k∈[1,2,...n],n表示列车的数量,

straink=[dk,pk],

状态集合s为各个列车状态straink、各个超级电容soc状态的直积,

s=strain1×strain2×…strainn×ssoc1×…ssocm;

m表示超级电容的数量。

进一步的,所述步骤s120具体包括:

所述收益函数为:

其中,iss,j和uss,j分别表示第j个变电所的整流机组的电流和电压,ibr,k和ut,k分别表示第k辆列车的制动电阻电流和受电弓电压,c为常数,dτ表示时间微分。

进一步的,所述步骤s130具体包括:

所述多代理动态博弈模型为:

(m,s,a1,…am,t,r1,…rm),

其中,m表示储能代理的数量,ai表示储能代理i的动作集合,t表示状态转移函数s×a×s→[0,1]。

进一步的,所述步骤s140具体包括:

首先初始化系统状态和各个储能代理动作-值函数q(i)(s,a)、策略π(i);储能代理根据策略π(i)采取各自的动作ai,输入到城轨牵引供电仿真平台,该平台由直流供电潮流计算、多列车运行牵引计算和储能系统等效模型组成,可在多车运行工况下对供电系统各部分电压、电流,以及储能系统状态进行求解,由此得到储能代理的奖励函数以及系统下一状态;若下一状态非终止状态,各个储能代理更新其动作-值函数q(i)(s,a)和策略π(i),根据新的π(i)采取相应动作,多次迭代直至s为终止状态,则重新初始化状态s;至算法满足终止条件时训练结束。

本发明有益效果:对各个储能系统进行分布式独立控制,相比于集中控制有效减少计算复杂度,提高控制策略的可靠性;将动态合作博弈理论和强化学习理论相结合,相比于非合作博弈模型,博弈均衡点效率得到有效提高,因此,可实现全线储能系统整体节能效果的在线优化。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为现有技术中基于soc的多储能系统动态阈值控制策略原理示意图。

图2为现有技术中采用多储能系统集中控制的方案原理示意图。

图3为本发明实施例所述的城轨交通地面超级电容储能系统分布式协调控制优化方法流程图。

图4为本发明实施例所述的分布式超级电容储能系统多代理模型示意图。

图5为本发明实施例所述的分布式q学习算法伪码示意图。

图6为本发明实施例所述的分布式储能系统协调控制策略训练流程图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的模块。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且实施例并不构成对本发明实施例的限定。

本领域普通技术人员应当理解的是,附图只是一个实施例的示意图,附图中的部件或装置并不一定是实施本发明所必须的。

实施例一

如图3所示,本发明实施例一提供了一种城轨交通地面超级电容储能系统分布式协调控制优化方法,包括如下流程步骤:

步骤s110:获取某时刻下超级电容的soc状态、变电所状态及列车运行状态,构建状态集合;

步骤s120:将每个变电所的超级电容作为一个储能代理,根据牵引供电系统能量流动理论解析和多目标协调优化函数确定每个储能代理的收益函数;

步骤s130:根据所述状态集合和所述收益函数,构建多代理动态博弈模型;

步骤s140:基于所述多代理动态合作博弈模型,结合分布式q学习算法求解和优化地面超级电容储能系统分布式协调控制。

在本发明的具体实施例一中,所述步骤s110具体包括:

所述列车运行状态straink包括各个列车的位移dk、功率pk,其中k表示第k辆列车,k∈[1,2,...n],n表示列车的数量,

straink=[dk,pk],

状态集合s为各个列车状态straink、各个超级电容soc状态的直积,

s=strain1×strain2×…strainn×ssoc1×…ssocm;

m表示超级电容的数量。

在本发明的具体实施例一中,所述步骤s120具体包括:

所述收益函数为:

其中,iss,j和uss,j分别表示第j个变电所的整流机组的电流和电压,ibr,k和ut,k分别表示第k辆列车的制动电阻电流和受电弓电压,c为常数,dτ表示时间微分。

在本发明的具体实施例一中,所述步骤s130具体包括:

所述多代理动态博弈模型为:

(m,s,a1,…am,t,r1,…rm),

其中,m表示储能代理的数量,ai表示储能代理i的动作集合,t表示状态转移函数s×a×s→[0,1]。

在本发明的具体实施例一中,所述步骤s140具体包括:

如图6所示,首先初始化系统状态和各个储能代理动作-值函数q(i)(s,a)、策略π(i);储能代理根据策略π(i)采取各自的动作ai,输入到城轨牵引供电仿真平台,该平台由直流供电潮流计算、多列车运行牵引计算和储能系统等效模型组成,可在多车运行工况下对供电系统各部分电压、电流,以及储能系统状态进行求解,由此得到储能代理的奖励函数以及系统下一状态;若下一状态非终止状态,各个储能代理更新其动作-值函数q(i)(s,a)和策略π(i),根据新的π(i)采取相应动作,多次迭代直至s为终止状态,则重新初始化状态s;至算法满足终止条件时训练结束。

实施例二

如图4所示,本发明实施例二提供的一种城轨交通地面式储能系统多代理模型,对该多代理模型进行超级电容储能系统分布式优化控制。

基于分布式控制构架,各个储能系统进行独立决策,使自身收益最大化。为实现对不同变电所内储能装置的协调控制,提高供电系统整体效率,本策略建立多储能系统动态博弈模型,如式(1)所示。其中各储能系统为博弈参与者;在城市轨道交通中车-车、车-地通信可实现的假设下定义供电系统状态,包括列车、变电所以及其他储能系统的运行状态;根据牵引供电系统能量流动的理论解析和协调优化目标函数设计各个博弈参与者的收益函数,如式(2)所示。

<m,s,a1,…am,t,r1,…rm>(1)

其中:

m:代理数量;

s:状态集合;

ai:代理i的动作集合;

t:s×a×s→[0,1]状态转移函数;

ri:s×a→r代理i的收益函数。

其中:

iss,j和uss,j分别为第j个变电所的整流机组电流和电压;

ibr,k和ut,k分别为第k辆列车的制动电阻电流和受电弓电压;

c为常数。

基于以上动态合作博弈模型,本专利使用分布式q学习算法求解和在线优化多储能系统的协调控制策略。分布式q学习算法是一种适用于动态完全合作博弈的多代理强化学习算法,与单储能系统的强化学习算法相比,该算法结合了动态博弈理论与强化学习理论,各个代理进行策略更新的过程中融入对博弈模型的纳什均衡点求解和选择。分布式q学习算法的伪码如图4所示。

为了训练优化多储能系统协调控制策略,将分布式q学习算法与城轨牵引供电仿真算法结合,实现流程如图6所示。首先初始化系统状态和各个储能代理动作-值函数q(i)(s,a)、策略π(i);储能代理根据策略π(i)采取各自的动作ai,输入到城轨牵引供电仿真平台,该平台由直流供电潮流计算、多列车运行牵引计算和储能系统等效模型组成,可在多车运行工况下对供电系统各部分电压、电流,以及储能系统状态进行求解,由此得到储能代理的奖励函数以及系统下一状态;若下一状态非终止状态,各个储能代理更新其动作-值函数q(i)(s,a)和策略π(i),根据新的π(i)采取相应动作,多次迭代直至s为终止状态,则重新初始化状态s;至算法满足终止条件时训练结束。

综上所述,本发明实施例所述的方法将全线多储能系统视为多代理系统,对各个储能系统分布式独立控制,减少计算复杂度和单点故障影响;将多储能系统协调控制优化问题建模成动态合作博弈问题,用多代理强化学习算法进行求解,储能代理通过独立学习进行自身策略的改进;奖励函数的设计考虑变电所输出能耗和车载制动电阻能耗;在协调控制策略训练中将多代理强化学习算法与城轨交通牵引供电仿真平台联调;其中通过多代理强化学习算法对各个储能代理的策略进行在线改进,牵引供电仿真平台模拟代理所处环境的动力学模型,求出下一时刻系统状态和储能代理的奖励信号。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1