轨道交通储能系统的控制方法、模型、设备和存储介质

文档序号:33392348发布日期:2023-03-08 11:35阅读:38来源:国知局
轨道交通储能系统的控制方法、模型、设备和存储介质

1.本发明涉及储能系统控制技术领域,尤其涉及轨道交通储能系统的控制方法、模型、设备和存储介质。


背景技术:

2.轨道交通是交通系统的重要组成部分,城轨交通是轨道交通的一种,随着城轨交通的快速发展,其耗电量大幅增加,因此降低城轨交通牵引能耗对全社会节能减排具有重要意义。提高城轨牵引供电系统对再生能量的接收能力,充分利用列车再生制动能量是降低城轨交通系统能耗的关键。然而,目前城轨供电系统再生能量吸收负荷十分有限:大部分牵引变电所采用二极管单向整流方式,再生制动能量无法反馈到交流电网;制动列车附近若没有牵引列车进行再生能量吸收,则制动能量被浪费在制动电阻上,通过储能系统进行列车再生能量的利用对城轨行业的可持续发展具有重要意义。
3.考虑到城轨列车制动频繁、制动功率大的特点,超级电容储能元件以其功率密度大的优势,在轨道交通领域得到了广泛的研究和应用。但一方面,由于城轨列车的功率和位置实时发生变化,牵引供电系统的参数和拓扑具有非线性和时变特性,使得整个优化模型变得十分复杂;另一方面,城轨供电系统的电压等级较低,各种系统运行参数的变化都会对能量的传输产生巨大的影响,从而影响储能系统的节能率。若不综合考虑列车、线路以及变电站的特性,实时调整储能系统的充放电动作,储能系统的节能率会随着外部条件呈现出较大的波动,在发车间隔较大时甚至会加剧能量的浪费,这也是限制储能系统在城轨交通大规模应用的瓶颈。因此,充分考虑列车、储能装置、线路和变电所的特性,优化城轨供电系统的能量流动,提升储能系统的节能率显得十分重要。
4.现有的储能装置能量管理策略多为固定阈值策略,如图1所示。通过离线优化算法设定好固定的充电阈值uchar和固定的放电阈值udis,当牵引网电压大于充电阈值,则储能装置充电,当牵引网电压低于放电阈值,则储能装置放电。此方式未能充分考虑列车、储能装置、线路和变电所的特性,其充放电效率较低,再生失效率较高。为了提升储能系统的充电效率,有学者提出了动态电压跟随的充电阈值动态调整策略,如图2所示。其基于列车的位置和功率,动态保持列车的端电压为制动电阻启动电压的临界值,从而最大化列车间的能量交互,从而提升储能系统的节能效率。
5.上述算法均无法实现全局最优的控制的问题,有学者考虑到储能装置最优控制策略的求解是一个序贯决策优化问题,如图3所示,引入强化学习算法,在线调整储能装置控制参数以适应供电系统工况的变化,使储能系统发挥良好的节能稳压作用,但其算法的鲁棒性较差。


技术实现要素:

6.有鉴于此,本发明实施例提供了一种轨道交通储能系统的控制方法、模型、设备和存储介质,以解决现有的储能控制方法的鲁棒性较差的技术问题。
7.本发明提出的技术方案如下:
8.本发明实施例第一方面提供一种轨道交通储能系统的控制方法,包括:基于离线算法根据储能系统的状态确定离线充放电动作;基于深度强化学习算法根据储能系统的状态确定在线充放电动作;根据通信延时数量和延时程度获取所述离线充放电动作和所述在线充放电动作的融合比例;根据所述融合比例将所述离线充放电动作和在线充放电动作进行融合并输出至储能系统。
9.可选地,所述基于深度强化学习算法根据储能系统的状态确定在线充放电动作,包括:接收储能系统的状态和所述离线充放电动作;将所述离线充放电动作作为所述神经网络的初始值并使用训练数据训练所述神经网络,所述神经网络根据储能系统的状态输出动作-值函数;基于动作-值函数和贪心策略获取在线充放电动作。
10.可选地,所述基于深度强化学习算法根据储能系统的状态确定在线充放电动作,还包括:存储已使用过的训练数据,并从已使用过的训练数据中随机抽取训练数据再次训练所述神经网络。
11.可选地,在基于离线算法根据储能系统的状态确定离线充放电动作之前,还包括:获取储能系统的作用区间,所述储能系统的状态包括所述作用区间内的变电站状态、列车状态和储能装置状态。
12.可选地,所述获取储能系统的作用区间包括:选择中心变电所;判断列车在不同位置对中心变电所的端电压的影响是否大于阈值电压;若大于阈值电压,则判定作用区间包括中心变电所和列车位置所在的变电所处。
13.可选地,所述根据通信延时数量和延时程度获取所述离线充放电动作和所述在线充放电动作的融合比例,包括:通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系;基于所述对应关系,根据通信延时数量和延时程度获取所述离线充放电动作和所述在线充放电动作的融合比例。
14.可选地,所述通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系,包括:初始化融合比例;在任意通信延时数量和延时程度下,根据储能系统的状态获取所述在线充放电动作;根据储能系统的状态获取所述离线充放电动作;基于所述在线充放电动作、所述离线充放电动作和融合比例计算融合充放电动作;分别执行所述离线充放电动作和所述融合充放电动作,获得基于所述融合充放电动作的第一奖励信号和基于所述离线充放电动作的第二奖励信号;基于所述第一奖励信号和所述第二奖励信号更新融合比例,其中,若第一奖励信号大于第二奖励信号则增大融合比例,若第一奖励信号小于第二奖励信号则减小融合比例;重复更新融合比例的步骤直至融合比例的变化率达到终止值。
15.本发明实施例第二方面提出一种轨道交通储能系统的控制模型,包括:离线泛化模块,用于基于离线算法根据储能系统的状态确定离线充放电动作;深度强化学习模块,用于基于深度强化学习算法根据储能系统的状态确定在线充放电动作;鲁棒性增强模块,用于根据通信延时数量和延时程度获取所述离线充放电动作和所述在线充放电动作的融合比例,根据所述融合比例将所述离线充放电动作和在线充放电动作进行融合并输出至储能系统。
16.本发明实施例第三方面提出一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述
计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的轨道交通储能系统的控制方法。
17.本发明实施例第四方面提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的轨道交通储能系统的控制方法。
18.从以上技术方案可以看出,本发明实施例具有以下优点:
19.本发明实施例提供的一种轨道交通储能系统的控制方法、模型、设备和存储介质,通过基于离线算法根据储能系统的状态确定离线充放电动作,基于深度强化学习算法根据储能系统的状态确定在线充放电动作,根据通信延时数量和延时程度获取所述离线充放电动作和所述在线充放电动作的融合比例,根据所述融合比例将所述离线充放电动作和在线充放电动作进行融合并输出至储能系统,本发明实施例根据通信延时数量和延时程度获取融合比例,根据所述融合比例将所述离线充放电动作和在线充放电动作进行融合并输出至储能系统,在不同的通信环境下也能够正常运行,提升系统的鲁棒性。
附图说明
20.为了更清楚地表达说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明实施例中固定阈值策略的框架示意图;
22.图2为本发明实施例中动态电压跟随的充电阈值动态调整策略的框架示意图;
23.图3为本发明实施例中全局最优的控制策略的框架示意图;
24.图4为本发明实施例中轨道交通储能系统的拓扑结构图;
25.图5为本发明实施例中轨道交通储能系统的控制方法的流程图;
26.图6为本发明实施例中离线泛化模块的训练流程图;
27.图7为本发明实施例中离线仿真模型的框架示意图;
28.图8为本发明实施例中充放电阈值曲线离线优化的框架示意图;
29.图9为本发明实施例中离线规律表的示意图;
30.图10为本发明实施例中规律挖掘与策略制定的框架示意图;
31.图11为本发明实施例中深度强化学习算法的网络训练框架图;
32.图12为本发明实施例中获取作用区间的流程图;
33.图13为本发明实施例中鲁棒性增强模型的训练流程图;
34.图14为本发明实施例中轨道交通储能系统的控制模型的模块框图;
35.图15为本发明实施例中另一轨道交通储能系统的控制模型的模块框图;
36.图16为本发明实施例中轨道交通储能系统的控制模型的工作流程图;
37.图17为本发明实施例中电子设备的结构示意图;
38.图18为本发明实施例中存储介质的结构示意图。
具体实施方式
39.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.本发明实施例的一种轨道交通储能系统的控制方法的应用场景为基于信息交互的地面式储能装置,包含地面式储能装置的列车供电系统的系统拓扑图如图4所示,储能系统包括管理系统和地面储能,储能系统安装在变电所内,并通过双向buck/boost拓扑并联在直流母线上,列车状态、变电所状态和sc状态通过通信传输至储能系统。
41.本发明实施例提供的一种轨道交通储能系统的控制方法,如图5所示,包括:
42.步骤s100、基于离线算法根据储能系统的状态确定离线充放电动作。具体地,基于离线算法构建离线泛化模块,离线泛化模块是以状态为输入,决策为输出的一个解析方式。示例性地,基于离线训练和规律挖掘,得到初始离线泛化模块,离线泛化模块训练过程如图6至图10所示,包括离线仿真模型、充放电阈值曲线离线优化、专家系统与优化结果分析和规律挖掘与策略制定四个部分,基于列车供电系统的离线仿真模型的典型工况对初始离线泛化模块进行训练,得到离线的优化充放电阈值曲线,随后通过专家系统得到离线规律表,最后对规律进行挖掘和提取,然后实行策略制定,可以得到最终的离线泛化模型。离线泛化模型的输入为相邻列车的功率、位置、以及储能系统的soc,输出为当前储能装置的离线充放电动作,也即充放电阈值。具体地,基于离线仿真模型和离线的优化算法,例如遗传算法、动态规划等,在多种工况下,优化出最优的充放电阈值曲线,得到大量的以相邻列车的功率、位置、以及储能系统的soc为输入,以最优充放电阈值为输出的数据。专家系统是以现有的经验和知识为基础规则的计算机判断系统,代替人类的决策,专家系统自动提取数据中有规律的数据段,并自动描述该规律与输入之间的关系,并对规律进行整合。然后对规律以是否线性进行分类,对其中的非线性规律进行进一步挖掘,即以解析解求解的方式,建立输入和输出间的解析解形式,规律整合的过程,已把全局优化问题拆解成局部优化问题,可求得解析解。
43.步骤s200、基于深度强化学习算法根据储能系统的状态确定在线充放电动作。具体地,深度强化学习算法采用dqn(deep q-learning)算法,使用神经网络来近似动作值函数。深度强化学习算法的动作的选择策略,就是ε-贪心策略,即以一定的概率ε选择动作-值函数最大的动作,以1-ε的概率随机选择其他策略。网络中的参数,则采用梯度下降法来更新,通过不断循环,可以使得最终的最大的动作-值函数对应的动作,为最优的动作。在线充放电动作为采用深度强化学习算法运算输出的值,在获取储能系统的状态后,根据深度强化学习算法分析得到在线充放电动作,即基于在线学习的充放电阈值。
44.步骤s300、根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例。在城轨交通应用场景中,延时一般为发送的程序处理延时+传输延时+接收的程序处理延时,其中,程序处理延时相对固定,但传输延时并不固定。丢包主要出现在电磁波传输过程中,可能受到其他强电磁场的干扰,可能会产生信号的丢失。通过训练,使通信延时数量越多,延时程度越大时,融合比例的值越小。
45.步骤s400、根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至
储能系统。具体地,根据融合比例确定离线充放电动作和在线充放电动作的输出占比,融合比例的值越小,离线充放电动作的占比越大,在线充放电动作的占比越小,融合比例的值越大,离线充放电动作的占比越小,在线充放电动作的占比越大。若通信丢失较多,即强化学习状态不完整,深度强化学习算法输出的在线充放电动作结果会较差,由此,能够在通信状态较差时,增加离线充放电动作的占比,输出保持稳定,增强系统的鲁棒性。
46.本发明实施例提供的一种轨道交通储能系统的控制方法,通过基于离线算法根据储能系统的状态确定离线充放电动作,基于深度强化学习算法根据储能系统的状态确定在线充放电动作,根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例,根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至储能系统,本发明实施例根据通信延时数量和延时程度获取融合比例,根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至储能系统,在不同的通信环境下也能够正常运行,提升系统的鲁棒性。
47.在一实施例中,基于深度强化学习算法根据储能系统的状态确定在线充放电动作,包括:接收储能系统的状态和离线充放电动作;将离线充放电动作作为神经网络的初始值并使用训练数据训练神经网络,神经网络根据储能系统的状态输出动作-值函数;基于动作-值函数和贪心策略获取在线充放电动作。具体地,神经网络为q网络,q网络通过梯度下降算法进行训练,算法通过最小化目标网络和q网络的均方根误差实现网络参数θ的更新。动作-值函数用于表示当前状态下,采取的动作和所产生的收益之间的关系,本实施例中使用神经网络模拟动作-值函数,就是说输入当前的状态s,可以输出得到当前的q(s,a),a表示对应的动作,也就是得到当前状态下,任意动作的动作-值函数。具体地,动作-值函数的动作就是充放电阈值,在接收离线充放电动作后,将离线充放电动作对应的动作-值函数的值,赋值为最大的值,即将离线充放电动作作为神经网络的初始值,此时,深度强化学习算法输出大概率会选择这个动作,可以减少深度强化学习算法的试错过程,引入行为克隆的思路,提升算法的泛化能力。接收储能系统的状态后,q网络基于储能系统的状态输出动作-值函数,然后采用贪心策略获取在线充放电动作,贪心策略指以一定的概率选择当前状态下动作-值函数最大的动作,否则选择一个随机动作。神经网络的初始值也可以为离线训练得到一组初始值,但是那样的初始值和模型有关,换一个模型就得重新训练,但离线算法是直接得到的输入和输出的解析形式的关系,和模型无关,用他的输出作为初始值,不用每次都离线先训练一次。
48.在一实施例中,基于深度强化学习算法根据储能系统的状态确定在线充放电动作,还包括:存储已使用过的训练数据,并从已使用过的训练数据中随机抽取训练数据再次训练神经网络。具体地,神经网络具体为q网络,q网络通过梯度下降算法进行训练,梯度下降算法通过最小化目标网络和q网络的均方根误差实现网络参数θ的更新,目标网络和q网络相同,通过复制q网络得到,梯度下降算法的运算如下式所示:
[0049][0050]
n为执行梯度下降算法所用的小批量数据规模,θ-为目标网络的权重,θ为q网络的权重,sk、ak为当前状态和当前动作,sk′
、ak′
为下一时刻状态和动作,rk为当前奖励信号,γ为算法参数。为了打破训练数据之间的关联性,提高算法稳定性,将已使用过的训练数据即
经验数据元组存储在经验回放池中,在训练时对经验回放池数据进行随机采样。
[0051]
参见图11,本发明实施例将已使用过的训练数据存储在经验回放池中,经验回放模块就是储存多个经验数据元组的数据库,一个经验数据元组就是一个完整的训练数据(sk,ak,rk,s
k+1
),分别是当前状态,当前状态下的最优动作,当前状态的奖赏,下一个状态。配合经验回放池进行训练的算法如下:
[0052]
初始化经验回放池,基于随机权重θ初始化q网络;
[0053]
基于零权重θ-初始化目标网络q


[0054]
重复:
[0055]
初始基于离线仿真模型的运行状态s;
[0056]
重复:
[0057]
在状态s下,根据ε-贪心策略选择动作a;
[0058]
在离线仿真模型中执行动作a;
[0059]
根据离线仿真模型电路方程求解,得到下一时刻系统状态s

和奖励信号r;
[0060]
将状态转移元组《,a,r,s

》存储在经验回放池中;
[0061]
从经验回放池中采样小批量状态转移数组;
[0062]
通过对式(1)执行梯度下降算法,更新q网络的参数θ;
[0063]
每隔n步执行θ
‑←
θ;
[0064]
直到s为终止状态,例如梯度下降法的梯度趋近于0或者迭代到了上限时终止;
[0065]
直到满足算法终止条件,即每一步均满足终止状态。
[0066]
本发明实施例存储已使用过的训练数据,并从已使用过的训练数据中随机抽取训练数据再次训练神经网络,即将经验数据元组存储在经验回放池中,在训练时对数据进行随机采样,相比在一次更新后立即丢弃传入的数据,导致了训练数据的浪费,且前后两次训练的关联性变强,不利于模型训练,本发明实施例打破训练数据之间的关联性,提高算法稳定性。
[0067]
在一实施例中,在基于离线算法根据储能系统的状态确定离线充放电动作之前,还包括:获取储能系统的作用区间,储能系统的状态包括作用区间内的变电站状态、列车状态和储能装置状态。具体地,基于电路理论,对城轨牵引供电系统电流分配进行上游追踪与下游追踪,定量表征变电站及制动列车电流与牵引列车电流之间的比例关系;基于电流追踪的结果,对城轨牵引供电系统功率分配进行上游追踪与下游追踪,得到变电站输出功率及制动列车功率与牵引列车功率以及线路损耗之间的具体分配系数。通过能量流动解析,可以直观定量地展示系统的功率流动路径,进而对储能系统的作用区间进行实时的划分,以及实时计算能量不同区间内的传输比例。根据相邻列车的功率,计算并输出最大的能量管控区域,即作用区间,作用区间用于确定深度强化学习算法需要学习的规模,在该作用区间内的变电站状态、列车状态和储能装置状态作为一个整体状态进行学习,选择合适的作用区间有利于深度强化学习算法快速收敛。
[0068]
在一实施例中,获取储能系统的作用区间包括:选择中心变电所;判断列车在不同位置对中心变电所的端电压的影响是否大于阈值电压;若大于阈值电压,则判定作用区间包括中心变电所和列车位置所在的变电所处。具体地,如图12所示,任意选择一个中心变电所作为控制对象,根据列车在中心变电所附近区间内运行时引起的中心变电所网压波动大
小定义了电气耦合强度。随后,固定列车功率为最大运行功率,分别向左和向右搜索强耦合区间,作用区间即为强耦合区间。定义uoc为线路中无列车运行时的中心变电所的输出端电压,umid为列车在不同位置输出最大运行功率时的中心变电所输出端电压,ulim为判定强耦合区间和弱耦合区间的阈值电压,可自行选择,一般选择为5v。当判定到列车对中心变电所的端电压影响大于阈值电压,则判定为强耦合区间,否则判定为弱耦合区间。
[0069]
本发明实施例根据列车在不同位置对中心变电所的端电压的影响确定储能系统的作用区间,实现分区管控,规避算法处理信息过于繁杂的问题,提升了算法的收敛能力和运算速度。
[0070]
在一实施例中,根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例,包括:
[0071]
步骤s310、通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系。具体地,通过仿真环境运行采用不同融合比例对离线充放电动作和在线充放电动作融合后的动作,并根据运行结果找到当前通信延时数量和延时程度对应的较优的融合比例,并将该融合比例和当前通信延时数量和延时程度映射形成对应关系,该对应关系通过神经网络实现,该神经网络的输入为通信延时数量和延时程度,输出为融合比例。
[0072]
步骤s320、基于对应关系,根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例。通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系后,在实际运行时,基于当前实际的通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例,本发明实施例考虑通信延时的问题,提升了深度强化学习算法的鲁棒性。
[0073]
在一实施例中,通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系,包括:
[0074]
步骤s311、初始化融合比例。初始化融合比例k=1
[0075]
步骤s312、在任意通信延时数量和延时程度下,根据储能系统的状态获取在线充放电动作。储能系统的状态通过离线仿真模型获取,在获取储能系统的状态后,利用深度强化学习算法获取在线充放电动作。
[0076]
步骤s313、根据储能系统的状态获取离线充放电动作。在获取储能系统的状态后,利用离线算法获取离线充放电动作。
[0077]
步骤s314、基于在线充放电动作、离线充放电动作和融合比例计算融合充放电动作。具体地,融合充放电动作为a2,计算公式为:a2=a*k+a1*(1-k),其中a为在线充放电动作,a1为离线充放电动作。
[0078]
步骤s315、分别执行离线充放电动作和融合充放电动作,获得基于融合充放电动作的第一奖励信号和基于离线充放电动作的第二奖励信号。执行过程在离线仿真模型中进行,执行对应动作后可得对应的奖励信号。奖励信号是环境对代理动作的反馈,本发明实施例主要关注储能设备的节能率,因此奖励信号为时间步长t内的节能率(步长t为执行一次算法的时间间隔,节能率为:储能装置输出的能量/变电所输出的能量)。
[0079]
步骤s316、基于第一奖励信号和第二奖励信号更新融合比例,其中,若第一奖励信号大于第二奖励信号则增大融合比例,若第一奖励信号小于第二奖励信号则减小融合比例。具体地,更新公式为:k=k-c1*(r2-r1),(r2》r1)和k=k+c2*d(r1),(r2《r1),r1为第一
奖励信号,r2为第二奖励信号,c1和c2为更新步长,可视情况进行调节,当r2大于r1时,当融合比例k的值更新为k-c1*(r2-r1),当r2小于r1时,当融合比例k的值更新为k+c2*d(r1)。
[0080]
步骤s317、重复更新融合比例的步骤直至融合比例的变化率达到终止值。例如当融合比例k的变化率小于一个数,例如0.001时,结束训练过程。
[0081]
具体地,上述预训练步骤通过神经网络实现,通过对神经网络训练得到输入为延时数量和延时程度,输出为最优融合比例k的鲁棒性增强模型,鲁棒性增强模型的训练过程如图13所示。本发明实施例通过预训练获取最佳的融合比例,能够在通信状态较差时获取最佳输出,增强系统的鲁棒性。
[0082]
本发明实施例还提出一种轨道交通储能系统的控制模型,如图14所示,该装置包括:
[0083]
离线泛化模块,用于基于离线算法根据储能系统的状态确定离线充放电动作。具体内容参见上述方法实施例对应部分,在此不再赘述。
[0084]
深度强化学习模块,用于基于深度强化学习算法根据储能系统的状态确定在线充放电动作。具体内容参见上述方法实施例对应部分,在此不再赘述。
[0085]
鲁棒性增强模块,用于根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例,根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至储能系统。具体内容参见上述方法实施例对应部分,在此不再赘述。
[0086]
本发明实施例提供的一种轨道交通储能系统的控制模型,通过基于离线算法根据储能系统的状态确定离线充放电动作,基于深度强化学习算法根据储能系统的状态确定在线充放电动作,根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例,根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至储能系统,本发明实施例根据通信延时数量和延时程度获取融合比例,根据融合比例将离线充放电动作和在线充放电动作进行融合并输出至储能系统,在不同的通信环境下也能够正常运行,提升系统的鲁棒性。
[0087]
在一实施例中,深度强化学习模块包括:
[0088]
接收模块,用于接收储能系统的状态和离线充放电动作。
[0089]
网络模块,用于将离线充放电动作作为神经网络的初始值并使用训练数据训练神经网络,神经网络根据储能系统的状态输出动作-值函数。
[0090]
策略模块,用于基于动作-值函数和贪心策略获取在线充放电动作。
[0091]
在一实施例中,如图15所示,轨道交通储能系统的控制模型还包括经验回放模块,用于存储已使用过的训练数据,并从已使用过的训练数据中随机抽取训练数据再次训练神经网络。
[0092]
在一实施例中,如图15所示,轨道交通储能系统的控制模型还包括实时分区模块,用于获取储能系统的作用区间,储能系统的状态包括作用区间内的变电站状态、列车状态和储能装置状态。
[0093]
在一实施例中,实时分区模块包括:
[0094]
选择模块,用于选择中心变电所。
[0095]
判断模块,用于判断列车在不同位置对中心变电所的端电压的影响是否大于阈值电压,若大于阈值电压,则判定作用区间包括中心变电所和列车位置所在的变电所处。
[0096]
在一实施例中,鲁棒性增强模块包括:
[0097]
预训练模块,用于通过预训练获取任意通信延时数量和延时程度和融合比例的对应关系。
[0098]
比例输出模块,用于基于对应关系,根据通信延时数量和延时程度获取离线充放电动作和在线充放电动作的融合比例。
[0099]
在一实施例中,预训练模块包括:
[0100]
初始化模块,用于初始化融合比例。
[0101]
第一动作获取模块,用于在任意通信延时数量和延时程度下,根据储能系统的状态获取在线充放电动作。
[0102]
第二动作获取模块,用于根据储能系统的状态获取离线充放电动作;基于在线充放电动作、离线充放电动作和融合比例计算融合充放电动作。
[0103]
执行模块,用于分别执行离线充放电动作和融合充放电动作,获得基于融合充放电动作的第一奖励信号和基于离线充放电动作的第二奖励信号。
[0104]
更新模块,用于基于第一奖励信号和第二奖励信号更新融合比例,其中,若第一奖励信号大于第二奖励信号则增大融合比例,若第一奖励信号小于第二奖励信号则减小融合比例。
[0105]
重复模块,用于重复更新融合比例的步骤直至融合比例的变化率达到终止值。
[0106]
在一实施例中,本发明实施例的轨道交通储能系统的控制模型的工作流程如图16所示,包括:
[0107]
步骤1、调用实时分区模型,确定需要训练的规模。
[0108]
步骤2、调用离线泛化模型,以离线泛化模型的输出作为深度强化学习模型的初始网格。
[0109]
步骤3、将状态s(实时分区模型确定的作用区间内的:变电所空载电压和输出电流、列车位置和功率、储能装置剩余电量)作为输入,以贪心算法作为动作选择策略,以动作产生的奖励作为反馈,以梯度下降法作为参数更新算法,来反复迭代更新神经网络模型参数,训练深度神经网络模型。
[0110]
步骤4、同时的,每间隔一定时间,将训练的完整数据和网络参数储存在经验回放模块中,训练时随机从经验回放模块中采样,打破前后训练数据的关联性。
[0111]
步骤5、离线泛化模块基于储能系统的状态确定离线充放电动作(动作1),深度强化学习模块根据储能系统的状态确定在线充放电动作(动作2)。
[0112]
步骤6、调用鲁棒性增强模块,基于当前时刻的传输数据的延时情况,得到合适的融合比例k,深度强化学习模块输出的动作1和离线泛化模型输出的动作2经过k值进行融合,输出最终的充放电阈值动作,并继续实时小幅度更新k值。
[0113]
步骤7、实际物理系统根据输出最终的充放电阈值动作运行并计算奖励信息,并将奖励信息反馈到深度强化学习模块学习。
[0114]
本发明实施例的轨道交通储能系统的控制模型在dqn强化学习算法基础上,结合离线泛化模型、实时分区模块、经验回放模块、鲁棒性增强模块等,首次实现储能系统的在线实时全局最优控制。其中,针对现有的全局优化算法无法在线实时运行的问题,引入行为克隆的思路,将离线泛化模型作为强化学习的初始输入,提升了算法的泛化能力;为了规避
算法处理信息过于繁杂的问题,引入实时分区管控思想,提出了实时分区模块,提升了算法的收敛能力和运算速度;将设计合理的神经网络对动作-值函数进行拟合,并在算法中借鉴“经验回放”、“独立目标网络”等技巧,提升算法的收敛速度;考虑通信延时等问题,首次提出了鲁棒性增强模块,提升了强化学习算法的鲁棒性。
[0115]
本发明实施例还提供了一种电子设备,如图17所示,包括:存储器12和处理器11,存储器12和处理器11之间互相通信连接,存储器12存储有计算机指令,处理器11通过执行计算机指令,从而执行如本发明上述方法实施例中的轨道交通储能系统的控制方法。其中处理器11和存储器12可以通过总线或者其他方式连接。处理器11可以为中央处理器(centralprocessingunit,cpu)。处理器11还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。存储器12作为一种非暂态计算机存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器11通过运行存储在存储器12中的非暂态软件程序、指令以及模块,从而执行处理器11的各种功能应用以及数据处理,即实现上述方法实施例中的轨道交通储能系统的控制方法。存储器12可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器11所创建的数据等。此外,存储器12可以包括高速随机存取存储器12,还可以包括非暂态存储器12,例如至少一个磁盘存储器12件、闪存器件、或其他非暂态固态存储器12件。在一些实施例中,存储器12可选包括相对于处理器11远程设置的存储器12,这些远程存储器12可以通过网络连接至处理器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。一个或者多个模块存储在存储器12中,当被处理器11执行时,执行如上述方法实施例中的轨道交通储能系统的控制方法。上述电子设备具体细节可以对应上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
[0116]
本发明实施例还提供一种计算机可读存储介质,如图18所示,其上存储有计算机程序13,该指令被处理器执行时实现上述实施例中轨道交通储能系统的控制方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;存储介质还可以包括上述种类的存储器的组合。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序13可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
[0117]
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各
实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1