一种提高储能系统稳定性的电动汽车集群充放电管理方法与流程

文档序号:30980165发布日期:2022-08-03 00:25阅读:82来源:国知局
一种提高储能系统稳定性的电动汽车集群充放电管理方法与流程

1.本发明涉及数据处理领域,尤其涉及的是一种提高储能系统稳定性的电动汽车集群充放电管理方法。


背景技术:

2.随着经济社会的不断发展,能源的需求与日俱增。由于化石能源存在的污染问题且化石能源本身的不可再生,因此,发展清洁的可再生能源势在必行。
3.太阳能和风能是可再生能源利用的重要方式。太阳能发电主要包括光伏和光热两种形式。太阳能光伏发电系统利用半导体材料的光伏效应进行发电,具有效率较高、无运动部件、系统可模块化的优势,因此太阳能光伏发电领域呈现迅速发展的趋势。光热发电是使用太阳能加热工质,工质吸收能量到达高温高压的状态,然后驱动热机发电。风能作为一种清洁的可再生能源,同样受到世界各国的重视,且风电站基建周期短、投资较少,装机规模灵活。然而目前风电、光伏系统存在弃风、弃光率较高的问题,导致可再生能源的利用率相对较低,进而导致供需不平衡,从而影响可再生能源对应的储能系统的稳定性。
4.因此,现有技术还有待改进和发展。


技术实现要素:

5.本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种提高储能系统稳定性的电动汽车集群充放电管理方法,旨在解决现有技术中,由于可再生能源的利用率相对较低,导致可再生能源对应的储能系统的稳定性低的问题。
6.本发明解决问题所采用的技术方案如下:
7.第一方面,本发明实施例提供一种提高储能系统稳定性的电动汽车集群充放电管理方法,其中,所述方法包括:
8.获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量;
9.将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于所述目标地区;
10.根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度;
11.所述深度强化学习模型的训练过程包括:
12.获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;
13.将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;
14.根据所述充放电调度信息,获取第一更新可再生能源数据;
15.根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;
16.根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;
17.重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。
18.在一种实施方式中,所述电动汽车集群包括若干电动车辆,所述充放电调度信息包括若干所述电动车辆分别对应的充放电数据,所述根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值,包括:
19.根据所述第一更新可再生能源数据,确定第一奖励值,其中,所述第一更新可再生能源数据对应的发电量和耗电量的差值与所述第一奖励值呈反比关系;
20.根据所述充放电调度信息,确定若干所述电动车辆分别对应的目标电量,其中,每一所述电动车辆对应的目标电量基于该电动车辆对应的实际电量和充放电数据确定;
21.获取若干所述电动车辆分别对应的标准电量区间,根据若干所述电动车辆分别对应的标准电量区间和目标电量,确定惩罚值,其中,针对每一所述电动车辆,若该电动车辆对应的目标电量位于该电动车辆对应的标准电量区间之外,则所述惩罚值增加预设值;
22.根据所述第一奖励值和所述惩罚值,确定所述目标奖励值。
23.在一种实施方式中,所述根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值,包括:
24.获取预测充放电调度信息,其中,所述预测充放电调度信息通过预设的移动粒子群算法基于该历史可再生能源数据确定,所述移动粒子群算法以该历史可再生能源数据对应的发电量和耗电量的差值最小、若干所述电动车辆分别对应的移动距离之和最小为目标;
25.获取所述充放电调度信息和所述预测充放电调度信息之间的相似度值,根据所述相似度值确定第二奖励值;
26.根据所述第一奖励值、所述第二奖励值以及所述惩罚值,确定所述目标奖励值。
27.在一种实施方式中,所述获取预测充放电调度信息,包括:
28.获取若干所述电动车辆分别对应的粒子位置;
29.根据所述目标区域,确定若干充电区域和若干放电区域;
30.以所述目标区域对应的区域范围为约束,随机更新若干所述电动车辆分别对应的粒子位置,得到若干所述电动车辆分别对应的更新粒子位置;
31.根据若干所述电动车辆分别对应的更新粒子位置,确定若干所述电动车辆分别对应的车辆状态,其中,所述车辆状态为放电状态,充电状态,原状态中的一种,每一所述电动车辆对应的车辆状态基于该电动车辆对应的更新粒子位置和最邻近的所述充电区域/所述放电区域之间的距离确定;
32.根据若干所述电动车辆分别对应的所述粒子位置和所述更新粒子位置,确定若干所述电动车辆分别对应的移动距离之和;
33.根据若干所述电动车辆分别对应的车辆状态对该历史可再生能源数据进行更新,得到该历史可再生能源数据对应的第二更新可再生能源数据;
34.根据所述移动距离之和与所述第二更新可再生能源数据,确定该历史可再生能源数据对应的粒子群奖励值;
35.重复所述随机更新若干所述电动车辆分别对应的粒子位置的步骤,直至所述粒子群奖励值达到第二阈值时,根据若干所述电动车辆分别对应的车辆状态确定所述预测充放电调度信息。
36.在一种实施方式中,所述根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型,包括:
37.获取前一轮训练对应的历史奖励值,根据所述历史奖励值和所述目标奖励值确定奖励变化量;
38.根据所述奖励变化量确定调整量,其中,所述奖励变化量与所述调整量呈正比关系;
39.根据所述目标奖励值和所述调整量对所述深度强化学习模型的模型参数进行调整,得到所述更新深度强化学习模型。
40.在一种实施方式中,所述方法还包括:
41.获取目标可再生能源数据,其中,所述目标可再生能源数据为根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度后重新获取的可再生能源数据;
42.当所述目标可再生能源数据对应的发电量大于耗电量时,将所述目标可再生能源数据对应的未利用电能传输至所述目标区域对应的目标储能系统进行存储。
43.在一种实施方式中,所述方法还包括:
44.根据所述训练数据集判断目标放电时刻,其中,所述目标放电时刻对应的历史可再生能源数据的发电量小于耗电量预设数值;
45.当到达所述目标放电时刻时,发送放电指令至所述目标储能系统。
46.第二方面,本发明实施例还提供一种提高储能系统稳定性的电动汽车集群充放电管理装置,其中,所述装置包括:
47.获取模块,用于获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量;
48.决策模块,用于将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于所述目标地区;
49.调度模块,用于根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度;
50.所述深度强化学习模型的训练过程包括:
51.获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;
52.将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;
53.根据所述充放电调度信息,获取第一更新可再生能源数据;
54.根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;
55.根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;
56.重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的
步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。
57.第三方面,本发明实施例还提供一种终端,其中,所述终端包括有存储器和一个或者一个以上处理器;所述存储器存储有一个或者一个以上的程序;所述程序包含用于执行如上述任一所述的提高储能系统稳定性的电动汽车集群充放电管理方法的指令;所述处理器用于执行所述程序。
58.第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有多条指令,其中,所述指令适用于由处理器加载并执行,以实现上述任一所述的提高储能系统稳定性的电动汽车集群充放电管理方法的步骤。
59.本发明的有益效果:本发明实施例预先训练得到一个深度强化学习模型,通过该深度强化学习模型分析目标地区在目标时刻的可再生能源数据,并输出目标地区中电动汽车集群的充放电调度信息,通过该充放电调度信息对电动汽车集群进行充放电调度,从而提高目标地区的可再生能源的消纳能力,进而提高了目标地区的储能系统的稳定性。
附图说明
60.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
61.图1是本发明实施例提供的提高储能系统稳定性的电动汽车集群充放电管理方法的流程示意图。
62.图2是本发明实施例提供的一种提高储能系统稳定性的电动汽车集群充放电管理装置的模块示意图。
63.图3是本发明实施例提供的终端的原理框图。
具体实施方式
64.本发明公开了一种提高储能系统稳定性的电动汽车集群充放电管理方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
65.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
66.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义
来解释。
67.随着经济社会的不断发展,能源的需求与日俱增。由于化石能源存在的污染问题且化石能源本身的不可再生,因此,发展清洁的可再生能源势在必行。
68.太阳能和风能是可再生能源利用的重要方式。太阳能发电主要包括光伏和光热两种形式。太阳能光伏发电系统利用半导体材料的光伏效应进行发电,具有效率较高、无运动部件、系统可模块化的优势,因此太阳能光伏发电领域呈现迅速发展的趋势。光热发电是使用太阳能加热工质,工质吸收能量到达高温高压的状态,然后驱动热机发电。风能作为一种清洁的可再生能源,同样受到世界各国的重视,且风电站基建周期短、投资较少,装机规模灵活。然而目前风电、光伏系统存在弃风、弃光率较高的问题,导致可再生能源的利用率相对较低,进而导致供需不平衡,从而影响可再生能源对应的储能系统的稳定性。
69.针对现有技术的上述缺陷,本发明提供一种提高储能系统稳定性的电动汽车集群充放电管理方法,所述方法包括:获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量;将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于所述目标地区;根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度;所述深度强化学习模型的训练过程包括:获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;根据所述充放电调度信息,获取第一更新可再生能源数据;根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。本发明预先训练得到一个深度强化学习模型,通过该深度强化学习模型分析目标地区在目标时刻的可再生能源数据,并输出目标地区中电动汽车集群的充放电调度信息,通过该充放电调度信息对电动汽车集群进行充放电调度,从而提高目标地区的可再生能源的消纳能力,进而提高了目标地区的储能系统的稳定性。解决了现有技术中,由于可再生能源的利用率相对较低,导致可再生能源对应的储能系统的稳定性低的问题。
70.如图1所示,所述方法包括如下步骤:
71.步骤s100、获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量。
72.具体地,本实施例中的目标地区可以是任何一个使用可再生能源的地区,本实施例中的目标时刻可以是一天内的任意时刻。本实施例需要先获取目标时刻的可再生能源数据,由于可再生能源数据可以反映目标时刻的可再生能源的发电量和耗电量,因此可以基于可再生能源数据确定电动车集群的充放电调度信息,以使得可再生能源的发电量和耗电量尽量达到平衡。
73.在一种实现方式中,所述方法还包括如下步骤:
74.步骤s200、将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于
所述目标地区。
75.具体地,本实施例预先训练了一个深度强化学习模型,由于深度强化学习模型预先经过大量历史数据训练,因此将目标时刻的可再生能源数据输入深度强化学习模型,该深度强化学习模型即可输出目标时刻对应的电动汽车集群的目标充放电调度信息,通过目标充放电调度信息可以使得可再生能源的发电量和耗电量尽量达到平衡。
76.如图1所示,所述方法还包括如下步骤:
77.步骤s300、根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度。
78.具体地,目标充放电调度信息包括电动汽车集群中各电动车辆的充电安排/放电安排。通过目标充放电调度信息对电动汽车集群进行充放电调度,可以在可再生能源的发电量大于耗电量时,将多余的电能补充至各电动车辆内;或者在可再生能源的发电量小于耗电量时,通过各电动车辆释放的电能补充多余的耗电量。从而达到供需平衡,提高目标地区的储能系统的稳定性。
79.在一种实现方式中,所述深度强化学习模型的训练过程包括:
80.步骤s10、获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;
81.步骤s20、将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;
82.步骤s30、根据所述充放电调度信息,获取第一更新可再生能源数据;
83.步骤s40、根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;
84.步骤s50、根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;
85.步骤s60、重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。
86.具体地,首先需要基于目标地区在不同时刻所产生的历史可再生能源数据生成训练数据集。针对训练数据集中的每一历史可再生能源数据,将该历史可再生能源数据输入深度强化学习模型,由深度强化学习模型针对该历史可再生能源数据生成电动车集群的充放电调度信息。根据该充放电调度信息重新评估计算目标地区的可再生能源的发电量和耗电量,得到第一更新可再生能源数据。根据第一可再生能源数据和充放电调度信息,计算当前深度强化学习模型对应的目标奖励值,该目标奖励值可以反映第一可再生能源数据对应的供需是否平衡以及充放电调度信息是否合理,进而反映出深度强化学习模型的性能。因此以目标奖励值为导向,对深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型。重复上述训练步骤,直至得到的目标奖励值达到第一阈值,表示当前得到的更新深度强化学习模型的性能已经满足训练目标,则训练结束。
87.在一种实现方式中,所述电动汽车集群包括若干电动车辆,所述充放电调度信息包括若干所述电动车辆分别对应的充放电数据,所述步骤s40具体包括如下步骤:
88.步骤s41、根据所述第一更新可再生能源数据,确定第一奖励值,其中,所述第一更新可再生能源数据对应的发电量和耗电量的差值与所述第一奖励值呈反比关系;
89.步骤s42、根据所述充放电调度信息,确定若干所述电动车辆分别对应的目标电量,其中,每一所述电动车辆对应的目标电量基于该电动车辆对应的实际电量和充放电数据确定;
90.步骤s43、获取若干所述电动车辆分别对应的标准电量区间,根据若干所述电动车辆分别对应的标准电量区间和目标电量,确定惩罚值,其中,针对每一所述电动车辆,若该电动车辆对应的目标电量位于该电动车辆对应的标准电量区间之外,则所述惩罚值增加预设值;
91.步骤s44、根据所述第一奖励值和所述惩罚值,确定所述目标奖励值。
92.具体地,第一更新可再生能源数据中的发电量和耗电量的差值可以反映供需是否平衡/可再生能源消纳情况,因此基于第一更新可再生能源数据确定第一奖励值,其中,第一奖励值越高,表示可再生能源消纳越好,供需越平衡。此外,每一电动车辆都有对应的标准电量区间,即其有保证其正常运行的正常电量需求,也有最大充电量的限制。因此充放电调度信息会受到各电动车辆的标准电量区间的约束。针对每一电动车辆,本实施例会参考该电动车辆的实际电量,和基于充放电调度信息调整后的目标电量,若目标电量位于对应的标准电量区间之外时,表示未满足约束条件,则惩罚值增加预设值。最后参考第一奖励值和最终的惩罚值,确定深度强化学习模型的目标奖励值。
93.在另一种实现方式中,所述步骤s40具体包括如下步骤:
94.步骤s45、获取预测充放电调度信息,其中,所述预测充放电调度信息通过预设的移动粒子群算法基于该历史可再生能源数据确定,所述移动粒子群算法以该历史可再生能源数据对应的发电量和耗电量的差值最小、若干所述电动车辆分别对应的移动距离之和最小为目标;
95.步骤s46、获取所述充放电调度信息和所述预测充放电调度信息之间的相似度值,根据所述相似度值确定第二奖励值;
96.步骤s47、根据所述第一奖励值、所述第二奖励值以及所述惩罚值,确定所述目标奖励值。
97.在前一种计算目标奖励值的方法的基础上,本实施例在还提供另一种计算目标奖励值的方法。具体地,除了第一奖励值和惩罚值以外,本实施例中的目标奖励值还需要参考第二奖励值确定。其中,第二奖励值的计算方式如下:首先获取本实施例预先基于移动粒子群算法生成的预测充放电调度信息,该移动粒子群算法的优化目标是找到一个可以使得可再生能源对应的发电量和耗电量的差值最小、且电动汽车集群的移动成本最小的充放电调度方案。由于预测充放电调度信息已经是移动粒子群算法得到的最优方案,因此第二奖励值需要参考当前得到的充放电调度信息和预测充放电调度信息之间的相似度值,相似度值越大,表示当前的充放电调度信息越接近预测充放电调度信息,则第二奖励值越高。本实施例通过增加第二奖励值,使得深度强化学习模型可以学习移动粒子群算法的优化结果,进而快速找到最优的充放电调度方案。
98.在一种实现方式中,所述移动粒子群算法的工作原理如下:
99.步骤s451、获取若干所述电动车辆分别对应的粒子位置;
100.步骤s452、根据所述目标区域,确定若干充电区域和若干放电区域;
101.步骤s453、以所述目标区域对应的区域范围为约束,随机更新若干所述电动车辆
分别对应的粒子位置,得到若干所述电动车辆分别对应的更新粒子位置;
102.步骤s454、根据若干所述电动车辆分别对应的更新粒子位置,确定若干所述电动车辆分别对应的车辆状态,其中,所述车辆状态为放电状态,充电状态,原状态中的一种,每一所述电动车辆对应的车辆状态基于该电动车辆对应的更新粒子位置和最邻近的所述充电区域/所述放电区域之间的距离确定;
103.步骤s455、根据若干所述电动车辆分别对应的所述粒子位置和所述更新粒子位置,确定若干所述电动车辆分别对应的移动距离之和;
104.步骤s456、根据若干所述电动车辆分别对应的车辆状态对该历史可再生能源数据进行更新,得到该历史可再生能源数据对应的第二更新可再生能源数据;
105.步骤s457、根据所述移动距离之和与所述第二更新可再生能源数据,确定该历史可再生能源数据对应的粒子群奖励值;
106.步骤s458、重复所述随机更新若干所述电动车辆分别对应的粒子位置的步骤,直至所述粒子群奖励值达到第二阈值时,根据若干所述电动车辆分别对应的车辆状态确定所述预测充放电调度信息。
107.具体地,为了各电动车辆的模拟运动,本实施例预先根据目标区域构建了一个数字地图,并基于目标区域现实存在的充、放电区域确定数字地图上的多个充电区域和放电区域,然后以各移动粒子指代目标区域中的各电动车辆。随机更新各移动粒子分别对应的粒子位置,针对每一移动粒子,确定该移动粒子与最邻近的充电区域的距离是否小于预设距离,并确定该移动粒子与最邻近的放电区域的距离是否小于预设距离,若两个距离都小于预设距离,则以距离最小的区域类型,确定该移动粒子的车辆状态,例如与放电区域和充电区域的距离都小于预设距离,但是与充电区域更近,则该移动粒子的车辆状态为充电状态;若两个距离都大于或者等于预设距离该移动粒子的车辆状态为维持原状态,即不充电也不放电;若其中一个距离小于预设距离,则以该距离对应的区域类型,确定该移动粒子的车辆状态,例如只与放电区域的距离小于预设距离,则该移动粒子的车辆状态为放电状态。然后根据各电动车辆分别对应的车辆状态,更新目标区域的可再生能源数据的放电量和耗电量,得到第二更新可再生能源数据。并将各电动车辆的移动距离相加,得到电动汽车集群的移动成本。由于第二更新可再生能源数据可以反映供需是否平衡,移动成本可以反映充放电调度方案的可行性,因此基于第二更新可再生能源数据和移动成本可以客观评估移动粒子群算法输出的预测充放电调度信息的好坏,进而得到粒子群奖励值。若粒子群奖励值小于第二阈值,表示当前的预测充放电调度信息还未达到优化目标,则重新随机更新移动粒子的位置,直至得到的粒子群奖励值达到第二阈值,则根据最后各移动粒子的位置和车辆状态,确定最优的预测充放电调度信息。
108.在一种实现方式中,所述步骤s50具体包括如下步骤:
109.步骤s51、获取前一轮训练对应的历史奖励值,根据所述历史奖励值和所述目标奖励值确定奖励变化量;
110.步骤s52、根据所述奖励变化量确定调整量,其中,所述奖励变化量与所述调整量呈正比关系;
111.步骤s53、根据所述目标奖励值和所述调整量对所述深度强化学习模型的模型参数进行调整,得到所述更新深度强化学习模型。
112.简单来说,对本实施例虽然是以目标奖励值对深度强化学习模型的模型参数进行调整,但是每次调整的程度,即调整量并非是统一的。具体地,针对每一轮训练,将当前得到的目标奖励值与前一轮得到的历史奖励值进行比较得到奖励变化量,若奖励变化量高于预设变化值,则判定深度强化学习模型当前仍然处于学习的初始阶段,决策并不稳定,则采用较大的调整量;若奖励变化量小于或者等于预设变化值,则判定深度强化学习模型当前稳定阶段,则采用较小的调整量。
113.在一种实现方式中,所述方法还包括如下步骤:
114.步骤s400、获取目标可再生能源数据,其中,所述目标可再生能源数据为根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度后重新获取的可再生能源数据;
115.步骤s500、当所述目标可再生能源数据对应的发电量大于耗电量时,将所述目标可再生能源数据对应的未利用电能传输至所述目标区域对应的目标储能系统进行存储。
116.具体地,对于目标区域内电动车集群也无法及时消纳的电能,则安排目标区域内的目标储能系统进行储能。在一种实现方式中,所述目标储能系统基于超级电容构建而成。
117.在一种实现方式中,所述方法还包括如下步骤:
118.步骤s600、根据所述训练数据集判断目标放电时刻,其中,所述目标放电时刻对应的历史可再生能源数据的发电量小于耗电量预设数值;
119.步骤s700、当到达所述目标放电时刻时,发送放电指令至所述目标储能系统。
120.具体地,由于训练数据集收集的是目标地区在不同时刻的历史可再生能源数据,因此基于训练数据集可以判定目标地区内何时是传统用电高峰时刻,即将这类时刻作为目标放电时刻。然后将目标储能系统中存储的电能在目标放电时刻进行放电,以提高储能系统的稳定性,并解决目标地区用电高峰缺电的问题。
121.基于上述实施例,本发明还提供了一种提高储能系统稳定性的电动汽车集群充放电管理装置,如图2所示,所述装置包括:
122.获取模块01,用于获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量;
123.决策模块02,用于将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于所述目标地区;
124.调度模块03,用于根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度;
125.所述深度强化学习模型的训练过程包括:
126.获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;
127.将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;
128.根据所述充放电调度信息,获取第一更新可再生能源数据;
129.根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;
130.根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;
131.重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。
132.基于上述实施例,本发明还提供了一种终端,其原理框图可以如图3所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中,该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现提高储能系统稳定性的电动汽车集群充放电管理方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
133.本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
134.在一种实现方式中,所述终端的存储器中存储有一个或者一个以上的程序,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行提高储能系统稳定性的电动汽车集群充放电管理方法的指令。
135.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
136.综上所述,本发明公开了一种提高储能系统稳定性的电动汽车集群充放电管理方法,所述方法包括:获取目标地区在目标时刻的可再生能源数据,其中,所述可再生能源数据包括可再生能源对应的发电量和耗电量;将所述可再生能源数据输入预先经过训练的深度强化学习模型,得到所述目标时刻对应的电动汽车集群的目标充放电调度信息,其中,所述电动汽车集群位于所述目标地区;根据所述目标充放电调度信息对所述电动汽车集群进行充放电调度;所述深度强化学习模型的训练过程包括:获取训练数据集,其中,所述训练数据集包括所述目标地区对应的若干历史可再生能源数据,若干该历史可再生能源数据分别对应不同时刻;将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型,得到电动汽车集群对应的充放电调度信息;根据所述充放电调度信息,获取第一更新可再生能源数据;根据所述第一更新可再生能源数据和所述充放电调度信息,确定目标奖励值;根据所述目标奖励值对所述深度强化学习模型的模型参数进行调整,得到更新深度强化学习模型;重复将所述训练数据集中的历史可再生能源数据输入所述深度强化学习模型的步骤,直至所述目标奖励值达到第一阈值,以实现得到已训练的所述深度强化学习模型。本发明预先训练得到一个深度强化学习模型,通过该深度强化学习模型分析目标地区在目
标时刻的可再生能源数据,并输出目标地区中电动汽车集群的充放电调度信息,通过该充放电调度信息对电动汽车集群进行充放电调度,从而提高目标地区的可再生能源的消纳能力,进而提高了目标地区的储能系统的稳定性。解决了现有技术中,由于可再生能源的利用率相对较低,导致可再生能源对应的储能系统的稳定性低的问题。
137.应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1