基于分布式深度强化学习的协调充电方法及协调充电系统

文档序号:30425930发布日期:2022-06-15 14:59阅读:107来源:国知局
基于分布式深度强化学习的协调充电方法及协调充电系统

1.本技术涉及计算机应用技术领域,更具体地说,涉及一种基于分布式深度强化学习的协调充电方法及协调充电系统。


背景技术:

2.新能源汽车是指采用非常规的车用燃料作为动力来源,综合车辆的动力控制和驱动方面的先进技术,形成的技术原理先进、具有新技术、新结构的汽车。目前主流的新能源汽车为以动力电池为全部或部分能量来源的电动汽车。
3.随着电动汽车数量的不断增加,电动汽车带来的能源需求对电网的影响很大,在没有任何充电控制的情况下,多个电动汽车接入电网后自动充电可能会造成电网拥堵。因此,在多个电动汽车接入电网的情况下的协调充电问题成为相关技术人员的研究方向之一。
4.现有的协调充电方法存在可扩展性较差以及在大量电动汽车接入时,信息收集和处理的时间和成本激增的问题。


技术实现要素:

5.为解决上述技术问题,本技术提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,以解决现有的协调充电方法存在的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题。
6.为实现上述技术目的,本技术实施例提供了如下技术方案:
7.一种基于分布式深度强化学习的协调充电方法,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
8.基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
9.根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
10.基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
11.一种基于分布式深度强化学习的协调充电系统,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电系统包括:
12.信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取
的历史电价信息;
13.电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
14.参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
15.从上述技术方案可以看出,本技术实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度强化学习网络包括第一神经网络和第二神经网络,即本技术实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了分布式协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
附图说明
16.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
17.图1为本技术的一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
18.图2为本技术的一个实施例提供的一种commnet模型的模型图;
19.图3为本技术的一个实施例提供的commnet模型中模块的具体结构示意图;
20.图4为本技术的一个实施例提供的长短时记忆网络的结构示意图;
21.图5为本技术的另一个实施例提供的一种基于分布式深度强化学习的协调充电方法的流程示意图;
22.图6为本技术的一个实施例提供的一种对深度神经网络的网络参数的更新过程的流程示意图;
23.图7为本技术的一个实施例提供的一种第二神经网络的结构图。
具体实施方式
24.正如背景技术中所述,现有技术中的协调充电方法大多是集中式的,在集中式架构下,每个电动汽车的充电策略由直接聚合器决定,它收集所有电动汽车的充电需求,然后求解一个优化问题,以确定每辆电动汽车的充电行为,并将基于优化的充电计划反馈给电
动汽车的车主。因此,每个车主在最终实际运行的充电策略上放弃了个人的部分自主权。当电动汽车的数量很大时,就会需要更长的时间和成本进行信息的收集和处理。
25.另外,集中式协调充电方法通常假设配电站遵循某一控制算法并与电动汽车交互,或所有电动汽车遵循同一控制算法。首先,这会导致可扩展性问题。其次,电动汽车车主会担心传输到聚合器的信息隐私泄露。此外,聚合器上的单节点故障可能会导致整个系统崩溃,从而产生对备份系统的需求。
26.为了解决这一问题,本技术实施例提供了一种基于分布式深度强化学习的协调充电方法,该方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.本技术实施例提供了一种基于分布式深度强化学习的协调充电方法,如图1所示,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电方法包括:
29.s101:基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息。
30.所述智能体获取的历史电价信息是指所述智能体获取的该智能体所在地从当前时刻起,过去一段时间内的电价信息,例如可以是目标地所在地过去24小时内的电价信息,或者还可以是目标地所在地过去36小时或48小时等时间段内的电价信息。
31.所述通信模型可选为commnet模型,第一神经网络的分布式调度过程利用了该通信模型,每个智能体将各自的状态信息作为通信消息发送到信道,然后通过访问广播通信结构来共享信息,而来自其他智能体的状态平均值作为下一层的输入之一。智能体之间存在通信交互的系统能在具有大规模数据的场景中有良好表现。
32.参考图2,图2示出了commnet模型的模型图,在commnet的完整模型中,输入每个智能体的状态信息,通过两个通信步骤,将所有智能体的状态信息映射到它们的行为。在每个通信步骤t1,t2中,模块中,模块传播它们的内部状态h,同时在公共信道上广播通信向量c。具体过程为,每个模块接收两个输入向量:隐藏状态向量和通信向量并输出向量它们的计算如下:它们的计算如下:其中mean表示取隐藏状态向量的平均值获得通信向量;而的具体结构如图3所示,即其中hm,cm为相应的系数。输出层为softmax激活函数:输出output表示在t时刻观察到第n个
智能体状态为时选择行为的概率,从而选择各自的行为。
33.除所述智能体获取的历史电价信息之外,在本技术的一些实施例中,所述智能体的状态信息还可以包括智能体的荷电状态、变压器负载状态、智能体位置状态等信息。
34.s102:根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息。
35.在本技术的一个可选实施例中,步骤s102具体包括:将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络(long short-term memory,lstm)中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
36.长短时记忆网络也可称为长短期记忆人工神经网络,是一种时间循环神经网络,参考图4,图4示出了本技术实施例中使用的长短时记忆网络的结构示意图,采取长短时记忆网络的目的是为了利用历史电价信息这样的连续信息,来提取包含未来电价趋势信息的特征。仍然参考图2,它的输入是过去24小时的电价p
t
,输出为特征f
t
={f
tn
(n=1,2,

,5)}(t=1,

,t),完整序列的长短时记忆网络展开是23层神经网络,每一层神经网络在图2中以lstm cell表示。在图4中,具体来说,第一层神经网络的输入为d
t-22
=p
t-22-p
t-23
,其中p
t-22
和p
t-23
分别表示智能体在t-22,t-23时刻获取到的电价。y
t-22
为第一层神经网络的输出,它包含了过去的电价信息,c
t-22
为它的单元状态。然后y
t-22
和c
t-22
被传递到第二层神经网络,以此类推,此过程一直重复到最后一层神经网络。
37.对于具有不确定性的电价进行特征提取,获得对未来价格趋势的预测信息,能在下面的步骤s103中更好地逼近第二神经网络中的行为价值函数,使方法的收敛性能得到进一步提升。
38.s103:基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
39.所述深度强化学习网络包括actor网络和critic网络,其中,actor(玩家)网络只要负责动作(action)生成并和环境交互,critic(评委)网络主要负责评估actor网络的表现,并指导actor网络下一阶段的动作。
40.本实施例中提供的基于分布式深度强化学习的协调充电方法的“分布式”这一特征的实现主要是指用于多个智能体上的分布式计算,该分布式计算通过第一神经网络实现,即将智能体之间的通信交互建立为commnet等通信模型,然后在该通信模型上进行分布式计算来获取最优策略。
41.此外,本技术实施例提供的基于分布式深度强化学习的协调充电方法在避免电网过载的前提下,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值(即保证每个智能体的电池电量充足)。
42.在最小化能源成本这一目的的实现过程中,除了依靠更新深度强化学习网络的网络参数之外,还依靠了所述电价预测信息,电价预测信息中可包含电价趋势信息的特征,利用这些特征提出的调度策略可使充电成本最小。在更新深度强化学习网络的网络参数使损
失函数最小和预期回报最大的过程即最大化总奖励的过程,而能源成本与总奖励的分量成反比,故实现了最小化能源成本的目的。
43.保证每个智能体的电池电量大于预设阈值的目的主要依靠训练深度强化学习网络的网络参数来实现。更新深度强化学习网络的网络参数以使损失函数最小和预期回报最大,即最大化总奖励,而保证智能体具有足够电池电量这一目标通过总奖励的分量来量化表征,且与总奖励的分量成正比,因此,最大化总奖励就可以实现保证智能体具有足够电池电量的目的。
44.在具体执行步骤s103之前,通常需要进行深度神经网络的初始化过程,参考图5,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数之前还包括:
45.s104:初始化所述第一神经网络的权重以及所述第二神经网络的权重;
46.在本实施例中,所述第一神经网络的权重以θ
μ
表示,所述第二神经网络的权重以θq表示。步骤s104的具体可行执行方式可包括:用xavier初始化器来初始化权重θq,θ
μ

47.s105:利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
48.s106:利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
49.步骤s105和步骤s106的具体可行执行方式可包括:用步骤s105和步骤s106的具体可行执行方式可包括:用初始化权重
50.s107:初始化外循环的迭代次数,令外循环的迭代次数episode=0。
51.在初始化完成后,下面对深度神经网络的网络参数的更新过程的可行执行步骤进行描述。
52.在本技术的一个实施例中,参考图6,所述基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数包括:
53.s1031:外循环开始,episode=episode+1,初始化当前时刻t=1;
54.s1032:基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个智能体在t时刻的状态,b
t
∈(0,1)表示智能体在t时刻的荷电状态,l
t
={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζ
t
∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,p
t
=[p
t
×
p
t-1
×…×
p
t-23
]表示智能体在t,t-1,

,t-23时刻获取的电价;
[0055]
所述状态空间中以向量的方式存储各个所述智能体的状态信息,如前文所述,所述智能体的状态信息至少包括智能体荷电状态、变压器负载状态、智能体位置状态以及智能体获取的历史电价信息。举例来说,的值可以是[0.8,0.6,0,18.52,15.46,

,16.58],分别指当前智能体的荷电量为充满电的80%且智能体此刻在家;变压器负载为最大期望负载的60%;当前电价为18.52元/千瓦时,前一小时为15.46元/千瓦时,前23小时为16.58元/千瓦时。
[0056]
内循环开始;
[0057]
s1033:所述内循环包括:根据为所有智能体的状态选择对应的行为空间其中表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;表示通过所述第一神经网络计算出的行为选择概率;
[0058]
s1034:在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间s
t+1
,所述奖励空间表示为:,所述奖励空间表示为:其中,表示第n个智能体在t时刻得到的奖励,r
b,t
=50*b
t
表示智能体所有者对t时刻电池电量的满意度奖励;电量的满意度奖励;表示对能源成本最小化程度的奖励,且p
t
表示智能体在t时刻获取到的电价,c
t
表示智能体在t时刻消耗的电量;r
o,t
={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
[0059]
智能体在t时刻得到的奖励是指在每种状态下某个动作的累积回报,它将对动作的评价量化,可理解为一种用数值大小评价动作好坏的方式,无论具体取什么数据,对应的奖励种类都是一个数值,数值大小代表着对此动作的评价程度。
[0060]
s1035:基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(s
t
,a
t
,r
t
,s
t+1
);
[0061]
s1036:判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
[0062]
所述更新开始条件包括缓存区存储的转移对数量达到缓存区的最大存储量,即在缓存区存储的转移对数量达到缓存区的最大存储量时,判定所述缓存区满足更新开始条件,缓存区可以用φ表示。
[0063]
s1037:判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
[0064]
所述第一神经网络的权重以θ
μ
表示,所述第二神经网络的权重以θq表示,所述第一神经网络的目标网络的权重以表示,所述第二神经网络的目标权重以表示。
[0065]
其中,所述更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重包括:
[0066]
s10361:从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(s
i,t
,a
i,t
,r
i,t
,s
i,t+1
),i=1,2,

,minibatch;并计算目标值
其中,s
i,t
表示t时刻第i个样本中的状态空间,a
i,t
表示t时刻第i个样本中的行为空间,r
i,t
表示t时刻第i个样本中的奖励空间,s
i,t+1
表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态s
i,t+1
通过第一神经网络的目标网络计算出的行为选择概率;表示在状态s
i,t+1
通过第二神经网络的目标网络执行行为后的行为价值函数;
[0067]
s10362:利用随机梯度下降,针对第二神经网络的损失函数s10362:利用随机梯度下降,针对第二神经网络的损失函数来更新第二神经网络的权重θq;其中,表示所述预设数量;q(s
i,t
,a
i,t
|θq)表示在状态s
i,t
通过第二神经网络执行行为a
i,t
后的行为价值函数。
[0068]
s10363:利用随机梯度上升,针对第一神经网络的梯度s10363:利用随机梯度上升,针对第一神经网络的梯度来更新第一神经网络的权重θ
μ
;其中表示在状态s
i,t
通过第二神经网络执行行为μ(s
i,t

μ
)后的行为价值函数的梯度;表示状态s
i,t
通过第一神经网络计算出的行为选择概率的梯度;
[0069]
s10364:用第二神经网络的权重θq、第一神经网络的权重θ
μ
来更新对应的目标网络权重即步骤s10373可表示为:即步骤s10373可表示为:其中τ∈(0,1)表示学习速率。
[0070]
在图6所示的算法中,参考图7,图7示出了该算法中第二神经网络的结构图,从原始状态数据中提取电价特征是改善行为价值函数逼近的关键步骤。利用这些特征,最终选取的调度策略可以最小化奖励之一的充电成本。在critic网络的完整模型中,输入量为包含未来电价趋势信息的特征f
t
、s
t
中的b
t

t
,l
t
以及a
t
,通过三层全连接神经网络以一致逼近函数q(s
t
,a
t
),其中w为神经网络的权值。
[0071]
下面对本技术实施例提供的基于分布式深度强化学习的协调充电系统进行描述,下文描述的基于分布式深度强化学习的协调充电系统可与上文描述的基于分布式深度强化学习的协调充电方法相互对应参照。
[0072]
相应的,本技术实施例提供了一种基于分布式深度强化学习的协调充电系统,用于对接入电网的多个智能体进行协调充电,接入电网的多个智能体之间具备通信能力,所述基于分布式深度强化学习的协调充电系统包括:
[0073]
信息获取模块,用于基于通信模型获取各个所述智能体的状态信息,所述通信模型基于各个所述智能体之间的通信交互建立,所述智能体的状态信息包括所述智能体获取的历史电价信息;
[0074]
电价预测模块,用于根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息;
[0075]
参数更新模块,用于基于所述智能体的状态信息以及所述电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,以最小化每个所述
智能体的能源成本以及保证每个所述智能体的电池电量大于预设阈值,同时避免变压器超载;所述深度强化学习网络包括第一神经网络和第二神经网络,所述第一神经网络包括actor网络,所述第二神经网络包括critic网络。
[0076]
可选的,所述电价预测模块具体用于,将所述智能体获取的历史电价信息输入预先训练的长短时记忆网络中,以获取所述预先训练的长短时记忆网络输出的与所述智能体对应的电价预测信息。
[0077]
可选的,还包括:
[0078]
初始化模块,用于初始化所述第一神经网络的权重以及所述第二神经网络的权重;
[0079]
利用所述第一神经网络的权重初始化所述第一神经网络的目标网络的权重;
[0080]
利用所述第二神经网络的权重初始化所述第二神经网络的目标网络的权重;
[0081]
初始化外循环的迭代次数,令外循环的迭代次数episode=0。
[0082]
可选的,所述参数更新模块具体用于,外循环开始,episode=episode+1,初始化当前时刻t=1;
[0083]
基于各个所述智能体的状态信息,初始化状态空间,所述状态空间表示为:其中,表示第n个目标体在t时刻的状态,b
t
∈(0,1)表示智能体在t时刻的荷电状态,l
t
={0,1}表示智能体在t时刻的位置,且0表示在家,1表示出行,ζ
t
∈(0.6,1.2)表示变压器在t时刻的负载占最大期望负载的百分比,p
t
=[p
t
×
p
t-1
×…×
p
t-23
]表示目标体在t,t-1,

,t-23时刻获取的电价;
[0084]
内循环开始;
[0085]
所述内循环包括:
[0086]
根据为所有智能体的状态选择对应的行为空间其中表示第n个智能体在t时刻执行的行为,且0表示充电,1表示不充电;表示通过actor网络计算出的行为选择概率;
[0087]
在仿真环境中实施所述行为空间对应的行为,并观察奖励空间以及下一时刻的状态空间s
t+1
,所述奖励空间表示为:,所述奖励空间表示为:其中,表示第n个智能体在t时刻得到的奖励,r
b,t
=50*b
t
表示智能体所有者对t时刻电池电量的满意度奖励;表示对能源成本最小化程度的奖励,且p
t
表示智能体在t时刻获取到的电价,c
t
表示智能体在t时刻消耗的电量;r
o,t
={0,50}表示对避免变压器过载的奖励,且0表示变压器过载时的奖励,50表示变压器负载在期望范围内的奖励;
[0088]
基于状态空间、行为空间、奖励空间和下一时刻的状态空间获取转移对,并将所述转移对存储到缓存区中,所述转移对表示为:ξ=(s
t
,a
t
,r
t
,s
t+1
);
[0089]
判断所述缓存区是否满足更新开始条件,如果否,则令t=t+1,并返回根据为所有智能体的状态选择对应的行为
空间的步骤;如果是,则更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重;
[0090]
判断内循环的迭代次数是否大于或等于第一预设次数,如果否,则令t=t+1,并返回内循环开始的步骤,以进行新一次的内循环,如果是,则判断外循环的迭代次数是否大于第二预设次数,若是,则外循环结束,若否,则返回外循环开始的步骤,以进行新一次的外循环;
[0091]
所述第一神经网络的权重以θ
μ
表示,所述第二神经网络的权重以θq表示,所述第一神经网络的目标网络的权重以表示,所述第二神经网络的目标权重以表示。
[0092]
可选的,所述参数更新模块更新所述第一神经网络的权重、第一神经网络的目标网络的权重、所述第二神经网络的权重和所述第二神经网络的目标网络的权重的过程具体包括:
[0093]
从缓存区中随机采集数量为预设数量的样本,所述样本表示为:ξi=(s
i,t
,a
i,t
,r
i,t
,s
i,t+1
),i=1,2,

,minibatch;并计算目标值,minibatch;并计算目标值其中,s
i,t
表示t时刻第i个样本中的状态空间,a
i,t
表示t时刻第i个样本中的行为空间,r
i,t
表示t时刻第i个样本中的奖励空间,s
i,t+1
表示t时刻第i个样本中的下一时刻的状态空间,minibatch表示所述预设数量,δ表示第二神经网络更新的折扣因素;表示在状态s
i,t+1
通过第一神经网络的目标网络计算出的行为选择概率;表示在状态s
i,t+1
通过第二神经网络的目标网络执行行为后的行为价值函数;
[0094]
利用随机梯度下降,针对第二神经网络的损失函数利用随机梯度下降,针对第二神经网络的损失函数来更新第二神经网络的权重θq;
[0095]
利用随机梯度上升,针对第一神经网络的梯度利用随机梯度上升,针对第一神经网络的梯度来更新第一神经网络的权重θ
μ
;其中表示在状态s
i,t
通过第二神经网络执行行为μ(s
i,t

μ
)后的行为价值函数的梯度;表示状态s
i,t
通过第一神经网络计算出的行为选择概率的梯度;
[0096]
用第二神经网络的权重θq、第一神经网络的权重θ
μ
来更新对应的目标网络权重
[0097]
综上所述,本技术实施例提供了一种基于分布式深度强化学习的协调充电方法及协调充电系统,其中,所述基于分布式深度强化学习的协调充电方法基于通信模型获取各个智能体的状态信息,并基于所述智能体的状态信息以及基于状态信息获取的电价预测信息,以损失函数最小和预期回报最大为目标,更新深度强化学习网络的网络参数,所述深度
强化学习网络包括第一神经网络和第二神经网络,即本技术实施例提供的协调充电方法为基于深度强化学习的分布式调度算法,避免了集中式调度算法带来的可扩展性较差以及在大量智能体接入电网时,信息收集和处理的时间和成本激增的问题,提高了基于分布式深度强化学习的协调充电方法的稳定性和可扩展性,此外,所述基于分布式深度强化学习的协调充电方法还根据所述智能体获取的历史电价信息,获取与所述智能体对应的电价预测信息,进一步提高了该方法的收敛速度和运算效率。
[0098]
本说明书中各实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0099]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1