知识数据混合驱动的电动汽车并网分布式协同调控方法

文档序号:40665336发布日期:2025-01-14 21:31阅读:144来源:国知局

本发明涉及电力系统运行与规划,特别是涉及一种知识数据混合驱动的电动汽车并网分布式协同调控方法。


背景技术:

1、大规模电动汽车及其配套基础设施接入电网,对电力系统来说是把“双刃剑”。一方面,大规模电动汽车(ev)并网无序充电会引发负荷峰上加峰、配电网节点电压越限、变压器过载等严重后果;另一方面,在车网互动技术下,通过配电系统运营商(dso)、电动汽车充电站或聚合商(eva)以及ev用户的多层级协同互动,可有效聚合并调控ev集群的充放电功率,提升电力系统运行灵活性,实现对海量ev充电需求的消纳。

2、车网互动方法可划分为集中式与分布式两类。集中式方法需要一个中心收集大量车网互动相关信息进行优化决策,对算力以及通信具有高要求,面临着单点失败的风险。分布式方法下智能体无需上传本地信息到集中式中心,而是进行本地优化计算并通过交互少量信息进行协同。现有分布式协同控制方法可进一步划分为知识驱动与数据驱动。典型的知识驱动方法包括交替方向乘子法、一致性算法、目标级联法等,然而此类算法面临着精细化建模的挑战,这对于具有大规模随机接入ev的电力系统来说是负担不起且难以实现的。此外,此类方法通常还需要多次交互迭代,决策耗时较长。

3、近年来,以多智能体深度强化学习(madrl)为代表的数据驱动分布式方法因具有不依赖精确建模、在线执行无需繁琐迭代等优势,得到了国内外学者的广泛关注与研究,典型算法包括多智能体深度确定性策略梯度(maddpg)等。然而此类算法应用于ev集群充放电控制仍存在以下三个关键难题亟待解决:

4、其一,基于madrl的方法大多将ev集群分布式调控建模为分散式部分可观马尔科夫决策过程(dec-pomdp),然而此模型要求智能体共享同一个奖励函数。一方面,由于奖励函数往往包含本地状态、成本等信息,因此共享奖励函数会泄露智能体的隐私信息;另一方面,该模型要求智能体的奖励相同,而异质的dso与eva通常有不同的优化目标,这会导致激励不公平问题,贡献高的智能体无法得到更多奖励;

5、其二,强化学习算法的样本效率与状态和动作空间维度呈负相关关系,大规模ev带来的高维状态与动作空间,导致madrl算法的样本效率低下,无法用于大规模电动汽车并网最优调控;

6、其三,当前大多madrl算法采用集中式训练-分散式执行的框架,导致离线训练阶段智能体隐私信息仍要分享,无法实现eva与dso训练与执行两阶段的完全分布式协同控制。

7、因此,需要提出新的分布式协同调控方法,以解决大规模电动汽车充放电管理中的建模复杂性、计算效率和实时性等关键问题。


技术实现思路

1、本发明的目的在于,提供一种知识数据混合驱动的电动汽车并网分布式协同调控方法,用于大规模电动汽车的并网有序双向充放电调控,为有效聚合和调控电动汽车充放电功率提升电力系统灵活性提供技术支撑。

2、为解决上述技术问题,本发明提供一种知识数据混合驱动的电动汽车并网分布式协同调控方法,包括:

3、建立关于dso与eva协同控制的sdis-pomdp模型;

4、根据所述sdis-pomdp模型建立dso的领导者部分可观马尔科夫决策过程pomdp模型;

5、根据所述sdis-pomdp模型建立eva的跟随者pomdp模型;

6、根据基于分布式训练-分布式执行框架的smadrl算法求解所述dso的领导者部分可观马尔科夫决策过程pomdp模型和所述eva的跟随者pomdp模型。

7、可选的,所述建立关于dso与eva协同控制的sdis-pomdp模型的过程包括:

8、sdis-pomdp定义为元组;

9、其中,是包括一个领导者智能体(l)和n个跟随者智能体(1:n)的智能体集合,是全局观测状态集合,是联合局部观测状态集合,包括领导者局部观测状态集合和跟随者局部观测状态集合,是联合动作集合,包括领导者动作集合和跟随者动作集合,是状态转移概率函数,<mi>t:s×</mi><msub><mi>a</mi><mi>l</mi></msub><mi>×</mi><msub><mi>a</mi><mi>1:n</mi></msub><mi>×s</mi><mi>→[0,1]</mi>,是联合奖励函数集合,包括领导者奖励函数和每个跟随者n的奖励,为常数,<mi>γ∈</mi><mi>0,1]</mi></mfenced>是折扣因子,用于确定未来奖励的现值。

10、可选的,所述sdis-pomdp模型中每个智能体的目标为寻找最优策略,以最大化总期望折扣奖励,目标函数公式如下:

11、;

12、;

13、式中,表示领导者智能体的最优策略,表示领导者智能体在策略下的累计回报期望大小,表示在t时刻的领导者智能体奖励大小,示在t时刻的领导者智能体局部观测状态,表示在t时刻的领导者智能体动作大小,表示在t-1时刻的跟随者智能体(1:n)动作大小;表示跟随者智能体n的最优策略,表示跟随者智能体n在策略下的累计回报期望大小,表示在t时刻的跟随者智能体n奖励大小,表示在t时刻的跟随者智能体n局部观测状态,表示在t时刻的领导者智能体制定的充放电电价,表示在t时刻的跟随者智能体n动作大小。

14、可选的,所述建立dso的领导者部分可观马尔科夫决策过程pomdp模型的过程包括:

15、领导者pomdp的状态空间模型为:领导者dso的局部观测状态;

16、其中,表示t时刻的电网分时电价,分别表示t时刻节点1:j的电压幅值和相角,分别表示t时刻节点1:j的有功和无功功率;

17、领导者pomdp的动作空间模型为:领导者dso的动作包括;

18、其中,,分别表示充放电电价的最小和最大值,,,表示t时刻节点1:j的无功补偿器的无功出力大小,分别表示节点1:j无功补偿的最小和最大值;

19、由于用户的随机用电行为,状态具有随机的状态转移概率;

20、领导者pomdp的奖励函数设置为;

21、式中,表示t时刻用来实现领导者dso最小化交易成本的奖励函数,为t时刻为保障电网电压安全而设置的奖励函数,为t时刻为保障潮流计算收敛而设置的奖励函数;

22、领导者pomdp的价值函数为:;

23、其中,表示领导者dso在状态下的状态价值函数,<mi>γ∈</mi><mi>0,1]</mi></mfenced>为折扣因子,为领导者dso在时刻奖励。

24、可选的,所述领导者pomdp的奖励函数包括:

25、;

26、;

27、;

28、式中,表示t时刻用来实现领导者dso最小化交易成本的奖励函数,表示在t时刻的领导者dso制定的充放电电价,表示t时刻电网分时电价,表示t时刻从上级电网购电量,表示t时刻eva n的充电总量;为t时刻为保障电网电压安全而设置的奖励函数,表示节点j电压幅值,分别表示节点j电压幅值的最小、最大值,为正数;为t时刻为保障潮流计算收敛而设置的奖励函数,为常数。

29、可选的,所述根据所述sdis-pomdp模型建立eva的跟随者pomdp模型的过程包括:根据嵌入聚合知识模块和分解知识模块的eva强化学习方法建立所述eva的跟随者pomdp模型;

30、所述eva强化学习方法包括根据所述聚合知识模块对本地状态进行聚合:

31、计算单辆ev在t时刻的可调节功率:

32、最小可调节功率:;

33、最大可调节功率:;

34、式中,表示ev m在t时刻的最小可调节功率,表示ev m的最大充电功率,表示放电效率,表示ev m可允许的最小荷电量,表示t时刻ev m的荷电量,分别表示ev m接入和离开充电桩时间,,,表示ev m充电的目标荷电量,表示充电效率;表示ev m在t时刻的最大可调节功率,表示evm可允许的最大荷电量;

35、计算eva n接入ev集群在t时刻的聚合最小可调节功率和最大可调节功率:

36、;

37、式中,分别表示eva n接入ev集群在t时刻的聚合最小、最大可调节功率。

38、可选的,所述eva强化学习方法还包括根据所述分解知识模块对聚合调节功率进行分解:

39、基于最低松弛度优先算法,计算每辆ev的松弛度如下:

40、;

41、根据聚合调节功率的范围选择充电或放电的功率,若聚合调节功率,选择松弛度最小的ev ,以最大可调节功率充电;若,选择松弛度最大的ev ,以最小可调节功率放电;

42、判断,是,结束;否则返回所述根据聚合调节功率的范围选择充电或放电的功率的步骤。

43、可选的,所述建立所述eva的跟随者pomdp模型的过程包括:

44、跟随者pomdp的状态空间模型为:跟随者eva n的局部观测状态为;

45、跟随者pomdp的动作空间模型为:跟随者eva的动作包括;

46、式中,表示ev集群t时刻的聚合调节功率,表示逆变器的无功调节功率,表示逆变器的视在功率大小;

47、由于ev的随机出行与充电行为,eva整体状态转移概率随机;

48、跟随者pomdp的奖励函数设置为,最小化eva的充电成本;

49、跟随者pomdp的价值函数为:;

50、式中,表示跟随者eva n在状态下的状态价值函数,为跟随者evan在时刻奖励。

51、可选的,根据基于分布式训练-分布式执行框架的smadrl算法求解的过程包括:

52、初始化领导者智能体dso的actor、critic神经网络参数,初始化跟随者智能体eva 1:n的actor、critic神经网络参数,初始化旧策略网络、,初始化训练总回合数k,初始化每回合训练总时间步数t,时间步数t=0,回合数k=0;

53、领导者dso观测,基于当前策略,决策动作,并下发给eva 1:n;

54、跟随者智能体eva 1:n分别观测本地状态,基于当前策略,决策动作并上传至dso;

55、基于所述分解知识模块分解,确定每辆ev的充放电动作,并更新电动汽车荷电量状态,更新方程表示为:

56、;

57、基于所述聚合知识模块更新和;

58、通过最大化目标函数更新actor神经网络参数和:

59、目标函数表示为:

60、;

61、其中:

62、;

63、;

64、;

65、;

66、式中,表示关于参数的目标函数,表示期望函数,表示当前策略与旧策略的概率比值,为超参数用于限制,表示基于广义优势估计理论计算的优势值;

67、通过最小化损失函数来更新critic神经网络参数和,损失函数表示为:

68、;

69、式中,表示关于参数的目标函数。

70、可选的,所述目标函数还包括:

71、;

72、;

73、;

74、;

75、式中,表示当前策略与旧策略的概率比值,为超参数用于限制,表示基于广义优势估计理论计算的优势值,表示时序差分误差,为超参数,表示状态在参数下的价值函数。

76、相比于现有技术,本发明至少具有以下有益效果:

77、本发明提出一种知识数据混合驱动的电动汽车并网分布式协同调控方法,异质的dso与eva互动被建模为斯坦克尔伯格分布式部分可观马尔科夫决策过程(sdis-pomdp),在该模型下dso与eva的奖励基于各自贡献并且无需共享奖励函数。本发明进一步提出一种基于分布式训练-分布式执行框架的斯坦克尔伯格多智能体强化学习(smadrl)算法求解sdis-pomdp模型,该算法将两个知识模块嵌入了eva智能体的学习环路,来降低eva智能体调控大规模ev时的状态和动作空间维度,从而提升样本效率。本发明具有较强的实际应用意义,为促进ev充电需求消纳以及提升电网灵活性提供技术支撑。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1