基于多智能体深度强化学习的5G基站储能电池充放电调度方法

文档序号:37242319发布日期:2024-03-06 17:11阅读:70来源:国知局
基于多智能体深度强化学习的5G基站储能电池充放电调度方法

本发明涉及电力调度,特别涉及一种基于多智能体深度强化学习的5g基站储能电池充放电调度方法。


背景技术:

1、在共享经济,提高能源利用效率,减少电力系统的碳排放量,已成为电力系统建设的时代命题。而实现电力系统的碳减排,根本手段是能源替代——通过大规模的可再生能源替代煤炭等化石能源进行发电以有效减少碳排放。

2、利用储能系统,可极大地提升电力系统的调度性能。随着5g基站渗透率迅速提高,基站群的储能电池容量不可小觑,同时,5g基站内部储能锂电池具有响应速度快、接入系统的时间长等特点,具有进行灵活调度的巨大潜力,此外考虑到基站备用储能的不可移动性、闲置时间长,故将5g通信基站作为储能机构,不仅能够降低储能系统的建造成本,而且对提高能源利用效率、减少碳排放、降低宏观上电力系统传输线路两侧的压降(大规模基站接入电网使节点增多,相当于降低了电阻,从而降低功耗),提高电力质量颇有益处。

3、不过,对于大规模通信基站的储能电池接入电力系统,仍面临以下技术问题:

4、1、鉴于配电网的低感知度特性,作为调度主体的电力系统无法同时对所有对象进行感知并发布调度策略。接入电网的各节点相互独立,从属于不同单位,无法站在总主体者的位置对其进行采样,而采样信息收集得不全,导致无法对系统进行准确稳定的数学建模(只能采集到部分观测数据,少量偏差就会对模型的准确性和稳定性造成影响)。

5、2、存在多个利益主体,包括配电网、不同的通信运营商等,不同的基站面临不同的利益主体,导致不能将基站群当成对单个基站的简单复制累加。


技术实现思路

1、基于大规模通信基站的储能电池接入电力系统所面临的技术问题,本发明提供一种基于多智能体深度强化学习的5g基站储能电池充放电调度方法;该方法以最小化配电网运行成本为目标,并使用matd3多智能体算法,利用各智能体独立学习配电网各电气子区域下的5g通信基站储能机构充放电策略,各智能体仅需采集其所属电气子区域的电气信息和基站信息即可完成合理调度,而不必采集系统全部信息,也不必实现各部位的通信;而且,该方法能够在满足5g通信基站平稳运行的前提下,通过控制储能的充放电过程优化电力系统的低碳经济调度,提高可再生能源利用率,实现低碳减排。

2、本发明提供的基于多智能体深度强化学习的5g基站储能电池充放电调度方法,其包括以下步骤:

3、s1:将配电网系统划分d个电气子区域,利用智能体a1、a2、…、ad分别观测各自所属电气子区域的状态信息;

4、s2:每经过一个决策周期,智能体ai获取电气子区域i在当前时刻t对应的状态信息st,i={gt,i,et,i,t},gt,i代表智能体ai在当前时刻t可获取的电力系统的局部基本信息;et,i代表智能体ai在当前时刻t可获取的部分5g基站的信息;

5、s3:将获取的智能体ai对应的状态信息st,i={gt,i,et,i,t}输入至训练完成的多智能体调度模型,并输出相应的调度策略;其中,所述多智能体调度模型被配置为以最小化电力系统运行成本为目标,并基于matd3算法训练各个的智能体ai;

6、s4:根据所述调度策略,执行相应的控制动作,以控制各个5g基站储能电池的充放电动作。

7、根据一种可能的实施方式,以最小化电力系统运行成本为目标,其目标函数被配置为:

8、

9、其中,f为电力系统运行成本;fgi为第i台发电机的发电成本;fbj为第j台基站的调度运行成本;fc为系统的碳排放成本;pi为用于约束智能体输出的惩罚项,为基站i动作的辅助向量、为当前策略下智能体控制基站i的动作向量;(agi,bgi,cgi)分别代表第i台火电机组发电成本的二次、一次和常数项系数,其可通过对发电机在不同功率水平下的运行成本进行统计求得;pgi代表第i台火电机组的发电功率;(aci,bci,cci)分别代表第i台火电机组在不同功率水平下的煤耗量的二次、一次和常数项系数;代表第i台火电机组的发电功率关于其自身的百分比;α代表基站储能电池的折旧成本系数;β代表基站储能电池的调节成本系数;pbj代表第j台基站的储能电池的运行功率;δpbj代表第j台基站的储能电池的功率变化值;pc代表碳交易价格;η代表碳排放因子。

10、根据一种可能的实施方式所述状态信息st,i={gt,i,et,i,t}中,其中,分别代表智能体ai所属电气子区域i节点的电压幅值、有功功率以及无功功率值;代表智能体ai所属电气子区域i中的风电机组出力;{vli(t)}l=1,...,e代表智能体ai所属电气子区域i中的光伏机组出力;et,i={esys,esoc,ecap,α,β,ech,edis,eload,ew,ξ};其中;esys代表维持5g基站正常运行所必要的设备的功率数据;esoc代表5g基站储能电池当前的soc水平;ecap代表5g基站基站储能电池容量;ech代表5g基站储能电池充电功率;edis代表5g基站储能电池放电功率;ξ代表基站储能电池充/放电效率,eload代表5g基站过去k个统计周期及当前时刻的通信负载率;ew代表5g基站所在的地区。。

11、根据一种可能的实施方式,基于matd3算法训练智能体过程中,算法交替进行策略评估和策略改进;其中,

12、在策略评估阶段,需要计算状态-动作价值,即该q函数可以由bellman方程表示为:

13、

14、利用神经网络将q函数参数化后,通过最小化bellman残差来近似q函数:

15、

16、其中,分别代表第i个智能体的q网络和target q网络的参数;st代表在t时刻由全部智能体的观测量st,i拼接得到的向量;

17、在策略改进阶段,利用神经网络将q函数参数化后,将最小化目标函数jβi(μ)用于更新网络参数的梯度,即:

18、

19、根据一种可能的实施方式,matd3算法训练智能体过程中,还通过两个初始参数不同的target q网络来进行目标价值评估,并选择其中的较小值作为目标价值,因此,需最小化的bellman残差修正为:

20、

21、其中,为带噪音的动作;和为两个不同的target q网络的参数;

22、以及,使用目标策略平滑正则化,以增强策略的稳定性并平滑q函数;即在计算bellman残差时,在下一状态st+1所采取的动作at+1将被选取为:

23、

24、其中,μ表示target策略网络;ε为添加的噪音,一般选为高斯噪音,并对其幅值进行剪切以限制在一个较小的范围。

25、根据一种可能地的实施方式,配置智能体输出参数aμ和astd,并以此作为q网络的输入,实际动作a'te选取为:

26、a'te=tanh(aμ+astd·ε)

27、

28、基于上述方案,本发明的有益效果为:

29、1、本发明以最小化电力系统运行成本为目标,将配电网系统划分多个电气子区域,并使用matd3多智能体算法,利用各智能体独立学习配电网各电气子区域下的5g通信基站储能机构充放电策略,各智能体仅需采集其所属电气子区域的电气信息和基站信息即可完成合理调度,而不必采集系统全部信息,也不必实现各部位的通信,从而解决配电网状态信息复杂、难以建立精确数学模型、低感知度的特性和5g通信基站数目繁多以及不同区域主体间数据无法共享的问题。

30、2、本发明考虑潜在的多种利益主体(如配电网侧、通信运营商侧),用多智能体来处理多主体问题(利益侧的多主体和信息侧的多主体);同时,在最小化电力系统运行成本的目标函数中,不仅计及各利益主体的成本,还把用碳量折算为碳价参与目标函数构造,能够在满足5g通信基站平稳运行的前提下通过控制储能的充放电过程优化电力系统的低碳经济调度,大幅降低储能系统建设成本,提高可再生能源利用率,实现低碳减排。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1