基于深度强化学习计及新能源消纳的主动配电网调度方法与流程

文档序号:36653671发布日期:2024-01-06 23:39阅读:24来源:国知局
基于深度强化学习计及新能源消纳的主动配电网调度方法与流程

本发明涉及电力系统能源调度,尤其涉及一种基于深度强化学习计及新能源消纳的主动配电网调度方法。


背景技术:

1、随着社会经济的快速发展,对能源的需求日益增大。而煤炭等传统能源的大量使用,不仅使其存量减少,也会造成严重的环境污染。应用新能源的分布式发电可以有效降低对传统能源的依赖,并承担部分供电压力。新能源的主要来源是风能、光伏等,在具有环保优势的同时,也存在天气变化等因素导致的发电功率不稳定等问题。区域配电网将分布式能源系统、储能系统和负荷集于一体,并与主动配电网连接形成供需平衡。常用的区域配电网调度方案有传统方法、启发式方法以及基于强化学习的方法。传统方法包括非线性规划、二次规划、牛顿法等,该类方法计算简单,但是较难处理复杂问题;启发式方法包括遗传算法、模拟退火算法、粒子群算法等,这类算法存在算法复杂、模型依赖、易陷入局部最优等问题。而基于强化学习的调度策略,模拟人类学习过程,通过与环境的不断交互来寻找最优策略,目前取得较好的应用效果。但是以上方法往往受电力系统动态性和新能源间歇性影响较大,造成调度结果与实际状况存在一定的误差。同时,由于新能源存在出力不稳定等问题,“弃风弃光”现象日益严重,因此在区域配电网调度时,不仅要考虑电价等的成本效益,还需要考虑新能源消纳问题。


技术实现思路

1、有鉴于此,本发明提供一种基于深度强化学习计及新能源消纳的主动配电网调度方法,构建学习模型用于实施储能设备的优化调度,减小新能源间歇性、不确定性带来的影响,实现新能源产出电量的充分、合理地消纳。

2、本发明实施例解决其技术问题所采用的技术方案是:

3、一种基于深度强化学习计及新能源消纳的主动配电网调度方法,包括:

4、步骤s1,根据区域配电网结构建立仿真模型,获取所述区域配电网结构中光伏出力历史数据、风力出力历史数据、村庄用电负荷历史数据以及工厂用电负荷历史数据,应用vmd数据预处理技术、pcc相关性分析算法和bilstm模型,预测出未来24小时的光伏出力预测数据、风力出力预测数据、村庄用电负荷预测数据以及工厂用电负荷预测数据,作为强化学习调度模型的训练数据集;

5、步骤s2,定义强化学习中马尔科夫决策所需的仿真模型;

6、步骤s3,采用rainbow算法,对所述步骤s2定义的仿真模型进行训练,将24小时分为24个调度时刻,应用24小时的实时预测数据反复训练,直至最终的奖励函数达到收敛;

7、步骤s4,将所述步骤s3训练好的智能体应用于区域配电网调度,在每一个调度时刻,将对应的状态空间s(t)输入rainbow算法中的q神经网络,得出当前状态空间下每一个可执行动作的q函数;通过比较每个动作的q函数选出最优动作,从而控制所述储能设备的动作策略。

8、较优地,所述步骤s1包括:

9、步骤s11,获取4种数据序列x(t)l并进行数据清洗预处理,其中l∈{1,2,3,4},l指示数据序列的类型,数据序列的类型包括光伏数据类型、风力数据类型、村庄用电数据类型、工厂用电数据类型;

10、步骤s12,应用数据预处理技术对清洗后的数据序列x(t)l进行vmd分解,得到k个固态模式分量其中k代表vmd分解后得到的第k个固态模式分量;

11、步骤s13,步骤s13,对各所述固态模式分量进行pcc相关性分析,计算特征分量之间的相关系数,筛除相关程度低的imf分量,以及提取出k'个相关性高的imf分量;

12、步骤s14,应用所述bilstm模型对所述k'个相关性高的imf分量进行处理,提取特征并预测出预测分量

13、步骤s15,叠加得出预测数据

14、较优地,所述步骤s12包括:

15、步骤s121,针对预处理之后的数据序列x(t)l,假定每个模式具有一个中心频率的有限带宽,现在寻找k个模式,使每个模式的估计带宽之和最小,具体模型为:

16、

17、

18、式中,k为需要分解的固态模式分量个数,{uk}、{ωk}分别对应分解后第k个模式分量和中心频率,δ(t)为狄拉克函数,*为卷积运算,表示对时刻t求微分,j表示虚数单位,||||2表示二范式函数,s.t.表示约束条件;

19、步骤s122,为求解所述步骤s121提出的模型,引入惩罚因子α和拉格朗日乘法算子λ,将约束问题转化为非约束问题,得到增广拉格朗日表达式:

20、

21、通过乘法器交替方向法迭代更新参数uk、ωk和λ,更新公式为:

22、

23、

24、

25、其中和表示x(t)l、ui(t)、λ(t)和的傅立叶变换,n是迭代次数,γ为噪声容忍度;

26、步骤s123,对于给定的判断精度e>0,若满足则停止迭代,否则返回执行所述步骤s122;

27、步骤s124,迭代结束,得到k个u分量,即所述imf分量,记为

28、较优地,所述步骤s13包括:

29、步骤s131,利用皮尔逊相关系数pcc,对各所述固态模式分量进行相关性分析,以所述数据序列x(t)l为目标值,计算相关系数ri,pcc的计算公式为

30、

31、其中,imfit,l表示第i个分量,i=1,2,…,k;cov(imfit,l,x(t)l)为imfit,l和x(t)l的协方差,ver[imfit,l]和ver[x(t)l]分别为imfit,l和x(t)l的方差;

32、步骤s132,根据所述步骤s131所得的相关性分析结果ri筛选出k'个相关性高的imf分量,k'≤k。

33、较优地,所述步骤s132根据相关性分析结果ri筛选出k'个相关性高的imf分量的筛选方式包括:

34、按照ri从高到低的顺序选取出前k'个ri所对应的imf分量。

35、较优地,所述步骤s14应用bilstm模型对所述k'个相关性高的imf分量进行处理,提取特征并得到预测分量过程中,对应t时刻的bilstm模型为:

36、输入门:

37、遗忘门:

38、记忆单元:

39、输出门:

40、隐藏状态:

41、式中,it表示输入门,ft表示遗忘门,ct表示记忆单元,ot表示输入门,ht表示隐藏状态;tanh、sigmoid表示激活函数;whi、whf、whc、who分别表示输入门、遗忘门、记忆单元、输出门的特征提取过程中ht-1的权重系数;wxi、wxf、wxc、wxo分别表示输入门、遗忘门、记忆单元、输出门的特征提取过程中的权重系数;bi、bf、bc、bo分别表示输入门、遗忘门、记忆单元、输出门的特征提取过程中的偏置值;ht-1表示前一时刻的隐藏状态;ct-1表示未更新时的记忆单元。

42、较优地,所述步骤s2包括:

43、步骤s21,定义环境状态空间s(t),所述s(t)由24小时的村庄用电负荷数据、工厂用电负荷数据、风力出力数据、光伏出力数据以及储能设备的实时储电状态五个部分组成;

44、步骤s22,定义智能体的动作空间,所述动作空间包括所述储能设备的充电、放电、闲置三种动作;

45、步骤s23,定义用于控制储能设备的动作的奖励函数;

46、步骤s24,智能体与主电网交互,区域配电网通过公共连接点与所述主电网相连接,当所述区域配电网中全部新能源出力能够满足全部负荷需求且所述储能设备电量已满时,将新能源剩余的电量回馈给主电网;当新能源出力和所述储能设备不能满足全部负荷需求时,向所述主电网购电。

47、较优地,所述步骤s21中,在未来的调度时刻t,所述智能体从环境中获取t时刻的光伏出力预测数据风力出力预测数据村庄用电负荷预测数据工厂用电负荷预测数据储能设备t时刻电量状态et,这五个状态信息组成环境状态空间为未来24小时内的调度时刻;

48、所述步骤s22中,所述储能设备的动作策略集合a包括:

49、

50、其中,ai表示储能设备的充电动作策略,具体为通过光伏出力、风力出力或主电网向所述储能设备充电,ao表示所述储能设备的放电动作策略,具体为所述储能设备向村庄用电设备、工厂用电设备或者主电网放电,an表示所述储能设备的闲置动作策略;

51、进一步的,在满足物理约束条件下,采用动态模型表示所述储能设备,具体表示为:

52、

53、其中,et表示所述储能设备的t时刻电量,满足emin<et<emax,这里emin和emax分别表示所述储能设备的最大容量和最小容量;pt表示所述储能设备的充放电功率,pt<0代表所述储能设备处于放电状态,pt>0代表所述储能设备处于充电状态;ζ和η分别表示所述储能设备的充电效率和放电效率;

54、所述步骤s23中,在满足储能设备物理约束条件下,所述奖励函数设定为:

55、

56、式中,ko为放电奖励因子,ki为充电奖励因子,n为惩罚因子;

57、所述步骤s24中设定电网功率平衡限制,功率平衡关系为:

58、pbalance(t)=prenew(t)-pload(t)

59、pgrid(t)=pbalance(t)+pe(t)

60、式中,prenew(t)为t时刻所述区域配电网中新能源总发电功率,pload(t)为t时刻区域配电网中负荷的消耗总功率;pbalance(t)为所述新能源发电总功率与所述负荷的消耗总功率的供需差值,pbalance(t)>0表示所述区域配电网中新能源发电功率过剩,pbalance(t)<0表示所述区域配电网中新能源发电功率不足;pe(t)>0时,pe(t)表示储能设备放电功率,pe(t)<0时,pe(t)表示储能设备充电功率;pgrid(t)为所述区域配电网与所述主电网相互传输电功率,pgrid(t)为正则表示所述区域配电网向所述主电网输送,pgrid(t)为则负表示所述主电网向所述区域配电网输电。

61、较优地,所述步骤s3包括:

62、步骤s31,构建一个隐藏层和两个全连接层的神经网络,将所有全连接层参数加上一个高斯分布的噪声项进行干扰,替代dqn的ε-greedy(随机-贪婪)的探索方式。通过对所述全连接层参数增加噪声有效的加强了算法的探索能力,将原有前项计算公式y=wx+b变体为:

63、y=(μw+σw⊙nw)x+μb+σb⊙nb

64、变体公式中,将公式y=wx+b中的权重w和误差b转化为服从于均值μ和方差σ的正态分布,且服从高斯分布的随机噪声ε,其中,ε是每一轮训练中产生的常量,nb、μb、σw、nw、μw均为参数;

65、步骤s32,在输出层q网络前加入一个竞争网络,将输出层的q函数分解为价值函数v和优势函数h的和,即q=v+h,其中,v表示状态引起的奖励值,h表示所述储能设备执行充电、放电、闲置动作后得到的奖励值,由于q网络有状态的约束,优先更新v值,再调整h值,q函数公式为:

66、

67、式中,at是动作策略,θ是所述q函数的网络层参数,ω是价值函数网络层参数,υ是优势函数网络层参数,为优势函数平均值,a′t为在状态st中产生的所有可能动作;

68、步骤s33,搭建两个q网络作为所述神经网络的输出层,将动作选择at和选取动作的v值进行解耦,其中第一q网络用于选择当前状态下的最佳动作,第二q网络用于对充放电动作的评估;

69、步骤s34,使用多步学习策略,通过与环境交互得到即时奖励,奖励公式为:

70、

71、

72、式中n为步幅长度,θ为神经网络参数,d为折扣率,r为回报值;

73、步骤s35,采用优先经验回放池pr,自定义一个固定容量的经验池,将所述智能体训练后的每一组数据(st,at,rt,st+1)放入所述经验池中,同时计算训练数据误差δi,赋予不同的误差优先级重新送入所述神经网络中训练,具体采样优先级的公式如下:

74、

75、ρi=|δi|+ε

76、δi=|q(st,at)-q'(st,at)|

77、式中,pi是相关性值,ε是防止pi为0的噪声因子,β为用于调节优先度的退火因子,δi为一组经验在训练时所造成的误差值。

78、由上述技术方案可知,本发明实施例提供的基于深度强化学习计及新能源消纳的主动配电网调度方法,首先根据区域配电网结构建立仿真模型,获取区域配电网结构中光伏出力历史数据、风力出力历史数据、村庄用电负荷历史数据以及工厂用电负荷历史数据,应用vmd数据预处理技术、pcc相关性分析算法和bilstm模型预测出未来24小时的光伏出力预测数据、风力出力预测数据、村庄用电负荷预测数据以及工厂用电负荷预测数据作为强化学习调度模型的训练数据集;定义强化学习中马尔科夫决策所需的仿真模型;采用rainbow算法,对步骤s2定义的仿真模型进行训练;将训练好的智能体应用于配电网调度,在每一个调度时刻,将对应的状态空间s(t)输入rainbow算法中的q神经网络,得出当前状态空间下每一个可执行动作的q函数;通过比较每个动作的q函数选出最优动作,从而控制储能设备的动作策略。本发明构建学习模型用于实施储能设备的优化调度,减小新能源间歇性、不确定性带来的影响,实现新能源产出电量的充分、合理地消纳。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1