基于强化学习的微电网电能分配方法与流程

文档序号:11143808阅读:701来源:国知局

本发明涉及微电网,尤其是涉及一种基于强化学习的微电网电能分配方法。



背景技术:

微电网的提出是用于整合可再生能源、降低电网成本及提供更好电网质量。微电网包括有源负载、可再生能源发电机及电能存储设备,且可以通过变电站与主电网相连。

如果微电网中的本地产能和储能无法满足需求时,可以和主电网进行交易,购买电能;反之,当微电网中有多余的电能时,也可以卖给主电网[S.M.Amin and B.F.Wollenberg,“Toward a smart grid:Power delivery for the 21st century,”IEEE Power Energy Mag.,vol.3,no.5,pp.34–41,Sep./Oct.2005.]。[Z.Wang,B.Chen,J.Wang,et al.,“Coordinated energy management of networked microgrids in distribution systems,”IEEE Trans.on Smart Grid,6(1):45-53,2015.]阐述了一种基于分层结构的主电网和微电网之间的互动交易。[W.Saad,Z.Han,H.V.Poor,and T.Basar,“Game-theoretic methods for the smart grid:An overview of microgrid systems,demand-side management,and smart grid communications,”IEEE Signal Process.Mag.,vol.29,no.5,pp.86–105,Sep.2012.]指出主电网与微电网通过变电站进行交易过程中,由于两者距离较远,消耗、转换以及运输成本高,而地理位置临近的微电网之间的交易可以平衡电能的供需要求,并减少微电网对主电网的依赖,从而降低电网成本。[W.Saad,Z.Han,and H.V.Poor,“Coalitional game theory for cooperative microgrid distribution networks,”in Proc.IEEE Int.Conf.Commun.Workshop(ICC),Kyoto,Japan,Jun.2011,pp.1–5.]将博弈论应用于微电网之间的交易,通过合作减少损失从而达到全局成本最小化。[Pipattanasomporn M,Feroze H,Rahman S.Multi-agent systems in a distributed smart grid:Design and implementation[C]//Power Systems Conference and Exposition,2009.PSCE'09.IEEE/PES.IEEE,2009:1-8.]用拍卖算法模拟微电网的交易,即微电网之间通过多次的相互协商,找到双方都可接受的交易价格。[L.Xiao,N.B.Mandayam,and H.V.Poor,"Prospect Theoretic Analysis of Energy Exchange Among Microgrids,"IEEE Trans.Smart Grids,vol.6,no.1,pp.63-72,Jan.2015.]将前景理论用于微电网的能量交换,每个微电网应该考虑自己的利益,即每个交易者都是主观的,在电能低时不会冒险卖出或在电价高时不会买入。

在电能交易中,存在一些变量,包括可再生能源的产量、本地需求量等。[M.Fathi and H.Bevrani,“Adaptive energy consumption scheduling for connected microgrids under demand uncertainty,”IEEE Trans.on Power Delivery,28(3):1576-1583,2013.]提出采用自适应的能量消费计划解决不确定的能量需求,用在线随机迭代方式来模拟需求的随机性。由于可再生能源(风能)的产能与天气有关,产能不会发生骤变,即相邻时隙的产能有一定的关系,[Kuznetsova E,Li Y F,Ruiz C,et al.Reinforcement learning for microgrid energy management[J].Energy,2013,59:133-146.]将可再生能源(风能)的产量模拟为马尔可夫过程。



技术实现要素:

本发明目的为了解决微电网电能交易控制的问题,提供一种基于强化学习的微电网电能分配方法。

本发明包括以下步骤:

1)设置:

N个微电网用户MG和一个发电厂PP;

微电网用户之间的交易价格ρ-(买的价格)、ρ+(卖的价格)以及微电网用户和发电厂PP之间的交易价格ρp-(买的价格)、ρp+(卖的价格);

微电网用户MG最大储能值E和一次交易的最大交易值M;

微电网各电能值的增益g;

2)微电网用户MGx初始化学习因子γ、折扣因子β和最大时隙m,选择最优动作的概率p,设置Q值表、V值表值为0;

3)微电网用户MGx在k时隙的状态s,并根据Q值表,选择最优行为ax

4)微电网用户MGy在k时隙的状态s,根据greedy策略选择可行交易行为下所能达到最大效益值的行为ay

5)微电网用户MGx观察其他微电网用户当前时隙所采用行为ay,结合自身的行为ax与MGy进行交易,并计算本次信息传输的即时回报ux

6)更新微电网用户MGx的状态以及强化学习下Q学习算法的Q值表、V值表;

7)微电网用户MGx重复步骤3)-6),直到找到最优策略。

在步骤1)中,所述N可为3,3个微电网用户分两类:采用强化学习下Q学习方法的微电网用户MGx和其他2个用户(统称为用户MGy),发电厂PP无论何时都可与微电网进行交易,为促进微电网用户MG之间进行交易,设置即能保证优先与MGy进行交易,在MGy不可用情况下与PP交易;所述微电网用户MG最大储能值E和最大交易值M分别为E=10,M=2,各个电量值增益g=[1,2.25,4,4.15,4.25,4.35,4.45,4.55,5.26,6.65]表示电量值变化,采取的交易值a具体含义如下公式所示:

在步骤2)中,所述Q值表是一个二维矩阵Q(Sx,Ax),其中Sx是一个非空集合,表示微电网用户MGx的所有可能状态集合,Ax表示MGx所有可能行为的集合;所述V值表是一个一维向量,表示在每个状态sx∈S下的最大Q值,即

在步骤3)中,所述状态sx包括MGx当前电量值以及观察到MGy采取的动作ay,即微电网MGx的状态sx=(Storex,ay),Storex∈Store={1,...,E},采取的动作即交易值ay∈Ay,Ay表示MGy所有可能行为的集合;所述最优行为表示的是在当前状态sx下,按照使得值函数Q(sx,ax)最大的行为ax,即ax∈Ax

在步骤4)中,所述可行交易行为是指当前状态下MGy根据greedy策略和最优选择概率p选择所有可行动作值中所达到最大效益值的动作ay

在步骤5)中,所述即时回报ux包括MG之间或者MG与PP之间的交易获益Ct、MGx一次交易的增益差值Δg以及是否满足正常供电要求的奖惩Cn,如下公式所示:

ux(ax,ay)=Δg+Ct+Cn,其中Δg=g(sx+ax)-g(sx)

上式中Stemp表示微电网MG当前的存储的电量值,Use_need表示每时隙正常需求量,能够满足则给奖励,否则进行惩罚。

在步骤6)中,Q学习算法的Q值表、V值表更新算法表示如下:

Q(Sxk,Axk)=(1-γ)Q(Sxk,Axk)+γ(ux+βV(Sxk+1))

在步骤7)中,所述最优策略指的是每个状态下,使得累计回报函数最大化。

与已有的微电网交易方法不同,本发明基于强化学习实现交易控制,从而达到电能交换的目的。该方法中微电网通过不断学习环境,决定是否与其他微电网交易及交易量,随着迭代学习的延续,最终使得自身的收益最大化。

与现有的方法(指背景技术中所述方法)不同,本发明的目的在于解决微电网电能交易控制的问题,提供一种基于强化学习的微电网电能交易系统。根据其他微电网和发电厂的电能交易值以及自身的储电量等信息,采用强化学习算法,选择每次交易的最优电能值。微电网根据每次交易的即时回报进行信息更新,并对下一次交易策略做出不同的调整。该方法不需预测周边各微电网的耗电模型和产电模式,可适应动态智能电网场景,通过智能学习获取最优的电量买卖值,从而提高微电网整体效益和电能利用率,并降低对电厂总体电能需求。

具体实施方式

1)设置3个微电网用户MG,一个发电厂PP,微电网用户之间的交易价格ρ-(买的价格)、ρ+(卖的价格)以及微电网用户和发电厂PP之间的交易价格(买的价格)、(卖的价格),设置微电网用户MG最大储能值E和一次交易的最大交易值M,微电网各电能值的增益g;

2)微电网用户MGx初始化学习因子γ、折扣因子β和最大时隙m,选择最优动作的概率p,设置Q值表、V值表值为0;

3)微电网用户MGy在k时隙的状态根据greedy策略选择可行交易行为下所能达到最大效益值的行为ay

4)微电网用户MGx在k时隙观察当前状态并根据Q值表,选择此状态下最优行为ax

5)微电网用户MGx观察其他微电网用户当前时隙所采用行为ay,结合自身的行为ax与MGy进行交易,并计算交易之后的即时回报ux:ux(ax,ay)=Δg+Ct+Cn;

6)微电网用户MGx观察下一个时隙状态sxk+1

7)微电网用户更新Q值表和V值表:

8)当前时隙k=k+1;

9)判断当前时隙k是否已是Q学习的最大时隙m,若是,则结束学习,否则重复2)-9)。

本发明涉及微电网电能交易系统,属于智能电网领域。本发明目的在于解决微电网电能交易控制的问题,提供一种基于强化学习的微电网电能交易系统。根据其他微电网和发电厂的电能交易值以及自身的储电量等信息,采用强化学习算法,选择每次交易的最优电能值。微电网根据每次交易的即时回报进行信息更新,并对下一次交易策略做出不同的调整。该方法不需预测周边各微电网的耗电模型和产电模式,可适应动态智能电网场景,通过智能学习获取最优的电量买卖值,从而提高微电网整体效益和电能利用率,并降低对电厂总体电能需求。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1