一种基于Nash-Q方法的市场化初期多利益主体参与下配电网日前市场交易方法

文档序号:31051392发布日期:2022-08-06 07:25阅读:171来源:国知局
一种基于Nash-Q方法的市场化初期多利益主体参与下配电网日前市场交易方法
一种基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法
技术领域
1.本发明涉及配电网电力市场交易分配领域,具体是一种基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法。


背景技术:

2.随着电力体制改革的不断推进,其重点依然是管住中间,放开两端。在发电市场改革日趋成熟的背景下,售电市场开放将成为深化电力体制改革的重要任务。配网电力市场将由原先的统购统销模式转变为中长期合约市场、日前市场与实时市场三者结合的市场模式。市场交易方由传统的配电网运营商(distribution network operator,dno),拓展至发售一体的分布式电源运营商(distributed generation operator,dgo),负荷聚合商(load aggregator,la),甚至综合能源服务商等。
3.目前国内对于售电市场的交易策略及交易模式已有诸多研究。首先产生了基于优化理论的日前电力市场化机制,该机制允许市场成员改变竞价策略,有效解决市场成员成本信息不对称的问题。其次含发电企业,新兴售电实体及用户的市场多主体博弈模型被提出,作为仅适用某时段的静态交易方法,尚未涉及连续时段的动态交易策略。基于大用户直购电背景,激励用户参与风电消纳的市场模式、使用nash均衡求解的含多个发电商及用户的双边合同交易主从博弈模型相继被提出。已有研究综述了在配网侧分布式主体参与市场的交易机制。其结果表明,分布式主体通过实时电价参与交易,打破传统以配网运营商为中心的交易模式,可以实现分布式主体和系统整体的双赢局面,详见文献(陈启鑫,王克道,陈思捷,等.面向分布式主体的可交易能源系统:体系架构、机制设计与关键技术[j].电力系统自动化,2018,42(03):1-7.doi:10.7500/aeps20171031002.)。
[0004]
上述已有的研究均立足于相对成熟的电力市场背景,各市场主体均能自由参与市场交易。然而在市场化的初期,售电侧应是开放给部分购电用户,同时传统电网运营商还需要承担传统的供电安全与质量的基本责任。在保证向用户安全可靠供电的同时,如何通过利益分配调动各方积极性是目前亟待解决的一个问题。


技术实现要素:

[0005]
本发明所要解决的技术问题是提供一种基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法,在保证向用户安全可靠供电的同时,又能激励新能源等市场主体积极参与市场,还能提升新能源参与电力平衡贡献度和降低配电网消纳新能源的风险在保证向用户安全可靠供电的同时,通过利益分配调动各方积极性。
[0006]
本发明提供一种基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法,包括以下步骤:
[0007]
步骤s1:确定配电网日前电能市场出清模式;
[0008]
步骤s2:依据配电网日前电能市场出清模式,建立多主体博弈框架;
[0009]
步骤s3:根据各主体可控电能资源情况,建立配电网日前电能市场多主体报价收益模型;
[0010]
步骤s4:依据步骤s2建立的多主体博弈框架和步骤s3建立的配电网日前电能市场多主体报价收益模型,建立多主体博弈均衡模型;
[0011]
步骤s5:基于nash-q方法对步骤s4建立的多主体博弈均衡模型对配电网日前电能市场的交易出清及收益进行求解。
[0012]
进一步的,所述步骤s1确定的配电网日前电能市场出清模式具体为:
[0013]
用户提前一天向电力交易中心iso提交次日各交易时段的需求曲线,电力交易中心iso根据历史信息进行次日电价预测并发布给各市场成员作为标杆参考;
[0014]
各售电商根据iso公布的信息及自身供给能力申报供给曲线,售电商对自身能供给的最大出力做出预测,同时配合储能、小规模燃气轮机和柔性负荷;
[0015]
iso根据各方申报信息,按照pab竞价机制,在满足系统安全的前提下,确定交易时段内各主体的交易量及交易价格,并公开当前信息;
[0016]
在iso最后进行市场清算以前,各售电主体有权根据当前信息以自身利益最大化为目标按照一定规则修改报价,iso全程对日前市场交易实施监督,防止恶意竞价直至最终市场清算完成。
[0017]
进一步的,步骤s2具体包括:
[0018]
选取配电网运营商(dno)、分布式电源运营商(dgo)、以及
[0019]
负荷聚合商(la)作为配电网日前电能市场交易的主体构建博弈框架,配电网运营商(dno)的可控资源包括主网交换功率、燃气轮机,分布式电源运营商(dgo)主要运营风电系统,负荷聚合商(la)运营光电系统和可中断负荷;其中配电网运营商(dno)、分布式电源运营商(dgo)、以及负荷聚合商(la)三类主体都参与对可交易负荷供电量的竞争,新能源配合储能保持出力平稳,dno是配网电能的主要承担者,在参与对可交易负荷竞争的同时承担在其他售电公司不能履行交易条约时,主动保证供电服务和供电质量的保底供电机制,dno控制燃气轮机与la控制可中断负荷均参与保底供电机制的竞争。
[0020]
进一步的,所述步骤s3具体包括:
[0021]
步骤s301:建立dno收益模型
[0022]
dno收益模型在整个调度周期的利润f
dno
为公式(1)~(3)所示:
[0023][0024][0025][0026]
式中,δt为调度时段长度,n
t
为调度总时段数,为t时段dno的效益,为t时段dno的成本;
[0027]
包括售电效益及网损改善效益,公式(2)中为t时段dno参与博弈所获得的供电量,为dno的售电电价,p
loss,t
为dno参与市场交易后减小的有功网损,为dno从主网购电的单位电价;
[0028]
包括从主网购电成本、购买il的成本、启用燃气轮机的成本以及承担保底供电机制职责的成本;为dno从la所购的il电量,为il的售电电价,μ
t
为代表燃气轮机运行状态的布尔变量,燃气轮机在t时段运行则μ
t
=1,反之为0,为燃气轮机启停一次成本,为燃气轮机供电电量,为燃气轮机运行单位电价,为承担保底供电机制职责的成本;
[0029]
同时,dno需要承担在其他售电公司不能履行交易条约时,主动保证供电服务和供电质量的保底供电机制的责任,因此取用电网节点电压和支路潮流是否越限作为保底供电机制评判标准,即
[0030]
(1)配电网节点电压必须维持在一个合理范围内以保证供电质量,如公式(4)所示:
[0031][0032]
(2)配电网各支路潮流必须限定在各支路最大允许传输功率内以保证电网运行的安全性,应满足公式(5)所示:
[0033][0034]
式中λ1、λ2为违反机制的惩罚费用常数;
[0035]
步骤s302:建立dgo收益模型
[0036]
对于dgo收益模型,dgo运营配电网中的风储系统,其收益函数f
dgo
为公式(6)~(8)所示:
[0037][0038][0039][0040]
式中,为t时段dgo的售电效益。为dgo参与博弈后所得供电量,为dgo的售电电价,为t时段dgo的成本,为单位风电运维成本,为风储系统充放电量,w
es,t
为储能系统运行维护成本;
[0041]
步骤s303:建立la收益模型
[0042]
对于la收益模型,la运营配电网中的光储系统,同时控制il作为需求侧资源参与市场交易,收益函数f
la
为公式(9)~(11)所示:
[0043][0044][0045]
[0046]
式中,为t时段la的售电效益,为la参与博弈后所得供电量,为la的售电电价,为t时段la的成本,为单位光电运维成本,为la买进il需要给用户的单位补贴成本,为光储能系统的充放电量;
[0047]
步骤s304:构建三方博弈约束条件
[0048]
(1)功率平衡约束
[0049]
dno、dgo和la三方参与配电网日前电能市场博弈,必须以功率平衡约束为前提,此约束为公式(12):
[0050][0051]
式中,为大用户在t时段所需电量,在任意时段,三方联合供电量必须满足负荷所需电量
‘’
[0052]
(2)储能设备运行约束
[0053]
为保证储能系统的寿命及控制周期的连续性,储能系统必须满足充放电约束及在一个调度周期内能量变化为零的约束,此约束如式公(13)~(15)所示:
[0054]emin
≤e
t-1
+[p
st,t
δ
st-p
ex,t

ex
]δt≤e
max
ꢀꢀ
(13)
[0055][0056][0057]
式中,e
min
、e
max
、e
t-1
为储能设备最小,最大容量及t-1时段末的存储电量,p
st,t p
ex,t
和δ
st
、δ
ex
为t时段充、放电功率及充、放电效率。p
es,max
为储能在t时段的最大允许充放电功率;
[0058]
(3)il特性约束
[0059]
可中断负荷作为负荷侧资源参与需求响应,所述il特性约束包括il的交易时长约束和交易电量约束,两个约束分别如公式(16)~(17)所示
[0060]
p
il,t
≤p
il,max
ꢀꢀ
(16)
[0061]
t
il
≤t
il,max
ꢀꢀ
(17)
[0062]
式中,p
il,t
,p
il,max
为在t时段il的交易电量及最大允许交易电量;t
il
,t
il,max
为il的交易时长及最大允许交易时长。
[0063]
进一步的,所述步骤s4具体包括:
[0064]
步骤s401:构建多主体博弈均衡模型
[0065]
竞价开始时,dno、dgo、la以日前iso发布的信息作为参考上报t时段阶梯电量及对应阶梯电价在市场出清过程中,iso采用排队法计算各方所供电量同时按照pab结算机制由式(1)~(11)确定各方收益;
[0066]
根据nash平衡定义,当博弈一方电价自行改变时,其他两方都不会有意愿主动改变电价以使收益增加,其均衡解为:
[0067]
[0068][0069][0070][0071]
式中分别为dno,dgo,la可选最优策略集,在此策略集下,三方博弈达到均衡状态;为各方可选报价策略,k
bd
为各方允许电价波动系数,为各方在t时段的首轮报价策略,为保证三方博弈公平公正,均衡解必须限定在允许电价波动系数k
bd
的范围内;
[0072]
步骤s402:形成多主体博弈均衡模型评价指标
[0073]
定义如下三个指标:
[0074]
(1)利益分配均衡度
[0075]
市场交易过程中时段t各售电商之间利益分配的均衡程度采用均衡度e(x
1,t
x
2,t
x
3,t
)来评价,x
1,t
x
2,t
x
3,t
分别为dno,dgo,la在t时段的各自收益与三方收益总和之比,具体如公式(22)~(25)所示:
[0076][0077][0078][0079][0080]
(2)电力平衡贡献度
[0081]
电力平衡贡献度用于衡量市场交易过程中新能源在负荷高峰时缓解供电压力,参与调峰的效果,其计算公式为:
[0082][0083]
式中,t1,t2分别为午高峰和晚高峰的时段集合。n1,n2为午高峰和晚高峰的时段数,p
load,午高峰
p
load,晚高峰
分别为午高峰和晚高峰时段内参与交易的用户负荷量;
[0084]
(3)新能源平均渗透波动率
[0085]
该指标用于衡量配网消纳新能源所需要承担风险值,如公式(27)所示:
[0086][0087]
式中,p
sumload,t
为配网在t时段内的负荷总量。该指标越小,表示新能源供电能力越稳定,配网需要应对新能源出力波动风险而提供备用容量越稳定,所承担消纳新能源风险越小。
[0088]
进一步的,所述步骤s5中的nash-q方法是将q学习算法和博弈论相结合而提出的,q学习算法的原理是利用当前经验q值作为后续q值计算的初始值,迭代式应如公式(28)、(29)所示:
[0089][0090][0091]
式中,s,s'分别为当前状态与未来状态,s为状态空间集合;r(a,s)表示智能体在状态s下采用动作a以后的奖励值,a为动作策略集合;q
n+1
(a,s),qn(a,s)为第n+1步与n步目标值;表示智能体在状态s'有可能获得的最大奖励值,α为学习参数,γ为折扣因子,p(ai)为状态s下选择动作ai的概率;
[0092]
nash-q方法利是用nash平衡解定义q值函数,智能体i在状态s'与其他智能体形成博弈均势并有均衡解[π1(s')π2(s')...πm(s')],其中m为智能体个数,因此q值迭代式应如公式(30)表示:
[0093][0094]
式中,表示智能体i选择纳什均衡解的收益函数。
[0095]
进一步的,步骤s5对配电网日前电能市场的交易出清及收益进行求解的具体步骤如下:
[0096]
(1)初始化q值表,q值表中各元素(a,s)的初值均取为0;
[0097]
(2)建立q学习所需要的动作-状态对,动作策略选取上,将储能设备的充放电行为,il与燃气轮机是否参与市场交易行为作为策略集,即a={a
eailam
};
[0098]
状态空间选取上,将时刻、新能源的预测出力和储能存储电量值作为状态元素,为配合q学习算法需要,将变量离散化成等长区间形式,为公式(31)、(32)所示:
[0099]ex
=[e
min
+xδee
min
+(x+1)δe]
[0100]
δe=(e
max-e
min
)/m 0≤x≤m-1x∈n
ꢀꢀ
(31)
[0101]
py=[yδp(y+1)δp]
[0102]
δp=p/n 0≤y≤n-1y∈n
ꢀꢀ
(32)
[0103]
式中e
max
,e
min
分别为储能的最大和最小存储电量,p为新能源装机容量。,对于任一时刻,给定新能源出力值和当前储能存储电量,即可确定唯一状态s={s
tsp
se};
[0104]
(3)根据步骤s4中的描述,三方根据日前iso发布信息上报t时段首轮的基准阶梯电价-电量组,为保证公平公正,在当轮博弈开始后,阶梯电量保持不变,阶梯电价在限定的电价波动系数k
bd
的范围内变化,第i轮博弈电价将以第i-1的博弈电价作为输入,如公式(33)~(35)所示,即
[0105][0106][0107][0108]
(4)判断三方博弈是否达到纳什均衡,即第i轮博弈优化结果与第i-1轮优化结果保持一致,应为公式(36)~(38)所示,即
[0109][0110][0111][0112]
若博弈达到均衡,则转入步骤(5),否则转入步骤(3);
[0113]
(5)由式(1)~(11)求解三方效益,即所属时段的q值,同时对下一时段的新能源出力进行预测;
[0114]
(6)由式(30)进行nash-q算法的迭代,同时根据下一时段的新能源实际出力对储能系统存储电量结合相应模型进行计算并得到新状态s',令s

s';
[0115]
(7)判断q学习是否收敛或者达到预定时间限制,如不收敛则返回(2)继续计算。
[0116]
与现有技术相比,本发明具备以下有益效果:
[0117]
1、采用固定电价的日前电能市场,缺乏对具备新能源出力潜力的dgo和la等市场主体的激励;而采用激励新能源出力的分时电价,在极大压缩dno利润空间的同时增加了配电网供电的波动水平。相比之下,本发明所提出的交易方法,不同市场主体基于自己的收益模型,被赋予平等议价的权利,最终的交易结果是经市场主体之间的多轮博弈达到均衡点时确定的。因此,本发明在提升市场主体参与积极性的同时,可以均衡提升各利益主体的利润水平,更加有利于初期市场化改革的推进;
[0118]
2、在本发明所建立的dno、dgo和la等市场主体的收益模型中,基于各主体的可控资源,全面考虑了其售电效益和成本组成,特别地,考虑了la通过控制可中断负荷参与保底供电量的竞争,调动了需求侧资源参与市场;在dno的收益模型中加入依据配电网节点电压和支路潮流质量评价保底供电效果的成本影响因素,减少了配电网运行成本。
[0119]
3、本发明通过引入利益分配均衡度、电力平衡贡献度和新能源平均渗透波动率等模型评价指标,可定量化表征本发明在均衡提升各利益主体的利润水平、新能源参与调峰效果及降低配电网消纳新能源的风险等方面的显著优势。
附图说明
[0120]
图1为配电网日前电能市场交易主体分类示意图;
[0121]
图2为配电网日前电能市场三方博弈框架示意图;
[0122]
图3为pab竞价机制示意图;
[0123]
图4为ieee33节点配电网系统;
[0124]
图5为不同场景下节点24三方供电量博弈结果;
[0125]
图6为不同场景下il和燃气轮机出力;
[0126]
图7为不同场景下利益均衡度分布;
[0127]
图8为本发明基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法的流程示意图。
具体实施方式
[0128]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0129]
请参阅图8,本发明实施例提供一种基于nash-q方法的市场化初期多利益主体参与下配电网日前市场交易方法:包括以下步骤:
[0130]
步骤s1:确定配电网日前电能市场出清模式。
[0131]
通过现有市场主体实践方式研究,在市场化初期,相关交易机制尚不健全,为引导用户与售电公司适应这一过渡阶段,常采用“发电侧报量报价、用户侧报量不报价”的模式。参与交易的用户一般为大工业用户,其用电量较大,用电行为可预测性强,用电弹性较小。参与交易的售电商包括分布式电源运营商,整合部分需求侧响应资源的负荷聚合商,还有既有的配网运营商。
[0132]
在日前市场中,用户会提前一天向电力交易中心iso(independent system operator)提交次日各交易时段的需求曲线。iso根据历史信息进行次日电价预测并发布给各市场成员作为标杆参考。各售电商根据iso公布的信息及自身供给能力申报供给曲线,售电商应对自身能供给的最大出力做出预测,同时应配合储能、小规模燃气轮机和柔性负荷等,避免交易电量出现巨大波动或者交易违约现象。iso根据各方申报信息,按照pab竞价机制(如图3所示),在满足系统安全的前提下,确定交易时段内各主体的交易量及交易价格,并公开当前信息。在iso最后进行市场清算以前,各售电主体有权根据当前信息以自身利益最大化为目标按照一定规则修改报价。iso将全程对日前市场交易实施监督,防止恶意竞价直至最终市场清算完成。
[0133]
步骤s2:依据配电网日前电能市场出清模式,建立多主体博弈框架。步骤s2具体包括:选取配电网运营商(dno)、分布式电源运营商(dgo)、以及负荷聚合商(la)作为配电网日前电能市场交易的主体构建博弈框架。其中,主体分类及各方可控资源如图1所示。
[0134]
如图1所示,配电网运营商(dno)的可控资源包括主网交换功率、燃气轮机。分布式电源运营商(dgo)主要运营风电系统。负荷聚合商(la)运营光电系统和可中断负荷(il,interruptible load)。
[0135]
dno、dgo、la三类主体都参与对可交易负荷供电量的竞争,但由于风电与光电的波动性,所以新能源必须配合储能保持出力平稳。另外,dno仍然是配网电能的主要承担者,在参与对可交易负荷竞争的同时,还要承担在其他售电公司不能履行交易条约时,主动保证供电服务和供电质量的保底供电机制的责任。dno控制燃气轮机与la控制可中断负荷均可参与保底供电机制的竞争。配电网日前电能市场三方博弈框架如图2所示。
[0136]
步骤s3:根据各主体可控电能资源情况,建立配电网日前电能市场多主体报价收益模型。所述步骤s3具体包括:
[0137]
步骤s301:建立dno收益模型
[0138]
对于dno收益模型,dno一方面与dgo,la竞争负荷供电量以获取最大利益,另一方面必须承担保底供电机制的责任。dno收益模型在整个调度周期的利润f
dno
为公式(1)~(3)所示:
[0139][0140][0141]
[0142]
式中,δt为调度时段长度,n
t
为调度总时段数,为t时段dno的效益,为t时段dno的成本。
[0143]
包括售电效益及网损改善效益。公式(2)中为t时段dno参与博弈所获得的供电量,为dno的售电电价,p
loss,t
为dno参与市场交易后减小的有功网损,为dno从主网购电的单位电价。
[0144]
包括从主网购电成本,购买il的成本,启用燃气轮机的成本,承担保底供电机制职责的成本。为dno从la所购的il电量,为il的售电电价。μ
t
为代表燃气轮机运行状态的布尔变量,燃气轮机在t时段运行则μ
t
=1,反之为0。为燃气轮机启停一次成本。为燃气轮机供电电量,为燃气轮机运行单位电价。为承担保底供电机制职责的成本。
[0145]
同时,dno还需要承担在其他售电公司不能履行交易条约时,主动保证供电服务和供电质量的保底供电机制的责任,因此取用电网节点电压和支路潮流是否越限作为保底供电机制评判标准,即
[0146]
(1)配电网节点电压必须维持在一个合理范围内以保证供电质量,应如公式(4)所示。
[0147][0148]
(2)配电网各支路潮流必须限定在各支路最大允许传输功率内以保证电网运行的安全性,应满足公式(5)所示。
[0149][0150]
式中λ1、λ2为违反机制的惩罚费用常数。
[0151]
步骤s302:建立dgo收益模型
[0152]
对于dgo收益模型,dgo运营配电网中的风储系统,其收益函数f
dgo
应为公式(6)~(8)所示。
[0153][0154][0155][0156]
式中,为t时段dgo的售电效益。为dgo参与博弈后所得供电量,为dgo的售电电价。为t时段dgo的成本,为单位风电运维成本,为风储系统充放电量,w
es,t
为储能系统运行维护成本。
[0157]
步骤s303:建立la收益模型
[0158]
对于la收益模型,la运营配电网中的光储系统,同时控制il作为需求侧资源参与市场交易,收益函数f
la
应为公式(9)~(11)所示。
[0159][0160][0161][0162]
式中,为t时段la的售电效益。为la参与博弈后所得供电量,为la的售电电价。为t时段la的成本,为单位光电运维成本,为la买进il需要给用户的单位补贴成本,为光储能系统的充放电量。
[0163]
步骤s304:构建三方博弈约束条件
[0164]
(1)功率平衡约束
[0165]
dno、dgo和la三方参与配电网日前电能市场博弈,必须以功率平衡约束为前提,此约束应为公式(12)所示。
[0166][0167]
式中,为大用户在t时段所需电量。在任意时段,三方联合供电量必须满足负荷所需电量。
[0168]
(2)储能设备运行约束
[0169]
为保证储能系统的寿命及控制周期的连续性,储能系统必须满足充放电约束及在一个调度周期内能量变化为零的约束,此约束应如式公(13)~(15)所示。
[0170]emin
≤e
t-1
+[p
st,t
δ
st-p
ex,t

ex
]δt≤e
max
ꢀꢀ
(13)
[0171][0172][0173]
式中,e
min
、e
max
、e
t-1
为储能设备最小,最大容量及t-1时段末的存储电量。p
st,t p
ex,t
和δ
st
、δ
ex
为t时段充、放电功率及充、放电效率。p
es,max
为储能在t时段的最大允许充放电功率。
[0174]
(3)il特性约束
[0175]
可中断负荷作为负荷侧资源参与需求响应。启用il的关键因素取决于il的交易时长和交易电量,两个约束应分别如公式(16)~(17)所示
[0176]
p
il,t
≤p
il,max
ꢀꢀ
(16)
[0177]
t
il
≤t
il,max
ꢀꢀ
(17)
[0178]
式中,p
il,t
,p
il,max
为在t时段il的交易电量及最大允许交易电量;t
il
,t
il,max
为il的交易时长及最大允许交易时长。
[0179]
步骤s4:依据步骤s2建立的多主体博弈框架和步骤s3建立的配电网日前电能市场多主体报价收益模型,建立多主体博弈均衡模型。
[0180]
步骤s401:构建多主体博弈均衡模型
[0181]
pab竞价机制指在市场清算过程中,以各售电商自身报价进行收益结算,其基本示
意图如3所示。
[0182]
竞价开始时,dno,dgo,la以日前iso发布的信息作为参考上报t时段阶梯电量及对应阶梯电价在市场出清过程中,iso采用排队法计算各方所供电量同时按照pab结算机制由式(1)~(11)确定各方收益。
[0183]
根据nash平衡定义,当博弈一方电价自行改变时,其他两方都不会有意愿主动改变电价以使收益增加,其均衡解为:
[0184][0185][0186][0187][0188]
式中分别为dno,dgo,la可选最优策略集。在此策略集下,三方博弈达到均衡状态。为各方可选报价策略,k
bd
为各方允许电价波动系数,为各方在t时段的首轮报价策略。为保证三方博弈公平公正,均衡解必须限定在允许电价波动系数k
bd
的范围内。
[0189]
步骤s402:形成多主体博弈均衡模型评价指标
[0190]
为对比本发明建立的以分时阶梯电价为基础的电能交易模型与以传统恒定/分时电价为基础的交易模型的区别,定义如下三个指标:
[0191]
(1)利益分配均衡度
[0192]
市场交易过程中时段t各售电商之间利益分配的均衡程度采用均衡度e(x
1,t
x
2,t
x
3,t
)来评价,x
1,t
x
2,t
x
3,t
分别为dno,dgo,la在t时段的各自收益与三方收益总和之比,具体如公式(22)~(25)所示。可以看出,均衡度取值越接近于1,各方收益越均衡。
[0193][0194][0195][0196][0197]
(2)电力平衡贡献度
[0198]
电力平衡贡献度用于衡量市场交易过程中新能源在负荷高峰时缓解供电压力,参与调峰的效果,其计算公式为:
[0199][0200]
式中,t1,t2分别为午高峰和晚高峰的时段集合。n1,n2为午高峰和晚高峰的时段数,p
load,午高峰
p
load,晚高峰
分别为午高峰和晚高峰时段内参与交易的用户负荷量。
[0201]
(3)新能源平均渗透波动率
[0202]
该指标用于衡量配网消纳新能源所需要承担风险值,如公式(27)所示:
[0203][0204]
式中,p
sumload,t
为配网在t时段内的负荷总量。该指标越小,表示新能源供电能力越稳定,配网需要应对新能源出力波动风险而提供备用容量越稳定,所承担消纳新能源风险越小。
[0205]
步骤s5:基于nash-q方法对步骤s4建立的多主体博弈均衡模型进行求解。
[0206]
需求解的电能交易模型是一个非线性的,有多变量的博弈问题。而q学习算法收敛可靠性高,模型复杂程度对算法影响较小,在解决非线性问题上具有一定优势。同时将博弈论与q学习相结合,有利于更好地解决多主体博弈问题。
[0207]
所述步骤s5具体包括:
[0208]
步骤s501:引入nash-q方法
[0209]
q学习算法作为目前最常使用的强化学习算法之一,适用于离散马尔科夫状态下的最优策略选择。其算法原理是利用当前经验q值作为后续q值计算的初始值,迭代式应如公式(28)、(29)所示:
[0210][0211][0212]
式中,s,s'分别为当前状态与未来状态,s为状态空间集合;r(a,s)表示智能体在状态s下采用动作a以后的奖励值,a为动作策略集合;q
n+1
(a,s),qn(a,s)为第n+1步与n步目标值;表示智能体在状态s'有可能获得的最大奖励值。α为学习参数,γ为折扣因子。p(ai)为状态s下选择动作ai的概率。
[0213]
已有研究将q学习和博弈论相结合,提出nash-q方法,详见文献(junl-i ng hu,michael p wellman.nash q-learning for general sum stocha-stic gam e[j].journal of machine learning research(s1532-4435),2003,4:1039-1069.)。其利用nash平衡解定义q值函数,从而解决多方非零和非合作的博弈问题。
[0214]
智能体i在状态s'与其他智能体形成博弈均势并有均衡解[π1(s')π2(s')...πm(s')],其中m为智能体个数。因此q值迭代式应如公式(30)表示:
[0215][0216]
式中,表示智能体i选择纳什均衡解的收益函数。
[0217]
上述方法,已经证明其收敛性。只要能对博弈均势下求解非合作博弈均衡解,就很容易解决建立在nash均衡条件下的多方博弈问题。
[0218]
步骤s502:基于nash-q方法进行博弈模型求解
[0219]
依据前述的分析,配电网日前市场交易三方博弈模型求解流程如下:
[0220]
(1)初始化q值表。q值表中各元素(a,s)的初值均取为0。
[0221]
(2)建立q学习所需要的动作-状态对。动作策略选取上,将储能设备的充放电行为,il与燃气轮机是否参与市场交易行为作为策略集,即a={a
eailam
}
[0222]
状态空间选取上,将时刻、新能源的预测出力和储能存储电量值作为状态元素。为配合q学习算法需要,将变量离散化成等长区间形式,应为公式(31)、(32)所示。
[0223]ex
=[e
min
+xδee
min
+(x+1)δe]
[0224]
δe=(e
max-e
min
)/m 0≤x≤m-1 x∈n
ꢀꢀ
(31)
[0225]
py=[yδp(y+1)δp]
[0226]
δp=p/n 0≤y≤n-1 y∈n
ꢀꢀ
(32)
[0227]
式中e
max
,e
min
分别为储能的最大和最小存储电量。p为新能源(风电、光伏)装机容量。因此对于任一时刻,给定新能源出力值和当前储能存储电量,即可确定唯一状态s={s
t s
p se}。
[0228]
(3)根据步骤s4中的描述,三方根据日前iso发布信息上报t时段首轮的基准阶梯(电价-电量)组。为保证公平公正,在当轮博弈开始后,阶梯电量保持不变,阶梯电价在限定的电价波动系数k
bd
的范围内变化。第i轮博弈电价将以第i-1的博弈电价作为输入,如公式(33)~(35)所示,即
[0229][0230][0231][0232]
(4)判断三方博弈是否达到纳什均衡,即第i轮博弈优化结果与第i-1轮优化结果保持一致,应为公式(36)~(38)所示,即
[0233][0234][0235][0236]
若博弈达到均衡,则转入步骤(5),否则转入步骤(3)。
[0237]
(5)由式(1)~(11)求解三方效益,即所属时段的q值,同时对下一时段的新能源出力进行预测。
[0238]
(6)由式(30)进行nash-q算法的迭代,同时根据下一时段的新能源实际出力对储能系统存储电量结合相应模型进行计算并得到新状态s,令s'

s'。
[0239]
(7)判断q学习是否收敛或者达到预定时间限制,如不收敛则返回(2)继续计算。
[0240]
下面为说明本发明提出的满足系统安全运行约束、计及风电出力的负荷恢复分布鲁棒优化模型的有效性,以图4所示的ieee 33节点模型为例,建立仿真模型。
[0241]
(1)参数设置
[0242]
如图示,dgo在24与30号节点运营wg-bess,la在8与24号节点运营pv-bess。风储及光储系统参数详见附表1。dno在14号节点投入燃气轮机m,其最大可用功率为150kw。la在14号节点有可控il,最大可控功率为80kw,最长连续控制时长为5小时。可中断负荷和燃气轮机参与市场交易均用于承担保底供电机制。其博弈关系如下表1所示。
[0243]
表1三方博弈关系表
[0244][0245][0246]
q学习参数方面,学习因子α取0.05,奖励折扣系数γ取0.9。动作策略方面,储能有充电,闲置,放电三种动作,即ae=(-1,0,1)。燃气轮机与il均只有闲置和运行两种动作,即am=(0,1)a
il
=(0,1)。状态空间方面,将风/光装机容量p、储能系统容量e、调度周期t分别以50kw、100kw
·
h、1h为尺度划分区间,故状态空间维数ps=(10,7,10,7)、es=(6,6,6,6)、ts=24。由3.2节可知对于任一时刻,给定新能源出力值和当前储能存储电量,即可确定唯一状态s={s
t s
p se}。q学习以此建立动作-状态值对。另外,本文取午时段t1为11:00-14:00,晚时段t2为17:00-19:00。
[0247]
(2)场景对比
[0248]
为说明本发明方法的有效性,故引入目前主流的售电市场交易机制—固定电价/分时电价进行对比:场景一,配网中的新能源以固定电价销售。场景二,采用分时电价,新能源有权自行制定售电策略。场景一和二中可中断负荷不参与市场,配网最大程度接纳新能源,三方没有市场博弈行为。场景三,通过本文的方法进行三方博弈。其中场景二采用q学习算法求解,场景三采用nash-q方法求解。
[0249]
从经济效益来看,三种场景下各方利益及成本如表2所示。三种场景下24号节点负荷供电量三方博弈结果如图5所示。
[0250]
表2不同场景下效益及部分成本
[0251][0252]
场景一下,由于固定电价对新能源出力没有引导作用,新能源出力完全由自身特性所决定,自身利润为三个场景中最低水平,同时dno为承担保底供电机制所调用的燃气轮机成本为三个场景最高。场景二采用分时电价,配网以最大程度接纳新能源,在午时段和晚时段电价较高新能源所得供电量较大,所以la和dgo利润较场景一分别提高228.25元(11.4%),163.21元(5.7%)。dno在电价高峰时段所得供电量较低,导致dno的利润较场景一只提高143.35元(6.9%)。分时电价可引导新能源参与负荷调峰,故dno动用燃气轮机成本较场景一减少了26.89元(5.5%)。同时从图5(b)可以看出,在午时段光储系统和风储系统在满足式(13)~(15)的前提下以最大功率参与供电,导致dno供电功率出现最导致dno供电功率出现最低5kw,而晚时段新能源为满足储能设备约束而降低自身供电功率,因此dno
有最大供电功率355kw。供电峰谷差达350kw。由此可见分时电价机制可以提高新能源上网利润,但会牺牲dno的利润并加大dno供电波动程度。
[0253]
场景三采用博弈议价,三方均有议价权。博弈初期,三方初始报价相差较大,每轮出清三方竞争所得的负荷供电量都会出现较大波动,故各方所得利润也会出现波动。三方为竞争更大的负荷供电量而下调单位电价所以各方效益在逐步下降。博弈后期,由于市场规则的限定,各方必须在一定范围内调节电价,电价趋于稳定值,三方所得利润也趋于稳定。博弈达到均衡状态。但此时出清电价仍高于固定电价,所以与场景一对比,新机制可以提升各方利益,同时也激励新能源等主体积极参与市场,有利于市场改革的推进。从图5(c)与图5(a)、图5(b)对比,在负荷高峰时段dno出力明显增加,dno通过调节报价与新能源竞争负荷供电量,提高了dno在市场博弈中的地位,也在一定程度上抑制新能源等主体为追求利益而任意出力的倾向。同时由于dno具有议价权,故其他时段dno出力较为平缓,供电功率峰谷差只有110kw,dno供电压力变小。
[0254]
图6表示三种场景对比下的燃气轮机与il出力情况。场景一与场景二下由于il不参与市场导致dno在负荷高峰时为承担保底供电机制而调用燃气轮机功率较大,成本较高。场景三下la控制的il适时参与市场交易,其获利242.36元;dno在调用燃气轮机的同时购买il所承担总成本为405.62元。与场景一和场景二对比,成本减少约15%。这说明调动负荷侧资源积极参与市场对减少dno运行成本有一定的积极效果,同时il自身也可获得一部分效益,在激励la的同时也实现参与市场的各方利益上的共赢局面。
[0255]
(3)指标分析
[0256]
为进一步分析本文所建模型的效果,采用2.4给出的模型评价指标对前述三个场景下的利益分配均衡度、电力平衡贡献度和新能源平均渗透波动率进行计算,结果如表3所示。不同场景下利益均衡度分布曲线如图7所示。
[0257]
表3不同场景下指标对比
[0258][0259]
结合图7和表3可以看出,在凌晨以及夜间时段,由于光伏系统不参与市场交易,所以三个场景下的利益分配均衡度均处于全天较低水平。白天时段,场景三的利益分配均衡度维持在较高的水平,明显优于场景一与场景二,其日平均利益均衡度达到0.9180,相较于场景一提升3.08%,相较于场景二提高了4.02%。同时利益分配均衡度标准差率分别降低了15.49%,10.17%。
[0260]
同时,计及整个交易周期,场景三下新能源平均渗透波动率指标为三种场景最优。场景三中,由于三方博弈的存在,在午时段dno的出力较场景二有所提高,新能源承担负荷供电量有所降低,故其电力平衡贡献度指标劣于场景二,但优于场景一。
[0261]
综上而言,本发明在兼顾传统配电网运营商利益的同时,又能激励新能源等主体参与市场,还能使新能源积极参与调峰和降低配网消纳新能源的风险。
[0262]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换
和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1