一种基于强化学习算法的交易电量优化方法与流程

文档序号:29812662发布日期:2022-04-27 08:33阅读:195来源:国知局
一种基于强化学习算法的交易电量优化方法与流程

1.本发明涉及一种基于强化学习算法的交易电量优化方法,属于电力系统领域。


背景技术:

2.电网在运行过程面临巨大调峰压力,近年来多采用峰谷分时电价方法进行负荷调整,而对电力市场交易问题缺乏一定的关注。当前电力市场交易模式多采用中长期电力交易规则,最新中长期交易规则中提出计划电量分解到月、集中竞价、合同转让、偏差考核、应急交易、抽水蓄能抽水电量专项交易、辅助服务等诸多规范与创新。但根据年前、月前安排的计划电量不能准确描述用电侧的用电需求,据此进行电网调度优化,存在较大效率损失和资源浪费。因此需要一种交易电量优化方法。
3.授权公告号为cn108537363b的《一种配售分开环境下售电公司购电量控制方法》,所述控制方法包括以下步骤:根据售电公司agent、以及用户agent建立电网公司—售电公司—用户的三层购售电服务架构;基于三层购售电服务架构,构建由不可控负荷、可转移负荷、以及可变动负荷的组成的用户电量弹性模型;依据用户电量电价弹性模型、售电公司运行与评估参数,建立售电公司购电量控制模型,该模型包括:以售电公司售电收益与潜在收益之和最大为目标函数,分别考虑市场稳定约束、购售电平衡约束。本发明充分考虑了售电公司购售电以及对未来预期的不确定性,建立售电公司对电量的决策模型,采用混沌粒子群算法求解,实现了对购电量的优化。
4.公开号为cn113657640a的专利《一种基于机器学习算法的用户中长期交易购电量优化方法》,首先考虑用户年度与月度交易需求,分析影响用电量的因素;再提出年度合约最优购电量模型与年度总最优购电量模型,得到合约电量分解计划;接着根据模型采用q学习算法进行求解;最后得到年度合约与年度总最优交易购电量结果,并进行分析比较。相比现有方法,本方法考虑影响用户用电量的因素,使得电量分解结果更适用于实际;机器学习算法更适合求解月度购电量不确定的问题,使过程和结果更合理。该专利中计算售电成本与售电收入(e(cc,t)、e(cm,t))时,仅考虑大用户月用电量预测值且将其视为为一非负连续性随机变量,满足区间[a,b]内的均匀分布,忽略了数量庞大用电量不确定性更强的零售用户,所得的售电收益不够准确,从而影响到给出结果(最优交易购电量)的准确度;同时,忽略用电量不确定性因素,不考虑交易电量与实际用电量的偏差,可能产生较大的偏差考核费用。


技术实现要素:

[0005]
为了克服现有技术中存在的问题,本发明设计了一种基于强化学习算法的交易电量优化方法,根据用户本月用电预测量,利用强化学习算法,以售电利润最大化为目标求取交易电量,该交易电量可用于指导电网企业进行电力优化调度以及指导售电公司进行售电交易,保证电力系统稳定性和降低售电公司风险。
[0006]
为了实现上述目的,本发明采用如下技术方案:
[0007]
一种基于强化学习算法的交易电量优化方法,包括如下步骤:
[0008]
s1、构建用电量预测模型和售电收益模型;
[0009]
s2、输入用户本月已用电量数据至用电量预测模型,得到用户本月用电预测量数据;
[0010]
s3、根据售电收益模型,构建基于强化学习算法的交易电量优化模型
[0011]
s4、输入用户本月用电预测量数据至交易电量优化模型,得到使售电收益最大化的交易电量。
[0012]
进一步的,所述构建用电量预测模型,具体为:
[0013]
根据用户历史月计划用电量数据和用户历史月实际用电量数据,计算得到标幺值数据;对标幺值数据进行离群值检测,删除其中的离群值;将标幺值数据转换为累计分布函数f(x);将累计分布函数f(x)转换为标幺值数据拟合分位表。
[0014]
进一步的,所述步骤s2,具体为:
[0015]
通过所述累计分布函数f(x),计算用户本月已用电量的累积分布值p=f(x*);根据所述累积分布值,计算满足均匀分布u[p,1]的随机数y;在所述标幺值数据拟合分位表中查找与随机数y最接近的标幺值;根据标幺值和用户本月计划用电量,得到用户本月用电预测量。
[0016]
进一步的,所述构建售电收益模型,具体为:根据年度长协电量、年度以下电量,计算年度长协售电价格和年度以下售电价格,确定售电成本;根据年度长协售电价格、年度以下售电价格和用户本月预测用电量,确定售电收入;根据售电进一步的,所述步骤s4,具体为:
[0017]
预设动作空间和环境空间;
[0018]
在每个时间步内,接收状态s
t
∈s并在动作空间中选择一个动作a
t
∈a(s);根据动作a
t
和环境空间,得到数值奖励并转到一个新的状态s
t+1

[0019]
最终得到以收益最大化为目标的交易电量。
[0020]
进一步的,所述动作空间包括售电公司年度挂牌交易电量、年度双边交易电量、月度集中竞价交易电量、月内转让交易电量和月内增量交易电量;
[0021]
进一步的,所述环境空间包括年度挂牌交易电价、年度双边交易电价、月度集中竞价交易电价、月内转让交易电价和月内增量交易电价。
[0022]
进一步的,所述步骤s4,具体为:
[0023]
预测月度集中交易电价与月内增量交易电价;输入用户本月用电预测量数据至售电收益模型,将月度集中交易电价预测值和月内增量交易电价预测值作为环境变量,得到月度集中交易电量和月内增量交易电量保留值。
[0024]
进一步的,还包括:
[0025]
预测月内转让交易电价;输入用户本月用电预测量数据至售电收益模型,将月内转让交易电价预测值和月内增量交易电价预测值作为环境变量,利用强化学习算法得到月度集中交易电量和月内增量交易电量保留值。
[0026]
进一步的,还包括:
[0027]
根据偏差考核机制与月度电量缺口,重新预测月内增量交易电价;输入用户本月用电预测量数据至交易电量优化模型,将月内增量交易电价预测值作为环境变量,得到月
内增量交易电量。
[0028]
与现有技术相比本发明有以下特点和有益效果:
[0029]
1、本发明基于用户历史用电行为分析,根据用户本月已用电量数据和用电量预测模型,求解得到的用户本月用电预测量,准确度高,有效支撑后续收益计算环节;
[0030]
2、本发明根据用户本月用电预测量,利用强化学习算法,以售电利润最大化为目标求取交易电量,该交易电量可用于指导电网企业进行电力优化调度以及指导售电公司进行售电交易,保证电力系统稳定性和降低售电公司风险。
附图说明
[0031]
图1是本发明流程图;
[0032]
图2是交易电量优化模型的训练与使用示意图;
[0033]
图3是售电公司多阶段交易流程图。
具体实施方式
[0034]
下面结合实施例对本发明进行更详细的描述。
[0035]
实施例一
[0036]
如图1所示,一种基于强化学习算法的交易电量优化方法,包括如下步骤:
[0037]
s1、构建用电量预测模型和售电收益模型;
[0038]
s2、输入用户本月已用电量数据至用电量预测模型,得到用户本月用电预测量数据;
[0039]
s3、根据售电收益模型,构建基于强化学习算法的交易电量优化模型;
[0040]
s4、输入用户本月用电预测量数据至交易电量优化模型,得到使售电收益最大化的交易电量。
[0041]
电网企业具有电力调度权,若以电网企业利益最大化(售电收入减去发电成本)构建售电收益模型和交易电量优化模型,则得到的交易电量可作为发电量参考值,指导电力优化调度;若以售电公司利益最大化(售电收入减去购电成本)构建售电收益模型和交易电量优化模型,则得到的交易电量可作为购入电量参考值,指导售电公司进行售电交易。
[0042]
本实施例的有益效果在于:
[0043]
1、基于用户历史用电行为分析,根据用户本月已用电量数据和用电量预测模型,求解得到的用户本月用电预测量,准确度高,有效支撑后续收益计算环节;
[0044]
2、根据用户本月用电预测量,利用强化学习算法,以售电利润最大化为目标求取交易电量,该交易电量可用于指导电网企业进行电力优化调度以及指导售电公司进行售电交易,保证电力系统稳定性和降低售电公司风险。
[0045]
实施例二
[0046]
构建用电量预测模型,具体为:
[0047]
步骤一:收集零售用户历史月计划用电量数据与用户历史月实际用电量数据;将月实际用电量数据除以历史月计划用电量数据,得到标幺值数据;
[0048]
步骤二:采用grubbs检验法对标幺值数据进行离群值检测,并删除离群值,从而完成数据清洗;
[0049]
步骤三:设置采样窗为100,获取清洗后标幺值数据的频率直方图,并通过式(1)所示的二阶正态分布函数拟合得到概率密度函数f(x)。
[0050][0051]
式中,f(x)表示随机变量x的概率密度函数;随机变量x为电力用户的实际用电量;α和β为权重系数,用以保证全概率为1;μ1、σ1、μ2和σ2为拟合参数,通过最小二乘法确定。
[0052]
更进一步的,考虑月中已观测到的用户用电数据(即用户本月已用电量数据),采用式(2)作为概率密度函数,对用户实际用电量进行采样。
[0053][0054]
式中,x
*
表示电力用户实际用电量的最小边界。
[0055]
由式(2)积分得到累计分布函数f(x),如式(3)所示。
[0056][0057]
步骤四:将累计分布函数剖分为10000个等间距的分段,即{1/10000,2/10000,

,1},并读取对应的标幺值,得到标幺值数据与累计分布构成的映射关系,作为标幺值数据拟合分位表。
[0058]
本实施例的进步之处在于,利用用户历史月计划用电量数据拟合累计分布函数及分位表,再根据月内已知的日电量数据预测用户月实际用电量,准确度高。此外,可通过不断更新的日电量数据,重新预测用户月实际用电量,进一步提高用户月实际用电量预测值的准确度。
[0059]
实施例三
[0060]
利用实施例二构建的用电量预测模型,获取用户本月用电预测量数据:
[0061]
步骤一:读取某零售用户本月已用电量x
*
,并根据式(3)计算得到累积分布值p=f(x
*
),进一步产生满足均匀分布u[p,1]的随机数y,对10000y取整后得到分段数,并从分位表中找到对应标幺值,最后将其乘上该用户本月计划用电量,得到用户本月用电预测量。
[0062]
步骤二:重复步骤一直到得到所有零售用户的本月用电预测量,作为一个零售用户月用电量场景。
[0063]
实施例四
[0064]
本实施例中,考虑售电公司在电力市场中角色,构建既定零售套餐下售电公司的售电收益模型,步骤如下:
[0065]
步骤一:根据售电公司的年度长协电量、年度以下电量以及与用户签订的零售合同计算售电公司对电力用户的年度长协售电价格与年度以下售电价格,以第i个用户(i=1,2,3,...,n)为例,其交易价格中间变量p

l(i)
和p

s(i)
的计算方法如式(4)至式(7)所示。
[0066][0067][0068][0069][0070]
式中,当月年度挂牌交易成交电量q
wgp
,成交价格p
wgp
;年度双边交易成交电量q
wsb
,成交价格p
wsb
;月度集中竞价交易成交电量q
wyj
,成交价格p
wyj
;月内增量交易成交电量q
wyz
,成交价格p
wyz
;月内转让交易成交电量q
wyr
,成交价格p
wyr
。年度长协交易加权平均价格p
l
,年度以下交易加权平均价格ps;售电公司签约用户共计n个;交易价格部分,年度长协电量保底价格a1,年度长协电量分成比例b1,年度长协电量分成后出售给零售用户的价格为p

l
;年度以下电量保底价格a2,年度以下电量分成比例b2,年度以下电量分成后出售给零售用户的价格为p
′s。
[0071]
步骤二:计算零售用户的当月购电费用与偏差考核费用,其中购电费用计算方法如式(8)所示,偏差考核费用计算方法,如式(9)所示。
[0072][0073]
式中,零售用户本月用电计划总额为q
cp
=q
clp
+q
csp
,其中,年度长协电量计划为q
clp
,年度以下电量计划为q
csp
;零售用户本月实际用电量为q
ca

[0074][0075]
式中,售电公司承担保底的负偏差下限为m1,正偏差上限为m2,若零售用户实际用
电量偏差超过[1+m1,1+m2]的范围:当超过上限时,承担超出上限部分的偏差考核费用占比为n2;当低于下限时,承担超出下限部分的偏差考核费用占比为n1。
[0076]
步骤三:对式(8)和式(9)求和,得到售电公司签订的所有零售用户的交易电费,作为售电公司的收入。
[0077]
步骤四:根据售电公司年度长协电量与年度以下电量,计算售电公司对电力批发市场的购电费用以及偏差考核费用,作为售电公司的成本,计算方法如下所示。
[0078]
当满足q
ca
≤q
wyr
时,售电公司向电力批发市场购电费用如式(10)所示。
[0079]wp1
=q
ca
×
p
wyr
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0080]
当满足q
wyr
《q
ca
≤q
wyr
+q
wgp
时,售电公司向电力批发市场购电费用如式(11)所示。
[0081]wp1
=q
wyr
×
p
wyr
+(q
ca-q
wyr
)
×
p
wgp
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0082]
当满足q
wyr
+q
wgp
《q
ca
≤q
wyr
+q
wgp
+q
wsb
时,售电公司向电力批发市场购电费用如式(12)所示。
[0083]wp1
=q
wyr
×
p
wyr
+q
wgp
×
p
wgp
+(q
ca-q
wyr-q
wgp
)
×
p
wsb
ꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0084]
当满足q
wyr
+q
wgp
+q
wsb
《q
ca
≤q
wyr
+q
wgp
+q
wsb
+q
wyj
时,售电公司向电力批发市场购电费用如式(13)所示。
[0085][0086]
当满足q
wyr
+q
wgp
+q
wsb
+q
wyj
《q
ca
≤q
wyr
+q
wgp
+q
wsb
+q
wyj
+q
wyz
时,售电公司向电力批发市场购电费用如式(14)所示。
[0087][0088]
当满足q
ca
》q
wyr
+q
wgp
+q
wsb
+q
wyj
+q
wyz
时,售电公司向电力批发市场购电费用如式(15)所示。
[0089][0090]
当满足q
ca
《(q
wgp
+q
wsb
+q
wyj
+q
wyz
)
×
0.97时,售电公司的偏差考核费用如式(16)所示。
[0091]wp2
=[(q
wgp
+q
wsb
+q
wyj
+q
wyz
)
×
0.97-q
ca
]
×
0.05
×
p
wyj
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0092]
当满足q
ca
》(q
wgp
+q
wsb
+q
wyj
+q
wyz
)
×
1.03,售电公司的偏差考核费用如式(17)所示。
[0093]wp2
=[q
ca-(q
wgp
+q
wsb
+q
wyj
+q
wyz
)
×
1.03]
×
0.05
×
p
wyj
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0094]
否则,售电公司的偏差考核费用为0。
[0095]
根据实施例三所述方法,分多次预测(比如在不同时间段预测)所有用户的本月用电预测量,将每次的预测结果作为一个用户月用电量场景,最终得到多个用户月用电量场景。
[0096]
根据式(18)计算得到某一用户月用电量场景下售电公司的收益,并重复得到所有用户月用电量场景下售电公司的收益。将各用户月用电量场景实现概率设为各用户月用电量场景权值,求取所有用户月用电量场景下的加权平均值作为售电公司期望收益。
[0097]
w=w
l1
+w
l2-w
p1-w
p2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0098]
实施例四
[0099]
基于实施例三所述售电收益模型,构建交易电量优化模型:
[0100]
将售电公司视为智能体,这个智能体在每个离散的时间步和电力市场进行交互。在每个时间步,智能体接收到状态s
t
∈s以及在动作空间中选择一个动作a
t
∈a(s)。一个时间步之后,智能体接收一个数值奖励并转到一个新的状态s
t+1
。智能体接收一个奖励和观察到一个新的状态的概率取决于之前的状态和动作,即p(s
t+1
|s
t
,a
t
)=p(s
t+1
|s0,a0,

,s
t
,a
t
),其目标为最大化收益函数,如式(19)和式(20)所示。
[0101]
r(s
t
,a
t
,s
t+1
)=w
l1
+w
l2-w
p1-w
p2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0102][0103]
其中,控制策略π是为得到一个确定性策略的在状态空间s和动作空间a的映射以及为得到一个概率性策略的在状态和选择每个可能的动作的概率之间的映射。τ是智能体与电力市场交互产生的状态和动作的轨迹或者序列{s0,a0,

,s
t-1
,a
t-1
,s
t
,a
t
}。g(τ)是一个轨迹上的折扣回报,其中γ∈(0,1)是折扣因子;j(π)表示控制策略π下的期望折扣回报函数。
[0104]
根据电力交易决策先后顺序,确定动作空间a(s):售电公司年度挂牌交易电量、年度双边交易电量、月度集中竞价交易电量、月内转让交易电量和月内增量交易电量。根据电力中长期交易规则确定环境空间:年度挂牌交易电价、年度双边交易电价、月度集中竞价交易电价、月内转让交易电价和月内增量交易电价。
[0105]
实施例五
[0106]
训练实施例四所述交易电量优化模型,步骤如下:
[0107]
如图2所示,构建学习数据集:根据售电公司历史记录的零售用户数据和电价,随机生成零售用户数据、年度长协交易电价与购电量数据、年度以下交易电价和购电量数据,基于上述售电收益模型计算得到售电公司期望收益,从而模拟售电公司的运营,得到海量的售电公司模拟运营数据作为学习数据集。
[0108]
利用策略梯度方法从学习数据集中学习市场决策,其中策略梯度方法通过最大化期望折扣回报函数j(π
θ
)学习参数化的控制策略π
θ
,以及更新逼近策略空间的长短时记忆网络的参数θ实现。
[0109][0110]
根据策略梯度理论,将梯度表示为其中用优势函数来计算ψ;
[0111]
用优势函数量化策略π
θ
在状态s下选择动作a相比于随机选择动作的提升,具体可以定义为
[0112]
其中,为动作-价值函数,表示从状态s、选择动作a并在策略π下的期望
回报,由式(22)定义;为状态-价值函数,表示从状态s并在策略π下的期望回报,由式(23)定义。
[0113][0114][0115]
然后通过调整每个时间步的约束参数里最大化优势函数的期望来更新策略参数,如式(24)所示。
[0116][0117]
如果是一个可行的解,那么最大的优势函数期望是非负的,则约束型强化学习的策略更新可以通过求解式(24)来实现。
[0118]
通过“动作-价值”函数和策略函数求解式(24),如式(25)所示。
[0119][0120]
综上,利用长短时记忆网络来逼近“状态-价值”函数和策略函数,参数化奖励和的“状态-价值”函数,得到参数φ1和φ2,输出折扣回报的期望值。
[0121]
实施例六
[0122]
如图3所示,售电公司利用交易电量优化模型分阶段参与电力市场化交易,具体为:
[0123]
首先在年度交易阶段,根据零售用户签订的长协用电合同和电力中长期交易规则允许的上限确定年度长协电量,年度长协电量包括年度挂牌交易电量和年度集中交易电量。
[0124]
在每月1日前,售电公司按照当月总计划用电量占年度计划用电量的比例将年度长协电量分配至对应月份。而后根据历史市场数据预测月度集中交易电价与月内增量交易电价。
[0125]
将预测的月度集中交易电价与月内增量交易电价作为环境变量输入交易电量优化模型,并向模型输入用户本月用电预测量数据,计算得到月度集中交易电量和月内增量交易电量保留值,将月度集中交易电量上报至电力交易中心。
[0126]
在每月15日,读取当月截止14日零售用户的实际用电量数据,并重新预测用户本月用电量。然后根据历史市场数据预测月内转让交易电价,并重新预测月内增量交易电价。
[0127]
将预测的月内转让交易电价和月内增量交易电价作为环境变量输入交易电量优
化模型,并向模型输入用户本月用电预测量数据,计算得到月内转让交易电量和月内增量交易电量保留值,将月内转让交易电量上报至电力交易中心。
[0128]
在每月22日,读取当月截止21日零售用户的实际用电量数据,并重新预测用户本月用电量。然后综合考虑偏差考核机制与市场其余主体月度电量缺口,重新预测月内增量交易电价。
[0129]
将预测的月内增量交易电价作为环境变量输入售电公司交易电量优化模型,并向模型输入用户本月用电预测量数据,计算得到月内增量交易电量,并将其上报至电力交易中心。
[0130]
本实施例的进步之处在于,利用交易电量优化模型分阶段参与电力市场交易,优点在于能够利用不同阶段的价格优势或信息优势,通过套期保值和对冲交易等方式提高售电公司的抗风险能力,帮助售电公司降低购电开支和规避偏差考核。具体来说:月初,电价通常较低,应该尽可能多买点,但电量的不确定性强,如果买多了可能偏差考核比较大;月中可以卖出或者买入电量,因此提供了对冲交易的机会;月末电量基本确定,但是购电价格较高,一般用于消除偏差考核。
[0131]
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1