一种基于深度强化学习的含风电虚拟电厂聚合调度方法与流程

文档序号:33118809发布日期:2023-02-01 03:17阅读:21来源:国知局
一种基于深度强化学习的含风电虚拟电厂聚合调度方法与流程

1.本发明属于电力系统调度技术领域,特别是涉及到一种基于深度强化学习 的含风电虚拟电厂聚合调度方法。


背景技术:

2.未来新能源大规模并网是必然趋势。受天气的影响,使风电存在随机性、 波动性和间歇性。这些因素的存在会使风电出力的不确定性增加,为新能源的 消纳以及电力系统的调度和运行带来影响。随着能源互联网、智慧能源等新颖 概念相继提出,多能互补正是能源互联网、智慧能源的落脚点。虚拟电厂作为 能源互联网重要组态,可实现区域性多能源聚合调控,对解决好新能源消纳, 电网安全稳定运行具有重要意义。
3.目前,常见的调度方法一般采用约束求解法,启发式智能算法,或者求解 器求解。虽然以上这些方法具有一定的优势,但会发生过估计和无法收敛的情 况,对具有随机性、间歇性的含新能源虚拟电厂建模十分困难。
4.因此现有技术当中亟需要一种新型的技术方案来解决这一问题。


技术实现要素:

5.本发明所要解决的技术问题是:提供一种基于深度强化学习的含风电虚拟 电厂聚合调度方法用于解决常见的调度方法对具有随机性、间歇性的含新能源 虚拟电厂建模困难的技术问题。
6.一种基于深度强化学习的含风电虚拟电厂聚合调度方法,包括以下步骤, 并且以下步骤顺次进行:
7.步骤一、构建风电自适应预测模型
8.所述模型中存储的历史数据均按照对应功率所在的区间进行分组,每组中 的数据均以[预测功率值,实测功率值]的形式表示,将预测功率值和实测功率 值用多种拟合函数进行拟合并比较,获得最佳拟合曲线;
[0009]
步骤二、获得最接近实际出力的趋势性风电出力场景
[0010]
对最佳拟合曲线进行风光场景的趋势性刻画并进行修正获得最接近实际出 力的趋势性风电出力场景并获得在t时段的功率输出pw(t);
[0011]
步骤三、通过深度网络学习算法搭建应用于含风电虚拟电厂的深度强化学 习智能体模型
[0012]
1)定义两个矩阵网络qa和qb分别为:
[0013]
qa(s,a)=qa(s,a)+α(s,a)[r+γmaxqb(s

,a
*
)-qa(s,a)]
ꢀꢀꢀ
(1)
[0014]
公式(1)中,a
*
表示矩阵网络qa采取该动作a获得的立即回报以及和下一 个状态s

动作的q值的加权最大回报,a
*
=argmaxqa(s

,a);在网络表格中, 横列s表示网络的输出状态,纵列a表示矩阵网络qa的输出动作;r表示每次训 练得到的奖励值;
[0015]
γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策
略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;
[0016]
qb(s,a)=qb(s,a)+α(s,a)[r+γmaxqa(s

,b
*
)-qb(s,a)]
ꢀꢀꢀ
(2)
[0017]
公式(2)中,b
*
表示矩阵网络qb采取该动作a获得的立即回报以及和下一 个状态s

动作的q值的加权最大回报,b
*
=argmaxqb(s

,a);在网络表格中, 横列s表示网络的输出状态,纵列a表示矩阵网络qb的输出动作;r表示每次训 练得到的奖励值;
[0018]
γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;为平衡当前 与未来,则将γ设为0到1之间的一个值;
[0019]
2)初始化两个矩阵网络qa和qb,以及状态s;
[0020]
3)qa和qb相互交替进行估值计算和动作输出;
[0021]
4)把状态s分别输入qa和qb,得到两个网络分别输出的动作a,并且根 据各自的动作迁移到各自的状态s

,得到各自的奖励值r并以同等概率选择qa和qb两个网络交替进行更新;
[0022]
5)选择qa时,按照公式(1)进行更新;
[0023]
6)选择qb时,按照公式(2)进行更新;
[0024]
7)将状态s

迭代状态s,重复交替更新直至达到训练次数,获得训练后的 应用于含风电虚拟电厂的深度强化学习智能体模型;
[0025]
步骤四、对应用于含风电虚拟电厂的深度强化学习智能体模型搭建深度强 化学习环境、深度强化学习动作和深度强化学习奖励,分别获得状态s、系统的 动作a以及奖励值r:
[0026]
s=[pw(t),l(t),γ(t),h
1-2
(t),φ(t)]
ꢀꢀꢀ
(3)
[0027]
(3)式中:pw(t)为在t时段的风电功率输出,由步骤二获得,l(t)为负 荷在t时段的负荷需求;γ(t)为t时段的分时电价,h
1-2
(t)为可控负荷参与虚 拟电厂调控下的状态,φ(t)为在t时段电储能的荷电状态;
[0028]
a=[a
wal a
caess
]
ꢀꢀꢀ
(4)
[0029]
(4)式中:aw作为多风电场的发电动作,a
l
作为可控负荷的耗电动作, ac作为电动汽车的耗电动作,a
ess
作为储能对于聚合风电场下的功率调节;
[0030]
r=-(o+k+m)
ꢀꢀꢀ
(5)
[0031]
(5)式中:o表示虚拟电厂运行期间为实现供用平衡,对储能电池过放电或 过充电惩罚;k表示响应激励机制;m表示当虚拟电厂内部平衡处于不平衡状 态时,外部电网购买的电量;r表示奖励值计算函数;
[0032]
步骤五、将步骤四中获得的状态s、系统的动作a以及奖励值r带入公式 (1)或公式(2)中最终训练后的应用于含风电虚拟电厂的深度强化学习智能 体模型,得出风电最优聚合调度结果。
[0033]
所述步骤一中的多种拟合函数包括正态分布函数、非参数化核平滑分布函 数、t位置尺度分布函数以及极值分布函数。
[0034]
所述步骤二中获得最接近实际出力的趋势性风电出力场景的具体步骤为:
[0035]
步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列:
[0036]
对步骤一中选定的拟合曲线,采用多元标准正态分布进行风光场景的趋势 性刻画,得到了一系列具有自相关性的数列:
[0037]
z~n(μ,∑)
[0038][0039]
式中:矩阵z为n
×
t阶的矩阵,其中n是随机数序列的数量,具体含义为 生成风电出力场景的数目;t是每条随机数序列的维度,具体含义为风电出力场 景的长度也称为场景周期;μ是随机数序列的均值;∑是随机数序列的协方差矩 阵;其中,
[0040][0041]
协方差矩阵中的每一个元素均反映随机数序列和的相关性程度,随机数序 列的协方差矩阵∑中第x行第y列的元素用σ
xy
表示,其表示的是矩阵z中的列向量z
x
、zy间的协方差,其中1≤x≤t、1≤y≤t, ε表示范围参数,ε>0,ε的取值能够控制随机数序列的时序性,也就是控制 着和的相关性,为了符合实际情况下风电出力的波动要求,ε取100至300中 的一个整数值;
[0042]
通过上述方法生成具有相关性的随机数列后,将其作为标准正态分布的输 入,输出的结果符合均匀分布,构造成了相关的随机性数列;
[0043]
步骤2-2、逆变换法抽样生成风电误差场景:
[0044]
将步骤2-1获得的相关的随机性数列总的每一个元素均通过逆变换法进行 逆变换抽样,得到预测误差数列,将误差数列叠加至对应的预测功率值数列上 便得到风光出力场景;
[0045]
步骤2-3、将逆变换法抽样生成的风电误差场景进行缩减:
[0046]
定义场景表达式如下:
[0047]
w=(q
i,1
,q
i,2
,...q
i,t
)
[0048]
其中,w表示风电出力场景,qi表示在第i个场景t时刻的风电场出力, 风电出力场景中的任意两个场景wi与场景w0的距离d(wi,w0)为:
[0049][0050]
场景缩减是使缩减前与缩减后保留的场景集合间的概率距离,即下式最小:
[0051][0052]
式中:j为场景缩减所要删除的场景集合,称之为弃用场景集,j的数目通过人 为提前给定;pi表示为场景wi的加权概率;
[0053]
获得缩减后的风电误差场景;
[0054]
步骤2-4、对生成后的风电场景进行概率校准指标评价
[0055]
采用概率校准bs指标来对步骤2-3获得的场景进行定量的有效性评价,此 处的有效性指生成场景和实际风光出力之间趋势一致性,bs指标公式如下:
[0056][0057]
式(6)表示了在t个周期内场景生成发生事件的比例和实际风电出力的差异 大小,bs指标值越小,算法效果越好;z
t
表示第t个周期内的出力生成场景; p[g(z
t
,θ)]表示在周期内所有生成场景事件θ成立所占的比例;g(r
t
,θ)表示 第t个周期内实测曲线对事件θ成立的概率;
[0058]
其中,
[0059][0060][0061]
式(7)和式(8)中,z
t
表示第t个周期内的出力生成场景,y
t+i
表示了 该场景中的一个元素,ζ为固定的阈值,h
*
表示步骤二获得的96个区间段风 电功率,i表示每一个滑动时间窗口的取值范围,l表示在区间l内y
t+i
的取值 大于一个固定阈值ζ;k表示时间窗口的中心位置;h表示时间窗口的长度;
[0062]
场景z
t
上在以k为中心的时间窗口内的轨迹恒大于阈值ζ表示事件θ成 立,则值为1;场景z
t
上在以k为中心的时间窗口内的轨迹不满足恒大 于阈值ζ表示事件θ不成立,值为0;
[0063]
bs指标越小,代表该场景生成方法效果越好,越能满足实际出力场景的趋 势性;
[0064]
步骤2-5、选取指标最高的风电场景
[0065]
针对步骤2-4所的得风电场景指标,选取bs指标最高即为能够满足出力场 景的趋势性风电场景z
t
,将其用pw(t)表示。
[0066]
通过上述设计方案,本发明可以带来如下有益效果:
[0067]
本发明面向虚拟电厂模型采用了double-dqn深度强化学习算法模型进行优 化求解,采用了经验回放和参数冻结机制,提升了深度强化学习算法性能,降 低了发生过估计的可能性,避免了无法收敛的情况出现,有效解决了具有随机 性、间歇性的含新能源虚拟电厂建模困难的问题。本发明在运行时间和决策效 果方面优于传统启发式算法,能实现对虚拟电厂聚合调度的快速收敛并获得趋 优解。
附图说明
[0068]
以下结合附图和具体实施方式对本发明作进一步的说明:
[0069]
图1为本发明一种基于深度强化学习的含风电虚拟电厂聚合调度方法中的 逆变
换示意图。
具体实施方式
[0070]
一种基于深度强化学习的含风电虚拟电厂聚合调度方法,包括以下步骤, 且以下步骤顺次进行:
[0071]
步骤1、构建风电自适应预测模型;
[0072]
步骤2、考虑趋势性随机性的风电出力场景生成;
[0073]
步骤3、深度强化学习智能体搭建;
[0074]
步骤4、深度强化学习环境、动作、奖励搭建;
[0075]
步骤5、深度强化学习训练求得最优聚合调度结果。
[0076]
所述步骤1具体包括以下步骤,且以下步骤顺次进行:
[0077]
步骤1-1、构建风光自适应预测模型:
[0078]
风电场的预测误差功率的概率分布与预测功率分布相关,可以将风电实测 功率分布看作是预测功率分布的条件概率分布。该方法是将所有数据按照对应 功率所在的区间分成n组,形成如下[预测功率值,实测功率值]表示的数据存 入预测模型。根据大数据统计分析预测功率值和实测功率值之间的误差,将误 差按照不同的出力范围进行区间划分。
[0079]
步骤1-2选用如下多种拟合函数作为评判备选项。
[0080]
1)正态分布函数
[0081][0082]
式中:随机变量x服从一个位置参数为μ.尺度参数为σ的概率分布,且其 概率密度函数f(x)的分布。这个随机变量x就称为正态随机变量,正态随机变 量服从的分布就称为正态分布,记作x~n(μ,σ2)。
[0083]
2)非参数化核平滑分布
[0084]
采用matlab的kernel核函数进行曲线拟合。
[0085]
3)t位置尺度分布
[0086][0087]
式中:μ是tlocation分布的位置参数,-∞<μ<+∞,σ是tlocation 分布的尺度参数,σ>0;v是tlocation分布的形状参数,v>0;γ(*)表示 伽马函数。形状参数v越小,tlocation分布的“尖峰程度”越高,参数v越接近 于正无穷,tlocation分布越接近于正态分布,这表明了tlocation分布比正态 分布的适用范围更广,因为tlocation分布可以通过更改参数使其“靠拢”标 准正态分布。
[0088]
4)极值分布
[0089]
[0090]
式中:f(x)是关于x的极值分布函数;μ是极值分布的均值参数;σ是极 值分布的方差参数。
[0091]
步骤1-3采用皮尔逊检验法原理进行拟合函数拟合效果检验。
[0092]
由数理统计中频率与概率的关系,如果拟合函数精度高则应该比较 小。
[0093][0094][0095]
式中:样本容量n充分大(n≥50),n表示总体样本容量为50,ni表示每 一个样本值。其总体服从分布f(x),统计量中的统计量χ2总是近似地服从自由 度为k-1的χ2分布,其中pi=p{x∈ai}=f0(a
i+1
)-f0(ai),i=1,2,

,k的npi称为理论频数,这里衡量的则是皮尔逊统计量χ2越小,则证明拟合效果越好。
[0096]
所述步骤2具体包括以下步骤,且以下步骤顺次进行:
[0097]
步骤2-1、多元标准正态分布矩阵生成具有一定相关性的随机数列:
[0098]
对预测模型选定的拟合曲线,采用多元标准正态分布进行风光场景的趋势 性刻画,得到了一系列具有自相关性的数列。
[0099]
z~n(μ,∑)
[0100][0101]
式中:矩阵z为n
×
t阶的矩阵,其中n是指随机数序列的数量,t是指每条 随机数序列的维度,由于这n条随机数序列是用于抽样生成风电出力场景,因此 n的具体含义为生成风电出力场景的数目,而t即为风中出力场景的长度,或者 称为场景周期,矩阵中的元素z
ij
(1≤i≤n,1<j≤t)(周期一般大于1)即为 生成的服从多元标准正态分布的t维随机数序列,每一个元素代表了具有自相 关性的随机数,t可以代表每个生成随机数的横向维度,也可以看作是风电功率 的长度,可以根据相应的数据进行修改;μ是随机数序列的均值;∑是随机数序 列的协方差矩阵,并且表示如下:
[0102][0103]
协方差矩阵∑中的每一个元素均反映随机数序列和的相关性程度,随机数 序列的协方差矩阵∑中第x行第y列的元素用σ
xy
表示,其表示的是矩阵z中的列向量z
x
、zy间的协方差, 其中1≤x≤t、1≤y≤t,ε表示范围参数。
[0104]
实际上,协方差矩阵元素σ
xy
具有一定的物理意义,它表示每一个通过多 元标准正态分布矩阵生成的随机数序列zr(1≤r≤n),即矩阵z中的任意行向 量,都可以视为一个随
机过程,由于协方差矩阵∑本质上定义了随机数序列zr中 不同元素间的相关性,因此将上述方法形成的随机数序列用于对风电实际功率 或预测功率拟合的累积分布函数进行抽样,得到的风电出力场景的不同时刻之 间便存在符合协方差矩阵∑所定义的相关性,而通过设计协方差矩阵∑中元素的 具体大小,则可以描述生成的风电出力序列的随机性以及波动性。
[0105]
范围参数ε可以控制列向量z
x
、zy间的相关性大小,由指数函数的性质 可以知道,该指数模型随着x、y的增大呈一个衰减的函数,而范围参数ε可 以控制衰减的速率,即当ε越大时,该指数模型衰减速度越慢,即等价于对于 相同的x、y取值,列向量z
x
、zy间的相关性越大,或者说随机数序列zr的 各元素间的相关性越大,而当ε越小时,指数模型衰减速度越快,相关性情况正 好相反。同时,通过上述指数模型构建的协方差矩阵还具有另一个性质,即随 机数序列zr中的元素距离越远,相关性越小,而元素距离越近,则相关性越大, 对应的生成的风电场景序列也会表现出相近时刻的风电出力值相关性越大,而 时刻相差较大的电出力值则相关性越小,这本身也符合风电出力的特点。
[0106]
协方差矩阵中的每一个元素反映随机数序列和的相关性程度,根据公式,取 值能够控制随机数序列的时序性,也就是控制着和的相关性。这里可以改变协 方差矩阵元素的具体大小,来控制生成风电场景的随机性和波动性,研究表明ε 通常取100至300是符合实际情况下大多数风电出力的波动要求。
[0107]
通过上述方法生成具有相关性的随机数列后,将其作为标准正态分布的输 入,根据其性质输出的结果是符合均匀分布,如此便构造成了大量相关的随机 性数列,以此抽样可以符合相关数据的相关性,也符合蒙特卡罗随机法抽样思 想。
[0108]
步骤2-2、逆变换法抽样生成风电误差场景图:
[0109]
逆变换抽样法是根据多元标准正态分布矩阵产生的随机数列,将该数列中 的每一个元素进行下式的求解变得到,图1为逆变换示意图,图1的左图为对 应预测模型预测误差的累积概率分布f
t
,图1的右图为累积标准正态分布中 φ(c
t
),逆变换顺序如图1中箭头方向所示。也就是图1中的右图从a到b,然 后将拟合好的概率密度函数进行逆变换得到图1中的左图,进而b点能够映射 到图1的左图c点的累积分布函数,在根据通过下式累积分布函数的c点可对 应误差功率d点,如此完成了一次逆变换抽样。
[0110][0111]
式中:φ(c
t
)表示累积概率分布函数;c
t
是随机数序列中任意一个元素, 且服从n(0,1)分布;x是随机数序列中累积函数自变量;是累计概率分布f
t
的反函数,该累计概率分布f
t
对应自适应预测模型中预测误差的累积概率分布, 在已知随机变量c
t
的随机数时,采用随机变量p进行抽样;
[0112]
采用mvnrnd函数随机生成一个服从多元标准正态分布的随机数序列,序列 中一个元素为w=0.5,可以计算得到其对应的累积概率分布函数值φ(c
t
)=0.6915; 将φ(c
t
)等值映射到图中左侧的纵轴f
t
上,故f
t
=φ(c
t
)=0.6915。
[0113]
将数列按照逆变换抽样法对拟合误差函数进行抽样,得到预测误差数列, 将误差数列叠加预测数列上便得到风光出力场景。
[0114]
步骤2-3、后向缩减的场景缩减算法;
[0115]
定义场景表达式如下:
[0116]
w=(q
i,1
,q
i,2
,...q
i,t
)
[0117]
其中,w表示风电出力场景,qi表示在第i个场景t时刻的风电场出力, 风电出力场景中的两个任意场景wi与场景w0的距离d(wi,w0)为:
[0118][0119]
场景缩减的思想是使缩减前与缩减后保留的场景集合间的概率距离,即下 式最小:
[0120][0121]
式中:pi表示为场景wi的加权概率;j为场景缩减所要删除的场景集合,即称 之为弃用场景集,数目可以事先提前给定。具体步骤为下:
[0122]
1)设定j为空集。
[0123]
2)在第k次迭代中,判断需要删除的场景wk,使下式在场景w为wk时 最小:
[0124][0125]
3)删除wk至弃用集j,即令jk=j
k-1
∪{wk},然后进行第k+1次迭 代。
[0126]
4)如果k小于j的场景数目,则重复步骤2),否则进行步骤5)。
[0127]
5)弃用集j中的场景wi由距离其最近的场景wo替代,保留下来的场景 wo的概率po变为po与所有被场景wo替代的场景概率之和,即:
[0128][0129]
式中:j(o)为弃用集j中所有被场景wo替代的场景;而最终p
1o
为缩减后保留下 来的场景wo发生的概率。如此循环确定了留下来的场景概率最大,最能表征原 始场景集属性。
[0130]
步骤2-4、对生成后的风电场景进行概率校准指标评价
[0131]
针对如何评判场景的有效性,采用概率校准bs指标来对上述方法产生的场 景进行一个定量的评价。主要从对生成场景和实际风光出力之间趋势一致性方 面做出评价,具体的bs指标公式如下
[0132][0133]
式中:表示了在t个周期内场景生成发生事件的比例和实际风电出力的差 异大小,bs指标值越小,算法效果越好;z
t
表示第t个周期内的出力生成场 景;p[g(z
t
,θ)]表示在周期内所有生成场景事件θ成立所占的比例;g(r
t
,θ) 表示第t个周期内实测曲线对事件θ成立的概率;
[0134]
其中,
[0135][0136][0137]
式(7),式(8)中,p[g(z
t
,θ)]实际上表示了第t个周期内所有生成场 景时间θ成立的比例;式(6)中g(r
t
,θ)表示第t个周期内实测曲线对事件θ是 否也成立,所以bs指标的总体含义就是所有t个周期内所生成场景与实际曲线 发生事件θ比例的差异大小,因此bs指标值越小,算法效果越好,越能满足风 电实际出力场景的趋势性刻画。
[0138]zt
表示第t个周期内的出力生成场景,y
t+i
表示了该场景中的一个元素, ζ为固定的阈值,h
*
表示步骤二获得的96个区间段风电功率,i表示每一个滑 动时间窗口的取值范围,l表示在区间l内y
t+i
的取值大于一个固定阈值ζ;k表 示时间窗口的中心位置;h表示时间窗口的长度;
[0139]
场景z
t
上在以k为中心的时间窗口内的轨迹恒大于阈值ζ表示事件θ成 立,则值为1;场景z
t
上在以k为中心的时间窗口内的轨迹不满足恒 大于阈值ζ表示事件θ不成立,值为0;
[0140]
步骤2-5、选取指标最高的风电场景
[0141]
针对步骤2-4所的得风电场景指标,选取bs指标最高即为能够满足出力场 景的趋势性风电场景,将其用pw(t)表示。
[0142]
所述步骤3具体包括以下步骤,且以下步骤顺次进行:
[0143]
步骤3-1、深度强化学习智能体搭建
[0144]
深度网络在传统的学习算法中,由于维数灾难,q-learning算法难以解决 大规模马尔科夫决策问题,故而产生了价值函数近似的深度网络学习算法。通 过神经网络的参数,满足输入一个状态值可以的到在此动作下的近似值,即: q

(s,a,ω)≈q(s,a)采用double dqn求解:
[0145]
1)定义两个矩阵网络qa和qb分别为:
[0146]
qa(s,a)=qa(s,a)+α(s,a)[r+γmaxqb(s

,a
*
)-qa(s,a)]
ꢀꢀꢀ
(1)
[0147]
公式(1)中,a
*
表示矩阵网络qa采取该动作a获得的立即回报以及和下一 个状态s

动作的q值的加权最大回报,a
*
=argmaxqa(s

,a);在网络表格中, 横列s表示网络的输出状态,纵列a表示矩阵网络qa的输出动作;r表示每次训 练得到的奖励值;
[0148]
γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取 短视的策略;选取γ=1表示把未来的收益也加入了当前的价值中;γ决定时间 的远近对回报的影响程度,表示牺牲当前收益,换取长远收益的程度,为平衡 当前与未来,则将γ设为0到1之间,一般设定为0.9,实际可根据训练结果进 行调整。将累计回报作为评价策略优劣的评估函数。
[0149]
qb(s,a)=qb(s,a)+α(s,a)[r+γmaxqa(s

,b
*
)-qb(s,a)]
ꢀꢀꢀ
(2)
[0150]
公式(2)中,b
*
表示矩阵网络qb采取该动作a获得的立即回报以及和下一 个状态s

动作的q值的加权最大回报,b
*
=argmaxqb(s

,a);在网络表格中, 横列s表示网络的输出状
态,纵列a表示矩阵网络qb的输出动作;γ为折扣因子,0≤γ≤1,选取γ=0,则表示只考虑当前奖励,意味着采取短视的策略;选取γ=1 表示把未来的收益也加入了当前的价值中;γ决定时间的远近对回报的影响程 度,表示牺牲当前收益,换取长远收益的程度,为平衡当前与未来,则将γ设为 0到1之间,一般设定为0.9,实际可根据训练结果进行调整;
[0151]
2)初始化两个矩阵网络qa和qb,以及状态s;
[0152]
3)qa和qb相互交替进行估值计算和动作输出;
[0153]
4)把状态s分别输入qa和qb,得到两个网络分别输出的动作a,并且根据 各自的动作迁移到各自的状态s

,得到各自的奖励值r并以同等概率选择qa和 qb两个网络交替进行更新;
[0154]
5)选择qa时,按照公式(1)进行更新;
[0155]
6)选择qb时,按照公式(2)进行更新;
[0156]
7)将状态s

迭代状态s,重复交替更新2到6次直至达到训练次数,获得 训练后的应用于含风电虚拟电厂的深度强化学习智能体模型;
[0157]
所述步骤4具体包括以下步骤,且以下步骤顺次进行:
[0158]
步骤4-1、深度强化学习环境搭建
[0159]
状态空间的选择关系到了深度强化学习的最终效果,由于智能体的训练是 在经过建模后的环境中进行,因此智能体只观测到真实场景下的部分状态。对 于如上模型,环境提供给智能体的信息为多个风电场出力、虚拟电厂竞标电量 (总需求状态)、分时电价、可控负荷状态和储能荷电状态。
[0160]
s=[pw(t),l(t),γ(t),h
1-2
(t),φ(t)]
ꢀꢀꢀ
(3)
[0161]
(3)式中:pw(t)为在t时段的风电功率输出,由步骤二获得,l(t)为负 荷在t时段的负荷需求;γ(t)为t时段的分时电价,h
1-2
(t)为可控负荷参与虚 拟电厂调控下的状态,φ(t)为在t时段电储能的荷电状态;
[0162]
步骤4-2、深度强化学习动作搭建
[0163]
智能体观测到环境的状态信息后,根据自身策略集,采用double-dqn算法 在动作空间a中选择一个动作。控制的设备分别是多风电场、可控负荷、电动 汽车、储能对于风电场是功率调节,每个可控负荷,其可以接收开、断两个动 作,对于储能系统和电动汽车,可以接收充电、放电、闲置三个动作。系统的 总动作空间是多种设备动作空间的笛卡尔积,总动作空间定义如下:
[0164]
a=[a
walacaess
]
[0165]
式中:aw作为多风电场的发电动作,a
l
作为可控负荷的耗电动作,ac作 为电动汽车的耗电动作,a
ess
作为储能对于聚合风电场下的功率调节;
[0166]
步骤4-3、深度强化学习奖励搭建
[0167]
本发明设计的奖励函数主要包括在虚拟电厂运行过程中达成虚拟电厂最佳 经济效益,在达成竞标量(总需求)的条件下,当调度超出或无法达到总需求 都会进行一定的惩罚,促使深度学习模型能向奖励值最高的调度策略学习。最 终实现多风电厂在虚拟电厂内部的聚合调度,确保风能全部消纳,提高新能源 利用率。储能电池的过放或过充电会进行惩罚。可控负荷要实现参与调控的最 大经济效益,过多的调节会影响客户满意度而进行惩罚。
[0168]
r=-(o+k+m)
[0169]
式中:o表示虚拟电厂运行期间为实现供用平衡,对储能电池过放电或过充电 惩罚;k表示响应激励机制,在高峰电价和高峰电价期间,可控负荷运行调节 将有更大的奖励,对低估电价和正常价格可控负荷运行将有奖励,即当电力输 出不足或电价较高时可以关闭,控制负载并在其他时间打开负载;m表示当虚 拟电厂内部平衡处于不平衡状态时,外部电网购买的电量;r表示奖励值计算函 数;
[0170]
步骤5、深度强化学习训练输出最优聚合调度结果
[0171]
将步骤4中获得的状态s、系统的动作a以及奖励值r带入公式(1)或公 式(2)中最终训练后应用于含风电虚拟电厂的深度强化学习智能体模型,得出 风电最优聚合调度结果。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1