一种计及不同场景的梯级水光蓄系统实时调度决策方法

文档序号:33037364发布日期:2023-01-24 20:22阅读:25来源:国知局
一种计及不同场景的梯级水光蓄系统实时调度决策方法

1.本发明涉及能源综合利用技术领域,具体而言,涉及一种计及不同场景的梯级水光蓄系统实时调度决策方法。


背景技术:

2.梯级水光蓄系统中,光伏出力、梯级水电站区间来水的随机性及负荷需求的不确定性造成了系统供需双方的随机波动,传统的调度方法很难应对水光极强随机性。随着人工智能技术发展,强化学习为梯级水光蓄动态调度决策问题提供了解决思路。然而,目前基于强化学习的水光蓄调度决策系统对随机性水光场景考虑不够全面,而实际水光蓄系统由于自然禀赋具有不同的典型场景,如果用同一个强化学习主体训练习在不同场景下可能会导致相互矛盾的策略,如何保证在各种场景下都适应的梯级水光蓄调度策略是一个新的挑战。


技术实现要素:

3.本发明在于提供一种计及不同场景的梯级水光蓄系统实时调度决策方法,实现与不同水光场景自适应匹配的梯级水光蓄系统动态调度,提高系统在不同场景下学习、泛化能力,弥补现有研究中对不同水光场景特征考虑的缺乏。
4.为了缓解上述的问题,本发明采取的技术方案如下:
5.本发明提供了一种计及不同场景的梯级水光蓄系统实时调度决策方法,包括以下步骤:
6.s1、获取水光荷多模态时间序列数据;
7.s2、对水光荷多模态时间序列数据进行预处理,生成若干固定时间步的时序样本集;
8.s3、采用lstm编码器对时序样本进行编码,在编码过程中通过多层lstm网络映射将高维水光荷时序样本嵌入到低维度特征空间,抽取得到水光荷显著特征;
9.s4、确定最佳水光荷低维度聚类个数l,之后基于k-means++算法,对所有的水光荷显著特征进行低维特征聚类,得到l个不同类别的水光荷显著特征;
10.s5、采用lstm解码器对l个不同类别的水光荷显著特征进行lstm解码,得到l个类别的典型水光荷场景数据集;
11.s6、搭建梯级水光蓄系统数学模型和计及多场景的梯级水光蓄系统调度模型;
12.s7、根据典型水光荷场景数据集、梯级水光蓄系统数学模型和梯级水光蓄系统调度模型,搭建不同水光荷场景数据集下基于强化学习的梯级水光蓄动态调度框架;
13.s8、在梯级水光蓄动态调度框架下,根据典型水光荷场景数据集,采用dppo算法求解得到应对不同水光场景特征的梯级水光蓄调度策略。
14.在本发明的一较佳实施方式中,步骤s2具体包括:将水光荷多模态时间序列数据的典型日曲线聚类的时间颗粒度设定为1小时;对水光荷多模态时间序列数据样本进行归
一化处理,对于归一化处理后的水光荷多模态时间序列数据,通过不断滑动一固定时间步长得到固定时间步的时序样本集。
15.水光荷多模态时间序列数据归一化处理公式如下:
[0016][0017]
其中,x为原始的水/光/荷样本数据值,x

为归一化后水/光/荷样本数值;x
max
,x
min
分别表示水/光/荷样本的最大值与最小值。
[0018]
在本发明的一较佳实施方式中,每个时序样本集开始于t=1小时的时刻,滑动的固定时间步t设定为24小时。
[0019]
在本发明的一较佳实施方式中,lstm编码器的编码公式和lstm解码器的编码公式分别为:
[0020][0021]
其中,x
t
为原始水光荷样本,p为原始水光荷样本维度,z为低维度特征空间。
[0022]
在本发明的一较佳实施方式中,在步骤s4中,确定最佳水光荷低维度聚类个数k的方法包括:
[0023]
设置不同聚类个数k=1,2,

,l,得到l个水光荷聚类中心c1,c2,

,c
l
,不同类别之间的欧式距离为
[0024]
其中,xi和xi′
为不同类别的点,若每个类别有2ni个点,则它们之间的紧密度
[0025][0026]
通过蒙特卡洛采样产生n个参考数据集,根据紧密度n=1,2,

,n,k=1,2,

,l聚类,然后计算间隔
[0027][0028]
令计算标准偏差
[0029][0030]
其中,令间隔为随机样本损失和实际样本的损失之差,找到最大间隔对应的k值即为最佳聚类个数,则:
[0031]
gapn(k)≥gapn(k+1)-s
k+1
[0032]
令g(k)=gapn(k)-(gapn(k+1)-s
k+1
),通过g(k)确定最佳水光荷低维度聚类个数l。
[0033]
在本发明的一较佳实施方式中,在步骤s5中,lstm解码器将固定相同时间步的低维特征z作为lstm网络的输入,通过重构原始输入进行lstm解码侧网络的训练,得到不同类
别的典型水光荷场景数据集。
[0034]
在本发明的一较佳实施方式中,在步骤s6中,梯级水光蓄系统数学模型有且仅包括梯级水电站出力的数学模型,以及抽蓄数学模型。
[0035]
在本发明的一较佳实施方式中,步骤s7搭建的梯级水光蓄动态调度框架为多智能体分布式学习框架。
[0036]
在本发明的一较佳实施方式中,在步骤s8中,需将典型水光荷数据转化成马尔可夫决策过程样本数据,之后再根据马尔可夫决策过程样本数据,采用dppo算法求解得到应对不同水光场景特征的梯级水光蓄调度策略。
[0037]
在本发明的一较佳实施方式中,dppo算法采用并行计算加速近端策略优化训练,通过多线程收集样本数据,对每一个线程,选择随机一天的初始状态,根据值网络选择动作,获得相应奖励,转移到下一时刻状态,计算响应优势函数,当所有线程完成批量mdp后,将样本和优势函数返回给主线程,之后随机抽取批量m个样本优化策略网络参数,并更新值网络参数和策略网络参数,通过主网络更新策略得到应对不同水光场景特征的梯级水光蓄调度策略。
[0038]
与现有技术相比,本发明的有益效果是:
[0039]
本发明考虑不同场景,提出了一种与水光场景相匹配的自适应梯级水光蓄系统动态调度方法;本发明考虑水光荷多模态时间序列数据之间的强弱耦合关系,采用长短期记忆网络与自编码技术相结合方法抽取水光荷显著特征,基于训练样本拟合多维水光荷数据分布,提取水光荷时序特征及不确定变量耦合关系,生成水光荷典型场景,构建场景生成网络与分布式近端策略优化方法相结合的梯级水光蓄调度系统混合学习模型,采用dppo算法实现与场景特征自适应匹配的学习方法,得到不同水光荷特征场景下的梯级水光蓄动态调度策略,提高了梯级水光蓄系统调度方法在不同场景下的自适应性、泛化性。
[0040]
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
[0041]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0042]
图1是本发明计及不同场景的梯级水光蓄系统实时调度决策方法流程图;
[0043]
图2是本发明计及不同场景的梯级水光蓄系统动态调度框架图;
[0044]
图3示出了历史水光荷数据的水/光/荷自相关性;
[0045]
图4示出了历史水光荷数据的水/光/荷偏自相关性;
[0046]
图5为实施例中#1场景累积奖励曲线图;
[0047]
图6为实施例中#1场景下梯级水电调度结果图;
[0048]
图7为实施例中#1场景抽蓄调度结果图。
具体实施方式
[0049]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0050]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
本发明公开的计及不同场景的梯级水光蓄系统实时调度决策方法,其首先考虑水光不同场景具有不同特征,提取水光不确定性源典型特征,生成典型水光场景,其次在构建强化学习梯级水光蓄调度模型的基础上,采用不同强化学习主体分场景训练框架,采用分布式近端策略优化(distributed proximal policy optimization,dppo)方法将梯级水光蓄系统调度任务划分为不同典型场景下的学习子任务,主要包括不同场景特征的提取、不同场景下多梯级水光蓄ppo主体分类训练两大步骤,如图2所示。
[0052]
请参照图1和图2,本发明公开的计及不同场景的梯级水光蓄系统实时调度决策方法,具体如下:
[0053]
一、本发明首先基于历史时序水光荷数据分析水光荷多模态之间的关系,采用长短期记忆网络(long-short term memory,lstm)和自编码技术(auto-encoder,ae)抽取水光荷显著特征,拟合多模态水光荷数据分布得到它们之间的耦合关系,聚类生成典型水光荷场景数据集。
[0054]
1、获取水光荷多模态时间序列数据。
[0055]
2、对水光荷多模态时间序列数据进行预处理,生成若干固定时间步的时序样本集,具体如下:
[0056]
在预处理操作前,利用历史水光荷数据进行水/光/荷时序相关性分析,自相关和偏自相关因子变化结果分别如图3、4所示。从图中可以看出,水电与光伏出力在间隔1-6小时内均有一定的自相关性,随着滞后时刻增加自相关降低。光伏自相关性随着时间间隔变化波动大,自相关性变化无规律可寻。水光荷在间隔1小时时有很强的偏自相关性,当时间间隔大于1小时时,其出力点间偏自相关性明显减弱,有一定波动。
[0057]
对水光荷多模态时间序列数据进行预处理,是将水光荷多模态时间序列数据的典型日曲线聚类的时间颗粒度设定为1小时;对水光荷多模态时间序列数据进行归一化处理,对于归一化处理后的水光荷多模态时间序列数据,通过不断滑动一固定时间步长即窗口得到固定时间步的时序样本集。
[0058]
水光荷多模态时间序列数据归一化处理公式如下:
[0059][0060]
其中,x为原始的水/光/荷样本数据值,x

为归一化后水/光/荷样本数值;x
max
,x
min
分别表示水/光/荷样本的最大值与最小值。
[0061]
每个时序样本集开始于t=1小时的时刻,设归一化处理后的水光荷多模态时间序
列数据总长度为t

,滑动的固定时间步t设定为24小时,则一共产生了t

/t个时序样本集。
[0062]
3、基于lstm-ae方法特征提取水光荷显著特征,具体如下:
[0063]
lstm为特征提取模型的基本结构,通过相互连接四个门网络学习水光荷时序之间的依赖关系,输入为水/光/荷时序数据样本,通过输入门、遗忘门、更新门、输出门四个网络计算,提取水光荷时序特征信息,lstm-ae由lstm编码器和lstm解码器两部分组成,可通过均方差完全重构输入的水光荷数据,实现水光荷样本无损压缩。
[0064]
采用lstm编码器对时序样本进行编码,在编码过程中通过多层lstm网络映射将高维水光荷时序样本嵌入到低维度特征空间,抽取得到水光荷显著特征。
[0065]
编码公式为
[0066][0067]
其中,p为原始水光荷样本维度,z为低维度特征,维度为h,lstm通过自我衡量记忆机制对时序信息不断更新,显然,h远远小于p。
[0068]
4、采用k-means++方法进行低维特征聚类。
[0069]
本发明采用k-means++方法对所有的水光荷显著特征进行低维特征聚类,初始聚类中心的选择方法下所示
[0070][0071][0072]
其中,ci为随机选择的水光荷初始聚类中心,d(x,ci)为每个样本离最近中心ci的距离,p
x,i
为低维度水光荷样本x被选为下一个聚类中心的概率,可通过轮盘赌算法选择下一个中心,直到l个中心全部选出来。
[0073]
为保证聚类质量,在聚类之前首先选择聚类个数,由于gs方法不依赖于经验,通过找到最大间隔对应的个数便可,可由以下步骤确定最佳聚类个数l:
[0074]
设置不同聚类个数k=1,2,

,l,得到m个水光荷聚类中心c1,c2,

,c
l
,不同类别之间的欧式距离为
[0075]
其中,xi和xi′
为不同类别的点,若每个类别有2ni个点,则它们之间的紧密度
[0076][0077]
通过蒙特卡洛采样产生n个参考数据集,根据紧密度n=1,2,...,n,k=1,2,...,l聚类,然后计算间隔
[0078][0079]
令计算标准偏差
[0080][0081]
其中,令间隔为随机样本损失和实际样本的损失之差,找到最大间隔对应的k值即为最佳聚类个数,则:
[0082]
gapn(k)≥gapn(k+1)-s
k+1
[0083]
令g(k)=gapn(k)-(gapn(k+1)-s
k+1
),通过g(k)确定最佳水光荷低维度聚类个数l。
[0084]
因此,基于k-means++算法,对所有的水光荷显著特征进行低维特征聚类后,得到l个不同类别的水光荷显著特征。
[0085]
5、采用lstm解码器对l个不同类别的水光荷显著特征进行lstm解码,得到l个类别的典型水光荷场景数据集。
[0086]
解码公式为
[0087][0088]
其中,p为原始水光荷样本维度,z为低维度特征。
[0089]
在解码侧,将固定相同时间步的低维特征z作为lstm网络的输入,将原始输入作为真值进行lstm解码侧网络的训练。由于lstm-ae在非线性转换过程中没有损失原始信息,在特征空间聚类不仅可以减小计算成本并且可以提高聚类的精确度。
[0090]
lstm-ae可提取水/光/荷时序特征和不确定变量耦合关系,将多维水光荷时序样本嵌入特征空间,降低水光荷时序数据维度,精准抽取显著特征,通常将此过程称为特征提取。
[0091]
二、将典型水光荷场景数据集集成到多个近端策略优化主体学习的训练样本中,形成分布式近端策略优化学习框架,得到应对不同水光场景特征的梯级水光蓄调度策略。
[0092]
1、搭建梯级水光蓄系统数学模型,包括梯级水电站出力的数学模型和抽蓄数学模型。
[0093]
为促进新能源消纳,本发明全额消纳光伏,通过对梯级水电和抽蓄的调节使得并网点的波动率满足要求,由于光伏都是输入参数,梯级水电和抽蓄是跟随光伏的随机变化做调整,因此这里利用实际光伏发电、负荷数据,不再研究光伏发电及负荷功率模型,仅关注梯级水电站出力的数学模型和抽蓄数学模型。
[0094]
(1)梯级水电站出力的数学模型为
[0095]
p
hydro,i,t
=9.81η
ihiqi,dis,t
/1000
[0096]
式中,p
hydro,i,t
为i水电站在t时刻出力,mw,ηi为水电站i的综合出力系数,hi为水头高度,如果忽略水头损失则为坝上水位与尾水位差值,q
i,dis,t
为i水电站在t时刻发电流量,m3/s。
[0097]
库容水量平衡满足下式:
[0098]vi,t
=v
i,t-1
+(q
i,in,t-q
i,dis,t-q
i,cur,t
)
×
δt
[0099]
式中,v
i,t
、v
i,t-1
为t、t-1时刻水库容量,m3,q
i,in,t
为i水电站在t时刻入库流量,m3/s,q
i,cur,t
为i水电站在t时刻弃水量,m3/s,如果忽略弃水可视为0,δt为时间间隔,以小时为单位,取3600。
[0100]
梯级水电系统上下游耦合主要体现在上游水电站的泄水流量影响下游电站库容
变化,考虑水流滞时,多级梯级水电蓄水量耦合可由下式描述:
[0101][0102]
式中,τ为水流滞时常数,n为梯级流域水电站个数。水电站出力、发电流量及水库蓄水量满足以下约束:
[0103]qi,dis,min
≤q
i,dis,t
≤q
i,dis,max
[0104]vi,min
≤vi≤v
i,max
[0105]
p
hydro,i,min
≤p
hydro,i,t
≤p
hydro,i,max
[0106]
式中,q
i,dis,min
,q
i,dis,min
为i水电站发电流量的最小值和最大值,m3/s,v
i,min
,v
i,max
为i水电站水库蓄水量最小值和最大值,m3,p
hydro,i,min
,p
hydro,i,max
为i水电站出力的最小值和最大值,mw。
[0107]
(2)抽蓄数学模型
[0108]
本发明采用变速抽水蓄能机组,由可逆式水泵水轮机、全功率变流器、上下库、引水系统组成。抽蓄存在两种工作模式:一种是抽水模式,当与外网交易电量价格较低时,利用梯级水光系统剩余的发电功率将水抽到上游水库存储蓄水能量;另一种是发电模式,电价较高或本地负荷不能满足用电需求时,抽蓄立刻作为水轮机运行发电。抽蓄功率输出可由下式描述:
[0109][0110]
其中,p
phs,t
>0表示抽蓄工作在发电模式,p
phs,t
<0则表示抽蓄工作在抽水模式,p
turbine,t
为抽蓄在t时刻发电量,mw,p
pump,t
为抽蓄在t时刻用电量,mw。
[0111]
抽水蓄能在发电模式和抽水模式下的数学模型分别由以下两式表示:
[0112]
p
turbine,t
=η
turbine
ghq
turbine,t
/1000
[0113]
p
pump,t
=ghq
pump,t
/1000η
pump
[0114]
式中,η
turbine
,η
pump
为抽蓄分别在发电和抽水模式下的效率,g为重力加速度,h为水头高度,m,q
turbine,t
,q
pump,t
为抽蓄分别在发电和抽水模式下t时刻发电水流量和抽水水流量,m3/s。抽蓄上游水库蓄水量满足下式。
[0115]vphs,t
=v
phs,t-1
+(ψ
t
+q
pump,t-q
turbine,t
)
[0116]
式中,ψ
t
为t时刻水库区间入流量,m3/s,v
phs,t
、v
phs,t-1
分别为t、t-1时刻抽蓄上游水库蓄水容量,m3。
[0117]
2、搭建计及多场景的梯级水光蓄系统调度模型。
[0118]
例如,在满足机组约束、库容约束及网架约束的基础上,设置以下目标函数:
[0119][0120]
式中,r
total,t
为t时刻总收益,为向配电网售电收入,为向配电网购电成
本,为水电机组运维成本,为抽水机组运维成本,为功率波动量的惩罚成本,其中可由下式计算:
[0121][0122]
式中,ω1、ω2为波动量的惩罚系数,δp
t
为功率波动量。
[0123]
3、根据典型水光荷场景数据集、梯级水光蓄系统数学模型和梯级水光蓄系统调度模型,搭建不同水光荷场景数据集下基于强化学习的梯级水光蓄动态调度框架,在本发明中,梯级水光蓄动态调度框架为多智能体分布式学习框架,其搭建过程具体如下:
[0124]
梯级考虑光伏出力极强随机性及来水、负荷不确定性,通过调节梯级水电、抽蓄输出功率满足本地负荷、外送可调度性、经济性、光伏友好接入等多种需求,构建基于强化学习框架的梯级水光蓄系统调度模型,将梯级水电和抽蓄出力作为强化学习智能体动作,将当前时刻的光伏出力、负荷、来水量、梯级水电站和抽蓄的库容荷电状态作为强化学习中表征环境的状态,将联络线波动率和梯级水光蓄系统的经济性综合目标和系统约束条件设置为奖惩函数,构建其梯级水光蓄系统强化学习框架。
[0125]
(1)动作
[0126]
将某一典型场景下源荷特征的梯级水光蓄系统等效为一个智能体,该智能体根据环境状态信息,将梯级水电发出功率p
hydro,i,t
及抽蓄发/用电功率p
phs,t
作为智能体动作a
t

[0127]at
={p
hydro,i,t
,p
phs,t
}
[0128]
p
hydro,i,t
∈[p
hydro,i,min
,p
hydro,i,max
]
[0129]
p
phs,t
∈[p
phs,min
,p
phs,miax
]
[0130]
式中,p
hydro,i,min
、p
hydro,i,max
分别为第i级水电出力的极小值和极大值,p
phs,min
、p
phs,miax
分别为抽蓄出力的极小值和极大值。
[0131]
(2)状态
[0132]st
为与环境不断交互得到的实时状态观测信息,将各场景下得时段、电价、当前时段的光伏出力、负荷需求、梯级水电站区间来水、梯级水电站和抽水库容水量荷电状态(state of charge,soc)作为对应水光场景ppo主体的状态,如下式所示:
[0133]st
=(t,λ
t
,p
pv,t
,p
load,t
,q
i,in,t
,soc
hydro,i,t
,soc
phs,t
)。
[0134]
(3)奖励
[0135]
将梯级水光蓄系统调度优化目标和约束条件的越限惩罚项作为奖励函数,其优化目标包括联络线的波动率和系统收益,约束惩罚项包括梯级水电和抽蓄的荷电状态、系统网络节点电压和线路载流,其各水光场景下得奖励函数如下式所示:
[0136]rt
=1/50000(r
total,t-r
punish,t
),
[0137]rpunish,t
=(|c
t-c
min
|+|c
t-c
max
|-|c
max-c
min
|)/2
[0138]
其中,r
t
是t时刻的奖励,r
punish,t
是总的惩罚,c
t
为各个惩罚项,c
max
和c
min
为各个惩罚项的上下限。
[0139]
4、在梯级水光蓄动态调度框架下,根据典型水光荷场景数据集,采用dppo算法求解得到应对不同水光场景特征的梯级水光蓄调度策略,具体如下:
[0140]
(1)将梯级水光蓄动态调度框架模型的参数随机初始化θq,θ
μ

μ


θ
μ

[0141]
(2)将典型水光荷场景集转化成马尔可夫决策过程(markov decision process,mdp)样本,之后根据马尔可夫决策过程样本数据,采用dppo算法,并行计算加速近端策略优化训练,通过多线程收集样本数据,对每一个线程,选择随机一天的初始状态s
t
,根据值网络选择动作a
t
,获得相应奖励r
t
,转移到下一时刻状态s
t+1
,计算响应优势函数,当所有线程完成批量mdp后,将样本和优势函数返回给主线程;
[0142]
之后随机抽取批量m个样本优化策略网络参数,并更新值网络参数和策略网络参数,通过主网络更新策略得到适合不同场景的梯级水光蓄互补系统调度策略。
[0143]
本发明所述计及不同场景的梯级水光蓄系统实时调度决策方法,在测试中,基于场景生成网络,将预测数据自动分类到最相似的场景中,利用相应场景的近端策略优化模型做出对应的调度决策。
[0144]
例如,基于某示范区实际水光荷数据生成8类典型水光场景,多ppo主体利用不同水光荷场景数据离线训练10000轮,以场景1为例,其累积奖励曲线如图5所示,从图中看出,在初始阶段,由于智能体不熟悉梯级水光蓄系统调度模型环境,梯级水电及抽蓄输出违反约束受惩罚使得累积奖励小且为负值。随着智能体不断训练,在线学习逐渐获得拿高分的经验,使得累积奖励逐渐增加。大约在5000轮左右,累积奖励逐渐收敛到稳定值,表明ppo主体已经掌握梯级水光蓄系统水电及抽蓄运行策略。
[0145]
将预测数据划分到与其最相似的场景,然后利用相应场景的ppo主体测试验证是否对新场景具有泛化性。以场景1为例进行说明,其梯级水电出力和抽蓄出力结果如图6、7所示。可以看出,通过梯级水电灵活调控,源侧总出力基本为三段式曲线,通过水电调度平抑了光伏波动,改善光伏出力的间歇特性,ppo主体综合考虑当前并网点功率波动,负荷、电价信息得到抽蓄运行工况。
[0146]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1