本发明涉及水库优化调度研究领域,具体地指一种风-光-梯级水库深度强化学习短期随机优化调度方法。
背景技术:
1、近年来,受化石能源日益短缺以及大量化石能源消耗引起的环境污染的影响,各国积极发展可再生能源的建设和应用,可再生清洁能源如风电、光电、水电等的相关研究成为广受关注的热点。常规水电作为清洁能源,是最重要的电力系统调节形式之一,同时也是提高新能源消纳的有效途径。但由于风、光出力具有较强的波动性,如何利用水电平抑风光出力波动,保证电力系统安全可靠运行是提高新能源消纳的首要问题。目前,风力发电、光伏发电的快速发展导致水电调度运行的重要性以及难度愈发增大。其难度主要体现在梯级水库长期调度问题具有的高维度、随机性、非凸性、多阶段、离散化等多种特性,相较于单库状态离散量呈指数级增加,并且加入风电、光电之后系统出力的随机性变量增加导致问题的维度再次增加,对优化调度带来巨大的挑战。而深度强化学习算法通过结合深度学习算法以及强化算法的优点,面向结合风光的梯级水库优化调度问题表现出更好的有效性。
技术实现思路
1、本发明的目的在于克服上述不足,提供一种风-光-梯级水库深度强化学习短期随机优化调度方法,以解决风-光-梯级水库短期随机优化调度中,由多重随机变量大离散状态空间造成的“维数灾”导致计算速度慢、准确度不高的问题,并且提升发电效益、平滑互补系统出力波动。
2、为了解决上述技术问题,本发明所采用的技术方案为:一种风-光-梯级水库深度强化学习短期随机优化调度方法,它包括以下步骤:
3、步骤1:把风-光-梯级水库系统的短期调度视为多阶段决策问题,将短期调度划分为多个阶段求解调度策略;
4、步骤2:依据梯级水库径流历史数据,用皮尔逊ⅲ型分布描述梯级水库各时段入库径流概率,后通过将copula函数中的函数相关特性与梯级水库入库径流相关特性进行对比,选取相关特性最相似的函数对梯级水库入库径流进行空间相关性分析,求解得到各时段梯级水库联合概率密度函数、联合概率分布;
5、步骤3:通过步骤2中选取的函数求解梯级水库相邻时段的联合概率分布描述其时间相关性,再依据条件分布公式,求解得到相邻时段的随机径流马尔可夫状态转移概率矩阵,并马尔可夫蒙特卡洛采样法随机模拟梯级水库入库径流随机场景;
6、步骤4:依据风电出力历史数据,提出基于核密度估计的马尔可夫蒙特卡洛采样法求解风电出力的概率密度函数以及马尔可夫状态转移概率矩阵,并随机模拟未来风电出力场景;
7、步骤5:依据光伏出力历史数据,提出基于核密度估计的马尔可夫蒙特卡洛采样法求解光伏出力的概率密度函数以及马尔可夫状态转移概率矩阵,并随机模拟未来光伏出力场景;
8、步骤6:通过基于相关距离的bisecting k-means聚类算法分别对步骤3、4、5中得到的场景进行场景削减,并通过组合构成风光梯级水库系统各阶段场景;
9、步骤7:利用步骤6中得到的随机场景构建深度强化学习算法的环境,并对深度强化算法dqn(deep q-network,深度q学习)的学习效率参数、水库水位的离散化精度进行参数调优,确定针对以系统发电量最大、剩余负荷最小为目标的风-光-梯级水库系统的dqn算法的参数,最后利用参数调优后的算法,求解风-光-梯级水库系统短期调度的最优策略。
10、优选地,所述步骤1中,将短期调度划分为24个阶段,即一小时为一个阶段求解调度策略。
11、优选地,所述步骤2中,基于皮尔逊ⅲ型分布求解得到各时段梯级水库联合概率密度函数、联合概率分布的过程;
12、首先,选定copula函数中广泛应用于水文学中archimedean copula族;然后,通过将archimedean copula族中主要函数的相关特性与梯级水库入库径流相关特性进行对比,最终采用相关特性最相似的clayton copula函数描述梯级水库的空间相关性;将各水库的皮尔逊-ⅲ型概率分布函数作为边缘分布求解径流状态lt下梯级水库联合概率分布p(lt),如式(1)所示:
13、
14、式中:p(lt)为梯级水库径流状态lt下梯级水库联合概率分布;fn(ln,t)为t时段第n级水库来水ln,t的皮尔逊-ⅲ型概率分布函数;θt为t时段clayton copula函数的联接参数,可通过kendall相关系数估算;
15、并且通过逆变换即分别求偏导可得到其联合概率密度函数。
16、优选地,所述步骤3中,梯级水库马尔可夫转移概率矩阵求解方法包括:
17、通过相关性分析,梯级水库来水历史数据服从马尔可夫特性,求解风电出力马尔可夫概率转移矩阵的具体步骤为:
18、s1:通过clayton copula函数求解得到的t时刻以及t+1时刻的联合分布函数p(lt)、p(lt+1);
19、s2:通过clayton copula函数得到梯级水库相邻时段的联合概率分布p(lt,lt+1)以描述时间相关性;
20、s3:将各水库各阶段来水径流以最大、最小来水径流为范围离散成相同个数的状态;
21、s4:根据条件分布公式,求得相邻时段梯级水库由径流状态的马尔可夫转移概率如式(2)所示:
22、
23、式中:为相邻时段梯级水库径流状态的马尔可夫转移概率;p(lt+1=lt+1|lt=lt)为随机变量入库径流lt+1t+1时段的值为lt+1时,随机变量入库径流ltt时段的值为lt的概率,其中lt+1、lt分别为t+1时段、t时段随机变量入库径流的集合;p(lt=lt,lt+1=lt+1)为t+1时段的随机变量入库径流lt+1的值为lt+1,且随机变量入库径流ltt时段的值为lt的概率;p(lt=lt)为随机变量入库径流ltt时段的值为lt的概率;
24、s5:求解每个径流离散值获取该阶段状态转移概率矩阵
25、s6:重复以上步骤获取每个阶段的状态转移概率矩阵,用于描述梯级水库入库径流相邻时段的马尔可夫过程。
26、所述步骤3中,生成梯级水库入库径流随机场景的方法:
27、采用马尔可夫蒙特卡洛采样法中mh算法生成随机场景的具体步骤:
28、s1:输入各阶段状态转移概率矩阵pt、初始状态x0以及各阶段概率密度分布,并令各阶段马尔可夫平稳分布π(x)等于各阶段概率密度分布;
29、s2:令转移次数n=0、阶段数t=0,分别从转移矩阵pt与均匀分布u(0,1)中采样,得到t+1阶段采样值x*和随机值u。接受采样值x*的判据如式(3)所示:
30、
31、式中:u为满足u(0,1)分布的随机值;x*为基于转移矩阵pt的下一阶段的采样值;π(x*)为t+1阶段采样值x*的平稳分布;π(xt)为t阶段状态xt下的平稳分布;pt(lt+1=x*|lt=xt)为t时段随机变量入库径流lt的值为xt时,t+1时段随机变量径流lt+1的的值为x*的概率,其中lt+1、lt分别为t+1时段、t时段随机变量入库径流的集合;pt(lt=xt|lt+1=x*)为t+1时段随机变量径流lt+1的值为x*时,t时段随机变量入库径流lt的值为xt的概率,其中lt+1、lt分别为t+1时段、t时段随机变量入库径流的集合;
32、若接受则进行状态转移即n=n+1,且令x1=x*;否则该拒绝采样,令n=n+1,x1=x0。继续以上步骤至n=n,马尔可夫链收敛至平稳分布即此时采样均服从目标分布;
33、s3:重复s2所有阶段构造的马尔可夫链均收敛至平稳分布;
34、s4:于第一阶段即t=1继续采样z次作为径流马尔可夫过程的初始状态集合,并以该初始状态基于各阶段状态转移概率矩阵pt进行转移并采样,至最后一阶段;由此获取z组符合各阶段概率密度函数以及状态转移概率的样本,作为梯级水库来水场景,每个场景包含了各水库各时段的来水径流值及对应马尔可夫状态转移概率。
35、优选地,所述步骤4中,求解风电出力的概率密度函数的方法包括:
36、根据风电场的数量选定采用多维或一维核密度估计函数拟合概率密度分布,若仅有一个风电场则采用一维核密度估计函数,若有两个及以上则采用多维核密度估计函数;这里采用一维核密度估计函数进行说明;设x1,x2,…,xn是概率密度函数f(x)未知总体的独立同分布随机变量样本,则核密度估计定义如式(4)所示:
37、
38、式中:x是随机变量;n为样本容量;xi为第i个样本;h为带宽参数;k(t)为核函数,须满足∫k(t)dt=1,k(t)≥0,k(t)=k(-t);
39、由上式可知当样本已知,进行核密度估计还需要确定两个重要部分是带宽参数h以及核函数k(t);由于核密度估计将核函数平均化,所以带宽参数的选择对估计结果的影响比核函数大得多;核函数选择使用高斯核函数,高斯核函数如式(5)所示:
40、
41、最佳带宽参数采用最小二乘交叉证实检验(lscv)法进行求解,且通过高斯核其可以求解多维核函数估计的带宽参数,最小二乘交叉证实检验(lscv)法是一种基于积分平方误差(ise)最小准则的一种计算方法,ise表达式如式(6)所示:
42、
43、式中:x为随机变量;为核密度估计,f(x)为概率密度分布;
44、上式三项中最后一项与带宽无关,因此取前两项进行最小二乘交叉证实检验,使其最小化得到最佳带宽参数,通过将一维核密度估计函数带入,一维最小二乘交叉证实检验如式(7)所示:
45、
46、式中:xi为第i个样本;xj为第j个样本;h为带宽参数;k(t)为核函数;k(2)表示核函数与自身卷积;n为样本容量;
47、所述步骤4中,求解风电出力马尔可夫状态转移概率矩阵的方法包括:
48、通过相关性分析,风电出力随机变量服从马尔可夫特性,求解风电出力马尔可夫概率转移矩阵的具体步骤为:
49、s1:求解出两个相邻时段风电出力状态之间联合密度函数。即将t时刻和t+1时刻风电出力概率密度函数进行积分,得到概率分布函数f(nw,t)、f(nw,t+1)作为边缘概率,选择与风电出力相关性最相近的copula函数求解联合概率函数p(nw,t,nw,t+1);
50、s2:将风电出力以最大、最小风电出力离散为若干个状态;
51、s3:根据条件分布公式,求得相邻时段风电出力由出力状态nw,t转移到下一状态nw,t+1的马尔可夫转移概率如式(8)所示:
52、
53、式中:为相邻时段风电出力状态的马尔可夫状态转移概率;p(nw,t+1=nw,t+1|nw,t=nw,t)为t+1时段随机变量入库径流nw,t+1的值为nw,t+1时,t时段随机变量风电出力nw,t的值为nw,t的概率,其中nw,t+1、nw,t分别为t+1时段、t时段随机变量入库径流的集合;p(nw,t=nw,t,nw,t+1=nw,t+1)为t+1时段随机变量风电出力nw,t+1的值为nw,t+1,且t时段随机变量风电出力nw,t的值为nw,t的概率;p(nw,t=nw,t)为随机变量风电出力nw,tt时段的值为nw,t的概率;
54、根据各相邻时段的随机径流状态转移概率,获取状态转移概率矩阵用于描述梯级水库入库径流相邻时段的马尔可夫过程;
55、所述步骤4中,生成风电出力随机场景的方法:
56、利用马尔可夫蒙特卡洛采样法中mh算法对该随机模型进行采样,具体步骤为:
57、s1:输入各阶段状态转移概率矩阵pt、初始状态x0以及各阶段概率密度分布,并令各阶段马尔可夫平稳分布π(x)等于各阶段概率密度分布;
58、s2:令转移次数n=0、阶段数t=1,分别从转移矩阵p1与均匀分布u(0,1)中采样,得到采样值x*和随机值u,接受采样值x*的判据如式(9)所示:
59、
60、式中:u为满足u(0,1)分布的随机值;x*为基于转移矩阵pt的下一阶段的采样值;π(x*)为t+1阶段采样值x*的平稳分布;π(xt)为t阶段状态xt下的平稳分布;pt(nw,t+1=x*|nw,t=xt)为t时段随机变量入库径流nw,t的值为xt时,t+1时段随机变量径流nw,t+1的的值为x*的概率,其中nw,t+1、nw,t分别为t+1时段、t时段随机变量入库径流的集合;pt(nw,t=xt|nw,t+1=x*)为t+1时段随机变量径流nw,t+1的值为x*时,t时段随机变量入库径流nw,t的值为xt的概率,其中nw,t+1、nw,t分别为t+1时段、t时段随机变量入库径流的集合;
61、若接受则进行状态转移即n=n+1,且令x1=x*;否则该拒绝采样,令n=n+1,x1=x0;继续以上步骤至n=n,马尔可夫链收敛至平稳分布即此时采样均服从目标分布;
62、s3:重复s2所有阶段构造的马尔可夫链均收敛至平稳分布;
63、s4:于第一阶段即t=1继续采样z次作为径流马尔可夫过程的初始状态集合,并以该初始状态基于各阶段状态转移概率矩阵pt进行转移并采样,至最后一阶段,由此获取z组符合各阶段概率密度函数以及状态转移概率的样本,作为风电出力场景;
64、每个场景包含了各时段的风电出力及对应马尔可夫状态转移概率。
65、优选地,所述步骤5中,求解光伏出力概率密度函数的方法包括:
66、根据光伏电站的数量选定采用多维或一维核密度估计函数拟合概率密度分布,若仅有一个光伏电站则采用一维核密度估计函数,若有两个及以上则采用多维核密度估计函数,这里采用一维核密度估计函数进行说明,设x1,x2,…,xn是概率密度函数f(x)未知总体的独立同分布随机变量样本,则核密度估计定义如式(10)所示:
67、
68、式中:x是随机变量;n为样本容量;xi为第i个样本;h为带宽参数;k(t)为核函数,须满足∫k(t)dt=1,k(t)≥0,k(t)=k(-t);
69、由上式可知当样本已知,进行核密度估计还需要确定两个重要部分是带宽参数h以及核函数k(t),由于核密度将核函数平均化,所以带宽参数的选择对估计结果的影响比核函数大得多,核函数这里选择高斯核函数,高斯核函数如式(11)所示:
70、
71、最佳带宽参数采用最小二乘交叉证实检验(lscv)法进行求解,且通过高斯核其可以求解多维核函数估计的带宽参数,最小二乘交叉证实检验(lscv)法是一种基于积分平方误差(ise)最小准则的一种计算方法,ise表达式如式(12)所示:
72、
73、式中:x为随机变量;为核密度估计,f(x)为概率密度分布;
74、上式三项中最后一项与带宽无关,因此取前两项进行最小二乘交叉证实检验,使其最小化得到最佳带宽参数,通过将一维核密度估计函数带入,一维最小二乘交叉证实检验如式(13)所示:
75、
76、式中:xi为第i个样本;xj为第j个样本;h为带宽参数;k(t)为核函数;k(2)表示核函数与自身卷积;n为样本容量;
77、所述步骤5中,求解光伏出力马尔可夫状态转移概率矩阵的方法包括:
78、通过相关性分析,光伏出力随机变量服从马尔可夫特性,求解光伏出力马尔可夫状态概率转移矩阵的具体步骤为:
79、s1:求解出两个相邻时段光伏出力状态之间联合密度函数。即将t时刻和t+1时刻光伏出力概率密度函数进行积分,得到概率分布函数f(ns,t)、f(ns,t+1)作为边缘概率,选择与光伏出力相关性最相近的copula函数求解联合概率函数p(ns,t,ns,t+1);
80、s2:将光伏出力以最大、最小光伏出力离散为若干个状态;
81、s3:根据条件分布公式,求得相邻时段光伏出力由出力状态ns,t转移到下一状态ns,t+1的马尔可夫转移概率如下式(14):
82、
83、式中:为相邻时段风电出力状态的马尔可夫状态转移概率;p(ns,t+1=ns,t+1|ns,t=ns,t)为随机变量入库径流ns,t+1t+1时段的值为ns,t+1时,随机变量风电出力t时段的ns,t的值为ns,t的概率,其中ns,t+1、ns,t分别为t+1时段、t时段随机变量入库径流的集合;p(ns,t=ns,t,ns,t+1=ns,t+1)为t+1时段的随机变量风电出力ns,t+1的值为ns,t+1,且随机变量风电出力ns,tt时段的值为ns,t的概率;p(ns,t=ns,t)为随机变量风电出力ns,tt时段的值为ns,t的概率;
84、根据各相邻时段的随机径流状态转移概率,获取状态转移概率矩阵用于描述梯级水库入库径流相邻时段的马尔可夫过程;
85、所述步骤5中,生成光伏出力随机场景的方法包括:
86、利用马尔可夫蒙特卡洛采样法中mh算法对该随机模型进行采样,具体步骤为:
87、s1:输入各阶段状态转移概率矩阵pt、初始状态x0以及各阶段概率密度分布,并令各阶段马尔可夫平稳分布π(x)等于各阶段概率密度分布;
88、s2:令转移次数n=0、阶段数t=1,分别从转移矩阵p1与均匀分布u(0,1)中采样,得到采样值x*和随机值u;接受采样值x*的判据如式(15)所示:
89、
90、式中:u为满足u(0,1)分布的随机值;x*为基于转移矩阵pt的下一阶段的采样值;π(x*)为t+1阶段采样值x*的平稳分布;π(xt)为t阶段状态xt下的平稳分布;pt(ns,t+1=x*|ns,t=xt)为t时段随机变量入库径流ns,t的值为xt时,t+1时段随机变量径流ns,t+1的的值为x*的概率,其中ns,t+1、ns,t分别为t+1时段、t时段随机变量入库径流的集合;pt(ns,t=xt|ns,t+1=x*)为t+1时段随机变量径流ns,t+1的值为x*时,t时段随机变量入库径流ns,t的值为xt的概率,其中ns,t+1、ns,t分别为t+1时段、t时段随机变量入库径流的集合;
91、若接受则进行状态转移即n=n+1,且令x1=x*;否则该拒绝采样,令n=n+1,x1=x0。继续以上步骤至n=n,马尔可夫链收敛至平稳分布即此时采样均服从目标分布;
92、s3:重复s2所有阶段构造的马尔可夫链均收敛至平稳分布;
93、s4:于第一阶段即t=1继续采样z次作为径流马尔可夫过程的初始状态集合,并以该初始状态基于各阶段状态转移概率矩阵pt进行转移并采样,至最后一阶段;由此获取z组符合各阶段概率密度函数以及状态转移概率的样本,作为风电出力场景;
94、每个场景包含了各时段的光伏出力及对应马尔可夫状态转移概率。
95、优选地,所述步骤6中,基于相关距离的bisecting k-means聚类算法进行场景削减以及构建风光梯级水库系统各阶段场景的方法包括:
96、s1:输入随机场景时序数据;
97、s2:初始化聚类数k,k-means聚类最佳聚类数k一般取在之间,其中n表示样本集中样本个数,在本发明中设k为10即样本数100的平方根;
98、s3:将所有数据化初始化为一个簇,并计算其sse值;
99、s4:选择sse最大的簇基于k-means算法分为两个簇;使用k-means算法分簇的步骤为:将数据分为2组,并每组随机选择一个聚类中心;计算每组数据中各个对象与聚类中心之间的相关距离,把每个对象分配给相关距离它最近的聚类中心;每次分配后,聚类中心会根据聚类中现有的对象被重新计算;重复计算以及分配直至达到终止条件;终止条件主要有:没有(或最小数目)对象被重新分配、没有(或最小数目)聚类中心发生变化、误差平方和局部最小;
100、s5:重新计算划分后的误差,选择sse最大的簇基于k-means算法分为两个簇;
101、s6:重复s4、s5直至簇数即聚类数k=10算法终止;
102、s7:输出s6划分完毕的簇的聚类中心;
103、其中,误差平方和sse表达式如式(16)所示:
104、
105、式中:sse表示误差平方和;i表示簇中第i个点;n表示簇中点的总数;wi表示权重值;yi表示簇中第i个点的值;y*表示簇中所有点的平均值;
106、相关距离表达式如式(17)所示:
107、
108、式中:dxy代表相关距离;cov(x,y)为数列x和y的协方差;var(x)、var(y)分别为数列x和y的协方差;
109、分别求取径流、风电出力、光伏出力随机场景的聚类中心作为代表性场景进行排列组合,构建考虑多重随机性的风-光-梯级互补系统随机场景。
110、优选地,所述步骤7中,风-光-梯级水库系统以发电量最大、剩余负荷最小为目标的奖励函数及其约束;
111、以系统发电量最大、剩余负荷最小为目标奖励函数如式(18)所示(由于同一时刻内梯级水库中各水库以及各风电场、光伏电站同时运行,因此相关符号用粗体向量表式):
112、rt[zt,lt,nw,t,ns,t,qt]=ni,t[zt,lt,qt]+nw,t+ns,t-dt (18)
113、式中:rt[zt,lt,nw,t,ns,t,qt]表示t时段计及剩余负荷惩罚的风光梯级互补系统发电效益;ni,t[zt,lt,qt]为梯级水库t时段的出力,反映了水电能源生产;dt为互补系统出力与负荷过程偏离的惩罚量;zt为各水库t时段的初水位;lt为t时段龙头水库入库径流量和下游水库区间来水,其值为随机变量;qt为t时段的发电流量;nw,t表示t时段风电出力;ns,t表示光伏出力;
114、其中,t时段梯级水库出力ni,t[zt,lt,qt]如式(19)所示:
115、ni,t[zt,lt,qt]=ahtqt (19)
116、式中:a为各水库的综合出力系数;ht为各水库t时段的平均发电水头;
117、互补系统出力偏离负荷过程惩罚量dt,如式(20)所示
118、dt=α×(ct-ni,t-nw,t-ns,t)β (20)
119、式中:ct为t时段负荷需求;ni,t为t时段梯级水库出力;nw,t表示t时段风电出力;ns,t表示光伏出力;α为惩罚系数;β为惩罚指数;
120、互补系统优化调度包括以下等式约束和不等式约束:
121、梯级水库水量平衡约束如式(21)所示:
122、vt+1=vt+(qr,t+lt-qc,t)δtt (21)
123、式中:vt、vt+1分别为各水库t时段初末库容;qr,t、qc,t分别为t时段各水库的入库和出库流量;δtt为水库t时段的发电时长;
124、梯级水位约束如式(22)所示:
125、
126、式中:分别为各水库t时段初的最小和最大限制水位;
127、发电流量约束如式(23)所示:
128、qt≤qmax (23)
129、式中:qmax为各水库最大过机流量;
130、出库流量约束如式(24)所示:
131、
132、式中:分别为各水库t时段初允许的最小、最大出库流量;
133、最大爬坡出力限制如式(25)所示:
134、|ni,t-ni,t-1|≤△ni (25)
135、式中:ni,t为t时段梯级水库出力;ni,t-1为t-1时段梯级水库出力;△ni为相邻时段最大出力幅度;
136、联络线输电能力如式(26)所示:
137、
138、式中:ni,t为t时段梯级水库出力;为梯级水电向电网传输出力最小及最大限制;
139、风、光出力限制如式(27、28)所示:
140、0≤nw,t≤nw,max (27)
141、0≤ns,t≤ns,max (28)
142、式中:nw,t表示t时段风电出力;ns,t表示光伏出力;nw,max为风电最大出力限制;ns,max为光伏最大出力限制;
143、所述步骤7中,dqn应用于风-光-梯级水库互补系统短期优化调度模型流程如下:
144、s1:初始化q值表、风-光-梯级互补系统初状态;
145、s2:输入梯级水库径流、风电出力、光伏出力状态转移矩阵;
146、s3:基于状态转移矩阵,智能体通过探索利用策略与环境进行交互获取知识样本;
147、s4:根据知识样本更新神经网络参数;
148、s5:重复步骤s3至s4直至智能体到达末状态为完成一次训练;
149、s6:重复s5至训练次数上限;
150、s7:输出风-光-梯级互补系统短期调度策略。
151、其中,dqn算法神经网络参数更新主要步骤如下:
152、s1:智能体与环境交互获取大量知识样本存放于经验池;
153、s2:通过经验回放从经验池中提取知识样本,输入神经网络和损失函数;
154、s3:神经网络依据知识样本映射相应q值;
155、s4:通过对损失函数进行梯度下降更新主神经网络参数并更新q值完成,且每间隔β次训练将其参数复制于目标神经网络;
156、dqn算法进行智能体训练主要通过经验回放、神经网络两个关键技术;在s1至s2中,智能体通过与环境交互获取大量知识样本作为训练数据存放于经验池;当经验池中样本足够多时,则通过经验回放即以无序随机的方式抽取指定数目数据,用于神经网络参数更新,以此增加样本利用率并打破样本间关联性,加快算法收敛;
157、为解决使用非线性函数表示值函数时不稳定的问题,dqn算法在s3过程中采用两个结构相同但参数不同的网络映射q值;根据不同的输入数据,主神经网络用于评估梯级水库系统当前状态对应的动作价值,称为q估计值;目标神经网络用于评估下一状态对应的动作价值,称为q目标值;
158、在s4过程中,主神经网络参数基于时序差分核心思想,在每次q值更新中通过对损失函数求梯度进行更新,以减小神经网络预测误差;将时序差分误差定义为损失函数如下式(29):
159、
160、式中:q(st,at;θ)为状态st下采取动作at主神经网络求得的动作价值,即q估计值;q(st+1,at+1;θ-)为状态st+1下采取动作at+1目标神经网络求得的动作价值,即q目标值;θ为主神经网络的网络参数;θ-为目标神经网络的网络参数;γ为折扣率,用于控制未来收益对当前的影响;
161、主神经网络参数及q值更新如式(30)所示:
162、
163、式中:表示损失函数的梯度;α为学习率,用于决定误差被学习的程度;
164、而目标神经网络参数则通过间隔β次训练将主神经网络参数θ复制于目标神经网络θ-来进行更新。通过该种参数更新方式,可以降低q估计值和q目标值的相关性,提高算法稳定性,达到提升智能体决策能力的目的。
165、所述步骤7中,针对风-光-梯级水库互补系统的dqn算法参数调优的方法包括:
166、dqn算法学习效率参数共5个,其中学习率α、贪婪率ε、折扣率γ属于强化学习有关参数,与q-learning算法相同;目标神经网络参数更新间隔β属于深度学习有关参数;水位离散精度h属于其他参数,考虑到实际调度中水位调整常以米为单位,将其设为1m。q-learning算法需要调优的参数仅有学习率、贪婪率、折扣率,为简化调优过程,将dqn算法的学习效率参数分为强化学习有关参数和深度学习有关参数两部分,先通过q-learning算法对强化学习有关参数进行调优,再依据其优选参数通过dqn算法对深度学习有关参数进行调优,即:
167、s1:通过对q-learning算法中学习率、贪婪率在一定范围内进行排列组合,选择累积收益值最大的参数组合作为强化学习有关参数的优选参数,此外由于本水库调度模型的未来收益对当前收益没有影响,因此将折扣率设为1;
168、s2:将优选的学习率、贪婪率运用于dqn算法,对神经网络参数更新间隔以同样的方式进行了测试分析。
169、本发明有益效果:
170、本发明提出的考虑径流、风电出力和光伏出力的随机性,以总发电量最大、剩余负荷最小为目标的基于深度强化学习dqn算法风-光-梯级水库多目标短期随机优化调度方法,技术效果如下:
171、1)、本发明构建了以总发电量最大、剩余负荷最小为目标的多目标短期优化调度模型,该模型可以在满足负荷需求,平滑剩余负荷波动、最大化水电站、风电站、光伏电站经济效益。
172、2)、本发明在构建优化调度模型时考虑了多重随机性,包括径流随机性、风电出力随机性、光伏出力随机性,使模型更贴近实际情况。并分别提出了生成径流、风电出力、光伏出力对应随机场景的方法。
173、由于水库径流波动较小,因此直接基于皮尔逊ⅲ型分布通过copula函数描述径流各阶段的空间、时间相关性,以其概率密度函数和马尔可夫转移概率描述其随机性,并基于马尔科夫蒙特卡洛采样法生成对应随机场景。
174、而针对风电出力、光伏出力波动性较大的特点,提出采用无需预先假定随机变量分布的核密度估计方法对各阶段风电出力、光伏出力的概率密度进行拟合,以求解概率密度函数以及马尔可夫状态转移概率,描述风电出力、光伏出力的随机性,并基于马尔科夫蒙特卡洛采样法生成对应随机场景。
175、3)、本发明构造了大规模场景以描述风-光-梯级水库互补系统的随机性特征,且针对径流、风电出力、光伏出力的数据特征,通过基于相关距离的bisecting k-means算法进行场景削减,以聚类中心作为代表场景描述复杂场景特征,提高计算效率。
176、4)、风-光-梯级水库互补系统由于其多重随机变量,导致维度升高、系统状态空间爆炸性增大,造成严重的维数灾问题。dqn算法结合了强化学习算法和深度学习算法的优点,能够更有效地解决风-光-梯级水库互补系统短期调度中由状态、决策变量的高维性带来的维数灾问题,具有较好的有效性。dqn模型的性能较基于传统强化学习算法的调度模型优化性能较好的提升。其采用了深度学习算法中人工神经网络拟合的方式来代替通过q表储存状q值,在保持计算精度的同时,极大加快了计算速度。并且其经验回放技术能打破样本间关联性,增加样本利用率,即能用更少的历史数据获取更多的样本。
177、5)、本发明将dqn学习效率参数分成了强化学习有关参数、深度学习有关参数两部分,分步进行调优,简化了调优过程,提升dqn算法针对风-光-梯级水库系统的短期随机优化调度的求解性能。