一种求解储能参与削峰填谷的优化调度方法和系统与流程

文档序号:31406105发布日期:2022-09-03 06:52阅读:170来源:国知局
一种求解储能参与削峰填谷的优化调度方法和系统与流程

1.本发明属于电网调度技术领域,具体涉及一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法和系统。


背景技术:

2.大规模电池储能系统通过在负荷高峰时放电,在负荷低谷时充电,可以实现对负荷的削峰填谷功能。电网公司利用储能削峰填谷,能够推迟设备容量升级,提高设备利用率,节省设备更新的费用;电力用户利用储能削峰填谷,可以利用峰谷电价差获得经济效益。如何利用有限的电池容量达到最优的削峰填谷效果,并满足一组约束条件的限制,需要借助于优化算法来实现。
3.求解储能系统充放电策略的经典优化算法包括梯度类算法和动态规划算法。梯度类算法无法处理不连续的约束条件,对初值的依赖性强。采用动态规划算法则可以在模型中考虑不连续、非线性的约束,且方便使用计算机求解。但是当大规模储能并网和高随机性的负荷存在时,这两类方法均存在精度和计算效率的问题,同时这两类方法基于精确的物理模型,这在实际问题里难以保证建模的准确度。


技术实现要素:

4.有鉴于此,本发明旨在解决当大规模储能并网和高随机性的负荷存在时,求解储能系统充放电策略的经典优化算法均存在精度和计算效率的问题且难以保证建模的准确度的问题。
5.为了解决上述技术问题,本发明提供以下技术方案:第一方面,本发明提供了一种求解储能参与削峰填谷的优化调度方法,包括如下步骤:设置参数化深度q值网络,参数化深度q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件时,结束训练,其中表示流形上的信赖域约束,表示利用网络参数参数化的控制策略,表示约束限值,和表示网络参数的更新次数;获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
6.进一步地,参数化深度q值网络具体包括:储能策略神经网络和储能状态价值神经
网络;储能策略神经网络是根据近似状态-动作储能q-value网络设置而成的,对应的网络参数为;所述储能状态价值神经网络是根据近似状态储能q-value网络设置而成的,对应的网络参数为;其中,表示状态,表示动作,表示时刻,表示储能控制策略,表示状态下,当采取动作时对应的价值,表示状态下,对所有可能的动作而言的期望价值,表示回报,表示折扣因子。
7.进一步地,信赖域优化模型具体为:式中,表示更新前的控制策略,表示按网络参数更新后的控制策略,表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
8.进一步地,对参数化深度q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件时,结束训练,具体包括:以所述初始状态为起始状态,以控制策略对储能进行次控制,得到策略状态-动作轨迹,其中为所述储能策略神经网络的输出结果,为储能策略网络的参数,为第轮策略状态-动作轨迹,为第个轨迹且, 为时刻的第个轨迹状态和动作向量;
对于中每一步,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数以及利用所述储能状态价值神经网络计算对应步的状态价值函数,其中是所述储能状态价值神经网络的参数;对于中每一步,基于所述动作-状态价值函数和所述状态价值函数计算优势函数,;基于所述优势函数估计策略梯度,,其中,表示负荷和储能的总控制轮数;表示所述储能策略神经网络在处的梯度;基于所述策略梯度计算所述储能策略神经网络对的二阶偏导,,其中为辅助变量,无实际物理意义;令迭代下标,依次更新所述储能策略神经网络的网络参数为,,其中表示所述储能策略神经网络步长的最大回溯次数;对所述储能状态价值神经网络,以为标签,采用随机梯度下降算法更新参数为,,其中为所述储能状态价值神经网络损失函数对网络参数的梯度,;重复进行上述步骤,直至满足条件以及时,结束训练。
9.进一步地,最小化负荷曲线的方差的表达式具体如下:
式中,为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第()个负荷数据;为时刻的负荷,为已知量,且时为实际负荷,时为预测负荷;为时刻到时刻之间bes的输出功率,电池充电为正,放电为负,且时为已知量,时为控制变量。
10.第二方面,本发明提供了一种求解储能参与削峰填谷的优化调度系统,包括:设置单元,用于设置参数化深度q值网络,参数化深度q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;训练单元,用于获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件 时,结束训练,其中表示流形上的信赖域约束,表示利用网络参数参数化的控制策略,表示约束限值,和表示网络参数的更新次数;控制单元,用于获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
11.进一步地,参数化深度q值网络具体包括:储能策略神经网络和储能状态价值神经网络;储能策略神经网络是根据近似状态-动作储能q-value网络设置而成的,对应的网络参数为;所述储能状态价值神经网络是根据近似状态储能q-value网络设置而成的,对应的网络参数为;其中,表示状态,表示动作,表示时刻,表示储能控制策略,表示状态下,当采取动作时对应的价值,表示状态下,对所有可能的动作而言的期望价值,表示回报,表示折扣因子。
12.进一步地,信赖域优化模型具体为:式中,表示更新前的控制策略,表示按网络参数更新后的控制策略,表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
13.进一步地,训练单元对参数化深度q值网络进行迭代训练并更新网络参数的过程具体包括:以所述初始状态为起始状态,以控制策略对储能进行次控制,得到策略状态-动作轨迹,其中为所述储能策略神经网络的输出结果,为储能策略网络的参数,为第轮策略状态-动作轨迹,为第个轨迹且, 为时刻的第个轨迹状态和动作向量;对于中每一步,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数以及利用所述储能状态价值神经网络计算对应步的状态价值函数,其中是所述储能状态价值神经网络的参数;对于中每一步,基于所述动作-状态价值函数和所述状态价值函数计算优势函数,;基于所述优势函数估计策略梯度,,其中,表示负荷和储能的总控制轮数;表示所述储能策略神经网络在处的梯度;基于所述策略梯度计算所述储能策略神经网络对的二阶偏导,,其中为辅助变量,无实际物理意义;
令迭代下标,依次更新所述储能策略神经网络的网络参数为,,其中表示所述储能策略神经网络步长的最大回溯次数;对所述储能状态价值神经网络,以为标签,采用随机梯度下降算法更新参数为,,其中为所述储能状态价值神经网络损失函数对网络参数的梯度,;重复进行上述步骤,直至满足条件以及时,结束训练。
14.进一步地,最小化负荷曲线的方差的表达式具体如下:式中,为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第()个负荷数据;为时刻的负荷,为已知量,且时为实际负荷,时为预测负荷;为时刻到时刻之间bes的输出功率,电池充电为正,放电为负,且时为已知量,时为控制变量。
15.综上,本发明提供了一种求解储能参与削峰填谷的优化调度方法和系统,包括设置参数化的深度q值网络,利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度q值网络进行训练,训练过程中利用信赖域优化模型对控制策略的更新次数做出限制,从而快速准确的获取最优策略,以便在当前条件下实现储能的优化调度控制。本发明利用信赖域-强化学习,在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果,并且考虑到充放电约束,达到最优的削峰填谷控制功能。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
17.图1为本发明实施例提供的一种求解储能参与削峰填谷的优化调度方法的流程示
意图;图2为本发明实施例提供的信赖域-强化学习的参数更新过程;图3为本发明实施例提供的储能策略神经网络的示意图;图4为本发明实施例提供的储能状态价值神经网络的示意图;图5为本发明实施例提供的网络训练流程图。
具体实施方式
18.为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
19.大规模电池储能系统通过在负荷高峰时放电,在负荷低谷时充电,可以实现对负荷的削峰填谷功能。电网公司利用储能削峰填谷,能够推迟设备容量升级,提高设备利用率,节省设备更新的费用;电力用户利用储能削峰填谷,可以利用峰谷电价差获得经济效益。如何利用有限的电池容量达到最优的削峰填谷效果,并满足一组约束条件的限制,需要借助于优化算法来实现。
20.求解储能系统充放电策略的经典优化算法包括梯度类算法和动态规划算法。梯度类算法无法处理不连续的约束条件,对初值的依赖性强。采用动态规划算法则可以在模型中考虑不连续、非线性的约束,且方便使用计算机求解。但这当大规模储能并网和高随机性的负荷存在时,这两类方法均存在精度和计算效率的问题,同时这两类方法基于精确的物理模型,这在实际问题里难以保证建模的准确度。
21.传统的基于策略梯度的强化学习方法让深度神经网络在控制任务中取得了明显进步。但是用策略梯度的方法取得好的结果也有一些难度,因为这类方法对迭代步骤数非常敏感:如果选得太小,训练过程非常缓慢;如果选得太大,反馈信号就会淹没在噪声中,甚至有可能让模型表现雪崩式地下降。这类方法的采样效率也经常很低,学习简单的任务就需要百万级至十亿级的总迭代次数。
22.基于此,本发明提出了一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法和系统。
23.以下对本发明的一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法进行详细的介绍。
24.请参阅图1,本实施例提供一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法。
25.以下首先对基于信赖域-强化学习求解储能参与削峰填谷的优化调度的设计思路进行详细说明,如下:信赖域-强化学习(trust region policy optimization,trpo)是通过在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果。
26.由于储能的充放电功率可以快速、灵活地改变,不需要考虑爬坡速率约束。忽略电
池组的内部损耗,可以将电池看做恒压源模型。若储能系统的拥有者为电力用户,在市场电价体系下,用户的目标为最大化储能系统给用户带来的经济利益;若储能系统的拥有者为电网,为了减少常规发电机组的开停机次数以及旋转备用的容量,电网的目标为负荷曲线尽量平坦。在数学上,方差可以反映随机变量偏离其均值的程度,负荷的方差可以反映负荷曲线的平坦程度。因此本实施例选取最小化负荷曲线的方差作为目标函数:式中,为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第()个负荷数据;为时刻的负荷,为已知量,且时为实际负荷,时为预测负荷;为时刻到时刻之间bes的输出功率,电池充电为正,放电为负,且时为已知量,时为控制变量。
27.如下依次对本方案的各各项参数进行说明。本实施例的实时优化包含以下几类约束条件。
28.1、电池容量约束各时刻的电池电量不超出电池容量的上下限:式中:和分别为电池剩余电量的下限和上限;为时刻电池的电量,时为已知量,时为状态变量。
29.在线计算时,当前时刻的电量为初值,时刻的电量为终值。忽略电池的损耗后,电池在时间内减少的电量与这段时间内输出的电量相等:式中:为相邻负荷数据的间隔时间;和分别为电池剩余电量的初值和终值。
30.2、功率约束由于电力电子变流器(pcs)及电池本体的限制,电池各时刻的输出功率不能超过功率的上下限:
式中:为最大充放电功率限值。
31.本实施例将上述优化问题转化成一个马尔科夫序列决策模型模型,主要包含状态空间、动作空间和回报函数。
32.为叙述方便,首先说明本实施例中使用较多的符号:3、:状态空间,本实施例中状态空间指的是储能当前的输出功率和负荷预测值。
33.:动作空间,本实施例中动作空间指的是储能的未来时刻的充放电功率;:转移概率分布,这里转移概率分布是确定的,故设置为1。
34.4、:奖励函数,本实施例中奖励函数为:其中为负荷波动的方差最小目标函数,是保证电量位于其对应上下限范围内,是为了保证充放电功率位于其对应上下限内,是为了保证充放电电量-功率平衡。
35.5、:初始状态的概率分布,本实施例的分布为标准正态分布。
36.6、折扣因子,本专利采用保守策略,取。
37.7、:随机策略,本专利指储能的充放电功率对应的概率。
38.8、期望折扣回报:
其中:,是采样轨迹的时刻索引,是表示求均值算子。
39.9、状态-动作储能q-value网络:其物理意义是,状态下,当采取动作时对应的价值。
40.10、储能q-value网络:其物理意义是,状态下,对所有可能动作而言的期望价值。
41.11、优势函数:其物理意义是,状态下,选择某一个动作对应的价值,和对于所有可能动作的期望价值的差,这里。
42.基于上述说明对本方案的设计思路进行说明。本方案的出发点为每一次对策略的更新,可以使得单调增大,故将的表达式写成如下形式:其中为待求的函数,其必须满足,其目的是为了保证单调增加。
43.由重新定义:这里和是任意的两个控制策略,可以看到我们成功的把对策略进行评价的折扣回报函数转换成由优势函数进行评价的形式,于是要考虑这一项何时为正,为正时则要对策略进行更新。但这一表达式并没有给出太多信息,我们来把
其中的状态显式的表现出来:调整各项的位置:定义折扣状态访问概率:其物理意义是在策略下,带有折扣因子的访问到状态的概率(没有归一化),此时为:从这个式子可以看出,对于一个新策略如何判断其是否为更优的策略。就是对于在新策略下,对所有可能到达的状态,考察其期望优势值,若有:则说明为更优的策略,在所考察的状态处,依据下式更新策略:直到对于所有下可能到达的状态,和状态下所有可能采取的动作都不再有正的,则说明收敛到最优策略。
44.进一步的,为了加速计算过程,尤其是园区负荷,光伏,储能在控制每个控制后期内的最优控制能力不会变化很大,且每次训练变动的幅度并不会特别大,此处考虑忽略折扣状态访问概率因策略更新而产生的变化,用替代,此时则有:对于强化学习来说,可以采用采用参数向量可来参数化的控制策略为,可以证明:
其中:为当前的参数化控制策略,为更新后的参数化控制策略。
45.这里为,的第个元素。
46.的计算表达式如下:为了和后面算法中符号统一,同时为了叙述方便,此处简单改写下标记为如下形式:这里表示当前策略,以表示更新后的策略,这是一个以为变量的不等式,可以利用这一不等关系对参数化的策略函数进行更新。
47.令根据majorize-minimize优化原理,本实施例在每一步最大化更新控制策略,进而可以逐步增加期望折扣回报。
48.为了最大化,本方案采用信赖域型方法优化模型:信赖域的想法是体现在流形上的信赖域约束,这个约束是施加于所有状态的,要对每一个状态进行考察,其类似优化理论里的欧式空间信赖域约束。
49.以下讨论根据采样值计算上述优化问题中目标函数:
对于,采用样本均值替代:即这里为在参数下的状态的概率分布。
50.对于一项,可采用重要性采样估计,令表示采样分布,则对第个状态而言,该项可通过如下重要性采样估计:考虑到具有较高的计算复杂度,本方案用替代。
51.所以上述信赖域问题的最终计算形式为:综上所述,本实施例的一种基于信赖域-强化学习求解储能参与削峰填谷的优化调度方法的实施步骤如下:s100:设置参数化深度q值网络,参数化深度q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略。
52.本实施例的设置流程如下:步骤1:将储能控制区间分别离散成10个等分区间,每个区间的步长为;步骤2:设置近似状态-动作储能q-value网络
对应的储能策略神经网络:令对应的参数为;步骤3:设置近似状态储能q-value网络对应的储能状态价值神经网络:令对应的参数为。
53.s200:获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件时,结束训练,其中表示流形上的信赖域约束,表示利用网络参数参数化的控制策略,表示约束限值(图1中该条件未示出)。
54.本实施例中,对参数化深度q值网络进行迭代训练的具体过程如下:步骤1:假定园区有功的初始分布为标准正态分布,获取园区负荷历史有功值和预测值以及对应时刻储能功率出力;步骤2:设置参数=0.9,步长最大回溯次数;步骤3:初始化策略参数和储能q-value网络参数;
步骤4:令=0,1,2,

,依次执行如下步骤:1)以为起始状态,以控制策略对储能次控制,得到轨迹,这里表示第个轨迹,为时刻的第个轨迹状态和动作向量,为储能策略网络的输出结果,为储能策略网络的参数,为第轮策略状态-动作轨迹;2)对中每一步,记录其对应的的回报,这里为储能-负荷调控收益;3) 对中每一步,利用动作-状态神经网络计算对应步的动作-状态价值函数;4)对中每一步,利用储能q-value网络计算对应步的储能q-value网络,其中是储能q-value网络的参数;5)对中每一步,计算优势函数:6)估计策略梯度这里为策略梯度,表示负荷和储能的总控制轮数;表示储能策略网络在处的梯度;7)计算储能策略网络对的二阶偏导;8)求解如下方程组:这里为辅助变量,无实际物理意义;9)令迭代下标,依次更新储能策略网络参数:
如果能保证降低储能策略网络损失的时候,满足的条件,则更新储能策略网络参数过程结束;否则继续执行步骤9;10)对储能q-value网络,以为标签,采用随机梯度下降算法更新参数:这里为储能q-value网络损失函数对网络参数的梯度,;11)重复1)~10),直至储能q-value网络参数,储能策略网络参数,训练结束。
55.如图2所示,图2为信赖域-强化学习的参数更新过程,箭头所示方向为保证降低储能策略网络损失或随机梯度下降的方向,对应圆圈为参数在该次更新下的取值范围。在每次更新参数时,其更新的范围随着更新次数越来越小,从而在有限的次数内实现网络参数的更新。
56.图3和图4分别为储能策略神经网络和储能状态价值神经网络的示意图。其中,储能策略神经网络的输入包括负荷预测值、当前负荷以及当前储能充放电功率,经隐含层操作后,输出为未来储能充放电功率状态对应的概率;储能状态价值神经网络的输入包括负荷预测值、当前负荷以及当前储能充放电功率,经隐含层操作后,输出为未来储能充放电功率状态对应的q值。
57.图5则给出了参数化深度q值网络训练的流程简图。其中,训练过程基于对优势函数的更新,储能策略神经网络通过信赖域的方法实现参数更新,储能q-value网络则通过随机梯度下降的方法更新网络参数。
58.s300:获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
59.基于训练好的参数化深度q值网络,本实施例实现优化调度的实时控制步骤如下:步骤1:获取当前负荷有功值和储能出力;步骤2:将输入储能策略网络;步骤2:选择储能策略网络十个输出结果最大的值对应的策略;步骤3:将下发至储能子站控制器。
60.本实施例提供了一种求解储能参与削峰填谷的优化调度方法,包括设置参数化的深度q值网络,利用负荷历史数据以及对应时刻储能的功率出率对参数化的深度q值网络进行训练,训练过程中利用信赖域优化模型对控制策略的更新次数做出限制,从而快速准确的获取最优策略,以便在当前条件下实现储能的优化调度控制。本发明利用信赖域-强化学
习,在连续控制中,对策略更新的大小做出限制,每次更新的时候不大幅度地改变分布的形态,使收益满足调递增收敛性,能够在线修正优化结果,并且考虑到充放电约束,达到最优的削峰填谷控制功能。
61.以上是对本发明的一种求解储能参与削峰填谷的优化调度方法的一个实施例进行的详细介绍,以下将对本发明的一种求解储能参与削峰填谷的优化调度系统的实施例进行详细的介绍。
62.本实施例提供了一种求解储能参与削峰填谷的优化调度系统,包括:设置单元,用于设置参数化深度q值网络,参数化深度q值网络用于利用自身的网络参数将输入的控制策略参数化并输出若干个参数化控制策略;训练单元,用于获取负荷历史有功值和预测值以及对应时刻储能功率出力,以初始时刻的储能功率出力、负荷有功值和预测值为初始状态进行输入,以任意一个初始储能控制策略对储能进行控制,以最小化负荷曲线的方差作为目标对参数化深度q值网络进行迭代训练并更新网络参数,利用信赖域优化模型对网络参数的更新次数进行控制,满足条件 时,结束训练,其中表示流形上的信赖域约束,表示利用网络参数参数化的控制策略,表示约束限值;控制单元,用于获取当前负荷有功值和储能功率出力并输入至训练好的参数化深度q值网络中,选择输出结果中最大值对应的策略下发至储能子站控制器进行储能调度控制。
63.其中,参数化深度q值网络具体包括:储能策略神经网络和储能状态价值神经网络;储能策略神经网络是根据近似状态-动作储能q-value网络设置而成的,对应的网络参数为;所述储能状态价值神经网络是根据近似状态储能q-value网络设置而成的,对应的网络参数为;其中,表示状态,表示动作,表示时刻,表示储能控制策略,表示状态下,当采取动作时对应的价值,表示状态下,对所有可能的动作而言的期望价值,表示回报,表示折扣因子。
64.另外,信赖域优化模型具体为:式中,表示更新前的控制策略,表示按网络参数更新后的控制策略,
表示更新后的控制策略相比较更新前的控制策略的期望折扣回报,表示更新后的控制策略与更新前的控制策略之间的信赖域约束条件。
65.进一步地,训练单元对参数化深度q值网络进行迭代训练并更新网络参数的过程具体包括:以所述初始状态为起始状态,以控制策略对储能进行次控制,得到策略状态-动作轨迹,其中为所述储能策略神经网络的输出结果,为储能策略网络的参数,为第轮策略状态-动作轨迹,为第个轨迹且, 为时刻的第个轨迹状态和动作向量;对于中每一步,均记录其对应的回报并且基于所述回报,利用所述储能策略神经网络计算对应步的动作-状态价值函数以及利用所述储能状态价值神经网络计算对应步的状态价值函数,其中是所述储能状态价值神经网络的参数;对于中每一步,基于所述动作-状态价值函数和所述状态价值函数计算优势函数,;基于所述优势函数估计策略梯度,,其中,表示负荷和储能的总控制轮数;表示所述储能策略神经网络在处的梯度;基于所述策略梯度计算所述储能策略神经网络对的二阶偏导,,其中为辅助变量,无实际物理意义;令迭代下标,依次更新所述储能策略神经网络的网络参数为,,其中表示所述储能策略神经
网络步长的最大回溯次数;对所述储能状态价值神经网络,以为标签,采用随机梯度下降算法更新参数为,,其中为所述储能状态价值神经网络损失函数对网络参数的梯度,;重复进行上述步骤,直至满足条件以及时,结束训练。
66.进一步地,本实施例的最小化负荷曲线的方差的表达式具体如下:式中,为一日中负荷数据点的个数,由预测负荷数据决定,设当前时刻对应于第()个负荷数据;为时刻的负荷,为已知量,且时为实际负荷,时为预测负荷;为时刻到时刻之间bes的输出功率,电池充电为正,放电为负,且时为已知量,时为控制变量。
67.需要说明的是,本实施例提供的一种求解储能参与削峰填谷的优化调度系统用于实现前述实施例提供的优化调度方法,各单元的具体设置均以完整实现该方法为准,在此不再赘述。
68.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1