基于元强化学习的大规模负荷需求响应策略、系统及设备的制作方法

文档序号:28742026发布日期:2022-02-07 22:24阅读:58来源:国知局
基于元强化学习的大规模负荷需求响应策略、系统及设备的制作方法

1.本发明涉及电网需求响应技术领域,特别涉及基于元强化学习的大规模负荷需求响应策略、系统及设备。


背景技术:

2.电力供应紧张已成为经济社会生活中的主要矛盾之一,保证电力供需平衡,实现电力系统安全、可靠、经济、清洁、高效已成为经济发展和人民生活水平提高的重要保障。依托市场化改革推进与国家能源政策调整,电力网络与电力市场、电力网络与电力用户之间的协调以及交换越发紧密。需求侧资源管理成为在同样用电功能情况下,减少电量消耗、缓解缺电压力、降低供电和用电成本的重要措施。需求响应(demand response,简称dr)在电力市场竞争中的引入,已成为通过价格信号和激励机制加强需求侧资源在电力市场中作用的重要手段。通过需求响应进行辅助频率调节、保障系统安全运行,以及完成其他电力系统辅助服务,已逐渐成为未来电力市场发展趋势。
3.对于基于激励的直接负荷控制(directloadcontrol,简称dlc)策略,目前已有众多文献进行了深入探讨。自强化学习算法出现以来,其数据驱动的特性助力电力需求响应快速发展。
4.然而,考虑到多用户及多种用电负荷设备,现有强化学习算法的训练过程需要与真实场景进行大量的交互,这无疑大大增加了强化学习算法使用的时间成本和经济成本,尤其是面临多用户及多种用电负荷设备大规模负荷需求响应时体现得尤为明显。


技术实现要素:

5.为解决上述现有技术中增加强化学习使用的时间成本的不足,本发明提供一种基于元强化学习的大规模负荷需求响应策略,可以有效节省降低了在针对大规模用户需求响应训练的时间成本和经济成本。
6.本发明提供一种基于元强化学习的大规模负荷需求响应策略,包括
7.构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;
8.对所述初始模型进行元强化学习训练得到响应模型;
9.通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
10.在一实施例中,根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型,所述约束条件包括功率平衡约束及用电负荷设备约束,所述优化模型为
[0011][0012]
其中,其中,为电网负荷功率,λ
t
为t时刻的用电成本,和为t时刻所述用电负荷识别的连续控制信号。
[0013]
在一实施例中,将所述优化模型转化为马尔可夫决策过程,所述马尔可夫决策过程表示为
[0014]
其中,为状态集合,为动作集合,为所述优化模型的状态转移函数,为所述优化模型的奖励函数,t时刻的所述奖励函数为用电成本的相反数。
[0015]
在一实施例中,通过所述马尔可夫决策过程得到用电成本最低的所述初始模型,所述初始模型为
[0016]
在每个马尔可夫决策时刻,先获取当前状态s并根据所述状态s和所述初始模型在动作集合选择动作a,再根据状态转移函数pi(s

|s,a)获得状态s

和奖励ri=ri(s,a)。
[0017]
在一实施例中,至少构造一个所述优化模型,所述优化模型的数量设有多个,各优化模型之间具有的相似性,先参数化所述初始模型再利用所述元强化学习训练所述初始模型。
[0018]
在一实施例中,参数化的所述初始模型为π(a|s;θ),通过元强化学习训练所述初始模型包括以下步骤:
[0019]
步骤1,初始化参数θ,并随机选取若干优化模型;
[0020]
步骤2,获取第一状态并根据参数化的所述初始模型π(
·
|s
i,t
;θ)随机选取第一动作;
[0021]
步骤3,执行第一动作并获得第二状态和奖励;
[0022]
步骤4,将状态转移过程存档至数据库d;
[0023]
步骤5,计算并根据梯度更新参数
[0024]
步骤6,循环进行步骤2至步骤5,以更新参数
[0025]
在一实施例中,在针对特定所述优化模型进行训练时,
[0026]
步骤1,加载参数θi为所述元强化学习的参数θ;
[0027]
步骤2,获取第一状态并根据参数化所述初始模型π(
·
|s
i,t
;θi)随机选取第一动作;
[0028]
步骤3,执行第一动作并获得第二状态和奖励;
[0029]
步骤4,计算并根据梯度更新参数
[0030]
在一实施例中,参数化的所述初始模型的损失为
[0031][0032]
所述损失用于计算所述梯度。
[0033]
本发明还提供一种基于元强化学习的大规模负荷需求响应系统,包括构建模块、训练模块和响应模块;
[0034]
所述构建模块用于构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;
[0035]
所述训练模块用于对所述初始模型进行元强化学习训练得到响应模型;
[0036]
所述响应模块用于通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
[0037]
本发明还提供一种基于元强化学习的大规模负荷需求响应设备,包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如上任一项所述的基于元强化学习的大规模负荷需求响应策略。
[0038]
基于上述,与现有技术相比,本发明提供的基于元强化学习的大规模负荷需求响应策略、系统及设备,通过引入元强化学习的方式,不直接针对某个特定需求进行训练,而同时在多个需求响应上进行训练,从而针对所有需求的共性得到初始模型,在初始模型的基础上再单独针对特定特殊需求响应进行训练,加速训练过程,有效降低了算力消耗和用户数据的使用,从而节省在针对大规模用户需求响应训练的时间成本和经济成本。
[0039]
本发明的其它特征和有益效果将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他有益效果可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0040]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;在下面描述中附图所述的位置关系,若无特别指明,皆是图示中组件绘示的方向为基准。
[0041]
图1为本发明提供的大规模负荷需求响应策略的流程图;
[0042]
图2为本发明提供的大规模负荷需求响应策略的架构图。
具体实施方式
[0043]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]
在本发明的描述中,需要说明的是,本发明所使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的含义相同的含义,不能理解为对本发明的限制;应进一步理解,本发明所使用的术语应被理解为具有与这些术语在本说明书的上下文和相关领域中的含义一致的含义,并且不应以理想化或过于正式的意义来理解,除本发明中明确如此定义之外。
[0045]
在需求响应方面,直接负荷控制方法为代表在削峰填谷等方面发挥了重要作用,其数据驱动的特性助力电力需求响应快速发展,然而现有强化学习的训练过程中需要真实
场景进行大量的交互,这无疑大大增加了强化学习训练的时间成本和经济成本,在姐姐大规模负荷需求响应时更为明显。
[0046]
为此,本发明提供一种基于元强化学习的大规模负荷需求响应策略,包括构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;对所述初始模型进行元强化学习训练得到响应模型;通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
[0047]
具体实施时,如图1所示,首先根据离散时间内用电负荷设备的约束条件和用电成本构建所述优化模型,约束条件包括功率平衡约束及用电负荷设备约束,其中,用电负荷设备至少包括基础用电负荷设备和可调节用电负荷设备。
[0048]
具体地,如图2所示,本架构中共有n个用户,组成的用户集合记为每个用户有基础用电负荷设备,以及空调、电动汽车等可调节用电负荷设备,每个用户可以根据实时用电成本以及用电需求选择从电网处获取适量电能或者进行内部的需求响应。
[0049]
当所有用户都在离散时间点内进行操作,t为时间跨度,则功率平衡约束为其中,为用户i在t时刻的基础负荷功率、空调功率、电动汽车功率以及电网处功率;
[0050]
空调相关约束:
[0051]
具体地,用户i空调室内温度的转移特性为具体地,用户i空调室内温度的转移特性为其中,分别为t时刻与用户i相关的室内温度、室外温度、干扰变量;fi(
·

·

·

·
)为用户i室内温度的转移函数,通过当前室内温度、室外温度、空调工作功率和干扰变量决定。
[0052]
为了保证用户的舒适度,室内温度控制在范围为了保证用户的舒适度,室内温度控制在范围内,其中,分别为用户i所设置接受的最低温度和最高温度;
[0053]
空调可以在关闭和最大功率之间连续操作,因此,空调功率为其中,为t时刻用户i空调的连续控制信号。
[0054]
电动汽车相关约束:
[0055]
具体地,电动汽车约束为
[0056][0057]
在电动汽车到达时刻和离开时刻之间,须满足用户i的充电需求由于电动汽车充电功率也可以例如空调在0到最大充电功率之间连续调整,因此,电动汽车
功率为其中,为t时刻用户i电动汽车的连续控制信号。
[0058]
考虑到每个用户的用电成本,电网在t时刻的电价为λ
t
,则构建出优化模型为
[0059][0060]
s.t.(1)-(6)
[0061]
,本实施例中,可以构建多个优化模型,分别对应n个用户,用户i的优化模型记为τi。
[0062]
接着,将优化模型转化为马尔可夫决策过程,为了适应元强化学习训练,将优化模型τi转化为马尔可夫决策过程(markov decision process,简称为mdp)。马尔可夫决策过程表示为其中,s为状态集合,a为动作集合,为所述优化模型的状态转移函数,为所述优化模型τi的奖励函数,为实数集。
[0063]
具体地,状态集合可以包括时间、该时刻的用电成本、基础负荷功率、室内室外温度、电动汽车电量以及剩余充电时间等;动作集合可以包括电动汽车和空调的控制信号等。
[0064]
在每个决策时刻,用户i收到当前状态s,之后用户i根据其状态s和初始模型πi(a|s)在动作集合内选择动作a,再根据状态转移函数pi(s

|s,a)获得状态s

和奖励ri=ri(s,a)。
[0065]
马尔可夫决策过程的目的是得到初始模型并且使得r0=∑
k>0
γ
kri,k
最大,以达到用电成本最低。
[0066]
具体地,用户i∈n在t时刻收到状态可以是接着用户i根据初始模型πi(ai|si)选择动作t时刻的奖励函数为用电成本的相反数,即
[0067]
接着,对初始模型进行元强化学习训练得到响应模型,由于各优化模型τi之间具有的相似性,在训练时,首先同时针对所有优化模型τi进行训练,并参数化该初始模型,参数化的所述初始模型为π(a|s;θ),用户根据该初始模型选取动作a,由于任何模型均有损失,本实施例中,参数化的初始模型的损失为
[0068][0069]
利用损失可以进行梯度计算。
[0070]
在针对所有优化模型τi通过以下步骤进行训练,
[0071]
步骤1,初始化参数θ,并随机选取若干优化模型;
[0072]
步骤2,获取第一状态并根据参数化的所述初始模型π(
·
|s
i,t
;θ)随机选取第一动作;
[0073]
步骤3,执行第一动作并获得第二状态和奖励;
[0074]
步骤4,将状态转移过程存档至数据库d;
[0075]
步骤5,计算并根据梯度更新参数
[0076]
步骤6,循环进行步骤2至步骤5,以更新参数
[0077]
具体地,
[0078]
首先初始化参数θ;
[0079]
for episode=1,2,...,n do;
[0080]
随机选取若干优化模型{τi};
[0081]
for allτ
i do;
[0082]
for t∈t do;
[0083]
获取状态s
i,t

[0084]
根据模型π(
·
|s
i,t
;θ)在动作集合a内选择动作a
i,t

[0085]
执行动作a
i,t
并获得下一个状态和奖励(s
i,t+1
,r
i,t
);
[0086]
将转移过程(s
i,1
,a
i,1
,r
i,i
,s
i,2


,s
i,t-1
,a
i,t-1
,τ
i,t-1
,s
i,t
)存档至数据库d;
[0087]
计算
[0088]
根据梯度更新参数
[0089]
for t∈t do;
[0090]
获取状态s
i,t

[0091]
根据模型π(
·
|s
i,t
;θ
′i)在动作集合内选择动作a
i,t

[0092]
执行动作a
i,t
并获得下一个状态和奖励(s
i,t+1
,r
i,t
);
[0093]
将转移过程(s
i,1,ai,1
,r
i,i
,s
i,2


,s
i,t-1
,a
i,t-1
,τ
i,t-1
,s
i,t
)存档至数据库di′

[0094]
更新参数
[0095]
通过上述训练得到初始模型π(a|s;θ),在针对每个优化模型τi通过以下步骤进行训练,
[0096]
步骤1,加载参数θi为所述元强化学习的参数θ;
[0097]
步骤2,获取第一状态并根据参数化所述初始模型π(
·
|s
i,t
;θi)随机选取第一动作;
[0098]
步骤3,执行第一动作并获得第二状态和奖励;
[0099]
步骤4,计算并根据提地更新参数
[0100]
具体地,加载参数θi为所述元强化学习的参数θ;
[0101]
for episode=1,2,...,n do;
[0102]
for t∈t do;
[0103]
获取状态s
i,t

[0104]
根据模型π(
·
|s
i,t
;θi)在动作集合内选择动作a
i,t

[0105]
执行动作a
i,t
并获得下一个状态和奖励(s
i,t+1
,r
i,t
);
[0106]
计算
[0107]
根据梯度更参数
[0108]
根据[1]的记载,目前使用强化学习方法解决多用户及多种用电负荷设备大规模需求响应时,需要为每个用户单独训练需求响应策略,这对计算资源和数据资源提出了极高的要求。而本发明通过引入元学习训练得到最佳初始策略,极大加速了每个用户独立训练的进程,降低了算力消耗和用户数据的使用。
[0109]
其中,[1]为b.wang,y.li,w.ming,and s.wang,“deep reinforcement learning method for demand response management of interruptible load,”ieee transactions on smart grid,vol.11,no.4,pp.3146-3155,july2020.
[0110]
本发明提供的基于元强化学习的大规模负荷需求响应策略,通过引入元强化学习的方式,不直接针对某个特定需求进行训练,而同时在多个需求响应上进行训练,从而针对所有需求的共性得到初始模型,在初始模型的基础上再单独针对特定特殊需求响应进行训练,加速训练过程,有效降低了算力消耗和用户数据的使用,从而节省在针对大规模用户需求响应训练的时间成本和经济成本。
[0111]
本发明还提供一种基于元强化学习的大规模负荷需求响应系统,包括构建模块、训练模块和响应模块,上述构建模块、训练模块和响应模块可是实现上述实施例中所述的基于元强化学习的大规模负荷需求响应策略。
[0112]
具体实施时,构建模块用于构建优化模型并将所述优化模型进行转化以得到用电成本最低的初始模型;训练模块用于对所述初始模型进行元强化学习训练得到响应模型;响应模块用于通过所述响应模型得到大规模负荷需求的响应策略,以进行多用户或多设备的负荷需求响应。
[0113]
本发明还提供一种电子设备,该电子设备包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如上任一项所述的养老保险基金收支数据精准预测方法。
[0114]
具体实施时,处理器的数量可以是一个或多个,处理器可以为中央处理器,(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0115]
存储器与处理器可以通过总线或其他方式通信连接,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使处理器执行如上实施例中任一项所述的养老保险基金收支数据预测方法。
[0116]
基于上述,与现有技术相比,本发明提供的基于元强化学习的大规模负荷需求响应策略、系统及设备,通过引入元强化学习的方式,不直接针对某个特定需求进行训练,而同时在多个需求响应上进行训练,从而针对所有需求的共性得到初始模型,在初始模型的基础上再单独针对特定特殊需求响应进行训练,加速训练过程,有效降低了算力消耗和用户数据的使用,从而节省在针对大规模用户需求响应训练的时间成本和经济成本。
[0117]
另外,本领域技术人员应当理解,尽管现有技术中存在许多问题,但是,本发明的
每个实施例或技术方案可以仅在一个或几个方面进行改进,而不必同时解决现有技术中或者背景技术中列出的全部技术问题。本领域技术人员应当理解,对于一个权利要求中没有提到的内容不应当作为对于该权利要求的限制。
[0118]
最后应说明的是:本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1