一种基于关系深度强化学习的家庭能量管控方法及系统

文档序号:30307847发布日期:2022-06-05 07:43阅读:188来源:国知局
一种基于关系深度强化学习的家庭能量管控方法及系统

1.本发明属于能量管控技术领域,尤其涉及一种基于关系深度强化学习的家庭能量管控方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.家庭能量管理系统(home energy management system,hems)是一种对家庭内各类用耗能设备进行优化管理,从而实现节能降费、提高用户舒适度的智能系统,是智能电网在居民侧的延伸。目前对于家庭能量管理问题的求解,主要有将其作为多目标优化问题求解与作为强化学习问题求解等几种方法。强化学习作为一种机器学习算法,因其无监督特性与时间尺度的远视性而在长期管理问题中被广泛运用,其中强化学习方法中的q-learning、dqn、double dqn等算法均已有人将其应用于能量优化管理领域。
4.虽然现有技术中已经使用了多种强化学习算法,但发明人发现,上述基于q-learning的强化学习算法只是通过改变算法内部结构,在减少数据计算量、增加运算效率上进行不断改进,并未基于实际问题对算法的优化效果进行改进。家庭能量配置问题中,相关设备(如洗衣机和烘干机)之间的使用规律具有较强的关联性,提取这些规律有利于提高用户舒适度。此外,许多设备的使用随时间(如台灯)和季节(如空调)的不同变化较大,提取设备与时间的关系也对提高用户舒适度具有现实意义。


技术实现要素:

5.为了解决上述背景技术中存在的技术问题,本发明提供一种基于关系深度强化学习的家庭能量管控方法及系统,其综合考虑家庭用能中时间特征的影响与设备间的关联性,基于关系深度强化学习方法进行家庭能源优化,同时能够提升用户舒适度与能源节约效率。
6.为了实现上述目的,本发明采用如下技术方案:
7.本发明的第一个方面提供一种基于关系深度强化学习的家庭能量管控方法,其包括:
8.获取在能量待配置日期的设定用户的家庭用电设备的初始状态;
9.基于获取的家庭用电设备的初始状态及训练好的日用能类型分类模型,对待配置日期的家庭用电设备用能类型进行预测;
10.将预测的用能类型与能量待配置日期的时间戳共同作为特征加入强化学习家庭能量管理模型的状态变量中;
11.利用关系深度强化学习方法,从强化学习家庭能量管理模型中提取家庭用电设备的动作间关联性以及各家庭用电设备与时间的关联性,进而寻找出在能量待配置日期的设定用户的家庭用电设备最优能量配置方案。
12.本发明的第二个方面提供一种基于关系深度强化学习的家庭能量管控系统,其包括:
13.初始状态获取模块,其用于获取在能量待配置日期的设定用户的家庭用电设备的初始状态;
14.用能类型预测模块,其用于基于获取的家庭用电设备的初始状态及训练好的日用能类型分类模型,对待配置日期的家庭用电设备用能类型进行预测;
15.状态变量修正模块,其用于将预测的用能类型与能量待配置日期的时间戳共同作为特征加入强化学习家庭能量管理模型的状态变量中;
16.最优能量配置模块,其用于利用关系深度强化学习方法,从强化学习家庭能量管理模型中提取家庭用电设备的动作间关联性以及各家庭用电设备与时间的关联性,进而寻找出在能量待配置日期的设定用户的家庭用电设备最优能量配置方案。
17.本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于关系深度强化学习的家庭能量管控方法中的步骤。
18.本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于关系深度强化学习的家庭能量管控方法中的步骤。
19.与现有技术相比,本发明的有益效果是:
20.本发明提出了一种考虑时间特征的rdrl优化方法。该模型将时间特征作为状态的一部分,通过rdrl算法提取其与设备动作之间的关系,同时也兼顾了不同设备间的动作关系,达到提高优化效果的目的,其针对家庭用能行为具有较强规律性、与时间有较强关联性的特点,将时间特征引入优化求解过程,为优化过程提供设备运行规律的参考。并针对相关设备间运行具有关联性的特点,借助rdrl提取各实体间关联性的能力,在提取各设备的时间规律的同时得到设备间运行的关联关系,对能量配置方案的优化过程提供参考,从而达到提升用户舒适度与能源节约率的效果。
21.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1是本发明实施例的基于关系深度强化学习的家庭能量管控原理图;
24.图2是本发明实施例的日用能类型分类模型的训练过程图;
25.图3是本发明实施例的rdrl的q-network结构。
具体实施方式
26.下面结合附图与实施例对本发明作进一步说明。
27.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常
理解的相同含义。
28.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
29.实施例一
30.如图1所示,本实施例提供一种基于关系深度强化学习的家庭能量管控方法,其包括:
31.s101:获取在能量待配置日期的设定用户的家庭用电设备的初始状态。
32.具体地,步骤s101中的家庭用电设备的初始状态即为设备在该时刻的实际状态,可使用相应测量设备(如功率表)测得。
33.s102:基于获取的家庭用电设备的初始状态及训练好的日用能类型分类模型,对待配置日期的家庭用电设备用能类型进行预测。
34.在具体实施过程中,所述日用能类型分类模型的训练过程为:
35.s1021:获取用户历史的各个家庭用电设备的负荷序列。
36.如图2所示,采集目标用户家中各用电设备的历史用能序列,以全部n个用电设备每日的历史负荷序列为基础,组成t行n列数据矩阵,矩阵形式如下式:
[0037][0038]
式中,表示序号为k的用电设备在t时刻的功率,t为总时间步数。
[0039]
s1022:对每一天各个家庭用电设备的负荷序列进行聚类,得到不同的日用能类型。
[0040]
基于以上数据矩阵,使用k-means方法进行聚类,生成γ种特定的日用能类型。
[0041]
s1023:依据聚类结果使用决策树方法进行分类训练,得到以气象特征和日期特征为输入的日用能类型分类模型。
[0042]
如图2所示,基于负荷序列聚类结果,以日期特征(包括星期数、月份等)、天气特征(包括温度、湿度、阴晴等)为分类输入,以聚类结果的日用能类型为输出,使用决策树方法训练建立日用能类型的分类模型。
[0043]
s103:将预测的用能类型与能量待配置日期的时间戳共同作为特征加入强化学习家庭能量管理模型的状态变量中。
[0044]
其中,所述强化学习家庭能量管理模型基于家庭用电设备模型构建而成;所述家庭用电设备模型基于家庭用电设备功率消耗方程与运行约束条件构建而成。
[0045]
例如:将家庭用电设备按照其运行特性分为α种(如刚性负荷、功率可变负荷、时间可变负荷等),并分别建立其功率消耗方程与运行约束条件。
[0046]
其中,所述强化学习家庭能量管理模型的原始状态变量s
t
形式为:
[0047]
[0048]
式中,λ
t
为k时刻的电价,为第j种个体发电设备在t时刻产生的有效功率,为第j种储能设备在t时刻的储能量,tk表示k设备的可运行时间。
[0049]
将预测的用能类型与能量待配置日期的时间戳共同作为特征加入强化学习家庭能量管理模型的状态变量中,更新的状态变量为:
[0050][0051]
式中,m
l
表示下一日的预测用能类型,l=1,2,
……
,γ。
[0052]
所述强化学习家庭能量管理模型的动作变量a
t
形式为:
[0053][0054]
式中,表示第j种储能设备在t时刻的充放电状态。
[0055]
所述强化学习家庭能量管理模型的满意度函数r
t
形式为:
[0056][0057]
式中,表示第j种储能设备在时刻t违反运行约束条件的满意度惩罚;表示序号为k的用电设备在t时刻的功率;λ
t
为k时刻的电价,为种类k的全体设备在时刻t的用户满意度。
[0058]
所述种类k的全体设备在时刻t的用户满意度的表达式为:
[0059][0060]
式中,为种类k的全体设备在时刻t的用户满意度,k=1,2,
……
,α;λ
t
为k时刻的电价,为种类k的第n个设备在时刻t的用电功率,为种类k的设备在t时刻违反第m条运行约束条件的满意度惩罚。
[0061]
s104:利用关系深度强化学习方法,从强化学习家庭能量管理模型中提取家庭用电设备的动作间关联性以及各家庭用电设备与时间的关联性,进而寻找出在能量待配置日期的设定用户的家庭用电设备最优能量配置方案。
[0062]
其中,关系深度强化学习(rdrl)是在深度强化学习的基础上,加入图像与语言处理种常用的self-attention机制的一类强化学习方法,其目的在于使得神经网络具备寻找各实体(状态变量)间的关联关系的能力,使得强化学习算法在各变量关联性较强的问题中能有更好的表现。为找到设备的时间运行规律与设备间的关联性,使用rdrl是解决该问题的有效方法。
[0063]
rdrl的q-network结构如图3所示,其中的relation层结构如下式:
[0064][0065]
[0066]
式中,a为输入相量(矩阵),b为输出相量(矩阵),softmax为激活函数。
[0067]
其中,q、k、v分别为relation层结构中的query、key、value相量组成的矩阵,wq、wk、wv为相应矩阵间的变换系数矩阵,d为query和key相量的维数。
[0068]
以下一日各设备初始状态为输入,以该q-network为训练基础,使用ε-greedy策略寻找出下一日的最优能量配置方案,其形式如下:
[0069][0070]
本实施例通过对一日间各用电设备的功率与各储能设备的充放电进行配置,实现了节能效率与用户舒适度的同步提升。
[0071]
实施例二
[0072]
本实施例提供了一种基于关系深度强化学习的家庭能量管控系统,其包括:
[0073]
初始状态获取模块,其用于获取在能量待配置日期的设定用户的家庭用电设备的初始状态;
[0074]
用能类型预测模块,其用于基于获取的家庭用电设备的初始状态及训练好的日用能类型分类模型,对待配置日期的家庭用电设备用能类型进行预测;
[0075]
状态变量修正模块,其用于将预测的用能类型与能量待配置日期的时间戳共同作为特征加入强化学习家庭能量管理模型的状态变量中;
[0076]
最优能量配置模块,其用于利用关系深度强化学习方法,从强化学习家庭能量管理模型中提取家庭用电设备的动作间关联性以及各家庭用电设备与时间的关联性,进而寻找出在能量待配置日期的设定用户的家庭用电设备最优能量配置方案。
[0077]
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
[0078]
实施例三
[0079]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于关系深度强化学习的家庭能量管控方法中的步骤。
[0080]
实施例四
[0081]
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于关系深度强化学习的家庭能量管控方法中的步骤。
[0082]
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0083]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1