一种基于深度强化学习的智慧家庭能量管理方法及系统与流程

文档序号：19157805发布日期：2019-11-16 01:02阅读：来源：国知局

技术特征：

1.一种基于深度强化学习的智慧家庭能量管理方法，其特征是，包括如下步骤：

获取智慧家庭的当前环境状态；

本地深度神经网络根据所述当前环境状态，输出能量存储系统或/和可控负载的当前行为；

根据所述当前行为，对能量存储系统或/和可控负载实施控制；

获取智慧家庭的下一时间步环境状态和下一时间步奖励；

将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池；

从云端经验池中提取训练样本集，以所述奖励最大化为目标，利用深度确定性策略梯度算法对云端深度神经网络进行训练；

将训练好的云端深度神经网络参数更新至本地深度神经网络。

2.根据权利要求1所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，所述可控负载为暖通空调系统。

3.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，所述环境状态的表达式如下：

st＝(pt,bt,bt,tt^out,tt,vt,t′)，

式中，st为智慧家庭在t时刻的环境状态，pt为t时刻的分布式发电机输出功率，bt为t时刻的刚性负载需求功率，bt为t时刻的能量存储系统储能水平，tt^out为t时刻的室外温度，tt为t时刻的室内温度，vt为t时刻的买电电价，t′为t时刻的当前绝对时间在一天内的相对时间。

4.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，所述行为的表达式如下：

at＝(ft,et)，

式中，at为能量存储系统或/和暖通空调系统在t时刻的行为，ft为能量存储系统在t时刻的充放电功率，ft≥0表示充电，ft＜0表示放电，et为暖通空调系统在t时刻的输入功率。

5.根据权利要求2所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，所述奖励函数表达式如下：

rt＝-β(c1,t(st-1,at-1)+c2,t(st-1,at-1))-c3,t(st)，

式中，rt为t时刻的奖励，β为能量系统的成本相对于温度违背导致的惩罚成本的重要性系数，c1,t(st-1,at-1)为t时刻因能量买卖导致的惩罚，st-1为智慧家庭在t时刻的上一时间步的环境状态，at-1为能量存储系统或/和暖通空调系统在t时刻的上一时间步的行为，c2,t(st-1,at-1)为t时刻因能量存储系统折损产生的惩罚，c3,t(st)为t时刻因违背室内舒适温度范围导致的惩罚。

6.根据权利要求3所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，能量存储系统存储水平的动态变化模型如下：

bt+1＝bt+ηcct+dt/ηd，其中，

ηc∈(0,1]，ηd∈(0,1]，b^min≤bt≤b^max，

0≤ct≤c^max，-d^max≤dt≤0，ct·dt＝0；

式中，bt+1为能量存储系统在t时刻的下一时间步的存储水平，b^min为能量存储系统的最小存储水平，b^max为能量存储系统的最高存储水平，ηc为能量存储系统的充电效率，ηd为能量存储系统的放电效率，ct为能量存储系统在t时刻的充电功率，dt为能量存储系统在t时刻的放电功率，c^max为能量存储系统充电功率最大值，d^max为能量存储系统放电功率最大值。

7.根据权利要求4所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，暖通空调系统输入功率的动态变化模型如下：

0≤et≤e^max；

式中，et为暖通空调系统在t时刻的输入功率，e^max为暖通空调系统额定功率，所述暖通空调系统的输入功率能够连续调节。

8.根据权利要求1至7中任一项所述的基于深度强化学习的智慧家庭能量管理方法，其特征是，所述云端深度神经网络包括行动者网络、目标行动者网络、评论家网络、目标评论家网络，所述本地深度神经网络与行动者网络和目标行动者网络的结构相同；

本地深度神经网络输入层的神经元个数与环境状态的分量数相对应，本地深度神经网络隐藏层所采用的激活函数包括线性整流函数，本地深度神经网络输出层的神经元个数与行为的分量数相对应，本地深度神经网络输出层所采用的激活函数包括双曲正切函数或/和sigmoid函数；

评论家网络和目标评论家网络的结构相同，其输入层包括两个分别与环境状态和行为相关的独立子层，环境状态相关子层的神经元个数与环境状态的分量数相对应，行为相关子层的神经元个数与行为的分量数相对应，两子层分别连接有若干隐藏层，与两子层分别连接的若干隐藏层的最后一个隐藏层的神经元个数相同，所述最后一个隐藏层的输出求和后输入至新的隐藏层，所述新的隐藏层所采用的激活函数包括线性整流函数，与所述新的隐藏层连接的输出层所采用的激活函数包括线性激活函数。

9.一种基于深度强化学习的智慧家庭能量管理系统，其特征是，包括：

信息采集模块，用于获取智慧家庭的当前环境状态、下一时间步环境状态和下一时间步奖励，以及将所述当前环境状态、所述当前行为、所述下一时间步环境状态、所述下一时间步奖励发送至云端经验池；

本地深度神经网络，用于根据所述当前环境状态，输出能量存储系统或/和可控负载的当前行为；

行为控制模块，用于根据所述当前行为，对能量存储系统或/和可控负载实施控制；

在线学习模块，用于从云端经验池中提取训练样本集，以所述奖励最大化为目标，利用深度确定性策略梯度算法对云端深度神经网络进行训练，并将训练好的云端深度神经网络参数更新至本地深度神经网络。

技术总结
本发明公开了一种基于深度强化学习的智慧家庭能量管理方法及系统，方法的设计步骤如下：将在无建筑热动力学模型和维持室内温度在舒适范围的情况下最小化智慧家庭能量成本这一能量管理问题建模为马尔可夫决策过程并设计相应的环境状态、行为、奖励函数；利用深度确定性策略梯度算法训练出不同环境状态下能量存储系统或/和可控负载的最优行为，进而最大化奖励函数；将训练好的深度神经网络参数定期拷贝至智慧家庭能量管理系统本地的深度神经网络，用于实际性能测试。本发明提出的方法无需知晓任何不确定性系统参数的先验信息和建筑热动力学模型，且采用本地测试与云端训练相结合的在线学习模式来应对环境变化可能带来的性能降级问题。

技术研发人员：余亮;谢蒂;谢玮玮;邹玉龙
受保护的技术使用者：南京邮电大学
技术研发日：2019.08.07
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2