一种基于事件驱动的深度强化学习建筑控制方法与流程

文档序号:36010878发布日期:2023-11-17 04:37阅读:112来源:国知局
一种基于事件驱动的深度强化学习建筑控制方法

本发明涉及一种基于事件驱动的深度强化学习建筑控制方法,属于建筑节能领域。


背景技术:

1、目前,随着全球气候变化日益加剧,降低建筑能耗和提高热舒适显得尤为紧迫。根据国际能源署的报告,住宅建筑在全球能耗中占据了相当大的份额,仅在2020年就消耗了建筑能源的35%。而在建筑系统中,暖通空调系统的能耗占比超过50%,因此,降低暖通空调系统的能耗已成为优化建筑控制的重要研究方向之一。然而,在追求建筑节能的同时,我们不能以牺牲热舒适为代价。特别是在疫情期间,人们更多地停留在室内,因此,如何在保持住宅建筑热舒适的前提下最大限度地减少能耗,成为研究人员和相关从业者关注的焦点。

2、现有技术中,大多数暖通空调系统采用基于规则的控制rbc、比例积分导数pid、拉格拉朗日松弛法和模型预测控制mpc等方法。然而,rbc受到规则设置的限制,控制精度有限,难以适应复杂的实际环境;pid控制器依赖于固定的参数,当环境变化时,可能无法提供最佳的性能;尽管mpc性能更好,但是在实践中创建一个简化且足够准确的建筑模型并不容易,因为室内环境受到许多因素的影响,如建筑结构、建筑布局、建筑内部热量和室外环境等,当模型不足以准确描述建筑热动力学并且存在较大偏差时,控制性能可能会偏离预期。

3、强化学习是一种有效的数据驱动控制方法。与传统控制方法相比,强化学习不需要精确的热力学模型,能够更好地适应环境中的变化和不确定性。尽管强化学习在暖通空调系统中表现出了很大的潜力,但它仍然面临着一些挑战。首先,传统的强化学习方法在固定的时间步上学习,而暖通空调控制中连续的时间步之间具有相似性,这可能导致数据冗余和低效利用。其次,时间间隔的选择也影响控制性能。较长的时间间隔会影响控制精度,而较短的时间间隔则会导致过多的动作切换。此外,建筑热动力的缓慢变化也会减慢强化学习的学习速度。并且暖通空调控制问题通常涉及高维状态空间,这进一步增加了强化学习方法的复杂性。深度强化学习方法有潜力通过结合深度学习和强化学习的优势来解决更复杂的暖通空调控制问题,然而深度强化学习方法仍然面临上述挑战。因此,有必要探索新的方法,以提高暖通空调控制的效率和性能,这将有助于推动建筑节能领域的技术创新,为实现可持续建筑发展和全球能源节约做出贡献。


技术实现思路

1、本发明所要解决的技术问题是,克服现有技术的不足,提供一种基于事件驱动的深度强化学习建筑控制方法,能够在多区域住宅建筑需求下实现无模型优化控制,能够在加快学习速度、减少暖通空调更换动作频率的同时,保持更好的性能控制。通过优化暖通空调系统的控制,实现对建筑能耗的最小化,同时满足人们对室内热舒适的需求。

2、为了解决上述技术问题,本发明的技术方案是:

3、一种基于事件驱动的深度强化学习建筑控制方法,它包括:

4、步骤s1、获取天气数据,生成数据集,将数据集划分为训练集和测试集;

5、步骤s2、选择一个具有多区域的住宅建筑作为建筑模型,根据热力学公式,创建基于python的实验平台;

6、步骤s3、设计基于事件驱动的mdp模型,在基于专家知识和先验知识的情况下,设计两种类型的事件;

7、步骤s4、设计基于事件驱动的dqn算法,用于优化事件触发时的控制策略;

8、步骤s5、通过消融实验验证事件设置的有效性,并根据结果调整事件参数;

9、步骤s6、通过对比实验证明基于事件驱动的dqn算法的控制效果及优越性。

10、进一步,所述步骤s3中,设计基于事件驱动的mdp模型,具体包括如下步骤:

11、构建一个由状态、动作、转移、奖励函数、折扣因子以及事件触发函数构成的具有事件驱动的六元组基于事件驱动的mdp模型,表示为:

12、

13、其中,s表示状态集合;a表示智能体可采取的动作集合;p表示系统的转移;r表示回报函数;γ表示折扣因子,用于衡量智能体对未来奖励的重视程度;e表示事件触发函数;

14、当事件触发函数的值超过预设的阈值时,智能体被触发并更新策略,同时发生状态转移,转移函数为:

15、p{s(t+1)|s(t),a,e};

16、以多区域住宅建筑为环境,以基于事件驱动的深度强化学习为智能体,设计暖通空调系统的状态、动作以及奖励。

17、进一步,所述状态表示为:

18、[tin,z(t),kz(t),tout(t),λelectricity(t)]

19、其中,tin,z(t)为每个房间室内温度,kz(t)为人员占用率,tout(t)为室外温度,λelectricity为电价,z表示房间号,t表示当前时间步。

20、进一步,所述动作为暖通空调系统的温度设定点,所述动作表示为:

21、a(t)=[spz(t)]

22、其中,spz(t)表示z房间的温度设定点;其中每个区域的设定点是一个离散变量,并遵循以下逻辑:

23、

24、若室内温度高于温度设定点的温度数值,则暖通空调系统开启;若室内温度低于温度设定点的温度数值,则暖通空调关闭。

25、进一步,所述奖励函数表示为:

26、

27、其中,λretail(t')表示零售价格,ehvac(t')表示能耗,rcomfort(t')表示温度在舒适范围内的奖励,swpenalty(t')表示开关暖通空调的惩罚项;

28、给定舒适度范围当室内温度tin(t)高于最低舒适温度thmin时,智能体根据奖励大小调整暖通空调系统的设置;当tin(t)低于最低舒适温度thmn时,关闭暖通空调;

29、当执行动作偏离阈值时,则增加负奖励,具体表示如下:

30、

31、当室内温度在热舒适阈值内时,给予正奖赏,定义一个最佳舒适温度thbest,室内温度越靠近thbest,正奖赏越高,正奖赏表示为:

32、

33、进一步,所述步骤s3中的两种类型的事件包括状态转换事件和组合事件。

34、进一步,所述状态转换事件包括第一事件和第二事件,所述第一事件定义如下:

35、

36、其中,λretail(t)与λretail(t')都在价格范围[λlow,λhigh]内,λlow表示最低零售价格,λhigh表示最高零售价格。

37、所述第二事件定义如下:

38、

39、其中,kz(t')与kz(t)在[-1,1]内,-1表示此刻没人,1表示此刻有人。

40、进一步,所述组合事件为第三事件,所述第三事件由th(t')、kz(t')和λretail(t')组合而成;

41、当房间占用率或价格变化时,如果大于热舒适值χ时,则触发第三事件,所述第三事件定义如下:

42、

43、其中,表示热舒适值。

44、进一步,所述步骤s4中,设计基于事件驱动的dqn算法,具体包括如下步骤:

45、步骤s41、初始化q网络参数ω,给目标q网络赋值ω*=ω,基于随机的q网络参数ω初始化所有的状态和动作及对应q值;

46、步骤s42、初始化minibatch的大小b,初始化经验缓冲区m;

47、步骤s43、进行迭代。

48、进一步,所述步骤s43的迭代过程如下:

49、步骤s431、获取环境初始化的当前状态量,并进行初步处理获得特征状态参数s(tout(0),tin,z(0),λelectricity(0),kz(0));

50、步骤s432、在q网络中以s作为输入,如果事件都未触发,则执行之前的动作;如果其中一个事件被触发,得到q网络所有对应q值的动作输出,通过ε贪心算法在当前q值中挑选对应动作a,动作a表示为:

51、

52、其中,s表示某一个状态,a为动作集;

53、步骤s433、当前状态s(t)执行动作a,得到新的环境状态经处理后的特征状态向量s(t+1)和该次动作的奖励r;

54、步骤s434、将元组[s(t),setptz(t),r(t),s(t+1)]放入经验缓冲区m中;

55、步骤s435、从经验缓冲区m中随机抽取b个样本[s(i)(t),setptz(i)(t),r(i)(t),s(i)(t+1)],其中i为样本号;

56、步骤s436、当收集到足够数量的样本时,随机挑选一批样本,计算这些样本的q值,用于更新q网络,计算公式如下:

57、

58、步骤s437、通过均方误差公式作为损失函数来修正权值ω,计算公式如下:

59、

60、步骤s438、根据延迟策略,经过u步后再更新目标q网络,复制网络的权重参数ω*=ω;

61、步骤s439、环境模拟停止,算法停止。

62、采用了上述技术方案,本发明具有以下的有益效果:

63、1、本发明首先引用了事件驱动方法,设计了一种新型的基于事件驱动的mdp模型,使智能体能够更加高效地学习。然后,在设计触发规则时,根据先验知识选择了重要的状态变化作为事件,并设计了合理的触发条件,使智能体只在必要时进行优化控制。最后,提出了基于dqn算法改进的基于事件驱动的深度强化学习算法。与传统的强化学习算法相比,基于事件驱动的深度强化学习算法可以更好地利用事件,加速学习过程并提高学习效果。

64、2、传统的强化学习方法在固定的时间步长上进行控制,可能导致资源浪费和学习效率低。相比之下,本发明的基于事件驱动的深度强化学习方法基于“间歇性”概念,仅在重要事件发生后才更新决策,提高了数据的利用率。

65、3、本发明的基于事件驱动的深度强化学习方法通过学习动态非线性特征,例如不同区域的室内温度,并通过预定义的事件,可以捕捉和利用一些不经常出现的状态。

66、4、本发明的基于事件驱动的深度强化学习方法能够结合先验知识,在事件定义阶段分配变量权重,能够灵活地适应未知的环境并提高学习速度。

67、5、本发明的基于事件驱动的深度强化学习方法只需要建筑系统的历史数据作为输入,而不需要建立完整的建筑系统模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1