基于GPU并行强化学习的建筑节能方法与流程

文档序号：25420213发布日期：2021-06-11 21:31阅读：159来源：国知局

本发明涉及建筑节能方法技术领域，具体为基于gpu并行强化学习的建筑节能方法。

背景技术：

作为占地资源、消耗水、电、气大户的公共建筑领域，《中国建筑节能发展研究报告》(2017-2020)统计数据，商业办公建筑和住宅建筑能耗逐年攀升，远远超过其他领域能耗的上升速度。同时，建筑能耗伴随着建筑面积的逐步扩大和人们对所居住建筑的智能化、绿色、便利、舒适度需求的提高，呈现出不断攀升的趋势。随着技术的进步，智能建筑的节能研究不可避免成为大家关注和研究的重点。大数据，深度学习、模糊分类、人工智能以及它们之间的协同工作，是近期在建筑节能开发研究中，新兴的也是很有发展前景的技术领域。

在智能建筑节能领域，国际上不断有基于强化学习的方法被提出，用于进行节能控制。理论上，在节能控制领域，经典的强化学习算法是一种行之有效的方法，但应用到建筑的现实情况中，两个问题需要解决：其一是维数不可控问题，因为影响节能的因素很多，而且处于变化中；其二是在大容量状态空间或者多态连续空间问题中，传统的强化学习算法存在收敛速度慢，甚至会出现难以收敛的情况。针对在国内建筑节能领域中，重硬件轻软件控制的实际情况，本发明提出的基于gpu并行强化学习的建筑节能方法，体现在快速策略评估和与环境交互并行计算上。

技术实现要素：

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于gpu并行强化学习的建筑节能方法，解决了传统强化学习方法维数不可控，存在收敛速度慢，甚至会出现难以收敛的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：基于gpu并行强化学习的建筑节能方法，包括以下步骤：

s1.在服务器端生成节能操控容器实例，并从系统平台感知环境参数；

s2.在服务器端，判定环境参数，如达到初始设置要求，则停止操作；否则，构造决策模型；

s3.将模型传输到gpu计算工作站；

s4.gpu计算工作站根据模型，进行fcm分类；

s5.选取每个分类中的典型操控策略，逐个对比，整体评估；

s6.将最优操控策略传输到边缘控制系统，进行系统操控；

s7.边缘控制系统接收操控策略，并按策略向末端设备发送指令；

s8.边缘设备将按照指令操作后更新的参数，传送服务器。

优选的，所述s2中决策模型选用马尔科夫决策建模。

优选的，所述决策模型对建筑环境中的空间状态、动作、回馈以及状态转移函数进行建模。

优选的，所述s4中gpu工作站安装fcm算法，对可能的策略进行分类，算法具体包括：

a.输入：当前执行的划分方法相关的参数：i，ci，权重指数m，聚类中心

b.δ＝0；

c.foreachj∈{1,2,...,n},do；

d.v＝vi,u＝ui；

g.δ＝max{δa|v-vi|,||u-uij||}；

h.untilδ＜θ，θ为一个极小的正实数；

i.输出uc、vc、f(c)，从分类之中选取典型的策略，评估后，传输到边缘系统。

(三)有益效果

本发明提供了基于gpu并行强化学习的建筑节能方法。具备以下有益效果：

1、本发明设计的建筑节能方法中策略分类、测评与策略执行是同时执行的，系统吞吐率被有效提升。

2、本发明设计的建筑节能方法中的策略评估过程采用gpu并行计算技术，运行速度和效率加快，系统实时响应提升。gpu并行计算技术对cpu并没有增加太大开销，还可以降低运算时间。

附图说明

图1为本发明提出的建筑节能算法构架示意图；

图2为本发明提出的建筑节能方法步骤示意图；

图3为本发明提出的建筑节能方法流程示意图；

图4为马尔科夫过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1-3所示，本发明实施例提供基于gpu并行强化学习的建筑节能方法，包括以下步骤：

s1.在服务器端生成节能操控容器实例，并从系统平台感知环境参数；

s2.在服务器端，判定环境参数，如达到初始设置要求，则停止操作；否则，构造马尔科夫决策模型；

s3.将模型传输到gpu计算工作站；

s4.gpu计算工作站根据模型，进行fcm分类；

s5.选取每个分类中的典型操控策略，逐个对比，整体评估；

s6.将最优操控策略传输到边缘控制系统，进行系统操控；

s7.边缘控制系统接收操控策略，并按策略向末端设备发送指令；

s8.边缘设备将按照指令操作后更新的参数，传送服务器。

以通风空调为例，进行节能建模，以节省能源消耗，其他能耗的控制，也可采用类似的方法。如果同时开启空调系统、通风系统、电动窗系统，三者之间的效能会相互抵消一部分。本实施例模型设定抵消系数为0.3，开窗和通风系统对co2浓度均产生直接影响，影响系数设为1：1.5，建模如下：

(1)状态

状态建模主要考虑三个因素，分别是室内空气温度t(单位：摄氏度)、室内二氧化碳浓度βt(单位：ppm)以及设置温度sett(单位：摄氏度)，其计算公式如式(1)、式(2)和式(3)所示。其中，室内温度t的范围为[0，40]，βt的范围为[200，1000]，co2浓度的范围为[300，850]，co2浓度参数的作用是：当co2浓度低至200ppm时给一个接近于0的值；当该浓度高于900ppm时给一个接近于1的值。这里设置的200ppm是室外co2浓度能能够达到的最低水平，而900ppm则是室内人体感觉舒适的极限水平。sett与βt的设置方式相同。故状态可以表示为：s＝[t，βt，sett]。其中，et表示实时能耗，t0表示室内初始温度，emax表示一段时间段内，空调系统、电动窗系统和通风系统的最大能耗。

(2)动作

动作建模为80×3的矩阵，各种操作的组合数action_num＝80，每行由一组三维向量组成，对应一组动作，动作来自空调系统、开窗状态以及通风系统。其中空调系统ac_config的设定主要包含5个子动作：0为关闭，1为取暖小风，2为制冷小风，3为取暖大风，4为制冷大风；电动百叶window_config主要包含4个子动作；0为关闭，1为微张，2为半张，3为全开；通风系统ventilation_config主要包含4个子动作：0是关闭，1是小档，2是中档，3是大档。用a＝[ac_config，window_config，ventilation_config]来表示动作。

(3)回馈

回馈建模主要考虑室内温度、室内空气co2浓度以及能源消耗参数。其计算如式(5)、式(6)、式(7)和式(8)所示：

r＝w1(t_penalty)+w2(indoor_air_quaility_penalty)+w3(e_penalty)

(1)

w1、w2、w3分别表示其权重参数，根据经验，本实施例将其设置为：w1＝0.6，w2＝0.3，w3＝0.1，t_reward表示室内温度回馈，indoor_air_quality_reward表示室内空气质量回馈，e_reward,表示能耗回馈。

(4)状态转移函数

状态转移公式如式(5)、式(6)、式(7)和式(8)所示：

tt+1←tt-[(-1^{ac_config％2})×t_changerate×(1-0.1ventilation_config)]

(5)

βt+1＝βt-0.1×window_config+0.2×ventilation_confi

(6)

et+1＝et+ac_config+ventilation_config(7)

其中t_changrate表示温度变化速度，与采用大风、小风还是关闭的动作有关。室内温度与设置温度的差距、室内co2浓度高低、能耗值高低，与整体能耗成正向比例。当三个相关变量变化时，r的值与之线性关联变化；r值减小，整体能耗就显示下降了。这便是节能算法要达到的最终目标：在保障用户舒适度的前置条件下，达到减少建筑能耗，即：在基本满足环境主要约束条件下，用能最少。

马尔科夫决策过程(mdp)用于对顺序决策过程的数学建模。mdp模型中，顺序变化中的下一步环境状态，由当前的环境状态和对当前环境采取的操作决定。因此，可以通过现有的环境状态信息来预计今后的状态以及对现有状态的回馈。

mdp一般可以表示为一个五元组(s，a，p，r，γ)，如图4所示，其中s表示环境状态s构成的状态空间，状态s由多个变量组成；a表示agent所能执行的所有动作α构成的集合；p：s×a×s’→【0.1】为环境状态转移概率函数，p(s，a，s’)表示agent在状态s中执行动作a后环境迁移到新状态s'的概率；r：s×a×s’→r为回报函数，r(s，a，s’)表示agent在环境状态s中执行动作a造成环境因此迁移到状态s’后所取得的直接回馈。γ表示折扣因子系数。后来的状态受当前状态s的影响，但是这个影响随着顺序推进，逐渐变弱。现有的一个动作会对接下来马上要发生的事件会有很大的影响，但随着事件的推进，这个动作对后面事件的影响逐渐弱化，所以需要一个折扣因子来表达衰减。

算法模型中，agent与environment(环境)一直处于交互状态。在每个时刻t，agent会接收到来平台系统自环境传感器的信息，这些信息反映了目前的状态s，基于这个状态s，agent会发出指令a，平台系统会按照这个指令操作，平台系统之后会给agent一个回馈r，并且agent就会到达新的状态。所以，其实agent与environment之间的交互就是产生了一个序列：

s0，a0，r1，s1，a1，r2，...s0，a0，r1，s1，a1，r2，...

这个序列就是决策过程，马尔科夫决策过程使决策序列变得公式化，模型化，决策序列过程广泛用于系统的科学预测。

模糊聚类方法(fuzzyc-menas)不是传统意义上非此即彼的分类方法，它提取样本事物间的特征，计算相互间距离，通过统计相似度百分比，对样本事物进行模糊分类。基于gpu的节能算法中，依照模糊聚类的距离算法，对策略向量进行分类，进而对典型的分类策略进行选优，优选出最佳控制策略，该方法能有效提升算法性能。

以模糊统计方式进行类别划分的算法中，fcm(fuzzyc-means)算法被普遍成功运用，它通过计算每个样本点对所有类中心的距离，通过距离大小来判定各个样本点的类别。假定对数据集x中的所有数据进行分类，设定类的数量为c，相应的，每个类都有一个中心点ci，每个样本xj距离ci的归属百分比定义为uij，那么fcm目标函数及其约束条件定义如下：

目标函数(a)由相应样本的归属各类的百分比与该样本到各类中心的距离相乘组成的，(b)为约束条件，每个样本点与各个聚类中心点的隶属度百分比之和要为1。(1)中的m是一个隶属度的因子，一般为可以自由设定，通常计算中，一般设定为2。||xj-ci||表示xj到中心点ci的欧式距离。目标函数j越小越好，说以我们要求得目标函数j的极小值，fcm结论如下，uij的迭代公式：

ci的迭代公式：

fcm中，uij和ci是相互关联的，彼此包含对方。fcm算法开始的时，uij和ci都没有初始值；在程序开始的时候，只需要任意设定一个uij，只要数值满足约束条件即可，然后迭代启动，通过uij计算出ci，ci进一步计算出uij，不断循环；在循环中，目标函数j一直在变化，逐渐收敛。那么当j不再变化或趋向一个固定值时，就认为算法收敛到一个较好的结果了。

fcm算法有两个返回值，一个是每个聚类的中心点坐标向量，数量是c；一个是n×c(n为样本数量，也就是本发明中控制策略的总数量)的样本矩阵。矩阵中的每行，是各样本点与每个类中心之间距离的百分比值，也即归属度。本章提出的方法基于fcm的粗略模糊划分，fcm的过程由gpu完成，从而提高整个算法的速度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜峰
技术所有人：北京深睿科技有限责任公司
我是此专利的发明人

上一篇：一种陶瓷过滤膜的制备方法与流程
上一篇：一种珠芽魔芋双面叶结果培育方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。