一种基于近似模型规划的室内空气自适应控制方法与流程

文档序号:15461611发布日期:2018-09-18 18:17阅读:172来源:国知局

本发明涉及一种室内空气自适应控制方法,特别是涉及一种基于近似模型规划的室内空气自适应控制方法。



背景技术:

随着经济的发展和人们生活水平的提高,人们对于环境的重视程度也与日俱增。室内环境作为人们主要活动的一个场所,与人们的健康更为密切,因此,如何有效地实现室内空气的安全、清新和舒适,是提高人类自我体验的一个关键问题。

目前大部分的室内环境中,仅仅安装了空调和空气净化器等设备,且它们之间是孤立存在的,需要单独来启动设备实现对空气温度的调节和空气的净化。对于一些危险的气体,如密闭空间中的甲醛和二氧化硫,单纯通过空气净化器无法实现快速调节而迅速将其室内含量降低到安全阈值以内,需要立即开窗进行对流。因此,需要增加窗户控制设备。然而,空调和空气净化器等设备都需要人工控制和调整,不具备智能性。因此需要设计相应的控制方法使得这些设备能自动地通过感知环境来启动和运转,实现对室内环境的实时自动控制。



技术实现要素:

针对上述现有技术缺陷,本发明的任务在于提供一种基于近似模型规划的室内空气自适应控制方法,实现自动控制终端以满足室内空气环境要求,同时尽可能地实现室内人员的最大舒适感和满意度。

本发明技术方案是这样的:一种基于近似模型规划的室内空气自适应控制方法,包括以下步骤:

步骤1)、初始化马尔科夫决策模型,设置环境的状态空间X和动作空间U;

步骤2)、初始化参数向量,所述参数向量包括:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数

步骤3)、初始化算法的超参数,所述超参数包括:折扣率γ、衰减因子λ、情节数E、高斯函数的探索标准差ε、每个情节所包含的最大时间步S、值函数的学习率α1、策略的学习率α2、模型的学习率α和规划的次数K;

步骤4)、初始化当前情节s=1;

步骤5)、初始化当前状态xt=x,当前时间步t=1;

步骤6)、选择动作:根据探索策略选择当前状态下应执行的动作ut=u;

步骤7)、生成样本:在当前状态xt下,执行动作u,得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);

步骤8)、采用样本(xt,ut,xt+1,rt+1)更新模型的状态迁移函数参数向量θ和奖赏函数参数向量υ;

步骤9)、计算时间差分误差(Temporal Difference,TD)误差;

步骤10)、更新资格迹:更新资格迹参数向量;

步骤11)、更新值函数:更新值函数对应的参数向量;

步骤12)、更新策略:更新策略对应的参数向量;

步骤13)、更新当前状态:xt=xt+1;

步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);否则,转入步骤5)继续执行;

步骤15)、采用近似模型规划;

步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;

步骤17)、根据学习到最优策略来获取室内空气自适应控制的最优策略。

作为优选的技术方案,步骤(2)中所述值函数近似表示为其中,为高斯函数,用于将状态x映射为特征向量,为中心点,σ1为状态维度的标准差,ξ为参数向量,其维度与特征向量保持一致;所述策略近似表示为其中特征向量与值函数的表示相同,ζ为策略参数向量;模型包含状态迁移函数和奖赏函数,迁移函数近似表示为奖赏函数近似表示为rt+1=φT(xt,ut)υt,其中为状态动作特征,为动作的中心点,σ2为动作维度的标准差,θ为状态迁移函数的参数向量,υ为奖赏函数的参数向量。

作为优选的技术方案,步骤(6)中的探索策略采用高斯函数生成,在任意状态处所采取的动作根据得到,其中,h(x)=u*表示在状态x处根据最优策略得到的最优动作,ε为探索因子。

作为优选的技术方案,步骤(8)中的更新模型采用单步的预测误差作为梯度信号:将单步的状态预测误差作为梯度,得到迁移函数参数向量更新公式为将单步的奖赏预测误差作为梯度,得到参数向量的更新公式为

作为优选的技术方案,步骤(9)中的计算TD误差的计算公式为:ω=r+γV(xt+1)-V(xt)。

作为优选的技术方案,步骤(10)中资格迹更新公式为:

作为优选的技术方案,步骤(11)中值函数更新公式为:ξt+1=ξt+α1ωe(xt)。

作为优选的技术方案,步骤(12)中策略更新公式为:ζt+1=ζt+α2ω(u-u*)Tφ(xt)。

作为优选的技术方案,步骤(15)中的模型规划是在一定的规划次数下,迭代地利用模型xt+1=φT(xt,ut)θt和rt+1=φT(xt,ut)υt生成下一个状态和奖赏,并利用该状态和奖赏来更新值函数参数向量ξt+1=ξt+α1ωe(xt)和策略参数向量ζtt+1=ζt+α2ω(u-u*)Tφ(xt)。

本发明与现有技术相比的优点在于:基于近似模型规划的强化学习算法,通过学习一个近似的环境模型,并利用学习的环境模型来进行局部规划,从而提高学习的效率。通过不断采集终端设备(空气净化器和空调)自带传感器上的感知数据来学习最优策略,利用学习到的最优策略来启动相应的控制设备,启动相应的终端设备(窗户、空气净化器和空调)来对室内环境进行实时的自动控制。

附图说明

图1为本发明基于近似模型规划的室内空气自适应控制系统结构示意图;

图2为本发明室内空气自适应控制系统中服务器结构示意图;

图3为本发明基于近似模型规划的室内空气自适应控制系统的整体控制流程示意图;

图4为本发明基于近似模型规划的室内空气自适应控制方法流程示意图。

具体实施方式

下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。

本实施例涉及的一种基于近似模型规划的室内空气自适应控制方法应用于如图1所示的室内空气自适应调整系统,该系统中的主要模块有:1、空气净化器2、空调3、窗户控制设备4、净化器控制设备5、空调控制设备6、显示和管理设备7、服务器和8手机APP。各模块间可采用无线网络连接,无线网络的组织方式采用了WI-FI网络,但也可以选择GPRS、3G、4G以及Zigbee作为无线通信网络。请结合图2所示,服务器的主要组成部分有中央控制器8a、存储单元8b、传感器单元8c,即包括温度传感器、湿度传感器、甲醛传感器、二氧化硫传感器、PM2.5传感器(传感器这部分已做扩展接口、可以方便增加新的传感器类型)等各种传感器以及各类控制设备的接口电路8d。再结合图3所示,传感器周期性的发送数据给服务器,服务器在接收到数据后,通过当前值与安全阈值的比较,来确定基于近似模型规划的强化学习算法的奖赏值,并将该数据作为样本数据输入基于近似模型规划的强化学习算法,学习用于控制的最优策略。此外,当采集的数据值超过安全阈值时,向控制设备发出控制命令,同时通过显示和管理设备发出警报提示室内人员,通过因特网发送信息到房主和租户的手机APP上,进行相关信息的提示。

基于近似模型规划的室内空气自适应控制方法主要包含两个方面:

首先,需要对数据进行判断和格式化:

1)温度传感器:设定正常的温度值应为18℃~28℃,当温度位于这个区间时,温度值为正常值;

2)湿度传感器:设定正常的湿度值为40%~60%,当湿度位于这个区间时,湿度值为正常值;

3)甲醛传感器:设定正常的甲醛值为0~0.08mg/m3,当甲醛含量位于这个区间时,甲醛值为正常值;

4)二氧化硫传感器:设定正常的二氧化硫值为0~0.50mg/m3,当二氧化硫浓度位于这个区间时,二氧化硫值为正常值;

5)PM2.5传感器:设定正常的PM2.5值为0~75ug/m3,当PM2.5浓度位于这个区间时,PM2.5属于正常值。

当上述值传感器发送来的数据均为正常值时,控制设备无需进行任何操作;当其中某些数据出现异常时,就需要向对应的控制设备发送命令,启动相关设备进行相应操作。如当二氧化硫的浓度超过0.5mg/m3时,室内浓度超过安全值,会发送命令给窗户控制设备,从而启动触发器将窗户打开。

为了排除不同数据量纲带来的计算误差,对各数据进行正则化处理,采用公式来进行处理,其中,xmax表示最大值,xmin表示最小值,表示当前值,则正则化后的值由转换为x,范围为[0,1]之间。

其次,采用基于近似模型规划的强化学习算法求解最优策略,为了实现室内空气的自动实时的控制,需要将室内控制的控制问题首先建模为一个MDP问题,然后再调用相应的算法进行求解。室内空气自适应控制系统被建模后对应的MDP可以表示为:

(1)状态空间:状态的维度为5,状态的分量主要包含温度传感器、湿度传感器、甲醛传感器、二氧化硫传感器以及PM2.5传感器的读数。状态空间中的任意状态x={温度,湿度,甲醛、二氧化硫、PM2.5};

(2)动作空间:动作的维度为3,可以表示为u={空调控制设备的动作、空气净化器控制设备的动作、窗户控制设备的动作}。

空调控制设备的动作主要包括:1制冷小风、2制冷大风、3制热小风、4制热大风、5加湿、6除湿。

空气净化器控制设备的动作主要包括:1净化、2关闭。

窗户控制设备的动作主要包括:1最大角度打开(90°)、2大角度打开(大于60°小于90°)、3中等角度打开(大于30°小于60°)、4小角度打开(大于0°小于30°)、3关闭。

(3)奖赏函数:奖赏函数是人为设定的,具有的值可以根据危险性、人的主观体验偏向性以及算法的运行效果进行微调,如对二氧化硫这类危险气体,通常会设置一个较大的负奖赏,以使控制器尽快学习在这种状态下的最优策略,其次,如果室内人员对温度高无法忍受,可以在温度值高于正常值范围时,给予一个较大负奖赏。

本示例实施过程中,奖赏函数的设计如下:

1)温度值:当温度测量值在正常值区间时,奖赏值为+1,否则为-5;

2)湿度值:当湿度测量值在正常值区间时,奖赏值为+1,否则为-1;

3)甲醛值:当甲醛测量值在正常值区间时,奖赏值为+1,否则为-10;

4)二氧化硫值:当二氧化硫测量值在正常值区间时,奖赏值为+1,否则为-15;

5)PM2.5值:当PM2.5测量值在正常值区间时,奖赏值为+1,否则为-8;

(4)迁移函数:迁移函数表示了在当前状态下执行选择的动作后,系统或者环境迁移到的下一个状态。由于该实例中的状态是通过读取传感器数据实现的,因此迁移到下一个状态,也可以通过读取传感器的数据来获取。

如图4所示为控制中心中基于近似模型规划的强化学习算法的流程,其执行的具体过程包含下面步骤:

步骤1)、初始化马尔科夫决策模型,即按照上述将室内空气控制问题建模为一个MDP问题,初始化状态空间、动作空间、奖赏函数和迁移函数;

步骤2)、初始化参数向量,参数向量主要包含:值函数参数策略参数状态迁移函数参数奖赏函数参数和资格迹参数

步骤3)、初始化算法的超参数,超参数主要包括:设置折扣率γ=0.95,衰减因子λ=0.85,情节数E=500,高斯函数的探索标准差ε=0.6,每个情节所包含的最大时间步S=400,值函数的学习率α1=0.7,策略的学习率α2=0.6,模型的学习率α=0.5,规划的次数K=100;

步骤4)、初始化当前情节s=1;

步骤5)、初始化当前状态xt=各传感器的初始读数,当前时间步t=1;

步骤6)、选择动作:根据探索策略来选择在当前状态下应执行的动作

步骤7)、生成样本:在当前状态xt下,执行动作u(不执行任何动作或启动控制设备进行响应),读取传感器的读数得到下一个状态xt+1和立即奖赏rt+1,生成的样本为(xt,ut,xt+1,rt+1);

步骤8)、学习模型:利用样本(xt,ut,xt+1,rt+1)来更新模型的状态迁移函数和奖赏函数的参数向量和

步骤9)、计算TD误差:首先计算TD误差ω=r+γV(xt+1)-V(xt);

步骤10)、更新资格迹:更新资格迹参数向量

步骤11)、更新值函数:更新值函数对应的参数向量ξt+1=ξt+α1ωe(xt);

步骤12)、更新策略:更新策略对应的参数向量ζtt+1=ζt+α2ω(u-u*)Tφ(xt);

步骤13)、更新当前状态:保存当前传感器的读数xt=xt+1;

步骤14)、更新当前时间步t=t+1,判断是否达到最大时间步:如果达到,转入步骤15);否则,转入步骤5)继续执行;

步骤15)、采用近似模型规划,初始化当前状态为当前环境状态,并初始化资格迹循环执行K次,根据选择动作;计算预测的下一个状态xt+1=φT(xt,ut)θt;计算预测的奖赏rt+1=φT(xt,ut)υt;建立模拟样本(xt,ut,xt+1,rt+1);计算TD误差ω=r+γV(xt+1)-V(xt);更新资格迹参数更新值函数参数ξt+1=ξt+α1ωe1(xt);更新策略参数ζt+1=ζt+α2ω(u-u*)Tφ(xt);

步骤16)、更新当前情节s=s+1,判断是否达到最大情节数:如果达到,转入步骤17);否则,转入步骤5)继续执行;

步骤17)、根据学习到最优策略来获取室内环境自适应控制的最优策略。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1