基于BinaryLogistic模型运用哑变量预测开窗行为的方法与流程

文档序号:19189100发布日期:2019-11-20 01:52阅读:555来源:国知局
基于Binary Logistic模型运用哑变量预测开窗行为的方法与流程

本发明涉及开窗行为预测技术领域,特别是涉及一种基于binarylogistic模型运用哑变量预测开窗行为的方法。



背景技术:

开窗行为是一个二分类(0代表关窗,1代表开窗)问题,因此目前国内外对开窗行为研究中采用较多的算法为binarylogistic(二元逻辑回归)。其中因变量是窗户的状态为开窗或关窗,自变量包括环境因素(室内外温湿度、pm2.5浓度、室内co2浓度、风速、风向以及太阳辐射等)。在已有研究成果中对自变量通常采用连续变量的形式进行建模预测开窗行为,每个自变量对应一个回归系数解释窗户的开关状态。目前的研究都是直接将连续性变量带入到回归模型中,例如室外相对湿度以连续性变量带入模型时,其解释为相对湿度每增加1%时对于因变量(开窗行为)的影响,但往往湿度增加1%其对开窗的影响是很微弱并没有太大的实际意义。

哑变量,又称为虚拟变量或名义变量是人为虚设的变量,通常取值为0或1来反映某个变量的不同属性,其中“1”代表“是”,“0”代表“否”。对于有n个分类属性的自变量,通常需要选取1个分类作为参照类别,因此可以产生n-1个哑变量。参照变量可选取最低或最高水平的分类与其它不同水平的哑变量进行对比观察其对开窗行为影响情况。此时,我们可以将室外相对湿度这个连续性变量进行离散化,按照15%为一个间隔进行划分转变为哑变量,如小于20%、20%-35%、35%-50%、50%-65%、65%-80%、大于80%,此时构建模型的回归系数就可以解释为室外相对湿度每改变的15%的倍数时对因变量窗户状态的影响。其中每个哑变量代表相对湿度若干个级别间对开窗影响程度的差异,通过构建回归模型,每一个哑变量都能得出一个估计的回归系数,从而使得回归的结果更易于解释,更具有实际意义。同理,室内二氧化碳浓度、室内外温度、pm2.5浓度等参数也可按不同水平分类后建模,可更加详细的解释不同自变量在不同水平下对开窗行为的影响程度,相对于前人研究中一个自变量对应一个回归系数解释开窗行为而言此做法更为细致的描述了开窗行为提高了模型的预测精度。



技术实现要素:

本发明的目的是提供一种基于binarylogistic模型运用哑变量预测开窗行为的方法,实现哑变量在预测开窗行为二元逻辑回归模型中的应用,提高了模型的预测精度。

为实现上述目的,本发明提供了如下方案:

一种基于binarylogistic模型运用哑变量预测开窗行为的方法,所述方法包括以下步骤:

s1,多变量方差分析,采集室内外多个变量,将每个变量根据具体实测数据分布范围进行不同水平划分,且各水平划分案例数目均衡,同时,判断每个变量进行不同水平划分后的分类变量是否服从正态分布,对服从正态分布的分类变量进行方差分析,依据wald检验统计变量所对应的概率sig值,如果sig值小于0.05,则表明该变量对开窗行为有显著影响,从而筛选出与开窗行为相关的自变量;

s2,共线性诊断,对筛选出的与开窗行为相关的多个自变量进行共线性诊断,根据设定的共线性判定条件,筛选出共线性低的自变量;

s3,二元逻辑回归模型建立及开窗行为预测,以步骤s2筛选出的自变量为基础设置哑变量,建立二元逻辑回归模型,根据所述自变量得出各哑变量的逻辑回归系数,将所述逻辑回归系数代入二元逻辑回归方程中,得出开窗行为预测值。

可选的,所述步骤s2中的根据设定的共线性判定条件,筛选出共线性低的自变量,具体包括:满足设定的共线性判定条件的自变量被筛选出来,即为共线性低的自变量,其中,所述共线性判定条件为0<vif<5且tol>0.2,vif表示多个自变量的方差膨胀因子,tol表示多个自变量的容许值。

可选的,所述步骤s1中,采集室内外多个变量,具体包括:采集室内温度、室内相对湿度、室内co2浓度、室内pm2.5浓度、室外温度、室外相对湿度、室外pm2.5浓度、室外风速、室外风向、室内外温差、室内外相对湿度差、室内外pm2.5浓度差、太阳辐射以及时间。

可选的,所述步骤s2中筛选出共线性低的自变量,具体包括:所述共线性低的自变量包括室内温度、室内相对湿度、室内co2浓度、室内pm2.5浓度、室外风速、室外风向、室内外温差、室内外相对湿度差、室内外pm2.5浓度差、太阳辐射以及时间。

可选的,所述步骤s3中,建立二元逻辑回归模型,以步骤s2筛选出的自变量为基础设置哑变量,根据所述自变量得出各哑变量的逻辑回归系数,将所述逻辑回归系数代入二元逻辑回归方程中,得出开窗行为预测值,具体包括:

二元逻辑回归方程表示为:

式中,p值以0.5为分界值,当p≧0.5代表窗户为开启状态,当p<0.5代表窗户为关闭状态;

z=b(i)time(i)+b(k)rh(k)+b(k)co2(k)+b(k)φ(k)+b(k)δt(k)+b(k)δrh(k)

+b(k)δpm2.5(k)+b(m)pm2.5(m)+b(m)v(m)+b(n)t(n)+b(n)r(n)-3.765;

其中,b表示各自变量的回归系数,下角标代表各自变量不同水平哑变量,time表示时间,rh表示室内相对湿度,co2表示室内co2浓度,φ表示室外风向,δτ表示室内外温差,δrh表示室内外相对湿度差,δpm2.5表示室内外pm2.5浓度差,pm2.5表示室内pm2.5浓度,v表示室外风速,t表示室内温度,r表示太阳辐射。

根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于binarylogistic模型运用哑变量预测开窗行为的方法,通过设置哑变量代表自变量的若干个级别间对开窗影响程度的差异,通过构建回归模型使得每一个哑变量都能得出一个回归系数,可更加详细的解释不同自变量在不同水平下对开窗行为的影响程度,相对于前人研究中一个自变量对应一个回归系数解释开窗行为更具有实际意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于binarylogistic模型运用哑变量预测开窗行为的方法流程图;

图2为本发明实施例中室内温度不同水平分布情况及正态曲线;

图3为本发明实施例中室内相对湿度不同水平分布情况及正态曲线;

图4为本发明实施例中室内co2浓度不同水平分布情况及正态曲线;

图5为本发明实施例中室内pm2.5浓度不同水平分布情况及正态曲线;

图6为本发明实施例中室外温度不同水平分布情况及正态曲线;

图7为本发明实施例中室外相对湿度不同水平分布情况及正态曲线;

图8为本发明实施例中室外pm2.5浓度室内温度不同水平分布情况及正态曲线;

图9为本发明实施例中太阳辐射不同水平分布情况及正态曲线;

图10为本发明实施例中室外风速不同水平分布情况及正态曲线;

图11为本发明实施例中室外风向不同水平分布情况及正态曲线;

图12为本发明实施例中室内外温差不同水平分布情况及正态曲线;

图13为本发明实施例中室内外相对湿度差不同水平分布情况及正态曲线;

图14为本发明实施例中室内外pm2.5浓度差不同水平分布情况及正态曲线。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的目的是提供一种基于binarylogistic模型运用哑变量预测开窗行为的方法,实现哑变量在预测开窗行为二元逻辑回归模型中的应用,提高了模型的预测精度。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例中基于binarylogistic模型运用哑变量预测开窗行为的方法流程图,如图1所示,本发明提供的基于binarylogistic模型运用哑变量预测开窗行为的方法包括以下步骤:

s1,多变量方差分析,采集室内外多个变量,将每个变量根据具体实测数据分布范围进行不同水平划分,且各水平划分案例数目均衡,同时,判断每个变量进行不同水平划分后的分类变量是否服从正态分布,对服从正态分布的分类变量进行方差分析,依据wald检验统计变量所对应的概率sig值,如果sig值小于0.05,则表明该变量对开窗行为有显著影响,从而筛选出与开窗行为相关的自变量;

s2,共线性诊断,对筛选出的与开窗行为相关的多个自变量进行共线性诊断,根据设定的共线性判定条件,筛选出共线性低的自变量;

s3,二元逻辑回归模型建立及开窗行为预测,以步骤s2筛选出的自变量为基础设置哑变量,建立二元逻辑回归模型,根据所述自变量得出各哑变量的逻辑回归系数,将所述逻辑回归系数代入二元逻辑回归方程中,得出开窗行为预测值。

其中,所述步骤s1中,采集室内外多个变量,具体包括:采集室内温度、室内相对湿度、室内co2浓度、室内pm2.5浓度、室外温度、室外相对湿度、室外pm2.5浓度、室外风速、室外风向、室内外温差、室内外相对湿度差、室内外pm2.5浓度差、太阳辐射以及时间;

然后将每个变量根据具体实测数据分布范围进行不同水平划分,为了保证后期建模的稳定性在划分时应当避免某一水平案例数目过多或过少的情况,确保各水平划分案例数目均衡,除此之外需保证自变量进行不同水平划分后的分类变量服从正态分布才可进行方差分析筛选出与因变量(窗户状态)相关的变量,划分详情见表1。

表1开窗行为影响因素水平分布

通过各变量直方图可知不同变量各个水平分布情况以及该变量是否满足正态分布,由图2-图14可知各变量在划分水平后均满足正态分布可直接进行多因素方差分析筛选出与开窗行为显著相关的自变量。

对服从正态分布的影响变量进行多变量方差分析,由表2可知开窗行为影响变量主体间效果检定结果为所有变量显著性均小于0.05,依据wald检验统计变量所对应的概率sig值,如果sig值小于0.05,则表明该变量对开窗行为有显著影响,表2中各变量均对开窗行为有显著性影响,与开窗行为存在相关性可选入模型作自变量。

表2开窗行为影响变量主体间效果检定

因变量:窗户状态

其中,所述步骤s2中的根据设定的共线性判定条件,筛选出共线性低的自变量,具体包括:满足设定的共线性判定条件的自变量被筛选出来,即为共线性低的自变量,其中,所述共线性判定条件为0<vif<5且tol>0.2,vif表示多个自变量的方差膨胀因子,tol表示多个自变量的容许值。所述步骤s2中筛选出共线性低的自变量,具体包括:所述共线性低的自变量包括室内温度、室内相对湿度、室内co2浓度、室内pm2.5浓度、室外风速、室外风向、室内外温差、室内外相对湿度差、室内外pm2.5浓度差、太阳辐射以及时间。

建模过程中多个变量高度相关会造成模型的不稳定,因此有必要对变量之间进行共线性诊断。方差膨胀因子(vif):是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。容许值(tol)是vif的倒数,vif越大,显示共线性越严重。经验判断方法表明当0<vif<5且tol>0.2不存在多重共线性。经过检验发现室外温度、室外相对湿度、室外pm2.5浓度与室内外温差、室内外相对湿度、室内外pm2.5浓度差vif值偏高出现共线性,考虑到室内外差值可以同时反映室内与室外的综合情况因此剔除室外温度、相对湿度以及pm2.5浓度三个变量在很大程度减少多重共线性现象。由表3可知经筛选后共线性检验结果为各变量vif值均小于5并且tol值均大于0.2,影响办公间建筑开窗行为的自变量之间共线性较低,模型相对稳定。

表3多重共线性检验

因变量:窗户状态

其中,将步骤s2筛选出的自变量设置为哑变量,此处举例说明将室外相对湿度设置为哑变量的方法,首先,将室外相对湿度间隔15%划分为6个水平,分别为小于20%、20%-35%、35%-50%、50%-65%、65%-80%、大于80%。选取室外相对湿度“小于20%”这一类作为参照类别,将剩下的5个不同水平分类设置为哑变量。利用“0”、“1”编码重新定义5个哑变量为水平1、水平2、水平3、水平4、水平5,其中“1”代表“是”,“0”代表“否”,分类编码列表如表4所示。当所有水平分类编码均为0代表此相对湿度范围为小于20%,属于参照变量;当“水平1”编码为1,其他水平编码均为0代表相对湿度范围为20%-35%;当“水平2”编码为1,其他水平编码均为0代表相对湿度范围为35%-50%;当“水平3”编码为1,其他水平编码均为0代表相对湿度范围为50%-65%;当“水平4”编码为1,其他水平编码均为0代表相对湿度范围为65%-80%;当“水平5”编码为1,其他水平编码均为0代表相对湿度分布范围大于80%。

表4室外相对湿度分类编码列表

此时构建模型的室外相对湿度各个哑变量就可以解释为室外相对湿度每改变“15%的倍数”与相对湿度“小于20%”对比其对因变量(窗户状态)的影响程度。

同时,所有自变量重编码后的不同水平哑变量列表如表5所示。表5分类变量重新定义后的哑变量编码

设置完哑变量后即可建立二元逻辑回归模型得出方程中各自变量不同水平哑变量对应的逻辑回归系数,进而得出预测开窗行为的逻辑回归方程,最终通过“模型拟合度检验”以及“开窗行为预测准确率”对比运用哑变量建立的模型与连续变量建立的模型哪一个更为精准。

开窗行为是一个二分类(0代表关窗,1代表开窗)问题,目前国内外对开窗行为研究中采用较多的算法为binarylogistic(二元逻辑回归)。其中窗户状态为因变量,影响开窗行为的因素为自变量。

在binarylogistic模型中假设因变量为y,取值为“1”时表示事件发生,取值为“0”时表示事件不发生,影响y的n个自变量为x1,x2,x3,…,xn,p表示事件发生的概率,1-p表示时间不发生的概率,binarylogistic模型如下:

为求binarylogistic回归模型的线性模式,首先求得事件的发生比,即事件发生与不发生的概率之比p/(1-p),随后对其进行对数转换就能得到binarylogistic回归模型的线性模式如下所示:

由此可以看出binarylogistic方程的回归系数可以理解为一个单位的自变量变化而引起的发生比的对数的改变值。由于理解“发生”比理解“发生比”的对数容易,所以将方程可以写成如下形式:

β0代表常数,当其它解释变量保持不变,第i个自变量变化一个单位时,发生比的变化值为exp(βi)。自变量的回归系数βi为正值,表示事件发生的概率增加,exp(βi)>1;自变量的回归系数βi为负值,表示事件发生的概率降低,exp(βi)<1;自变量的回归系数βi为0,exp(βi)=1表示不管该自变量是否存在发生比都不会变化即概率不会受之影响;

为了便于理解令那么逻辑回归方程(1)式可用以下形式表达:

上式中p值以0.5为分界值,当p≧0.5代表窗户为开启状态,当p<0.5代表窗户为关闭状态。建立二元逻辑回归模型分析结果如表6所示,其中“b”值表示各变量的回归系数,下角标代表各变量不同水平哑变量,由此可得出方程:

z=b(i)time(i)+b(k)rh(k)+b(k)co2(k)+b(k)φ(k)+b(k)δt(k)+b(k)δrh(k)

+b(k)δpm2.5(k)+b(m)pm2.5(m)+b(m)v(m)+b(n)t(n)+b(n)r(n)-3.765

(6)

式中:time——时间,i∈[1,11];

rh——室内相对湿度,k∈[1,5];

co2——室内二氧化碳浓度,k∈[1,5];

φ——风向,k∈[1,5];

pm2.5——室内pm2.5,k∈[1,5];

δτ——室内外温差,k∈[1,5];

δrh——室内外相对湿度差,k∈[1,5];

δpm2.5——室内外pm2.5浓度差,m∈[1,4];

v——风速,m∈[1,4];

t——室内温度,n∈[1,3];

r——太阳辐射,n∈[1,3]。

通过逻辑回归分析最终得出各自变量不同水平下的哑变量参数如表6所示。表中的逻辑回归系数“b”与“exp(b)”是对数关系,将“b”进行对数转换后得到“exp(b)”。“exp(b)”值用来解释不同水平哑变量与参照类别对比其对开窗影响程度如何。比如室内pm2.5浓度划分为四个水平,由表1可知“水平1”即为室内pm2.5浓度分布范围为1-35ug/m3,将“水平1”即表6中的“室内pm2.5浓度”作为参照类别,剩下三个水平分别在表6中为“室内pm2.5浓度(1)”、“室内pm2.5浓度(2)”、“室内pm2.5浓度(3)”即为三个水平的哑变量分别与参照类别做对比。如表6所示室内pm2.5浓度三个水平对应的exp(b)值分别为1.676、2.289、7.461,与参照类别“室内pm2.5浓度”对比“室内pm2.5浓度(1)”引起开窗的概率是参照类别的1.676倍,“室内pm2.5浓度(2)”引起开窗的概率是参照类别的2.289倍,“室内pm2.5浓度(3)”引起开窗的概率是参照类别的7.461倍,三个数值说明了室内pm2.5浓度越大,窗户处于开启状态的可能性越大,可解释为当室外污染较严重时开窗引进了室外的pm2.5颗粒物致使室内pm2.5浓度偏高。

表6开窗行为多参数二元逻辑回归结果

通常判断一个自变量在所建立的模型中是否有意义,可以依据wald检验统计量所对应的概率sig值检验。若在最终结果中,各个自变量的sig值小于0.05,则表明自变量对因变量有显著影响且存在相关性。但是在回归分析结果表6中可看到个别自变量的哑变量sig值大于0.05,代表该水平哑变量与参照类别对比无统计学意义而不是针对开窗行为。在建立模型之前已经对模型中的所有自变量进行方差分析发现各自变量均与开窗行为有统计学意义(见表2),所以此处的sig值即使没有统计学意义也无碍。由此可知在建立二元逻辑回归模型时,如果同一个自变量的不同哑变量,出现了某些哑变量有统计学显著性,某些无统计学显著性的情况下,为了保证所有哑变量代表含义的正确性,应当在模型中纳入所有的哑变量。所以,我们在引入哑变量进入模型时,需选择enter强制进入法,以保证所有哑变量都能保留在最后的模型中。

表7为模型分析参数对比。模型系数omnibus显著性检验:omnibus值均小于0.05,说明所有自变量与logitp之间的线性关系显著,采用此模型合理;拟合度检验:nagelkerker2统计量,其取值范围为0~1,越接近1说明回归方程拟合度越高,经对比发现运用哑变量建立模型拟合度高于连续变量模型;hosmer-lemeshow为拟合优度检验用于评价预测模型的校准度,是评价开窗模型预测窗户状态概率准确性的重要指标,它反映了模型预测与实际发生的一致程度,所以也可以称作为一致性。校准度好即预测模型的准确性高。若检验结果显示有统计学显著性(p<0.05),则表明模型预测值和实际观测值之间存在一定的差异,模型校准度差,反之当p>0.05代表模型校准度较高。由对比结果可知哑变量模型的校准度为0.122远高于连续变量模型,即哑变量预测模型准确性高于连续变量模型;auc为roc曲线下的面积,用于评价预测模型区分能力的指标。预测模型通过设置一定的界值,高于界值判断为开窗,低于界值则判断为关窗,从而正确区分窗户的状态,这就是预测开窗模型的区分度。auc越大说明预测模型的判别区分能力越好,一般auc<0.6认为区分度较差,0.6-0.75认为模型有一定的区分能力,auc>0.75认为区分能力较好。由对比结果可知,哑变量模型auc为0.81区分能力较好且高于连续变量模型。通过对比发现设置哑变量的模型预测开窗行为准确度为74.8%高于连续变量模型。总的来说,无论是模型拟合度还是预测准确度而言应用哑变量建立的逻辑回归模型均优于连续变量模型。

表7模型参数对比

本发明提供的基于binarylogistic模型运用哑变量预测开窗行为的方法,通过设置哑变量代表自变量的若干个级别间对开窗影响程度的差异,通过构建回归模型使得每一个哑变量都能得出一个回归系数,可更加详细的解释不同自变量在不同水平下对开窗行为的影响程度,相对于前人研究中一个自变量对应一个回归系数解释开窗行为更具有实际意义。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1