一种低成本PM2.5监测节点的校准方法与流程

文档序号:12467034阅读:1154来源:国知局

本发明涉及一种低成本PM2.5监测节点的校准方法,特别是获取可靠的时空一致性数据样本、对于室内环境和室外环境的数据样本分别选用合适的机器学习模型。



背景技术:

空气质量指数(AQI)主要成分包括,细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等各项污染物的实测浓度值。其中细颗粒物(PM2.5),是指直径小于等于2.5微米的颗粒物。细颗粒物面积大,活性强,易附带有毒、有害物质,且在大气中的停留时间长、输送距离远,因为直径越小,进入呼吸道的部分越深。2微米以下的可深入到细支气管和肺泡,细颗粒物进入人体到肺泡后,直接影响肺的通气功能,使机体容易处于缺氧状态。在中国,PM2.5是空气污染物的主要来源,因此PM2.5监测是关系的全国人民健康的重要因素。

现有的PM2.5监测检测节点主要包括下面二类:1)PM2.5监测站,监测站采用脱水称重的方式,得到最精确的PM2.5浓度。然而,由于监测站的部署成本和维护成本较高,在一个城市监测站的数量是有限的,因此难以的得到覆盖城市范围内细粒度的PM2.5浓度。2)PM2.5监测节点,主要是一些基于光散射原理廉价的传感器,精度低于监测站的PM2.5浓度,由于成本较低PM2.5监测节点可以在城市范围大量部署,从而得到细粒度的PM2.5浓度。

针对1)中的缺陷,U-Air提出利用城市大数据训练区间估计模型,对无监测站的区间内的PM2.5浓度进行预测。然而,这种基于历史数据估计的方法,存在一个重要的缺陷:无法对区间内PM2.5浓度的变化做出及时的相应。通过大量部署2)中的PM2.5监测节点可以解决1)中的缺陷,然而节点读数的精度较低成为一个不容忽视的问题。



技术实现要素:

本文要克服现有技术的上述缺点,提供了一种低成本PM2.5监测节点的校准方法。

为实现以上目的,本发明所采取的技术方案是:一种低成本PM2.5监测节点的校准方法,包括以下步骤:

步骤1,获取时间和空间上一致的数据样本,包括:

(1.1)节点硬件集成,主要集成PM2.5监测节点,敏感性特征传感器,无线传输模块和供电模块。

(1.2)节点软件功能设计,主要剖分为定时采集,数据校准,定时传输,低能耗等功能。

(1.3)节点部署,在空气检测站附近的室内环境和室外环境分别部署节点。

(1.4)在本地搭建数据库,设置程序:定时接受节点传输的数据和定时获取空气质量监测站数据,并存入数据库。

步骤2,对于室内环境和室外环境选取不同校准模型,包括:

(2.1)将数据样本按照室内环境节点和室外环境节点分为两组,并进行数据清洗。

(2.2)用最小二乘法对两组样本分别拟合,分别计算校准过的PM2.5节点数据和真实值之间的偏差。

(2.3)对于室内的数据样本,线性拟合后的偏差较小,结合敏感性特征,采用不变线性参数假设,建立多元线性参数回归模型。

(2.4)对于室外的数据样本,线性拟合后的偏差较大,结合敏感性特征,采用可变线性参数假设,建立线性参数学习模型。

步骤3,数据预处理,模型训练和测试,包括:

(3.1)数据预处理,对两组数据样本进行清洗,主要包括异常数据去除,数据缺失值补充。

(3.2)对于每组数据样本,按时间进行排序,选取前一半数据样本作为训练样本,选取后一半数据作为测试样本。

(3.3)对于室内环境的训练样本,采用多元线性回归模型进行训练,将训练好的模型用测试样本进行验证。

(3.4)对于室外环境的训练样本,采用线性参数学习模型进行训练,将训练好的模型用测试样本进行验证。

(3.5)对于室内环境的节点将验证过的离线模型参数写入校准程序。

(3.6)对于室外环境的节点将验证过的离线模型写入校准程序。

步骤4,将验证过的神经网络和回归树离线模型分别写入室内节点和室外节点的校准程序。

本发明的有益效果是:本方法针对室内环境和室外环境,分别建立合适的校准模型。校准模型是经离线训练的再写入节点程序的,无需对之后节点程序进行任何的变动。校准过的数据能得到较大的精度提升。

附图说明

图1是本发明方法的工作流程图。

具体实施方式

下面结合附图对本发明作进一步描述。本发明的具体实施方式如下:

步骤1,获取时间和空间上一致的数据样本,包括:

(1.1)集成节点,敏感性特征传感器和无线传输模块。敏感性特征为湿度,温度,气压强度。

(1.2)在节点设置程序,数据定时传输回本地。节点数据采样周期和传输周期为30分钟。节点传输数据的方式是基于GPRS的HTTP-POST协议。

(1.3)部署节点在空气质量监测站附近。

(1.4)在本地设置程序,定时获取空气质量监测站数据。本地通过爬虫程序从官网上获取官方PM2.5数据,周期为30分钟。数据样本收集时间长达一年。

步骤2,对于室内环境和室外环境选取不同校准模型,包括:

(2.1)选择实验环境,室内环境和室外环境,在不同环境下分别采集一定量的数据样本。

(2.2)对室内和室外环境的数据样本采用线性拟合,分析拟合值和真实值的偏差。采用二次均方差法和皮尔森系数。

(2.3)对于室内环境,线性拟合偏差小,认为线性参数恒定,结合敏感性特征,采用多元线性回归模型。

(2.4)对于室外环境,线性拟合偏差大,认为线性参数是敏感变化的,结合敏感特征,采用线性参数学习模型。

(2.5)室内环境校准模型假设:

y=w*x+b+ep+eu 公式(1)

其中X是未校准过的PM2.5浓度和敏感性特征,y是校准过的PM2.5浓度,w和b是校准线性参数,ep是未加入敏感性特征所带来的误差,eu是系统噪声所带来的误差。随着新的敏感特征数量的增加,ep会不断减小。对w,b采取基于人工神经网络的多元线性回归模型进行拟合。

(2.6)室外环境校准假设:

y=w(f)*x+b(f)+eu 公式(2)

不同于上面的假设,认为校准线性参数是对特征敏感的,x是未校准的pm2.5的浓度值,f是敏感性特征,y是校准过的PM2.5的值。W,b是特征敏感的线性参数,eu是系统噪声带来的误差。采用基于CART回归树模型学习w和b。

步骤3,数据预处理,模型训练和测试,包括:

(3.1)数据预处理,湿度,温度,气压强度需经过正太标准化,异常数据检测采用基于距离的方法,异常数据和缺失数据用均值补充。

(3.2)人工神经网络模型,层数为三层:输入层,隐藏层,输出层。输入特征为未校准的PM2.5浓度,温度,湿度,气压强度。输出为校准过的PM2.5浓度。层与层之间的传递函数采取简单的线性函数:

f(x)=wx+b 公式(3)

(3.3)CART回归树模型,输入特征为未校准过的PM2.5浓度,温度,湿度,气压强度,和时间。输出为w和b的值。树的剪枝采取后剪枝策略。

(3.4)对于未校准过的PM2.5浓度添加其二次项的值作为新的特征。

步骤4,将验证过的神经网络和回归树离线模型分别写入室内节点和室外节点的校准程序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1