一种利用误差传递的空气质量数据实时校准方法与流程

文档序号:13590476阅读:710来源:国知局

本发明属于空气质量数据实时校准方法技术领域,具体涉及一种利用误差传递的空气质量数据实时校准方法。



背景技术:

随着我国工业化的发展,环境污染问题也日益严重。近年来,我国对环境问题逐步重视,我国环境污染程度逐步降低,但与发达国家相比仍差距很大。目前,监测空气环境质量是控制空气环境污染的一种有效手段。通过对工业区的空气质量进行实时监测,能够有效地监控企业的污染排放程度,严格控制空气质量环境。但是目前高精度高准确率的空气质量监测站使用的传感器成本较大,且实时性较低。江苏卓易信息科技股份有限公司自主研发了一种基于arm架构的嵌入式设备(以下简称卓易设备),使用了成本和国家监测站相比较低的便携式传感器,能够准实时地监测空气环境质量。但是卓易设备精度和国家监测站相比较低,且准确率不高,存在一定的错误率。

基于机器学习的设备校准方法能够有效地对设备进行校准,提高设备的精度和准确度。文献1[matt.p–qdecoupledcontrolschemesusingfuzzyneuralnetworksfortheunifiedpowerflowcontroller[j].internationaljournalofelectricalpower&energysystems,2007,29(10):748-758.]提出了一种基于模糊神经网络的在线校准方法运用于工业控制,文献2[lic,liuk,wangh.theincrementallearningalgorithmwithsupportvectormachinebasedonhyperplane-distance[j].appliedintelligence,2011,34(1):19-27.]提出了一种支持向量机的在线训练方法,能够实现增量样本的学习。但是文献1、2的方法构建的模型有效时间较短,无法长时间学习,而重新构建支持向量机或神经网络的时间复杂度较高,计算时间较长。文献3[breimanl.baggingpredictors[j].machinelearning,1996,24(2):123-140.]提出了一种集成学习算法——bagging算法,能够集成多种机器学习算法,组成一个功能更强大的机器学习模型。文献4[prasadam,iversonlr,liawa.newerclassificationandregressiontreetechniques:baggingandrandomforestsforecologicalprediction[j].ecosystems,2006,9(2):181-199.]提出了基于bagging算法的回归树模型,能够对连续型数值进行回归分析,并且具有较低的时间复杂度。但是文献3、4的机器学习方法生成的模型是独立的模型,均不能满足使用需求。



技术实现要素:

发明目的:针对现有技术中存在的不足,本发明的目的是提供一种利用误差传递的空气质量数据实时校准方法,能够有效的提高低精度设备的精度和准确率,能够进行区域部署。

技术方案:为实现上述发明目的,本发明采用的技术方案是:

一种利用误差传递的空气质量数据实时校准方法:首先初始化模型,然后采集最近时间段的国标数据和卓易设备数据,并对采集的国标数据进行克里金插值,得到采样频率与卓易设备相等的国标插值数据;其次,对国标插值数据及卓易设备数据进行基于bagging模型的建模;接着,基于上次模型的误差,对本次bagging模型输出的结果进行数据校准,得到校准值;最后等待最新国标数据的采集,并根据新采集的国标数据,来更新校准误差,并将误差传递给下一个模型。

所述的利用误差传递的空气质量数据实时校准方法,具体过程如下:

1)建立模型,通过多次实验的方法初始化模型参数,初始化误差error为0,每次建模使用的训练数据集大小m为30000条,误差影响率alpha为0.9,每次校准的数据量n为8;

2)实时采集最近时间段的国标数据和卓易设备数据,并保存至实时数据库,并对采集的国标数据进行克里金插值,得到采样频率与卓易设备相等的国标插值数据;其中,克里金插值采用普通克里金法;

3)对国标插值数据及卓易设备数据进行基于bagging模型的建模;其中,bagging模型使用基于回归树的bagging模型,回归树时间复杂度为o(m*logm),其中m为训练集大小;

4)使用误差传递的方法,基于上次模型的误差,对本次bagging模型输出的结果进行数据实时校准,得到校准值;

5)等待最新国标数据的采集,并根据新采集的国标数据,来更新校准误差。继续执行步骤2),并将误差传递给下一个模型。

步骤2)中,普通克里金法使用空间上已知的点来估计未知的点,如式(1)所示:

其中,y′n+1为估计值,其真实值为yn+1,且满足估计值与真实值之间的经验均方误差最小和无偏估计两个条件,即满足式(2)和式(3)

e(y′n+1-yn+1)=0(3)

使用拉格朗日方法求得估计值y′n+1。

步骤3)中,bagging模型:对训练集进行多次随机抽样,生成多个训练子集,并对每个训练子集使用回归树的方法进行建模,最后使用投票的方式,对多个回归树模型进行组合,形成了bagging校准模型。

步骤4)中,数据实时校准方法的基本过程为:

(1)从步骤2)的实时数据库读入时间上最近的一个数据集;

(2)使用步骤3)的bagging模型得到得到下个时间段n个数据的校准值;;

(3)根据拉依达准则去除n个校准值中的误差值,并对结果取均值average;

(4)更新校准值为average+alpha*error,以该结果作为该时间段的测量均值;

所述的拉依达准则假设一组测量数据只含有随机误差,对这组数据进行计算得到标准偏差,然后按一定概率确定一个区间,如果数据在该区间之外,则该数据属于粗大误差而不是随机误差,应被剔除;即对一组测量值x1,x2….xn,其均值为μ,标准偏差为σ;若xi满足式(4),则认为xi为误差应被剔除;

|xi-μ|>i*σ(4)

式(4)参数i被初始化为3。

步骤5)中,等待最新国标数据的采集,并根据新采集的国标数据,来更新校准误差为:国标均值-测量均值。

有益效果:与现有技术相比,本发明的一种利用误差传递的空气质量数据实时校准的方法,用于校准空气流动速度平缓的环境下的空气参数数据,为每次空气质量数据的校准建立一个bagging模型,并考虑到空气质量环境的时间序列相关性,在基于回归树的bagging算法的基础上,通过模型误差将各个模型相关起来,能够实现空气质量数据的实时校准。本方法考虑在空气流动速度平缓状态下,空气质量数据在时间上具有连续性,设备误差也具有连续性,每次使用最近时间段的历史数据作为训练数据,并计算模型误差,使用上一个模型的误差来校准下一个模型的数据。通过对宜兴的实测数据进行模型验证,本方法能够有效的提高低精度设备的精度和准确率,能够进行区域部署,应用于实际生产环境,具有很好的实用性。

附图说明

图1是方法总体流程示意图;

图2是bagging模型示意图;

图3是空气质量数据实时校准流程图。

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例1

本实施例的样区为江苏省宜兴市。宜兴市北纬31°07′~31°37′,东经119°31′~120°03′,处于江苏省、安徽省、浙江省三省交界之处,东面与太湖水面相连。宜兴市具有两个国家监测站点,分别为宜园和宜兴市环保局。本实施例使用2017年6月1日至2017年7月31日的宜园监测站数据作为标准数据,分别对卓易设备采集的pm2.5、pm10、so2、co、no、o3共6个空气参数进行数据校准。卓易设备使用美国spec公司生产的3sp系列传感器,通过电化学方法测量so2、co、no、o3共4个参数,使用济南诺方电子技术有限公司生产的sds018传感器,通过光散射法测量pm2.5、pm10共2个参数。卓易设备使用的传感器具有采样频率高,成本低,精度及准确率低等特点。卓易设备采样频率为15秒每次,除了6个空气参数,还可采集温度、湿度、光照强度等多个指标。本实施例对宜园国标数据进行克里金插值,得到时间间隔为15秒的国标插值数据,使用国标插值数据作为模型学习的样本数据,对卓易设备采集的6个空气参数进行数据校准。

利用误差传递的空气质量数据实时校准方法,其流程示意图见图1所示。首先初始化模型,然后采集最近时间段的国标数据和卓易设备数据,并对采集的国标数据进行克里金插值,得到采样频率与卓易设备相等的国标插值数据;其次,对国标插值数据及卓易设备数据进行基于bagging模型的建模;接着,基于上次模型的误差,对本次bagging模型输出的结果进行数据校准,得到校准值;最后等待最新国标数据的采集,并根据新采集的国标数据,来更新校准误差,并将误差传递给下一个模型。具体过程如下:

步骤1)建立模型,通过多次实验的方法初始化模型参数,初始化误差error为0,每次建模使用的训练数据集大小m为30000条,误差影响率alpha为0.9,每次校准的数据量n为8;

步骤2)实时采集最近时间段的国标数据和卓易设备数据,保存至实时数据库,并对采集的国标数据进行克里金插值,得到采样频率与卓易设备相等的国标插值数据;

克里金插值方法是空间地理学中常用的一种优化插值方法。针对传统的反距离插值法,克里金插值方法引进了以距离为变量的半变差函数,解决了描述空间关联程度不够准确等问题,能够更有效准确的完成插值。克里金插值方法主要分为普通克里金法和泛克里金法。普通克里金法是是目前使用最广泛的方法,是针对单个变量的局部线性最优无偏估计的方法。本文针对单个变量进行插值,因此使用普通克里金法[vanbeerswcm,kleijnenjpc.kriginginterpolationinsimulation:asurvey[c]//simulationconference,2004.proceedingsofthe2004winter.ieee,2004,1.]。

普通克里金法使用空间上已知的点来估计未知的点,如式(1)所示:

其中,y′n+1为估计值,其真实值为yn+1,且满足估计值与真实值之间的经验均方误差(empiricalintegratedmeansquarederror,eimse)最小和无偏估计两个条件,即满足式(2)和式(3)

e(y′n+1-yn+1)=0(3)

使用拉格朗日方法可以求得估计值y′n+1。

步骤3)对国标插值数据及卓易设备数据进行基于bagging模型的建模;

bagging模型如图2所示:对训练集进行多次随机抽样,生成多个训练子集,并对每个训练子集使用回归树的方法进行建模,最后使用投票的方式,对多个回归树模型进行组合,形成了bagging校准模型。

本实施例使用基于回归树的bagging模型,回归树时间复杂度为o(n*logn),其中n为训练集大小。经实验测试,计算时间较短,能够满足实时计算的要求。

步骤4)基于上次模型的误差,对本次bagging模型输出的结果进行数据实时校准,得到校准值;

空气质量数据实时校准方法的流程图如图3所示,其基本过程为:

(1)使用步骤1)中初始化的模型参数,初始化误差error为0,每次建模使用的训练数据集大小m为30000条,误差影响率alpha为0.9,每次校准的数据量n为8;

(2)从步骤2)中的实时数据库读入时间上最近的一个数据集;

(3)使用步骤3)中的bagging校准模型得到下个时间段n个数据的校准值;

(4)根据拉依达准则去除n个数据中的误差值,并对结果取均值average;

(5)更新校准值为average+alpha*error,以该结果作为该时间段的测量均值;

(6)根据步骤5)的方法来更新误差值error。

其中拉依达准则是一种去除误差的方法。拉依达准则假设一组测量数据只含有随机误差,对这组数据进行计算得到标准偏差,然后按一定概率确定一个区间,如果数据在该区间之外,则该数据属于粗大误差而不是随机误差,应被剔除。即对一组测量值x1,x2….xn,其均值为μ,标准偏差为σ。若xi满足式(4),则认为xi为误差应被剔除。

|xi-μ|>i*σ(4)

式(4)参数i被初始化为3。

步骤5)等待最新国标数据的采集,并根据新采集的国标数据,来更新校准误差为:国标均值-测量均值,并将误差传递给下一个模型。

本实施例实时校准的方法适用于空气流动速度平缓的环境中。在该环境中,空气质量数据变化较平缓,因此可以使用均值来代表一段时间(约2-5分钟)的测量值。本实施例的卓易设备的测量误差与空气环境相关,在空气流动速度平缓的环境中,误差变化也较为平缓,因此可以根据上一个模型的误差来修正下一个模型的校准值。最终实验证明,该方法能够有效的降低卓易设备误差,提高卓易设备的准确率。

本实施例对2017年6月、7月两个月的数据进行校准,结果如表1所示:

表1.空气质量数据实时校准结果分析

结果表明,使用了本发明的实时校准方法之后,总体误差得到了有效的控制,全部控制在10%以内。其中pm2.5,pm10,no三个参数校准后结果较好,bagging模型的拟合优度较高,均在95%以上,最终个体误差基本控制在20%以内,总体误差在5%以内。so2,co,o3三个参数使用bagging模型校准后的结果一般,模型拟合优度在85%以下,但是在加入拉依达准则及误差传递修正两种方法之后,个体误差基本控制在50%以内,且大部分误差控制在20%以内。其中对co的校准结果尤为明显,个体误差均落在20%以内,总体误差为0.025%。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1