一种基于非线性理论的PM2.5预测与预警方法及系统与流程

文档序号:15349246发布日期:2018-09-04 23:07阅读:440来源:国知局

本发明涉及空气质量预测与预警领域,特别是涉及一种基于非线性理论的pm2.5预测与预警方法及系统。



背景技术:

雾霾的主要成分就是pm2.5,pm2.5是粒径小于2.5μm的颗粒物,是一种胶体混合物。pm2.5的影响因素复杂,其浓度变化呈现出非线性特征。

目前大气污染物浓度预测方法主要有统计模型和确定性模型两类。其中,统计模型一般是基于历史数据建立空气质量与影响因素之间的关联模型,其优点在于对输入数据要求相对较低,但预测精度较低,难以反映区域空气质量且无法对污染成因以及来源等给出合理解释;数值模型则是依据不同尺度大气动力学理论,耦合大气物理和化学变化过程,建立多尺度类型大气污染物扩散模型,依靠计算机系统预报大气污染物浓度变化趋势和动态分布情况,其优点是能够对污染成因进行诊断,计算精确,能够对区域内大气污染物浓度进行预测,其局限性在于时效性污染排放数据获取困难,模型对数据要求高,实际操作困难较大。

鉴于数值预报所需成本消耗较高,存在较多的不确定因素,模型建立过程和数据需求要求较复杂,众多的研究倾向于以统计模型为主要手段开展大气污染物浓度预测,特别是针对单站点统计模型预报开展了大量的改进研究。很多研究者将传统的统计学方法与神经网络模型、自回归移动平均模型、多元线性回归模型相结合获得了较为理想的预测结果。

而从方法学的角度来看,自回归移动平均模型和多元线性回归模型均是线性模式,某些非线性的关系很难被精确预测,这种缺陷已在某些实例研究中体现出来;神经网络模型作为一种非线性映射方法,其多层感知模式使得神经网络模型在细微颗粒物浓度预测方面有良好的效果。但神经网络方法的学习速度通常比较慢,参数设定困难,并且容易陷入局部最优,推广能力差,而且预测效率较低。支持向量机(svm)的出现克服了神经网络训练时间长、泛化能力差、易陷入局部极小等缺点。单步预测效果良好,但是在进行多步预测时,每步预测都需要上次预测的输出作为输入,在这种迭代的过程中,上一次的预测结果会影响在接下来时间点的预测结果,误差也就会逐步积累直到最后,预测效果逐步减弱。

综上所述,现有技术中对于pm2.5的预测问题,尚缺乏有效的解决方案。



技术实现要素:

为了解决现有技术的不足,本发明提供了一种基于非线性理论的pm2.5预测与预警方法,该方法能够提供模型的可调参数,通过改变可调参数从而适应不同地区pm2.5浓度的预测预警工作。

一种基于非线性理论的pm2.5预测与预警方法,包括:

模型训练步骤和模型预测步骤;

针对pm2.5浓度时序数据分为两组,分别作为训练时序数据集及测试时序训练集;

对所述训练时序数据集的数据进行s级小波分解,进行时频分析,将一维信息扩展为高维信息,提取pm2.5历史数据的隐含信息,得到训练时序指标数据集;

然后构造基于多级残差修正的非线性最小二乘支持向量回归(amlrc-lssvr)的预测模型;

对amlrc-lssvr模型进行训练;

针对测试时序训练集,进行mlrc-lssvr模型预测,对模型预测结果做方差分析,得到置信区间的上界值作为最终的预测结果。

进一步的,所述预测模型可调参数为:小波分解层数s,最小二乘支持向量机回归的参数,包括核函数参数以及正则化参数γ,可通过遗传算法等方法来寻优获得。

进一步的,基于多级残差修正的非线性最小二乘支持向量回归(mlrc-lssvr)预测模型描述如下:

训练输入:训练数据集(xtrain,ytrain)∈r(n-1)×2,其中,

预测输出:n+1时刻pm2.5污染物的预测浓度

进一步的,所述模型训练步骤:

步骤1:对训练数据集中xtrain进行coifn小波变换,得到m层高维输入训练矩阵x′train={x′train,1,x′train,2,...x′train,n-1},其中,i=1,2,...n-1,构造lssvr模型训练数据集(x′rain,ytrain)∈r(n-1)×(m+2)

步骤2:基于训练数据集(x′train,ytrain)对lssvr模型进行训练,训练过程采用搜索效率较高的simplex方法和10折交叉验证,优化搜索lssvr的高斯核函数关键参数,并得到lssvr训练终值y′train;

步骤3:计算lssvr训练终值y′train与ytrain之间的r2相关系数r2(y′train,ytrain);

步骤4:如果r2相关系数r2(y′train,ytrain)小于预设的r2相关系数阈值,则计算训练残差向量并构造残差训练数据集(x′train,ytrain=ytrain-y′train),并重复step2和step3,直至模型满足r2相关系数阈值,从而构造mlrc-lssvr预测模型,通过额外k-1个lssvr残差预测模型实现对预测残差的在线同步修正,其中,k为mlrc-lssvr预测模型层级。

进一步的,所述模型预测过程的工作步骤描述如下:

步骤1:重构n时刻的预测数据集xpredict={xtrain,xpredict},其中对xpredict进行coifn小波分解,得到n时刻的高维输入预测向量x′predict=(am,predict,d1,predict,...dm,predict);

步骤2:将高维输入预测向量x′predict输入mlrc-lssvr预测模型,得到mlrc-lssvr多级预测输出{y′predict,rc1,predict,...rck-1,predict},从而得到其中,rcj,predict为第j个lssvr残差预测模型的预测输出。

步骤3:基于中心极限理论进行线性平滑和偏置修正,对残差(rck-1,train,rck-1,predict)进行方差估计,从而得到相应的预测置信上界yppredict=ypredict+rcpk-1,predict,其中,rcpk-1,predict为k-1级残差的97%置信估计方差;

重复步骤1-3的模型预测过程,可以实现pm2.5预测浓度的在线预测和置信上限估计。

此外,随着pm2.5浓度时序的不断更新,为了消除长期历史稳态偏置信息的冗余,所构造的amlrc-lssvr预测模型,可以结合时序区间更新数据定期重复上述训练过程,提高模型在线预测的有效性。

一种基于非线性理论的pm2.5预测与预警系统,包括:

数据处理单元,用于将pm2.5浓度时序数据分为训练时序数据集及测试时序训练集;

小波分解单元,用于对所述训练时序数据集的数据进行s级小波分解,进行时频分析,将一维信息扩展为高维信息,提取pm2.5历史数据的隐含信息,得到训练时序指标数据集;

支持向量回归预测单元,用于构造基于多级残差修正的非线性最小二乘支持向量回归(amlrc-lssvr)的预测模型;对amlrc-lssvr模型进行训练;针对测试时序训练集,进行mlrc-lssvr模型预测,对模型预测结果做方差分析,得到置信区间的上界值作为最终的预测结果。

与现有技术相比,本发明的有益效果是:

本发明提供了多级残差修正的方法,能够避免误差的累积效应,提高预测精度;本发明针对预测结果进行方差分析,能够避免预测的不确定性问题;本发明能够提供模型的可调参数,通过改变可调参数从而适应不同地区pm2.5浓度的预测预警工作。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明的数据处理流程图;

图2小波分解示意图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的,现有技术中存在pm2.5预测数据不准确的不足,为了解决如上的技术问题,本申请提出了一种基于非线性理论的pm2.5预测与预警方法。

本申请的一种典型的实施方式中,如图1所示,提供了一种基于非线性理论的pm2.5预测与预警方法,该一种基于非线性理论的pm2.5预测与预警方法具体步骤如下:

步骤1:针对pm2.5时序数据,利用小波分解进行时频分析,将一维信息扩展为高维信息,提取pm2.5历史数据的隐含信息(趋势性,随机性以及周期性等信息)。

步骤2:构建基于自适应多级残差修正的非线性最小二乘支持向量回归(amlrc-lssvr)预测模型,该步骤包括参数寻优、回归预测两部分,该部分具体操作步骤详见amlrc-lssvr的描述;

步骤3:对模型预测结果做方差分析,得到置信区间的上界值作为最终的预测结果。

通过参数寻优单元可调节可调参数,提高模型对不同区域的普遍适应性,模型可调参数为:小波分解层数s,s选择主要根据经验,一般分解变量a即趋势性部分平滑后即可,最小二乘支持向量机回归的参数包括核函数参数以及正则化参数γ。

在选取核函数解决实际问题时,通常采用的方法有:一是利用专家的先验知识预先选定核函数;二是采用cross-validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数,本发明以归纳误差最小为选择标准,详细操作步骤详见具体训练过程的描述。

(1)小波分解与特征提取

小波分解是采用有限长或快速衰减的振荡波形通过缩放和平移来表征信号,基于时间和频率的局部变换,进而有效地从信号(研究数据)中提取信息,较好的扩展了傅里叶变换的应用。选择具有振荡特性、能够迅速衰减到零的母小波函数生成函数族:

式中ψa,τ(x)为小波基函数;x为pm2.5时间序列数据;τ平移参数,a为尺度参数。

实际工程应用中,由于计算机离散采样的特点,多采用离散小波变化,得到信号f(x)的离散小波变换wtf(p,q)及相应的重构公式:

式中,p,q分别是尺度因子和平移因子;ψ*(x)为ψ(x)的复共轭函数;c为与信号无关的常数。

对于小波分析的理解,可假定一个信号s通过三层分解来说明,分解树见图2。

在信号分析的过程中,采用不同的小波基函数作为处理工具,所得的结果有明显差异,要想得到高精度的预测结果,必须选择合理的小波基。目前在工程领域对于小波基的选取并没有一个明确的标准,大都依据经验或信号处理的目的来选取小波。一般在支撑长度、消失矩、正则性上权衡处理,考虑到将小波分解应用于pm2.5浓度时间序列的特征提取与预测中,特征提取与预测的实时性和时频局部化能力,本文结合小波基的性质,综合分析,coifn小波优势明显:在消失矩上,coifn小波可以通过更少的分级层数对原始信号进行有效分解,支撑长度较短,从而滤波器长度较短,小波分解计算量低,这样既能满足对信号的处理性能,又能够降低计算量,有助于提高在线预测效率。

(2)最小二乘支持向量回归(lssvr)

最小二乘支持向量回归(lssvr)是一种基于统计学习理论的建模方法,具有训练速度快、泛化性能较好拟合非线性函数能力强的特点。lssvr是支持向量机回归(svr)的一个重要分支,与支持向量机回归相似,训练算法为解凸二次优化问题,具有全局唯一解,它通过非线性映射φ(x)将输入空间映射到高维特征空间,在特征空间中求取最优先性函数。

lssvr是svr变形算法,suykens将不等式约束转变为等式约束,将函数由误差和转变为平方和,求解算法由凸二次优化问题转变为求解线性方程组问题,求解变量个数由2n+1个减少到n+1个,n为训练样本个数,因此lssvr算法较svr求解难度低,并且训练速度快。设训练数据集为输入xi∈rd,输出yi∈r,则lssvr可以表示为:

s.t.yi=wtφ(xi)+b+ei,i=l,…,n(5)

式中φ(x)是输入空间到高位特征空间的非线性映射;w是权向量,表征模型的复杂度;e=[e1,e2,…,en]t是误差向量;γ∈r+是正则化参数。

为了解决这个约束优化问题,引入lagrange函数和对偶优化,转变为求解式(6)所示的无约束优化问题。

其中α为拉格朗日算子,分别对w,b,et和αt求偏导数,令偏导数为零消除w,et,得到如下方程组:

式中y=[y1,……,yn];α=[α1,……,αn];l=[1,……,1]t是n×1矩阵;in是n×n单位矩阵;kij=κ(xi,xj)=φ(xi)tφ(xj),i,j=1,……,n;κ(xi,xj)是核函数。对于核函数采用遗传算法进行寻优,获得最优结果。

根据suykens给出的算法,最终得到lssvr模型预测函数如下所示:

其中αi为拉格朗日算子,b常数,通过对pm2.5时序数据的统计回归可得到。

(3)构建基于多级残差修正的非线性最小二乘支持向量回归(amlrc-lssvr)预测模型

基于多级残差修正的非线性最小二乘支持向量回归(mlrc-lssvr)预测模型可以描述如下:

训练输入:训练数据集(xtrain,ytrain)∈r(n-1)×2,其中,为第i个pm2.5时序数据。

预测输出:n+1时刻pm2.5污染物的预测浓度

其工作原理主要包括模型训练过程和模型预测过程两部分。

模型训练过程的工作步骤描述如下:

步骤1:对训练数据集中xtrain进行coifn小波变换,得到m层高维输入训练矩阵x′train={x′train,1,x′train,2,...x′train,n-1},(x′train,i为第i个pm2.5时序数据经过小波分解后的数据集合)其中,(其中,a、d为小波分解后的分量),i=1,2,...n-1,构造lssvr模型训练数据集(x′train,ytrain)∈r(n-1)×(m+2)

步骤2:基于训练数据集(x′train,ytrain)对lssvr模型进行训练,训练过程采用搜索效率较高的simplex方法和10折交叉验证,优化搜索lssvr的高斯核函数关键参数,并得到lssvr训练终值y′train;

步骤3:计算lssvr训练终值y′train与ytrain之间的r2相关系数r2(y′train,ytrain);

步骤4:如果r2相关系数r2(y′train,ytrain)小于预设的r2相关系数阈值,则计算训练残差向量并构造残差训练数据集(x′train,ytrain=ytrain-yt′rain),并重复step2和step3,直至模型满足r2相关系数阈值,从而构造mlrc-lssvr预测模型,通过额外k-1个lssvr残差预测模型实现对预测残差的在线同步修正,其中,k为mlrc-lssvr预测模型层级。

模型预测过程的工作步骤描述如下:

步骤1:重构n时刻的预测数据集xpredict={xtrain,xpredict},其中对xpredict进行coifn小波分解,得到n时刻的高维输入预测向量x′tredict=(am,predict,d1,predict,...dm,predict);

步骤2:将高维输入预测向量x′predict输入mlrc-lssvr预测模型,得到mlrc-lssvr多级预测输出{y′predict,rc1,predict,...rck-1,predict},从而得到其中,rcj,predict为第j个lssvr残差预测模型的预测输出。

步骤3:基于中心极限理论进行线性平滑和偏置修正,对残差(rck-1,train,rck-1,predict)进行方差估计,从而得到相应的预测置信上界yppredict=ypredict+rcpk-1,predict,其中,rcpk-1,predict为k-1级残差的97%置信估计方差;

重复步骤1-3的模型预测过程,可以实现pm2.5预测浓度的在线预测和置信上限估计。此外,随着pm2.5浓度时序的不断更新,为了消除长期历史稳态偏置信息的冗余,所构造的amlrc-lssvr预测模型,可以结合时序区间更新数据定期重复上述训练过程,提高模型在线预测的有效性。

该发明涵盖数据处理单元(将数据分为训练数据集、测试集两部分)、小波分解单元和支持向量回归预测(包括核函数寻优、残差计算与预测等)等单元,并提供模型的可调参数(小波基函数的选择、分解层数等),通过改变可调参数从而适应不同地区pm2.5浓度的预测预警工作。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1