一种基于在线多核回归的城市监测站点空气质量预测方法

文档序号:9489789阅读:1273来源:国知局
一种基于在线多核回归的城市监测站点空气质量预测方法
【技术领域】
[0001] 本发明涉及空气质量监测领域,尤其涉及一种基于在线多核回归的城市监测站点 空气质量预测方法。
【背景技术】
[0002] 空气是地球上生物赖以生存的物质。空气质量与人们的日常生活息息相关,在城 市环境综合评价中占有重要地位。但是随着人类文明和经济的发展,空气污染越来越严重, 如何改善空气质量、准确预测空气质量变得越来越重要。根据空气质量预测结果,人们可以 采取相应措施(如带口罩、避免外出等)以避免受到空气污染物的侵害。另一方面,环境 保护是全社会的事业,公众对环保的参与程度是一个国家环保工作开展是否成功的重要标 志。如果城市空气质量能像天气一样每天公布预报结果,公众就可以了解自己生活空间的 环境质量真实情况,有利于人民群众参与和监督环境保护工作。
[0003] 传统空气质量预测方法的问题主要在于特征和模型两方面:
[0004] 从特征层面来讲,因为空气污染物会随着大气不断流动,所以周边城市的空气污 染物水平是紧密相关的,比如若一个城市的空气质量为严重污染且刮北风,那么一段时间 之后位于该城市南方城市的空气质量也会受到影响。而传统的空气质量预测方法仅考虑了 气象、交通、本地空气污染物等相关领域的特征,没有考虑周边城市的空气质量状况对待预 测城市的影响,从而影响了预测结果的准确性。另一方面,传统的空气质量预测方法在模型 训练阶段使用基于实时气象数据的相关特征,预测阶段则使用基于预报气象数据的相关特 征,而实时和预报气象数据都是与空气质量相关的,应该给予同时考虑,否则会影响模型的 有效性。
[0005] 从模型层面来讲,由于产生式模型(如马尔科夫模型等)具有标记偏置和独立性 假设等固有缺陷,导致其预测准确率不太理想;而判别式模型(如决策树、支持向量机等) 虽然比产生式模型要简单,但是由于其黑盒操作,不能清楚展现数据间的关系,从而不能反 映训练数据本身的特性,进而对其预测能力产生了负面影响。条件随机场模型虽然既具有 判别式模型比较容易学习的优点,又可以像产生式模型一样考虑上下文标记间的转移概 率,但是其跟传统的产生式模型和判别式模型一样,都是批量式的学习方式,当有新的数据 时,需要基于全部数据进行重新训练。由于重新训练代价高,使得模型难以及时更新。在线 单核回归虽然能克服批量式处理模型的上述缺点,但是其往往在学习任务之前,就固定了 一个核函数,如果数据流随着时间不稳定变化,就会导致不理想的预测效果。

【发明内容】

[0006] 本发明为克服上述的不足之处,目的在于提供一种基于在线多核回归的城市监测 站点空气质量预测方法,首先基于历史数据提取空气质量监测站点的多领域特征,如气象 特征、交通特征、本地和周边城市空气污染物特征等,然后基于提取的特征训练多核回归模 型,并利用新的数据对多核回归模型进行在线调整;最后基于调整后的模型对监测站点未 来一段时间内的空气质量进行逐小时的预测。本方法能够更准确地预测空气质量。
[0007] 本发明是通过以下技术方案达到上述目的:一种基于在线多核回归的城市监测站 点空气质量预测方法,包括如下步骤:
[0008] (1)对历史原始数据进行预处理得到历史数据样本,基于历史数据样本得到训练 数据集(\,Yk)和核池KP;
[0009] (2)结合训练数据集(Xk,Yk)和核池KP对子模块Mk进行训练,输出预测模型Μ= {MkI1 ^k^h};
[0010] (3)利用实时新监测数据对各子模型Mk(l彡k彡h)调整为A,并将预测模型Μ 更新为调整后的预测模型I
[0011] (4)基于预测模型I对未来每个待预测时刻ρ的空气质量进行预测。
[0012] 作为优选,所述步骤(1)的历史原始数据包含预报气象相关特征只、实时气象相 关特征、空气污染物相关特征、交通相关特征只-,、周边监测站点特征if和周边城 市特征。
[0013] 作为优选,所述步骤(1)得到训练数据集(Xk,Yk)和核池KP的方法流程如下:
[0014] 1)对历史原始数据进行数据对齐,并用平均值替换缺失值和极端值完成数据清 理,得到历史数据样本X=kj11 <j<η},其中,η表示样本个数,是第j个小时内的历 史原始数据以及以往的空气质量组成的向量;
[0015] 2)基于历史数据样本,为子模型#构造训练数据集:
[0016] 2. 1)提取特征组成训练特征向量集爲=俱11在/彡其中 np;:,p:,n,w
[0017] 2. 2)所有样本的空气质量构成标记序列Yk={Υ·] | 1彡j彡η},Υ·^示样本X。的 标记;并得到\与Yk组成Μ啲训练数据集(Xk,Yk);
[0018] 3)重复h次步骤2),得到训练数据集D= {(Xk,Yk)I1彡k彡h},其中h表示预测 最大的时间范围;
[0019] 4)选取m个不同的核函数构成核池KP= {kfs| 1 <s<m},kfs表示核池中第s 个核函数。
[0020] 作为优选,所述步骤(2)的子模块#由!11个单核回归器和权重向量集Weights'll 成,其中每个单核回归器由支持向量集评f、参数集构成。
[0021] 作为优选,所述步骤(2)输出预测模型Μ的步骤流程如下:
[0022] (i)通过朴素回归误差最小化算法训练第s个单核回归器,得到支持向量集#和 参数集翻^
[0023] (ii)重复m次步骤⑴,得到m个单核回归器的支持向量集把和参数集J 得到子模型Mk 的支持向量集 =?6Τ/' | 1S〃;},参数集 =i/i/pAa:' |?Ss·S?}:;
[0024] (iii)通过随机梯度下降算法得到权重向量集Weights14;
[0025] (iv)重复h次步骤(i)至步骤(iii),完成对h个子模型的训练;得到并输出预测 模型Μ= {Mk 11彡k彡h}。
[0026] 作为优选,所述步骤(3)得到翁^与调整后的预测模型I所用的方法与步骤(2)所 用的方法相同。
[0027] 作为优选,所述步骤(4)对未来每个待预测时刻p的空气质量进行预测,设待预测 时刻P与当前时刻的间隔小时数为k,Kk<h,方法如下:
[0028] (I)基于时刻p的预报气象数据和历史数据,提取特征组成待预测向量X\, Χ^ψ《,巧具,靡
[0029] (II)将乂\作为预测模型分的输入,得到待预测时刻k的预测值Υ\;
[0030] (III)重复h次步骤(I)至步骤(II),完成对未来h个小时的空气质量的预测;
[0031] (IV)输出预测序列Y*= {Y\| 1彡k彡h}。
[0032] 本发明的有益效果在于:(1)引入气象学、交通和本地空气污染物等领域相关特 征,而且还引入周边城市空气污染物特征,考虑周边城市空气质量对待预测城市空气质量 的影响,从而可以更准确地预测空气质量;(2)考虑实时气象数据,还同时考虑预报气象数 据对空气质量的影响,使得预测模型更高效;(3)采用在线多核回归模型,不仅克服了传统 批量式处理模型及时更新代价较大的缺陷,而且解决了在线单核回归由于核函数固定引起 的性能问题。
【附图说明】
[0033] 图1是本发明基于在线多核回归的城市监测站点空气质量预测方法流程图;
[0034] 图2是本发明实施例模型建立部分流程图;
[0035] 图3是本发明实施例核函数详细信息示意图;
[0036] 图4是本发明实施例在线模型调整及预测流程图。
【具体实施方式】
[0037] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于 此:
[0038] 实施例:如图1所示,一种基于在线多核回归的城市监测站点空气质量预测方法, 首先通过模型建立部分得到多核回归模型,其次当有新的数据时,对模型进行在线调整,得 到新的模型Μ;然后基于Μ进行在线预测。
[0039] 该方法分为两大部分:模型建立部分和在线部分。其中,模型建立部分包括数据预 处理和模型训练两个阶段;在线部分包括数据预处理、模型调整和预测三个阶段。具体实施 步骤如下:
[0040] 模型建立部分:
[0041] 模型建立部分主要是基于历史数据样本建立预测模型Μ。因为未来每个待预测时 刻Ρ(时刻Ρ与当前时刻的间隔小时数为k,1 <k<h,h表示预测最大范围,在逐小时预测 的情况下,k和h都是整数,单位为小时)的空气质量都由一个相应的子模型Mk进行预测, 所以Μ包含h个子模型。其流程图如图2所示。
[0042] 数据预处理阶段:
[0043] 步骤1,针对一个城市的某个空气质量检测站点s,对其各领域的历史原始数据 (如预报气象数据、实时气象数据、交通数据、空气污染物数据)进行数据对齐(即以一个时 间空间单位统一各领域数据),以及数据清理(即用平均值替换缺失值和极端值等),得到 历史数据样本X=U, 11 <j<η},(X]是一个由站点S处第j个小时内的预报气象数据、 实时气象数据、交通数据及空气污染物数据组成的向量,η表示样本个数);
[0044] 步骤2,基于历史数据样本X,为子模型Mk构造训练数据集:
[0045] 1)提取特征组成训练特征向量集不={X| 1 $ k/?}, 杉=(mu零*其中,只、分别表示预报气象相关特征、 实时气象相关特征、空气污染物相关特征、交通相关特征、周边监测站点特征和周边城市特 征;
[0046]a)预报气象相关特征
[0047] 预报气象相关特征主要是考虑站点s从待预测时刻算起过去一段时间的预报气 象数据(如温度、湿度、风力)对其未来空气质量的影响,对预报气象数据提取统计学特征 (如最大值、极差、平均值、中位数及方差等);
[0048]b)实时气象相关特征
[0049] 实时气象相关特征主要是考虑站点s从待预测时刻算起过去一段时间的实时气 象数据(如温度、湿度、风力)对其未来空气质量的影响,对实时气象数据提取统计学特征 (如最大值、极差、平均值、中位数及方差等);
[0050]c)空气污染物相关特征
[0051] 空气污染物相关特征主要是考虑站点s从当期时刻算起过去一段时间的空气污 染物数据(C0、N02、S02、03、PM2.5、PM1(])对其未来空气质量的影响,对空气污染物数据提取统 计学特征(如最大值、极差、平均值、中位数及方差等);
[0052] d)交通相关特征
[0053] 交通相关特征主要是考虑站点s附近的η条路段过去一段时间的交通状况(如时 速、交通拥堵指数等)对其未来空气质量的影响,对各路段时速提取统计学特征(如期望、 方差等);
[0054]e)周边监测站点特征
[0055]周边检测站点特征匕的具体提取步骤为:从当前时刻算起,各空气质量检测站点 的空气质量在过去1个小时内的统计学特征,如最大值max;、极差r;、平均值mearii、中位数 mediarii及方差vp艮PFs={maxr;,mearii,mediarii,v; 11 <i〈num},其中num为该城市空气 质量检测站点的数量
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1