一种城市小尺度空气质量指数预测方法与系统与流程

文档序号:15739816发布日期:2018-10-23 22:06阅读:490来源:国知局
一种城市小尺度空气质量指数预测方法与系统与流程

本发明涉及空气质量指数预测技术领域,特别是一种基于机器学习算法的城市小尺度空气质量指数预测方法和系统。



背景技术:

随着城市化和工业化进程的推进,环境污染问题越来越严重。近年来,广泛且严重的大气污染直接威胁着人们的身体健康,影响了社会经济的绿色可持续发展。目前大部分地区仅提供城市级别的空气质量指数预测,而不能精确到城市范围内各地理位置点。对于生活在城市中的居民,准确合理的空气质量预测有助于他们安排生产生活,调整出行方式和采取相应的防护措施,从而减少空气污染物对身体的侵害,提高社会整体的健康水平。

AQI(空气质量指数,air quality index)是定量描述空气质量的无量纲指标,也是目前衡量空气质量的最广泛使用的指标。参照国家标准HJ633-2012,AQI由若干污染物的浓度通过函数关系计算而成。这些污染物包括二氧化硫(SO2)、二氧化氮(NO2)、一氧化氮(NO)、一氧化碳(CO)、臭氧(O3)、悬浮颗粒物PM2.5和PM10。AQI的数值范围为0到500,越大表示空气污染状况越严重。

目前针对AQI预测的方法有如下几类:

1、大气污染物扩散模式(Atmospheric dispersion modeling):这一类模型是模拟大气污染物的输送、扩散、迁移过程,预测在不同污染源条件、气象条件及下垫面条件下某污染物浓度时空分布的数学模型,是低层大气中污染物迁移和扩散规律的、简单化的数学描述。根据不同的建模理论体系、污染物迁移、扩散过程以及不同的描述对象,模式的形式也各不相同。由日本九州大学开发的SPRINTARS方法(Spectral Radiation-Transport Model for Aerosol Species)是其中的典型代表。它是以全球规模模拟大气悬浮颗粒物对气候系统造成的影响及大气污染状况开发的数值模型。以海气耦合模型MIROC为基础,对存在于对流层中的大气气溶胶进行研究。这类方法具有一定的科学性,但存在以下缺点:主要从宏观大气环流考虑污染物的扩散形式,而对于重点关注区域(如城市)的具体气候情况难以详细区分。由于同一区域的具体气候情况,会因季节、时间段、甚至人为因素等发生变化,例如,某地区新建化工厂前后,污染物的排放和积累明显不同,因此,该方法难以对特定区域进行准确的预测;另一方面,该方法数据采集量巨大、数据计算量巨大,至少需要收集大量的污染源具体信息及卫星气象信息,同时配置高性能的硬件设备提供数据处理功能,成本高、专业性强,并不适于普通用户使用。

2、基于历史数据的统计模型,例如线性回归、人工神经网络。这类方法通常仅使用采集于空气质量监测基站附近的数据,对基站附近局部的空气质量指数进行预测。这类方法的缺点是只考虑了基站附近,而对没有基站的地点无法建立预测模型。另一方面,由于只考虑了地理局部信息,而很少考虑污染物在空间上的扩散过程。因此不仅不同地点的预测模型可能有巨大差异,预测的准确度也难以保持在较高水平。



技术实现要素:

本发明要解决的技术问题为:利用将多种预测方法相融合的协同训练算法,对不限于空气质量监测基站附近的城市范围内的各个地理位置点进行空气质量指数预测,在保持较低计算复杂度的同时,提高预测的准确度。

本发明采取的技术方案为:一种城市小尺度空气质量指数预测方法,包括:

S1,将城市区域以网格形式进形区域划分,网格交点对应待预测空气质量指数的地点;

S2,获取各空气质量监测基站的历史监测数据,建立历史数据库;

S3,基于历史数据库中各基站多个时间序列的监测数据,建立分别对应当前时刻预测以及未来一段时间中各时刻预测的时间预测模型;

S4,基于历史数据库中各个空气质量监测基站在同一时刻的监测数据,利用二维线性插值方法,建立对指定坐标处进行空气质量预测的空间预测模型;

S5,获取各个待预测地点和空气质量监测基站的交通数据和地理兴趣点数据,及其对应时刻各待预测地点和空气质量监测基站的空气质量指数数据;

基于所获取的数据,建立表征交通数据和地理兴趣点数据与空气质量指数之间关系的动态预测模型;

S6,获取用户共享的室内空气质量指数、用户居住环境数据,以及相应地点的空气质量指数数据,建立表征室内空气质量指数与室外空气质量指数之间关系的室内外预测模型;

S7,对于待预测空气质量指数的任一实时时刻的任一待预测地点,将已建立的时间预测模型、空间预测模型、动态预测模型和室内外预测模型进行协同训练,以将所有模型的预测结果相融合,进而得到各待预测地点在相应当前时刻和未来一段时间中各时刻的空气质量指数预测值。

本发明中,对应当前时刻预测的时间预测模型,表征的是历史监测数据与当前监测数据之间的关系,对应未来一段时间预测的时间预测模型,表征的是历史监测数据及当前监测数据与未来一段时间中各时刻监测数据之间的关系,根据所指定的未来一段时间的时间跨度,包括多个对应各时刻的时间预测模型;

空间预测模型,表征的是各已知地点或者基站的实时监测数据,与实时监测数据未知的待预测点空气质量指数数据之间的关系。

本发明通过各模型的建立,以及预测时对各模型预测结果的融合,实现了对基站外地点的空气质量预测,且预测结果综合了各种相关因素的影响,准确度更高。

进一步的,本发明还包括:

S8,实时评估空气质量指数预测值结果的准确性,包括:

S81,采用K折交叉验证算法,评估当前时刻预测值结果的准确性:

S811,假设基站数量为N,将所有基站均分为K份,每份编号依次为1,2,…,k,k+1,…,K,每份有c=N/K个基站;

S812,从K份基站中除去第k份,剩余的K-1份基站作为已知数据;

S813,基于已知的K-1份基站的数据,得到被除去的第k份基站中各基站在当前时刻的AQI预测值,记为

S814,获取第k份中各基站的实测AQI值y1,y2,…,yc,则当前时刻预测值结果的准确性用如下指标ηk描述:

S815,将k从1遍历至K,分别重复步骤S712至步骤S714,然后得到预测系统在当前时刻的准确性指标η为:

η越接近于1,则系统的当前时刻预测的准确性越高;

S82,评估未来一段时间预测值结果的准确性:

假设预测得到的未来一段时间内某指定时刻所有基站对应的预测值结果为到该指定时刻时各基站的实际测量值为z1,z2,...,zN,则预测系统对未来时刻的预测准确性为:

ψ越接近于1,则系统对未来时刻预测的准确性越高。

优选的,本发明中空气质量监测基站监测的监测数据包括日期时间、基站名称、基站经纬度、AQI数据、气温、气压、风力、湿度和天气类型数据。对于历史数据缺失的情况,可进行局部时间序列的插值补全。

优选的,步骤S3中利用多元线性回归方法建立分别对应当前时刻预测以及未来一段时间预测的时间预测模型。

步骤S3中基于历史数据库建立时间预测模型包括步骤:

S31,指定历史序列长度l1及预测期即未来序列长度为l2,记当前时刻的数据为xn,则历史序列为未来序列为

提取历史数据库中所有连续l1+1+l2小时的多个序列数据组成初始训练数据集S1;

S32,建立l2+1个多元线性回归模型,各多元线性回归模型分别对应当前时刻以及未来l2小时中各时刻的预测,表示为:

Y1=β0+β1X1+β2X2+…+βpXp

其中βi为回归系数,Xi为模型输入数据,Y1为待预测时刻的空气质量指数;

对于当前时刻的预测,模型输入数据为l1小时历史AQI数据以及当前时刻上一小时的气温、气压、风力、湿度和天气类型数据;

对于未来l2小时中各时刻的预测,模型输入数据为当前时刻的AQI数据、l1小时的历史AQI数据以及当前时刻的气温、气压、风力、湿度和天气类型数据。

利用初始训练数据集S1中的多个序列对各多元线性回归模型进行训练,即可得到各初始多元线性回归模型中的各回归系数,从而得到各初始多元线性回归模型,即初始时间预测模型。

本发明对于天气类型数据可采用数字编号,如0表示晴天,1表示多云阴天,2表示雨天等等。也可采用现有其它数据处理和表述方式。

优选的,本发明步骤S4中,利用二维线性插值方法,建立对指定坐标处进行空气质量预测的空间预测模型,包括:

S41,获取所有已知空气质量指数的地点在相同时刻的实时监测数据,与相应地点的经纬度数据,组成空间预测模型的训练数据集S2;

S42,定义待预测地点的坐标为(x,y),对该地点进行空气指数预测的空间预测模型表示为:

其中模型的输入量即S2,模型输出量为待预测地点的空气质量指数,griddata()代表二维插值函数。

空间预测模型的初始训练数据集仅包含基站处的空气质量指数。

优选的,步骤S5中,交通数据包括各个待预测地点和空气质量监测基站周边设定半径区域内的畅通路段、缓慢路段和拥堵路段的长度数据。

地理兴趣点数据包括各个待预测地点和空气质量监测基站周边设定半径区域内的地理对象实体的分布数据;所述地理对象实体类型包括学校、银行、餐厅和加油站。还可包括其它地理对象实体,不赘述累举。

优选的,本发明步骤S5利用多元线性回归方法建立动态预测模型,包括步骤:

S51,获取历史数据库中多个时刻分别对应的各基站外周给定半径内的交通数据和地理兴趣点数据,交通数据包括畅通路段、缓慢路段和拥堵路段长度的占比数据,定义为T1,T2,T3,地理兴趣点数据包括基站外周给定半径内各地理兴趣点的分布数量,定义为T4,T5,…,Tq,以及相应时刻相应基站的空气质量指数监测数据,建立初始训练集S3;

S52,建立动态预测模型,表示为:

Y3=α0+α1T1+α2T2+α3T3+α4T4+…++αqTq

其中αi为回归系数,模型输入量为待预测地点在指定时刻给定半径内的交通数据和地理兴趣点数据,模型输出量Y3即待预测点的空气质量指数。

动态预测模型的初始训练数据S3中仅包含历史数据库中基站处的相关数据。在每次预测前通过训练集的训练可得到动态预测模型中各回归系数的值,从而得到相应的动态预测模型,并利用动态预测模型得到当前及未来时刻的空气质量指数数据。对于未来时刻的预测,现有技术已经可对交通数据进行未来时间的预测,因此本发明在进行对未来时间的动态预测时,输入数据可直接采用现有技术已经预测得到的交通预测数据。

根据清华大学电子工程系公布的室内空气质量调研的数据分析报告[2],室内空气质量与室外空气质量具有多种类型的数值关系。这取决于多种条件:建筑环境类型、楼层、距主干道距离、是否开启中央空调、是否开窗通风、是否开启空气净化器等会影响室内外空气质量指数关系的条件。

优选的,本发明步骤S6中采用回归树算法建立室内外预测模型,包括步骤:

S61,获取历史数据库中多个指定时刻各基站监测的空气质量指数数据,以及相应时刻相应地点用户共享的室内空气质量指数数据和室内空气质量指数相关数据,室内空气质量指数相关数据包括建筑环境类型、楼层、距主干道距离、是否开启中央空调、是否开窗通风及是否开启空气净化器;基于获取到的数据建立室内外预测模型的初始训练集S4;

S62,建立室内外预测模型,表示为:

Y4=RT(M,S4)

模型输入量为待预测地点在待预测时刻所获取的用户共享的室内空气质量指数M,和室内空气质量指数相关数据,模型输出量Y4为待预测地点在待预测时刻的空气质量指数数据。

室内外预测模型中,当训练数据中各室内空气质量指数相关数据不同时,即影响室内外空气质量指数的条件状态不同时,回归树RT()的模型系数也是不同的,本发明训练通过对各相同条件下输入与输出数据的训练,得到各条件下表征室内外空气质量指数关系的回归树模型及其系数,即应用于后续对相同条件下的预测地点进行空气质量指数的预测。在对某待预测地点进行未来时刻的预测时,输入数据可为利用现有技术获取的模型输入数据在未来相应时刻的数据。

在实际预测时,若无法获得相应时刻的室内空气质量指数相关数据,则建立室内外预测模型为:

Y4=M/60%

根据美国环保局公布的室内外空气质量统计关系[1],室内空气质量约为室外空气质量的60%。

优选的,本发明步骤S7将已建立的时间预测模型、空间预测模型、动态预测模型和室内外预测模型进行协同训练,包括:

S71,记时间预测模型、空间预测模型、动态预测模型和室内外预测模型分别为预测器F1,F2,F3,F4,各预测器的训练集分别记为L1,L2,L3,L4,将训练集初始化为:

L1=S1,L2=S2,L3=S3,L4=S4;

初始化各预测器预测结果的权重向量为[w1,w2,w3,w4],四个权重因子的和等于1。

S72,基于训练集L1,L2,L3,L4分别训练得到F1,F2,F3,F4;

S73,获取待预测地点在待预测时刻对应各预测器的模型输入量数据,利用所获取的数据,对于各待预测地点,利用训练得到的四个预测器分别计算得到待预测时刻的预测值,记为:

Y1=F1(x,y)

Y2=F2(x,y)

Y3=F3(x,y)

Y4=F4(x,y)

S74,对于各待预测地点,其在待预测时刻的AQI融合值为:

S75,定义预测结果的偏差阈值Rth,计算四个预测器预测结果的偏差之和:

S76,对于各待预测地点,分别将计算得到的Rx,y与偏差阈值Rth进行比较,若满足:

则退出循环,以Y0作为各待预测地点在待预测时刻的空气质量指数预测值;否则转至步骤S77;

S77,从所有待预测地点中,以相应的Rx,y从小到大为顺序,选取n个待预测地点,记为:

S={(x1,y1),(x2,y2),…,(xn,yn)};

S78,更新各预测器的训练集为:L1={L1,S},L2={L2,S},L3={L3,S},L4为当前的S4;转至步骤S72,并重复步骤S72至步骤S78继续进行训练,直至进行步骤S76时满足则以满足时对应的Y0作为各待预测地点在待预测时刻的空气质量指数预测值。

由上述方法可见,对于每个时刻的预测本发明进行了最少一轮的训练,在循环训练的过程中,每轮训练过程完毕,进行下一轮训练时,各模型的训练数据集中的数据将有所更新,从而在后续的训练中能够得到更准确的预测结果。各训练数据集中所新增加的数据即为上一轮训练时各预测器预测结果与协同训练结果偏差之和最小的预测地点处的相关数据,如对于空间预测模型,新增加的训练数据即为上一轮训练得到的该预测地点处的坐标和AQI数据;对于动态预测模型,新增加的训练数据即为该预测地点处的历史空气质量指数数据及交通数据和地理兴趣点数据,依次类推。

进一步的,若步骤S73中无法通过预测器F4得到相应的AQI预测值,则在步骤S74中采用以下公式计算AQI融合值:

本发明还提供一种城市小尺度空气质量指数预测系统,包括:

区域划分模块,将城市区域以网格形式进形区域划分,网格交点对应待预测空气质量指数的地点;

历史监测数据获取模块,获取空气质量监测基站的历史监测数据,建立历史数据库;所述历史监测数据包括AQI数据、气象数据和天气类型数据;

时间预测模型建立模块,基于历史数据库建立时间预测模型;

空间预测模型建立模块,获取各个空气质量监测基站的实时监测数据,建立空间预测模型;

动态预测模型建立模块,获取各个待预测地点和空气质量监测基站的交通数据和地理兴趣点数据,建立动态预测模型;

室内外预测模型建立模块,获取用户共享的室内空气质量指数,建立室内外预测模型;

协同训练模块,将已建立的时间预测模型、空间预测模型、动态预测模型和室内外预测模型进行协同训练,以将所有模型的预测结果相融合,得到所有待预测地点在当前时间和未来一段时间的空气质量指数预测值。

有益效果

与现有技术相比,本发明所提供的城市小尺度的空气质量预测方法具有如下优点:

1、可以更准确地预测城市范围内任何一个地点的当前及未来若干小时的空气质量指数,为人们提供准确的空气质量预测;

2、本发明将多种数据源、多种预测模型相融合,避免了单一预测模型的局限性,保证了模型的准确性;

3、本发明将多种预测模型分开进行再最终协同训练,降低了总体的计算复杂度,缩短了计算时间。

附图说明

图1所示为本发明方法流程示意图。

具体实施方式

下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了部分公知技术的详细描述。

本发明的城市小尺度空气质量指数预测方法,包括步骤:

S1,将城市区域以网格形式进形区域划分,网格交点对应待预测空气质量指数的地点;

S2,获取各空气质量监测基站的历史监测数据,建立历史数据库;

S3,基于历史数据库中各基站多个时间序列的监测数据,建立分别对应当前时刻预测以及未来一段时间中各时刻预测的时间预测模型;

S4,基于历史数据库中各个空气质量监测基站在同一时刻的监测数据,利用二维线性插值方法,建立对指定坐标处进行空气质量预测的空间预测模型;

S5,获取各个待预测地点和空气质量监测基站的交通数据和地理兴趣点数据,及其对应时刻各待预测地点和空气质量监测基站的空气质量指数数据;

基于所获取的数据,建立表征交通数据和地理兴趣点数据与空气质量指数之间关系的动态预测模型;

S6,获取用户共享的室内空气质量指数、用户居住环境数据,以及相应地点的空气质量指数数据,建立表征室内空气质量指数与室外空气质量指数之间关系的室内外预测模型;

S7,对于待预测空气质量指数的任一实时时刻的任一待预测地点,将已建立的时间预测模型、空间预测模型、动态预测模型和室内外预测模型进行协同训练,以将所有模型的预测结果相融合,进而得到各待预测地点在相应当前时刻和未来一段时间中各时刻的空气质量指数预测值。

本发明中,对应当前时刻预测的时间预测模型,表征的是历史监测数据与当前监测数据之间的关系,对应未来一段时间预测的时间预测模型,表征的是历史监测数据及当前监测数据与未来一段时间中各时刻监测数据之间的关系,根据所指定的未来一段时间的时间跨度,包括多个对应各时刻的时间预测模型;

空间预测模型,表征的是各已知地点或者基站的实时监测数据,与实时监测数据未知的待预测点空气质量指数数据之间的关系。

本发明通过各模型的建立,以及预测时对各模型预测结果的融合,实现了对基站外地点的空气质量预测,且预测结果综合了各种相关因素的影响,准确度更高。

实施例

图1是本发明的流程图。如图1所示,本发明采用多个预测模型的协同训练算法预测空气质量指数。下面对用于预测空气质量的各个预测模型、协同训练算法及最终评估准确性进行详细介绍。

首先在待预测区域内建立正方形网格系统。本实施例中待预测区域为北京市五环内区域,建立正方形网格系统,网格大小为一平方千米。网格交点即为空气质量指数待预测的地点。空气质量监测基站数量记为N。本实施例中,北京市共有36个空气质量监测基站。

步骤S3中时间预测模型F1的构建

获取并建立空气质量监测基站的历史数据库,包含日期时间、基站名称、基站经纬度、AQI数据、气温、气压、风力、湿度、天气类型。本实施例中,对历史数据的采样时间间隔优选为1小时。为保证训练样本的完整性,对历史数据缺失的情况进行局部时间序列的插值补全。

根据历史数据库对各个空气质量监测基站建立统一的时间序列预测模型,用于预测指定待预测地点在未来某个时间点的空气质量指数。该步骤进一步包含如下子步骤:

指定所使用的历史序列长度及预测期。当前时刻的数据记为xn,历史序列长度为L1,历史序列记为未来序列长度为L2,未来序列记为优选的,历史序列长度选取为6,预测期长度选为6。即对任意时刻,使用相应的最近6小时历史数据预测最近的未来6个小时的空气质量指数。因而,提取历史数据库中所有连续L1+1+L2小时序列组成训练数据集S1。

采用多元线性回归模型进行当前时刻及未来6小时的预测。对于每一个预测时间点都建立一个多元线性回归模型,即一共有7个时间预测模型。对于当前时刻的预测,输入数据S1为AQI的6小时历史数据和上一小时的气温、气压、风力、湿度、天气类型。对于未来6小时的预测,输入数据S1为当前时刻的AQI及6小时历史AQI数据,和当前时刻的气温、气压、风力、湿度、天气类型。多元线性回归模型的输出都是需要预测的时间点的AQI数据。多元线性回归模型可以写成如下的形式,

Y1=β0+β1X1+β2X2+…+βpXp (1)

其中βi为回归系数,Xi为各项输入数据,Y1为待预测点的空气质量指数。

步骤S4中空间预测模型F2的构建

获取所有基站在同一时间的实时数据,包含日期时间、基站名称、基站经纬度、AQI数据。

空间预测模型采用二维线性插值算法。输入数据S2为已知AQI值的基站或网格点的经纬度、AQI。空间预测模型可以表示为:

Y2=griddata(x,y,S2) (2)

其中x,y为待预测点的坐标,S2为输入数据,亦即训练集,Y2为待预测点的空气质量指数。空间预测模型的初始训练数据S2仅包含基站处的相关数据。griddata函数为现有插值函数。

S2的初始训练数据仅为基站相关数据,在训练集更新后,更新后的数据即为上一轮训练中预测结果偏差最小的待预测地点的上一轮预测结果值。

步骤S5中动态预测模型F3的构建

获取所有基站及待预测网格点附近给定半径内的交通数据和地理兴趣点数据。所述交通数据包括畅通、缓慢、拥堵路段长度,并转换为比例数据;所述地理兴趣点数据包括指定地点的给定半径范围内各种类型的地理对象实体的分布数据,如学校、银行、餐厅、加油站等的数量;

采用多元线性回归模型建立动态预测模型,输入数据为交通数据和地理兴趣点数据,输出数据为AQI数据。模型形式如下,

Y3=α0+α1T1+α2T2+α3T3+α4T4+…++αqTq (3)

其中αi为回归系数,T1,T2,T3为畅通、缓慢、拥堵路段占比,T4,T5,…,Tq为各类型地理兴趣点的数量,Y3为待预测点的空气质量指数。动态预测模型的初始训练数据S3仅包含基站处的相关数据。

步骤S6中室内外预测模型F4

获取用户共享的室内空气质量指数。该室内空气质量指数是通过与本软件系统相配套的空气净化器上安置的空气质量传感器测量所得。记所有用户共享数据集合为S4,作为本模型的训练数据。

根据清华大学电子工程系公布的室内空气质量调研的数据分析报告,室内空气质量与室外空气质量具有多种类型的数值关系。这取决于多种条件:建筑环境类型、楼层、距主干道距离、是否开启中央空调、是否开窗通风、是否开启空气净化器等。采用回归树算法分别拟合各个类别下的室内外空气质量指数关系。一般地,室内外预测模型可以表示为

Y4=RT(M,S4) (4-1)

其中RT为回归树算法,M为传感器测量的室内空气质量指数,Y4为待预测点的室外空气质量指数。当S4中各条件的状态组合不同时,回归树的系数也是不同的,因此通过历史数据中不同条件的组合训练得到相应的空间预测模型,用于相应条件组合下的预测。

如果训练数据S4缺失或者实测数据中缺少建筑环境类型、楼层、距主干道距离、是否开启中央空调、是否开窗通风、是否开启空气净化器等情况,则使用以下方法得到室内外预测模型。根据美国环保局公布的室内外空气质量统计关系[1],室内空气质量约为室外空气质量的60%,即:

Y4=M/60% (4-2)

其中M为传感器测量的室内空气质量指数,Y4为待预测点的室外空气质量指数。

步骤S7中的协同训练算法

待以上四个预测模型建立完成后,采取协同训练算法将各个模型的计算结果进行融合。同时,这四个模型将可能有不同程度的更新。协同训练算法是一项半监督学习算法,其主要目的是高效的利用少量标记数据和大量的未标记数据来训练预测器。本实施例使用了简化版的协同训练算法。具体的实施步骤如下:

S71,记时间预测模型、空间预测模型、动态预测模型和室内外预测模型分别为预测器F1,F2,F3,F4,各预测器的训练集分别记为L1,L2,L3,L4,将训练集初始化为:

L1=S1,L2=S2,L3=S3,L4=S4;

初始化各预测器预测结果的权重向量为[w1,w2,w3,w4],四个权重因子的和等于1。

S72,基于训练集L1,L2,L3,L4分别训练得到F1,F2,F3,F4;

S73,获取待预测地点在待预测时刻对应各预测器的模型输入量数据,利用所获取的数据,对于各待预测地点,利用训练得到的四个预测器分别计算得到待预测时刻的预测值,记为:

Y1=F1(x,y)

Y2=F2(x,y)

Y3=F3(x,y)

Y4=F4(x,y)

S74,对于各待预测地点,其在待预测时刻的AQI融合值为:

S75,定义预测结果的偏差阈值Rth,计算四个预测器预测结果的偏差之和:

S76,对于各待预测地点,分别将计算得到的Rx,y与偏差阈值Rth进行比较,若满足:

则退出循环,以Y0作为各待预测地点在待预测时刻的空气质量指数预测值;否则转至步骤S77;

S77,从所有待预测地点中,以相应的Rx,y从小到大为顺序,选取n个待预测地点,记为:

S={(x1,y1),(x2,y2),…,(xn,yn)};

S78,更新各预测器的训练集为:L1={L1,S},L2={L2,S},L3={L3,S},L4为当前的S4;转至步骤S72,并重复步骤S72至步骤S78继续进行训练,直至进行步骤S76时满足则以满足时对应的Y0作为各待预测地点在待预测时刻的空气质量指数预测值。

由上述方法可见,对于每个时刻的预测本发明进行了最少一轮的训练,在循环训练的过程中,每轮训练过程完毕,进行下一轮训练时,各模型的训练数据集中的数据将有所更新,从而在后续的训练中能够得到更准确的预测结果。各训练数据集中所新增加的数据即为上一轮训练时各预测器预测结果与协同训练结果偏差之和最小的预测地点处的相关数据,如对于空间预测模型,新增加的训练数据即为上一轮训练得到的该预测地点处的坐标和AQI数据;对于动态预测模型,新增加的训练数据即为该预测地点处的历史空气质量指数数据及交通数据和地理兴趣点数据,依次类推。

若步骤S73中无法通过预测器F4得到相应的AQI预测值,则在步骤S74中采用以下公式计算AQI融合值:

步骤S81对于当前时刻预测系统的准确性进行评估

对于当前时刻各个网格点的AQI预测,采用交叉检验的方式计算协同训练算法的准确性。具体实施步骤如下:

S811,采用K折交叉检验的方式,将所有基站随机均分成K份,每份依次编号为1,2,…,k,k+1,…,K,每份有c=N/K个基站。优选的,本实施例中K取为18。因而,每份中有c=N/K=36/18=2个基站;

S812,从K份基站中去除第k份,这1份中的基站的测量值和基站所在的网格的预测值将在后续步骤用于计算准确性,剩余的K-1份基站作为已知数据;

S813,基于前述的K-1份基站的数据,执行步骤7,得到单独隔离的1份基站即第k份基站中各基站在当前时刻的AQI预测值,记为

S814,获取第k份基站的实测AQI值为y1,y2,…,yc,则预测系统在去除第k份基站时对当前时刻预测的准确性可用如下指标ηk描述:

S815,将k从1遍历至K,得到预测系统在当前时刻的准确性指标η如下:

η越接近于1,则系统的当前时刻预测的准确性越高。

步骤S82对于未来时刻AQI预测的准确性评估

记执行所述步骤S7后对指定未来时刻所有基站所在网格的预测值为而基站的实际测量值为z1,z2,...,zN,则预测系统对未来预测准确性为:

ψ越接近于1,则系统对未来时刻预测的准确性越高。

实施例2

本发明通过利用将多种预测方法相融合的协同训练算法,对不限于空气质量监测基站附近的城市范围内的各个地理位置点进行空气质量指数预测,在保持较低计算复杂度的同时,提高预测的准确度。

本发明还提供一种城市小尺度空气质量指数预测系统,包括:

区域划分模块,将城市区域以网格形式进形区域划分,网格交点对应待预测空气质量指数的地点;

历史监测数据获取模块,获取空气质量监测基站的历史监测数据,建立历史数据库;所述历史监测数据包括AQI数据、气象数据和天气类型数据;

时间预测模型建立模块,基于历史数据库建立时间预测模型;

空间预测模型建立模块,获取各个空气质量监测基站的实时监测数据,建立空间预测模型;

动态预测模型建立模块,获取各个待预测地点和空气质量监测基站的交通数据和地理兴趣点数据,建立动态预测模型;

室内外预测模型建立模块,获取用户共享的室内空气质量指数,建立室内外预测模型;

协同训练模块,将已建立的时间预测模型、空间预测模型、动态预测模型和室内外预测模型进行协同训练,以将所有模型的预测结果相融合,得到所有待预测地点在当前时间和未来一段时间的空气质量指数预测值。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1