一种基于机器学习LightGBM算法的空气质量预测方法与流程

文档序号:31475055发布日期:2022-09-10 00:15阅读:1070来源:国知局
一种基于机器学习LightGBM算法的空气质量预测方法与流程
一种基于机器学习lightgbm算法的空气质量预测方法
技术领域
1.本发明属于空气质量预报技术领域,特别涉及一种基于机器学习lightgbm算法的空气质量预测方法。


背景技术:

2.由于工业化水平的快速提高,空气质量成为与人们生命健康问题密切相关的因素之一,对空气质量预测的需求也在天气预报、旅游出行等领域逐步提升。预测数据能够足够准确是人们对空气质量预测和天气预报的首要需求之一。
3.传统空气质量预报模式已经在众多任务中取得了较好的性能,且已广泛应用于空气质量六参数(细颗粒物(pm2.5)、可吸入颗粒物(pm10)、二氧化疏(so2)、二氧化氮(no2)、臭氧(o3)、一氧化碳(co))的预报中。但是由于传统空气质量预报方法强依赖于污染源清单,易于受到污染源清单编制难度及更新频率的影响。虽然其已在本领域内广泛应用,但是其运算速度较慢,需耗费大量的计算资源和时间,导致业务化运行时,预报结果通常具有一定的滞后性,同时也会影响预报结果的准确性。随着监测手段的丰富,空气质量监测数据集越来越丰富多样,不断提高的计算机计算性能及近年来人工智能算法的快速发展,为挖掘大气环保数据中所隐含的信息提供了新的机遇与挑战。基于机器学习的空气质量六参数预报成为了当下具有潜力和挑战性的热点,逐渐开始与传统的空气质量数值预报模式一起服务于大众。


技术实现要素:

4.针对上述现有技术存在的问题,本发明提供了一种基于机器学习lightgbm算法的空气质量预测方法。
5.本发明的目的在于提供了一种基于机器学习lightgbm算法的空气质量预测方法,包括以下步骤:
6.s1、获取与空气质量相关的多源数据,所述多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
7.其中,所述站点空气质量监测数据包括站点历史空气质量监测数据和预测时刻实际站点空气质量监测数据;
8.s2、对获取的多源数据进行处理;
9.s3、构建基于机器学习lightgbm算法的空气质量预测模型;
10.s4、将实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的站点空气质量监测数据、t-7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型中,输出得到空气质量预测结果;
11.s5、将得到的空气质量预测结果进行可视化展示。
12.优选的,步骤s2中,所述对获得的多源数据进行处理,包括:
13.a21、将获得的站点空气质量监测数据、历史气象数据和气象预报数据进行预处
理;
14.a22、将预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与监测站点空间位置数据进行融合处理,并将融合后的数据集划分为训练集、验证集和测试集;
15.a23、对融合处理后的数据集进行特征提取,得到融合特征样本。
16.优选的,步骤a21中,所述对获得的站点空气质量监测数据进行预处理,包括对所述站点空气质量监测数据进行变量提取、数据清洗及缺测值填充处理。
17.优选的,步骤a21中,所述对历史气象数据和气象预报数据的预处理均采用反距离权重法插值处理。
18.优选的,所述历史气象数据选自era5格点再分析气象数据,所述气象预报数据选自gfs格点预报数据。
19.优选的,步骤s3中,所述构建基于机器学习lightgbm算法的空气质量预测模型,具体为:在将每个站点t-7时刻~t时刻的站点空气质量监测数据、t+1时刻~t+72时刻的气象预报数据和t-7时刻~t时刻的历史气象数据与站点空间位置数据进行融合、特征提取后得到的融合特征样本,作为lightgbm模型的输入项,以预报时刻实际站点空气质量监测数据作为标签,分批地对lightgbm模型进行训练,再参数调优,得到空气质量预测模型。
20.优选的,所述站点空气质量监测数据包括pm2.5、pm10、no2、co、o3和so2的浓度数据。
21.本发明的目的还在于提供一种基于机器学习lightgbm算法的空气质量预测系统,包括:
22.数据获取模块,用于获取与空气质量相关的多源数据,其中,多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
23.数据处理模块,包括数据预处理单元、数据融合单元和特征提取单元,其中,所述数据预处理单元,用于对获得的站点空气质量监测数据进行变量提取、数据清洗、缺测值填充处理,以及对获得的历史气象数据和气象预报数据采用反距离权重法插值处理;数据融合单元用于对预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与站点空间位置数据进行融合处理;特征提取单元用于对融合处理后的数据集进行特征提取,获得融合特征样本;
24.模型构建模块,用于通过对lightgbm模型训练来构建空气质量预测模型;
25.业务化预测模块,用于将实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的站点空气质量监测数据、t-7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型,输出得到空气质量预测结果;
26.可视化展示模块,用于将得到的空气质量预测结果进行可视化展示。
27.与现有技术相比,本发明具备如下有益效果:
28.(1)本发明运用机器学习lightgbm算法,以站点起报时刻(t时刻)前若干小时的站点空气质量监测数据、历史气象数据、预报时刻气象数据、站点空间位置数据为输入特征(项),以预报时刻实际站点空气质量监测数据为标签,建立输入特征与标签之间的模型,并对该模型进行训练,以构建空气质量预测模型,并基于构建的空气质量预测模型,输入实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的历史气象数据、t-7时刻~t时刻的站点空气质量监测数据及站点空间位置数据,实现了对监测站点未来72h空气质量
六参数的逐小时浓度的预测,同时结合计算机前端框架将得到的空气质量预测结果在信息化平台进行可视化展示。
29.(2)本发明运用lightgbm模型构建了空气质量预测模型,这种轻量化的机器学习模型的使用,不仅避免了对污染源清单的强依赖,减少了运算速度和运算成本,同时有效提高了预报准确性和预报时效,且基于构建的空气质量预测模型进行日常预报时计算时间可控制在5min以内。
附图说明
30.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1为基于机器学习lightgbm算法的空气质量预测方法的总流程图;
32.图2为基于机器学习lightgbm算法的空气质量预测系统的模块流程图;
33.图3为基于机器学习lightgbm算法的空气质量预测方法的流程详图;
34.图4为本发明实施例中湖北省空气质量国控站点的分布图(图中灰点);
35.图5为实施例中将构建的特征图像拼接在一起构成一个特征图像的示意图;
36.图6为本发明实施例中构建空气质量预测模型的基本构思示意图;
37.图7为实施例中对lightgbm模型进行训练的流程详图;
38.图8为对空气质量预测模型(或lightgbm模型)进行预测(训练)流程图;
39.图9为实施例中对输出的空气质量预测结果可视化图表展示的示意图;
40.图10为实施例中对输出的空气质量预测结果可视化图表展示的示意图;
具体实施方式
41.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
42.在机器学习的思路中,鉴于空气中污染物的浓度变化具有时空连续性,空气质量预测被建模成为了时空数据预测问题,即数据中同时存在复杂的长程时空依赖关系。本发明中提供的空气质量智能预报,主要思路是基于lightgbm等机器学习算法,其为一种基于集成学习的决策树梯度提升算法框架,以起报时刻(t时刻)前若干小时的站点空气质量监测数据、历史气象数据、预报时刻气象数据、站点空间位置信息为输入特征,以预报时刻实际站点监测的空气质量站点浓度数据为标签,建立输入特征与标签之间的模型,并对该模型进行训练,构建了空气质量预报模型,并基于构建的空气质量预报模型实现对未来时刻的空气质量监测站点浓度数据进行预报。
43.然而,实际应用中,由于不同区域间气象要素和空气质量浓度要素存在较大差异性,多个地区使用一个模型显然是不合理的;又因为空气质量浓度在空间尺度上具有连续性,若每个站点分别建立模型,又会损失空间信息。因此,结合实际业务,本发明均以省为单
位建立模型,充分考虑空间相关性,针对不同省份进行模型的重新训练,这对站点预测结果的准确性具有决定性作用。
44.参照图1,本发明提供了一种基于机器学习lightgbm算法的空气质量预测方法,包括以下步骤:
45.s1、获取与空气质量相关的多源数据,所述多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
46.站点空气质量监测数据包括pm2.5、pm10、no2、co、o3和so2的浓度数据;
47.历史气象数据选自era5格点再分析气象数据,所述气象预报数据选自gfs格点预报数据。
48.其中,所述站点空气质量监测数据包括站点历史空气质量监测数据和预测时刻实际站点空气质量监测数据。
49.s2、对获取的多源数据进行处理;
50.对获得的多源数据进行处理,包括:
51.a21、将获得的站点空气质量监测数据、历史气象数据和气象预报数据进行预处理;
52.对获得的站点空气质量监测数据进行预处理,包括对所述站点空气质量监测数据进行变量提取、数据清洗及缺测值填充处理。
53.对历史气象数据和气象预报数据的预处理均采用反距离权重法插值处理。
54.a22、将预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与监测站点空间位置数据进行融合处理,并将融合后的数据集划分为训练集、验证集和测试集;
55.a23、对融合处理后的数据集进行特征提取,得到融合特征样本。
56.s3、构建基于机器学习lightgbm算法的空气质量预测模型;
57.构建基于机器学习lightgbm算法的空气质量预测模型,具体为:将每个站点t-7时刻~t时刻的站点空气质量监测数据、t+1时刻~t+72时刻的气象预报数据和t-7时刻~t时刻的历史气象数据与站点空间位置数据进行融合、特征提取后得到的融合特征样本,作为lightgbm模型的输入项,以预报时刻实际站点空气质量监测数据作为标签,分批地对lightgbm模型进行训练,再参数调优,得到空气质量预测模型。
58.s4、将实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的站点空气质量监测数据、t-7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型中,输出得到空气质量预测结果;
59.s5、将得到的空气质量预测结果进行可视化展示。
60.参照图2,本发明还提供一种基于机器学习lightgbm算法的空气质量预测系统,包括:
61.数据获取模块,用于获取与空气质量相关的多源数据,其中,多源数据包括:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
62.数据处理模块,包括数据预处理单元、数据融合单元和特征提取单元,其中,所述数据预处理单元,用于对获得的站点空气质量监测数据进行变量提取、数据清洗、缺测值填充处理,以及对获得的历史气象数据和气象预报数据采用反距离权重法插值处理;数据融合单元用于对预处理后的站点空气质量监测数据、气象预报数据和历史气象数据与站点空
间位置数据进行融合处理;特征提取单元用于对融合处理后的数据集进行特征提取,获得融合特征样本;
63.模型构建模块,用于通过对lightgbm模型训练来构建空气质量预测模型;
64.业务化预测模块,用于将实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的站点空气质量监测数据、t-7时刻~t时刻的历史气象数据和站点空间位置数据输入空气质量预测模型,输出得到空气质量预测结果;
65.可视化展示模块,用于将得到的空气质量预测结果进行可视化展示。
66.实施例1
67.本发明中,以省为单位进行建模(即空气质量预测模型),充分考虑了空间相关性,能够较好的模拟空气质量污染物在时空上的连续性。
68.具体地,建立空气质量监测站点的72h空气质量六参数浓度的预测模型,即空气质量预测模型,以湖北省武汉市为例评估模型预测效果,评估标准为mae(平均绝对误差),mae越小代表模型预测结果越准,如表1所示。
69.表1武汉市各国控站点空气质量六参数预报mae分布
[0070][0071][0072]
参照图3,一种基于机器学习lightgbm算法的空气质量预测方法,包括以下步骤:
[0073]
s1、获取与空气质量相关的多源数据:站点空气质量监测数据、历史气象数据、气象预报数据和站点空间位置数据;
[0074]
具体地,
[0075]
(1)根据研究的城市空间范围,选择预测省份
[0076]
这里以湖北省为例,筛选、获得各个空气质量站点的空间位置数据(经纬度信息和海拔高度信息),如图4所示,为湖北省空气质量国控站点的分布图(图中灰点)。
[0077]
(2)获取多源数据
[0078]
本实施例所用的历史气象数据选自于era5格点再分析气象数据,所用的气象预报数据选自gfs格点预报数据。
[0079]
era5格点再分析气象数据是欧洲中期天气预报中心(ecmwf)对全球气候的第五代大气再分析。再分析将模型数据与来自世界各地的监测数据结合起来,形成一个全球完整的、一致的数据集。era5格点再分析气象数据取代了其前身era-interim再分析。era5格点再分析气象数据的时间跨度为2020年1月1日至2022年2月28日,空间分辨率为0.25
°×
0.25
°
,时间分辨率为1h,共使用了9个气象要素,分别是2m气温、2m露点温度、2m相对湿度、1小时累积降水、短波辐射、边界层高度、100m风速u分量、100m风速v分量以及气压。
[0080]
gfs格点预报数据来源采自美国国家环境预报中心的gfs(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率也是0.25
°×
0.25
°
,与era5格点再分析气象数据一致,era5和gfs数据的范围均为全中国。
[0081]
本实施例所用的站点空气质量监测数据为全国各国控站点空气质量六参数小时浓度值,分别为pm2.5、pm10、o3、so2、no2和co,时间跨度为2020年1月1日至2022年2月28日。
[0082]
s2、对获取的多源数据进行处理;
[0083]
具体地,
[0084]
(1)对站点空气质量监测数据和气象数据的预处理:由于站点空气质量监测数据中常常存在缺测值等无效数据,因此需对获取的站点空气质量监测数据进行变量提取、数据清洗、缺测值填充等预处理,这里使用插值方式填充缺测值。例如第i个监测数据gi,若只存在一个缺失值gi,j,则gi,j=gi,j-1;若不存在gi,j-1,则gi,j=gi,j+1;若gi,j-1和gi,j+1均不存在,则舍弃gi,j样本。
[0085]
由于本实施例所采用的历史气象数据和气象预报数据分别选自era5格点再分析气象数据和gfs格点预报数据,均属于格点气象数据,需对格点气象数据进行预处理,本实施例中采用idw(反距离权重法)插值,使用距离目标站点最近的四个网格点数据插值后的结果,作为era5/gfs模式产品对目标站点的气象要素预报值,简称为站点气象要素。
[0086]
(2)多源数据融合处理:由于本实施例所用的era5格点再分析气象数据和gfs格点预报数据均属于格点气象数据,为了与站点空气质量监测数据及站点空间位置数据相匹配,需进行数据融合处理,以实现所有数据在时空分辨率上的统一,为下一步对lightgbm模型进行训练做准备。
[0087]
本实施例同时采用了动力模型与统计方法对上述(多源)数据集进行融合处理。具体地,将站点空气质量监测数据(集)、站点气象要素数据(集)与站点空间位置数据相对应,使每个输入特征(项)下的多维数据构建的特征图像拼接在一起构成一个特征图像,如图5所示,即数据集被组织成(s,f)的张量,s为样本数,f为特征要素个数。其中不同站点的同一时刻数据被看作是不同的样本。并按照时间的不同将融合后的数据集划分为训练集、验证集和测试集。本发明通过将站点空气质量监测数据(集)、站点气象要素数据(集)及站点空间位置数据(集)共同作为模型的输入特征(项),能够充分挖掘多维数据之间各自包含的信息。
[0088]
(3)特征提取:对融合处理后的数据集进行特征重要性筛选,获得融合特征样本,以去除特征上的冗余信息,提高模型的计算效率。
[0089]
s3、构建基于机器学习lightgbm算法的空气质量预测模型;
[0090]
具体地,如图6所示,为构建空气质量预测模型的基本构思示意图,本实施例运用了lightgbm模型(为轻量化的机器学习模型,可以处理大量数据的同时,占用很少的内存)来构建空气质量预测模型,并结合了历史污染物数据和周边站点空间位置数据,提取污染物在时空的浓度变化信息特征,包括时间特征、空间特征以及气象因子,能够使构建的空气质量预测模型更好地学习污染物复杂的非线性时空关系,其中,污染物在空间上的浓度变化主要取决于局地污染物浓度变化(取决于局地的污染物累计和污染物消散)和外面污染物传输(依靠风传输)的影响。
[0091]
具体地,分批训练lightgbm模型:在每一个起报时刻(t时刻),每个监测站点的t-7时刻~t时刻的站点空气质量监测数据、t+1时刻~t+72时刻的气象预报数据和t-7时刻~t时刻的历史气象数据与站点空间位置数据经数据融合及特征提取处理后,被离散化成k个整数值,同时构造宽度为k的直方图,接着分批次有放回地将数据输入模型进行训练,寻找
最优分割点,到达损失极小值,直到所有数据(集)训练完毕为止,完成对lightgbm模型的训练(如图7和图8所示),保存训练后的lightgbm模型,作为空气质量预测模型。
[0092]
上述在对lightgbm模型训练时,输入项中添加的(t-7时刻~t时刻)历史站点空气质量监测数据,可模拟空气质量站点污染物时序的变化,有效提取时间特征;添加的每个站点的空间位置数据,可模拟空气质量站点的空间分布,学习数据中的空间连续性,结合气象条件如风速来表征污染物在各个站点之间的空间传输,有效提取空间特征;添加的气象数据(包括t-7时刻~t时刻的站点气象数据和t+1时刻~t+72时刻的站点气象数据),可拟合气象对污染物复杂的非线性作用,有效提取气象因子。因此,上述基于机器学习lightgbm算法构建的空气质量预测模型可较好的模拟空气质量污染物在时空上的连续性,保证模型在日常业务后预测的时候运算时间不超过5min。
[0093]
s4、基于构建的空气质量预测模型,将实时更新的t+1时刻~t+72时刻的气象预报数据、t-7时刻~t时刻的站点空气质量监测数据、t-7时刻~t时刻的站点历史气象数据和站点空间位置数据输入空气质量预测模型中,输出得到空气质量预测数据结果(如图8所示);
[0094]
s5、将最终的预测结果集成到信息化平台上进行可视化图表展示,展示结果如图9和图10所示。
[0095]
本发明中所涉及lightgbm模型为本领域常规的技术手段。
[0096]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1