近地表痕量气体浓度反演模型及反演方法与流程

文档序号:34378242发布日期:2023-06-08 00:16阅读:487来源:国知局
近地表痕量气体浓度反演模型及反演方法与流程

本发明涉及气象信息,特别是涉及一种近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法。


背景技术:

1、痕量气体包括o3、no2、so2、co。目前痕量气体的监测手段主要为地面监测和遥感监测。其中地面监测主要有地面监测站点的自动监测、手动取样监测和走航监测,优点是监测的时间频率和精度均较高,缺点是地面监测站点分布不均匀,监测结果覆盖范围小,只能满足监测站点周围区域,建设和维护成本高,无法满足区域化大尺度痕量气体浓度实时且准确监控的需求。遥感监测能周期性、重复地从空中乃至宇宙空间对大范围区域进行对地观测,解决了地面站点覆盖范围小的缺点,但目前的遥感技术针对痕量气体只能提供不同垂直范围内的总柱浓度、对流层柱浓度或痕量气体剖面产品,针对颗粒物只能提供气溶胶光学厚度产品,不能提供近地表痕量气体的浓度。

2、因此,针对现有技术不足,提供一种能准确、高效地反演近地表痕量气体的时空分布特征的近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法以克服现有技术不足甚为必要。


技术实现思路

1、本发明的目的在于避免现有技术的不足之处而提供一种近地表痕量气体浓度反演模型及通过该模型反演近地表痕量气体浓度分布的方法,能够准确、高效地反演近地表痕量气体的时空分布特征特别是浓度特征。

2、本发明的目的通过以下技术措施实现。

3、提供一种近地表痕量气体浓度反演模型,基于遥感数据与站点数据建立反演模型。结合人工智能与大数据挖掘技术,建立遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的回归模型(反演模型),准确、高效地反演近地表痕量气体的时空分布特征,支撑大气污染物防治工作的精准实施。

4、优选的,上述近地表痕量气体浓度反演模型,基于遥感数据与站点数据建立反演模型,具体通过如下步骤建立:

5、s1,收集地表监测数据、遥感数据、气象数据和地理-人口数据;s2,对步骤s1收集的数据进行预处理,得到预处理后的初始建模数据;s3,对初始建模数据进行特征筛选,得到建模数据集;s4,根据建模数据集搭建模型。

6、优选的,s1中,收集地表监测数据具体是:从地方省级环境监测中心站获取地表痕量气体浓度数据,包括痕量气体的小时值、8小时均值和24小时均值,痕量气体使用13:00和14:00的算术平均值,数据中包含了监测站点的经度、纬度和日期。

7、收集遥感数据具体是:痕量气体遥感数据使用的是哨兵5p的l2级总柱浓度产品数据,哨兵5p卫星过境时间为13:00-14:00之间,搭载的传感器“tropomi”是迄今为止技术性能先进、空间分辨率最高的大气监测光谱仪,时间分辨率为1天,空间分辨率为7km×3.5km。遥感数据从google earth engine(gee)平台上下载。

8、收集气象数据具体是:气象数据从省级气象局获取,气象条件监测站点密集且分布比较均匀,气象类型包括平均温度(tem_avg,℃)、最大温度(tem_max,℃)、最小温度(tem_min,℃)、平均相对湿度(rhu,%)、8:00-8:00累积降雨量(pre08,mm)、20:00-20:00累积降雨量(pre20,mm)、2分钟平均风速(win,m/s)、蒸发量(evp,mm)、日照时数(ssh,h),全部为日均值数据。

9、收集地理-人口数据具体是收集数字高程模型(dem)、地表覆盖类型数据(glc)和人口密度数据(popden),其中数字高程模型(dem)空间分辨率为30m×30m,地表覆盖类型数据(glc或者lu)空间分辨率为30m×30m,人口密度数据(popden)空间分辨率0.09°×0.09°。

10、优选的,上述的近地表痕量气体浓度反演模型,s2对步骤s1收集的数据进行预处理的具体过程是:

11、s21,数据提取

12、首先从空气质量监测的原始文件中提取近三年目标城市群所有空气质量监测站点的痕量气体13:00-14:00的监测结果,删除缺失值后,将每天13:00和14:00的监测结果求算术平均值,作为地面监测结果,得到痕量气体监测数据集;提取过程中同时包含监测站点的经度、纬度和监测日值,根据监测站点的经度和纬度信息转化为wgs-84坐标系下的点矢量文件,简称“痕量气体点矢量”,用于提取对应监测站点的遥感-气象-地理-人口密度数据等。

13、其次,将gee下载的遥感数据重投影至wgs84坐标系,使用最近邻采样方法重采样至1km×1km的分辨率,使用痕量气体点矢量提取对应点位的遥感数据,得到遥感数据集。

14、再次,从气象数据原始文件中提取近三年所有监测站点的日均值监测结果,包含气象监测站点的经纬度和日期,剔除所有缺失值,依次按照日期和气象数据字段信息,按照经纬度和监测结果将各个气象字段的监测数据转化为wgs-84坐标系下的点矢量文件,然后按照反距离权重插值方法插值到1km×1km分辨率,进一步矢量转栅格后形成栅格文件,栅格文件的像元值就是气象字段的日均值监测结果,最后使用痕量气体点矢量提取对每天各字段对应位置的气象结果,得到气象数据集。

15、最后,dem、glc、popden均为栅格文件,其中dem和glc分辨率为30m×30m,popden分辨率为900m×900m,使用最近邻采样方法重采样至1km×1km,重投影至wgs-84坐标系下,使用痕量气体矢量提取像元值,得到辅助数据集(或称为地理-人口数据集)。

16、s22,数据结合

17、数据提取阶段共提取了4个数据集,分别为痕量气体的监测数据集、遥感数据集、气象数据集、辅助数据集,四份数据集中均包含有经度、纬度和日期,按照这三个字段将四份数据结合成为最终的数据集,简称“原始数据集”,进一步将原始数据集中的日期转化为每年的第几天,day of year(doy),原始数据集中痕量气体的监测结果为标签,其余全部为特征。

18、s23.异常值剔除

19、对原始数据集进行异常值检查,检查异常值的方法是绘制箱型图,将含有异常值的样本全部删除;此外,根据先验知识将包含气象数据异常值(如win>50m/s,tem_avg>40℃,ssh>14h等)的样本剔除,即删除极端天气的影响。

20、优选的,上述的近地表痕量气体浓度反演模型,s3中对初始建模数据进行特征筛选,特征筛选的目的是在不减小原始数据集中携带信息的前提下,进一步简化数据集,简化后的数据集建模既能保证模型的精度,也降低了模型的复杂度,适用性更强,反演结果更加准确。

21、特征筛选具体包括:

22、s31.绘制散点图研究相关关系

23、通过绘制散点图的方式,研究数据集中各特征变量与标签之间的相关关系,并将含有极端天气样本对应到的特征删除;

24、s32.统计person相关系数和p_value

25、通过统计标签与特征之间的person相关系数,将person相关系数为0.00的特征删除;进一步计算p_value值,将p_value>0.01的变量删除;

26、s33.机器学习筛选特征

27、将经过步骤s31、s32筛选后的数据集带入随机森林模型,使用该模型的内建函数“feature.importance”计算特征重要性,排序后按照特征重要性得分由小到大排序,依次删除得分较小的特征,查看建模精度变化(选择统计指标决定系数r2或者均方根误差rmse评估模型),直到模型精度发生较大变化时停止删除特征,得到建模数据集,简称“数据集”。优选的,上述近地表痕量气体浓度反演模型,s4搭建模型建模使用的机器学习算法为extreme gradient boosting(xgboost),是以决策树为基学习器构建的集成算法,基学习器为classification and regression tree(cart)决策树,使用xgboost反演近地表痕量气体浓度建立回归模型,模型搭建过程使用的标签为痕量气体的监测浓度,特征为数据集中除痕量气体浓度之外的其他特征;

28、模型建立后,进入参数调节步骤,参数调节具体通过如下过程进行:

29、首先,把数据集划分两份,一份是训练集,占总数据量的70%,用来调整模型的超参数,一份是测试集,占总数据量的30%,用来测试模型的泛化能力;

30、其次,绘制回归模型指标变化的学习曲线,循坏调节每个超参数,选取超参数相对适宜的数值;

31、最后,对每个超参数选择一个数值范围,使用xgboost库中的网格搜索的方法,选择超参数之间的最佳搭配方案。

32、进一步的,上述的近地表痕量气体浓度反演模型,s4搭建模型的具体过程是:

33、s4.1模型环境搭建

34、利用python3.8平台,安装1.4.2版本的xgboost、0.24.2版本的scikit-learn、1.21.3版本的numpy、1.3.4版本的pandas和3.43版本的matplotlib库包,使用numpy和pandas两个库包进行数据预处理,从xgboost库包中调用xgboost算法搭建模型,从scikit-learn库包中调用train_test_split函数划分数据集,调用r2_score和mean_squared_error函数计算评估指标r2和mse,使用matplotlib绘制r2和mse的学习曲线,调用gridsearchcv类进行网格搜索,确定最佳参数组合;

35、s4.2超参数调节

36、对xgboost算法中的超参数进行调整,需要进行调节的超参数包括:n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state、learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight;n_estimators、max_depth、gamma、reg_alpha、reg_lambda、random_state六个超参数取默认值,对learning_rate、colsample_bylevel、subsample、colsample_bytree、colsample_bynode、min_child_weight超参数单独进行训练;对任意一个超参数进行训练的方法是:确定超参数的取值范围,然后对每个取值绘制r2和mse点,所有取值点相连组成学习曲线,根据评估指标r2和mse的值,确定超参数的优选取值;超参数的优选取值条件是:当超参数取值大于优选取值之后,r2变大和mse变小的速率在减小;

37、s4.3网格搜索参数调节

38、对s4.2中获取的每个超参数赋一个取值区间,将所有超参数的取值区间输入网格搜索中,确定超参数的最佳组合。

39、优选的,上述的近地表痕量气体浓度反演模型,为了防止模型过拟合,使用xgboost库中的十折交叉验证的方法做模型评估优化模型,防止模型过拟合,提升模型的泛化能力。十折是指训练集和验证集随机的分成十份,轮流将其中9份作为训练数据,1份作为测试数据,总共开展十次,用十次结果的平均值来评估模型精度。

40、作为一种优选方式,近地表痕量气体浓度反演模型,痕量气体o3模型中,超参数取值为n_estimators=300,earning_rate=0.06,max_depth=10,gamma=9,colsample_bylevel=0.65,subsample=0.74,colsample_bytree=0.7,random_state=420,reg_alpha=18,reg_lambda=0.9,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。

41、作为另一种优选方式,近地表痕量气体浓度反演模型,痕量气体no2模型中,超参数取值为n_estimators=390,earning_rate=0.11,max_depth=11,colsample_bylevel=0.33,colsample_bytree=0.22,random_state=0,reg_alpha=80,colsample_bynode=0.7,min_child_weight=5,其余参数可取默认值。

42、本发明基于上述近地表痕量气体浓度反演模型反演近地表痕量气体浓度的方法,通过如下步骤进行:

43、s1,数据准备

44、准备拟反演日期和范围的遥感数据、气象数据和地理-人口密度数据,处理方法与建模时的数据预处理方法一致,处理结果为栅格数据,分辨率为1km×1km,坐标系为wgs-84坐标系;

45、s2,处理栅格行列数

46、使用拟反演范围的四至坐标分别裁剪遥感、气象、地理-人口密度的栅格文件,按照遥感数据的行列号,使用最近邻法对气象、地理-人口密度栅格文件重采样,使得遥感、气象、地理-人口密度栅格数据具有相同的行列号;

47、s3,提取数据

48、按照行列数依次提取遥感、气象、地理-人口密度的像元值,每一个像元的遥感、气象、地理-人口密度数据组成一个样本,提取完所有特征之后,对遥感数据的缺失值按照周围10个像元的平均值进行填补;

49、s4,反演痕量气体浓度

50、将提取的样本数据导入已建立的近地表痕量气体浓度反演模型中,得到每个样本对应的痕量气体浓度,根据遥感数据的行列数、坐标系和仿射变换系数将痕量气体浓度处理成栅格文件,每一个像元即是反演的痕量气体浓度。

51、本发明的近地表痕量气体浓度反演模型及基于该反演模型反演近地表痕量气体浓度的方法,模型结合人工智能与大数据挖掘技术,建立了遥感监测的痕量气体总柱浓度(以下简称“遥感数据”)与地面站点监测的痕量气体质量浓度(以下简称“站点数据”)的(反演模型),能够准确、高效地反演近地表痕量气体的时空分布特征。反演模型从数据的角度出发,研究大空间范围长时间序列中,不同的气象条件、地理因素、人口密度等条件下,痕量气体的遥感监测数据与地面监测站点数据的相关关系以及气象-地理-人口因素对相关关系的影响特征。利用先验知识和数理统计方法,筛选对相关关系有影响的气象-地理-人口特征(影响因子),利用数据挖掘能力强大的机器学习算法,建立痕量气体地面监测数据与遥感-气象-地理-人口数据之间的模型,采用参数调节、网格搜索和交叉验证等手段进一步优化反演模型。基于反演模型,结合不同时间大范围覆盖的遥感-气象-地理-人口数据,反演近地表痕量气体的时空分布。

52、说明书附图

53、图1是本发明实施例5中的o3与其他特征之间的相关关系散点图。

54、图2是o3与其它特征之间的相关系数矩阵。

55、图3是臭氧模型训练集散点密度图。

56、图4是臭氧模型训练集空间分布特征。

57、图5是各城市训练集监测的o3浓度月均值和预测的o3月均值浓度。

58、图6是臭氧模型验证集散点密度图。

59、图7是臭氧模型各项评价指标的空间分布特征图,其中图7a为样本量;图7b为均方根误差;图7c为为决定系数;

60、图7d为平均绝对误差。

61、图8是2021年6月26日关中城市群模型反演o3的空间分布特征。

62、图9是2021年6月26日关中城市群监测站点o3浓度空间分布。

63、图10是2021年6月26日关中城市群模型反演o3浓度空间分布。

64、图11是本发明实施例6中的二氧化氮模型训练集散点密度图。

65、图12是二氧化氮模型验证集散点密度图。

66、图13是二氧化氮模型各项评价指标的空间分布特征,其中图13a为样本量;图13b为均方根误差;图13c为为决定系数;图13d为平均绝对误差。

67、图14是2021年6月24日关中城市群模型反演no2的空间分布特征。

68、图15是2021年6月25日关中城市群模型反演no2的空间分布特征。

69、图16是2021年6月26日关中城市群模型反演no2的空间分布特征。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1