一种基于图神经网络的监测站点重要性评估方法及系统

文档序号:32798569发布日期:2023-01-03 23:02阅读:39来源:国知局
一种基于图神经网络的监测站点重要性评估方法及系统

1.本发明属于空气污染监测领域和可解释机器学习领域,具体涉及一种基于图神经网络的监测站点重要性评估方法及系统。


背景技术:

2.随着国家工业化、城市化的进程加速,越来越多的环境污染问题引起了大众的关注,与水环境、海洋环境、土壤环境等不同空气质量环境因肉眼不易辨别,管理控制难度更大,为了监测与防治空气污染,许多城市都建立了自己的空气质量监测站点。
3.目前,空气质量监测站的选址需结合不同监控区域人口规模、建成区情况以及地形、气象等自然因素综合考虑确定环境质量网格点位的布设。站点位应尽量分布均匀,并能够覆盖整个监控区域,同时要考虑监控区域建筑、交通等分布及规划清理,增强可操作性。由于各空气质量监测站点覆盖区域有限、分布稀疏,导致无法完全覆盖一个城市,因此需要采用算法确定站点的重要性。
4.机器学习算法注重于拟合数据以及其不直观的内部机理,使得机器学习模型中的计算复杂度较高,并且机器学习算法结合空气污染物的历史数据往往只是简单的作为模型的输入,无法确定哪些数据是重要的。shapley value具有一定的可解释性,但是时间复杂度较高。


技术实现要素:

5.为解决上述问题,本发明提供了一种基于图神经网络的监测站点重要性评估方法及系统。
6.在第一方面,本发明提供的一种基于图神经网络的监测站点重要性评估方法,包括:
7.s1.获取目标区域内每一个监测站点的相关数据,相关数据包括地理信息、不同历史时间段的污染物浓度;通过相关数据构建目标区域内所有监测站点不同历史时间段的图结构表示;
8.s2.所有监测站点不同历史时间段的图结构表示作为输入,训练图神经网络模型,输出为目标区域的空气质量指数;
9.s3.实时获取最新时间段内所有监测站点的污染物浓度,并构建最新时间段对应的第一图结构表示,将第一图结构输入训练好的图神经网络模型得到第一预测结果;
10.s4.根据贪婪最佳优先搜索算法对第一图结构表示进行搜索,得到第二图结构表示;其中,采用改进的shapley value作为贪婪最佳优先搜索算法的启发函数;
11.s5.将第二图结构表示输入训练好的图神经网络模型得到第二预测结果,判断第二预测结果与第一预测结果是否小于相似阈值,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回s4继续搜索;
12.s6.构建重要性排序模块,所述重要性排序模块包括多种排序方法,首先通过扰动
方法对重要监测站点图结构表示进行重要性排序;
13.s7.设计验证算法验证重要性排序结果是否准确,若是,则输出重要性排序结果,否则通过重要性排序模块更换排序方法进行排序。
14.进一步的,步骤s1生成所有监测站点在历史时间段u的图结构表示的过程为:
15.s11.获取目标区域内每一个监测站点的经纬度信息,计算每两个监测站点间的距离,计算公式表示为:
[0016][0017]
a=lat
m-latn[0018]
b=lung
m-lungn[0019]
其中,d表示监测站点m和监测站点n间的距离,a表示监测站点m和监测站点n的经度差值,b表示监测站点m和监测站点n的纬度差值,r表示地球半径,latm表示监测站点m的纬度,latn表示监测站点n的纬度,lungm表示监测站点m的经度,lungn表示监测站点n的经度;m,n∈n,n表示目标区域内的监测站点总数;
[0020]
s12.选取目标区域内的任一监测站点作为第一监测站点;
[0021]
s13.将第一监测站点与其余监测站点间的距离按照从小到大的顺序排序,选择前k个监测站点与第一监测站点进行加边操作;若监测站点间存在边则不用重复添加;
[0022]
s14.判断是否还有监测站点没有做过第一监测站点,若是,则将该监测站点作为第一监测站点返回步骤s13,若不是,则得到所有监测站点组成的图结构表示;
[0023]
s15.在当前图结构表示中,每一个节点表示一个监测站点,并采用该监测站点在历史时间段u的污染物浓度作为节点特征,边的特征向量表示成[距离,经度1,纬度1,经度2,纬度2],用于保留监测站点间的距离信息和位置信息,其中,纬度1和经度1是边连接的一个监测站点的位置信息,纬度2和经度2是该边连接的另一个监测站点的位置信息。
[0024]
进一步的,改进的shapley value表示为:
[0025][0026][0027][0028][0029]
其中,表示在f()中对输出的贡献,表示一个随机图结构,s
t
表示从节点集合中随机选取的节点子集,f()表示图神经网络模型,λ
t
表示修正后的系数,p表示目标区域内所有监测站点的集合,表示中节点的集合,t表示采样次数,λ
t
表示
节点子集s
t
的权重,λ0表示1与随机t个节点子集的权重和的差值,|s
t
|表示节点子集s
t
中的节点个数,|p|表示目标区域内所有监测站点的个数。
[0030]
进一步的,采用改进的shapley value作为贪婪最佳优先搜索算法的启发函数进行搜索,过程包括:
[0031]
s21.初始化最新时间段内的第二图结构表示
[0032]
s22.根据启发函数在第一图结构表示中搜索重要监测站点并加入第二图结构表示中;
[0033]
s23.将第二图结构表示输入训练好的图神经网络模型得到第二预测结果,判断第二预测结果与第一预测结果是否小于相似阈值,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回s22继续搜索;
[0034]
判断第二预测结果与第一预测结果是否接近的公式为:
[0035][0036]
其中,表示第一预测结果,表示目标区域内所有监测站点在最新时间段的第一图结构表示,表示第二预测结果,η表示控制和在f()中相似程度的超参数,即相似阈值。
[0037]
进一步的,步骤s6通过扰动方法对重要监测站点图结构表示进行重要性排序,包括:
[0038]
s31.设置迭代阈值q,令迭代次数为q=1;
[0039]
s32.在第一图结构表示中随机选取m个监测站点进行掩膜,即在第一图结构表示中将这m个监测站点对应的节点特征表示为0;
[0040]
s33.采用贪婪最佳优先搜索算法对s32得到的结果进行搜索,得到掩膜后重要监测站点图结构
[0041]
s33.判断是否满足q≤q,若是,则q=q+1并返回步骤s32;否则迭代结束,得到扰动集合记录重要监测站点图结构表示中每一个站点在扰动集合中的出现次数,按照出现次数由高到低进行排列,得到重要监测站点的重要性排序。
[0042]
进一步的,步骤s7的验证过程包括:
[0043]
s41.根据重要性排序结果,选取前n个监测站点和后n个监测站点分别对重要监测站点图结构表示进行掩膜,得到第一掩膜图和第二掩膜图;
[0044]
s42.将第一掩膜图和第二掩膜图输入训练好的图神经网络模型中,得到第一预测值和第二预测值;
[0045]
s43.若第一差值大于第二差值,则输出重要性排序结果,否则,更换排序方法进行排序。
[0046]
在第二方面,本发明基于第一方面所提供的方法提出了一种基于图神经网络的监测站点重要性评估系统,包括历史数据存储模块、图结构组成模块、图神经网络训练模块、实时数据获取模块、贪婪搜索模块、第一可视化模块、第一判断模块、排序模块、第二判断模块和第二可视化模块,其中:
[0047]
历史数据存储模块,用于存储区域内所有监测站点的历史时间段的污染物浓度数据,以及各监测站点的地理信息;
[0048]
图结构组成模块,用于通过监测站点的地理信息和污染物浓度数据构建图结构表示;
[0049]
图神经网络训练模块,用于根据历史数据构建的图结构表示训练图神经网络,输出区域的空气质量指数;
[0050]
实时数据获取模块,用于获取最新时间段内所有监测站点的污染物浓度,并通过图结构组成模块构建最新时间段对应的第一图结构表示,将第一图结构输入训练好的图神经网络模型得到第一预测结果;
[0051]
贪婪搜索模块,用于根据贪婪最佳优先搜索算法对第一图结构表示进行搜索,得到第二图结构表示,并将第二图结构表示输入训练好的图神经网络模型得到第二预测结果;
[0052]
第一可视化模块,用于输出贪婪搜索模块的搜索结果,展现在显示屏上;
[0053]
第一判断模块,用于判断第二预测结果与第一预测结果是否接近,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回贪婪搜索模块继续搜索;
[0054]
排序模块,用于对重要监测站点图结构表示进行重要性排序;
[0055]
第二判断模块,用于通过验证算法验证重要性排序结果是否准确,若是,则输出重要性排序结果,否则通过排序模块更换排序方法进行排序;
[0056]
第二可视化模块,用于在显示屏上输出最终的重要性排序结果。
[0057]
本发明的有益效果:
[0058]
本发明提供了一种基于图神经网络的监测站点重要性评估方法及系统,首先通过监测站点的经纬度以及污染物浓度将离散的监测站点连接起来,构建目标区域内的图结构表示;采用贪婪最佳优先搜索算法在所有监测站点构成的图结构表示中搜索重要监测站点,同时改进shapley value并将其作为搜索算法的启发函数,重要监测站点的选择过程具有一定的可解释性,重要监测站点的搜索过程是人能够理解的;设计验证方法保证重要监测站点按重要性排序的结果的准确性;根据站点的重要性排序结果,可以区分站点是否重要,主要为监测站点的选址以及现有监测站点的拆除工作提供依据。
附图说明
[0059]
图1为本发明的基于图神经网络的的评估监测站点重要性系统的总流程图;
[0060]
图2为本发明的搜索重要监测站点的伪代码;
[0061]
图3为本发明的对重要监测站点按重要性排序的伪代码。
具体实施方式
[0062]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0063]
本发明提出了一种基于图神经网络的监测站点重要性评估方法及系统,旨在对机
器学习黑盒模型提供一定的可解释性,如图1所示,主要包括:根据监测站点的地理分布信息构建一个完整的图表示;结合监测站点的监测数据训练图神经网络模型,用该模型预测图表示中所有监测站点的空气质量指数级别;采用改进的shapley value作为贪婪最佳优先搜索算法的启发函数,从完整的图表示中获取一个子图,输出子图信息,即搜索到的重要监测站点;采用扰动方法获取子图中所有重要监测站点的重要性并排序;最后利用验证算法进行验证,并将结果可视化输出。后续可根据结果进行辅助监测站点的选址和拆除。
[0064]
在一实施例中,如图1所示,一种基于图神经网络的监测站点重要性评估方法的具体内容包括:
[0065]
s1.获取目标区域内每一个监测站点的相关数据,相关数据包括地理信息、不同历史时间段的污染物浓度;通过相关数据构建目标区域内所有监测站点不同历史时间段的的图结构表示;
[0066]
具体地,每一个监测站点所监测到的污染物浓度都会随时间发生变化,本发明可以采用一天作为一种时间段计算污染物浓度,也可以采用一小时作为一种时间段计算污染物浓度,采用相同的时间段进行计算。
[0067]
s2.将所有监测站点不同历史时间段的图结构作为输入,训练图神经网络模型,输出为目标区域的空气质量指数;
[0068]
具体地,空气质量指数(air quality index,aqi)有6个级别,故图神经网络模型的输出维度是6维,每一维度对应aqi各级别的概率,概率最大的为输出结果。
[0069]
s3.实时获取最新时间段内所有监测站点的污染物浓度,并构建最新时间段对应的第一图结构表示,将第一图结构输入训练好的图神经网络模型得到第一预测结果;
[0070]
s4.根据贪婪最佳优先搜索算法对最新时间段对应的第一图结构表示进行搜索,得到第二图结构表示;其中,采用改进的shapley value作为贪婪最佳优先搜索算法的启发函数;
[0071]
s5.将第二图结构表示输入训练好的图神经网络模型得到第二预测结果,判断第二预测结果与第一预测结果是否小于相似阈值,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回s4继续搜索;
[0072]
s6.构建重要性排序模块,所述重要性排序模块包括多种排序方法,首先通过扰动方法对重要监测站点图结构表示进行重要性排序;
[0073]
s7.设计验证算法验证重要性排序结果是否准确,若是,则输出重要性排序结果,否则通过重要性排序模块更换排序方法进行排序。
[0074]
具体地,采用扰动方法进行排序时,由于数据本身的原因(比如说第一图结构中的节点数太少了,扰动后得到的数据比较少)导致这种方法不适应。故设置有包括多种网络节点重要性排序方式的重要性排序模块,其中包括基于局部属性、基于全局属性、基于网络位置属性指标和基于随机游走的节点重要性排序。
[0075]
具体地,在步骤s1中通过监测站点的位置信息,以及不同历史时间段的污染物浓度信息构建不同历史时间段的图结构表示,任一历史时间段的图结构表示的生成过程为:
[0076]
s11.获取目标区域内每一个监测站点的经纬度信息,计算每两个监测站点间的距离,计算公式表示为:
[0077][0078]
a=lat
m-latn[0079]
b=lung
m-lungn[0080]
其中,d表示监测站点m和监测站点n间的距离,a表示监测站点m和监测站点n的经度差值,b表示监测站点m和监测站点n的纬度差值,r表示地球半径,latm表示监测站点m的纬度,latn表示监测站点n的纬度,lungm表示监测站点m的经度,lungn表示监测站点n的经度;m,n∈n,n表示目标区域内的监测站点总数;
[0081]
s12.选取目标区域内的任一监测站点作为第一监测站点;
[0082]
s13.将第一监测站点与其余监测站点间的距离按照从小到大的顺序排序,选择前k个监测站点与第一监测站点进行加边操作;若监测站点间存在边则不用重复添加;
[0083]
s14.判断是否还有监测站点没有做过第一监测站点,若是,则将该监测站点作为第一监测站点返回步骤s13,若不是,则得到所有监测站点组成的图结构表示;
[0084]
s15.在历史时间段u的图结构表示中,每一个节点表示一个监测站点,并采用该监测站点在历史时间段u的污染物浓度作为节点特征,边的特征向量表示成[距离,经度1,纬度1,经度2,纬度2],可以保留站点之间的距离和位置信息。
[0085]
具体地,如图2所示,采用改进的shapley value作为贪婪最佳优先搜索算法的启发函数搜索重要监测站点,过程包括:
[0086]
s21.初始化最新时间段内的第二图结构表示
[0087]
s22.根据启发函数在最新时间段内的第一图结构表示中搜索重要监测站点并加入第二图结构表示中;
[0088]
具体地,表示为:
[0089][0090][0091]
表示启发函数值最大的节点,表示的邻居节点集合;
[0092]
s23.将第二图结构表示输入训练好的图神经网络模型得到第二预测结果,判断第二预测结果与第一图结构表示输入训练好的图神经网络模型得到第一预测结果是否接近,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回s22继续搜索;
[0093]
判断第二预测结果与第一预测结果是否接近的公式为:
[0094][0095]
其中,表示第一预测结果,表示目标区域内所有监测站点在最新时间段的第一图结构表示,表示第二预测结果,η表示控制和在f()中的相似程度,是一个超参数。
[0096]
具体地,改进的shapley value表示为:
[0097][0098][0099][0100][0101]
其中,表示在f()中对输出的贡献,表示一个随机图结构,s
t
表示从节点集合中随机选取的节点子集,f()表示图神经网络模型,λ
t
表示修正后的系数,p表示目标区域内所有监测站点的集合,表示中节点的集合,t表示随机采样次数,λ
t
表示节点子集s
t
的权重,λ0表示1与随机t个节点子集的权重和的差值,|s
t
|表示节点子集s
t
中的节点个数,|p|表示目标区域内所有监测站点的数目。
[0102]
原始的shapley value的时间复杂度级别为2n,是指数级别的;而本实施例中改进后的shapley value的时间复杂度是和采样次数t相关的,这个t是人为设置的,当图的节点数n很小的时候,可以使得t等于2n,当节点数很大的时候,此时人为设置的t远远小于2n;这样可以使得准确度保持在一个合理的范围。总的来说,就是在时间复杂度和准确度上做了个权衡。
[0103]
在一实施例中,如图3所示,步骤s6通过扰动方法对重要监测站点图结构表示进行重要性排序,包括:
[0104]
s31.设置迭代阈值q,令迭代次数为q=1;
[0105]
s32.在第一图结构表示中随机选取m个监测站点进行掩膜,即在第一图结构表示中将这m个监测站点对应的节点特征表示为0;
[0106]
s33.采用贪婪最佳优先搜索算法对s32得到的结果进行搜索,得到掩膜重要监测站点图结构
[0107]
s33.判断是否满足q≤q,若是,则q=q+1并返回步骤s32;否则迭代结束,得到扰动集合记录重要监测站点图结构表示中每一个站点在扰动集合中的出现次数,按照出现次数由高到低进行排列,得到重要监测站点的重要性排序。
[0108]
在一实施例中,步骤s7的验证过程包括:
[0109]
s41.根据重要性排序结果,选取前n个监测站点和后n个监测站点分别对重要监测站点图结构表示进行掩膜,得到第一掩膜图和第二掩膜图;
[0110]
s42.将第一掩膜图和第二掩膜图输入训练好的图神经网络模型中,得到第一预测值和第二预测值;
[0111]
s43.若第一差值大于第二差值,则输出重要性排序结果,否则,更换排序方法进行
排序。
[0112]
在一实施例中,一种基于图神经网络的监测站点重要性评估系统,包括历史数据存储模块、图结构组成模块、图神经网络训练模块、实时数据获取模块、贪婪搜索模块、第一可视化模块、第一判断模块、排序模块、第二判断模块和第二可视化模块,其中:
[0113]
历史数据存储模块,用于存储区域内所有监测站点的历史时间段的污染物浓度数据,以及各监测站点的地理信息;
[0114]
图结构组成模块,用于通过监测站点的地理信息和污染物浓度数据构建图结构表示;
[0115]
图神经网络训练模块,用于根据历史数据构建的图结构表示训练图神经网络,输出区域的空气质量指数;
[0116]
实时数据获取模块,用于获取最新时间段内所有监测站点的污染物浓度,并通过图结构组成模块构建最新时间段对应的第一图结构表示,将第一图结构输入训练好的图神经网络模型得到第一预测结果;
[0117]
贪婪搜索模块,用于根据贪婪最佳优先搜索算法对第一图结构表示进行搜索,得到第二图结构表示,并将第二图结构表示输入训练好的图神经网络模型得到第二预测结果;
[0118]
第一可视化模块,用于输出贪婪搜索模块的搜索结果,展现在显示屏上;
[0119]
第一判断模块,用于判断第二预测结果与第一预测结果是否接近,若是,则该第二图结构表示作为重要监测站点图结构表示输出,若不是,则返回贪婪搜索模块继续搜索;
[0120]
排序模块,用于对重要监测站点图结构表示进行重要性排序;
[0121]
第二判断模块,用于通过验证算法验证重要性排序结果是否准确,若是,则输出重要性排序结果,否则通过排序模块更换排序方法进行排序;
[0122]
第二可视化模块,用于在显示屏上输出最终的重要性排序结果。
[0123]
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0124]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1