一种基于图卷积网络的多站点预测方法与流程

文档序号:23655394发布日期:2021-01-15 13:52阅读:256来源:国知局
一种基于图卷积网络的多站点预测方法与流程

本发明属于机器学习技术领域,尤其涉及到基于图卷积网络等相关深度学习技术进行多站点的大气能见度预测任务。



背景技术:

大气能见度与人们的日常生活息息相关,它的好坏可以在一定程度上反映一个地区大气环境质量的高低。近年来大气能见度下降、空气质量变差,较多城市常伴有雾霾天气,对人们的生活和工作都产生了较大的负面影响,因此空气质量问题受到了政府和人们的高度关注。对于多站点大气能见度的精确预测能够保证交通安全,尤其对低能见度天气信息的预测可以使人们有针对性地控制和预防空气污染事件的发生、减少污染天气造成的各种损失,这对于交通运营管理部门、广大出行市民和保持良好的空气环境都具有积极的意义。此外,近年来随着数据收集和存储成本的下降以及机器学习技术的快速发展,大部分地区的各类气象数据都可以被精确地观测以及存储,这为气象领域的科学研究提供了丰富的数据和算法研究的基础。

神经网络自2012年以来迅猛发展,其中深度学习技术在计算机视觉和自然语言处理两个研究领域内的研究成果取得多项突破。对比传统方法在进行图片分类任务时需要人工手动提取特征,然后将特征输入分类器最终得到分类结果的这一系列步骤,深度学习技术(如卷积神经网络)可以达到直接将图片按照固定的编码格式输入模型,最终直接输出该图片所属的预测标签。这样可以将特征提取和分类这两个步骤合二为一,同时避免了人工提取特征这种繁琐的操作,后者是一种端到端(end-to-end)的学习,相较于传统方法可以学习到更高纬度的特征与模式,并且在提升准确度的同时降低了人工耗时。

卷积神经网络适用的数据类型比较有限,它要求输入数据必须限制在欧式域内。而欧式数据最显著的特征就这类数据具有规则的空间结构,例如图像是规整的正方形栅格,语音是规则的一维序列数据,并且这些数据可以用矩阵表示。而在现实情况中,比如电子交易、脑信号、推荐系统以及本研究中的多站点的大气能见度预测问题,其中的数据大多都不具备规则的空间结构,称之为非欧数据。在这些数据结构中每个节点连接都不尽相同,也就是说每个节点的度都可能不同。为了将卷积操作移植到这种非欧数据上来,出现了图卷积网络(graphconvolutionnetwork,gcn),一般地,图卷积网络都有如下三个步骤,一是发射,即每一个节点会将自己的特征信息经过变换之后发射给邻接节点,这可以达到对每个节点的特征信息进行抽取变换的目的,第二步是接受,每个节点将邻接节点的特征信息聚集起来,从而对节点的局部结构信息进行融合,最后一个步骤是变换,也就是把之前的信息聚集起来然后进行非线性变换,达到增加模型的表达能力的目的。此外gcn模型也同样具备深度学习的三种性质,分别是层级结构(特征一层一层抽取,一层比一层更为抽象和高级),非线性变换(增加模型的表达能力)以及端对端训练,也就是不需要再去定义任何规则,只需要给图的节点一个标记,便可让模型自己学习,融合特征信息和结构信息。当然,gcn也具有卷积神经网络的共有性质,其一为局部参数共享,二是感受域正比于层数,在开始第一层计算的时候,每个节点包含了各自直属邻接节点的信息,在计算第二层时就能把二阶邻居的信息也包含进来,这样参与运算的信息就更多更充分,也就是说层数越多,感受域越广,参与运算的信息也就更多。



技术实现要素:

本发明要解决的技术问题是,提供一种基于图卷积网络的多站点预测方法,使用到的数据集为16个站点大气能见度相关数据。

本发明采用的技术方案为一种基于图卷积网络的多站点预测方法,该方法包括以下步骤:

步骤1、获取相关大气能见度数据,包括2018年至2019年北京市16个城区小时级别的体感温度、温度、风力、湿度、降水量、大气压强和大气能见度七个特征。用于收集能见度数据的设备是前向散射能见度计,其型号为dnq1,安装地点覆盖北京市16个市区,包括怀柔区、密云区、延庆区、昌平区、顺义区、平谷区、门头沟区、房山区、大兴区、通州区、石景山区、丰台区、海淀区、东城区、西城区和朝阳区。测量的纬度和经度范围是115.7°e-117.4°e,39.4°n-41.6°n。再数据获取之后对这些数据进行清洗。

步骤2、针对步骤一中收集到的大气能见度数据中的数据缺失、不平滑等情况对数据进行预处理。

步骤3、基于图卷积网络的预测模型,利用进行预处理步骤后的实验数据构建训练集和测试集,在实验过程中利用梯度下降进行超参数的优化进而得到预测模型的最优解。

步骤4、对照实验使用相同配置进行预测,最终对比结果。

作为优选,步骤2具体包括以下步骤:

步骤2.1、针对数据中的缺失值,利用前后时刻平均值填充来进行补全;

步骤2.2、针对不平稳的时间序列,通过一阶差分处理的方法转化成平稳序列;

步骤2.3、基于16个气象站点所在位置,通过两两气象站点之间的地理位置距离构建气象站点的邻接矩阵,作为图卷积网络的另一个输入数据;

作为优选,步骤3具体包括以下步骤:

步骤3.1、根据数据划分方法将初始数据集分为训练集,验证集和测试集,比例分别为60%、20%和20%。训练集用于训练模型的参数,然后在每一轮迭代后使用验证集测试当前模型的准确性;

步骤3.2、模型由两个时空卷积模块组成,每个时空卷积模块由两个时间卷积层和一个空间卷积层构成,通过在时间维度和空间维度分别对输入数据进行卷积操作来提取时间和空间特征,达到更精准预测的目的,另外通过加入注意力机制来实现为输入数据赋予不同权重的目的;

步骤3.3、定义损失函数,使用平均绝对误差mae损失函数和随机梯度下降的adam版本,此外分别设置12小时作为历史时间步长,3、6、9、12小时为预测时间步长,即用过去12个小时的能见度数据预测未来3、6、9、12小时的大气能见度;

步骤3.4、该模型将适用于批量大小为128的512个训练时期,然后训练模型,不断调整超参数,得到模型最优解;

作为优选,步骤4具体包括以下步骤:

步骤4.1、对照实验模型使用基于seq2seq结构的模型,分别为编码器和解码器均为lstm的seq2seq-lstm、编码器和解码器均为lstm且添加注意力机制的seq2seq-lstm-am、编码器和解码器均为gru的seq2seq-gru和编码器和解码器均为gru且添加了注意力机制的seq2seq-gru-am;

步骤4.2,利用对照实验模型执行相同参数配置的能见度预测,得出结果并进行误差衡量,其中衡量指标选取了mae、mse和rmse,通过图4-图7的实验结果可以看出相比较于seq2seq模型对每一个站点分别进行建模预测来说,本发明中的模型无论是在时间还是准确性上,都有一定程度的提升。

与现有技术相对,本发明具有以下明显优势:

本发明基于图卷积网络进行改进,利用图卷积处理非欧数据的优势,提出了在空间和时间维度的特征提取工作,之后引入注意力机制来提升模型效果的原因。通过实验准确性对比结果可以得出,本发明提出的方法在多站点大气能见度预测上相较于其他模型有一定的提升。

附图说明:

图1为本发明模型中的时间卷积层的结构;

图2为本发明模型中时空卷积层的示意图;

图3为本发明涉及方法的流程图;

图4-图7为本发明的实验结果对比。

具体实施方式

以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明所用到的硬件设备有pc机1台、1080显卡2个;

如图3所示,本发明提供一种基于图卷积网络的多站点预测方法,具体包括以下步骤:

步骤1,获取相关时间序列数据,并对这些数据进行清洗。

步骤2,针对数据缺失、不平滑等情况对数据进行预处理。

步骤2.1,针对数据中的缺失值,利用前后时刻平均值填充来进行补全。

步骤2.2,针对不平稳的时间序列,通过一阶差分处理的方法将其转化成平稳序列。

步骤2.3,基于16个气象站点所在位置,通过距离构建了气象站点的邻接矩阵。

步骤3,模型搭建,构建训练集和测试集,参数优化得到预测模型的最优解。

步骤3.1,根据广泛使用的常规数据划分方法将初始数据集分为训练集,验证集和测试集,比例分别为60%、20%和20%。训练集用于训练模型的参数,然后在每一轮迭代后使用验证集测试当前模型的准确性。

步骤3.2,定义模型,由两个时空卷积模块组成,每个时空卷积模块由两个时间卷积层和一个空间卷积层构成,此外还加入了注意力机制来实现为输入数据赋予不同权重的目的。

步骤3.3,定义损失函数,使用平均绝对误差(mae)损失函数和随机梯度下降的高效adam版本,此外分别设置了12小时作为历史时间步长,3、6、9、12小时为预测时间步长,即用过去12个小时的能见度数据预测未来3、6、9、12小时的大气能见度。

步骤3.4,该模型将适用于批量大小为128的512个训练时期,然后训练模型,不断调整超参数,得到模型最优解。

步骤4,对照实验使用相同配置进行预测,最终对比结果。

步骤4.1,对照实验模型主要使用了基于seq2seq结构的模型,分别为编码器和解码器均为lstm的seq2seq-lstm、编码器和解码器均为lstm且添加了注意力机制的seq2seq-lstm-am、编码器和解码器均为gru的seq2seq-gru和编码器和解码器均为gru且添加了注意力机制的seq2seq-gru-am。

步骤4.2,步骤4.2,利用对照实验模型执行相同参数配置的能见度预测,得出结果并进行误差衡量,其中衡量指标选取了mae、mse和rmse,通过图4-图7的实验结果可以看出相比较于seq2seq模型对每一个站点分别进行建模预测来说,本发明中的模型无论是在时间还是准确性上,都有一定程度的提升。

气象站点本质上是一个图结构,每个结点的特征可以看作是图上的信号。因此,为了充分利用网络的拓扑特性,在每个时间片上采用基于谱图理论的图卷积来直接处理信号,在空间维度上挖掘网络上的信号相关性。谱方法将图转换为代数形式,分析图的拓扑属性,比如图中的连通性。在谱图分析中,图可以由该图对应的拉普拉斯矩阵表示,图结构的性质可以通过拉普拉斯矩阵及其特征值的分析获取。gcn则是使用了傅里叶域中对角化的线性算子来代替经典卷积算子的卷积运算,并在此基础上利用核gθ对图g上的信号x进行滤波操作,如下式所示:

gθ*gx=gθ(l)x=gθ(u∧ut)x=∪gθ(∧)utx

其中*g代表图卷积操作,由于图形信号的卷积运算等于这些信号的乘积,这些信号已通过图形傅里叶变换转换到频谱域中,所以上述的公式也可以被理解成分别将gθ和x进行傅里叶变换,然后将变换结果相乘,然后将它们进行傅里叶逆变换,便可获得卷积运算的最终结果。但是当图中的点较多,数据较大时,直接在拉普拉斯矩阵上执行特征分解是很耗时的。因此本发明采用切比雪夫(chebyshev)多项式来近似且有效地解决此问题,如下式所示:

其中是多项式系数的向量,的公式如(5-3)所示:

其中λmax是拉普拉斯矩阵的最大特征值,而切比雪夫多项式的递归定义见式(5-4):

tk(x)=2xtk-1(x)-tk-2(x)

其中t0(x)=1,t1(x)=x。使用切比雪夫多项式的近似展开来求解该公式相当于通过卷积核gθ提取图中每个节点附近距离从0到(k-1)th范围的邻居信息,最后使用relu作为最终的激活函数。

在时间特征提取方面,一些基于rnn的模型的时间序列分析研究中变得很普遍,但用于多站点大气能见度的循环网络模型需要很长的时间迭代,其中复杂的门机制在针对站点数量动态变换时不能很好地做出及时调整,甚至需要重新训练模型。相反,图卷积网络模型具有一定的优越性,可以简化其中一部分工作,并且对先前的步骤没有依赖性,本发明采用在时间轴上利用卷积结构来捕获时间动态特征,这种特定的设计可以通过多层卷积结构形成分层表示来实现并行训练,缩短了模型的训练时长。如图1所示,时间卷积曾包含一个1-d,宽度为kt的因果卷积单元,之后连接上一个门控线性单元glu提供非线性变换。对于图中的每一个节点,时间卷积层对输入元素在时间轴上的kt个邻居进行卷积操作以获取时间特征。至此已经介绍完毕如何使用gcn来提取图中节点的空间特征和时间特征,最后将这两个模块拼接形成一个时空卷积层,如图2所示,便可进一步提取图中节点之间的时空相关性,在模型的最后添加一个全连接层以确保最终的输出与预测目标具有相同的尺寸和形状。

此外,为了获取气象站点网络上动态的时间、空间相关性,本文又引入了空间注意力机制和时间注意力机制来解决此问题。在空间维度上,不同位置的气象站点之间相互影响,并且这种影响是动态变换的,为此使用了注意力机制来自适应地学习空间维度上节点之间地动态相关性,其公式如下所示:

其中是第γth个时空卷积模块的输入,cr-1是第γth层的输入数据的通道数。vs,bb,是需要进行学习的参数,σ是sigmoid函数,用来作为其中的激活函数。进而根据每层中的不同输入动态地更新注意力矩阵s,其中si,j的值表示i节点和j节点在语义上的相关程度,然后再使用softmax函数确保节点之间的注意力权重总和为1。在进行图卷积的过程中,将利用邻接矩阵a与空间注意力矩阵一起动态调整节点之间的影响权重。

在时间维度上,不同时刻的大气能见度之间也存在一定的相关性,并且相关性在不同情况下也有所不同,同样地,使用注意力机制来适应性地赋予不同数据不同的重要性,见如下公式:

其中ve,是可学习的参数,时间注意力矩阵e由变化的输入确定,e中的元素ei,j表示了在时间上i时刻和j时刻之间的依存关系强度,最后使用softmax函数将e归一化。直接将归一化地时间注意力矩阵应用于输入然后获得:

通过合并相关的信息来动态调整输入。之后通过合并时间注意力模块和空间注意力模块,时空卷积模块便可以自动对有价值的信息赋予更高的关注度。

上述介绍了本发明提出的模型结构,主要利用时空卷积层来完成多站点大气能见度数据中的空间特征和时间特征,其中每一个时空卷积层又包含了两个时间卷积层和一个空间卷积层,以此让模型学习到数据中的时间特性和空间特性,此外在这个过程中引入了注意力机制使模型对于输入数据中更重要的信息赋予更高的权重,达到提高模型准确率的效果。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1