一种基于因果Transformer的网络化数据预测方法

文档序号：35497543发布日期：2023-09-20 00:05阅读：142来源：国知局

本发明涉及一种基于因果transformer的网络化数据预测方法，特别是预测复杂工程系统的耦合时间序列。

背景技术：

1、复杂工程系统的时间序列预测在各种现实世界的场景中起着至关重要的作用，如交通预测、电力支配、供应链管理和金融投资。如果事件或指标的未来演变可以被准确估计，它可以帮助人们做出重要决策。例如，如果提前预测到有严重的交通堵塞，交通管理部门就能更合理地引导车辆，提高公路网的运行效率。

2、在实际问题中，复杂系统往往表现为多变量动态演化过程，具有信息的不完备与不确定性等，因此难以建立起准确的解析形式的数学模型，常常依赖于通过观测所获得的时间序列进行分析。统计学领域中，分析由这些复杂系统生成的时间序列是一种重要的动态数据处理方法。当检测单元较少时，利用经典统计学方法预测耦合时间序列是可行的。移动平均自回归(arima)及其变体是时间序列分析经典方法之一。然而，这种类型的模型受到时间序列的平稳假设的限制，未能将时空相关性考虑在内。因此，这些方法对高维时间序列数据的处理具有限制。随着机器学习在其他领域的应用，相关模型也逐渐被应用于复杂工程系统耦合时间序列的预测，这些模型可以实现更高的预测准确性和更复杂的数据建模，如k-近邻算法(knn)、支持向量机(svm)和神经网络(nn)。其中，神经网络方法已被广泛成功地应用于各种耦合时间序列预测任务。相关工作已经取得了重大进展，例如深度置信网络(dbn)、堆叠式自编码器(sae)等。但这些网络很难从数据中联合提取空间和时间特征，它们的能力受到了严重的限制。为了充分利用空间特征，一些模型使用卷积神经网络(cnn)来捕捉网络中的相邻关系，同时在时间轴上采用了循环神经网络(rnn)方法。例如，用于短期交通预测的特征级融合架构cltfp，就是通过结合长短期记忆(lstm)网络和一维cnn提出的。之后，提出的fc-lstm模型加入了窥探机制，让原先输入的时间序列向量换成矩阵，以表示空间上的连接关系，然而，所应用的普通卷积操作限制了该模型只能处理诸如图像、视频的网格结构而不是一般的领域。同时，用于序列学习的递归网络需要迭代训练，这就引入了按步骤累积的错误。为了更好地捕捉非欧式空间网络的信息，时空预测方法引入了图神经网络(gnn)。例如基于图卷积神经网络(gcn)的stgcn，将空间特征提取和时间特征提取分开封装为s模块与t模块，每个卷积块包含两个门控顺序卷积层和一个空间图卷积层，通过串联st块增加模型深度，用于时空网络速度预测。在此基础上，人们提出了各种网络时空预测模型，基于时空特征提取的网络时空预测方法已成为主流方法。如使用注意力机制来捕捉时间和空间的动态的astgcn模型；将修改过的gat与lstm相结合的gaan模型；使用因果卷积、门控机制已经残差块进行时间序列数据处理的graphwavenet模型；使用多注意机制来提取交通流的时空信息的gman模型。基于时空特征提取的模型在预测方面取得了突出的成果。然而，仍有一些问题有待解决。现有模型的主要缺点是，空间特征的提取大多集中在对相邻节点信息的提取上，这就造成了全局特征提取的不足。同时，在时间序列信息的提取方面，rnn或cnn方法无法从数据中提取长期依赖性，导致目前的交通流预测模型的长期预测性能较差。

3、因此，本发明中提出了基于因果的时空网络模型来进行复杂系统耦合时间序列的预测。根据上述分析，单纯的距离网络不能很好地提取网络的全局特征。所以，可以基于多维数据构建因果网络。在因果网络中，每个节点的父节点，即影响该节点产生变化的节点，将是该节点的一阶邻居。由此，可以通过gcn提取因果关系特征。将因果关系特征结合时间维度以及距离网络的特征，本发明可以有效地获取复杂工程系统耦合时间序列的时空信息并获得较好的预测效果。

技术实现思路

1、技术问题：本发明的目的是提供一种基于因果transformer的网络化数据预测方法。以交通流为例，本发明在观测到不同位置测速仪检测的车辆速度时间序列数据的基础上，采用基于因果关系熵的因果推理方法初步构建因果网络，并通过互信息估计方法计算因果熵，得到网络边权重。之后利用测速仪的经纬度坐标构造距离网络。网络构建完成后，本发明将因果网络、距离网络以及时间序列输入transformer卷积时空块提取特征后解码输出得到预测结果。其中，每个时空块包含一个残差transformer时间模块和一个可以总结因果网络和距离网络信息的残差空间卷积模块。本发明提取时空数据的多维信息用于预测，所提出的模型具有良好的预测效果。

2、技术方案：为实现上述目的，本发明涉及一种基于因果transformer的网络化数据预测方法采用的技术方案为：所述方法包括以下步骤：

3、步骤1：网络构建；

4、步骤2：建立时空transformer卷积模型。

5、其中网络构建包括因果网络的构建以及距离网络的构建。

6、步骤11：因果网络构建阶段，该阶段包括两步：

7、(1)在观测到的时间序列数据上采用基于因果关系熵的因果推理方法构建因果网络，对于事件x，与之相关的不确定性和复杂性可以通过香农熵来量化，事件x的熵h(x)的计算公式为：

8、

9、其中，p(x)是一个事件x的采取特定值x的概率。对于两个事件x和y信息之间的关系，可以通过联合熵h(x，y)和条件熵h(x|y)，h(y|x)表征，其定义为：

10、

11、

12、

13、其中，p(x，y)是x＝x，y＝y的联合概率，p(x|y)，p(y|x)是x＝x，y＝y的条件概率。而事件x的信息可以细分为只属于x的信息以及x和y的共享信息，互信息i(x；y)可以描述事件x和y之间的共享信息，当两者关系越密切时，互信息越大，互信息i(x；y)的定义为：

14、i(x；y)≡h(x)-h(x|y)。

15、此时，若存在第三个事件z作为发生条件时，事件x，y的条件互信息i(x；y|z)为：

16、i(x；y|z)≡h(y|z)-h(y|x，z)。

17、然而互信息只能反映事件之间的关系，为了衡量两个事件之间信息流的方向性，可以引入转移熵tx→y，转移熵tx→y的定义为：

18、tx→y≡i(x(t)；y(t+τ)|y(t))，

19、其中，τ为延迟时间。由于复杂工程系统不可避免地包含两个以上的节点，如果没有适当的条件，转移熵就不能区分网络中的直接和间接因果关系。而因果关系熵cy→x|z可以克服转移熵的成对限制，因果关系熵cy→x|z的定义为：

20、cy→x|z≡i(y(t)；x(t+τ)|z(t))＝h(x(t+τ)|z(t))-h(x(t+τ)|z(t)，y(t))，

21、这一指标可以反映在给定的条件z(t)且明确x(t+τ)的信息和方向时，y(t)能提供的信息量。因此，通过确定延迟时间τ，可以得到两个节点时间序列之间信息流的方向。以交通系统为例，可以根据测速仪获得的车辆速度时间序列，构建因果网络。本发明将每个测速仪视为一个节点，组成节点集v，节点数为n，即|v|＝n。当两个节点的因果熵大于0时，将两个节点的连边加入边集ec中，矩阵wc∈rn×n为以因果熵为权值的矩阵。则其因果网络图可表示为gc＝(v，ec，wc)。

22、对任一节点x∈v，所有方向指向它且因果熵大于0的节点被称之为因果父母，根据最优因果熵原则，x的因果父母集是使集合中因果熵最大化的最小节点集nx。

23、最优因果熵算法可以分成聚合阶段与删除阶段。

24、·聚合阶段：对于节点集v＝{x，y1，y2，…，yn-1}＝{x，y}，记节点集v中除去节点x的节点集为y＝{y1，y2，…，yn-1}，节点x的因果父母集为z。算法初始阶段z为空集。如果

25、

26、则将节点yi添加到z中，即z＝z∪yi。换而言之，yi为当前属于y且不属于z的节点集中因果熵最大的节点，而且该因果熵大于0。当y中找不到这样的节点时，聚合阶段结束。

27、·删除阶段：聚合阶段所得的z可能是与x直接交流的超集。因此，对于z中成员zi，如果

28、

29、则将zi从z中删除，当遍历z中所有成员后，留在z中的节点就是x的直接因果父母，删除阶段结束。此时nx＝z。

30、·对于v中每个节点进行最优因果熵算法，可以得到两两节点之间的因果关系ec，初步构造因果网络。

31、(2)计算因果熵。因果熵等价于互信息。因此，本发明通过一种基于k邻近算法的互信息估计方法来估计两个事件x，y的互信息：

32、i(x；y)＝ψ(k)+ψ(n)-<ψ(nx+1)+ψ(ny+1)>，

33、其中<>表示所有样本的平均值，k表示为近邻点个数，是一个digamma函数n表示样本大小，nx，ny分别表示x，y方向满足k邻近算法的个数。即对于固定的k值，设联合空间中的数据点wi＝(xi，yi)到其第k个最近邻的距离为∈(i)，nx，ny分别为xj，yj(j≠i)中满足||xj-xi||x＜∈(i)，||yj-yi||y＜∈(i)的点数。在本发明中，当范数内为标量相减时，范数的值与标量之差的绝对值相同。

34、当考虑n个独立样本{s1，s2，…，sn}的联合随机变量s＝(x，y，z)，其中si＝(xi，yi，zi)。i(x；y|z)的估计由以下公式给出：

35、i(x；y|z)＝ψ(k)-<ψ(nxz+1)+ψ(nyz+1)-ψ(nz+1)>。

36、ψ(k)同样为digamma函数。对于固定的k值，设联合空间中的数据点si到其第k个最近邻的距离为∈(i)。距离度量使用最大范数，即||si-sj||xyz＝max{||xi-xj||x，||yi-yj||y，||zi-zj||z}。基于此，更确切地说：

37、nxz(i)表示(xj，zj)(j≠i)中满足||(xj，zj)-(xi，zi)||xz＜∈(i)的点数；

38、nyz(i)表示(yj，zj)(j≠i)中满足||(yj，zj)-(yi，zi)||yz＜∈(i)的点数；

39、nz(i)表示zj(j≠i)中满足||zj-zi||z＜∈(i)的点数。

40、经过以上过程，wc被成功估计，进而构建了完整的因果网络gc＝(v，ec，wc)。

41、步骤12：距离网络构建阶段。距离网络可表示为gd＝(v，ed，wd)，其中ed，wd分别距离网络的边集以及邻接矩阵，邻接矩阵wd是基于节点之间距离生成的，wd第i行第j列元素表示如下：

42、

43、其中dij为第i个节点与第j个节点的距离，该距离可以通过python中的haversine工具带入节点经纬度计算得到，σ2是距离的假定方差，ε是权重的阈值。本发明设定ε为0.5，σ2为10。类似于因果网络的定义，距离网络的邻接矩阵wd中的元素大于0代表该位置存在连边。经过步骤二，距离网络gd＝(v，ed，wd)被成功构建。步骤2：建立时空transformer卷积模型。

44、时空模型建立，该阶段包括三步：

45、步骤21：数据预处理。人工选择一个滑动窗口来确定输入维度，即选择n个节点的个时间步长的耦合信息流数据作为模型输入。输入维度的限制是为了避免输入的时间数据长度过长导致维度过高的神经网络运行过慢。

46、步骤22：transformer卷积时空块。每个时空块包含一个可以提取时间维度信息的残差transformer模块和一个可以总结因果网络和距离网络信息的残差多图卷积模块。

47、(1)时间模块。本发明在时间轴上采用informer模型结构来捕捉数据的时间动态行为。

48、1.1informer模型包括编码器和解码器两部分。以第l个时空块为例，记模块输入为在编码器部分，将输入向量映射为其中，包含了输入线性映射后的向量、内元素的局部位置编码以及内元素在整个时间轴的全局位置编码。这使得不仅包含局部时序信息还具有层次时序信息，如星期、月和年等，以及突发时间戳信息(事件或某些节假日等)。在向量映射之后，数据经过多个注意力块，每个块都包含多头概率稀疏自注意力。每个块的输出通过自注意力蒸馏提取相关的注意力信息，其中使用了一维卷积层conv1d、elu激活层和最大池化maxpool。该过程由从第j层到第(j+1)层的公式定义为：

49、

50、第j层输入经过注意力块[·]ab后，通过自注意力蒸馏提取对具有主导注意力的优势特征赋予更高权重。具体操作为首先选择长度为kc的卷积核，在时间轴两端进行循环填充，使用conv1d在序列的时间维度上进行一维卷积，其中输入和输出的维度一致。接着数据通过激活函数elu，记输入为xelu，则elu的表达式为：

51、

52、最后，经过激活函数的数据在时间维度进行最大池化maxpool操作提取出指定窗口的最大数据，显著减少了特征张量的大小。记输入的时间维度大小为lin，则经过最大池化后，特征张量的时间维度lout为：

53、

54、1.2informer的解码器需要以的形式作为输入：

55、

56、包含起始令牌序列，时间维度长度为ltoken，构成目标序列的占位符，时间维度长度为同时也是在时间维度长度。的标量值是零填充的，它包含了目标序列的时间戳。本发明从输入序列中采样一个特定大小的序列作为起始令牌，例如来自前一个小时的交通流量数据。序列通过掩码多头概率稀疏自注意层，并与编码器的输出组合。然后，通过多头注意力传递。上述过程重复进行，直到通过全连接层得到输出其在最终输出中的位置与输入时的相对应。

57、(2)空间模块。

58、2.1由于交通系统距离网络与因果网络属于非欧几里德网络，所以本发明采用图神经网络的谱域方法提取非欧几里得结构数据的特征。第l个空间模块的输入包括第l个时间模块输出距离网络gd＝(v，ed，wd)和因果网络gc＝(v，ec，wc)。为了方便表述，将距离网络与因果网络统称为网络g。记网络g邻接矩阵为w∈rn×n。本发明使用了图拉普拉斯一阶近似的图卷积网络，时间模块的输出经过图卷积后可得到卷积输出卷积过程可以描述为：

59、

60、其中，θ为卷积核的参数，为w重新规范化的结果，in为n阶单位矩阵。为的度矩阵，的对角线元素可以表示为的非对角元素全部为0。

61、此外，本发明在堆叠图卷积层时实现了残差连接。并且为了汇总因果网络和距离网络的信息，使用了多个图卷积。记第l个时间模块的输出为分别对在gd和gc卷积，整合提取特征得到

62、

63、将在gd和gc卷积输出串联，表示第l个空间模块的输出，regcn表示残差图卷积操作，将的图卷积输出与的线性变换fc1输出相加，即此外，下标c表示图卷积使用因果网络，下标d表示图卷积使用距离网络。

64、2.2为了保证时空块不改变数据维数，将空间模块的输出线性变换(fc2)得到第l个时空块的输出公式如下：

65、

66、本发明通过堆叠时空块增加模型深度，所以第l个时空块的输出同时可以作为第l+1个时空块的输入。

67、步骤23：输出层。

68、通过输出层解码得到预测结果。通过多个时空块对于特征的提取，对提取的信息进行解码，即线性变换fc3，使输出的维度为预测的时间步数，记第l-1个时空块输出为最终提取特征，输出ypred∈rn×k为预测结果，则输出层的解码过程如下：

69、

70、有益效果：

71、1、本发明利用数据驱动的方法，将因果网络与时空特征提取方法结合，构建了可以总结因果网络和距离网络信息的残差多图卷积网络空间卷积模块。解决了以往方法空间特征的提取大多集中在对相邻节点信息提取的问题，可以很好地提取网络的全局特征；

72、2、本发明利用informer提取时间维度信息，相比于rnn模型，突破了模型不能并行计算的限制；相比cnn，计算两个位置之间的关联所需的操作次数不随距离增长；相比于传统transformer，提高了长时预测问题的能力，充分发挥了捕捉长序列时间序列输出和输入之间的个体长程依赖性方面的潜在价值；

73、3、本发明在加州第7区的交通流量数据集pemsd7(m)上取得了出色的预测性能。相比于其他广泛使用的时空预测模型，在预测中有较好的提升。本发明选择了以下几种的基准模型进行对比，包括历史平均值(ha),线性支持向量回归(lsvr),前馈神经网络(fnn),全连接长短期记忆人工神经网络(fc-lstm)，时空图卷积网络(stgcn)，扩散卷积递归神经网络(dcrnn)，图波形生成网络(graphwavenet)。预测效果对比表如下：

74、

75、本发明采用了广泛使用的预测评价指标：平均绝对值误差(mae)、平均绝对百分比误差(mape)和均方根误差(rmse)进行效果对比。这三项指数越小代表模型的效果越好，从上表可以看出，本发明在15分钟、30分钟、60分钟的预测中，都优于其他基准模型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈都鑫程钰鑫虞文武
技术所有人：东南大学
我是此专利的发明人

上一篇：基于区块链的分布式数字身份可靠管理方法及系统与流程
上一篇：一种可偏转的折叠支架的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。