一种基于多模态深度学习模型的列车延误预测方法

文档序号:28428009发布日期:2022-01-12 00:38阅读:151来源:国知局
一种基于多模态深度学习模型的列车延误预测方法

1.本发明涉及列车运行管理技术领域,尤其涉及一种基于多模态深度学习模型的列车延误预测方法。


背景技术:

2.中国的高速铁路作为公共交通系统的重要组成部分,具有运输能力强、运输速度快和平稳安全等特点。随着近年来高速铁路的不断建设,已经形成了一个庞大且复杂的高速铁路网络。截止至2020年底,中国高铁的总里程已达到37,900公里,占全球2/3以上,2020年发送旅客量全年累计达21.67亿人次,居世界第一位。
3.中国高速铁路已成为世界上最大的高铁运营网络,且正处于高速发展阶段。高铁系统由大量的子系统组成,其中任何子系统的发生故障都可能会扰乱甚至阻断列车的正常运行。此外,由于中国的高速铁路分布范围较广,运行环境十分复杂,且易受人类和恶劣天气等因素影响,导致高速列车在运行过程中出现一些延误现象。而且由于铁路轨道的约束、车站容量限制和相关的安全规定,一些延误列车也会干扰后续列车的运行,导致级联延迟的发生。因此,延误会沿着当前的线路传播,进而传播到其他线路,甚至导致整个局部网络的延误。
4.高速铁路网络的列车延误事件可看做是一种多模态的复杂动力学列车延误预测模型,想要更精确地预测列车延误时间,应注意到列车运行的动态性和影响因子的多样性。
5.目前,现有技术中还没有一种有效地预测高速铁路网络列车延误时间的方法。


技术实现要素:

6.本发明的实施例提供了一种基于多模态深度学习模型的列车延误预测方法,以实现有效地预测高速铁路网络列车延误时间。
7.为了实现上述目的,本发明采取了如下技术方案。
8.一种基于多模态深度学习模型的列车延误预测方法,包括:
9.获取高速铁路网指定范围内所有车次的实绩运行时刻表信息;
10.对所述实绩运行时刻表信息按车次和线路进行整理,按照时间维度和时空维度对实绩运行时刻表信息分类并进行特征重要性分析,对每种类别的数据进行编码,并设定标签,得到数据集;
11.构建基于深度学习的列车延误预测模型,所述列车延误预测模型包括transformer、三维卷积神经网络3d cnn和全连接网络fcnn,利用所述数据集对所述列车延误预测模型进行训练,得到训练好的列车延误预测模型;
12.将需要进行延误预测的列车的车次、线路信息和时间信息输入到训练好的列车延误预测模型中,列车延误预测模型输出需要进行延误预测的列车的延误预测结果。
13.优选地,所述的对所述实绩运行时刻表信息按车次和线路进行整理,按照时间维度和时空维度对实绩运行时刻表信息进行分类并进行特征重要性分析,对每种类别的数据
进行编码,并设定标签,得到数据集,包括:
14.根据实绩运行时刻表信息中的列车车次、线路和实绩运行信息,对实绩运行时刻表信息按车次和线路进行整理,按照时间维度和时空维度对实绩运行时刻表信息进行分类,对每种类别的数据进行编码,并设定标签,将编码和设定标签后的所有类别的数据构成数据集,将数据集划分为训练集、测试集和验证集,
15.优选地,所述的构建基于深度学习的列车延误预测模型,所述列车延误预测模型包括 transformer、三维卷积神经网络3d cnn和全连接网络fcnn,利用所述数据集对所述列车延误预测模型进行训练,得到训练好的列车延误预测模型,包括:
16.构建基于深度学习的列车延误预测模型,所述列车延误预测模型包括transformer单元、3d cnn单元和fcnn单元,将所述训练集数据输入到所述列车延误预测模型中,所述 transformer单元提取所述训练集数据中与时间序列因素相关的特征,所述3d cnn单元提取所述训练集数据中与时空依赖性相关的特征,所述fcnn单元将所述transformer单元、3d cnn单元提取的特征进行加权合并,根据合并后的特征和训练集数据中的标签进行迭代学习,利用所述测试集和验证集数据对迭代学习的结果进行验证,根据验证结果利用损失函数计算所述列车延误预测模型的损失,通过反向传播算法,更新所述transformer单元、3d cnn单元的权重,调整所述列车延误预测模型的网络结构和参数;
17.通过迭代执行上述处理过程,得到训练好的最终列车延误预测模型。
18.由上述本发明的实施例提供的技术方案可以看出,本发明实施例的列车延误预测模型结合了三种不同的神经网络架构,可以分别提取时间序列特征、时空网络特征并对提取的特征进行整合。该列车延误预测模型用于预测列车延误时间,并通过与基线列车延误预测模型的对比,验证了该列车延误预测模型具有稳定性和泛化性。
19.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种列车延误时间预测方法的处理流程图;
22.图2为本发明实施例提供的一种transformer的内部结构图;
23.图3为本发明实施例提供的一种3dcnn特征提取过程示意图;
24.图4为本发明实施例提供的一种仿真结果对比示意图。
具体实施方式
25.下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
26.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一
个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
27.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
28.为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
29.随着人工智能和大数据科学的蓬勃发展,利用深度学习技术来解决铁路行业的实际问题日渐流行,并取得了良好的效果。布置好的深度学习列车延误预测模型可以从大规模的实绩运行数据中提取解决确定问题所需要的特征,进而从数据分析的角度去建立复杂的问题求解列车延误预测模型。利用深度学习方法,将高铁网络中约束条件、复杂的网络结构和列车运行中的多种影响因素转化成高维度特征,并建立这些特征之间的关系矩阵,从而可以更精确地预测网络级别的列车延误时间。更精准地预测列车延误时间可以帮助调度员更好的采取调度措施,重新调整列车运行方案,以降低列车延误带来的负面影响,提高运行效率和服务质量。
30.实施例一
31.本发明实施例针对目前高速铁路网络中列车延误时间难以精准预测的问题,提出了一种列车延误时间预测方法,进而辅助铁路调度系统更高效地制定调度策略。
32.本发明实施例提供的一种基于多模态深度学习模型的列车延误预测方法的处理流程如图1所示,包括如下的处理步骤:
33.步骤1:获取高速铁路网指定范围内所有车次的实绩运行时刻表信息;
34.步骤2:将所有车次的实绩运行时刻表信息按车次和线路进行整理和分类,编码并设定标签,作为列车延误预测模型的输入;
35.步骤3:根据步骤2,将数据集分为训练集、测试集和验证集;
36.步骤4:建立深度学习列车延误预测模型,包括transformer、三维卷积神经网络(3d cnn)和全连接网络(fcnn)三部分,可以分别提取时间序列特征、时空网络特征并对提取的特征进行整合;
37.步骤5:根据步骤3和步骤4,将数据编码后输入到列车延误预测模型中,提取特征并根据数据中的标签训练和测试列车延误预测模型;
38.步骤6:根据步骤5列车延误预测模型的学习结果,调整网络结构和参数设定,使最终的预测结果更精确,并保存最终列车延误预测模型;
39.步骤7:根据步骤6得到的深度学习列车延误预测模型和延误预测时间结果,进行分析验证。
40.实施例二
41.步骤1,获取中国高速铁路网北京局范围内所有车次的实绩运行时刻表信息,对上述实绩运行时刻表信息进行数据清洗、初步整理和初步整合。
42.步骤2,根据实绩运行时刻表信息中的列车车次、线路和实绩运行信息,对实绩运行时刻表信息按车次和线路进行整理,按照时间维度和时空维度对实绩运行时刻表信息进行分类,对每种类别的数据进行编码,并设定标签,将编码和设定标签后的所有类别的数据构成数据集。
43.高速铁路网络中的实绩运行数据包括很多维度,如时间维度、时空维度等。时间数据和时空数据由于其多变性、相互依赖性很难同时分析。在时空网络环境下,这些数据往往呈现出相互影响、相互依赖的级联效应。通常,时序数据挖掘是指通过聚类、搜索或预测等方式获取所需信息。一些回归统计学方法如自回归列车延误预测模型和隐马尔可夫列车延误预测模型已被广泛用于时间序列特征提取和数据挖掘。随着自然语言处理(nlp)的相关研究的流行,时序数据分类和与深度学习的融合引起了更广泛的关注(例如利用循环神经网络和长短期记忆网络预测时序数据)。然而,时序数据的特征挖掘仍面临着诸多挑战,因为这些时序数据通常是高维度、时序性、且有噪声的。为了提高时间序列数据处理能力,可利用带有注意力机制的transformer列车延误预测模型提高预测结果的准确性。
44.所谓时空数据,是在时间和空间维度上同时蕴含相互作用、各种因素和特征相互影响的一种复杂的研究对象。因此,如何从时空数据中准确挖掘有意义的数据集特征,具有很大的挑战性。从宏观的角度来看,时空数据是一种动态数据。然而,与列车调度等细粒度时间序列相比,整个空间数据在短时间内可以被视为相对固定的瞬态数据。将时空维度转换成蕴含静态时间序列的空间维度,可以在保证不改变系统内部的情况下实现一种更巧妙的分析方式且具有可解释性。3dcnn(convolutional neural networks,卷积神经网络) 可以很好地学习时空特征,并常应用于时空数据挖掘领域。
45.步骤3,将步骤2得到的数据集划分为列车延误预测列车延误预测模型的训练集、测试集和验证集,对列车延误预测列车延误预测模型进行仿真。
46.本实施例的数据集来源于整个北京铁路局范围内,从2019年6月至2019年10月共五个月的列车的实绩运行信息。为了更精确地预测高速铁路的延误时间,只提取了列车型号为高铁(车次以d开头或以g开头)的所有列车。并对原始数据进行数据清洗和数据整理,以提取出我们需要的数据格式。最终数据集共有1756725条列车实绩运行数据,将总数据集中 60%作为训练集,25%作为测试集,15%作为验证集。部分原数据集如表1:
47.表1.部分数据集
[0048][0049]
为了保证仿真结果的稳定性,同时验证列车延误预测模型的鲁棒性,在列车延误预测模型的输入部分预先对数据集划分,具体可分为北京局内的全网络、京津线部分网络和随机选取的两个小型子网络分别进行列车延误预测模型仿真和测试。
[0050]
步骤4,建立基于深度学习的列车延误预测模型,该列车延误预测模型包括 transformer、3d cnn和fcnn网络三部分,可以分别提取数据集的时间序列特征、时空特征,并对提取的特征进行整合。
[0051]
为了开发出能处理不同维度特征的架构,本发明提出了一种结合了transformer、三维卷积神经网络(three-dimensional convolution neural network,3d cnn)和全连接神经网络(fully-connected neural network,fcnn)网络的新型基于深度学习的列车延误预测模型,并命名为tcf-net。在这个列车延误预测模型中,每个网络模块先相对独立地提取不同类型特征,之后再做特征信息整合。transformer用来提取与时间序列因素相关的特征,3dcnn单元用来提取与时空依赖性相关的特征,fcnn单元负责将前两个模块的特征进行整合。在tcf-net中,可以堆叠多个fcnn、transformer和3dcnn层,以提高列车延误预测模型的学习能力;在三维cnn部分,每个三维cnn层后面是一个最大池化层,以减少参数的数量并保持关键特征。
[0052]
本发明实施例提供的一种transformer的内部结构图如图2所示。transformer是一种基于注意力机制的时间序列预测模型。transformer包含多层编码器-解码器结构。编码器和解码器都是由堆叠式的自注意力子模块和全连接子模块构成,其中编码器负责把时间序列映射成为隐藏层,解码器负责对隐藏层的特征解析成输出序列。transformer在训练
过程中,解码器的输入为带标签的序列数据,结合相对位置编码方式,在推理过程中的每一步均用自回归方式实现,即在生成下一个元素标签时,会将先前生成的元素标签作为附加输入,这一点在循环神经网络中也有提现。解码器把隐藏层再映射为所需要的时间序列,需要注意的是,为了保证当前时刻模型无法提前感知到下一时刻信息,本发明实施例在解码器部分加入了带有掩码的自注意力模块。编码器和解码器都使用到自注意力机制,自注意力是模仿人类大脑的注意力思想构造而成。从输入的大量信息中选择关键信息并加以处理。自注意力机制可以描述为将查询编码和一组键-值编码将输入数据映射到注意力机制的输出中,其中查询、键、值编码的输出都是向量。自注意力机制的输出是向量的加权和,分配给每个值的权重是通过反向传播算法计算得到。注意力机制的计算公式如下:
[0053][0054]
其中q、k和v分别表示查询向量、键向量和值向量,为缩放因子。为了具有更好的性能,使用不同的线性函数函数将查询、键和值分别映射到不同维度的向量空间中,可提取到不同维度的更多样化的信息,这就是多头注意力机制。为了提升模型的准确性和泛化性,本发明对原有的transformer模型做了一些优化。比如,为了防止输入特征较为精简情况下模型的过拟合问题,减少了多头注意力子模块的头数;同时,考虑到列车延误预测和其他序列任务的差异,我们将transformer位置编码方式改成参数可学习的相对位置编码方法,这样可以使模型更好的学习子序列间的特征关系,而不是将注意力全部放在子序列内部,这样可提升模型的预测性能。
[0055]
本发明实施例提供的一种3dcnn特征提取过程示意图如图3所示。本发明实施例利用现有的3dcnn,但重新设计了输入数据格式和模型的超参数。
[0056]
三维卷积神经网络具有强大的空间特征提取能力,利用局部连接和权值共享特性,可更好地提取特征间的空间依存关系。3d cnn将卷积核可控范围扩展到时域,相对于二维卷积特征提取能力更高,能更好地学习时空网络动态信息,且相对于单一的时间序列预测模型更有利于学习到特征间的高维表示。本发明在设计3d cnn的输入数据时,将实际轨道交通网络中物理位置相近或者线路间依存关系较强的列车运行数据进行组合,可以使模型学习到网络级的列车延误传播机理,从而更好地预测列车延误时间。
[0057]
为了将transformer和3d cnn的输出数据融合,可以将3d cnn和transformer的网络层并排连接到输出向量上。即如果三维cnn和transformer的输出尺寸为(n、m)和(n、h),则合并的向量将为(n、m+h),其中n为训练或测试数据量。合并后的向量通过fcnn层来迭代更新每个单元的权重,主要起到数据降维的作用。最后,利用rmse和mae两种损失函数来评估该列车延误预测模型的准确性。最后,通过反向传播算法,更新每个层的权重和偏差,并在训练过程中调整模型的超参数,以逐渐减小损失函数。此外,选择leakyrelu函数作为3d cnn和fcnn部分的激活函数,它可有效的解决梯度消失问题,保证列车延误预测模型能更好的收敛。
[0058][0059]
其中x代表输入,p是待学习的参数。
[0060]
步骤5:根据步骤3和步骤4,将数据编码后输入到列车延误预测模型中,提取特征
并根据训练数据中的标签迭代学习。
[0061]
高铁网络中的时空数据首先被堆叠为三维矩阵,来作为3dcnn的输入。三维中的x轴表示时间,y轴表示该时间下的不同线路,z轴表示同线路的不同列车。即把相同线路下同一列车在不同时刻的时间表信息建立成三维数据集,每个子数据集中包含一条线路,三辆列车和五个车站。在这个过程中,3d cnn能够在时空维度提取特征的关联性。而在 transformer部分,输入为单列列车在之前五个车站的实绩运行数据,每个车站的数据有9 个维度,包括车次、车站、线路信息、上行或下行、列车经过的车站序号、图定停留时间、实际停留时间、出发延迟时间和到达延迟时间。
[0062]
步骤6:根据步骤5列车延误预测模型的学习结果,调整网络结构和参数设定,使最终的预测结果更精确,并保存训练好的最终列车延误预测模型。
[0063]
将需要进行延误预测的列车的车次、线路信息和时间信息输入到训练好的列车延误预测模型中,列车延误预测模型输出需要进行延误预测的列车的延误预测结果,其中包括列车在下一个车站的到达延迟和出发延迟。
[0064]
为了从该列车延误预测模型中获得更好的预测性能,我们通过仿真结果对列车延误预测模型架构和参数进行了调整。利用部分数据实验后的结果表明,损失函数首先随着3dcnn 和fcnn深度增加而减少,随后停止减少。原因是,由于开始时网络的层数很少,数据拟合不足;当层数增加到适当的值时,数据拟合良好,但当列车延误预测模型结构变得更加复杂时,数据可能会被过度拟合。最后,为了获得良好表现的列车延误预测模型并避免过拟合,本发明选择了两个3d cnn层(第一层32个卷积核,第二层64个卷积核,每层卷积核大小为3*3*3)、一个完整的transformer模块和两个fcnn层(第一层64个神经元,第二层2个神经元)作为我们的最终架构。在3d cnn输出部分,设置扁平层,将3dcnn的输出三维张量转换为二维张量;每个卷积层之后是最大池化层以提取关键特征。此外,对于那些对列车延误预测模型精度影响较小的参数,根据多次仿真结果设置。例如,池化层大小被设置为2
ꢀ×2×
2,以使用小过滤器和池大小来细粒度地提取特征特性。最后,为提高列车延误预测模型的鲁棒性,并在验证损失没有下降时,将全局学习率(drop-out)降低到50%。我们使用了adaptive moment estimation(adam)优化器,adam能计算每个参数的自适应学习率,因其出色性能成为使用率最高的优化器。
[0065]
步骤7:根据步骤6得到的深度学习列车延误预测模型和延误预测时间结果,进行分析验证;
[0066]
为了评估该列车延误预测模型的性能,本发明选择了其他三种列车延误预测模型作为对比列车延误预测模型:分别为fcnn+lstm、fcnn+transformer和3dcnn+lstm。每个基线列车延误预测模型的简要特征如下:
[0067]
fcnn+lstm:与tcf-net相比,fcnn+lstm只捕获了时间维度的依赖关系。fcnn+lstm被用作消融实验比较3d cnn在tcf-net中捕捉时空特征的优势。
[0068]
fcnn+transformer:与fcnn+lstm相比,fcnn+transformer被用作基准来比较tcf-net 中transformer捕获时间序列特性的优势。
[0069]
3dcnn+lstm:选择3dcnn+lstm作为基线列车延误预测模型,是为了将tcf-net与当前性能最好的深度学习列车延误预测模型对比。3dcnn+lstm具有双重功能:1)3d cnn是捕捉时空依赖关系;2)lstm是提取实习特征。
[0070]
我们使用与tcf-net相同的训练和测试数据集来仿真这些基线列车延误预测模型。并选择了两种常用的预测误差指标,即均方根误差(rmse)和平均绝对误差(mae)来评估列车延误预测模型的性能。
[0071][0072][0073]
经过训练和测试,我们首先利用数据集内所有选定站点的数据,研究了列车延误预测模型的性能。显示了数据集内车站的预测结果的所有列车和延误列车的rmse和mae。结果清楚地表明,tcf-net的预测误差小于其他基线列车延误预测模型。
[0074]
本发明实施例提供的一种tcf-net的预测结果和基线列车延误预测模型的对比结果如图 4所示。图4中的误差条表示预测值的标准偏差;tcf-net也有较小的标准差,表明数据集有较高的稳定性。为了研究列车延误预测模型对高纬度数据的鲁棒性,我们通过对数据集的随机划分和打乱顺序训练和测试了列车延误预测模型的泛化能力。为了确保预测的站有足够的过去信息,我们训练和测试了列车延误预测模型,以预测在目标车站的延迟。
[0075]
结果表明,tcf-net对所有列车和延迟列车都具有最小的预测rmse和mae,这证明了该列车延误预测模型对不同数据大小和数据维度的鲁棒性。
[0076]
基于该延误预测方法,针对实际数据进行仿真,证实了该方法的有效性以及时效性。
[0077]
综上所述,本发明实施例的列车延误预测模型结合了三种不同的神经网络架构,可以分别提取时间序列特征、时空网络特征并对提取的特征进行整合。该列车延误预测模型用于预测列车延误时间,并通过与基线列车延误预测模型的对比,验证了该列车延误预测模型具有稳定性和泛化性。
[0078]
本发明实施例的列车延误预测模型的延误预测结果可以反馈给铁路运营的调度中心,助调度员科学高效的制定使整个高铁网络调度达到全局更优的调图策略,使整个高铁网络调度达到全局更优的效果,为实际运营维护提供重要参考。
[0079]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0080]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0081]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0082]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1