一种基于时空图与空域聚合Transformer网络的轨迹预测方法

文档序号:31402757发布日期:2022-09-03 05:04阅读:299来源:国知局
一种基于时空图与空域聚合Transformer网络的轨迹预测方法
一种基于时空图与空域聚合transformer网络的轨迹预测方法
技术领域
1.本发明涉及一种基于时空图与空域聚合transformer网络的轨迹预测方法,属于人工智能与自动驾驶领域。


背景技术:

2.行人轨迹预测技术具有较深刻的理论背景与实际应用价值,在如无人驾驶,智能监控等领域,行人轨迹识别与预测技术一直占据着较为重要的地位。近年来,由于人工智能和深度学习技术的进步,有关行人轨迹预测问题的智能算法落地与应用逐渐引发了关注与热议。
3.一直以来,使智能体对于场景内交通参与者的行为特点进行更好理解与判断,建立具有空间交互特征信息的行人轨迹预测模型并进行相关预测,进而作出准确快速合理的相关决策一直是行人轨迹预测问题所要达到的目标。然而,行人轨迹预测问题的高度复杂性与不确定性决定其存在以下难点:复杂的场景特征信息使得行人的将来轨迹不仅受到其自身历史轨迹与既定轨迹路线的影响,同时还受到场景内障碍物与其他交通参与者在时空维度的多种影响。因此,能否建立合理准确的模型并进行快速预测输出与决策,是行人轨迹预测问题应用于实际场景的关键。
4.得益于机器学习在人工智能领域的发展,在很长一段时间里,基于lstm以及基于 cnn算法的轨迹预测方法是主流预测方法。这类预测方法具有模型简单,可以使用较少的参数和较基本的模型架构取得相当不错的预测效果,这些架构也为后续深入的算法研究提供了思路与基本模块框架,具有开创性的意义。
5.由于图及其网络架构在行人轨迹预测问题的数据信息表示方面具有天然优势,基于图的行人轨迹预测研究成为近年来研究的热门方向。mohamed a等人在2020年的文献 (social-stgcnn:a social spatio-temporal graph convolutional neural network for humantrajectory prediction[c])中使用时空图神经网络的方法,对时域和空域分别进行两种不同的卷积操作,得到轨迹特征信息的同时进行预测输出。同样,模型考虑行人轨迹在空间内的随机性与不确定性,即模型预测的时候并不事先知道每个行人的既定轨迹与终点等信息,因而一种合理的研究方法便是假设行人预测轨迹的横纵坐标符合二维高斯分布,在检验预测的过程中使用采样的方式输出轨迹。该模型也基于这样的假设完成预测,取得了较为不错的结果。然而,这样的行人轨迹预测模型中仍然存在没有针对行人交互特征信息进行进一步处理,导致空间交互能力不足,使得产生的轨迹惯性较大,也不能依据组群行人之间的运动模式产生紧密关联的运动预测。
[0006]
近年来,已经有许多学者基于图表示,结合许多其他不同的算法工具与研究方法对行人轨迹预测进行研究,取得了许多方面的进展。dan x等人在文献(spatial-temporalblock and lstm network for pedestrian trajectories prediction[j])中提出一种基于时空模块和lstm的行人轨迹预测模型架构,该模型基于图表示,通过图的嵌入表示得到
每个行人节点与其邻居行人之间的关系特征向量,输入到lstm中编码得到的时空图行人交互特征向量,进而进行相关预测,取得了很好的预测结果;rainbow b a等人在文献 (semantics-stgcnn:a semantics-guided spatial-temporal graph convolutional network formulti-class trajectory prediction[c])中提出了一种基于语义的时空图行人轨迹预测模型 semantics-stgcnn,模型中从场景语义理解出发,将行人对象的类别标签嵌入到标签邻接矩阵中,结合速度邻接矩阵,输出语义邻接矩阵,完成对语义信息的建模,最终输出预测结果;yu c等人在文献(spatio-temporal graph transformer networks for pedestriantrajectory prediction[c])中使用一种基于transformer的网络模型,该模型利用transformer 在其他领域的优秀表现,设计直接拼接多个transformer基本框架提取行人在场景内的时空特征信息并完成相关预测。
[0007]
本发明中,针对现有轨迹预测方法在行人空间交互特征提取与预测方面存在的问题和不足,提出了一种使用时空图与空域聚合transformer进行行人轨迹预测的全新网络架构,对于输入的原始数据进行恰当的图表示与预处理,使用时空图卷积神经网络与时序特征变换网络对原始对行人轨迹特征信息进行提取,并引入一个空域transformer网络架构深层空间特征信息进行充分提取与聚合,以确保模型在空间行人交互特征方面的有效性与准确性。本发明注重模型预测结果在空间交互方面的合理性,保证行人空间行走特性的同时兼顾交互影响,特别对于行人轨迹终点的预测取得了突破,对于建模复杂场景内的行人轨迹交互与预测行人轨迹有着积极的作用,对无人驾驶、人工智能等领域的研究与探索起到帮助与启发。


技术实现要素:

[0008]
本发明公开一种基于时空图与空域聚合transformer网络的轨迹预测方法,该方法针对现有行人轨迹预测方法中空间行人轨迹信息提取不充分,导致行人行走时相对位置关系不够清晰、无法针对碰撞等作出较大范围转动等问题,考虑以图的形式建立一种新的轨迹预测模型架构,通过时空图卷积神经网络的以及时序特征变换网络等操作完成对场景内行人特征提取,设计一个全新的空域聚合transformer架构进行行人时序特征变换与利用,最终以概率分布的形式完成对行人预测轨迹的输出,达到合理预测的目的。
[0009]
在时空图卷积神经网络方面,将场景内行人轨迹特征信息通过图的形式进行表示与预处理,构建图卷积神经网络完成对空间内行人轨迹特征信息的初步提取,作为后续网络输入。
[0010]
在时序特征变换网络中,通过一个卷积伸进网络完成时序特征信息的提取与特征维度的变换,同时合理设计网络以简化模型参数,提高模型性能。
[0011]
在空域聚合transformer网络中,对于先前从时空图卷积神经网络以及时序特征变换网络中得到的特征进一步处理。为了对空间场景内行人特征的交互进行进一步挖掘与建模,本发明中的模型使用每个行人的时序特征向量作为输入向量,输入至空域聚合 transformer网络中对行人空间轨迹特征进行充分提取与聚合,同时完成轨迹预测输出的任务。
[0012]
本发明主要包括以下步骤:
[0013]
步骤(1):利用图的特性从输入的原始数据中对场景内行人轨迹特征信息进行图
表示与预处理,选取合适的核函数完成对邻接矩阵的构建,为后续网络架构输入提供准确、高效的场景内行人信息;
[0014]
步骤(2):建立时空图卷积神经网络模块,构建图卷积神经网络,通过选择对行人轨迹特征的图卷积次数完成对空间内行人轨迹特征信息的初步提取,确保提取特征的准确、有效;
[0015]
步骤(3):建立时序特征变换网络模块,通过设计卷积神经网络完成时序特征的提取与特征维度的变换;
[0016]
步骤(4):建立空域聚合transformer网络,使用场景内每个行人的时序特征向量作为输入向量,同时输入transformer网络进行空域特征的进一步聚合,并且完成行人轨迹预测序列的输出。
[0017]
进一步的,所述步骤(1)中,引入时空图对输入的原始行人轨迹数据进行图表示,从多种核函数中选择合适的核函数构建图意义下的邻接矩阵,完成高效的场景内行人特征构建与选择,为后续建模提供准确、高效的信息。
[0018]
进一步的,所述引入时空图对输入的原始行人轨迹数据进行图表示具体为:对于每个时刻t,引入一个空间图g
t
,用来表示每个时间点行人间的交互特征关系;g
t
定义为 g
t
=(v
t
,e
t
),其中,v
t
具体表示时刻t场景内行人的坐标信息,即每个的特征信息使用观测的相对坐标变化来进行刻画,即:
[0019][0020][0021]
其中,i=1,

,n,t=2,

,t
obs
,对于初始时刻,规定其位置相对偏移为0,即
[0022]et
则表示空间图g
t
的边信息,其是一个维度大小为n
×
n的矩阵;定义为n的矩阵;定义为的取值由如下方式给出:
[0023]
如果节点与节点相连,那么反之,如果节点与节点不相连,那么
[0024]
进一步的,所述从多种核函数中选择合适的核函数构建图意义下的邻接矩阵具体为:
[0025]
引入加权邻接矩阵a
t
对行人空间图的节点信息进行加权表示,通过核函数变换得到行人间相互影响的大小并存储在加权邻接矩阵a
t
中;
[0026]
选用两个节点在欧式空间中距离的倒数作为核函数,并且为了避免二者过于接近而导致的函数发散问题,加入一个微小的常量ε来加速模型收敛,表达式如下:
[0027][0028]
在时间维度上对于每一个时刻的空间图g
t
进行堆叠,即得到图表示下的行人轨迹预测时空图序列g={g1,

,g
t
}。
[0029]
进一步的,所述步骤(2)具体为:
[0030]
对于输入得到的特征图时间序列,通过建立的时空图卷积神经网络得到输出:
[0031]et
=gnn(g
t
)(1.6)
[0032]
其中,gnn表示构建的时空图卷积神经网络,其由多层的图卷积迭代得到输出结果;e
t
表示通过图神经网络从空间维度初步提取的时空特征信息;
[0033]
对于每一个时刻的输出,均有这样的操作;而实际图卷积神经网络得到的输出则是这样时间序列的堆叠:
[0034]eg
=stack(e
t
)(1.7)
[0035]
其中,stack(
·
)表示对于输入在拓展维度上的叠加,eg表示图卷积的输出;实际处理过程中,多个拓展维度是同时并行送入图神经网络进行处理的;
[0036]
接着经过一个全连接层fc对特征进行恰当的维度变换:
[0037]vgnn
=fc(eg)(1.8)
[0038]
由此得到时空图卷积神经网络的特征信息的初步提取输出。
[0039]
进一步的,所述步骤(3)中,将时空图卷积神经网络的输出经过维度变换,使用一个基于cnn的时序特征变换网络模块并设计卷积次数完成对行人自身历史轨迹特征信息的提取;
[0040]
进一步的,所述步骤(3)具体为:
[0041]
在得到时空图卷积神经网络的特征提取信息后,送入一个时序特征变换网络对时序特征进行提取;由于在步骤二中已经通过一个全连接层对于维度特征进行合适变换,因此本步骤中的网络模块直接对得到的特征信息进行利用;本发明中,选择多层cnn卷积神经网络对时间维度特征信息进行处理,可以表示为:
[0042]
ec=cnn(v
gnn
)(1.9)
[0043]
其中,v
gnn
表示从图卷积神经网络中提取到的特征信息,ec表示经过时序特征变换网络的输出;接着通过一个多层感知机mlp,用以增加网络的表达能力:
[0044]vcnn
=mlp(ec)(1.10)
[0045]
通过上述网络进行特征的变换与处理,即得到时序特征变换网络的输出v
cnn

[0046]
进一步的,步骤四的主要构建计算内容包括:为了增加行人特征在空域之间的联系,设计一个空域transformer网络对上述提取到的特征信息进行进一步空间聚合。特别地,将同一个行人在时序上的特征向量作为输入向量输入,依次输入的为不同行人的提取特征。
[0047]
对于空域聚合transformer网络,选用transformer架构的编码器层,首先对输入添加位置编码:
[0048]vin
=v
cnn
+pe
pos,i
(v
cnn
)(1.11)
[0049]
其中pos表示输入特征的相对位置,i表示输入特征的维度。接着引入多头注意力层,使用从输入层进行矩阵变换得到的三个注意力层输入query(q)、key(k)、value(v),依照设定的多头数对输入特征进行划分,计算注意力得分,表达式如下:
[0050][0051]
headi=attention(qi,ki,vi)(1.13)
[0052]
其中,i=1,

,nhead,nhead表示多头数。而最终的多头输出通过拼接的方式完成
特征提取,表达式如下所示:
[0053]vmulti
=concat(head1,

,headh)wo(1.14)
[0054]
其中,concat表示拼接操作,wo表示注意力层输出的参数矩阵。
[0055]
接着通过前馈神经网络以及层归一化完成空域transformer的最终输出,表示为:
[0056]vout
=ln(feedback(v
multi
))(1.15)
[0057]
通过这种架构方式,较好地完成堆通过初步提取的时空特征进行行人空间交互特征的聚合,达到更好输出符合场景行人关联与交互的行人轨迹的目的。
[0058]
在损失函数方面,选用行人预测轨迹上每一点的负对数似然之和作为损失函数。第i个行人的损失函数有如下表示:
[0059][0060]
其中,是待预测的未知的行人轨迹特征参数,t
obs
,t
pred
分别表示观测和预测终点时刻;而所有行人的损失函数之和即为最终的损失函数:
[0061][0062]
通过对本发明提出的上述模型架构进行正向损失函数计算和反向参数更新,即可完成对模型的训练,得到合理的行人预测轨迹输出。
[0063]
有益效果
[0064]
为了解决现有行人轨迹预测输出存在的交互特征提取不足、进而导致的行人空间特性不明显,一方面表现在行人预测轨迹多存在较大惯性,不能针对高速、突发等状况进行较大转角的避让,另一方面表现在行人组群行为的运动一致性保持不够,导致空间内关联紧密的人群之间不能在一段时间内保持相同的运动趋势的问题,本发明提出一种全新的网络模型架构,使用时空图卷积神经网络以及时序特征变换网络等相关变换操作完成对场景内行人特征的有效、准确提取,同时设计一个全新的空域聚合transformer架构进行行人时序特征变换与利用,最终以概率分布的形式完成对行人预测轨迹的输出,达到对突发状况进行合理避让、保持组群行人运动一致性的目的,完成对行人空间交互的更准确、合理预测,对于行人轨迹预测问题的进一步深入研究和探索提供了新的思路,为其在实际场景下更准确、及时的预测与应用具有深刻的意义和作用,对于自动驾驶、智慧交通等领域的发展提供了帮助。
附图说明
[0065]
图1为本发明具体实施方式中基于时空图与空域聚合transformer网络框架的整体示意图;
[0066]
图2为本发明中利用时序变换特征输入空域聚合transformer网络进行轨迹预测的示意图。
具体实施方式
[0067]
本发明涉及一种基于时空图与空域聚合transformer网络的行人轨迹预测方法,
具体实施方式主要包含以下几个步骤:
[0068]
对于给定场景下的行人轨迹预测问题,由n个行人在每个观测时刻在场景内的坐标组成。对于第t个时刻的第i个行人的坐标信息,用表示。有了如上定义,那么本问题的一般表述为,对每一组已知的给定观测行人轨迹序列:
[0069][0070]
由构建网络框架通过输入数据对行人轨迹特性进行提取与建模,得到合适的轨迹特征信息,并给出场景内合理的轨迹预测输出:
[0071][0072]
其中t
obs
和t
pred
分别表示行人观测时间跨度和预测时间跨度,(
·
)表示行人轨迹预测真值,表示模型给出的行人轨迹预测值。
[0073]
本发明具体实施方式中基于时空图与空域聚合transformer网络框架的整体示意图如图1所示。
[0074]
步骤一:对数据进行恰当的图表示与预处理,提供准确、高效的场景内行人信息
[0075]
本发明中,首先使用恰当的图表示方法对输入的原始行人轨迹数据进行相关图转化与预处理,方便后续中对于输入特征信息进行提取与高效利用。
[0076]
对于每个时刻t,引入一个空间图g
t
,用来表示每个时间点行人间的交互特征关系。 g
t
定义为g
t
=(v
t
,e
t
),其中,v
t
表示空间图g
t
的节点信息,本模型中,v
t
具体表示时刻t场景内行人的坐标信息,即对于本模型,每个的特征信息使用观测的相对坐标变化来进行刻画,即:
[0077][0078][0079]
其中,i=1,

,n,t=2,

,t
obs
,对于初始时刻,规定其位置相对偏移为0,即
[0080]et
则表示空间图g
t
的边信息,其是一个维度大小为n
×
n的矩阵。其通常意义上定义为为的取值由如下方式给出:如果节点与节点相连,那么反之,如果节点与节点不相连,那么
[0081]
对于本预测任务而言,不仅希望得到行人之间是否关联,还希望度量空间内行人间相互影响的相对大小,因此引入加权邻接矩阵a
t
对行人空间图的节点信息进行加权表示,通过核函数变换得到行人间相互影响的大小并存储在加权邻接矩阵a
t
中,本发明中,选用两个节点在欧式空间中距离的倒数作为核函数,并且为了避免二者过于接近而导致的函数发散问题,加入一个微小的常量ε来加速模型收敛,表达式如下:
[0082][0083]
在时间维度上对于每一个时刻的空间图g
t
进行堆叠,即得到图表示下的行人轨迹预测时空图序列g={g1,

,g
t
}。通过这种定义与变换,完成行人轨迹预测问题中数据的图
表示和预处理。
[0084]
步骤二:建立时空图卷积神经网络对特征信息进行初步提取
[0085]
本发明中,针对步骤一中对原始数据进行图表示后的数据,使用时空图卷积神经网络对特征信息进行初步提取。
[0086]
该模型架构中,使用图卷积神经网络,确定恰当的卷积层数进行合适的特征迭代次数,达到较好提取空间内轨迹特征的目的。
[0087]
对于输入得到的特征图时间序列,通过建立的时空图卷积神经网络得到输出:
[0088]et
=gnn(g
t
)(1.6)
[0089]
其中,gnn表示构建的时空图卷积神经网络,其由多层的图卷积迭代得到输出结果;e
t
表示通过图神经网络从空间维度初步提取的时空特征信息。
[0090]
对于每一个时刻的输出,均有这样的操作。而实际图卷积神经网络得到的输出则是这样时间序列的堆叠:
[0091]eg
=stack(e
t
)(1.7)
[0092]
其中,stack(
·
)表示对于输入在拓展维度上的叠加,eg表示图卷积的输出。实际处理过程中,多个拓展维度是同时并行送入图神经网络进行处理的。
[0093]
接着经过一个全连接层fc对特征进行恰当的维度变换:
[0094]vgnn
=fc(eg)(1.8)
[0095]
由此得到时空图卷积神经网络的特征信息的初步提取输出。
[0096]
步骤三:建立时序特征变换网络,通过设计卷积神经网络完成时序特征的提取与特征维度的变换;
[0097]
在得到时空图卷积神经网络的特征提取信息后,送入一个时序特征变换网络对时序特征进行提取。由于在步骤二中已经通过一个全连接层对于维度特征进行合适变换,因此本步骤中的网络模块直接对得到的特征信息进行利用。本发明中,选择多层cnn卷积神经网络对时间维度特征信息进行处理,可以表示为:
[0098]
ec=cnn(v
gnn
)(1.9)
[0099]
其中,v
gnn
表示从图卷积神经网络中提取到的特征信息,ec表示经过时序特征变换网络的输出。接着通过一个多层感知机mlp,用以增加网络的表达能力:
[0100]vcnn
=mlp(ec)(1.10)
[0101]
通过上述网络进行特征的变换与处理,即得到时序特征变换网络的输出v
cnn

[0102]
步骤四:建立空域聚合transformer网络进行空域特征的进一步聚合,并且完成行人轨迹预测序列的输出
[0103]
为了解决现有行人轨迹预测输出存在的交互特征提取不足、进而导致的行人空间特性不明显,一方面表现在行人预测轨迹多存在较大惯性,不能针对高速、突发等状况进行较大转角的避让,另一方面表现在行人组群行为的运动一致性保持不够,导致空间内关联紧密的人群之间不能在一段时间内保持相同的运动趋势。
[0104]
本发明中为了增加行人特征在空域之间的联系,设计一个空域transformer网络对上述提取到的特征信息进行进一步空间聚合。特别地,将同一个行人在时序上的特征向量作为输入向量输入,依次输入的为不同行人的提取特征。
[0105]
对于空域聚合transformer网络,选用transformer架构的编码器层,首先对输入
添加位置编码:
[0106]vin
=v
cnn
+pe
pos,i
(v
cnn
)(1.11)
[0107]
其中pos表示输入特征的相对位置,i表示输入特征的维度。接着引入多头注意力层,使用从输入层进行矩阵变换得到的三个注意力层输入query(q)、key(k)、value(v),依照设定的多头数对输入特征进行划分,计算注意力得分,表达式如下:
[0108][0109]
headi=attention(qi,ki,vi)(1.13)
[0110]
其中,i=1,

,nhead,nhead表示多头数。而最终的多头输出通过拼接的方式完成特征提取,表达式如下所示:
[0111]vmulti
=concat(head1,

,headh)wo(1.14)
[0112]
其中,concat表示拼接操作,wo表示注意力层输出的参数矩阵。
[0113]
接着通过前馈神经网络以及层归一化完成空域transformer的最终输出,表示为:
[0114]vout
=ln(feedback(v
multi
))(1.15)
[0115]
通过这种架构方式,较好地完成堆通过初步提取的时空特征进行行人空间交互特征的聚合,达到更好输出符合场景行人关联与交互的行人轨迹的目的。
[0116]
在损失函数方面,选用行人预测轨迹上每一点的负对数似然之和作为损失函数。第i个行人的损失函数有如下表示:
[0117][0118]
其中,是待预测的未知的行人轨迹特征参数,t
obs
,t
pred
分别表示观测和预测终点时刻;而所有行人的损失函数之和即为最终的损失函数:
[0119][0120]
通过对本发明提出的上述模型架构进行正向损失函数计算和反向参数更新,即可完成对模型的训练,得到合理的行人预测轨迹输出。
[0121]
在模型准确性与有效性的评估过程中,与常用的轨迹预测评估方法类似,选用平均偏移误差(averagedifferentialerror,ade)和终点偏移误差(finaldifferentialerror,fde)作为评价指标来描述预测轨迹的准确性。平均位移误差指的是场景中每个行人在每一时刻预测位移与真实位移误差的l2范数的平均值,而终点位移误差指的是场景中每个行人终点时刻预测位移与真实位移误差的l2范数的平均值,其表达式如下:
[0122][0123][0124]
其中,表示预测行人待预测的轨迹真值,表示该模型的输出的行人预测轨
迹; t
pred
表示预测终点时刻,t
p
表示预测时间范围,对于fde指标,仅对于场景内每个行人终点坐标的误差取平均而对于行走路线的选择没有较高要求,而对于ade指标,则需要对每个时刻点的坐标误差求和取平均。对两种指标而言,值越小表明与实际轨迹越接近,预测性能也越好。
[0125]
由于实际输出的为轨迹在二维平面内的概率分布,在实际轨迹预测性能评估时,为保证轨迹多样性和泛化能力,常采用多次采样预测(如20次),并取最接近真值轨迹的预测轨迹作为输出轨迹的方式来计算ade/fde与评估模型。具体而言,对于eth和ucy 上的五个数据集,每隔0.4秒进行一次采样的方式产生使用行人轨迹数据,每20帧作为一个数据样本,通过给定过去8帧共3.2s的行人轨迹数据作为输入,并预测未来12帧共4.8s的行人轨迹的方式对模型进行训练与验证。将本发明中的模型与其他两种同样使用图网络模型的算法进行性能比较,得到的比较结果如表1所示,最佳性能用红色标出:
[0126][0127][0128]
表1本模型与图网络主流模型预测结果比较
[0129]
由表1可以看出,本发明所提出的框架对于终点预测问题起到很大的突破,在几乎所有数据集上fde指标均为最优,同时平均ade和fde指标也均为最优性能。相较于两种图网络算法的最优性能,本模型分别在eth,univ,zara1,zara2上提升 fde达17%,21%,5%,12%,在平均fde指标上提升达16%。由以上数据可以看出,本模型使用一个空域聚合transformer架构对于将行人时序特征向量输入,专注于对时空图神经网络和时序特征变换网络中提取特征的利用,完成了对空间行人交互特征的更好聚合,达到了更好的预测效果,在fde上取得了较大的突破,对于行人在空间内的交互特征有了更强的感知与表达。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1