基于目标局部终点与多头注意力机制的轨迹预测方法

文档序号:32312857发布日期:2022-11-23 13:05阅读:122来源:国知局
基于目标局部终点与多头注意力机制的轨迹预测方法

1.本发明属于自动驾驶技术领域,涉及一种行人轨迹预测的方法。


背景技术:

2.轨迹预测作为自动驾驶需要解决的核心问题,是保障自动驾驶汽车安全稳定行驶的关键。但在不断变化的复杂道路环境中,目标间存在着隐含的相互作用力和不确定性,大大增加了建模难度。
3.传统的目标轨迹预测方法主要通过运动学和动力学模型,如卡尔曼滤波等方法,这种方法没有考虑到环境中其他参与者对被预测目标的影响,完全依靠动力学进行轨迹预测,没有考虑社会力等一些环境因素。随着深度学习的发展,利用手工设计的特征去学习行人运动而不是基于数据驱动,这导致模型只适合在简单场景下使用,无法适用到复杂的场景中。在基于深度学习轨迹预测模型中,通过历史轨迹信息进行未来轨迹的预测,并让模型通过数据自动化地学习到相互作用的影响,从而生成更精确的轨迹。而在交通场景中,参与者往往首先确定轨迹终点,然后选择一条适当的路径到达该终点,但是这些模型以目标与周围参与者位置的欧式距离作为社会池化层的线索不能很好的处理复杂的道路情况。
4.除此之外,基于lstm的模型长时预测能力较差,其预测误差随预测时长的增加而急剧增加。而对于长时预测能力较强的transformer模型,训练难度较大,需要大量的数据进行驱动,其模型参数量与计算量巨大,使得模型过于复杂,成为其目前的主要短板。


技术实现要素:

5.本发明的目的是提供一种基于目标局部终点与多头注意力机制的轨迹预测方法,以解决现有技术中存在的不能很好的处理复杂的道路情况及模型过于复杂的技术问题。
6.为实现上述目的,本发明提出如下技术方案予以解决:
7.一种基于目标局部终点与多头注意力机制的轨迹预测方法,具体包括以下步骤:
8.步骤1:获取数据并整理,得到数据集;建立训练集和测试集;
9.步骤2:根据步骤1得到的训练集中的目标的历史轨迹及实际局部终点位置信息,预测目标局部终点位置;
10.步骤3:根据步骤2得到的预测目标局部终点位置信息,采用社会池化操作提取社交信息,得到特征向量xk;
11.步骤4:将步骤3得到的特征向量xk输入长短期记忆网络得到目标的预测轨迹;
12.步骤5,将步骤1得到的训练集通过步骤2、3、4进行训练得到轨迹预测模型,并使用测试集对轨迹预测模型进行测试,如果不满足要求则继续迭代训练,直至得到训练好的轨迹预测模型;
13.步骤6,将待检测的一系列图像或待检测的视频输入训练好的轨迹预测模型,得到目标的预测轨迹。
14.进一步的,所述步骤1中,所述数据集采用stanford drone斯坦福无人机数据集。
15.进一步的,所述步骤1中,所述步骤2包括如下子步骤:
16.步骤21:将步骤1得到的训练集中的第k个目标实际终点位置和该目标的历史轨迹分别通过终点编码器和轨迹编码器生成对应的特征信息;其中,i表示时间点,t
p
表示预测终点之前的一个时间点,t
p
=8,tf表示预测的时间终点;
17.步骤22:将步骤21得到的特征信息组合拼接送入条件变分自编码器的潜在编码器进行训练,得到潜在变量的关键变量μ,σ;
18.步骤23:从高斯分布中随机取样得到可能的局部终点特征z,再与步骤21中轨迹编码器生成的特征信息进行融合之后送入条件变分自编码器的潜在解码器,得到预测的目标局部终点位置
19.进一步的,所述步骤1中,所述步骤3包括如下子步骤:
20.步骤31:将步骤2得到的预测目标局部终点位置信息送入终点编码器,将得到的特征与步骤21中轨迹编码器生成的特征信息进行融合之后得到特征向量;
21.步骤32:将步骤31得到的特征向量送入三个全连接层网络通过多次训练得到三个不同的全连接层网络权重,从中提取出特征向量q、k、v;
22.步骤33:将特征向量q、k、v进行融合,融合之后的特征向量xk中包含了每一个目标从其他邻居目标提取的社交信息。
23.进一步的,所述步骤33中,将特征向量q、k、v采用下式进行融合:
[0024][0025]
其中,dk为特征向量q、k、v的维度,目的是为了防止训练过程中梯度消失。m
ij
为掩码矩阵,负责标记和预测目标在时间上和空间上有关系的目标。
[0026]
进一步的,所述步骤1中,所述掩码矩阵m
ij
的公式如下:
[0027][0028]
其中,t
dist
为人为设置的距离阈值,表示目标对应的帧号。
[0029]
进一步的,所述距离阈值为100。
[0030]
进一步的,所述步骤1中,所述步骤4具体包括如下子步骤:
[0031]
步骤41:将步骤3得到的特征向量xk中时间维度上时刻t对应的向量x
t
作为当前时刻的输入值,当t=1时,将当前时刻的输入值作为前一时刻隐状态h
t-1

[0032]
步骤42:将当前时刻的输入值x
t
与前一时刻隐状态h
t-1
通过公式(4)~(6)得到f
t
、i
t

[0033]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
ꢀꢀꢀꢀ
(4)
[0034]it
=σ(wi·
[h
t-1
,x
t
]+bi)
ꢀꢀꢀꢀ
(5)
[0035][0036]
其中,w和b表示对应不同门网络的权重和偏置,wf为遗忘门权重矩阵,wi为输入门
权重矩阵,wc为细胞状态权重矩阵,bf为遗忘门偏置,bi为输入门偏置,bc为细胞状态偏置,h
t-1
表示前一时刻隐状态的输出,σ表示网络中的激活函数是sigmoid函数,tanh表示网络中的激活函数是tanh函数;
[0037]
步骤43:通过公式(7)和(8)得到当前时刻t的隐状态h
t

[0038]ot
=σ(wo[h
t-1
,x
t
]+bo)
ꢀꢀꢀꢀ
(7)
[0039]ht
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀ
(8)
[0040]
其中,o
t
为网络的输出门,c
t
为记忆信息;
[0041]
步骤44:判断当前时刻t是否为最后时刻tf,是则将步骤43得到的当前时刻t的隐状态h
t
作为目标在t
p
时刻到tf时刻的预测轨迹否则,令t=t+1,返回步骤42。
[0042]
与现有技术相比,本发明的有益效果为:
[0043]
1、在复杂交通环境下,结合多目标的历史轨迹与目标局部终点信息提取目标的特征,使用条件变分自编码器预测目标的局部终点位置,实现了对目标局部终点位置的准确预测。
[0044]
2、在对目标周围的社交信息进行提取时,不仅考虑参与者位置的欧式距离,同时将预测的局部终点位置纳入社会池化层的计算范围,这种方式训练的社会池化层能够更加的鲁棒和有效,最后将经过处理提取的历史轨迹和局部终点位置信息输入lstm中得到最终的预测轨迹。从而在准确预测终点的情况下,在终点信息的帮助下能够极大程度的正确预测未来轨迹。
[0045]
3、使用基于transformer的多头自注意力机制在保证模型效率的前提下提升了轨迹预测的准确率,在一定程度上解决了现有模型过于复杂的问题。实现了在复杂交通场景下通过特定信息丰富目标轨迹特征进行精确可靠高校的行人轨迹预测。
附图说明
[0046]
图1是本发明的基于目标局部终点与多头注意力机制的轨迹预测方法的整体架构图;
[0047]
图2是长短期记忆网络结构图;
[0048]
图3是局部终点信息对轨迹预测的影响示意图(行人移动为x轴正向);
[0049]
图4是局部终点信息对轨迹预测的影响示意图(行人移动为x轴反向);
[0050]
图5是不同局部终点信息与平均误差关系示意图;
[0051]
图6是不同生成样本数截断与平均误差关系示意图。
具体实施方式
[0052]
下面结合附图和具体实施方式对本发明进行详细说明。
[0053]
如图1所示,本发明中的模型主要预测两个部分,首先,如图中下半部分所示,通过目标的历史轨迹信息和实际局部终点信息预测目标的未来局部终点位置,其次,图中上半部分虚线框所示,将预测的未来局部终点位置和历史轨迹信息进行组合,通过社会池化层之后进行未来轨迹点的预测。其中模块间的实连接箭头表示该过程存在于训练和测试阶
段,虚连接箭头表示该过程只存在于训练阶段。训练阶段是指模型通过学习大量数据的特征信息,生成相应的模型参数。测试阶段是指不改变模型参数,按照模型的流程测试模型的准确率。
[0054]
本发明的基于目标局部终点与多头注意力机制的轨迹预测方法具体包括以下步骤:
[0055]
步骤1:获取数据并整理,得到数据集;建立训练集和测试集;
[0056]
具体是:本发明使用stanford drone斯坦福无人机数据集,该数据集收集了涵盖行人、自行车、汽车、公共汽车等交通元素组成的图像和视频,由20个场景组成,含有超过11000个独立标注的行人,以及超过40000个目标和场景之间的交互。
[0057]
本发明使用该训练集和测试集分别进行训练和测试。数据集以20帧为单位,在每一次前向传播中,使用目标轨迹的前8帧数据(位置坐标x、y)作为历史轨迹信息,第9帧到第19帧的数据作为未来轨迹信息,第20帧的数据作为实际局部终点位置信息,使用前8帧的历史轨迹信息和第20帧的实际局部终点信息预测第9帧到第19帧的未来轨迹。
[0058]
步骤2:根据步骤1得到的训练集中的目标的历史轨迹及实际局部终点位置信息,预测目标局部终点位置。
[0059]
假设目标k在时间点1到t
p
=8的轨迹为历史轨迹本发明需要预测t
p
时刻到tf时刻的轨迹将实际目标局部终点位置定义为(如图1左侧浅色五角星所示),该信息用于在训练中使用。通过步骤2得到预测的目标局部终点位置(如图1左侧深色五角星表示)。
[0060]
步骤2具体包括如下子步骤:
[0061]
步骤21:如图1下半部所示,将步骤1得到的训练集中的第k个目标实际终点位置和该目标的历史轨迹分别通过终点编码器(虚线箭头所示)和轨迹编码器生成对应的特征信息。其中,i表示时间点,t
p
表示预测终点之前的一个时间点,t
p
=8,tf表示预测的时间终点;
[0062]
步骤22:将步骤21得到的特征信息组合拼接(即concatenate操作)送入条件变分自编码器的潜在编码器进行训练(如图1下半部分的黑色虚线框所示),得到潜在变量的关键变量μ,σ。
[0063]
步骤23:从高斯分布中随机取样得到可能的局部终点特征z,再与步骤21中轨迹编码器生成的特征信息进行融合(concatenate操作)之后送入条件变分自编码器的潜在解码器,得到预测的目标局部终点位置
[0064]
特别地,由于测试阶段的测试集中没有多目标的实际局部终点位置信息则采用条件变分自编码器通过均值为0、方差为σ
t2
(此处为每20帧一个单位即t=20时间段的数据方差)的高斯分布中直接提取特征信息,再与采用步骤21中的轨迹编码器生成的特征信息进行融合之后送入潜在解码器,得到预测的目标局部终点位置
[0065]
步骤3:根据步骤2得到的预测目标局部终点位置信息,采用社会池化操作提取社
交信息,得到特征向量xk。
[0066]
建立社会池化层以数据驱动的方式提取交通参与者之间相互作用的影响。社会池化模块为了提取目标轨迹特征向量之间的社交信息,使用多头自注意力机制,多头注意力相当于进行了多次计算,允许模型在不同的表示子空间里发掘相关的社交信息。
[0067]
具体包括如下子步骤:
[0068]
步骤31:将步骤2得到的预测目标局部终点位置信息送入终点编码器,将得到的特征与步骤21中轨迹编码器生成的特征信息进行融合之后得到特征向量。
[0069]
步骤32:将步骤31得到的特征向量送入三个全连接层网络通过多次训练得到三个不同的全连接层网络权重,从中提取出特征向量q、k、v。
[0070]
步骤33:将特征向量q、k、v通过公式(1)进行融合,融合之后的特征向量xk中包含了每一个目标从其他邻居目标提取的社交信息。
[0071][0072]
其中,dk为特征向量q、k、v的维度,目的是为了防止训练过程中梯度消失。m
ij
为掩码矩阵,负责标记和预测目标在时间上和空间上有关系的目标。m
ij
计算公式如公式(2)所示。
[0073][0074]
其中,t
dist
为人为设置的距离阈值,当在时间(1,t
p
)之间并考虑局部终点时刻tf,目标i,j之间的空间最短距离(采用欧式距离计算)小于距离阈值时,则将对应的m
ij
位置置1,否则置0。表示目标对应的帧号,目的是为了确保两个目标之间有时间上的重叠。在实验中,将距离阈值t
dist
设置为100。
[0075]
因此,上述设计中,掩码矩阵m
ij
编码了不同目标轨迹的社交信息,与特征向量q、k进行融合之后提取关键社交特征同时忽略次要信息,并与特征向量v相乘提取最终的特征向量xk。
[0076]
步骤4:将步骤3得到的特征向量xk输入长短期记忆网络得到目标的预测轨迹。
[0077]
如图2所示,长短期记忆(lstm)网络由遗忘门、输入门、输出门组成,其中,遗忘门f
t
决定丢弃哪些信息,输入门i
t
控制更新和存储哪些新信息,输出门o
t
则决定哪些状态被输出。图中的σ和tanh代表四个前馈神经网络,其中,σ表示网络中的激活函数是sigmoid函数,而tanh表示网络中的激活函数是tanh函数。lstm的细胞状态c
t
是前一时刻细胞状态c
t-1
和当前候选状态的组合,负责记忆之前时刻的信息,并传递到下一时刻,公式(3)如下:
[0078][0079]
其中,f
t
表示遗忘门负责对之前时刻t-1的记忆信息c
t-1
进行筛选,选择性的过滤一些不重要的信息。i
t
表示输入门,用于决定中用来更新c
t
的特征。
[0080]
步骤4具体包括如下子步骤:
[0081]
步骤41:将步骤3得到的特征向量xk中时间维度上时刻t对应的向量x
t
作为当前时刻的输入值,当t=1时,将当前时刻的输入值作为前一时刻隐状态h
t-1

[0082]
步骤42:将当前时刻的输入值x
t
与前一时刻隐状态h
t-1
通过公式(4)~(6)得到f
t
、i
t

[0083]ft
=σ(wf·
[h
t-1
,x
t
]+bf)(4)
[0084]it
=σ(wi·
[h
t-1
,x
t
]+bi)(5)
[0085][0086]
其中,w和b表示对应不同门网络的权重和偏置,wf为遗忘门权重矩阵,wi为输入门权重矩阵,wc为细胞状态权重矩阵,bf为遗忘门偏置,bi为输入门偏置,bc为细胞状态偏置,h
t-1
表示前一时刻隐状态的输出,σ表示网络中的激活函数是sigmoid函数,tanh表示网络中的激活函数是tanh函数。
[0087]
步骤43:通过公式(7)和(8)得到当前时刻t的隐状态h
t

[0088]ot
=σ(wo[h
t-1
,x
t
]+bo)(7)
[0089]ht
=o
t
*tanh(c
t
)
ꢀꢀꢀꢀ
(8)
[0090]
其中,o
t
为网络的输出门,c
t
为记忆信息;
[0091]
步骤44:判断当前时刻t是否为最后时刻tf,是则将步骤43得到的当前时刻t的隐状态h
t
作为目标在t
p
时刻到tf时刻的预测轨迹否则,令t=t+1,返回步骤42。
[0092]
步骤5,将步骤1得到的训练集通过由步骤2、3、4组成的模型进行训练得到轨迹预测模型;使用测试集对轨迹预测模型进行测试,如果不满足要求则继续迭代训练,直至得到训练好的轨迹预测模型;
[0093]
步骤6,将待检测的一系列图像或待检测的视频输入训练好的轨迹预测模型,得到目标的预测轨迹。
[0094]
为验证本发明的可行性和有效性,采用斯坦福无人机数据集stanford drone进行模型的训练和测试。具体如下:
[0095]
斯坦福无人机数据集收集了涵盖行人、自行车、汽车、公共汽车等交通元素组成的图像和视频。处理后的数据集以20帧为单位,使用目标轨迹的前8帧数据作为历史轨迹信息和第20帧的数据作为局部终点位置信息预测第9帧到第19帧目标的轨迹。
[0096]
本发明为了检测模型效果,使用平均位移误差(ade)和最终位移误差(fde)来验证模型结果。ade和fde的公式具体如式(9)和(10)所示。
[0097][0098][0099]
其中xi,yi为每一个目标的标签位置坐标点,为每一个目标的预测位置坐标点。ade指标检测模型预测的目标轨迹和实际轨迹之间的偏差大小,fde指标检测模型预测的目标终点位置与实际终点位置之间的偏离大小。ade和fde越大,表示偏差越大。
[0100]
本发明为了直观的反应局部终点信息的加入对模型性能的提升效果,使用含有终点信息的模型和不含终点信息的模型进行定性的对比,如图3、4所示。从图中可以看出,由于目标的历史轨迹方向趋势和未来轨迹真值的方向趋势差别较大,不含局部终点信息的模
型预测出来的轨迹与真值相差较大,无法准确预测目标的未来轨迹,而含有局部终点信息的模型在准确预测终点的情况下,在终点信息的帮助下能够极大程度的正确预测未来轨迹。
[0101]
同时,为了进一步验证模型中局部终点信息对轨迹预测的作用,本发明对轨迹预测中目标局部终点帧的选择进行了实验。在之前的实验中,以20帧作为一个单位,前8帧作为历史轨迹,第9帧到第19帧作为需要预测的未来轨迹,其中第20帧的轨迹点作为局部终点辅助预测未来轨迹。为探究局部终点的选择对模型预测结果的影响,分别选取第9帧到第20帧作为局部位置点对未来轨迹进行预测,并统计不同的局部位置点对模型预测结果的影响,如图5所示。从中可以看出,当局部位置点从第9帧向第20帧移动时,fde指标逐渐从大到小,这是由于当局部位置点逐渐向后的调整中,更有利于模型对最终位置点的精准预测,使得fde指标逐渐降低。同时,伴随着fde指标下降,模型的ade指标在15帧后逐渐下降。当局部位置在9到15帧之间时,模型含有的全局信息较少,不利于对目标轨迹的预测,而在15帧之后,逐渐丰富的全局轨迹信息使得模型对轨迹的预测越来越准确,这使得ade指标开始下降,这说明越靠后的局部位置点所涵盖的有用信息越多,对未来轨迹的预测作用越大。
[0102]
图5也展示了对局部位置的预测误差。在第9帧时的误差最小,由于第9帧和历史轨迹距离最近,因此使用前8帧对第9帧预测最精确,符合常理。随着局部位置点的后移,对局部位置点的预测难度越来越大,其与标签真值的差距越来越大,在15帧之后,预测的误差值趋于平稳,直到第18帧时误差达到顶峰,随后稍微下降。这说明了行人在移动时是有一定规律可循的,即预先设定一个目的地,然后向这个目的地移动,直到到达该目的地,因此最终的局部位置误差才会小于中间的最大值。通过该实验,说明了局部终点信息对轨迹预测有着积极的作用。
[0103]
本发明使用了截断技巧,作为生成模型平衡多样性和精确性的方法。在测试时,直接生成s个样本进行多模态的轨迹预测,当生成的样本数量较少时如s小于5,σ
t
设置为1并在处对正太分布进行截断,这时模型生成的样本多样性较差,但准确性较高。而当生成的样本比较多时如s等于20时,σ
t
设置为大于1并且不进行截断,大量的样本能够保证预测的准确性。如图6所示,揭示了生成样本数量截断对模型预测性能的影响。随着生成样本数量的增加,fde和ade指标都呈现下降的态势,这说明了更精确的局部终点预测能够对轨迹的预测的精度起到积极的作用。其次,当生成样本数量较少时,采用截断的方法可以大大增加模型的预测精度,当生成的样本偏离标准值一定距离时,进行重新采样生成,这种方法能够对偏差较大的局部终点进行过滤,保证生成终点的准确性,从而增加模型轨迹预测的准确性。而当生成的样本数量逐渐增大时,截断技巧所发挥的作用逐渐减小,直到和没有使用截断技巧的方法近乎相同。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1