一种智能驾驶多任务学习模型构建方法、设备及介质与流程

文档序号:31711897发布日期:2022-10-04 19:44阅读:79来源:国知局
一种智能驾驶多任务学习模型构建方法、设备及介质与流程

1.本技术涉及智能驾驶领域,尤其涉及一种智能驾驶多任务学习模型构建方法、设备及介质。


背景技术:

2.快速的城市化带来了城市人口的增长,带来了重大的流动性和可持续性挑战。在多个智慧场景的建设中,智慧交通系统已经成为一个活跃的研究领域,因为它有提高系统效率和决策的潜力。智能驾驶技术因其感知设备丰富、感知数据模态多样、感知数据量大且任务输出复杂,采取各模态数据单独训练相应任务模型后对各自结果进行融合是现阶段通常使用的方法。
3.然而,这种方法不能有效地综合利用同一时间维度的多模态数据,并且在加入新的模态数据或需要新的任务输出时,往往需要重新设计模型结构,这对智能驾驶软件模型的快速迭代无疑是不利的。降低了智能驾驶软件的可靠性与高效性。


技术实现要素:

4.本技术实施例提供了一种智能驾驶多任务学习模型构建方法、设备及介质,用于解决如下技术问题:现有的智能驾驶任务模型的构建方法不能有效利用多模态数据,不利于模型的快速迭代。
5.本技术实施例采用下述技术方案:
6.一方面,本技术实施例提供了一种智能驾驶多任务学习模型构建方法,方法包括:通过智能驾驶车辆上安装的数据采集设备,采集所述智能驾驶车辆行驶过程中产生的多模态数据;其中,所述多模态数据至少包括以下模态数据:图像数据以及点云数据;对所述多模态数据中的每种模态数据分别进行预处理;通过模态数据编码器,对预处理后的每种模态数据进行特征编码,分别得到对应的特异性特征;对每种模态数据对应的特异性特征进行融合,得到融合特征向量;根据多个预设学习任务,构建对应的多个解码输出头,并根据所述多个解码输出头构建多任务学习模型;通过所述融合特征向量对所述多任务学习模型进行优化训练,得到智能驾驶多任务学习模型。
7.在一种可行的实施方式中,所述数据采集设备包括相机设备以及雷达设备;所述通过智能驾驶车辆上安装的数据采集设备,采集所述智能驾驶车辆行驶过程中产生的多模态数据,具体包括:通过所述相机设备,采集所述智能驾驶车辆行驶过程中的视频数据,并在所述视频数据中,每秒截取若干帧图片,得到所述图像数据;其中,所述相机设备至少包括以下任一种:单目rgb相机、双目rgb相机、深度相机;通过所述雷达设备,采集所述智能驾驶车辆行驶过程中的点云数据;其中,所述雷达设备至少包括以下任一种:激光雷达、毫米波雷达。
8.在一种可行的实施方式中,对所述多模态数据中的每种模态数据分别进行预处理,具体包括:对所述图像数据进行图像噪声去除处理,并对所述图像数据中的图像参数进
行数据增强;其中,所述图像参数至少包括图像对比度以及图像亮度;将所述点云数据中的的不成群噪声点、与地面混合在一起的噪声点进行去除处理;并对去噪后的点云数据进行畸变去除处理。
9.在一种可行的实施方式中,对每种模态数据对应的特异性特征进行融合,得到融合特征向量,具体包括:将所述每种模态数据对应的特异性特征输入到多层感知器mlp中,得到被查向量以及内容向量;将隐空间向量输入到所述多层感知器mlp中,得到查询向量;通过交叉注意力模块,将所述被查向量、所述内容向量以及所述查询向量进行融合,以将所述特异性特征转换到隐空间内,得到所述融合特征向量;其中,所述融合特征向量的长度与所述隐空间向量的长度相同。
10.在一种可行的实施方式中,根据多个预设学习任务构建对应的多个解码输出头,具体包括:通过多个自注意力模块,针对不同的预设学习任务,分别构建对应的解码器输出头;其中,所述预设学习任务至少包括:目标检测任务、全景分割任务、车辆行驶状态评估任务;所述解码器输出头至少包括:目标检测输出头、全景分割输出头、车辆行驶状态评估输出头。
11.在一种可行的实施方式中,根据所述多个解码输出头构建多任务学习模型,具体包括:在每个所述自注意力模块之后,创建一个包含两层线性变换的前向传播网络ffn模块,并构建非线性的relu激活函数;创建空洞空间卷积池化金字塔aspp模块,以提高所述多任务模型的特征感受野;其中,所述空洞空间卷积池化金字塔aspp模块共有四个并联分支,包括一个1
×
1的普通卷积层、两个3
×
3的膨胀卷积层以及一个池化上采样模块;将adamw算法作为梯度下降优化器,优化所述多任务模型的多任务损失,以减少过拟合;将所述自注意力模块、所述空洞空间卷积池化金字塔aspp模块、所述relu激活函数、所述梯度下降优化器以及所述多个解码输出头,构建为所述多任务学习模型。
12.在一种可行的实施方式中,所述自注意力模块采用的自注意力机制计算公式为:其中,q为所述查询向量,k为所述被查向量,v为所述内容向量,dk为指定常数。
13.在一种可行的实施方式中,通过所述融合特征向量对所述多任务学习模型进行优化训练,得到智能驾驶多任务学习模型,具体包括:将所述融合特征向量输入到所述多任务学习模型中进行训练,并通过指定数据集对训练好的多任务学习模型进行验证;根据验证得到的准确率,对所述多任务学习模型中的超参数进行微调,以使所述多任务学习模型达到最高准确率;其中,所述超参数至少包括学习率以及学习批次。
14.第二方面,本技术实施例还提供了一种智能驾驶多任务学习模型构建设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据上述任一实施方式所述的一种智能驾驶多任务学习模型构建方法。
15.第三方面,本技术实施例还提供了一种存储介质,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行根据根据上述任一实施方式所述的智能驾驶多任务学习模型构建方法。
16.本技术实施例通过使用单目rgb相机、双目rgb相机、深度相机、激光雷达、毫米波雷达、声音检测单元、车载传感器等设备模块采集主车在行驶过程中产生的多模态感知数据,以及交互体和周边环境的多模态感知数据。运用模式识别和深度学习方法,设计了一种基于交叉注意力机制的多模态数据特异性特征提取方法和基于transformer、自注意力机制的多任务学习模型。本技术提出的方法和模型可以在智能驾驶领域采集工具智能化、行驶状况复杂化、评估维度精细化的背景下,融合多模态感知数据的特异性特征,使用多任务学习策略,一方面可以充分利用行驶过程中产生集感知到的多模态数据,另一方面可以提升模型效率,简化数据模态增加或学习任务类型增加时的模型修改复杂度,切实提升智能驾驶软件的可靠性与高效性。
附图说明
17.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
18.图1为本技术实施例提供的一种智能驾驶多任务学习模型构建方法流程图;
19.图2为本技术实施例提供的一种智能驾驶多任务学习模型构建设备的结构示意图。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
21.本技术实施例提供了一种智能驾驶多任务学习模型构建方法,如图1所示,智能驾驶多任务学习模型构建方法具体包括步骤s101-s106:
22.s101、通过智能驾驶车辆上安装的数据采集设备,采集智能驾驶车辆行驶过程中产生的多模态数据。
23.具体地,在智能驾驶车辆上的指定位置安装多个数据采集设备,数据采集设备包括相机设备以及雷达设备。然后通过数据采集设备,采集智能驾驶车辆行驶过程中产生的多模态数据。
24.作为一种可行的实施方式,通过安装在智能驾驶车辆上的各个相机设备,采集智能驾驶车辆行驶过程中的视频数据,并在视频数据中,每秒截取若干帧图片,得到图像数据。其中,相机设备至少包括以下任一种:单目rgb相机、双目rgb相机、深度相机。然后通过雷达设备,采集智能驾驶车辆行驶过程中的点云数据。其中,雷达设备至少包括以下任一种:激光雷达、毫米波雷达。
25.在一个实施例中,相机采集以30帧每秒的1280*720的视频数据,在视频数据中,每秒截取5帧图片。
26.s102、对多模态数据中的每种模态数据分别进行预处理。
27.具体地,对图像数据进行图像噪声去除处理,并对图像数据中的图像参数进行数据增强。其中,图像参数至少包括图像对比度以及图像亮度。
28.进一步地,将点云数据中的的不成群噪声点、与地面混合在一起的噪声点进行去除处理。并对去噪后的点云数据进行畸变去除处理。
29.在一个实施例中,采用opencv的去噪滤波算法对相机采集的数据进行图像噪声去除、数据增强处理。并进一步进行对比度、亮度等数据增强操作。对激光雷达采集的点云数据进行噪声滤除、畸变去除操作,噪声包括滤除激光雷达扫描法获取的点云数据中不成群的噪声点、与地面点混合在一起的噪声点。
30.s103、通过模态数据编码器,对预处理后的每种模态数据进行特征编码,分别得到对应的特异性特征。
31.具体地,基于编码器(encoder)-解码器(decoder)的思想,将各模态数据以各自的模特数据编码器进行特征编码,得到编码特征,即特异性特征。
32.s104、对每种模态数据对应的特异性特征进行融合,得到融合特征向量。
33.具体地,将每种模态数据对应的特异性特征输入到多层感知器mlp中,得到被查向量以及内容向量。将隐空间向量输入到多层感知器mlp中,得到查询向量。
34.进一步地,通过交叉注意力模块,将被查向量、内容向量以及查询向量进行融合,以将特异性特征转换到隐空间内,得到融合特征向量。其中,融合特征向量的长度与隐空间向量的长度相同。
35.在一个实施例中,通过交叉注意力机制(cross-attention)将特异性特征转换到一个固定大小的隐空间(latent space)。这个结构对输入或输出大小没有二次时间复杂度的依赖性,因为编码器和解码器注意模块分别线性依赖于输入和输出大小,而隐空间的注意力模块独立于输入和输出大小。具体的,cross-attention模块参考了transformer中解码器的多头注意力,其输入来自于模态数据编码器的输出以及前序处理的隐空间解码器的输入,多模态数据向量使用多层感知器获得被查向量k和内容向量v,隐空间向量通过多层感知器获得查询向量q。q、k、v向量通过cross-attention融合后得到长度为n的向量,这样将原始数据的长度m降低为与隐空间向量相同的长度n。
36.s105、根据多个预设学习任务,构建对应的多个解码输出头,并根据多个解码输出头构建多任务学习模型。
37.具体地,通过多个自注意力模块,针对不同的预设学习任务,分别构建对应的解码器输出头。其中,预设学习任务至少包括:目标检测任务、全景分割任务、车辆行驶状态评估任务;解码器输出头至少包括:目标检测输出头、全景分割输出头、车辆行驶状态评估输出头。预设学习任务与解码器输出头一一对应。
38.进一步地,在每个自注意力模块之后,创建一个包含两层线性变换的前向传播网络ffn模块,并构建非线性的relu激活函数。创建空洞空间卷积池化金字塔aspp模块,以提高多任务模型的特征感受野。其中,空洞空间卷积池化金字塔aspp模块共有四个并联分支,包括一个1
×
1的普通卷积层、两个3
×
3的膨胀卷积层以及一个池化上采样模块。然后将adamw算法作为梯度下降优化器,优化多任务模型的多任务损失,以减少过拟合。
39.进一步地,将自注意力模块、空洞空间卷积池化金字塔aspp模块、relu激活函数、
梯度下降优化器以及多个解码输出头,构建为多任务学习模型。
40.作为一种可行的实施方式,在多模态数据的特异性特征提取到一个固定大小的隐空间后,需要进一步进行多任务学习,本技术结合transformer和自注意力机制(self-attention),针对不同的学习任务分别构建解码器输出头,如目标检测输出头、全景分割输出头、车辆行驶状态评估输出头等。而在每个自注意力模块后,都追加一个前向传播网络(feed-forward network,ffn)模块,其包含了2层线性变换(linear transformation),并采用非线性的relu激活函数,变换了注意力输出的空间,从而提升了模型的表现能力。本技术提出的多任务学习模型结合了空洞空间卷积池化金字塔(atrous spatial pyramid pooling,aspp)模块以提高特征感受野,该模块一共有四个并联分支,有1
×
1的普通卷积层、两个3
×
3的膨胀卷积层和一个池化上采样模块,实现了在不降采样的前提下增大网络的感受野,从而增强网络获得多尺度上下文的能力。本技术提出的多任务学习模型采用了relu作为激活函数,通过加入随机性使训练结果更加鲁棒。还采用了adamw作为梯度下降优化器优化多任务损失以减少过拟合。自注意力模块、目标检测任务和目标跟踪任务输出头用于多任务学习,并依次实现aspp模块、gelu激活函数以及adamw优化器,搭建起整个网络结构。并分别在公开数据集bosch、cityscapes、kitti数据集上进行数据预处理、模型训练与测试。
41.作为一种可行的实施方式,自注意力模块采用的自注意力机制计算公式为:其中,q为查询向量,k为被查向量,v为内容向量,dk为指定常数。
42.s106、通过所述融合特征向量对多任务学习模型进行优化训练,得到智能驾驶多任务学习模型。
43.具体地,将融合特征向量输入到多任务学习模型中进行训练,并通过指定数据集对训练好的多任务学习模型进行验证。根据验证得到的准确率,对多任务学习模型中的超参数进行微调,以使多任务学习模型达到最高准确率。其中,超参数至少包括学习率以及学习批次。
44.另外,本技术实施例还提供了一种智能驾驶多任务学习模型构建设备,如图2所示,智能驾驶多任务学习模型构建设备具体包括:
45.至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,
46.存储器存储有能够被至少一个处理器执行的指令,以使至少一个处理器能够执行:
47.通过智能驾驶车辆上安装的数据采集设备,采集所述智能驾驶车辆行驶过程中产生的多模态数据;其中,所述多模态数据至少包括以下模态数据:图像数据以及点云数据;
48.对所述多模态数据中的每种模态数据分别进行预处理;
49.通过模态数据编码器,对预处理后的每种模态数据进行特征编码,分别得到对应的特异性特征;
50.对每种模态数据对应的特异性特征进行融合,得到融合特征向量;
51.根据多个预设学习任务,构建对应的多个解码输出头,并根据所述多个解码输出头构建多任务学习模型;
52.通过所述融合特征向量对所述多任务学习模型进行优化训练,得到智能驾驶多任务学习模型。
53.另外,本技术实施例还提供了一种存储介质,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行:
54.通过智能驾驶车辆上安装的数据采集设备,采集所述智能驾驶车辆行驶过程中产生的多模态数据;其中,所述多模态数据至少包括以下模态数据:图像数据以及点云数据;
55.对所述多模态数据中的每种模态数据分别进行预处理;
56.通过模态数据编码器,对预处理后的每种模态数据进行特征编码,分别得到对应的特异性特征;
57.对每种模态数据对应的特异性特征进行融合,得到融合特征向量;
58.根据多个预设学习任务,构建对应的多个解码输出头,并根据所述多个解码输出头构建多任务学习模型;
59.通过所述融合特征向量对所述多任务学习模型进行优化训练,得到智能驾驶多任务学习模型。
60.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
61.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
62.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术的实施例可以有各种更改和变化。凡在本技术实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1