多模态融合弱监督车辆目标检测方法及系统与流程

文档序号:27943216发布日期:2021-12-11 13:26阅读:323来源:国知局
多模态融合弱监督车辆目标检测方法及系统与流程

1.本发明涉及目标检测技术领域,尤其是指一种多模态融合弱监督车辆目标检测方法及系统。


背景技术:

2.场景理解中的一项关键任务是对三维对象进行检测,它已经成为自动驾驶等各种应用领域的热点研究问题,三维目标检测技术的目的是从输入的传感器数据中检测并定位被检测物体的三维边界框。现有的三维对象检测器大多是基于完全监督学习的,在缺少3d标签的场景应用中需要人工在非规则化的点云数据中标签大量的模态三维边界框,标签过程的时间成本极大地限制了三维物体检测技术的应用。
3.弱监督检测是一种能有效减少目标检测对训练标签依赖的方法,但现有的弱监督对象检测器主要用于二维物体检测,而不是三维检测。寻找实现3d对象检测的弱监督甚至无监督学习的方法,可以极大地降低检测器对培训标签的依赖,减少标签成本。因此,研究弱监督或半监督的三维物体检测器模型,从而适应缺少3d标签的场景,具有非常重要的现实意义。
4.另一方面,现有的目标检测方法大都使用视觉传感器,在室外环境下极易受光照,能见度等因素干扰,而且单靠视觉传感器获取深度信息精度也无法保证。


技术实现要素:

5.为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种多模态融合弱监督车辆目标检测方法及系统,在不依赖标签的情况下获取点云特征和图像特征,极大程度降低了3d目标检测对语义标签的依赖,并且显著提高了检测精度,使得目标检测的准确度和适用性得到了进一步的提高。
6.为解决上述技术问题,本发明提供一种多模态融合弱监督车辆目标检测方法,包括以下步骤:获取场景中的3d激光点云数据以及图像数据;基于所述3d激光点云数据获取3d预测框参数,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征,同时基于所述3d激光点云数据获取2d点云地图,对所述2d点云地图进行特征提取,获得2d点云地图的特征;将所述3d预测框的特征与基于所述图像数据获取的图像的特征进行融合,获得第一阶段融合特征,基于所述第一阶段融合特征生成2d目标检测框,同时将所述3d预测框的特征与2d点云地图的特征进行融合,获得第二阶段融合特征,基于所述第二阶段融合特征生成3d候选预测框;基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选,输出用于对所述场景中的目标物体进行检测的3d目标检测框,其中,所述3d目标检测框为过滤筛选后的3d候选预测框。
7.在本发明的一个实施例中,场景中的所述3d激光点云数据通过激光雷达装置获取,场景中的所述图像数据通过rgb图像采集装置获取。
8.在本发明的一个实施例中,基于所述3d激光点云数据获取3d预测框参数的方法包括:利用地面真值监督对所述3d激光点云数据预设范围锚点,将范围锚点内的3d激光点云数据通过pointnet网络进行特征学习,提取3d激光点云特征,并基于所述3d激光点云特征获取3d预测框参数。
9.在本发明的一个实施例中,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征的方法包括:利用pointnet网络对3d预测框参数进行学习,得到连续参数的3d预测框,之后删除重叠的3d预测框,获得3d预测框的特征。
10.在本发明的一个实施例中,基于所述3d激光点云数据获取2d点云地图的方法包括:所述3d激光点云数据利用预设锚点投影生成基于同一锚点的2d点云地图。
11.在本发明的一个实施例中,基于所述图像数据获取图像的特征的方法包括:利用训练好的预训练模型基于所述图像数据获取图像的特征。
12.在本发明的一个实施例中,基于所述第一阶段融合特征生成2d目标检测框的方法包括:对所述第一阶段融合特征进行分类、回归与投影,生成2d目标检测框。
13.在本发明的一个实施例中,基于所述第二阶段融合特征生成3d候选预测框包括:将所述第二阶段融合特征输入至基于注意力机制的编码器与解码器中进行处理,获得3d候选预测框。
14.在本发明的一个实施例中,基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选的方法包括:将所述3d候选预测框投影成2d候选预测框,判断所述2d候选预测框与所述2d目标检测框的相似度是否大于设定的相似度阈值,若判断结果为否,则遍历所述3d候选预测框,若判断结果为是,则继续判断该3d候选预测框的置信度是否大于设定的监督置信度阈值,若判断为否,则返回遍历3d候选预测框的步骤,若判断结果为是,则输出该3d候选预测框。
15.此外,本发明还提供一种多模态融合弱监督车辆目标检测系统,包括:数据获取模块,所述数据获取模块用于获取场景中的3d激光点云数据以及图像数据;点云数据处理模块,所述点云数据处理模块用于基于所述3d激光点云数据获取3d预测框参数,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征,同时基于所述3d激光点云数据获取2d点云地图,对所述2d点云地图进行特征提取,获得2d点云地图的特征;特征融合模块,所述特征融合模块用于将所述3d预测框的特征与基于所述图像数据获取的图像的特征进行融合,获得第一阶段融合特征,基于所述第一阶段融合特征生成2d目标检测框,同时将所述3d预测框的特征与2d点云地图的特征进行融合,获得第二阶段融合特征,基于所述第二阶段融合特征生成3d候选预测框;
网络监督模块,所述网络监督模块用于基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选,输出用于对所述场景中的目标物体进行检测的3d目标检测框,其中,所述3d目标检测框为过滤筛选后的3d候选预测框。
16.本发明的上述技术方案相比现有技术具有以下优点:本发明在不依赖标签的情况下获取点云特征和图像特征,极大程度降低了3d目标检测对语义标签的依赖,并且,本发明将点云特征、图像特征以及点云特征自身进行多阶段融合,通过网络监督的方式输出用于对所述场景中的目标物体进行检测的3d目标检测框,显著提高了检测精度,使得目标检测的准确度和适用性得到了进一步的提高。
附图说明
17.为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
18.图1是本发明多模态融合弱监督车辆目标检测方法的一流程示意图。
19.图2是本发明多模态融合弱监督车辆目标检测方法的另一流程示意图。
20.图3是本发明多模态融合弱监督车辆目标检测系统的硬件结构示意图。
21.其中,附图标记说明如下:10、数据获取模块;20、点云数据处理模块;30、特征融合模块;40、网络监督模块。
具体实施方式
22.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
23.实施例一请参阅图1和2所示,本实施例提供一种多模态融合弱监督车辆目标检测方法,包括以下步骤:s100:获取场景中的3d激光点云数据以及图像数据;s200:基于所述3d激光点云数据获取3d预测框参数,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征,同时基于所述3d激光点云数据获取2d点云地图,对所述2d点云地图进行特征提取,获得2d点云地图的特征;s300:将所述3d预测框的特征与基于所述图像数据获取的图像的特征进行融合,获得第一阶段融合特征,基于所述第一阶段融合特征生成2d目标检测框,同时将所述3d预测框的特征与2d点云地图的特征进行融合,获得第二阶段融合特征,基于所述第二阶段融合特征生成3d候选预测框;s400:基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选,输出用于对所述场景中的目标物体进行检测的3d目标检测框,其中,所述3d目标检测框为过滤筛选后的3d候选预测框。
24.其中,本公开描述的场景可以是车辆的前方场景,包括正前方场景、侧前方场景,例如本车的前方场景。
25.在本公开的多模态融合弱监督车辆目标检测方法中,上述3d激光点云数据以及图像数据采集自同一场景。
26.在本公开的多模态融合弱监督车辆目标检测方法中,场景中的所述3d激光点云数据通过激光雷达装置获取,场景中的所述图像数据通过rgb图像采集装置获取。例如利用普通rgb相机在任意场景中获取彩色图像数据。又或者将激光雷达32/64线置于车辆上方,以激光雷达为车辆坐标系的原点与激光雷达点云坐标系进行转换,利用旋转矩阵和平移矩阵转换即可得到3d激光点云数据。
27.场景理解中的一项关键任务是对三维对象进行检测,本公开的多模态融合弱监督车辆目标检测方法采用对同一场景中3d激光点云数据和图像数据进行特征融合的方法,使得物体目标的检测准确度有了进一步的提高。
28.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s200中,基于所述3d激光点云数据获取3d预测框参数的方法包括:利用少量的地面真值监督对所述3d激光点云数据预设范围锚点,将范围锚点内的3d激光点云数据通过pointnet网络进行特征学习,提取3d激光点云特征,并基于所述3d激光点云特征获取3d预测框参数。
29.其中,3d激光点云数据在经过pointnet网络时,根据数据的x,y,z坐标(长、宽、高)和深度d的特征,设置特征点的维数和种子点的数目,以及种子点的特征范围半径r,经过多个特征提取层,生成少量具有局部提案的高质量的种子点,使用种子点作为3d预测框的中心点,并使用votenet网络对中心种子点进行投票,得到3d预测框的参数。
30.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s200中,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征的方法包括:利用pointnet网络对3d预测框参数进行学习,得到连续参数的3d预测框,之后删除重叠的3d预测框,获得3d预测框的特征。
31.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s200中,基于所述3d激光点云数据获取2d点云地图的方法包括:所述3d激光点云数据利用预设锚点投影生成基于同一锚点的2d点云地图,由于点云数据受激光雷达稀疏性的影响,利用归一化点云密度进行投影的筛选条件,之后采用resnet

50残差网络进行特征提取。
32.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s300中,基于所述图像数据获取图像的特征的方法包括:利用训练好的预训练模型基于所述图像数据获取图像的特征。
33.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s400中,基于所述第一阶段融合特征生成2d目标检测框的方法包括:对所述第一阶段融合特征进行分类、回归与投影,生成2d目标检测框。
34.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s400中,基于所述第二阶段融合特征生成3d候选预测框包括:将所述第二阶段融合特征输入至基于注意力机制的编码器与解码器中进行处理,获得3d候选预测框。具体的,编码器与解码器包括查询矩阵、键矩阵、值矩阵以及多个注意力头组成。其中单个注意力头首先将键矩阵与值矩阵作为输入经过线性变化之后做特征交叉计算,之后加入位置掩码进一步学习全局与本地提案之间的特征,接下来softmax层来计算每个位置预测目标的分数,查询矩阵经过线性变化直接与预测目标分数的特征进行融合输出。
35.上述步骤s400中生成的2d目标检测框,由于2d目标检测框来自任意场景下的任意类别图像的数据进行学习训练而来,由于其检测准确度在2d目标检测方法效果很好。本发
明可以将由rgb彩色相机采集的图像经过多层特征提取最终生成2d目标检测框的整个过程看作是教师网络,而由激光雷达扫描后的点云数据经过特征提取、特征融合以及生成3d候选预测框的整个过程可以看作是学生网络。
36.对于上述实施方式的多模态融合弱监督车辆目标检测方法,在步骤s400中,基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选的方法包括:将所述3d候选预测框投影成2d候选预测框,判断所述2d候选预测框与所述2d目标检测框的相似度是否大于设定的相似度阈值,若判断结果为否,则遍历所述3d候选预测框,若判断结果为是,则继续判断该3d候选预测框的置信度是否大于设定的监督置信度阈值,若判断为否,则返回遍历3d候选预测框的步骤,若判断结果为是,则输出该3d候选预测框。
37.对于上述实施方式的多模态融合弱监督车辆目标检测方法,利用教师网络对学生网络进行监督,学生网络从教师网络学习知识并评估自身的目标检测网络,由于不同数据集之间的差距,教师网络并不总是能够监督学生网络,特别是当教师网络对自己的预测没有信心时。本发明通过设定监督置信度阈值来评估学生网络与教师网络之间的信任度,当教师网络的置信度大于等于设定的阈值时,学生网络在教师网络的监督下最终输出用于对场景中的目标物体进行检测的3d目标检测框,其中,所述3d目标检测框为过滤筛选后的3d候选预测框。
38.本发明在不依赖标签的情况下获取点云特征和图像特征,极大程度降低了3d目标检测对语义标签的依赖,并且,本发明将点云特征、图像特征以及点云特征自身进行多阶段融合,通过网络监督的方式输出用于对所述场景中的目标物体进行检测的3d目标检测框,显著提高了检测精度,使得目标检测的准确度和适用性得到了进一步的提高。
39.实施例二下面对本发明实施例二公开的一种多模态融合弱监督车辆目标检测系统进行介绍,下文描述的一种多模态融合弱监督车辆目标检测系统与上文描述的一种多模态融合弱监督车辆目标检测方法可相互对应参照。
40.请参阅图3所示,本发明实施例二公开了一种多模态融合弱监督车辆目标检测系统,具体包括以下模块。
41.数据获取模块10,所述数据获取模块10用于获取场景中的3d激光点云数据以及图像数据;点云数据处理模块20,所述点云数据处理模块20用于基于所述3d激光点云数据获取3d预测框参数,对所述3d预测框参数进行网格池化特征提取,获得3d预测框的特征,同时基于所述3d激光点云数据获取2d点云地图,对所述2d点云地图进行特征提取,获得2d点云地图的特征;特征融合模块30,所述特征融合模块30用于将所述3d预测框的特征与基于所述图像数据获取的图像的特征进行融合,获得第一阶段融合特征,基于所述第一阶段融合特征生成2d目标检测框,同时将所述3d预测框的特征与2d点云地图的特征进行融合,获得第二阶段融合特征,基于所述第二阶段融合特征生成3d候选预测框;网络监督模块40,所述网络监督模块40用于基于所述2d目标检测框和设定的图像与点云之间的监督置信度阈值对所述3d候选预测框进行过滤筛选,输出用于对所述场景中
的目标物体进行检测的3d目标检测框,其中,所述3d目标检测框为过滤筛选后的3d候选预测框。
42.基于多模态融合弱监督车辆目标检测系统可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该系统可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
43.该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。
44.本实施例的多模态融合弱监督车辆目标检测系统用于实现前述的多模态融合弱监督车辆目标检测方法,因此该系统的具体实施方式可见前文中的多模态融合弱监督车辆目标检测方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
45.另外,由于本实施例的多模态融合弱监督车辆目标检测系统用于实现前述的多模态融合弱监督车辆目标检测方法,因此其作用与上述方法的作用相对应,这里不再赘述。
46.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
47.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
48.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
49.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
50.显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变
动仍处于本发明创造的保护范围之中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1