一种鸟瞰图3D检测模型的训练方法及系统与流程

文档序号:34884738发布日期:2023-07-25 15:09阅读:35来源:国知局
一种鸟瞰图3D检测模型的训练方法及系统与流程

本技术涉及自动驾驶,具体而言,涉及一种鸟瞰图3d检测模型的训练方法及系统。


背景技术:

1、自动驾驶作为新一代智能汽车的关键技术,已经被越来越多厂商所重视。一般而言,整个自动驾驶系统由三大模块组成:感知融合模块、决策规划模块、控制模块,其中感知融合作为另外两个模块的前置模块,其感知的精度将直接决定整个自动驾驶系统的性能。

2、当前感知模块的技术已经不限于传统的单前视摄像头(forward camera)配置,各大厂商都开始利用环绕车身的多个摄像头进行360度无死角的环绕感知,最常见的在前视、后视、左前、左后、右前、右后各设置一个,这六个摄像头对不同视角的图像信息进行采集,然后将图像信息送入环绕感知模型,后者直接输出鸟瞰图(bev:birdeyes view)语义信息。这里所论述的鸟瞰图特指从本车正上方俯视观察获取的鸟瞰图。鸟瞰图语义信息指的是鸟瞰图的语义分割,其分割元素按照需求进行定义,包括静目标,如车道线和可行驶区域,包括动目标,如车辆和行人等。

3、然而,现有的3d检测任务相较于以往常规的视觉任务(如分类、2d检测等)更加复杂且容易出现噪声,因此,需要大量的人工标注生成有标签的训练集,导致人工成本过高。


技术实现思路

1、本技术实施例的目的在于提供一种鸟瞰图3d检测模型的训练方法及系统,用以解决现有的3d检测任务相较于以往常规的视觉任务(如分类、2d检测等)更加复杂且容易出现噪声,因此,需要大量的人工标注生成有标签的训练集,导致人工成本过高的问题。

2、本技术实施例提供的一种鸟瞰图3d检测模型的训练方法,包括:

3、将无标签的相邻时序的两个视频帧分别送入相同结构的第一3d检测模型和第二3d检测模型,并分别得到第一bev特征和第二bev特征;其中,第一3d检测模型设置为用于进行训练学习,第二3d检测模型设置为动量更新或参数共享;

4、根据第一bev特征和第二bev特征进行相似度比较并计算损失函数,通过反向传播更新第一3d检测模型的模型参数,得到预训练后的第一3d检测模型;

5、将有标签的视频帧送入预训练后的第一3d检测模型,继续训练,得到训练后的第一3d检测模型。

6、上述技术方案中,基于对比自监督学习的方式,将视频中在时间序列上相邻的两个视频帧分别送入第一3d检测模型和第二3d检测模型,进行第一3d检测模型的预训练,以迭代的方式更新第一3d检测模型的模型参数;之后,在经过预训练的第一3d检测模型基础上,通过较少的有标签样本,进行对第一3d检测模型的有监督训练,实现对第一3d检测模型的模型参数进一步微调,即可得到训练后的第一3d检测模型。本实施例提供的模型训练方法,能够减少对人工标注的需求,降低人工成本。

7、在一些可选的实施方式中,视频帧的获取,包括:

8、通过多个相机,分别得到相同鸟瞰视角的多个第一特征张量;

9、对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。

10、若是对视频帧进行人工标注,就得到了有标签的视频帧,有标签的视频帧可以用于后续的有监督训练。

11、在一些可选的实施方式中,视频帧的获取,还包括:

12、通过多个相机和多个雷达,分别得到相同鸟瞰视角的多个第一特征张量和多个第二特征张量;

13、对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。

14、本实施例中具体包括如下步骤:

15、多个相机按预设拍摄频率对自车周围环境进行图像拍摄得到对应的图像,并根据图像的实时拍摄时间生成对应的时间戳;按预先分配的拍摄角度对各个相机进行顺序编号生成对应的相机编号;按相机编号的顺序,对时间戳匹配的多个图像进行排序生成对应的图像序列;为图像序列分配一个对应的时间戳作为图像时间戳;使用bevformer模型基于预设的以自车为中心的鸟瞰栅格图尺寸h×w,对图像序列进行图像特征提取和鸟瞰栅格特征分割处理得到形状为h×w×c1的鸟瞰栅格特征图;将鸟瞰栅格特征图作为图像特征张量;图像特征张量的形状为h×w×c1,h为预设的鸟瞰栅格图深度、w为预设的鸟瞰栅格图宽度、c1为鸟瞰栅格图的栅格特征维度。

16、多个雷达按预设扫描频率对自车周围环境进行雷达扫描得到对应的激光雷达点云;并根据本次扫描的起始时间生成对应的激光雷达时间戳;按预先分配的安装角度对各个激光雷达进行顺序编号生成对应的激光雷达编号;按激光雷达编号的顺序,对激光雷达时间戳匹配的多个激光雷达点云进行点云融合处理生成对应的融合点云;为融合点云分配一个对应的时间戳作为点云时间戳;基于预设的以自车为中心的鸟瞰栅格图尺寸h×w和预设的点云体素高度z构建以自车为中心的点云体素空间,并将融合点云中落入形状为h×w×z的点云体素空间的部分点云提取出来作为对应的融合点云对融合点云按点云体素空间中的各个单位体素进行体素点云切割得到h×w×z组体素点云,对各组体素点云进行降采样和体素特征编码生成对应的体素特征,由得到的h×w×z个体素特征构成点云特征张量;点云特征张量的形状为h×w×z×c2,h为预设的鸟瞰栅格图深度、w为预设的鸟瞰栅格图宽度、z为预设的点云体素高度、c2为体素特征的特征维度。

17、最后,将图像时间戳、点云时间戳满足预设的时间戳匹配规则的图像特征张量、点云特征张量作为时间匹配的待融合张量纳入到一组对应的待融合张量集合中;并基于预设的以自车为中心的鸟瞰栅格图尺寸h×w对各个待融合张量集合中的两类特征张量进行特征融合处理得到对应的鸟瞰特征张量。

18、在一些可选的实施方式中,根据第一bev特征和第二bev特征进行相似度比较并计算损失函数,包括:

19、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用l1-loss进行相似度比较并计算损失函数l1:

20、l1=|y_1-y_2|

21、其中,y_1为第一bev特征,y_2为第二bev特征。

22、在一些可选的实施方式中,根据第一bev特征和第二bev特征进行相似度比较并计算损失函数,包括:

23、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用mse-loss进行相似度比较并计算损失函数mse:

24、mse=||y_1-y_2||^2

25、其中,y_1为第一bev特征,y_2为第二bev特征。

26、在一些可选的实施方式中,根据第一bev特征和第二bev特征进行相似度比较并计算损失函数,包括:

27、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用cos-sim进行相似度比较并计算损失函数cos-sim:

28、cos-sim=<y_1,y_2>/(||y_1||×||y_2||)

29、其中,y_1为第一bev特征,y_2为第二bev特征。

30、在一些可选的实施方式中,第一3d检测模型包括:bevdepth检测模型或fast-bev检测模型。

31、其中,bevdepth检测模型是一种具有可信深度估计的三维物体检测器,通过利用激光雷达显式深度监督来提高图像深度估计的可信度,并且,引入了摄像机感知深度估计模块,以增强深度预测能力。fast-bev检测模型能够在车载芯片上执行更快的bev感知,fast-bev是一种轻量级的、部署友好的视图变换,它将2d图像特征快速地转换到3d体素空间。

32、本技术实施例提供的一种鸟瞰图3d检测模型的训练系统,包括:

33、预训练模块,用于将无标签的相邻时序的两个视频帧分别送入相同结构的第一3d检测模型和第二3d检测模型,并分别得到第一bev特征和第二bev特征;其中,第一3d检测模型设置为用于进行训练学习,第二3d检测模型设置为动量更新或参数共享;根据第一bev特征和第二bev特征进行相似度比较并计算损失函数,通过反向传播更新第一3d检测模型的模型参数,得到预训练后的第一3d检测模型;

34、训练模块,用于将有标签的视频帧送入预训练后的第一3d检测模型,继续训练,得到训练后的第一3d检测模型。

35、上述技术方案中,通过预训练模块,基于对比自监督学习的方式,将视频中在时间序列上相邻的两个视频帧分别送入第一3d检测模型和第二3d检测模型,进行第一3d检测模型的预训练,以迭代的方式更新第一3d检测模型的模型参数;之后,通过训练模块,在经过预训练的第一3d检测模型基础上,通过较少的有标签样本,进行对第一3d检测模型的有监督训练,实现对第一3d检测模型的模型参数进一步微调,即可得到训练后的第一3d检测模型,从而能够减少对人工标注的需求,降低人工成本。

36、在一些可选的实施方式中,还包括:

37、视频帧获取模块,用于通过多个相机,分别得到相同鸟瞰视角的多个第一特征张量;对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。

38、在一些可选的实施方式中,视频帧获取模块,还用于:

39、通过多个相机和多个雷达,分别得到相同鸟瞰视角的多个第一特征张量和多个第二特征张量;对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。

40、在一些可选的实施方式中,预训练模块还用于:

41、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用l1-loss进行相似度比较并计算损失函数l1:

42、l1=|y_1-y_2|

43、其中,y_1为第一bev特征,y_2为第二bev特征。

44、在一些可选的实施方式中,预训练模块还用于:

45、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用mse-loss进行相似度比较并计算损失函数:

46、mse=||y_1-y_2||^2

47、其中,y_1为第一bev特征,y_2为第二bev特征。

48、在一些可选的实施方式中,预训练模块还用于:

49、根据第一bev特征和第二bev特征,通过相机运动估计进行对齐后,利用cos-sim进行相似度比较并计算损失函数:

50、cos-sim=<y_1,y_2>/(||y_1||×||y_2||)

51、其中,y_1为第一bev特征,y_2为第二bev特征。

52、本技术实施例提供的一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如以上任一所述的方法。

53、本技术实施例提供的一种计算机可读存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如以上任一所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1