一种跨模态多任务环境感知方法及系统

文档序号：36412446发布日期：2023-12-19 05:10阅读：25来源：国知局

本发明涉及车辆自动驾驶领域，特别是涉及一种跨模态多任务环境感知方法及系统。

背景技术：

1、自动驾驶车辆包括感知、决策及规划控制模块，在统一框架下构建鲁棒的包含车辆周围动、静态信息的环境感知系统，有助于提升后续决策、规划任务的性能。

2、现有的环境感知系统以多模态传感器的观测信息为输入，首先通过数据级融合或特征级融合实现多模态信息融合，然后在不同框架下分别执行在线3d检测和离线高精度地图生成，最后将不同框架下的感知结果转换到统一空间以构建包含车辆周围动、静态信息的环境感知系统。现有方法主要存在以下缺点：

3、1)现有方法需要在不同的框架下分别执行在线3d检测和离线高精度地图生成，通过将不同框架下的感知结果转换到统一空间以构建环境感知系统，降低了环境感知的效率。

4、2)现有方法需要基于离线高精度地图来构建环境感知系统，而离线高精度地图的生成是复杂且昂贵的，难以覆盖所有道路场景，限制了自动驾驶车辆的应用范围。

5、3)现有基于数据级融合或特征级融合的环境感知方法不能够充分利用多模态传感器的观测信息，限制了感知系统在恶劣环境下的鲁棒性，例如传感器不对齐和恶劣天气等。

6、因此，充分融合车载多模态传感器的观测信息，并在统一框架下联合执行3d检测和局部高精度地图生成，对于构建高效、鲁棒的环境感知系统至关重要。

技术实现思路

1、本发明的目的是提供一种跨模态多任务环境感知方法及系统，能够在统一框架下构建高效、鲁棒的环境感知系统，实现对车辆周围动、静态信息的感知。

2、为实现上述目的，本发明提供了如下方案：

3、一种跨模态多任务环境感知方法，包括：

4、获取观测信息；所述观测信息包括：利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息；

5、利用第一特征提取网络提取图像的多尺度特征，并构建特征金字塔网络；

6、将雷达点云信息投影到图像平面得到稀疏深度图，并使用opencv形态学操作对稀疏深度图进行深度补全得到密集深度图；

7、利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合，实现多模态信息数据级融合，根据融合特征预测图像中每个像素的上下文向量和离散深度概率，并沿相机射线投影到3d空间，生成图像特征点云；

8、利用鸟瞰图池化操作将图像特征点云转换到bev空间，生成相机bev特征；

9、将雷达点投影到图像平面以捕获对应的关联像素，以关联像素为中心构建关联区域，并利用最大池化操作提取关联区域的关联向量；

10、将雷达点与对应的关联向量进行串联，实现多模态信息数据级融合，并利用第二特征提取网络提取融合后的雷达点云的特征信息，生成雷达bev特征；

11、利用注意力机制在共享bev空间中将相机bev特征和雷达bev特征融合，实现多模态信息bev级融合，生成强bev特征；

12、在强bev特征上联合执行3d检测和局部高精度地图生成，构建环境感知系统。

13、可选地，所述第一特征提取网络为swin-t网络。

14、可选地，所述利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合，实现多模态信息数据级融合，根据融合特征预测图像中每个像素的上下文向量和离散深度概率，并沿相机射线投影到3d空间，生成图像特征点云，具体包括以下：

15、pd＝αd×c；

16、其中，pd为图像特征点云中与像素p对应且深度为d处的特征信息，αd为离散深度概率，c为像素p处的上下文向量。

17、可选地，所述利用鸟瞰图池化操作将图像特征点云转换到bev空间，生成相机bev特征，之前还包括：

18、利用precalculation方法和interval reduction方法对鸟瞰图池化进行优化。

19、可选地，所述第二特征提取网络为voxelnet网络。

20、可选地，所述利用注意力机制在共享bev空间中将相机bev特征和雷达bev特征融合，实现多模态信息bev级融合，生成强bev特征，具体包括以下公式：

21、

22、其中，fa为融合特征图，q为雷达bev特征的查询向量，k、v分别为相机bev特征的键和值，softmax为非极大值抑制，dk为通道维度的缩放系数。

23、一种跨模态多任务环境感知系统，包括：

24、观测信息获取模块，用于获取观测信息；所述观测信息包括：利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息；

25、图像特征提取模块，用于利用第一特征提取网络提取图像的多尺度特征，并构建特征金字塔网络；

26、图像深度图生成模块，用于将雷达点云信息投影到图像平面得到稀疏深度图，并使用opencv形态学操作对稀疏深度图进行深度补全得到密集深度图；

27、图像特征点云生成模块，用于利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合，实现多模态信息数据级融合，根据融合特征预测图像中每个像素的上下文向量和离散深度概率，并沿相机射线投影到3d空间，生成图像特征点云；

28、相机bev特征提取模块，用于利用鸟瞰图池化操作将图像特征点云转换到bev空间，生成相机bev特征；

29、关联向量提取模块，用于将雷达点投影到图像平面以捕获对应的关联像素，以关联像素为中心构建关联区域，并利用最大池化操作提取关联区域的关联向量；

30、雷达bev特征提取模块，用于将雷达点与对应的关联向量进行串联，实现多模态信息数据级融合，并利用第二特征提取网络提取融合后的雷达点云的特征信息，生成雷达bev特征；

31、多模态特征自适应融合模块，用于利用注意力机制在共享bev空间中将相机bev特征和雷达bev特征融合，实现多模态信息bev级融合，生成强bev特征；

32、多任务头模块，用于在强bev特征上联合执行3d检测和局部高精度地图生成，构建高效、鲁棒的环境感知系统。

33、根据本发明提供的具体实施例，本发明公开了以下技术效果：

34、本发明所提供的一种跨模态多任务环境感知方法及系统，根据稀疏雷达点云信息生成密集深度图；利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合，根据融合特征预测图像中每个像素的上下文向量和离散深度概率，并沿相机射线投影到3d空间，生成图像特征点云；利用鸟瞰图池化操作将图像特征点云转换到bev空间，生成相机bev特征；将雷达点投影到图像平面以捕获对应的关联像素，以关联像素为中心构建关联区域，并利用最大池化操作提取关联区域的关联向量；将雷达点与对应的关联向量进行串联，并利用雷达特征提取网络提取融合后的雷达点云的特征信息，生成雷达bev特征；利用注意力机制将相机bev特征和雷达bev特征融合，生成强bev特征；在强bev特征上联合执行3d检测和局部高精度地图生成，构建高效、鲁棒的环境感知系统；即通过基于深度指导的相机视角转换、基于区域关联的数据级融合和基于注意力机制的bev级融合来充分利用多模态传感器的观测信息，生成强bev特征，提升环境感知系统在恶劣环境下的鲁棒性；在统一框架下联合执行3d检测和局部高精度地图生成，实现对车辆周围动、静态信息的感知，提升环境感知系统的效率。本发明提供一种跨模态多任务环境感知方法及系统，用以解决当前环境感知系统效率低、对恶劣环境鲁棒性差的问题，实现对车辆周围动、静态信息高效且鲁棒的感知。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚建伟贾鹏齐建永王博洋王羽纯张宇波白锐乐亮王泽麟
技术所有人：北理慧动（北京）教育科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。