本发明涉及自动驾驶,尤其涉及一种融合视频图像和点云的自动驾驶方法。
背景技术:
1、自动驾驶(autonomous driving)技术是当下科技和产业领域乃至国家战略层面都高度关注的热点技术。一个完整的自动驾驶系统通常由感知、决策规划以及控制执行三大主要模块构成。其中,感知任务的主要目的是利用一系列车载传感器所获得的数据(如雷达、图像等),产生对于整个自动驾驶场景以及场景中的关键目标的定位和分类等预测结果,从而帮助自动驾驶车辆“感受”和“理解”周边环境。感知是自动驾驶的第一步,准确、高效的感知是自动驾驶系统安全稳定运行的重要前提与保障。根据具体应用,自动驾驶感知任务可进一步细分为3d目标跟踪(3d object tracking)、3d空间占用预测(3d spaceoccupancy prediction)、在线地图生成(online map generation)等子任务。高性能自动驾驶感知模型往往高度依赖激光雷达设备,并使用一系列不同的模型来完成不同的感知任务,因此当前的自动驾驶解决方案存在成本高昂、部署不便、灵活性与可扩展性受限等一系列问题。
2、本发明涉及到的感知传感器技术包括毫米波雷达和摄像头,而毫米波雷达是近年来逐渐兴起的一种自动驾驶传感器。相比于激光雷达,毫米波雷达成本较低,在获取路面目标深度,形状信息的同时还能够直接获取目标的速度信息。而且,毫米波雷达在雨雪、雾霾、烟尘等气象条件下能够比激光雷达更加稳定的工作。但是,毫米波雷达得到的数据相比激光雷达更加稀疏。摄像头是最常见的车载传感器之一,摄像头能够获得周围环境的稠密信息,但是由于投影过程丢失了目标的深度信息,单一摄像头往往难以准确感知三维空间位置信息。
3、摄像头与毫米波雷达数据互有优劣,利用图像数据的稠密像素色彩信息,以及毫米波雷达准确的深度,速度信息能够生成对三维空间稠密且位置准确的感知特征。但是,不同模态间数据的巨大差异性也为数据融合带来了巨大的困难。
4、当前,主流自动驾驶技术通常针对不同任务使用多个独立的深度学习模型。这种技术方案至少存在以下三点缺陷:1)数据特征提取是各个任务共有的深度学习网络结构,特征提取网络是现代神经网络模型的基本结构之一。为多个独立模型的训练不同的特征提取网络会带来训练成本的增加;2)感知、预测和规划任务之间存在一定的关联性,数个独立的模型难以利用这种关联性提升自身任务的准确性;3)多个独立模型增加了深度学习模型不必要的冗余,增大了算法的实际部署成本。
技术实现思路
1、为解决背景技术中存在的技术问题,本发明提出一种融合视频图像和点云的自动驾驶方法。
2、本发明提出的一种融合视频图像和点云的自动驾驶方法,包括以下步骤:
3、s1、获取毫米波雷达采集的点云模态数据和摄像头采集的图像模态数据;
4、s2、将点云模态数据和图像模态数据分别输入对应的体素特征生成网络,生成点云模态体素特征和图像模态体素特征;
5、s3、将点云模态体素特征和图像模态体素特征预处理后,得到融合体素特征;
6、s4、获取感知任务,将融合体素特征输入感知输出头完成感知任务的输出,并获得感知相关的key与value;
7、s5、将感知相关的key与value、融合体素特征输入体素特征采样器,得到体素环境相关的第一类型key与value;
8、s6、将第一类型key与value、感知相关的key与value输入预先建立和训练好的自动驾驶的transformer模型,完成自动驾驶车辆路面目标动作预测以及驾驶行为规划的任务。
9、优选地,所述预处理具体包括:
10、由图像模态体素特征作为用于特征融合的query,记作qcam;
11、由点云模态体素特征生成用于特征融合的key,value,分别记作kradar,vradar;
12、利用自注意力(self-attention)机制,对qcam进行更新;
13、利用交叉注意力(cross-attention)机制将点云模态体素特征生成的kradar,vradar更新qcam,得到融合的体素特征qfuse,随后利用多层感知机将融合的体素特征qfuse生成融合体素特征g。
14、优选地,“s5”具体包括:
15、将感知相关的key与value、融合体素特征输入体素特征采样器;
16、体素特征采样器使用感知相关的key与value对融合体素特征进行体素采样,采样出稀疏且值得注意的体素;
17、利用采样出的体素构建体素环境相关的第一类型key与value,为后续任务提供体素特征信息。
18、优选地,所述transformer模型包括:路面目标动作预测神经网络、驾驶行为规划神经网络;“s6”具体包括:
19、将第一类型key与value、感知相关的key与value输入路面目标动作预测神经网络,完成路面目标动作预测的任务,同时获得动作预测相关的第二类型key与value;
20、将第一类型key与value、第二类型key与value输入驾驶行为规划神经网络,完成自动驾驶车辆驾驶行为规划的任务。
21、优选地,还包括:所述自动驾驶车辆路面目标动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。
22、优选地,所述感知任务包括但不限于三维目标跟踪、三维空间占用预测及在线地图生成。
23、优选地,所述驾驶行为规划的任务包括但不限于加速、减速、停车、直行、转弯、倒车、停车、超车。
24、本发明中,所提出的融合视频图像和点云的自动驾驶方法,采用了双模态数据融合,在双模态数据融合阶段,能够处理摄像头和毫米波雷达两种不同数据形式的传感器数据,通过生成统一坐标体素特征的方式将其高效地融合,使得融合特征既具有图像的稠密性,较好的小目标检测能力,又能够使用毫米波雷达准确的速度,深度信息。在多任务实现阶段,利用统一的体素特征完成了感知、预测及规划等多阶段任务,同时充分利用感知、预测和规划任务之间的关联性,降低了训练成本和模型的部署难度,同时获得不同任务性能上的提升。
1.一种融合视频图像和点云的自动驾驶方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,所述预处理具体包括:
3.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,“s5”具体包括:
4.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,所述transformer模型包括:路面目标动作预测神经网络、驾驶行为规划神经网络;“s6”具体包括:
5.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,还包括:所述自动驾驶车辆路面目标动作预测的任务以及驾驶行为规划的任务经由一一对应的输出头进行任务输出。
6.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,所述感知任务包括但不限于三维目标跟踪、三维空间占用预测及在线地图生成。
7.根据权利要求1所述的融合视频图像和点云的自动驾驶方法,其特征在于,所述驾驶行为规划的任务包括但不限于加速、减速、停车、直行、转弯、倒车、停车、超车。