一种基于全向视觉的车辆周围目标BEV感知预测方法

文档序号:37380126发布日期:2024-03-22 10:32阅读:13来源:国知局
一种基于全向视觉的车辆周围目标BEV感知预测方法

本发明涉及自动驾驶、深度学习、计算机视觉领域,具体为一种基于全向视觉的bev感知、预测的神经网络方法。


背景技术:

1、随着深度学习的快速发展,自动驾驶技术越来越成熟,汽车对环境的感知和预测能力的要求也提高。鸟瞰图(bev)因其具有较强的可解释性,在自动驾驶环境感知和预测中被广泛使用。如今大多数自动驾驶平台bev感知仍然是使用激光雷达来实现,但是激光雷达点云数据量庞大、计算量大、成本较高,并且激光雷达在一些特定环境受到限制。如果仅仅使用相机来完成bev感知和预测任务将大大降低成本。如今大多数方法都是在笛卡尔坐标系下表示bev,然后进行感知与预测。在笛卡尔坐标系中,近距离目标和远距离目标需要按照比例进行下采样和上采样,但是下采样会导致信息丢失,上采样数据增强的效果小。但是极坐标系本身具备直观可解释性,使用极坐标表示能更直观的表示目标之间直接的关系。本发明提出一种基于全向视觉的bev感知、预测的神经网络方法,通过将图像特征投影到极坐标表示的bev特征进行感知,并在感知的基础上对车辆周围的目标进行预测。

2、综上所述,现有技术存在的问题是:目前大多数使用激光雷达的bev感知与预测方法存在计算量大且成本高。使用笛卡尔坐标表示进行数据处理会造成信息的损失。

3、解决上述技术问题的难题:

4、根据现有的视觉传感器,提出一种基于全向视觉的bev感知、预测的神经网络方法,对车辆周围的目标进行感知以及对感知到的目标进行未来预测,并以bev的形式输出预测结果,训练中采用使用激光雷达数据来生成bev视图真值的方法来制作数据集并且完成训练。

5、cn116653953a,一种基于bev视角和数字孪生的智能车换道决策系统及方法,系统包括:智能车端和边缘云端;所述智能车端包括:智能车感知模块和智能车运动控制模块;所述边缘云端包括:bev模块、换道决策模块和验证模块;本发明通过bev感知技术获得智能车行驶过程中的bev视角,在该视角下,综合考虑智能车位置、周围车辆数量以及相对距离因素,获得最合适的智能车换道方向,通过换道轨迹规划算法规划出智能车按换道方向行驶所需的换道轨迹集,并通过数字孪生技术对换道轨迹集进行并行测试,获得满足智能车换道行驶安全性的最优换道决策方案。

6、cn116653953a采用的是一种相机、激光雷达融合的bev感知方法,使用激光雷达会增加大量的计算量和存储量,并且在周围干扰物较多的环境效果不好。本发明采用的是一种纯视觉的bev鸟瞰图感知方法,激光雷达只是用来生成bev鸟瞰图标签数据,并不会在感知中使用激光雷达的数据。针对纯视觉的感知方法,本发明提出了一种显式极坐标转换的方法,将提取的图像特征转到bev视角的极坐标系中;再通过增加一个维度的方法和相机到参考车辆的转换关系将所有相机特征进行融合;最后通过一个未来预测模块再感知的基础上对指定目标时刻的感知目标进行预测,其中未来预测模块中是将感知特征进行离散化采样,抽样出两种分布来融合预测。


技术实现思路

1、本发明旨在解决以上现有技术的问题。提出了一种基于全向视觉的车辆周围目标bev感知预测方法。本发明的技术方案如下:

2、一种基于全向视觉的车辆周围目标bev感知预测方法,其包括以下步骤:

3、步骤1,对激光雷达采集数据进行3d标注,并压缩场景标注目标的高度信息生成bev鸟瞰图标签;

4、步骤2,构建感知模型,所述感知模型用于将相机输入的图像进行2d特征提取,并将所有相机的特征融合转换成极坐标系表示的bev特征;

5、步骤3,构建未来预测模型,所述未来预测模型用于把当前帧和历史帧作为条件帧,通过未来预测模型来预测当前帧后面指定时刻的目标帧;

6、步骤4,构建解码模块,所述解码模块用于将预测信息转换到笛卡尔坐标系中,并通过一个多头解码器解码出对应预测信息,语义分割和未来光流信息;

7、步骤5、将部署至车载嵌入式平台中,在嵌入式平台中运行模型检测车辆周围的目标信息,并对检测到的目标进行预测,并将预测信息以bev的形式可视化显式,其中不同目标采用不同颜色表示。

8、进一步的,所述步骤2构建感知模型包括如下步骤:

9、步骤21,特征提取,使用预训练的resnet-101作为编码器,该编码器用于对相机输入图像进行特征提取,对每个相机该编码器共享权重;

10、步骤22,特征转换,将编码器提取的特征从笛卡尔坐标系转换到极坐标系;

11、步骤23,特征划分,将按照极半径和极性角对每个相机以极坐标表示的特征进行递进的划分,并使用平均正则化来融合每个划分区域的特征;

12、步骤24,特征融合,通过标定相机到激光雷达的关系和激光雷达到参考车辆坐标系的关系,将每个相机以极坐标表示的特征投影到参考车辆坐标系中,其中每个相机通过使用一个额外的高度维度来标识不同相机的特征,并以额外的高度维度为基准,对于所有特征信息以加权求和的方式进行融合,得到某一时刻极坐标表示的bev特征。

13、进一步的,所述步骤22特征转换包括,使用公式(1)和公式(2)将以笛卡尔坐标系表示的特征转换成极坐标系表示,公式如下所示:

14、

15、

16、其中c表示的是相机平面,i表示的是图像平面,p表示极坐标平面;u0和fx则是相机内参矩阵中的参数,x(i)表示图像坐标系的x,x(c)表示相机坐标系x,φ(p)、ρ(p)其表示极坐标系中的极性角和极半径,其中极半径ρ需要使用深度信息z来计算;通过一个小型的卷积神经网络来对每一个特征点进行离散深度估计,值最大的表示该特征点的深度值,并通过语义分割和光流损失函数来隐式监督深度估计。

17、进一步的,所述步骤23特征划分具体包括:

18、按照极半径将整个平面划分为同心圆,按照极性角将极坐标表示的特征平面划分为不同大小的区域,极性角随着极半径的增大,划分越小,极性角划分大小与极半径成负线性;使用平均正则化来融合每个划分区域的特征。

19、进一步的,所述步骤24特征融合具体包括:通过标定得到的相机与激光雷达的转换关系和激光雷达与参考车辆坐标系的转换公式,将每个相机的特征都投影到参考车辆坐标系中;通过增加一个高度维度来表示不同相机的特征,投影后的特征尺度为h×w×c×d,其中h和w分别表示特征的2维大小,c表示通道数,d表示增加的高度维度,d的大小与相机的数量相关;以高度维度为基准,对所有特征信息以加权求和的方式进行融合,这样就得到了某一时刻极坐标表示的bev特征;对融合得到的极坐标表示的bev特征按照0°的极性角所对应的极半径将bev特征展开,并通过采样的方式将其填充成矩形的形式。

20、进一步的,所述步骤3的未来预测模型具体包括,以多帧条件帧为输入,其中多帧条件帧包括当前帧和当前帧之前的历史帧;通过从第一个条件帧开始逐帧融合时间信息和逐帧预测,直到目标时刻位置;通过离散对角高斯采样将bev特征分为静态分布和动态分布,通过两种分布来融合预测,静态分布使用第一个条件帧的bev特征离散采样初始化,后面每一时刻的静态分布通过与融合两种分布的信息进行融合得到,每一时刻的静态分布表示当前时刻的预测信息;动态分布是每个时刻bev特征经过离散化后通过一个基于gru的时间模块融合前面时刻的信息,再对角化采样得到;通过一个小型cnn来融合每个时刻静态分布和动态分布,得到融合信息;通过将每一时刻的bev标签采用同样离散化采样得到真实分布,并使用kl散度损失函数来计算每一时刻真实分布与静态分布的损失值,其损失函数如下所示:

21、lprobabilistic=dkl(f(·|st,gt)∥p(·|st))#(3)

22、在递进预测中,每一帧都需要使用kl损失函数来计算损失值,直到预测到最后目标时刻为止。lprobabilistic表示概率损失,即表示通过比较两个概率分布之间的差异来计算损失值,dkl表示kl散度,f(·|st,gt)表示一个条件概率分布,表示一个给定分布st和gt的条件下对应的概率分布,其中st是预测的静态分布,gt表示标签生成的真实分布,p(·|st)这是另一个条件概率分布,表示给定相同的分布(st)的真实概率分布。它可以看作是我们希望模型(f)去逼近的目标分布。

23、进一步的,所述步骤4的解码模块具体包括:将得到的目标时刻的预测信息通过如下的公式将其转换成笛卡尔坐标系表示,公式如下:

24、x=ρ(p)×cos(φ(p))#(4)

25、y=ρ(p)×sin(φ(p))#(5)

26、通过一个多头解码器解码出语义分割信息和未来信息,并使用bev标签数据来进行直接监督,其中语义分割采用k=25%的top-k交叉熵损失函数做语义分割损失函数,使用光滑的l1距离作为未来光流的损失函数,损失函数公式如下所示:

27、

28、其中tout表示总的时间,γt表示未来损失参数,其中λ1和λ2表示平衡因子;表示某一时刻语义分割预测值,表示同一时刻语义分割真值;表示某一时刻光流的预测值,表示统一时刻的光流真值;将目标时刻的语义分割信息和未来光流信息进行融合,得到最终的预测信息,并以bev的形式输出。

29、一种电子设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其所述处理器执行所述程序时实现如任一项所述基于全向视觉的车辆周围目标bev感知预测方法。

30、一种非暂态计算机可读存储介质,其上存储有计算机程序,其所述计算机程序被处理器执行时实现如任一项所述基于全向视觉的车辆周围目标bev感知预测方法。

31、一种计算机程序产品,包括计算机程序,其所述计算机程序被处理器执行时实现如任一项所述基于全向视觉的车辆周围目标bev感知预测方法。

32、本发明的优点及有益效果如下:

33、本发明经过训练后能够避免使用高精度的雷达或者其他高精度传感器进行地图重建。构建的端到端网络能够根据多相机实时输入的图像进行感知,并对感知的目标进行实时预测。通过一个显式的特征转换方法,将编码器提取的特征转换到极坐标表示bev鸟瞰图中,并通过提出的一种新增维度的方法,结合每个相机到参考车辆坐标的转换关系融合每个相机的特征得到总的bev鸟瞰图感知特征;为将极坐标表示的特征输入未来预测模块中进行预测,提出一种递进的极坐标划分方式;在未来预测模块中本发明提出采用离散化采样将感知特征抽样出两种分布,两种分布通过不同的融合时间的策略后融合生成预测信息,逐帧预测到指定的目标时刻。本发明提出的端到端网络能够实现输入多相机的图像,对参考车辆的周围进行目标感知,未来预测模块使得我们的模型能够对遮挡区域进行准确的预测,并且能够预测出感知目标的在指定目标时刻内的位置和轨迹。感知和预测信息能够为下游任务(路径规划、自动避障、目标检测)提供重要信息,可以起到一个提前预紧的功能,防止发生碰撞,增大汽车行驶的安全性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1