一种联合分割跟踪的深度估计模型训练方法及使用方法

文档序号:36240434发布日期:2023-12-02 00:38阅读:30来源:国知局
一种联合分割跟踪的深度估计模型训练方法及使用方法

本发明涉及计算机视觉,具体而言,涉及一种联合分割跟踪的深度估计模型训练方法及使用方法。


背景技术:

1、随着计算机视觉技术的不断进步,尤其是图像处理和机器学习的发展,人工智能在各个领域中的应用越来越广泛,在智能驾驶、智能视频监控、机器人视觉等领域中的应用越来越广泛。

2、特别在智能驾驶领域,通过对实时获取的视频中的目标物进行深度预测,得到目标间的距离信息,从而根据距离信息进行危险预测,提高驾驶的安全性,但是,通过深度估计模型进行深度预测时,大多只能对视频中当前视频帧图像中的目标进行测距,无法根据连续的视频帧对目标进行检测和跟踪,因此导致通过深度估计模型得到的深度预测与实际的深度值存在偏差。


技术实现思路

1、本发明解决的问题如何改善深度估计模型深度预测的精度。

2、为解决上述问题,本发明提供一种联合分割跟踪的深度估计模型训练方法及使用方法。

3、第一方面,本发明提供了一种联合分割跟踪的深度估计模型训练方法,包括:

4、获取连续的视频帧图像;

5、将所述视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;

6、将当前所述视频帧图像和对应的所述目标分割跟踪结果以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图;

7、将当前所述视频帧图像和相邻的前一所述视频帧图像输入位姿估计网络,输出前相对位姿,将当前所述视频帧图像和相邻的后一所述视频帧图像输入所述位姿估计网络,输出后相对位姿;

8、根据所述深度图、所述前相对位姿,将相邻的前一所述视频帧图像反映射到当前所述视频帧图像,得到前映射视频帧图像,根据所述深度图、所述后相对位姿,将相邻的后一所述视频帧图像反映射到当前所述视频帧图像,得到后映射视频帧图像;

9、根据所述前映射视频帧图像和后映射视频帧图像进行融合,得到重建目标图像;

10、根据当前所述视频帧图像和所述重建目标图像,基于重建损失函数,训练所述初始深度估计模型,得到训练好的深度估计模型。

11、可选地,所述将所述视频帧图像输入目标分割网络,得到目标分割特征,包括:

12、将所述视频帧图像进行特征提取和融合,得到融合特征;

13、根据所述融合特征,提取语义信息和目标信息;

14、根据所述语义信息和所述目标信息,得到所述目标分割特征。

15、可选地所述将所述视频帧图像进行特征提取和融合,得到融合特征,包括:

16、将所述视频帧图像进行特征提取,得到视频帧图像特征;

17、根据所述视频帧图像特征,通过预设横向卷积核得到横向特征向量,通过预设纵向卷积核得到纵向特征向量;

18、将所述横向特征向量和所述纵向特征向量进行拼接,得到合并特征向量;

19、将所述合并特征向量转换为二维向量,得到二维特征向量;

20、将所述二维特征向量转置,得到转置二维特征向量;

21、将所述转置二维特征向量拆分为多个一维向量,并将全部所述一维向量打乱重新进行拼接,得到一维特征向量;

22、通过所述一维特征向量对所述视频帧图像特征进行特征增强,得到增强视频帧图像特征;

23、对所述增强视频帧图像特征进行多尺度特征融合,得到所述融合特征。

24、可选地,所述将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果,包括:

25、根据当前所述视频帧的所述目标分割特征提取前景目标边界、前景目标位置;

26、根据所述前景目标边界确定前景目标二维点云和背景二维点云;

27、对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量;

28、对所述背景二维点云进行特征提取,得到背景特征向量;

29、将所述加权前景目标特征向量、所述背景特征向量和所述前景目标位置进行融合,得到所述视频帧图像的目标分割跟踪特征;

30、将当前所述视频帧图像的所述目标分割跟踪特征与相邻的前一个所述视频帧图像的所述目标分割特征进行实例关联,得到当前所述视频帧的所述目标分割跟踪结果。

31、可选地,所述对所述前景目标二维点云进行特征提取和加权,得到加权前景目标特征向量,包括:

32、根据所述前景目标二维点云,选取预设数量的像素点确定为点云像素点;

33、根据每个所述点云像素点与预设位置坐标的差值,确定每个所述点云像素点的偏移向量;

34、根据所述点云像素点得到所述点云像素点的颜色信息;

35、将所述点云像素点对应的所述偏移向量和所述颜色信息输入跟踪增强模块,输出通道前景目标特征向量;

36、将所述通道前景目标特征向量输入改进前景加权模块,输出所述加权前景目标特征向量。

37、可选地,所述将当前所述视频帧图像和对应的所述目标分割跟踪结果,以及相邻的前一所述视频帧图像和对应的所述目标分割跟踪结果输入初始深度估计模型,输出当前所述视频帧的深度图,包括:

38、将当前所述视频帧图像确定为目标视图,并将对应的所述目标分割跟踪结果确定为目标视图分割跟踪结果,将相邻的前一个所述视频帧图像确定为前视图,并将对应的所述分割跟踪结果确定为前视图分割跟踪结果;

39、将所述目标视图进行特征提取得到目标视图特征,将所述前视图进行特征提取得到前视图特征;

40、将所述目标视图特征和所述前视图特征通过聚合,得到聚合视图特征;

41、根据所述前视图分割跟踪结果提取前目标分割跟踪特征;

42、根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重;

43、根据所述目标特征权重对所述聚合视图特征进行加权融合,得到加权聚合视图特征;

44、将所述加权聚合视图特征与所述目标视图特征进行拼接融合,得到融合特征;

45、将所述融合特征进行解码,得到所述深度图。

46、可选地,所述根据所述前目标分割跟踪特征、所述目标视图和所述目标视图分割跟踪结果,得到目标特征权重,包括:

47、根据所述前目标分割跟踪特征通过光流法,得到所述前目标分割跟踪特征中每个像素点的运动速度和运动方向;

48、根据全部所述像素点的所述运动速度和所述运动方向,将所述前目标分割跟踪特征映射到所述目标视图中,得到映射目标视图;

49、根据所述目标分割跟踪结果和所述映射目标视图,确定所述前目标分割跟踪特征在所述目标视图中的位置信息;

50、根据所述位置信息,通过激活函数,得到所述目标特征权重。

51、可选地,所述将所述融合特征进行解码,得到所述深度图,包括:

52、对所述融合特征进行最大池化得到最大池化特征,对所述融合特征进行平均池化得平均池化特征;

53、根据所述最大池化特征、所述平均池化特征和空间权重关系,得到空间注意力权重;

54、根据所述空间注意力权重、所述融合特征、前目标分割跟踪特征和加权融合关系,得到加权融合特征;

55、根据所述加权融合特征进行视差图预测,得到预测视差图;

56、将所述预测视差图通过分辨率扩充,得到所述深度图。

57、可选地,所述重建损失函数满足:

58、;

59、其中,l为所述重建损失函数,i为所述视频帧图像,n为所述视频帧图像数量,s1为前一所述视频帧图像索引,为当前视频帧图像和相邻的前一视频帧图像的像素间的解释性掩码值,it(p)为当前所述视频帧图像的像素值,为所述重建目标图像的像素值,t为当前所述视频帧图像索引,λs为平滑损失系数,dx2为所述解释性掩码中当前像素点与x轴方向相两个邻的像素点差值的差,dy2为所述解释性掩码中当前所述像素点与y轴方向相两个邻的像素点差值的差,dxdy为所述解释性掩码中当前所述像素点与x轴正方向和y轴正方向的两个相邻像素点差值的差,dydx为所述解释性掩码中当前所述像素点与y轴正方向和x轴正方向的两个相邻像素点差值的差,weight为超参数权重,|dx2|m为所述解释性掩码中全部像素点的dx2的值进行取绝对值再计算平均值运算,|dxdy|m为所述解释性掩码中全部像素点的dxdy的值进行取绝对值再计算平均值运算,|dydx|m为所述解释性掩码中全部像素点的dydx的值进行取绝对值再计算平均值运算,|dy2|m为所述解释性掩码中全部像素点的dy2的值进行取绝对值再计算平均值运算,s2为重建目标图像索引,λe为交叉熵损失系数,n为所述解释性掩码的掩码像素点数量,yi为所述解释性掩码第i个像素点的二元标签值为0或者1,p(yi)为所述解释性掩码第i个像素点的二元标签值为1或者0的概率。

60、第二方面,一种联合分割跟踪的深度估计模型使用方法,包括:

61、获取现场连续视频帧图像:

62、将所述现场连续视频帧图像输入目标分割网络,得到目标分割特征,将所述目标分割特征输入目标跟踪网络,得到目标分割跟踪结果;

63、将所述视频帧图像和对应的所述分割跟踪结果输入第一方面所述训练方法训练好的深度估计模型,输出深度图。

64、本发明的联合分割跟踪的深度估计模型训练方法及使用方法的有益效果是:获取视频中的连续视频帧图像,通过分割跟踪网络得到视频帧图像中目标的分割跟踪结果,通过分割跟踪结果实现对视频帧图像中目标的检测和跟踪,通过对目标的检测和跟踪可以更准确地获取目标的时间信息和空间信息,有利于提高深度估计模型对视频帧图像中目标的深度预测的精度。将相邻的两个视频帧图像和各自对应的分割跟踪结果输入初始深度估计模型,输出视频帧图像的深度图,通过带有时间信息和空间信息的跟踪分割结果输入深度估计模型,使得到的深度图具有测距信息的同时还具有目标物的检测和跟踪信息。进一步地,将当前视频帧图像分别和相邻的前后视频帧图像输入位姿估计网络,得到前相对位姿和后相对位姿,并通过深度图和前相对位姿,将前视频帧图像反映射到当前视频帧图像得到前映射视频帧图像,同时,通过深度图和后相对位姿,将后视频帧图像反映射到当前视频帧图像得到后映射视频帧图像,进一步地,通过将前后两个映射视频帧图像融合,得到重建目标图像,通过前后视频帧图像的反映射和融合,使重建视图同时具有相邻两个视频帧的目标物的位置和姿态信息,减少图像中不连续性和跳跃感,增强图像的动态范围,从而提高目标检测和跟踪的准确性。将重建目标图像作为监督信号,根据重建目标图像和当前视频帧图像,基于重建损失函数对初始深度估计模型进行训练,从而得到训练好的深度估计模型。利用相邻帧的分割跟踪结果提供的时间特征提高深度估计模型的特征提取能力,同时利用分割跟踪结果提供的空间信息,提高前景重要特征的权重,降低非重要特征的干扰,改善因背景干扰导致的深度估计模型输出结果不准确的问题,最终通过与周围的目标检测和跟踪结果的相结合,对目标物进行深度估计,进一步提高了深度估计模型的深度估计精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1