一种基于6D姿态估计的三支流双向融合网络方法

文档序号:37312821发布日期:2024-03-13 21:03阅读:8来源:国知局
一种基于6D姿态估计的三支流双向融合网络方法

本发明涉及图像处理,尤其是涉及一种基于6d姿态估计的三支流双向融合网络方法。


背景技术:

1、物体的姿态估计是许多计算机视觉应用的核心任务,如机器人自动化操作、增强现实和自动驾驶。它已经成为许多研究机构的热门研究课题。物体姿态估计的主要目的是计算目标物体在相机坐标系中的旋转矩阵和平移矢量。早期的方法仅使用rgb图像进行物体姿态估计。这限制了这些方法在具有遮挡、照明差、背景对比度低和无纹理对象的场景中的性能。最近,廉价rgbd相机的出现促使一些研究人员使用rgbd图像来准确估计无纹理物体的姿态。然而,这些方法不仅参数多、实时性低,而且没有充分利用深度信息,导致这些方法在遮挡和照明差条件下的性能较差。因此,充分利用颜色和深度信息进行姿态估计是当前研究工作的核心问题。

2、传统的姿态估计方法通常分为两类:基于对应关系的方法和基于模板的方法;基于对应关系的方法首先从rgb图像中提取2d关键点,然后建立2d-3d关键点之间的对应关系,最后通过pnp算法估计物体姿态。然而,对于缺乏纹理的对象,不能准确地提取2d关键点。因此,这些方法在缺乏纹理的物体上表现不佳。基于模板的方法比较真实图像和模板图像的梯度信息,可以找到与真实图像最相似的模板图像,将与模板图像相对应的6d姿势作为当前目标对象的6d姿态。这类方法主要针对缺乏纹理的物体的姿态估计,弥补了基于对应关系的方法的不足。然而,在遮挡的情况下,这些方法会显著降低模板匹配的性能。

3、随着深度学习技术的快速发展。卷积神经网络(cnn)广泛用于图像处理任务,如对象检测和图像分类。因此,它也促使一些研究人员使用cnn来解决物体6d姿态估计问题。基于cnn的方法主要分为两类。其中一类使用cnn检测rgb图像中的2d关键点,解决了传统方法不适用于无纹理对象的关键点检测问题。然而,在遮挡的情况下,它不能准确地估计对象姿态。另一类方法是直接使用rgb图像来回归物体的6d姿态,如posenet、posecnn和ssd-6d。这些方法估计的物体姿态通常是不准确的,并且稍后需要耗时的迭代算法(如icp)来进行姿态优化。以上三种类型的方法只是使用rgb图像来估计对象姿态。它们不使用深度信息或将颜色和深度信息组合用于位置估计。关于遮挡问题,fractal markers通过检测关键点来估计遮挡下的标记姿势,body pointnet直接处理点云数据来估计衣服下的3d体型和姿势。这些方法可以更好地解决遮挡条件下的姿态估计问题。最近,densefusion首次结合颜色和深度信息来估计物体6d姿态,在遮挡和低照度下具有更好的性能。它分别通过cnn和pointnet提取rgb和点云特征。然后对图像特征和点云特征进行像素级融合,对目标姿态进行回归。然而,该方法使用单独的网络来分别提取rgb和点云信息。在特征提取过程中,cnn网络单独很难从rgb图像中提取相似对象的独特特征,同样点云网络也是如此,并没有完全利用这两种特征潜在的有用信息。


技术实现思路

1、本发明的目的是提供一种基于6d姿态估计的三支流双向融合网络方法,不仅可以保留原始rgb和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小rgb和深度图像之间的特征差异。

2、为实现上述目的,本发明提供了一种基于6d姿态估计的三支流双向融合网络方法,包括以下步骤:

3、s1、对rgb图像进行语义分割,从rgb图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云;

4、s2、对s1中的彩色图像和深度图像进行特征提取和融合,构建rgb分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合;

5、s3、将s2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3d平移姿态和3d旋转姿态,并输出最高置信度的姿态。

6、优选的,所述步骤s2中基于通道注意力模块构建两种类型特征处理模块,分别为rgb-d融合模块和上下文聚合模块。

7、优选的,所述rgb-d融合模块,包括两个通道注意力模块,分别来处理rgb分支和深度分支的特征信息,设rgb输入特征图为和深度图像输入特征图为,rgb-d融合模块的操作描述为:

8、;

9、其中,表示rgb-d融合模块,表示对于rgb和深度分支每一层的输出;表示输入特征映射元素属于实数域, c表示通道数, h表示特征图的高度, w表示特征图的宽度,对于rgb分支和深度分支的每一层,输出来细化编码器中该层的原始输出;

10、;

11、;

12、融合结果减少到原来的一半。

13、优选的,所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块,分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块。

14、优选的,所述步骤s3通过步骤s2的特征提取和特征融合,得到一组中心点的特征,将中心点的特征输入到姿态估计网络进行估计,并对每个中心点通过回归网络进行回归旋转、平移和置信度。

15、优选的,所述回归网络由三个相同的小网络组成,每个小网络由四层一维卷积组成,为每个中心点设置网络损耗函数,对于非对称对象的网络损耗函数:

16、;

17、对于对称对象网络损耗函数:

18、;

19、其中表示采样点的数量,表示第个采样点,表示对象的真实姿态,表示通过第个中心点特征回归的姿态。

20、优选的,使用迭代姿态优化网络,根据姿态估计网络的输出,对点云进行逆变换,将变换后的点云和原始颜色特征作为输入,在获得迭代姿态优化网络输出的残差姿态后,再次对输入点云进行逆变换,并将获得的点云用作下一次迭代的输入,经过几次迭代后,将预测的残差姿态与原始姿态连接,获得最终的姿态估计结果。

21、因此,本发明采用上述的一种基于6d姿态估计的三支流双向融合网络方法,构建具有三个并行的分支的架构,并提出两个互补的注意力模块,分别从rgb、深度和融合图提取不同的特征信息,经过融合模块后的融合特征不仅会被传播到rgb和深度分支的下一阶段,而且也会作为新的一个分支进行特征输出。进一步引入双向多步传播策略,不仅可以保留原始rgb和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小rgb和深度图像之间的特征差异。

22、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。



技术特征:

1.一种基于6d姿态估计的三支流双向融合网络方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于:所述步骤s2中基于通道注意力模块构建两种类型特征处理模块,分别为rgb-d融合模块和上下文聚合模块。

3.根据权利要求2所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于:所述rgb-d融合模块,包括两个通道注意力模块,分别来处理rgb分支和深度分支的特征信息,设rgb图像输入特征图为和深度图像输入特征图为,rgb-d融合模块的操作描述为:

4.根据权利要求2所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于:所述上下文聚合模块包括两个具有不同池化方法的通道注意力模块,分别是具有全局平均池化层的通道注意力模块和具有最大池化层的通道注意力模块。

5.根据权利要求1所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于:所述步骤s3通过步骤s2的特征提取和特征融合,得到一组中心点的特征,将中心点的特征输入到姿态估计网络进行估计,并对每个中心点通过回归网络进行回归旋转、平移和置信度。

6.根据权利要求5所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于,所述回归网络由三个相同的小网络组成,每个小网络由四层一维卷积组成,为每个中心点设置网络损耗函数,对于中心点为非对称对象的网络损耗函数:

7.根据权利要求5所述的一种基于6d姿态估计的三支流双向融合网络方法,其特征在于:根据姿态估计网络的输出,使用迭代姿态优化网络,对点云进行逆变换,将变换后的点云和原始颜色特征作为输入,在获得迭代姿态优化网络输出的残差姿态后,再次对输入点云进行逆变换,并将获得的点云用作下一次迭代的输入,经过几次迭代后,将预测的残差姿态与原始姿态连接,获得最终的姿态估计结果。


技术总结
本发明公开了一种基于6D姿态估计的三支流双向融合网络方法,属于图像处理领域,包括:对RGB图像进行语义分割,从RGB图像进行输入,裁剪需要预测的目标对象,获取目标对象的彩色图像和深度图像,并将深度图像转换为点云;对S1中的彩色图像和深度图像进行特征提取和融合,构建RGB分支、深度分支及融合分支三个并行分支对特征进行提取和充分融合;将S2中提取的特征输入到姿态估计网络,估计每个中心点的特征的3D平移姿态和3D旋转姿态,并输出最高置信度的姿态。本发明采用上述的一种基于6D姿态估计的三支流双向融合网络方法,不仅可以保留原始RGB和深度分支的特征信息,还可以充分利用融合分支的特征,尽可能减小RGB和深度图像之间的特征差异。

技术研发人员:严杰,缪君,吴皓杰,王佳勋
受保护的技术使用者:南昌航空大学
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1