一种基于深度学习的螺栓6D姿态估计方法

文档序号:37501507发布日期:2024-04-01 14:09阅读:11来源:国知局
一种基于深度学习的螺栓6D姿态估计方法

本发明涉及机器视觉领域,尤其涉及一种基于深度学习的螺栓6d姿态估计方法。


背景技术:

1、机器视觉在制造业中的应用为工业生产带来了更高的精度、效率和可靠性,推动了制造业向数字化和智能化的转型。近年来,机器视觉在螺栓姿态估计的应用也逐渐多了起来,螺栓作为制造业和机器人领域中的关键元素,其作用不仅仅局限于连接构件。机器视觉通过对螺栓姿态的准确估计,实现了装配过程的高精度和高效率,确保每个螺栓都被正确安装,从而提升了整体产品的质量和性能。在工业自动化中,螺栓的姿态估计为智能制造提供了重要基础,使生产线更加智能、自动化,同时为机器人操作提供了精准的引导,提高了生产过程的安全性和效率。

2、但是现有的螺栓姿态估计方法存在一些明显的缺点。首先,针对六角头螺栓等具有转动对称性的目标,现有方法很难实现对称体姿态的准确估计,成为该领域亟待解决的难题。其次,由于大多数螺栓对象的尺寸很小并且所处环境较复杂,因此,容易受到光照、遮挡或干扰因素的影响,导致检测准确性不稳定。最后,当前的姿态估计算法往往把目标定位视为首要任务,而忽略了关键点的检测,因此,在多目标场景下,关键点和对象间缺乏直接的关联关系,很难实现对关键点和对象的准确匹配,从而降低了匹配精度。这些缺陷限制了现有螺栓姿态估计方法在处理复杂场景和具有挑战性几何形状的螺栓目标时的准确性和鲁棒性。

3、综上所述,现有螺栓6d姿态估计方法仍然存在定位及位姿估计的准确性差、检测准确性不稳定和匹配精度不高的问题,因此,提出一种新的技术以解决上述问题是十分必要的。


技术实现思路

1、针对上述问题,本发明提供一种基于深度学习的螺栓6d姿态估计方法。

2、本发明的一种基于深度学习的螺栓6d姿态估计方法,包括以下步骤:

3、步骤1:数据采集:在现实世界场景中采集包含螺栓的图像。确保图像涵盖了不同的光照条件、背景、螺栓姿态和视角,以提高模型的鲁棒性。

4、步骤2:标注姿态信息:对于每个采集到的图像,标注螺栓的姿态信息。姿态信息通常包括螺栓的旋转矩阵和平移向量,表示螺栓在三维空间中的位置和方向。

5、步骤3:特征提取:通过在pose cnn中的特征提取网络中添加cbam注意力机制提取目标特征,提高网络对于螺栓等小目标的检测效果。

6、s31:语义分割:以特征提取阶段生成的两个通道尺寸为512的特征图作为输入进行语义分割。

7、s32:定位二维中心:通过霍夫投票层定位并将其集成到网络中。

8、s33:3d平移估计:通过定位2d图像的螺栓目标中心并估计目标到相机的距离来估计三维平移量。

9、s34:3d旋转回归:利用霍夫投票层预测目标边界框,利用两个roi池化层对网络第一阶段生成的视觉特征进行剪裁和池化,进行3d旋转回归。

10、步骤4:反向传播与优化:通过smoothed l1损失函数和sloss损失函数计算网络损失,将计算得到的网络损失反向传播并更新网络参数。

11、步骤5:输出6d姿态参数:通过pose cnn输出螺栓目标的旋转矩阵与平移矩阵,完成基于深度学习的螺栓6d姿态估计。

12、所述的步骤3中,特征提取网络用于提取输入的图像的特征,采用vgg结构,由13个卷积层、4个最大池化层和cbam模块组成。

13、cbam模块由两个注意力模块组成:通道注意力模块和空间注意力模块。其中通道注意力模块使用全局平均池化和全局最大池化分别来获取每个通道的全局统计信息,并通过两层全连接层来学习通道的权重。然后,会将处理后产生的两个结果进行相加,通过使用sigmoid函数将权重归一化到0到1之间,对每个通道进行缩放。最后,将缩放后的通道特征与原始特征相乘,以产生具有增强通道重要性的特征。空间注意力模块是使用最大池化和平均池化来获取每个空间位置的最大值和平均值。具体地说,由于卷积之后会产生多个通道,cbam中空间注意力会在每一个特征点的通道上进行最大池化和平均池化操作,得到两个矩阵后,将两个矩阵进行拼接,并通过一个卷积层和sigmoid函数来学习每个空间位置的权重。最后,将权重应用于特征图上的每个空间位置,以产生具有增强空间重要性的特征。

14、本发明的有益技术效果为:

15、1、本发明通过在pose cnn中的特征提取网络中添加cbam注意力机制来提取螺栓目标特征,cbam是一种结合了通道注意力和空间注意力的模型,通道注意力机制旨在捕捉通道的重要性的程度,空间注意力机制旨在通过引入注意力模块,使模型能够自适应地学习不同区域的注意力权重。这样,模型可以更加关注重要的图像区域,而忽略不重要的区域。解决了螺栓对象的尺寸很小导致检测准确性不稳定的问题。

16、2、本发明针对螺栓具有的转动对称性,在3d旋转回归时使用损失函数sloss,解决了因为对称目标有多个可行解,在对称目标上使用一般的损失函数会不必要地惩罚网络回归到另一个可行解,从而可能产生不一致的训练信号的问题。实现了对称体姿态的准确估计。

17、3、本发明通过霍夫投票层定位螺栓的二维中心,有效解决了螺栓目标中心被遮挡导致无法定位的问题,提高了模型在处理复杂场景的螺栓目标时的准确性和鲁棒性。



技术特征:

1.一种基于深度学习的螺栓6d姿态估计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述步骤s3,包括:

3.根据权利要求1所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:

4.根据权利要求1所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述cbam由两个注意力模块组成:通道注意力模块和空间注意力模块;

5.根据权利要求2所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述语义分割,网络通过两个卷积层将上述的两个特征图的维数降到64,这两个特征图的分辨率分别是原图的1/8和1/16;然后通过一个反卷积层将1/16特征图的分辨率加倍,再将这两个1/8分辨率的特征图叠加起来,并通过另一个反卷积层增加八倍分辨率,使最终得到的特征图尺寸与原图一致,最后利用softmax层输出每个像素点上的语义标签。

6.根据权利要求2所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述定位二维中心,计算公式如下:

7.根据权利要求2所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述霍夫投票层,以像素级语义标注结果和中心回归结果作为输入,对于每个螺栓,它首先计算图像中每个位置的投票得分,投票得分表示对应的图像位置在螺栓的目标中心的可能性。

8.根据权利要求2所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述3d平移估计,3d平移矩阵t=(tx,ty,tz)是螺栓在相机坐标系中的坐标,t在图像上的投影是c=(cx,cy),其中,fx,fy为相机镜头的焦距,px、py为相对于成像平面的主点坐标,网络在图像上定位出c,并且估计出tz,根据如下反透视变换方程计算出tx和ty,在训练时,采用fastr-cnn中的smoothed l1损失函数进行回归,smoothed l1损失函数,表达式为:

9.根据权利要求2所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:所述3d旋转回归,根据语义分割和螺栓的中心点预测结果得到每个螺栓的外接矩形框,然后利用roi池化层,对特征图进行先裁剪后池化的操作,经过三层的全连接层后输出预测结果,对应螺栓的用四元组表示的3d旋转参数。

10.根据权利要求1所述的一种基于深度学习的螺栓6d姿态估计方法,其特征在于:针对螺栓具有的转动对称性,使用损失函数sloss进行对称体姿态估计,sloss定义为:


技术总结
本发明公开了一种基于深度学习的螺栓6D姿态估计方法,包括:在现实世界场景中采集包含螺栓的图像;对于每个采集到的图像,标注螺栓的姿态信息;通过改进的Pose CNN特征提取网络提取目标特征;对得到的特征图进行语义分割;定位螺栓目标的二维中心;通过定位的螺栓中心估计三维平移量;利用霍夫投票层进行3D旋转回归;通过损失函数计算网络损失,进行反向传播并更新网络参数;输出螺栓目标的旋转矩阵与平移矩阵,完成螺栓6D姿态估计。本发明提高了螺栓6D姿态估计的准确性,同时实现了对称体姿态的准确估计,解决了螺栓目标中心被遮挡的问题,提高了模型在处理复杂场景的螺栓目标时的鲁棒性,对机器视觉在螺栓姿态估计的应用提供了一种新方法。

技术研发人员:黄德青,须永朋,马珺杰,秦娜,马磊
受保护的技术使用者:西南交通大学
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1