一种基于深度学习的6D姿态估计方法

文档序号:30757348发布日期:2022-07-13 12:11阅读:129来源:国知局
一种基于深度学习的6D姿态估计方法
一种基于深度学习的6d姿态估计方法
技术领域
1.本发明涉及三维计算机视觉领域,特别涉及一种基于深度学习的6d姿态 估计算法。


背景技术:

2.在我们的日常生活中,无时无刻不在进行着人与物体之间的交互。为了得 到更好的交互效果,我们需要得知物体的6d姿态信息。例如,当我们伸手去 拿桌子上摆放的一个水杯,需要知道水杯在我们的什么方位,距离是多少以及 水杯是如何摆放的。同理,机器亦是如此。当机器想要抓取到物体,需要它利 用各种摄像头来获取到所看到的物体的各种信息,并估计该物体的6d姿态, 然后做出后续的抓取操作,比如机械臂的抓取,无人驾驶和增强现实等等。
3.6d姿态估计的目的是在场景中检测出目标,并估计目标相对参考坐标系的 旋转和平移。其中,三维的平移是我们从摄像机坐标系原点开始沿着x、y、z 轴移动到所观察物体的坐标系原点之间的距离。三维的平移可以表示为一个三 维的向量而三维的旋转可以看作,从摄像机坐标系到所观察物体的坐标系分别 绕着x、y、z轴所旋转的角度,可以用一个3
×
3的矩阵来表示,即r∈so(3)。 最后,六维姿态可以用[r|t]来表示。
[0004]
在过去的十年中,已经报道了许多方法。但是,由于背景的混乱,物体之 间的严重遮挡以及光照条件的变化,尤其是在杂乱的场景中,该问题仍然具有 挑战性。大多数经典方法都使用rgb图片作为输入,其中一些方法使用rgb
‑ꢀ
d数据作为输入。通常,这些方法的基本思想是通过在不同视点之间建立对应 的2d图像特征来估计对象姿态,或构造从3d模型到2d图像的地图。在处理 低纹理物体和不稳定的光照条件时通常会遇到困难。随着可靠的深度传感器的 问世,基于rgb-d数据的方法变得越来越流行,并且在最近取得了重大进展。 与rgb数据相比,深度数据不受纹理和光照变化引起的干扰,这使得使用 rgb-d数据的方法比仅使用rgb的方法更可靠。但是,实时实现准确的姿态 估计仍然是一个很大的挑战。


技术实现要素:

[0005]
为了克服现有的技术问题,本发明提出一种有效的物体6d姿态估计算法, 其基于深度神经网络的智能视觉系统,并以rgb-d图像作为输入,能够有效地 解决密集2d-3d特征提取不高效以及物体被遮挡的问题,在提高检测精度的同 时兼顾速度,并具有较高的鲁棒性。
[0006]
本发明解决上述问题的技术方案是:一种基于深度学习的6d姿态估计算 法,包括图像特征提取模块,用于提取二维rgb图像的外观特征信息;点云特 征提取模块,用于提取三维点云的几何特征信息;图像和点云特征融合模块, 用于融合图像特征和点云特征;6d姿态估计模块,用于根据融合后的特征进行 6d姿态的估计。整个算法的实施步骤如下:
[0007]
步骤一:将物体从场景中分割出区域以及对应的深度图,对分割出来的图 像区域进行图像特征提取。
[0008]
步骤二:根据分割出来的区域以及对应的深度图,确定物体在相机坐标系 下,被相机观测到的那个面的3d坐标信息,得到物体的点云数据,并送入点 云特征提取模块提取点云几何特征
[0009]
步骤三:将提取到的图像特征和点云特征送到特征融合网络中,提取融合 特征。
[0010]
步骤四:根据提取到的融合特征进一步估计物体的6d姿态信息。
[0011]
优选地,所述步骤一中用rgb-d数据作为输入,使用两个主干网络分别从 rgb图像和深度图提取特征,为了提取图像特征,选取了resnet-18作为主干 网络,并结合了混合注意力机制;用于从深度图提取特征的另一个骨干网络由 几个卷积和池化层组成;网络的最终输出将主要取决于颜色特征,而深度特征 将用作辅助信息。
[0012]
优选地,所述步骤二中,点云特征提取模块中一个分支由多个卷积层和一 个池化层层组成,对输入进来的点云数据选取多个点分别作为对应的局部区域 中心点,在中心点的周围选取多个邻近点来构造局部区域,利用pointnet网络 从局部区域提取局部特征,再利用注意力机制学习局部特征,在局部范围内计 算加权求和并得到注意力池化结果。
[0013]
优选地,将包含局部和全局的点云特征与图像特征进行卷积和特征拼接操 作,分别拼接成128维和256维特征,将256维融合特征进行卷积操作提升至 1024维特征,最后将128维、256维、1024维特征进行concatenate拼接后做为 一个全局特征。
[0014]
优选地,对全局特征进行4次卷积操作预测物体的旋转参数,平移参数和 置信度。
[0015]
采用上述技术方案所产生的有益效果为:
[0016]
1、本发明在图像特征提取分支涉及一种新的操作,在resnet18网络中融入 了混合注意力机制,通过关注重要特征并抑制不必要的特征提取到更多有用的 特征信息,同时所提取的特征具有强大的表征能力,可以用于检测、分割、高精 度的姿态估计,密集特征对于遮挡残缺等情况也更鲁棒。
[0017]
2、本发明在点云特征提取分支涉及一种新的操作at-pointnet++,以提取 全局和局部结构特征的组合表示,通过引入注意力池化层来提高网络再降维过 程中的信息传递率,对采样所得点的特征进行增强,这对于准确的6d姿态估 计至关重要。
附图说明
[0018]
图1为本发明所提供的6d姿态估计网络框架图;
[0019]
图2为整个算法实现的流程图;
[0020]
图3为引入的混合注意力机制的实现图;
[0021]
图4为结合混合注意力机制的图像特征提取网络;
[0022]
图5为点云自注意力机制实现模块;
[0023]
图6为点云和图像特征融合模块。
具体实施方式
[0024]
为了使本发明实施方式的技术方案和优点更加清楚明白,下面将结合本发 明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述, 显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。 基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下 所获得的所有其他实施方式,都属于
本发明保护的范围。因此,以下对在附图 中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围, 而是仅仅表示本发明的选定实施方式。
[0025]
本发明是一种基于深度学习的6d姿态估计算法,其通过rgb-d图像的输 入,从混乱的场景中推算出目标物体精确的6d姿态,由于场景的复杂性以及 物体之间存在遮挡,导致这是一个非常困难的任务。为了减少混乱背景的干扰 以及处理各个物体之间所存在的遮挡问题,设计了一种6d姿态估计网络,整 个网络框架如图1所示。
[0026]
算法实现的流程图如图2所示,分别进行图像特征提取模块提取图像特征 和点云特征提取模块提取几何特征,再经过图像和点云特征融合模块融合图像 和点云特征。最后经过6d姿态估计模块预测出目标的6d姿态。具体操作如下:
[0027]
1)基于resnet-18的pspnet网络结构设计了一种新的图像特征提取网络, 融入混合注意力机制,进行通道注意力机制和空间注意力机制的特征refine,加 强对图像零件特征的提取。先对输入进来的图像做二维卷积操作,提取32维特 征,然后输入混合注意力机制,依次进行一次通道注意力操作和空间注意力操 作,进行特征加强。混合注意力模块,这是一种用于前馈神经网络的简单而有 效的注意力模块。注意力不仅要告诉我们重点关注哪里,还要提高关注点的表 示。目标是通过使用注意机制来增加表现力,关注重要特征并抑制不必要的特 征。为了强调空间和通道这两个维度上的有意义特征,混合注意力模块依次应 用通道和空间注意模块,来分别在通道和空间维度上学习关注什么、在哪里关 注,如图3所示。此外,通过了解要强调或抑制的信息也有助于网络内的信息 流动。其中通道注意力(cam)对特征图(h*w*c)分别同时做全局平均池 化(1*1*c)和全局最大池化(1*1*c),同时输入全连接层,并进行相加 (1*1*c),再输入激活函数层(sigmoid),生成权重(1*1*c),最后将权重与特 征图(h*w*c)相乘。从而在通道层上对特征进行一次重学习。空间注意力 (sam)对输入的特征图分别从通道维度进行求平均和求最大,合并得到一个 通道数为2的卷积层,然后通过一个卷积,得到了一个通道数为1的spatialattention,最后将特征图和spatial attention相乘。从而在空间层上对特征进行一 次重学习。
[0028]
再将加强后的特征进行4次二维卷积操作,升维到512维特征,再做一次 混合注意力机制,依次进行一次通道注意力操作和空间注意力操作,进行特征 加强。图像特征提取过程,如图6所示。
[0029]
2)点云特征提取模块上,基于pointnet网络结构的基础上,结合分层结构、 最远点采样算法(fps)和注意力机制构建了层级结构学习局部区域特征的at
‑ꢀ
pointnet++。
[0030]
其中一个分支对整个点云数据的全局位置信息进行编码,提取全局特征。 另一个分支对于输入进来的点云集合中使用iterative farthest point sampling(fps) 算法下采样m个点,再以这m个点为中心聚合k个点,这样我们就得到了m 个小点集,即得到点集和点集的特征集合。利用knn算法给每一个下采样得 到的点找到k个邻居点,分别计算出每个点x与其他邻居点的相关性,然后利 用softmax计算出一组权重,最后使用权重对x的所有邻居点的特征进行加权 求和,得出点x的第k个邻居点的新的feature。经过这步处理后,每个邻居点 的feature会包含邻域范围内的所有点的一些信息。然后,将两个分支提取的特 征连接在一起,形成一个结合局部特征和全局特征的点云特征,并用于后续的 特征融合操作。
[0031]
3)点云和图像特征融合模块中,将图像特征提取模块提取到的32纬图像 特征和
点云特征提取模块提取到的32维点云特征,并分别对图像和点云做一维 卷积操作提取图像64维特征和点云64维特征进行concatenate拼接获取128维 融合特征,再做一维卷积操作提取图像和点云的128维特征,并进行 concatenate拼接获取256维融合特征,将256维融合特征进行2次一维卷积操 作提升至1024维特征并做maxpooling操作,最后将所获得的128维、256维和 1024维融合特征进行concatenate拼接后做为一个全局特征,如图1所示。
[0032]
4)6d姿态估计模块中,将提取到的1408维特征进行卷积操作,分别预测 旋转参数,平移参数和置信度,总共进行四次卷积,先从1408维降维到640维, 再从640维卷积到256维,第三次卷积从256维度降到128维,第四次卷积操 作一个分支从128维降到预测物体的个数*4维,预测旋转参数,第二个分支从 128维降到预测物体的个数*3维,第三个分支从128维降到预测物体的个数*1 维。
[0033]
最后,我们的算法在公开数据集linemod上进行训练和测试,并和原来的densefusion模型的训练结果进行了对比,平均检测精度提高了2.1%,对比结果 如表1所示。实验评估指标为点云之间平均距离(average closest point distance, add-s),通过在点云模型中选取500个点,预测新的一帧的旋转参数r和平 移参数t,将新的一帧的点云通过预测参数进行旋转平移变化,将变化后的点 云与初始groud truth点云计算平均距离,当损失小于一定的阈值(公开数据集设 置为0.02m)时,就认为当前预测符合预期要求,将准确个数加1,最后计算准 确个数和总数的比值,这个比率为最终add-s指标的精度值。
[0034][0035]
表1与densefusion方法在linemod数据集上对比结果
[0036]
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明 的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围 之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1