本发明涉及机器人抓取,具体涉及一种七自由度抓取姿态生成方法、装置、介质及设备。
背景技术:
1、抓取是机器人的基本技能,抓取技术备受研究人员关注。相关技术中,通常采用基于深度学习网络的抓取检测方法,但是相比单目标抓取任务,深度学习网络在多目标场景下的抓取推理性能下降,因此,对于多目标抓取任务,特别是在物体堆叠杂乱的情况下,给机器人自主抓取带来了新的挑战。另外,还有基于模型的抓取检测方法,但是该方法过度依赖3d模型,且对3d模型的质量要求较高,在真实环境中无法应对多目标抓取任务。
技术实现思路
1、本发明的目的是提供一种七自由度抓取姿态生成方法、装置、介质及设备,将多目标抓取转换为无类别分割和七自由度抓取姿态生成问题,实现多目标堆叠物体的准确抓取,提高抓取精度和准确性。
2、为了实现上述目的,第一方面,本发明提供一种七自由度抓取姿态生成方法,所述方法包括:
3、获取包含多个物体的rgb图像,以及所述rgb图像对应的深度图像;
4、将所述rgb图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
5、根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
6、针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
7、将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
8、将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息;
9、根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
10、可选地,所述根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图,包括:
11、针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
12、对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
13、根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
14、针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
15、可选地,所述无类别分割模块包括特征提取主干网络和区域建议网络;
16、所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
17、所述特征提取主干网络对所述rgb图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
18、所述区域建议网络通过滑动窗在所述rgb图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
19、所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
20、可选地,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
21、所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
22、针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
23、所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
24、所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
25、所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
26、根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
27、可选地,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
28、根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
29、根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
30、将所述第一抓取宽度作为所述第二抓取宽度。
31、可选地,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
32、通过如下公式得到所述七自由度抓取姿态信息:
33、
34、其中, g0、 tgrasp7d( gi, pi)表示七自由度抓取姿态信息, x表示抓取位置的三维坐标中的 x轴坐标, y表示抓取位置的三维坐标中的 y轴坐标, z表示抓取位置的三维坐标中的 z轴坐标, rx表示三维空间旋转分量的三维坐标中的 x轴坐标, ry表示三维空间旋转分量的三维坐标中的 y轴坐标, rz表示三维空间旋转分量的三维坐标中的 z轴坐标, w2表示第二抓取宽度, w1表示第一抓取宽度, t1表示第一变换, t2表示第二变换, t3表示第三变换, xi表示抓取位置的二维坐标中的 x轴坐标, yi表示抓取位置的二维坐标中的 y轴坐标, θ表示抓取角度, pi表示待抓取物体的点云, gi表示抓取五维信息, q表示抓取预测质量信息。
35、第二方面,提供一种七自由度抓取姿态生成装置,所述装置包括:
36、图像获取模块,用于获取包含多个物体的rgb图像,以及所述rgb图像对应的深度图像;
37、二值化掩膜确定模块,用于将所述rgb图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
38、单目标深度图确定模块,用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
39、目标深度值确定模块,用于针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
40、排序模块,用于将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
41、抓取五维信息预测模块,用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息;
42、抓取姿态信息确定模块,用于根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
43、可选地,所述单目标深度图确定模块,包括:
44、透明度确定子模块,用于针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
45、处理子模块,用于对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
46、深度区域图像确定子模块,用于根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
47、单目标深度图确定子模块,用于针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
48、可选地,所述无类别分割模块包括特征提取主干网络和区域建议网络;
49、所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
50、所述特征提取主干网络对所述rgb图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
51、所述区域建议网络通过滑动窗在所述rgb图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
52、所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
53、可选地,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
54、所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
55、针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
56、所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
57、所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
58、所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
59、根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
60、可选地,所述抓取姿态信息确定模块,包括:
61、第一确定子模块,用于根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
62、第二确定子模块,用于根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
63、第三确定子模块,用于将所述第一抓取宽度作为所述第二抓取宽度。
64、可选地,所述抓取姿态信息确定模块用于通过如下公式得到所述七自由度抓取姿态信息:
65、
66、其中, g0、 tgrasp7d( gi, pi)表示七自由度抓取姿态信息, x表示抓取位置的三维坐标中的 x轴坐标, y表示抓取位置的三维坐标中的 y轴坐标, z表示抓取位置的三维坐标中的 z轴坐标, rx表示三维空间旋转分量的三维坐标中的 x轴坐标, ry表示三维空间旋转分量的三维坐标中的 y轴坐标, rz表示三维空间旋转分量的三维坐标中的 z轴坐标, w2表示第二抓取宽度, w1表示第一抓取宽度, t1表示第一变换, t2表示第二变换, t3表示第三变换, xi表示抓取位置的二维坐标中的 x轴坐标, yi表示抓取位置的二维坐标中的 y轴坐标, θ表示抓取角度, pi表示待抓取物体的点云, gi表示抓取五维信息, q表示抓取预测质量信息。
67、第三方面,提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现如第一方面提供的所述方法的步骤。
68、第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行所述程序,以实现如第一方面提供的所述方法的步骤。
69、通过上述技术方案,将rgb图像输入至无类别分割模块中,得到各个物体分别所在区域的二值化掩膜,之后根据深度图像和各个物体分别所在区域的二值化掩膜,得到各个物体分别对应的单目标深度图,深度图像中有多个物体,得到单目标深度图后,可以完成一个场景的多目标深度图向多个单目标深度图的转换。无类别分割模块可以用于对类别不可知对象进行检测,即使不识别物体的类别属性依然可以对物体进行精细分割。抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。通过待抓取物体的点云和抓取五维信息进一步经过转换,可以得到七自由度抓取姿态。上述方案提升了抓取姿态预测的速度,解决了直接在点云中生成姿态信息导致的缩放问题,有效提高机器人的抓取成功率。