一种面向机器人智能抓取应用的视觉识别与定位方法与流程

文档序号:14715895发布日期:2018-06-16 01:20阅读:284来源:国知局
一种面向机器人智能抓取应用的视觉识别与定位方法与流程

本发明属于智能机器人领域,具体涉及一种面向机器人智能抓取应用的视觉识别与定位方法。



背景技术:

在智能化物流仓储系统中,具有智能抓取能力的移动作业机器人是实现高效无人运作的重要载体。机器人根据订单需求,在仓库中自主导航,抓取货架上的目标商品,实现无人化物料分拣。在商品抓取过程中,机器人的视觉系统对目标商品的正确识别和精确定位是抓取成功的先决条件,及时为机器人的运动控制提供精确的视觉感知信号才能保证抓取任务的成功完成。

机器人抓取的视觉识别方案多采用人工特征描述配合分类器分类的方式进行。其中人工设计的特征对于商品随意摆放、图像视角变化、光照变化、背景干扰等情况下的检测没有很好的鲁棒性,很大程度上影响实际检测效果。

视觉定位方面,现有技术中的一种方法是在待抓取商品上布置商品信息标签,标签包含待抓取商品的尺寸信息以及标签在商品上的位置信息,利用图像获取静止状态下的待抓取商品图像,通过识别和定位信息标签进而得出商品抓取方法。该方法在每个产品上设置标签,需要额外人工参与,智能化程度不高。

现有技术中的另一种方法是通过采集RGB-D图像,基于深度学习进行候选区域划分,经过白化处理后输入训练好的神经网络获取抓取位置。该方法在区域划分时每张图片要产生数千个候选区域,将每个候选区域输入卷积神经网络进行检测,计算量大,检测速度慢,不适用于实时性能要求较高的领域。且该方式仅能获取到目标物的抓取候选区域,无法确定目标的三维姿态,因此对于随意放置的目标物难以根据其不同位姿规划出最佳抓取方式。

总之,现有机器人视觉抓取技术中,识别与定位在检测过程中常分为两个步骤进行,整体上智能化程度不高,鲁棒性能不佳,且多因检测精度与速度相互制衡,难以达到应用标准。同时,这些检测方法多用于物品规则放置、采用单一抓取策略的条件,对于随意摆放的商品,其姿态信息没有得到很好的检测,不利于抓取方式规划及抓取成功率的提高。



技术实现要素:

为了解决现有技术中的上述问题,本发明提供了一种面向机器人智能抓取应用的视觉识别与定位方法,过程上将识别与定位步骤合二为一,简化检测过程;功能上增加姿态检测,适用于随意摆放的商品抓取策略规划;性能上既适应随意摆放、图像视角变化、光照背景干扰等扰动因素,又能有较优的实时性能,提高商品识别与抓取成功的概率。

本发明采用的技术方案如下:

一种面向机器人智能抓取应用的视觉识别与定位方法,包括以下步骤:

(1)图像采集步骤:通过安装在机械臂本体末端的视觉传感器采集待识别货架区域的RGB-D场景图像,所述RGB-D场景图像由彩色(RGB)图像和深度(Depth)图像组成;

(2)多目标识别与区域检测步骤:采用深度卷积神经网络对彩色图像进行检测,同时得出图像中包含哪些目标对象及其相应位置区域;

(3)点云分割步骤:借助视觉传感器内部参数,与深度图像转换成场景三维点云,提取点云中步骤(2)检测出的各对象对应位置区域;利用聚类算法进行进一步分割点云,得到目标对象的点云模型;然后利用RanSaC检测方法,分割出点云模型中代表性几何特征点集;

(4)位姿求解步骤:采用PCA主成分分析法,提取步骤(3)分割出的点集特征向量,得出目标物体在视觉传感器坐标下当前位姿所对应的主方向、副方向以及表面法向,进而计算目标物体位姿四元数;

(5)坐标变换步骤:根据位姿求解结果,采用坐标变换矩阵,将相对于视觉传感器的位姿四元数转换成控制器所需坐标系下的对应参数,并将结果传送给控制系统。

进一步地,所述图像采集步骤包括:机器人采用深度相机,在距离货架1米左右的位置采集场景中的彩色图像和深度图像,彩色图像包含场景中目标物表面颜色信息和纹理信息,深度图像包含场景中目标物的空间状态信息,深度图像中的每个像素点的像素值表示传感器到实体对象的距离,彩色图像和深度图像中的像素点通过视觉传感器内参校正后一一对应,组成RGB-D图像。

进一步地,所述深度卷积神经网络针对特定检测任务生成,其生成过程包括深度学习数据集构建步骤、深度卷积神经网络构建步骤,以及深度卷积神经网络离线训练步骤,具体如下:

(A)深度学习数据集构建步骤:根据检测对象及任务需求采集对应场景下的样本图像,借助开源工具人工标注样本图像,标注信息包括场景中目标对象所属类别及其对应位置区域;

(B)深度卷积神经网络构建步骤:使用基础网络和附加网络组成所述深度卷积神经网络,基础网络用于提取特征,附加网络利用提取的多尺度特征图进行目标分类和位置回归;

(C)深度卷积神经网络离线训练步骤:针对自建小规模数据集进行数据增强处理,初始化深度卷积神经网络各项参数,设置训练参数进行网络权重参数的学习与迭代更新,利用训练得到的权重参数预测相似场景图像中包含的目标物体及其对应位置区域。

进一步地,所述基础网络采用VGG-16作为原型,在保持整体结构不变的情况下对网络进行局部修改,优化特征提取性能;所述局部修改的地方包括:pool5层以1进行边缘填充后采用3×3的核进行池化,并以1步幅移动遍历;conv6和conv7层将全连接操作改成卷积操作;conv6采用膨胀卷积操作。

进一步地,所述附加网络通过共享卷积特征图的方式,将类别预测和位置回归步骤合二为一,根据提取的多尺度特征图输出三通道检测结果,三通道输出向量分别包括:各特征图上的各个预设的包围框位置(cx,cy,w,h),其中(cx,cy)代表包围框的中心坐标,w和h是包围框的长宽尺寸;位置预测各实际包围框相对于该位置上预设包围框的位置偏移量(△cx,△cy,△w,△h);类别预测结果表示每个预设包围框框选对象属于各个类别的概率,概率最大项即为包围框框选对象类别的预测结果。

进一步地,所述数据增强处理是指:对给定样本图像进行随机裁剪、水平翻转、尺寸缩放、色调调整、亮度调整、饱和度调整等预处理,最终将图像统一缩放到300×300大小;

所述初始化深度卷积神经网络参数是指:采用VGG-16在ImageNet上的训练结果初始化结构相同的卷积层权重及阈值,其余新增层参数采用Xavier算法初始化;

所述网络权重参数的迭代更新是指:将预处理好的给定样本集输入深度卷积神经网络,设置训练参数采用反向传播算法训练迭代至结果收敛,对整个网络进行参数的整体优化;其中,反向传播进行训练的损失函数L为:

L=(Lconf+αLloc)/N

其中,Lconf表示置信损失,即类别预测结果与真实结果的偏差度量;Lloc表示位置损失,即位置预测结果与真实位置之间的偏差度量;α为权重系数,调整置信损失与位置损失在与预测结果中的权重;N为匹配的预设包围框数,若N=0,则记L=0;通过置信损失和位置损伤的加权综合得到多目标类别预测及其位置区域预测的整体损失度量。

进一步地,所述点云分割步骤中,所述聚类算法常采用基于距离进行聚类的K-means算法,将点云聚类成物体与背景两个簇,提取出属于目标物体的点云,过滤去除背景噪点。

进一步地,所述采用RanSaC检测方法分割出点云模型中代表性几何特征点集是指:借助步骤(2)物体类别检测结果,判断目标物体可能带有的代表性几何特征,通常为平面、圆柱面或球面等规则几何特征,检测点云集中代表性几何特征存在性并分割出相应区域点云。代表性几何特征的判断以物体类别检测结果为基础。

进一步地,所述PCA主成分分析法是指:根据分割得到的点云特征点集,计算点云集坐标分布特征的协方差矩阵,协方差矩阵最大特征值对应的特征向量即为该点集的主方向,次大特征值对应的特征向量正交于最大特征向量为副方向,由主方向方向矢量叉乘副方向方向矢量确定表面法向。

进一步地,所述坐标变换矩阵表示表示由相机物理坐标系到控制器所需坐标系下的坐标齐次变换关系,控制器所需坐标系通常取机械臂末端执行器物理坐标系,坐标变换矩阵由视觉标定生成,标定过程包括:借助标准标定板,通过多视角标定图像中角点及其几何关系,标定相机内参,校正相机物理坐标系;借助标准标定板,通过机器人机械臂关节运动参数和多视角标定图像角点坐标变换关系,标定相机物理坐标系与机械臂末端执行器物理坐标系间的齐次变换;结合相机内参与齐次变换矩阵转换位姿至控制系统所需坐标系下,并将视觉识别与位姿检测结果传送给控制系统。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:

图1是本发明识别与定位方法的流程示意图。

图2是本发明深度卷积神经网络结构图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。

首先,本发明针对机器人的视觉识别与定位对象,构建和训练相应的深度卷积神经网络,具体包括深度学习数据集构建步骤、深度卷积神经网络构建步骤,以及深度卷积神经网络离线训练步骤,详细说明如下:

(A)深度学习数据集构建步骤:根据检测对象及任务需求采集对应场景下的样本图像,借助开源工具人工标注样本图像,标注信息包括场景中目标对象所属类别及其对应位置区域。

所述样本图像包括机器人所要识别的货品图像,具体采集什么样的图像取决于具体的识别目标,可以采用实际采集的场景图像作为样本。

(B)深度卷积神经网络构建步骤:构建的深度卷积神经网络由基础网络和附加网络两部分组成,基础网络用于提取特征,附加网络利用提取的多尺度特征图进行目标分类和位置回归(如图2所示)。

基础网络采用VGG-16作为原型,在保持整体结构不变的情况下进行局部修改,优化特征提取性能。实际采用的基础网络层次结构及参数情况如表1所示:

表1:基础网络的层次结构及参数

所述局部修改的地方为:(1)pool5层以1进行边缘填充后采用3×3的核进行池化,并以1步幅移动,虽经过一次池化操作,但不会改变特征图的尺寸;(2)conv6和conv7层将全连接操作改成卷积操作,减少训练参数的同时为附加网络保留了细节更丰富的特征图;(3)conv6采用膨胀卷积操作,使用较少的计算来覆盖较大的感受野,并在一定程度上抑制过拟合的产生。

附加网络通过共享卷积特征图的方式,将类别预测和位置回归步骤合二为一,根据提取的多尺度特征图输出三通道检测结果。三通道输出向量分别包括:各特征图上的各个预设的包围框位置(cx,cy,w,h),其中(cx,cy)代表包围框的中心坐标,w和h是包围框的长宽尺寸。位置预测各实际包围框相对于该位置上预设包围框的位置偏移量,记为(△cx,△cy,△w,△h)。类别预测每个预设包围框框选对象属于各个类别的可能性大小,记为(c1,c2,…,cp)。

其中,所述预设包围框是指:由提取的特征图上根据尺寸大小均匀设置,并且同一位置设置多种不同纵横比的包围框,各层包围框的尺寸等差分布。

所述位置预测是指:对于任意提取的特征图,使用3×3的卷积核进行卷积滤波,滤波产生预测包围框相对于该位置上预设包围框的位置微调量,进而得到位置回归结果。

所述类别预测是指:将背景当作种类之一,使用卷积滤波预测每个预设包围框框选对象属于各个待识别货品或背景的概率大小。

(C)深度卷积神经网络离线训练步骤:针对自建小规模数据集进行数据增强处理,初始化深度卷积神经网络各项参数,设置训练参数进行网络权重参数的学习与迭代更新,利用训练得到的权重参数预测相似场景图像中包含的目标物体及其对应位置区域。

优选地,所述数据增强处理是指:对给定样本图像进行随机裁剪、水平翻转、尺寸缩放、色调调整、亮度调整、饱和度调整等预处理,最终将图像统一缩放到300×300大小,扩增样本数量和多样性。

优选地,所述的初始化深度卷积神经网络各项参数是指:采用VGG-16在ImageNet上的训练结果初始化重叠的卷积层权重,其余新增层参数采用Xavier算法初始化。

所述的网络权重参数的学习与迭代更新是指:将预处理好的给定样本输入深度卷积神经网络,设置训练参数采用反向传播算法训练迭代至结果收敛,对整个网络进行参数的整体优化。其中,反向传播进行训练的损失函数L为:

L=(Lconf+αLloc)/N

其中,Lconf表示置信损失,即类别预测结果与真实结果的偏差度量;Lloc表示位置损失,即位置预测结果与真实位置之间的偏差度量;α为权重系数,调整置信损失与位置损失在预测结果中的权重,优选的,α=1;N为匹配的预设包围框数,若N=0,则记L=0。通过置信损失和位置损伤的加权综合得到多目标类别预测及其位置区域预测的整体损失度量。

在完成了上述深度卷积神经网络后,本发明的方法在进行具体识别与定位时,进一步包括图像采集步骤、多目标识别与区域检测步骤、点云提纯步骤、位姿求解步骤和坐标系变换步骤,具体说明如下:

(1)图像采集步骤:通过安装在机械臂本体末端的视觉传感器采集待识别货架区域的RGB-D场景图像。

具体地,机器人采用Kinect深度相机,在距离货架1米左右的位置采集场景中的彩色图像和深度图像,彩色图像包含场景中待抓取目标物表面颜色信息和纹理信息,深度图像包含场景中待抓取目标物的空间状态信息,深度图像中的每个像素点对应像素值表示传感器距离待抓取目标物的距离,彩色图像和深度图像中的像素点通过视觉传感器内参校正后一一对应,组成RGB-D图像。

(2)多目标识别与区域检测步骤:采用深度卷积神经网络对彩色图像进行检测,同时得出图像中包含哪些目标对象及其相应位置区域。

所述深度卷积神经网络通过上述步骤A-C训练获得,其输出为图像中包含的目标类别以及目标在图像中的对应位置区域。其中目标区域以其所在矩形包围框左上和右下角点坐标确定。

(3)点云分割步骤:借助视觉传感器内部参数,将深度图像转换成场景三维点云,分割出点云中步骤(2)检测出的各对象对应位置区域;利用聚类算法进一步分割点云,得到目标对象的点云模型;然后利用RanSaC检测方法,分割出点云模型中代表性几何特征点集。

优选地,所述聚类算法采用基于距离进行聚类的K-means算法,将点云聚类成物体与背景两个簇,提取出属于目标物体的点云,过滤去除背景噪点。

优选地,所述利用RanSaC检测方法分割出点云模型中代表性几何特征点集是指:借助步骤(2)物体类别检测结果,判断目标物体可能带有的代表性几何特征,通常为平面、圆柱面或球面等规则几何特征,检测点云集中代表性几何特征存在性并分割出相应区域点云。代表性几何特征的判断以物体类别检测结果为基础。

(4)位姿求解步骤:采用PCA主成分分析法,提取步骤(3)分割出的点集特征向量,得出目标物体在视觉传感器坐标系下当前位姿所对应的主方向、副方向以及表面法向,进而计算目标物体位姿四元数。

优选地,所述PCA主成分分析法是指:根据分割得到的几何特征点集,计算点云集坐标分布特征的协方差矩阵,协方差矩阵最大特征值对应的特征向量即为该点集的主方向,次大特征值对应的特征向量正交于最大特征向量为副方向,由主方向方向矢量叉乘副方向方向矢量确定表面法向。

(5)坐标变换步骤:根据位姿求解结果,采用坐标变换矩阵,将相对于视觉传感器的位姿四元数转换成控制器所需坐标系下的对应参数,并将结果传送给控制系统。

具体的,所述坐标变换矩阵表示由相机物理坐标系到控制器所需坐标系下的坐标齐次变换关系,控制器所需坐标系通常取机械臂末端执行器物理坐标系,坐标变换矩阵由视觉标定生成,标定过程包括:借助标准标定板,通过多视角标定图像中角点及其几何关系,标定相机内参,校正相机物理坐标系;借助标准标定板,通过机器人机械臂关节运动参数和多视角标定图像角点坐标变换关系,标定相机物理坐标系与机械臂末端执行器物理坐标系间的齐次变换;结合相机内参与齐次变换矩阵转换位姿至控制系统所需坐标系下,并将视觉识别与位姿检测结果传送给控制系统。

本发明提供的面向机器人抓取应用的视觉识别与定位方法可以直接利用获取的图像信息确定视野中包含的目标类别及其位姿。采用深度学习卷积神经网络,将多目标识别与位置回归步骤合二为一,简化检测过程提高了检测速度;且利用卷积神经网络提取的特征能够在复杂的工作环境中做出合理的判断,对多重环境干扰具有很强的鲁棒性能,提高了识别准确率;其定位方法能够在确定物体位置分布的基础上得到更进一步的姿态信息,便于下一步进行抓取策略规划,正确引导机器人采用不同的方式进行分类抓取,智能化程度高,实现了真正的无人化操作。

以上所述仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1