面向机器人自主物体拾取任务的在线自学习方法与流程

文档序号：17332292发布日期：2019-04-05 22:09阅读：208来源：国知局

本发明涉及机器人自学习领域，具体地，涉及面向机器人自主物体拾取任务的在线自学习方法。尤其是涉及散乱堆放物体的机器人自主物体抓取在线自学习方法与系统。

背景技术：

机器人自主学习能力，弱化了机器人应用中对具体任务的详细设置要求，提升了机器人对不同场景的适应性，同时也是机器人智能性的重要特性，具有广泛的应用价值。非结构场景下对杂乱堆放物体的高效拾取任务有着广泛的应用需求，比如垃圾处理场景中的垃圾自动分拣，物流包裹的自动分拣，以及工业应用场景中的自动上下料等。传统物体拾取方法多采用物体识别、物体分割、位姿估计确定抓取点等一系列处理实现物体的抓取，然而堆放物体有着复杂的环境背景与相互位置关系，这个上述方法带来了很大的挑战。同时应用场景的多变性，也给为每一个场景进行具体的详细设置带来了巨大的工作量。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种面向机器人自主物体拾取任务的在线自学习方法。

根据本发明提供的一种面向机器人自主物体拾取任务的在线自学习方法，包括：

步骤1：将成堆放置的待拾取物体放置于rgbd相机感知区域的适当位置内，以实现视觉信息的有效感知，并根据待拾取物体位置选定有效的图像范围，根据待拾取物体大小选定对应的图像块大小并对rgb图像与深度图进行对应分块，其中分块步距选择为图像块长度的一半以保证对图像块边界区域的有效监测；

步骤2：将步骤1所得rgb图像块与对应的深度图像块，输入可吸附性区域预测卷积神经网络，获得可吸附性区域概率图；

步骤3：根据步骤2所得可吸附性区域概率图在图像坐标系下选择吸附点，然后结合吸附点对应区域的深度信息以及获得的图像坐标系与机器人操作坐标系之间的变换矩阵，获得吸附点的三维坐标；

步骤4：将抓取点信息输送至安装有真空吸盘的机器人系统中，机器人系统对抓取点进行试抓取，并将试抓取执行结果返回，同时根据抓取成功次数与待抓取物体判断是否需要重新放置待抓取物体；

步骤5：利用抓取结果在线训练所述可吸附性区域预测卷积神经网络。

优选地，步骤1中选定的所述有效的图像范围与待拾取物体在图像区域位置相对应，并在上下左右分别留有余量。

优选地，图像块大小根据待拾取物体大小以及步骤2中所述可吸附性区域概率图尺寸的不同比例设定，分块步距选择为图像块长度的一半。

优选地，所述可吸附性区域预测卷积神经网络，具体为resnet50网络结构串接u-net框架，经过训练的resnet50网络输出不同尺度的特征图，然后由u-net框架网络将多尺度的特征图结合起来以输出所述可吸附性区域预测概率图。

优选地，resnet50网络采用经imagenet预训练后的参数，并在在线自学习阶段固定，产生稳定的多尺度特征图，网络训练阶段仅调节u-net框架参数以实现不同特征图之间的有效融合，产生所述可吸附性区域预测概率图。

优选地，基于所述可吸附性区域预测概率图的吸附点选择，直接取最大值作为试抓取点，或者是，进行一定的滤波处理后，再取所述可吸附性区域预测概率图的最大值作为试抓取点。

优选地，在线自学习阶段，吸附点的选择引入探索机制，具体是在吸附点选择环节，不仅仅按所述可吸附性区域预测概率图最大概率选择，还按设定的概率在所述可吸附性区域预测概率图的图像坐标系随机选择像素点作为试抓取点，具体探索概率p按公式

确定，其中nep为超参数控制探索概率在在线学习中的衰减速率，nl为在线自学习的次数。

优选地，吸附时只考虑垂直方向上的吸附动作，故仅需吸附点的三维坐标，不需要考虑姿态信息；若将抓取方向离散化，利用步骤2输出的多副可吸附性区域预测概率图实现多方向的抓取。

优选地，根据机器人试抓取结果，抓取点在可吸附性区域预测概率图中对应像素点的理想值应为1或者0，对于理想值与实际预测概率值之间的误差，对该误差反传,实现可吸附性区域预测卷积神经网络的在线训练。

优选地，在线学习阶段，将可吸附性区域预测概率图的预测等价为二值分类问题采用交叉熵作为误差函数，同时引入旋转、平移、翻转、镜像、噪声这些数据增强方法，同时作为输入进行神经网络在线学习样本，具体误差函数loss为：

其中n为在线学习样本数，y为执行结果反馈的理想值，为网络预测概率实际值。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过直接对感知图像的处理直接获得抓取点，避免了传统物体拾取方法中的物体分割、位姿估计等环节，而上述环节在堆放物体等复杂操作环境下的效果不是很理想；

2、本发明通过机器人在线自学习的方式，自主的学习对特定目标物体的有效拾取，避免了通常需要对每一个具体任务的进行详细设置，降低了应用推广难度，且增加了通用性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一种基于区域预测的机器人自主物体拾取在线自学习方法的流程图；

图2为本发明中可吸附性区域预测卷积神经网络示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提供一种面向机器人自主物体拾取任务的在线自学习方法，优选例中相应的机器人系统硬件有rgbd相机、装备有真空吸盘的六自由度工业机械臂、散乱堆放的待拾取物体。将rgbd相机置于目标物体上方，相机视野向下，rgbd相机与工业机械臂根据手眼标定确定坐标变换矩阵。

所述基于区域预测的机器人自主物体拾取在线自学习方法具体实施步骤如下：

步骤1：将成堆放置的20个圆柱状物体放置于rgbd相机感知区域的适当位置内，rgbd相机输出480*640rgb图像流与480*640深度信息流，根据拾取物体位置选定有效的图像矩形范围,起像素为[65,130],终止像素为[410,500]，根据待拾取物体大小选定合适的图像块大小为168*168并对rgb图像与深度图进行对应分块，其中分块步距选择为图像块长度的一半即84；

步骤2：将步骤1所得rgb图像块与对应的深度图像块标准化后输入可吸附性区域预测卷积神经网络以获得相应区域的可吸附性区域预测概率图，概率图大小为56*56，即一个像素代表输入图像中3*3的图像块区域；

步骤3：根据步骤2所得可吸附性区域概率图在图像坐标系下选择吸附点，然后结合吸附点对应区域的深度信息以及手眼标定方法获得的图像坐标系与机器人操作坐标系之间的变换矩阵获得吸附点的三维坐标，该方法只考虑垂直方向抓取，故而不需要考虑吸盘姿态变化；

步骤4：将抓取点信息输送至安装有真空吸盘的机器人系统中，机器人对抓取点进行试抓取，并将试抓取执行结果返回，同时根据抓取成功次数与待抓取物体判断是否需要重新放置待抓取物体；

步骤5：利用抓取结果在线训练可吸附性区域预测神经网络，然后重复获得图像并分块进行循环学习。

步骤2中可吸附性区域预测卷积神经网络模块具体为resnet50结构串接u-net框架，经过训练的resnet50网络可以输出不同尺度的特征图，然后有u-net框架网络将多尺度的特征图结合起来以输出最终可吸附性区域预测概率图，神经网络采用tensorflow1.70框架，resnet50网络采用经imagenet预训练后的参数，具体网络参数由tensorflow的github官网下载，在线学习阶段固定，使其产生稳定的多尺度特征图，网络训练阶段仅调节u-net框架参数以实现不同特征图之间的有效融合，产生准确的56*56的可吸附性区域概率图；

基于概率图的吸附点选择，考虑可吸附性区域的连通性，进行一定的3*3的高斯滤波平滑处理后，取概率图的最大值作为试抓取点的图像坐标系坐标，结合对应区域深度信息，并进行坐标转换获得待抓取点的三维坐标；

在线自学习阶段，吸附点的选择引入探索机制，以平衡探索与利用问题，实现有效的学习。具体而言在吸附点选择环节，不仅仅按概率图最大概率选择，还按一定概率在概率图图像坐标系随机选择像素点作为试抓取点，具体探索概率按公式

确定，其中nep为超参数控制探索概率在在线学习中的衰减速率，nep选择为1000，nl为在线学习的次数；

根据机器人试抓取结果，抓取点在概率图中对应像素点应为“1”或者“0”，该理想值与实际预测概率值有一点误差，进对单个像素的误差反传,实现可吸附性区域预测卷积神经网络的在线训练；

记录抓取成功次数当成功次数接近20时即表明，待抓取区域目标物体不足，将目标物体重新堆放在相应区域内，以实现连续的在线学习；

可吸附性区域预测卷积神经网络的在线学习阶段，将概率图预测等价为二值分类问题采用交叉熵作为误差函数，同时引入旋转、翻转、镜像、噪声等数据增强方法，将在线数据扩展为8个训练样本，同时作为输入进行神经网络在线学习样本，具体误差函数为：其中n为8，y为执行结果反馈的理想值(“0”或者“1”)，为网络预测概率实际值。采用adam优化器进行误差反传梯度训练，其中动量参数设为0.9，学习率为5×10^-5，权重正则化系数为1×10^-4。

通过上述步骤及要求，物体拾取机器人可以通过2000次的在线自学习的方式获得对散乱堆放的20个圆柱物体的有效拾取。

在线自学习完成后通过对10次随意堆放的圆柱状目标物体的试验，最终成功率为92.1％，有效的实现了拾取机器人的在线自学习。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邵全全;胡洁;王伟明;戚进;方懿;刘文海;马进;潘震宇;韩鸣朔;薛腾
技术所有人：上海交通大学
我是此专利的发明人

上一篇：电源插排防雷控制方法、系统及下位机与流程
上一篇：电子电路模块和包括电子电路模块的车辆的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。