基于触觉与视觉结合的多模态物体抓取方法与系统与流程

文档序号:20512726发布日期:2020-04-24 18:43阅读:373来源:国知局
基于触觉与视觉结合的多模态物体抓取方法与系统与流程

本申请涉及机器人技术领域,特别涉及一种基于触觉与视觉结合的多模态物体抓取方法与系统。



背景技术:

人工智能与硬件设备的飞速发展大大地推进了工业化进程与机器人科学的发展。机器人的抓取功能是机器人最基本的功能,用来在任务中执行诸如分拣、拾取等基本的任务操作。在工业生产环境或者物流分拣任务下,机器人抓取应用十分常见。但是目前的抓取工作普遍使用单一模态,也即通过视觉对物体进行抓取预测,得到适合机械手抓取的点。然而在利用视觉对抓取点进行判断时常常由于难以对物体的重心和表面粗糙程度进行判断,客观存在机器人自身系统误差、视觉传感器输入误差和环境噪声等因素,加上目标物体可能具有不规则几何外形,单一模态的抓取方式导致了抓取任务执行时的困难,从而导致抓取成功率降低。

一般的,用来用点接触抓取物体的方法都是首先通过固定的深度相机,获取目标物体可见部分的点云信息,基于高斯过程重建曲面。通过设置满足稳定抓取的约束条件,例如力封闭原则,筛选出满足条件的可行抓取点的集合,最后在仿真环境和机器人实物上验证抓取的成功率。但是这种方式的弊端是:仅仅依靠视觉抓取,从物体上获取的信息太少,很容易造成误判,从而导致抓取失败。

普遍的抓取方式是用机器人视觉对整体环境进行判断。采取的抓取方式是:首先通过相机对环境信息进行采集,得到一张整体的rgbd图像,再去除背景,将不同的物体分割开,成为独立的图像,再对感兴趣的图像表面由经验得到物体的重心,根据重心确定最优抓取点后进行抓取。这样的抓取方式仅仅从物体的形状判断经验来得出物体的重心,但是可能会有分布不均的情况从而导致抓取失败。这种操作很难得到物体的所有几何信息,所以就存在对物体相撞判断是否准确的问题;仅仅从视觉难以判断物体重心,从而容易误抓取而导致抓取失败。

另一种方案为只通过触觉,使用gelsight触觉传感器通过其极易形变的物体表面下的微型摄像头采集到的形变状态来判断此时物体表面的形状。这就需要在抓取之前对物体表面都进行一次“探索”,再通过事先离线训练好的模型对这些形状进行判断以获得最适合表面抓取的位置。这种方案存在的问题有:(1)只有触觉没有视觉,需要人为设定抓取的位置,时间成本过高,人机交互不友好;(2)如果对抓取点位置判断失误将会导致机器人抓取失败从而对堆叠物体环境造成影响;(3)对整体物体对方环境没有任何认知,所以在机械臂规划过程中有可能对其他物体造成误判从而影响整体操作环境。

以上背景技术内容的公开仅用于辅助理解本申请的发明构思及技术方案,其并不必然属于本申请的现有技术,在没有明确的证据表明上述内容在本申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。



技术实现要素:

针对机器人抓取存在的难点,例如:传感器精度,物体质心分布情况难以简单通过视觉判定,物体位置难以通过触觉一次获知,物体的不规则外形和表面摩擦系数等造成无法准确找到最合适的抓取位置从而导致抓取失败,本申请提出一种基于触觉与视觉结合的多模态物体抓取方法与系统,通过对真实场景下机械手对目标物体进行抓取的过程进行模拟,可提高一次性抓取成功率。

在第一方面,本申请提供一种基于触觉与视觉结合的多模态物体抓取方法,包括:

a1、对相机进行标定,以实现从世界坐标系向像素坐标系的转换;

a2、对从所述相机获取的图像进行背景干扰因素的滤除;

a3、对a2中的图像进行预处理得到抓取候选区域集合,从所述抓取候选区域集合中选择n个得分最高的抓取候选区域作为机械手可行抓取区域;

a4、控制机械手随机选择一个所述机械手可行抓取区域,以一定的力闭合,并停留m个时间周期对目标物体进行触觉数据采集;将采集到的触觉数据与a2中得到的图像数据融合输入进卷积神经网络中,判定抓取是否可行;若不可行则按照同样的步骤对另外的所述机械手可行抓取区域进行判断;若n个机械手可行抓取区域都判定为不可抓取,则判定所述目标物体超出机械手抓取的能力范围;

a5、发出抓取指令,以控制机械臂和机械手完成抓取所述目标物体的动作。

在一些优选的实施方式中,还包括建立数据集:

获取多种物体的视觉数据;

获取每个物体的不同部位所使用的力由小至大持续采集p个触觉传感器数据采集周期的触觉数据,并最后叠加所有时间序列的触觉数据,一个部位得到p+1个触觉数据,一个物体采集多个部位,得到多组触觉数据;

使所述多组触觉数据对齐;

将所述视觉数据和所述触觉数据排列成一列,以实现视觉数据和触觉数据的融合,得到视觉触觉数据;

将所述视觉触觉数据输入到所述卷积神经网络,训练出数据集内不同目标物体的特征。

在一些优选的实施方式中,所述使所述多组触觉数据对齐具体为:采用dtw动态时间规划的方法使所述多组触觉数据对齐。

在一些优选的实施方式中,所述多组触觉数据为二指机械手的两组触觉数据。

在一些优选的实施方式中,所述a1具体为:运用张正友棋盘标定法对相机进行标定。

在一些优选的实施方式中,所述a2包括:获取仅含有目标物体的图像;对所述图像做前景和背景的二分类并框选出前景中的目标物体;完成分类之后对背景做掩模操作。

在一些优选的实施方式中,所述机械手为二指机械手;所述卷积神经网络为y=f(x);其中,y为是否可以抓取,为0、1二值分布;x=(dcamera,dlsensor,drsensor),其中,dcamera,dlsensor,drsensor分别为从相机、二指机械手的左指尖触觉传感器、二指机械手的右指尖触觉传感器获取的触觉数据。

在一些优选的实施方式中,所述n的值为3,所述m的值为100,所述p的值为100。

在第二方面,本申请提供一种基于触觉与视觉结合的多模态物体抓取系统,包括相机、机械手、机械臂、主控制计算机和力传感器;所述主控制计算机用于执行上述方法。

在第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被计算机的处理器执行时使所述处理器执行上述方法。

与现有技术相比,本申请实施例的有益效果有:

通过视觉对机械手与目标物体接触的区域建模,筛选出机械手可以进行抓取的可行抓取区域,再由触觉判断抓取的表面与力是否可以成功将筛选的区域成功抓取;最后控制机械臂和机械手完成抓取目标物体的动作。基于真实物理环境下充分对人抓取物体的过程进行模拟。能够解决在视觉所得到物体模型信息过少的情况下对物体难以抓取的情况。能够进一步还原机械手与目标物体接触的真实情况,从而在实际操作过程中能有较高的一次性抓取成功率,减少重复操作,减少抓取的时间成本和能源成本。

附图说明

图1为本申请一个实施例的基于触觉与视觉结合的多模态物体抓取系统的结构示意图;

图2为本申请一个实施例的基于触觉与视觉结合的多模态物体抓取方法的信息交互图;

图3示出本申请一个实施例的基于触觉与视觉结合的多模态物体抓取方法的工作流程;

图4示出本申请一个实施例的视觉数据与触觉数据的融合结果。

具体实施方式

为了使本申请实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合图1至图4及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接即可以是用于固定作用也可以是用于电路连通作用。

需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

参考图1和图2,本实施例提供一种基于触觉与视觉结合的多模态物体抓取系统,包括主控制计算机1、相机2、相机的固定支架3、机械手4、机械臂6、储物平台7和力传感器8。

对下文中将会提及到的技术术语进行说明。

力封闭条件:是指机械手能够实现施加在待抓取物体的接触力在满足相应的摩擦约束条件下能够平衡任意的外力和外力矩的能力。通常用来判断一种抓取方式是否满足力封闭条件的方法就是根据其对应的抓取矩阵是否为行满秩矩阵。一般的,摩擦约束因机械手与待抓取物体之间的接触模型不同而不同。接触模型包括无摩擦点接触模型、带摩擦点接触模型和软手指接触模型三类,其中无摩擦点接触模型由于理想化的接触建模,没有摩擦约束;带摩擦点接触模型和软手指模型都存在相应的摩擦约束条件。本实施例是带摩擦点接触模型。

抓取矩阵:是基于多维矢量空间,用来表示在所有接触点处抓取力与相关接触力之间的抓取映射关系。而这些接触力都必须满足对应接触模型下的摩擦约束条件。

卷积神经网络(convolutionalneuralnetwork):是一种广泛应用于图像领域的包含卷积计算的具有深度结构的前馈人工神经网络。常见的结构为:输入-卷积层-池化层-卷积层-池化层-全连接层-输出。卷积神经网络的输入层可以处理多维数据,常见地,一维卷积神经网络的输入层接收一维或二维数组,其中一维数组通常为时间或频谱采样;二维数组可能包含多个通道;二维卷积神经网络的输入层接收二维或三维数组;三维卷积神经网络的输入层接收四维数组。由于卷积神经网络在计算机视觉领域有广泛应用,因此许多研究在介绍其结构时预先假设了三维输入数据,即平面上的二维像素点和rgb通道。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑;在一些更为现代的算法中可能有inception模块、残差块(residualblock)等复杂构筑。在常见构筑中,卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数,而池化层不包含权重系数。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层通常搭建在卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。卷积神经网络中输出层的上游通常是全连接层,因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题,输出层使用逻辑函数或归一化指数函数(softmaxfunction)输出分类标签。

多模态:每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。在本实施例中,一种模态是视觉传感器,另一种模态是触觉传感器。

主控制计算机1装有windows操作系统和ubuntu16.04系统。

相机2为3d深度相机,用来获取待抓取物体信息。参考图1,相机2安装在固定支架3上,且相机2的布置方式是垂直向下。3d深度相机采集关于待抓取的目标物体深度和rgb图像数字信息,并将获得的物体信息传送给主控制计算机1。

机械手4为二指机械手。二指机械手的指尖装配有触觉传感器41。触觉传感器为磁流触觉传感器。触觉传感器41采集关于待抓取目标物体的表面纹理、粗糙程度与物体质心信息等物体信息,并将获得的物体信息传送给主控制计算机1。在其他实施例中,根据实际需要,机械手4还可以是三指机械手、四指机械手或五指机械手。

机械臂6为六自由度机械臂。在其他实施例中,机械臂6还可以是具有其它数量自由度的机械臂。六自由度机械臂装配有二指机械手

储物平台7用来放置待抓取的目标物体5。

力传感器8为六维力传感器。

主控制计算机1主要功能是处理视觉与触觉输入数据。通过3d深度相机得到的深度与rgb图像数字信息,计算目标物体的三维坐标信息;随后通过逆运动学解算,主控制计算机1与机械臂6的控制器进行通信,实现机械臂的位置控制和二指机械手的控制,完成抓取任务。

六自由度机械臂主要用来完成抓取任务。机械臂6的控制器通过接收主控制计算机发出的运动指令,运动到指定位置。其中,该运动指令是根据目标物体的空间位置减去已测定的机械臂6末端的二指机械手之间的尺寸,得到机械臂末端的空间位置,再经逆运动学解算得到要完成抓取任务,生成机械臂末端需要移动到空间位置及其对应的各关节应转动的角度指令。

二指机械手是实现抓取任务的关键工具,当六自由度机械臂运动到指定位置后,主控制计算机1向机械手发出指令,使得机械手运动到特定位置后,通过开合动作完成抓取。

六维力传感器8是用来监测二指机械手在闭合时力的大小(即获取接触力的值),因为对于软硬程度不同的物体在抓取中所需要的抓取力也不尽相同。如此,二指机械手可以感知物体局部的形状与抓取的力度。本实施例将抓取力也作为衡量能否实现稳定抓取的判定依据之一。

通过3d深度相机采集待抓取物体的深度信息和rgb信息,作为原始数据,在主控制计算机上配置openni采集这些信息,并用opencv进行数据的处理工作,实现目标物体的抓取与定位,运行于ubuntu16.04系统。

本实施例还提供一种基于触觉与视觉结合的多模态物体抓取方法,包括训练阶段和实物抓取阶段。

为了使得物体可以被稳定抓取,在训练阶段,分别采集视觉和触觉的数据,建立数据集。训练阶段包括步骤s1至步骤s5。

步骤s1、获取多种物体的视觉数据。

采用ycb开源数据集中的179种物品的视觉数据作为训练使用的视觉数据。在其他实施例中,也可从日常生活中选取多种物体,然后通过相机获取物体的视觉数据。

步骤s2、获取每个物体的不同部位所使用的力由小至大持续采集p个触觉传感器数据采集周期的触觉数据,并最后叠加所有时间序列的触觉数据,一个部位得到p+1个触觉数据,一个物体采集多个部位,得到多组触觉数据。步骤s2是采集与物品的视觉信息相对应的触觉信息。在本实施例中,p的值为100。

将所用物品通过3d打印制作出来,并对每个物体的不同部位所使用的力由小至大持续采集100个触觉传感器数据采集周期的触觉数据,最后叠加所有时间序列的触觉数据,一个部位得到101个触觉数据,一个物体采集至少10个部位。为了便于抓取,采集触觉数据信息时机械手仅沿着世界坐标系的三坐标方向由轻到重对物体进行抓取尝试,直到机械手能稳定抓取物体。其中,触觉数据包括物体信息和对应的力;物体信息包括抓取的表面的信息。

步骤s3、使多组触觉数据对齐。

步骤s3为对触觉传感器数据进行处理。由于使用的是二指机械手,在两个指尖都粘贴有触觉传感器,所以可能会产生触觉信息采集时间序列不一致的情况(可能由于频率影响,某个传感器数据采集多于100,从而造成数据不匹配)。多组触觉数据为二指机械手的两组触觉数据。采用dtw(dynamictimewarping)动态时间规划的方法使得两组数据对齐。

步骤s4、将视觉数据和触觉数据排列成一列,以实现视觉数据和触觉数据的融合,得到视觉触觉数据。

步骤s4为视觉触觉数据融合。因为触觉和视觉的数据都是n×3的数据组成格式(n为数据采集的组数),将数据排列成一列,如图4所示。

步骤s5、将视觉触觉数据输入到卷积神经网络,训练出数据集内不同目标物体的特征。

本实施例训练了一个神经网络y=f(x),其中y为是否可以抓取,为0、1二值分布。x=(dcamera,dlsensor,drsensor),其中dcamera,dlsensor,drsensor为从相机、左指尖传感器、右指尖传感器采集回的数据。因为左右指尖的数据可以表示为图像格式,所以这里的神经网络为卷积神经网络。

实物抓取阶段包括步骤a1至步骤a5,执行主体为主控制计算机1。

步骤a1、对相机进行标定,以实现从世界坐标系向像素坐标系的转换。

步骤a1为3d深度相机标定。为了实现精确定位,首先对3d深度相机进行摄像头的标定,运用张正友棋盘标定法来实现获得从世界坐标系向像素坐标系的转换矩阵,从而实现坐标系的转换。

步骤a2、对从相机获取的图像进行背景干扰因素的滤除。

步骤a2具体包括:分割点云,去除噪声干扰。由于实际的待抓取物体的识别过程中会存在背景的干扰,因此还需要先进行背景干扰因素的滤除,从而获得仅含有待抓取物体的图像信息。在滤除背景的步骤中,使用的开源的mask-rcnn网络对一幅图做前景和背景的二分类,并且框选出前景中的物体,分类完成之后将背景做掩模操作;即,将背景部分的图像的像素值都赋为0,从而消除背景对前景物体的影响。

步骤a3、对步骤a2中的图像进行预处理得到抓取候选区域集合,从抓取候选区域集合中选择n个得分最高的抓取候选区域作为机械手可行抓取区域。

在本实施例中,n的值为3。

将步骤a2中的图像进行预处理;即,对视觉数据使用神经网络进行预处理得到抓取候选区域集合,从中选择3个得分最高的候选作为机械手可行抓取区域。

其中,抓取候选区域集合的获取可通过现有技术中的方式来实现;选择得分最高的候选也是通过现有技术中的方式来实现;比如中国专利申请号为201910527766.8的专利文件中的方式。

步骤a4、控制机械手随机选择一个机械手可行抓取区域,以一定的力闭合,并停留m个时间周期对目标物体进行触觉数据采集;将采集到的触觉数据与步骤a2中得到的图像数据融合输入进卷积神经网络中,判定抓取是否可行;若不可行则按照同样的步骤对另外的机械手可行抓取区域进行判断;若n个机械手可行抓取区域都判定为不可抓取,则判定目标物体超出机械手抓取的能力范围。

在本实施例中,m的值为100。参考图3,根据主控制计算机1的控制指令,机械手4随机选择一个候选抓取区域也即机械手可行抓取区域,根据六自由度机械臂与二指机械手之间的位姿关系,主控制计算机将所选机械手可行抓取区域的抓取点坐标通过moveit!软件转换成机械臂运动的位姿指令和二指机械手开合的时序控制指令,分别向机械臂和二指机械手发送。机械手以一定的力闭合,并停留100个时间周期对数据进行采集。主控制计算机1将采集到的触觉数据与步骤a2中得到的图像数据融合输入进卷积神经网络中,得到抓取是否可行;若不可行则按照同样的步骤对另外两个机械手可行抓取区域进行判断。如果三个机械手可行抓取区域都判定为不可抓,则认为此物体超出了机械手抓取的能力范围。其中,触觉数据包括目标物体的物体信息和机械手对应的闭合的力;目标物体的物体信息包括抓取的目标物体的表面信息。

具体指令顺序如下:初始状态下的机械手处于二指抓夹闭合且处于水平位置,距离上方物体20cm,在机械臂运行到距离待抓取物体5cm的位置时,打开二指机械手,机械臂调整位置和姿态避免和待抓取物体产生碰撞,当机械手到达距离最佳抓取区域但没有接触时,机械手以一定的力闭合并停留一定的时间。抓取指令完成。

步骤a4中的抓取是否可行可通过如下方式进行判断:首先利用小型神经网络分别对视觉数据和触觉数据进行特征提取,然后对特征进行融合;输入进卷积神经网络对卷积神经网络进行训练,输出的结果为一个二分类结果:可抓为1,不可抓为0。

步骤a5、主控制计算机1发出抓取指令,以控制机械臂和机械手完成抓取目标物体的动作。

收到主控制计算机1发出的抓取指令之后,机械臂运动到指定的空间位置并调整末端姿态。机械臂到达期望位置后,二指机械手执行控制指令,完成抓取目标物体动作,实现稳定抓取。其中,机械臂和机械手先后执行任务,完成指令。

稳定抓取的条件是满足接触模型下力封闭条件、任务约束、机械臂自身结构的约束、触觉上的形状可抓和抓取力度等。只要在进行抓取任务时能够满足上述条件,就能判定此次的抓取能够成功。

本实施例首先通过视觉对机械手与目标物体接触的区域建模,筛选出机械手可以进行抓取的区域,通过卷积神经网络来衡量目标物体与数据集中物体之间的相似程度,再由触觉判断抓取的表面与力是否可以成功将筛选的区域成功抓取;最后通过机械臂控制实现对目标物体的抓取。其中,机械臂控制主要包括机械臂主体的运动控制和机械手的抓取位姿控制。基于真实物理环境下充分对人抓取物体的过程进行模拟。能够解决在视觉所得到物体模型信息过少的情况下对物体难以抓取的情况。能够进一步还原机械手与目标物体接触的真实情况,从而在实际操作过程中能有较高的一次性抓取成功率,减少重复操作,减少抓取的时间成本和能源成本。

对于机器人要完成抓取任务来说,现在普遍存在的难点是传感器的精度有限,目标物体的重量和质心未知,目标物体的不规则外形和表面摩擦系数,客观的非理想化的环境,这些都造成了物体的表面信息不能准确的获取和无法准确的完成抓取任务。在本实施例中,提出了多模态融合抓取的概念,并训练适用于多模态抓取的神经网络,在实际抓取过程中,配合二指机械手抓取时的抓取配置,用视觉、触觉的多模态信息通过卷积神经网络方法实现稳定抓取。具体是通过视觉对目标物体的形状进行判断,找出适合抓取的区域;在接触目标物体的同时判断物体的重量与重心对抓取的力度与抓取区域进行调整。

本实施例针对目标物体在世界坐标系下位置未知且表面形状、材料、摩擦系数与物体质心位置未知的情况,提出基于视觉与触觉融合的多模态抓取方式,将分别采集到的视觉数据与触觉数据进行融合后经过一个卷积神经网络,能够提高物体抓取的成功率。

本实施例为了确保准确的抓取,建立了基于二指机械手和目标物体之间的抓取坐标系,也即步骤a1;根据两者之间的位姿关系能够准确的对目标物体进行定位和描述,也能够对抓取动作能够准确的用参数化的方式进行描述。

本实施例通过视觉、触觉两种模态的结合判断物体的外形、质心从而实现稳定的抓取,对机器人完成高难度任务和扩大机器人的应用范围,推动机器人产业发展都具有重要意义。

本领域的技术人员可以理解实施例方法中的全部或部分流程可以由计算机程序来命令相关的硬件完成,程序可存储于计算机可读取存储介质中,程序在执行时,可包括如各方法实施例的流程。而前述的存储介质包括:rom或随机存储记忆体ram、磁碟或者光盘等各种可存储程序代码的介质。

以上内容是结合具体/优选的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1