一种基于深度强化学习的机器人自适应抓取方法

文档序号:10723699阅读:651来源:国知局
一种基于深度强化学习的机器人自适应抓取方法
【专利摘要】本发明提供了一种基于深度强化学习的机器人自适应抓取方法,步骤包括:在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导航;当目标进入机械手臂抓范围内时,再通过前部的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取;根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。该抓取方法能够对大小形状不同、位置不固定的物体实现自适应抓取,具有良好的市场应用前景。
【专利说明】
一种基于深度强化学习的机器人自适应抓取方法
技术领域
[0001] 本发明涉及一种机器人抓取物体的方法,尤其是一种基于深度强化学习的机器人 自适应抓取方法。
【背景技术】
[0002] 自主机器人是高度智能化的服务型机器人,具有对外界环境的学习功能。为了实 现各种基本活动(如定位、移动、抓取)的功能,需要机器人配有机械手臂和机械手爪并融合 多传感器的信息来进行机器学习(如深度学习和强化学习),与外界环境进行交互,实现其 感知、决策和行动等各项功能。现在绝大多数抓取型机器人工作在待抓取物件大小、形状和 位置相对固定的情况,并且抓取技术主要是基于超声波、红外和激光测距等传感器,因此使 用范围很受限制,无法适应抓取环境更为复杂、抓取物件大小、形状和位置不固定的情况; 目前,现有的视觉型机器人技术很难解决输入的视觉信息维度高、数据量大的"维数灾难" 问题;并且,利用机器学习训练的神经网络也很难收敛,无法直接处理输入的图像信息。总 体来说,现在的视觉型抓取服务机器人的控制技术尚未达到令人满意的结果,尤其在实用 中还需要进一步优化。

【发明内容】

[0003] 本发明要解决的技术问题是现有的无法适应抓取环境更为复杂、抓取物件大小、 形状和位置不固定的情况。
[0004] 为了解决上述技术问题,本发明提供了一种基于深度强化学习的机器人自适应抓 取方法,包括如下步骤:
[0005] 步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照 片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机 器人导航;
[0006] 步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部 的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行 数据降维特征提取;
[0007] 步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运 动路径和机械手臂的位姿,从而实现目标的自适应抓取。
[0008] 作为本发明的进一步限定方案,步骤1中根据照片利用双目测距方法计算出目标 的位置信息的具体步骤为:
[0009] 步骤1.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及目标点在左右两 个摄像头的像平面的投影点到各自像平面最左侧的物理距离X 1和f,左右两个摄像头对应 的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头 的光心投影分别位于相应像平面的中心处,则视差d为:
[0010] d = x1-xr (1)
[0011]步骤1.2,利用三角形相似原理建立Q矩阵为:
[0014] 式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐 标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,c4Pc y分别为左 侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,cx '为cx的修正值;
[0015] 步骤1.3,计算得到目标点到成像平面的空间距离为:
[0017]将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X, Y,Z)作为导航目的地进行机器人导航。
[0018] 作为本发明的进一步限定方案,步骤2中利用预先训练过的基于DDPG的深度强化 学习网络对照片进行数据降维特征提取的具体步骤为:
[0019] 步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时 刻之前的观察量和动作的集合为:
[0020] st - (χι,βι, . . . ,£it-i,xt) - xt (5)
[0021] 式(5)中,分别为t时刻的观察量以及所采取的动作;
[0022] 步骤2.2,利用策略值函数来描述抓取过程的预期收益为:
[0023] 9π(8?,Β?) =E[Rt| st,at] (6)
[0024] 式(6)中,/?, (?)为时刻t获得的打过折扣以后的未来收益总和,γ e [0,1 ]为折扣因子,r(st,&)为时刻t的收益函数,Τ为抓取结束的时刻,π为抓取策略;
[0025] 由于抓取的目标策略π是预设确定的,记为函数μ: S-A,S为状态空间,A为N维度的 动作空间,同时利用贝尔曼方程处理式(6)有:
[0027] 式(7)中,st+1~E表示t+Ι时刻的观察量是从环境E中获得的,y(st+1)表示t+Ι时刻 从观察量通过函数μ所映射到的动作;
[0028] 步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为 策略评估网络Q(s,a I θ?),所采用的损失函数为:
[0029] L(0Q)=Eu-[(Q(st,at|0Q)-yt)2] (8)
[0030] 式(8)中,yt = r(St,at)+yQ(St+1,y( St+1)|0Q)为目标策略评估网络,μ'为目标策 略;
[0031]步骤2.4,对于实际的参数为θμ的策略函数μ(8 I θμ),利用链式法得到的梯度为:
[0033] 由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数y(s θμ);
[0034] 步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本 缓冲区中得到,以最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即 采用经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:
[0035] 0qVt0q+(1-t)0q, (1〇)
[0036] θμντθμ+(1-τ)θμ, (11)
[0037] 式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学 习网络,且为收敛的神经网络;
[0038] 步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机 器人的控制策略。
[0039] 作为本发明的进一步限定方案,步骤2.6中的深度强化学习网络由一个图像输入 层、两个卷积层、两个全连接层以及一个输出层构成,图像输入层用于输入包含待抓取物体 的图像;卷积层用于提取特征,即一个图像的深层表现形式;全连接层和输出层用于构成一 个深层网络,通过训练以后,输入特征信息到该深层网络即可输出控制指令,即控制机器人 的机械手臂舵机角度和控制搭载小车的直流电机转速。将所选择的卷积层和全连接层的数 量为两个的目的是既可以有效提取图像特征,又可以使得神经网络在训练时便于收敛。
[0040] 本发明的有益效果在于:(1)预训练神经网络时采用经验回放机制和随机采样确 定输入的图像信息可以有效解决照片前后相关度较大不满足神经网络对于输入数据彼此 独立要求的问题;(2)通过深度学习实现数据降维,采用目标Q值网络法来不断调整神经网 络的权重矩阵,可以尽可能地保证训练的神经网络收敛;(3)已经训练好的基于DDPG的深度 强化学习神经网络可以实现数据降维和物件特征提取,并直接给出机器人的运动控制策 略,有效解决"维数灾难"问题。
【附图说明】
[0041]图1为本发明的系统结构不意图;
[0042] 图2为本发明的方法流程图;
[0043] 图3为本发明的双目测距方法平面示意图;
[0044]图4为本发明的双目测距技术立体示意图;
[0045]图5为本发明的基于DDPG的深度强化学习网络的构成示意图。
【具体实施方式】
[0046]如图1所示,本发明的一种基于深度强化学习方法的机器人自适应抓取的系统包 括:图像处理系统、无线通讯系统和机器人运动系统。
[0047]其中,图像处理系统主要有安装在机器人前部的摄像头和matlab软件构成;无线 通讯系统主要由WIFI模块构成;机器人运动系统主要由底座小车和机械手臂构成;首先需 要借助动力学仿真平台预训练基于DDPG(深度确定性策略梯度)的深度强化学习网络,在此 过程中通常采用经验回放机制和目标Q值网络这两种方法来确保基于DDPG的深度强化学习 网络在预训练过程中能收敛,接着图像处理系统获取目标物体的图像,通过无线通讯系统 将图像信息传给电脑,在机器人距离待抓取物体较远时,采用双目测距技术,以得到目标物 体的位置信息并将其用于机器人的导航。
[0048]当机器人移动至机械手臂可以抓到物体时,此时再拍摄物体照片并利用已经训练 好的基于DDPG的深度强化学习网络实现数据降维提取特征并给出机器人的控制策略,最后 将控制策略通过无线通讯系统传送给机器人运动系统来控制机器人的运动状态,实现目标 物体的准确抓取。
[0049]预训练时首先利用matlab软件将目标物体的RGB图像转化为灰度图像,再采用经 验回放机制,使得照片前后相关度尽可能小以满足神经网络对于输入数据彼此独立的要 求,最后通过随机采样来获得输入神经网络的图像;通过深度学习实现数据降维,采用目标 Q值网络法来不断调整神经网络的权重矩阵,最终得到收敛的神经网络。
[0050]机器人的控制用Arduino板实现,板上自带了WIFI模块,机械手臂由4个舵机构成, 共实现4个自由度,底座小车由直流电机驱动;图像处理系统主要由摄像头及其图像传输软 件和mat lab为主;摄像头拍摄到的目标物体的照片将由Arduino板上的WIFI模块传输到电 脑,并交由mat lab处理。
[0051 ]系统在工作时,步骤如下:
[0052]步骤1,首先需要借助动力学仿真平台预训练基于DDPG(深度确定性策略梯度)的 深度强化学习网络,在此过程中通常采用经验回放机制和目标Q值网络这两种方法来确保 基于DDPG的深度强化学习网络在预训练过程中能收敛;
[0053]步骤2,用安装在机器人前部的摄像头获取目标物体的图像,利用WIFI模块将图像 信息传给电脑;
[0054]步骤3,在机器人距离待抓取物体较远时,采用双目测距技术,以得到目标物体的 位置信息并将其用于机器人的导航;
[0055]步骤4,当机器人移动至机械手臂可以抓到物体时,此时再拍摄物体照片并利用已 经训练好的基于DDPG的深度强化学习网络实现数据降维提取特征并给出机器人的控制策 略;
[0056]步骤5,利用WIFI模块将控制信息传送给机器人运动系统,实现目标物体的准确抓 取;
[0057]如图3和图4所示,双目测距技术主要利用了目标点在左右两幅视图上成像的横向 坐标直接存在的差异(即视差)与目标点到成像平面的距离存在着反比例的关系。一般情况 下,焦距的量纲是像素点,摄像头中心距的量纲由定标板棋盘格的实际尺寸和我们的输入 值确定,一般是以毫米为单位(为了提高精度我们设置为0.1毫米量级),视差的量纲也是像 素点。因此分子分母约去,目标点到成像平面的距离的量纲与摄像头中心距的相同。
[0058]如图5所示,基于DDPG的深度强化学习网络主要由一个图像输入层、两个卷积层、 两个全连接层、一个输出层构成。深度网络架构用于实现数据降维,卷积层用于提取特征, 输出层输出控制信息。
[0059] 如图2所示,本发明提供了一种基于深度强化学习的机器人自适应抓取方法,包括 如下步骤:
[0060] 步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照 片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机 器人导航;
[0061 ]步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部 的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行 数据降维特征提取;
[0062] 步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运 动路径和机械手臂的位姿,从而实现目标的自适应抓取。
[0063] 其中,步骤1中根据照片利用双目测距方法计算出目标的位置信息的具体步骤为: [0064]步骤1.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及目标点在左右两 个摄像头的像平面的投影点到各自像平面最左侧的物理距离X 1和f,左右两个摄像头对应 的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头 的光心投影分别位于相应像平面的中心处,即〇1、〇r在成像平面的投影点,则视差d为:
[0065] d = x1-xr (1)
[0066] 步骤1.2,利用三角形相似原理建立Q矩阵为:
[0069] 式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐 标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,c x和cy分别为左 侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,Cx'为 Cx的修正值(两 者数值一般相差不大,在本发明中可以认为两者近似相等);
[0070] 步骤1.3,计算得到目标点到成像平面的空间距离为:
[0072]将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X, Y,Z)作为导航目的地进行机器人导航。
[0073]步骤2中利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特 征提取的具体步骤为:
[0074] 步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时 刻之前的观察量和动作的集合为:
[0075] St - (χι,βι, . . . - Xt (5)
[0076] 式(5)中,^和&分别为t时刻的观察量以及所采取的动作;
[0077] 步骤2.2,利用策略值函数来描述抓取过程的预期收益为:
[0078] 〇π(8?,at) =E[Rt | st,at] (6)
[0079] 式(6)中,/?, = H ; / 为时刻t获得的打过折扣以后的未来收益总和,γ e [0,1 ]为折扣因子,r(st,&)为时刻t的收益函数,Τ为抓取结束的时刻,π为抓取策略;
[0080] 由于抓取的目标策略是预设确定的,记为函数μ: S-A,S为状态空间,A为N维度的 动作空间,同时利用贝尔曼方程处理式(6)有:
[0082] 式(7)中,st+i~E表示t+Ι时刻的观察量是从环境E中获得的,y(s t+i)表示t+1
[0083] 时刻从观察量通过函数μ所映射到的动作;
[0084] 步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为 策略评估网络Q(s,a | θ?),所采用的损失函数为:
[0085] L(0Q)=Eli-[(Q(st,at|0Q)-yt) 2] (8)
[0086] 式(8)中,yt = r(st,at)+ γ Q(st+i,y(st+i) | 0Q)为目标策略评估网络,μ'为目标策 略;
[0087] 步骤2.4,对于实际的参数为θμ的策略函数μ(8|θμ),利用链式法得到的梯度为:
[0089] 由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数y(s Θ";
[0090] 步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本 缓冲区中得到,以最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即 采用经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:
[0091] 0qVt0q+(1-t)0 q, (1〇)
[0092] θμντθμ+(1-τ)θμ, (11)
[0093] 式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学 习网络,且为收敛的神经网络;
[0094] 步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机 器人的控制策略;深度强化学习网络由一个图像输入层、两个卷积层、两个全连接层以及一 个输出层构成,其中,所选择的卷积层和全连接层的数量为两个的目的是既可以有效提取 图像特征,又可以使得神经网络在训练时便于收敛;图像输入层用于输入包含待抓取物体 的图像;卷积层用于提取特征,即一个图像的深层表现形式,如一些线条、边、弧线等;全连 接层和输出层用于构成一个深层网络,通过训练以后,输入特征信息到该网络可以输出控 制指令,即控制机器人的机械手臂舵机角度和控制搭载小车的直流电机转速。
[0095]本发明预训练神经网络时采用经验回放机制和随机采样确定输入的图像信息可 以有效解决照片前后相关度较大不满足神经网络对于输入数据彼此独立要求的问题;通过 深度学习实现数据降维,采用目标Q值网络法来不断调整神经网络的权重矩阵,可以尽可能 地保证训练的神经网络收敛;已经训练好的基于DDPG的深度强化学习神经网络可以实现数 据降维和物件特征提取,并直接给出机器人的运动控制策略,有效解决"维数灾难"问题。
【主权项】
1. 一种基于深度强化学习的机器人自适应抓取方法,其特征在于,包括如下步骤: 步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再 根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导 航; 步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部的摄 像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据 降维特征提取; 步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路 径和机械手臂的位姿,从而实现目标的自适应抓取。2. 根据权利要求1所述的基于深度强化学习的机器人自适应抓取方法,其特征在于,步 骤1中根据照片利用双目测距方法计算出目标的位置信息的具体步骤为: 步骤1.1,获取摄像头的焦距f、左右两个摄像头的中屯、距TxW及目标点在左右两个摄像 头的像平面的投影点到各自像平面最左侧的物理距离χ?和χτ,左右两个摄像头对应的左侧 的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头的光屯、 投影分别位于相应像平面的中屯、处,则视差d为:步骤1.2,利用Ξ角形相似原理建立Q矩阵为:式(2)和(3)中,(Χ,Υ,Ζ)为目标点在W左摄像头光屯、为原点的立体坐标系中的坐标,W 为旋转平移变换比例系数,(X,y)为目标点在左侧的像平面中的坐标,。和Cy分别为左侧的 像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,为Cx的修正值; 步骤1.3,计算得到目标点到成像平面的空间距离为:(4) 将左摄像头的光屯、所在位置作为机器人所在位置,将目标点的坐标位置信息(Χ,Υ,Ζ) 作为导航目的地进行机器人导航。3. 根据权利要求1或2所述的基于深度强化学习的机器人自适应抓取方法,其特征在 于,步骤2中利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提 取的具体步骤为: 步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时刻之 前的观察量和动作的集合为: st=(xi,ai,. . . ,£it-i,xt)=xt (5) 式巧)中,xt和at分别为t时刻的观察量W及所采取的动作; 步骤2.2,利用策略值函数来描述抓取过程的预期收益为: Q (St,at)二E[Rt I St,at] (6) 式(6)中,为时刻t获得的打过折扣W后的未来收益总和,丫 e [(U]为折扣因子,r(st,at)为时刻t的收益函数,T为抓取结束的时刻,31为抓取策略; 由于抓取的目标策略η是预设确定的,记为函数y:S^A,S为状态空间,A为N维度的动作 空间,同时利用贝尔曼方程处理式(6)有:C7) 式(7)中,st+i~E表示t+1时刻的观察量是从环境E中获得的,y(st+i)表示t+1时刻从观 察量通过函数μ所映射到的动作; 步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为Θ9的 策略评估网络Q(s,a I Θ9),所采用的损失函数为:(8) 式(8)中,yt = ^st,at)+丫 Q(st+i,y(st+i)|目9)为目标策略评估网络,μ'为目标策略; 步骤2.4,对于实际的参数为Θ"的策略函数μ(3|θ"),利用链式法得到的梯度为:由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数μ(3|θ"); 步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本缓冲 区中得到,W最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即采用 经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学习网 络,且为收敛的神经网络; 步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机器人 的控制策略。4.根据权利要求3所述的基于深度强化学习的机器人自适应抓取方法,其特征在于,步 骤2.6中的深度强化学习网络由一个图像输入层、两个卷积层、两个全连接层W及一个输出 层构成,图像输入层用于输入包含待抓取物体的图像;卷积层用于提取特征,即一个图像的 深层表现形式;全连接层和输出层用于构成一个深层网络,通过训练W后,输入特征信息到 该深层网络即可输出控制指令,即控制机器人的机械手臂舱机角度和控制搭载小车的直流 电机转速。
【文档编号】G05B13/04GK106094516SQ201610402319
【公开日】2016年11月9日
【申请日】2016年6月8日
【发明人】陈春林, 侯跃南, 刘力锋, 魏青, 徐旭东, 朱张青, 辛博, 马海兰
【申请人】南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1