一种机器人基于先前最少信息量抓取不熟悉物体的方法与流程

文档序号：37598720发布日期：2024-04-18 12:38阅读：5来源：国知局

：本申请涉及机器人自学习算法，通过自学习，机器人能够适应新的应用场景。

背景技术：

0、技术背景：

1、基于很少的先验知识来抓取不熟悉的物体(训练期间未见)是机器人操纵中的一项具有挑战性的工作。近来的解决方案通常需要对目标对象的信息作提前定义(如姿势估计或三维cad模型)或特定任务的训练数据。然而，这使得它很难在新的对象上进行泛化。

2、本发明引入了一种无需模型的深度强化学习(drl)的抓取方案。这个框架称之为深度强化抓取策略(drgp)。我们的系统只需在简单的几何对象上训练，就可以在新的对象上有效地进行泛化。该方法既不需要特定任务的训练数据，也不需要预定义的对象信息。所提出的自学习系统强调非策略学习方法，并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络，将视觉观察映射为具有不同采样点的密集像素q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后，所获得的知识成功地转移到现实生活场景中，并对新的对象(未见过的对象)进行泛化。我们使用六自由度机器人操纵器和双指抓取器进行了实验。实验结果显示，仅用几个小时的训练，基于之前的最少限度的知识，该机器人就能获得良好的性能。

技术实现思路

0、
技术实现要素：

1、我们提出一种基于学习方法的可扩展的机器人抓取方法，称为深度强化抓取策略(drgp)。1)一种基于无模型drl的端到端自学习方法。我们的智能体(agent，即机器人机械手)从头开始学习，从视觉观察到决策，通过试错的方式，以非策略q-learning框架的形式进行训练。drgp不同于传统的先验方法，它需要启发式或硬编码参数。

2、我们利用q-learning的概念来解决机器人学习抓取动作的问题。机器人通过执行定义的动作与环境进行反复交互。根据环境中可能发生的变化，将响应作为奖励给机器人。智能体通过将未来的奖励最大化来逐步学习，这个过程不断地重复，直到环境中的问题得到解决。通过试错过程进行不同的动作组合。机器人寻找最佳的序列，直到环境达到终点状态。

3、2)一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后，它针对新的物体，将其归纳为现实世界的场景。其训练不需要：1)特定于任务的再训练数据2)目标对象的预定义信息。drgp与其他的抓取系统形成鲜明的对比，而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解，如姿势估计、类别分类、稳定的抓取、三维对象cad模型等)。

4、训练环节在v-rep(3d机器人仿真软件)中，使用ur5机械手和双指平行钳夹持器进行模拟训练。然后将获得的知识转移到新的目标物体上进行物理实验。我们的研究结果：

5、1)证明了用最小的训练数据集训练自学视觉负担抓取模型的可能性；2)成功地测试了强调泛化需求的多样化任务。

技术特征：

1.一种基于无模型drl的端到端自学习方法。我们的智能体(agent，即机器人机械手)从头开始学习，从视觉观察到决策，通过试错的方式，以非策略q-learning框架的形式进行训练。drgp不同于传统的先验方法，它需要启发式或硬编码参数。

2.一种可迁移的学习算法。模型只在普通模拟对象上训练几个小时。然后，它针对新的物体，将其归纳为现实世界的场景。其训练不需要：1)特定于任务的再训练数据2)目标对象的预定义信息。drgp与其他的抓取系统形成鲜明的对比，而其他的抓取系统仅限于已知的对象(需要事先对对象有充分的了解，如姿势估计、类别分类、稳定的抓取、三维对象cad模型等)。

技术总结
一种机器人基于先前最少信息量抓取不熟悉物体的方法。本发明引入了一种无需模型的深度强化学习(DRL)的抓取方案。这个框架称之为深度强化抓取策略(DRGP)。我们的系统只需在简单的几何对象上训练，就可以在新的对象上有效地进行泛化。所提出的自学习系统强调非策略学习方法，并通过试错的方式快速学习。该机器人训练端到端的策略(从只进行视觉观察到决策)以寻求最佳的抓取策略。感知网络利用完全卷积网络，将视觉观察映射为具有不同采样点的密集像素Q值的抓取动作。每一个像素代表一个机器人执行的原始动作的位置和姿态。在对有限的模拟对象进行训练后，所获得的知识成功地转移到现实生活场景中，并对新的对象(未见过的对象)进行泛化。

技术研发人员：张云飞,王衍军,丁泉
受保护的技术使用者：深圳慧智星晨科技有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张云飞,王衍军,丁泉
技术所有人：深圳慧智星晨科技有限公司
我是此专利的发明人

上一篇：异味吸附装置和空气处理设备的制作方法
上一篇：通信方法及相关产品与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、平老师：1.功能涂层设计与应用 2.柔性电子器件设计与应用 3.结构动态参数测试与装置研发 4.智能机电一体化产品研发 5.3D打印工艺与设备
2、潘老师：1.机电一体化装备及其控制技术 2.多传感器信息融合与质量评定
3、王老师：机械制造
4、袁老师：1.薄膜气敏传感器 2.薄膜太阳能电池
5、李老师：新型电力电子技术在微网中的应用
如您是高校老师，可以点此联系我们加入专家库。