获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质与流程

文档序号:35924468发布日期:2023-11-04 13:11阅读:44来源:国知局
获取用于生成形封闭抓取位姿的控制策略的方法、计算设备和介质与流程

本申请涉及人工智能,尤其涉及一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法、计算设备和存储介质。


背景技术:

1、抓取生成是计算机图形学、机器人和人机交互的一个重要的研究问题。动画和游戏中的虚拟人物或角色在与周围世界进行交互时经常需要对不同的物体进行抓取,例如,在一些场景中,虚拟人物或角色需要抓取鱼竿、酒杯等物体,这样的抓取动画往往需要大量的人力和物力来手工制作。另一方面,抓取是机器人完成许多任务的基础操作,例如搬运物体或使用工具,而越复杂的任务和对于抓取的要求通常也越高。因此,为给定物体和抓取主体(例如,手部模型或机器人手)生成抓取轨迹和抓取位姿已成为一个重要的研究问题。

2、一般而言,抓取生成方法可以被分为三个大类:第一类方法是基于分析的方法,其是通过预先定义的抓取质量指标来辅助抓取的生成和质量的评估,最常见的两种抓取指标是力封闭和形封闭。由于抓取问题本身的复杂性,已有的基于分析的方法普遍存在对于抓取问题过度简化的问题,这使得这类算法不能应用于复杂的手部模型和物体。基于力封闭的方法依赖于具体的摩擦系数,但是摩擦系数在实际运行时很难获取。而基于形封闭的方法目前都无法应用于复杂的物体和手部模型上。第二类方法是基于物理仿真的方法,这类方法会通过诸如摇晃物体、抬高物体的物理仿真测试来评估和生成抓取位姿。这类方法依旧依赖于具体的摩擦系数,并且需要较长的计算时间。第三类方法利用基于深度学习的方式进行抓取生成,一方面,这些方法生成的抓取的质量容易受限于合成数据集本身的性能;另一方面,高质量的动作捕捉数据集需要花费大量的人力和资源,并且不适合机械手的抓取生成。


技术实现思路

1、本申请提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,该方法包括:基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量,所述第一观测向量表征所述抓取主体上的点到所述抓取对象的距离和方向;基于所述抓取对象与时间步对应的物体代理构建第二观测向量,所述第二观测向量表征所述物体代理与所述抓取主体之间的接触情况,所述物体代理包括所述抓取对象的符号距离函数等值面;利用策略网络基于所述抓取主体的当前位姿、所述第一观测向量和所述第二观测向量络输出所述抓取主体与下一时间步对应的更新位姿,以对所述策略网络进行训练;以及响应于所述抓取主体的所述更新位姿满足对所述抓取对象的形封闭条件而停止对所述策略网络的训练,并将经训练的策略网络确定为所述控制策略。

2、本申请的另一实施例提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的装置,该装置包括:第一观测向量构建模块,其被配置成基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量,所述第一观测向量表征所述抓取主体上的点到所述抓取对象的距离和方向;第二观测向量构建模块,其被配置成基于所述抓取对象与时间步对应的物体代理构建第二观测向量,所述第二观测向量表征所述物体代理与所述抓取主体之间的接触情况,所述物体代理包括所述抓取对象的符号距离函数等值面;策略网络模块,其被配置成基于所述抓取主体的当前位姿、所述第一观测向量和所述第二观测向量络输出所述抓取主体与下一时间步对应的更新位姿,以使策略网络经受训练;以及训练控制模块,其被配置成响应于所述抓取主体的所述更新位姿满足对所述抓取对象的形封闭条件而停止对所述策略网络的训练,并将经训练的策略网络确定为所述控制策略。

3、本申请的另一实施例还提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如前述方法实施例中任一实施例所述的方法。

4、本申请的又一实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如前述方法实施例中任一实施例所述的方法。

5、本申请的又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例中任一实施例所述的方法。

6、对于本申请实施例提供的方法,通过构建第一观测向量和第二观测向量,实际上分别以抓取主体和抓取对象为中心构建了关于抓取对象的完整的几何信息以及抓取主体和抓取对象之间的交互的数据观测,这些数据观测有助于抓取主体更好地接近抓取对象并已环绕抓取对象的姿势抓握抓取对象,促进抓取主体对抓取对象的形封闭抓取位姿的形成。同时,本申请实施例提供的方法不需要抓取主体的动作捕捉数据以及抓取对象的摩擦系数,且可以被应用于具有高自由度的抓取主体。

7、根据下文描述的实施例,本申请的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本申请的这些和其它优点。



技术特征:

1.一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其中所述基于所述抓取主体与时间步对应的当前位姿和所述抓取对象构建第一观测向量包括:

3.根据权利要求2所述的方法,其中所述第一观测向量获取网络至少通过以下步骤训练获得:

4.根据权利要求2所述的方法,其中所述获取抓取对象的多个区域编码包括:

5.根据权利要求2所述的方法,其中所述抓取主体上的点到所述抓取对象的距离包括所述抓取主体上的点到所述多个区域中的各个区域的最短距离,所述抓取主体上的点到所述抓取对象的方向包括所述多个区域中的各个区域在所述抓取主体上的点处的符号距离函数的梯度方向。

6.根据权利要求1所述的方法,其中所述第二观测向量至少指示所述物体代理上点与所述抓取主体是否接触,其中基于所述抓取对象与时间步对应的物体代理构建第二观测向量包括:

7.根据权利要求1所述的方法,其中所述方法还包括:

8.根据权利要求7所述的方法,其中所述获取所述抓取主体的与每个时间步对应的位姿在后续各个时间步中能够获得的预测奖励值包括:

9.根据权利要求9所述的方法,其中所述预测奖励值包括表征与当前时间步对应的位姿与对所述抓取对象的形封闭条件的匹配程度的第一类奖励值。

10.根据权利要求9所述的方法,其中所述预测奖励值还包括表征与当前时间步对应的位姿是否能够成功抓取所述抓取对象的第二类奖励值、以及表征所述抓取主体是否穿过所述抓取对象的第三类奖励值。

11.一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的装置,其特征在于,所述装置包括:

12.一种计算设备,包括

13.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-10中的任一项所述的方法。

14.一种计算机程序产品,包括计算机程序,其中所述计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。


技术总结
本申请实施例提供了一种获取用于生成抓取主体对抓取对象的形封闭抓取位姿的控制策略的方法,该方法包括:基于抓取主体与时间步对应的当前位姿和抓取对象构建第一观测向量,第一观测向量表征抓取主体上的点到抓取对象的距离和方向;基于抓取对象与时间步对应的物体代理构建第二观测向量,第二观测向量表征物体代理与抓取主体之间的接触情况,物体代理包括抓取对象的符号距离函数等值面;利用策略网络基于抓取主体的当前位姿、第一观测向量和第二观测向量络输出抓取主体与下一时间步对应的更新位姿,以对策略网络进行训练;以及响应于抓取主体的更新位姿满足对抓取对象的形封闭条件而停止对策略网络的训练,并将经训练的策略网络确定为控制策略。

技术研发人员:房启航,樊庆楠,陈学霖,董思言,陈宝权
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1