一种基于模型的机器人操作技能参数学习方法

文档序号:35470666发布日期:2023-09-16 15:19阅读:39来源:国知局
一种基于模型的机器人操作技能参数学习方法

本发明涉及表征学习技术、强化学习技术和机器人技能规划技术,具体地说,涉及一种基于模型的机器人操作技能参数学习方法。


背景技术:

1、随着各项技术的发展,机器人在家庭服务、工业生产等领域被广泛应用,学习诸如端茶倒水、机械零件装配等操作技能,来帮助人们完成各式各样的复杂任务。而传统的手动编程、示教编程等方法存在效率低、成本高、自主性差等问题,难以满足复杂场景需求的多样性,极大地限制了机器人的广泛应用,因此对机器人操作技能的自主性和泛化性提出了更高的要求。

2、长序列操作任务的多步规划技术不需要用户手动编程,设定各种细致的模型规范和针对特定任务的手工处理,只需要根据任务内容确定目标形式及任务中可执行的基元技能集合,机器人就可以通过规划方法从中选择合适的技能序列及确定有效的动作参数,进而通过底层控制器生成对应的动作轨迹。但是该方法往往需要确定环境状态和环境动力学的特定知识,包括确定不同基元技能的先决条件及执行效果,而这在真实环境中通常很难获取。除此之外,操作任务的完成情况往往需要用户以预定义的映射关系或人工标注的方式来手动确定,效率极低。

3、基于模型的强化学习方法正是可以满足这些要求的一个重要发展方向。基于模型的强化学习问题研究的是如何利用采集的环境交互数据学习环境状态的动力学模型,以方便有效地表征机器人不同基元技能对环境状态的影响,更好地选择合适的技能序列和准确的动作参数来完成目标任务。

4、同时,目前的表征方法可以对环境图像信息进行细致的符号化表征,生成相应的符号状态,有效反映出当前任务的执行进度,从而自动判断目标操作任务的完成情况。而且该方法也能够迁移到其他类似的操作场景中,可以大大减轻用户负担。

5、将基于模型的强化学习方法和技能规划技术相结合,并融合有效的环境表征方法,不仅能减少繁杂的人为手动处理,避免对环境特定知识的过度依赖,而且能够大大提升机器人对长序列操作任务的执行和泛化效果。


技术实现思路

1、为了克服现有技术的不足,本发明的目的在于提供一种基于模型的机器人操作技能参数学习方法,实现机器人在长序列操作任务中动作参数的生成。本发明是通过以下技术方案来实现的:

2、本发明公开了一种基于模型的机器人操作技能参数学习方法,包括单一技能的策略学习模块、任务技能的参数学习模块;

3、单一技能的策略学习模块包括面向物体的表征模型和以语义目标为条件的策略模型;

4、任务技能的参数学习模块包括隐式状态转移模型学习模块和技能参数在线规划模块;

5、其中单一技能的策略学习模块可训练得到多个单一语义技能的策略模型,作为预训练的先验模块,服务于后续任务技能的参数学习模块。

6、作为进一步地改进,本发明所述的单一技能的策略学习模块,利用表征学习对环境中各物体进行空间关系的表征,训练得到面向物体的表征模型,并借助表征模型中的编码器来编码环境观测,使用强化学习方法训练智能体,使其能以用户给定的单一语义技能目标为条件生成对应任务的动作参数,得到多个策略模型;

7、任务技能的参数学习模块,采用监督学习训练隐式空间上的状态转移模型,其中隐式空间基于表征模型的编码器得到,表征不同技能动作参数对环境状态的影响;利用隐式状态转移模型对动作参数执行后的环境状态进行多步预测,借助表征模型中的解码器对预测得到的隐式状态进行解码,将解码出的符号状态作为规划目标,采用规划方法规划出给定技能序列中每一步合适的动作参数,能依次实现用户所指定的各个语义目标。

8、作为进一步地改进,本发明包括:

9、1)、面向物体的表征模型,对环境观测进行语义信息层面的表征,推理当前环境图像所对应的物体空间关系;

10、2)、以语义目标为条件的策略模型,将环境图像经过表征模型得到的隐式特征和用户指定的语义目标作为输入,生成对应语义技能的动作参数,直到当前环境观测对应的语义信息与语义目标相匹配;

11、3)、隐式状态转移方程学习模块,用于从训练数据集中学习环境观测在表征模型中的隐式空间上的状态转移模型,预测不同基元技能对环境状态的影响;

12、4)、技能参数在线规划模块,基于对应语义技能的以语义目标为条件的策略模型采样生成多个动作参数,构建参数候选集合,基于隐式状态转移模型预测未来状态,借助规划方法挑选出能依次实现语义目标的动作参数。

13、作为进一步地改进,本发明所述的面向物体的表征模型训练方法包括如下步骤:

14、1)、面向目标操作场景,随机化基元技能类型和动作参数,使机器人与环境进行交互,收集每帧图像数据和对应的物体空间关系的标签信息;

15、2)、构建面向物体的表征网络模型其中为网络参数,采取编码器-解码器的架构形式。其中编码器使用transformer的网络架构,输入包括一张场景观测的rgb图像和各个操作物体在固定相机视角下的图像,将图像信息映射到隐式空间;解码器采用两层全连接网络,每层全连接网络包含512个神经元,每个神经元使用gelu函数作为激活函数,用于提取图像中各物体的空间位置关系和谓词信息。采用该表征模型进行学习,得到对应的网络模型参数。定义面向物体的表征网络的损失函数如式1)所示:

16、

17、其中φ是网络的预测输出,φ*是真实标签。

18、作为进一步地改进,本发明所述的以语义目标为条件的策略模型包括如下步骤:

19、1)、根据目标操作场景设计基础动作库,为每种语义技能从中挑选合适的动作类型来组成相应的动作序列,包括末端移动、开启夹爪、关闭夹爪等基础动作;

20、2)、仿真环境中随机初始化机械臂的关节角度和场景中各物体的位姿;

21、3)、使用全连接层作为策略网络,其输入定义为s=[h,g],包括图像的潜在表示和语义目标,策略网络有两个输出分支,其中一个分支作为强化学习的执行器,输出仿真环境需要执行的下一个动作,动作内容包括机械臂末端的笛卡尔空间,a=[x,y,z,roll,pitch,yaw],另一个分支作为强化学习的评估器,输出价值函数,v=f(s),其中f代表策略网络的全连接层,x,y,z,roll,pitch,yaw代表机械臂末端的期望位置和姿态;

22、4)、构建策略网络仿真中通过相机获取桌面场景的rgb图像,利用面向物体的表征模型中的编码器,得到场景图像的潜在表示h;然后将潜在表示h和语义目标g作为策略网络的输入,输出动作序列中合适的动作类型及参数a,仿真环境执行动作a,并返回奖励函数r,奖励函数如下定义:

23、

24、其中done表示当前环境观测对应的语义信息匹配用户指定的语义目标;

25、5)、记录机械臂执行轨迹τ=[h,g,a,r,done],记录n=50000条轨迹,完成训练数据采集,采集数据用于训练策略网络参数,基于反向传播,计算网络参数梯度,然后利用梯度下降更新参数梯度;

26、6)、重复步骤2)—5),直到网络收敛,即仿真环境完成单一语义技能的成功率最高。

27、作为进一步地改进,本发明所述的隐式状态转移方程学习模块包括如下步骤:

28、1)、随机化任务场景的初始状态,随机化基元技能类型和动作参数,收集机器人与环境交互过程中的数据,以单个基元技能为分割尺度,收集每次技能执行后的结果图像和对应的技能类型和动作参数;

29、2)、使用全连接层作为隐式状态转移模型网络fψ,其输入定义为input=[ht,πt,θt],包括图像的潜在表示、语义技能的技能类型及动作参数,输出机器人执行相应动作后的场景图像的潜在表示ht+1;

30、3)、对步骤1)收集得到的图像数据,通过物体表征网络的编码器得到每帧图像的潜在表示ht,将其和技能类型πt、动作参数θt共同作为网络的输入,预测技能执行后场景图像的潜在表示ht+1,预测模型的损失函数如式3)所示:

31、

32、其中为ht为网络的预测输出,为真实图像经过编码器的潜在表示。

33、作为进一步地改进,本发明所述的技能参数在线规划模块包括如下步骤:

34、1)、对多步任务的目标语义信息进行解析,得到多步操作的技能序列和语义目标序列;

35、2)根据步骤1)得到的操作序列和语义目标序列,输入任务场景的rgb图像,调用对应单一语义技能的策略网络,采样生成多个可行的动作参数,构建相应的参数候选集合;

36、3)、根据步骤2)得到的动作参数候选集合,借助隐式状态转移模型预测对应基元技能以各动作参数执行后的潜在表示,利用面向物体的表征网络中与的解码器生成各潜在表示对应的语义信息,将语义信息和对应语义目标的匹配情况作为动作参数选择的评价指标;

37、4)、基于步骤1)中的技能序列,循环执行步骤2)和步骤3),采用cem规划方法和mpc方法,在对应语义技能的动作参数集合中挑选能完成对应语义目标的动作参数,并实现最终的语义目标。

38、对比现有的技术,本发明的有益效果在于:

39、1)、本发明单一语义技能策略学习模块将表征学习和强化学习相结合,将视觉输入到当前系统状态的逻辑表征的推理转化和面向任务的机器人策略学习相结合,生成满足目标逻辑状态的动作参数。该模块允许用户指示机器人执行不同的操作语义技能,并指定目标物体和目标状态,从而生成具体的动作参数来使系统达到目标逻辑状态。使用表征学习方法,能够提取出较精细的连续空间信息的表征,比如物体间距离和方向的的信息,并且能够泛化到不同颜色、不同背景、不同视角的任务场景,推理出相应的逻辑表征;使用强化学习方法,避免了大量的模型设计与处理以及对专家示教数据的需求,并且基于操作知识库对技能的动作序列进行预定义,缩小动作的搜索空间,降低智能体的探索负担。

40、2)、本发明所述的任务技能参数学习模块中,以多个预训练的单一语义技能策略模块为基础,实现了对操作任务的初步推断,将其采样得到的多个动作参数样本放入候选集合;结合机器人的初始环境观测和语义技能序列,通过隐式状态转移模型对系统动力学状态进行建模和泛化,推断不同基元技能和不同动作参数对系统状态的影响,预测未来的隐式状态,通过解码器判断隐式状态的显式语义信息,结合任务语义要求从候选集合中进行筛选,可以智能地从单一语义技能策略模块生成的可行动作参数中找到能让机器人执行并满足所有任务语义要求的机器人执行参数,解决了前后技能间执行存在依赖的问题,大大提升了机器人对长序列操作任务的执行效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1