面向人机协作的机器人自主学习方法与流程

文档序号:15197613发布日期:2018-08-19 01:12阅读:1038来源:国知局

本发明属于机器人运动领域,特别涉及一种面向人机协作的机器人自主学习方法。



背景技术:

面向人机协作的机器人自主学习需要探讨如何结合人类的实时反馈和教导,使得机器人能有效地进行自学习和在线学习。一方面,机器人的传感能力有限,单靠传感数据不足以推断环境状态,以及作业的最佳策略。由于机器人的信息具有不完整性,完全自主学习往往会出现“维数灾难”问题,在学习过程中如何利用人类伙伴的信息更好地了解环境,并做出更优的决策是值得研究的问题。另一方面,类似于师傅带徒弟的人机协作模式需要平衡机器人在探索和被教导之间的关系。过多的探索可能影响系统的性能,但可以提高学习的效率;反之,则影响学习的效果。探索和教导如何有效地均衡结合,如何根据实际环境动态地进行调整,从而更灵活地解决单纯依靠人或机器人无法解决的问题,都是值得探讨的问题。



技术实现要素:

本发明的目的在于克服现有技术存在的上述不足,提出了面向人机协作的机器人自主学习方法,包括面向人机协作的目标理解方法和任务学习算法,它允许机器人能快速地在人类辅助下认知目标和通过模仿人类动作达到快速掌握新技能的目的。

面向人机协作的机器人自主学习方法,包括如下步骤:

s1、在目标理解层面设计面向人机协作的深度学习方法引入人的经验知识;

s2、在任务学习层面引入人类的评价和反馈优化强化学习算法。

所述步骤s1具体包括:

首先,使用一个缩减的特征集来确定最佳候选集,然后,使用一个更大、更可靠的特征集来排列这些候选集。但是,这些方法需要设计两个独立的特征集合,而且在设计一个小的第一阶段特征集使得能快速计算和足够可靠地产生一个好的第二阶段候选检测集是比较困难的。利用深度学习可以简单地训练两个不同大小的网络,小的用于计算候选集,大的用于重新排列候选检测结果,从而避免复杂的手动调整特征值。

在人机协作模式中,机器人借助于人类的经验知识对未知的物体进行识别,或者从识别错误中得到矫正,需要建立一个带标签数据的训练模型,以更新机器人的学习网络参数;在人类的协作下,一方面机器人可以通过人类的描述更好地了解未知物体的特征(features);另一方面,机器人可以通过人类的共享经验正确地认识物体(ground-truth);在学习过程中,目标是求出使识别精度最佳的参数;这里,将人类辅助过程中产生的输入数据作为一组特征值(features)及标签数据(ground-truth);在最深层的学习工作中使用两阶段学习方法;在第一阶段中,使用无监督特征学习方法(无监督学习算法)来初始化隐藏层的权值,在训练前加权是避免过度拟合的关键;采用了稀疏自动编码(sae)算法,定义关于隐藏单元激活的稀疏惩罚函数,使用参数控制它的权值;在学习算法的监督阶段,需要获得分类器权值及用于识别的隐藏层的权值进行精细化;在两级检测的推理过程中,根据网络参数,首先用一个较小的网络产生一组相似目标的最高概率的分类,然后用一个具有一组独立参数的较大网络来重新排列这些分类集,并且得到一个最好的类型;两级模型学习的唯一的不同是用相同的方法来独立地得到这两组参数。

所述步骤s2包括以下步骤:

在任务学习过程中,本发明采用上述的“以人为中心”的行为感知技术对机器人进行示教。通过人机交互模块,机器人可以通过用户的手势和语言感知用户的意图。在示教前,用户先检查机器人是否有与任务相关的知识、工作环境以及操纵对象的相关能力,接着将所需要的知识授予给机器人。用户通过陈述任务名称、子任务的数量和操作对象的属性等,同时包括用相应的手势动作辅助语音进行相关的讲解。用户接着将整个任务分析给机器人,允许机器人了解相邻的子任务和总体的任务目标之间的过渡动作,从而可以整合所有子任务的信息。通过使用自然的手势交互和基于自然语言理解交互方式对整个任务进行完整的描述,可选择通过诸如“首先”、“然后”、“下一个子任务”等语音对子任务片段进行分割,在子任务的安排时,充分利用用户的经验帮助机器人对任务的轨迹进行分段规划。在用户对整个任务进行描述后,机器人利用运动学原理通过分段的示教任务轨迹进行学习。机器人如果在完成学习任务的过程中遇到困难,就向人类寻求帮助。接着,机器人将学习到的任务付诸实际并完善自身的知识库。机器人可以通过手眼相机观察工作环境,确定关键的目标和物件的位姿,通过将自身学习到的任务轨迹应用到给定的任务计划中来形成它的实际工作轨迹,接着通过用户的实时反馈不断地修正自身学习到的任务经验。假设原始子任务结构和任何机器传感器数据没有任何关联。通过优化函数确定最终的轨迹片段与原始子任务的分配关系,其目标函数可设计为j=p-ω-ψ+φ+h,其中p为性能参数,ω是一种当没有任何子任务被分成至少一个轨迹片段的情况下执行的惩罚函数。ψ也是一种惩罚函数,用于处理机器人在任务执行过程中是否包含用户的干预。φ是一种奖励函数,用于奖励可以细分的轨迹片段。h为奖励函数,用于奖励机器人能自主地完成对应的子任务。通过由粗到精搜索的思想,最终的轨迹片段都可以对应到所有的原始子任务中,从而完成机器人的任务学习过程。

强化学习中,一方面,机器人需要尽可能地选择不同的动作,以找到最优的策略,即探索(exploration),另一方面又要考虑选择值函数最大的动作,以得到大的奖赏,即利用(exploitation)。探索对学习是非常重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,影响学习的速度。因此,学习过程中需要在获得知识和获得高的回报之间进行折中,即对探索和利用进行平衡。

本发明相对于现有技术具有如下的优点及效果:

本发明提出了一种面向人机协作的机器人自主学习方法来完成机器人目标识别和任务学习,借鉴了评价与指导在人类的学习成长过程的作用,并进一步研究对应的学习规律在机器人自主学习中的运用,建立了面向人机协作的目标理解和任务理解模型。

附图说明

图1是面向人机协作的机器人自主学习方法流程图。

具体实施方式

以下结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此,以下若有未特别详细说明之处,均是本领域技术人员可参照现有技术实现或理解的。

面向人机协作的机器人自主学习方法,包括如下步骤:

s1、在目标理解层面设计面向人机协作的深度学习方法引入人的经验知识;

s2、在任务学习层面引入人类的评价和反馈优化强化学习算法。

所述步骤s1具体包括:

首先,使用一个缩减的特征集来确定最佳候选集,然后,使用一个更大、更可靠的特征集来排列这些候选集。但是,这些方法需要设计两个独立的特征集合,而且在设计一个小的第一阶段特征集使得能快速计算和足够可靠地产生一个好的第二阶段候选检测集是比较困难的。利用深度学习可以简单地训练两个不同大小的网络,小的用于计算候选集,大的用于重新排列候选检测结果,从而避免复杂的手动调整特征值。

在人机协作模式中,机器人借助于人类的经验知识对未知的物体进行识别,或者从识别错误中得到矫正,需要建立一个带标签数据的训练模型,以更新机器人的学习网络参数;在人类的协作下,一方面机器人可以通过人类的描述更好地了解未知物体的特征(features);另一方面,机器人可以通过人类的共享经验正确地认识物体(ground-truth);在学习过程中,目标是求出使识别精度最佳的参数;这里,将人类辅助过程中产生的输入数据作为一组特征值(features)及标签数据(ground-truth);在最深层的学习工作中使用两阶段学习方法;在第一阶段中,使用无监督特征学习方法(无监督学习算法)来初始化隐藏层的权值,在训练前加权是避免过度拟合的关键;采用了稀疏自动编码(sae)算法,定义关于隐藏单元激活的稀疏惩罚函数,使用参数控制它的权值;在学习算法的监督阶段,需要获得分类器权值及用于识别的隐藏层的权值进行精细化;在两级检测的推理过程中,根据网络参数,首先用一个较小的网络产生一组相似目标的最高概率的分类,然后用一个具有一组独立参数的较大网络来重新排列这些分类集,并且得到一个最好的类型;两级模型学习的唯一的不同是用相同的方法来独立地得到这两组参数。

所述步骤s2包括以下步骤:

在任务学习过程中,本发明采用上述的“以人为中心”的行为感知技术对机器人进行示教。通过人机交互模块,机器人可以通过用户的手势和语言感知用户的意图。在示教前,用户先检查机器人是否有与任务相关的知识、工作环境以及操纵对象的相关能力,接着将所需要的知识授予给机器人。用户通过陈述任务名称、子任务的数量和操作对象的属性等,同时包括用相应的手势动作辅助语音进行相关的讲解。用户接着将整个任务分析给机器人,允许机器人了解相邻的子任务和总体的任务目标之间的过渡动作,从而可以整合所有子任务的信息。通过使用自然的手势交互和基于自然语言理解交互方式对整个任务进行完整的描述,可选择通过诸如“首先”、“然后”、“下一个子任务”等语音对子任务片段进行分割,在子任务的安排时,充分利用用户的经验帮助机器人对任务的轨迹进行分段规划。在用户对整个任务进行描述后,机器人利用运动学原理通过分段的示教任务轨迹进行学习。机器人如果在完成学习任务的过程中遇到困难,就向人类寻求帮助。接着,机器人将学习到的任务付诸实际并完善自身的知识库。机器人可以通过手眼相机观察工作环境,确定关键的目标和物件的位姿,通过将自身学习到的任务轨迹应用到给定的任务计划中来形成它的实际工作轨迹,接着通过用户的实时反馈不断地修正自身学习到的任务经验。假设原始子任务结构和任何机器传感器数据没有任何关联。通过优化函数确定最终的轨迹片段与原始子任务的分配关系,其目标函数可设计为j=p-ω-ψ+φ+h,其中p为性能参数,ω是一种当没有任何子任务被分成至少一个轨迹片段的情况下执行的惩罚函数。ψ也是一种惩罚函数,用于处理机器人在任务执行过程中是否包含用户的干预。φ是一种奖励函数,用于奖励可以细分的轨迹片段。h为奖励函数,用于奖励机器人能自主地完成对应的子任务。通过由粗到精搜索的思想,最终的轨迹片段都可以对应到所有的原始子任务中,从而完成机器人的任务学习过程。

强化学习中,一方面,机器人需要尽可能地选择不同的动作,以找到最优的策略,即探索(exploration),另一方面又要考虑选择值函数最大的动作,以得到大的奖赏,即利用(exploitation)。探索对学习是非常重要的,只有通过探索才能确定最优策略,而过多的探索会降低系统的性能,影响学习的速度。因此,学习过程中需要在获得知识和获得高的回报之间进行折中,即对探索和利用进行平衡。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1