一种机器人任务自主规划方法及系统

文档序号:26100809发布日期:2021-07-30 18:11阅读:307来源:国知局
一种机器人任务自主规划方法及系统

本发明属于机器人领域,尤其涉及一种机器人任务自主规划方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

随着机器人技术的发展,服务机器人逐渐走进家庭,为人类提供各种服务,成为提高人类生活质量的好帮手甚至好伙伴。尽管服务机器人在家庭应用领域有着巨大的潜力,但在任务规划等方面仍有许多问题有待解决。特别是在非结构化、动态的家庭环境中,服务任务的多样性和目标位置的不确定性增加了服务机器人任务规划的复杂性。如何根据家庭环境信息进行合理的任务规划是一个亟待解决的问题。对于服务机器人来说,任务规划就是规划一个完整的动作序列,引导机器人完成给定的任务。整个动作序列以高级语义形式表达。例如,移动、抓住等。

ppddl(probabilisticplandomaindefinitionlanguage)和pomdp(partiallyobservablemarkovdecisionprocess)是两种最常用的任务规划方法。ppddl可以基于状态转换快速生成给定任务的操作序列。然而,ppddl缺乏对不可靠观测的可靠推理。它生成一个线性静态的任务执行序列,只有当前一个动作完成后,下一个动作才能按顺序执行。如果一个动作执行失败,就意味着任务失败,灵活性差,难以适应动态的、非结构化的环境。因此,需要考虑复杂动态环境下的目标遮挡问题,给出机器人序列生成中的动态规划策略。当存在不确定性时,我们考虑使用pomdp来判断动作的执行,直到目标完成为止。pomdp是一种不确定环境下的规划方法,通常指具有概率作用效应的规划。pomdp计划者的目标是提高计划成功的概率。家庭环境的复杂性和物体的多样性使得机器人执行任务更加困难。通过单独的任务规划很难与环境交互。发明人发现,pomdp虽然可以与环境进行实时交互,但随着空间的增加,状态维数也会增加。



技术实现要素:

为了解决上述背景技术中存在的技术问题,本发明提供一种移动家居服务机器人任务自主规划方法及系统,其基于物品级语义图和概率推理服务机器人混合离线和在线任务的规划,能够提高服务机器人任务规划的自主性。

为了实现上述目的,本发明采用如下技术方案:

本发明的第一个方面提供一种移动家居服务机器人任务自主规划方法。

一种机器人任务自主规划方法,其包括:

基于家庭环境语义知识模型,获得静态物品语义位置和静态物品与动态物品之间的位置关系;

基于静态物品语义位置和静态物品与动态物品之间的位置关系,根据混合任务规划器来执行动作规划,直至机器人执行的任务序列完成任务;

其中,混合任务规划器在执行动作规划的过程中,首先进行离线任务规划,并确定离线任务规划的动作影响是否为确定型来判断是否继续执行离线任务序列,当离线任务规划的动作影响为不确定型,然后再进行在线动作规划。

进一步地,获得静态物品语义位置和静态物品与动态物品之间的位置关系的过程为:

基于家庭环境语义知识模型及机器人在家居环境中的自主移动,建立物体实例级、地图级以及符号级三者之间的关系,并映射到物品位置本体中,推理家庭场景、静态物品和动态物品之间的语义位置关系。

进一步地,在进行在线动作规划的过程中,设计物品遮挡计算模型,产生在线动作规划所需的置信状态信息,并根据任务执行的子目标生成相应执行状态,进而生成在线的任务执行序列。

进一步地,所述物品遮挡计算模型的构建过程为:利用物品的3d矩形框在摄像机坐标系中的x-y平面的投影成的平面计算遮挡率,进而构建出物品遮挡计算模型。

进一步地,当进行离线任务规划执行过程中,通过物品检测没有检测到目标物品,则切换到在线动作规划,利用此时的子目标状态,生成在线执行策略。

进一步地,所述混合任务规划器包括离线任务规划器和在线任务规划器。

进一步地,在进行离线任务规划的过程中,结合任务目标,根据设计的动作执行的前提条件和执行后对环境产生的影响,自动生成离线任务规划的问题域文件和规划域文件。

本发明的第二个方面提供一种移动家居服务机器人任务自主规划系统。

一种机器人任务自主规划系统,其包括:

物品位置确定模块,其用于基于家庭环境语义知识模型,获得静态物品语义位置和静态物品与动态物品之间的位置关系;

任务规划模块,其用于基于静态物品语义位置和静态物品与动态物品之间的位置关系,根据混合任务规划器来执行动作规划,直至机器人执行的任务序列完成任务;

其中,混合任务规划器在执行动作规划的过程中,首先进行离线任务规划,并确定离线任务规划的动作影响是否为确定型来判断是否继续执行离线任务序列,当离线任务规划的动作影响为不确定型,然后再进行在线动作规划。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的移动家居服务机器人任务自主规划方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的移动家居服务机器人任务自主规划方法中的步骤。

与现有技术相比,本发明的有益效果是:

本发明建立动态对象与静态对象之间的概率关系,基于静态对象级语义映射来推断动态对象,然后,将上述方法得到的目标位置信息作为混合任务规划器的输入,生成离线和在线的动作序列,该切换机制可以实现离线和在线任务规划的自由切换,最后,设计了执行监控和重规划机制来处理任务失败,提高机器人的智能性。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本发明实施例的移动家居服务机器人任务自主规划方法原理图;

图2是本发明实施例的物品级语义图示意图;

图3是本发明实施例的部分原子任务技能的参数,前提条件和动作执行的影响;

图4是本发明实施例的规划域和问题域文件的自动生成示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例为了应对复杂的家庭环境,建立了物品级语义图和概率推理关系,物品级语义图用来提供不容易发生位置改变的静态物品的语义位置,例如冰箱,洗衣机,餐桌等,而概率关系主要用来提供静态物品和动态物品之间的语义关系,例如,杯子,苹果,可乐,牛奶等。可见,动静态对象之间存在共生关系。例如,牛奶通常放在冰箱里,也可能放在餐桌上。因此,建立了动态对象与静态对象之间的概率关系,基于静态对象级语义映射来推断动态对象。然后,将上述方法得到的目标位置信息作为混合任务规划器的输入,生成离线和在线的动作序列。该切换机制可以实现离线和在线任务规划的自由切换。最后,设计了执行监控和重规划机制来处理任务失败,提高机器人的智能性。

如图1和图2所示,本实施例的一种机器人任务自主规划方法,其包括:

s101:基于家庭环境语义知识模型,获得静态物品语义位置和静态物品与动态物品之间的位置关系。

如图2所示,为建立的家庭环境语义模型,即物品级语义图,利用了物理地图和本体知识,以及贝叶斯概率模型。

首先利用自动导航技术或者用户控制建立物理地图,并利用物品检测方法识别静态物品,赋予地图语义信息。

其次,利用本体知识建立家庭场景和物品的位置本体,并把物品分为静态和动态物品,并建立动静态物品之间的概率关系模型其中oi,oj分别代表静态物品和动态物品,在相机视野中动静态物品共同出现的次数为n(oi|oj),n代表着被检测到的物品个数,τ起着一个平滑作用,取值0.5。在发现动态物品的情况下,存在静态物品的概率模型为其中θ表示一个物品集合。

最后,通过概率推理关系模型,即θ*=argmax[ρ(oj|ot)],得知静态和固态物品存在的共现关系,再查找语义地图能够获得静态和动态物品之间的语义位置关系。

具体地,获得静态物品语义位置和静态物品与动态物品之间的位置关系的过程为:

基于家庭环境语义知识模型及机器人在家居环境中的自主移动,建立物体实例级、地图级以及符号级三者之间的关系,并映射到物品位置本体中,推理家庭场景、静态物品和动态物品之间的语义位置关系。

利用物品级语义图和概率语义推理,分别得到静态物品的语义位置,动态物品与静态物品的语义位置。

s102:基于静态物品语义位置和静态物品与动态物品之间的位置关系,根据混合任务规划器来执行动作规划,直至机器人执行的任务序列完成任务;

其中,混合任务规划器在执行动作规划的过程中,首先进行离线任务规划,并确定离线任务规划的动作影响是否为确定型来判断是否继续执行离线任务序列,当离线任务规划的动作影响为不确定型,然后再进行在线动作规划。

在具体实施中,所述混合任务规划器包括离线任务规划器ppddl和在线任务规划器pomdp。

ppddl规划器为概率规划器,其产生的动作序列可能产生确定或不确定的影响,不确定性动作影响为(probabilisticρ1e1ρ2e2…ρkek),其中ek代表着动作产生的影响,而ρk代表着动作产生的影响的概率。

在本实施例中,在进行离线任务规划的过程中,结合任务目标,根据设计的动作执行的前提条件和执行后对环境产生的影响,自动生成离线任务规划的问题域文件和规划域文件。

如图4所示,显示了本实施例的ppddl规划器问题域文和规划域文件的自动生成方式。通过原子动作提取,语义知识模型中获取对象初始状态,从用户命令提取目标,得到ppddl规划器所需要的六大元素,即类型(types),谓语(predictives),动作(action),对象(objects),初始状态(initialstate),目标(goal)。最后通过信息状态转换,得到规划器需要的规划域和问题域文件的标准形式,用于动作序列的生成。规划域文件中需要原子动作,原子动作加上执行对象构成原子任务技能。下表列出了原子动作及其描述。

表1原子动作及其描述

如附图3所示部分原子任务技能的参数,前提条件以执行该动作后产生的影响,这是规划域文件自动生成的依据,而问题域文件的生成则依据目标物品的初始状态和机器人初始状态以及任务目标来生成。利用快速搜索规则,完成离线任务执行序列的生成。

在具体实施中,在进行在线动作规划的过程中,设计物品遮挡计算模型,产生在线动作规划所需的置信状态信息,并根据任务执行的子目标生成相应执行状态,进而生成在线的任务执行序列。

pomdp是部分可观察马尔科夫决策过程,是环境状态部分可知和动态不确定环境下序贯决策的理想模型,它考虑到了观测和动作中的不确定性,在一个潜在的长时间范围内采取行动。该模型可以在某一状态采取动作。本发明针对pomdp设计了场景模型、动作模型、感知模型和奖励模型。

场景模型:场景的组成部分表示成状态s={srob,sobj},其中,机器人状态(x,y,z,θ),这包括机器人的三维位姿(x,y,z)和方向θ。每个物体的状态表示成(xi,yi,zi,),其中(xi,yi,zi)和代表这第i个物体的3d位置和在世界坐标系中的方向,ti代表着第i个物体是否是目标物体。

动作模型:我们设计4种动作模型,即movebase:该动作可以让机器人调整机器人本体以及改变其位置。moveobject(oi):该动作表示可以把物品移出工作场景的栅格区域,并放到一个指定的放置区域。publishgraspsuccess(oi):该动作表示表示目标物品被发现并成功抓取。publishfailure(oi):该动作表示在操作区域没有发现目标物品。

感知模型:假设z={orob,ostatei}是一个机器人和物品观察集合。其中,orob是可以从观察获得的状态,该状态是完全可观察到的。ostatei是第i个物体被部分观察到的状态,包括估计的物品位置(xi,yi,zi),物体类型ti和遮挡率occli

观测函数o(s′,a,z)可以获得由于部分观测而导致的当前对象类型的不确定性,并且当动作a在状态s中执行时,可以观测到下一状态s′的概率。目标类型估计的准确性取决于遮挡程度。遮挡程度越大,对目标类型的估计越不准确。在状态s中执行操作时,将出现一个新状态s′。机器人通过观察来捕捉物体之间的空间关系,这种关系可以用遮挡率来衡量。物体之间的遮挡程度称为遮挡率,可以通过物体的三维边界盒来估计。我们可以使用三维边界框来获得物体的形状参数:高度、宽度、长度。因为摄像机的视角会影响机器人的观察效果,进而影响目标遮挡的估计。因此,给定所有对象实例的姿势和类型,它们的三维边界框将投影到摄影机坐标系中的x-y平面上,从而生成一组二维矩形r={rectj}。另外,根据对象的大小定义对象类别大小的概率,解决了对象大小差异对对象的遮挡问题。结合物体大小的概率和投影的2d矩形框,遮挡率确定如下:

观察函数为其中max为物体数量。

奖励模型:奖励函数的设计与任务的目标一致:找到目标对象,然后选择目标对象。该目标的实现是通过动作建模中的四种动作来操作集群环境中的各种对象。运行动作movebase的奖励是-250。如果机器人通过执行动作moveobject成功移动物体,将获得150的奖励。否则,如果不能移动物体,则分配-2000的惩罚。如果机器人成功执行publishgraspsucess(oi)(oi是目标对象),将获得200的奖励。否则,奖励-1000。如果目标不在操作区域,执行动作publishfailure,则奖励200。否则,奖励是-2000。

把蒙特卡罗树搜索(montecarlotreesearch)扩展到部分可观测蒙特卡罗(partialobservationmontecarloprojec)作为pomdp的问题解决器。

在离线任务规划过程中出现某一动作的影响为确定型影响,则继续执行离线任务执行序列,直到任务完成。相反,如果动作影响为概率不确定性的,即目标物品被遮挡的情况下,获取当时的机器人子任务目标,以及通过感知和物品遮挡模型获得当时目标物品所处的环境状态。

基于pomdp模型实现在线动作规划,实时与环境进行交互,直到达到子任务目标。再返回到离线任务执行序列,继续任务执行,直到达到任务最终目标。

当机器人任务执行失败时,进行任务再规划。这里的任务失败我们指的是概率推理得出的动态物品的语义位置在家庭环境中不正确,需要再次推理得出次优的动态物品的语义位置。同时,根据机器人当时在家庭环境中的语义位置以及原有的任务目标,再次生成问题域文件。重复上述过程,直到任务执行成功。

实施例二

本实施例提供了一种机器人任务自主规划系统,其包括:

物品位置确定模块,其用于基于家庭环境语义知识模型,获得静态物品语义位置和静态物品与动态物品之间的位置关系;

任务规划模块,其用于基于静态物品语义位置和静态物品与动态物品之间的位置关系,根据混合任务规划器来执行动作规划,直至机器人执行的任务序列完成任务;

其中,混合任务规划器在执行动作规划的过程中,首先进行离线任务规划,并确定离线任务规划的动作影响是否为确定型来判断是否继续执行离线任务序列,当离线任务规划的动作影响为不确定型,然后再进行在线动作规划。

此处需要说明的是,本实施例的机器人任务自主规划系统中的各个模块,与实施例一中的机器人任务自主规划方法中的各个步骤一一对应,其具体实施过程相同,此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的移动家居服务机器人任务自主规划方法中的步骤。

实施例四

本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的移动家居服务机器人任务自主规划方法中的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1