用于通过自主系统生成动作策略的系统和方法

文档序号:37147049发布日期:2024-02-26 17:00阅读:17来源:国知局
用于通过自主系统生成动作策略的系统和方法

本技术涉及用于生成动作策略的系统和方法,并且更具体地,涉及在智能自主系统所在的环境内进行交互的智能自主系统。


背景技术:

1、自主决策过程的最新发展是开发自主系统的重要一步。潜在的应用涵盖广泛的领域,例如但不限于辅助人形机器人系统或者网络流量监控和管理系统。自主系统期望执行任务来满足用户、交互人员或任何需要帮助的对象,同时遵守预定规则和/或变化的规则。这种为处理各种活动而开发的自主系统包括用于处理数据并生成最佳动作策略的一个或更多个数据处理和决策单元。

2、尽管上述最近的发展可能会带来好处,但仍然需要改进。

3、背景技术部分中讨论的主题不应仅仅因为其在背景技术部分中提及而被假定为现有技术。类似地,不应假定背景部分中提到的或与背景部分的主题相关联的问题先前已在现有技术中被认识到。背景部分中的主题仅仅代表不同的方法。


技术实现思路

1、本技术的实施方式是基于开发者对与现有技术相关的缺点的认识而开发的。

2、具体而言,这些缺点可能包括:(1)面对突发事件无法作出反应;(2)建立动作策略的计算时间较长,导致在给定环境中运行时可能出现中断;以及/或者(3)静态动作策略不适用于动态环境。

3、在第一方面,本技术的各种实现方式提供了一种用于生成要由自主系统执行的动作策略的方法,该动作策略包括:响应于检测到异常事件而要由自主系统执行以实现对应的活动目标的一系列动作,所述异常事件在环境中正在发生或已经发生,自主系统被配置成在所述环境中进行操作,基于对应事件的描述与环境的属性之间的协调性检查过程的结果而将所述异常事件识别为不协调。该方法包括:访问第一数据库,所述第一数据库填充有与自主系统检测到的异常事件相对应的事件描述。该方法包括:访问第二数据库,所述第二数据库填充有候选目标。每个候选目标限定了能够由自主系统完成的任务,并且每个候选目标包括:与一个或更多个事件描述相对应的启用条件,在确定在第一数据库中找到了一个或更多个事件描述的情况下,对应的启用条件被满足;以及渐进式任务单元结构,渐进式任务单元结构描述为了实现候选目标而要执行的对应的动作的层次结构,渐进式任务单元结构包括可执行模块,所述可执行模块被配置成由自主系统执行,以执行对应的动作的层次结构,每个可执行模块与动作的层次结构中的动作相对应。该方法包括:通过基于事件描述确定一个或更多个候选目标的启用条件是否被满足,来从第二数据库中选择一个或更多个候选目标;以及执行所述一个或更多个候选目标。对候选目标的执行包括:将致使选择了该候选目标的事件描述中至少之一的参数传送到该候选目标,从而限定活动目标;从活动目标的渐进式任务单元结构来生成动作策略,该动作策略的一系列动作对应于渐进式任务单元结构的可执行模块所对应的动作;以及执动作策略的一系列动作。

4、在该方法的一些实施方式中,第一数据库的事件描述与由自主系统检测到的异常事件相对应,基于对应事件的事件描述与环境的属性之间的协调性检查过程的结果而将所述异常事件中的每个异常事件识别为不协调,并且其中,响应于自主系统检测到异常事件来访问第一数据库。

5、在该方法的一些实施方式中,渐进式任务单元结构还包括:一个或更多个处理级层序列,每个处理级层序列包括所述可执行模块中的一个或更多个可执行模块;一组状态变量,所述一组状态变量描述了候选目标的执行状态的参数;一组可观察属性,可观察属性对应于第一数据库的事件描述中的一个或更多个事件描述;或者一个或更多个处理级层序列、一组状态变量、一组可观察属性的组合。

6、在该方法的一些实施方式中,渐进式任务单元结构的每个可执行模块与对应渐进式任务单元结构的一组状态变量中的状态变量子组的配置相对应,并且,当确定对于给定的可执行模块而言在执行与该给定的可执行模块相对应的动作时没有满足对应的配置的情况下,所述动作被识别为自主系统的故障。

7、在该方法的一些实施方式中,候选目标中的至少一个候选目标的渐进式任务单元结构还包括故障恢复模块,该故障恢复模块被配置成由自主系统执行以从自主系统的对应故障中恢复,自主系统的对应故障基于上述一组状态变量与同至少一个渐进式任务单元结构的可执行模块相对应的状态变量子组的配置之间的不匹配而被识别。

8、在该方法的一些实施方式中,候选目标中的至少一个候选目标还包括一个或更多个故障恢复渐进式任务单元结构,该一个或更多个故障恢复渐进式任务单元结构包括要执行的资源受限动作的层次结构,每个故障恢复渐进式任务单元结构对应于渐进式任务单元结构的故障恢复模块,故障恢复模块的执行致使自主系统执行故障恢复渐进式任务单元结构的资源受限动作。

9、在该方法的一些实施方式中,可执行模块还与用于执行对应可执行模块的执行分数相关联,并且生成可执行动作策略包括使全局执行分数最大化,该全局执行分数是与可执行模块相关联的执行分数的组合。

10、在该方法的一些实施方式中,通过可执行模块的执行概率对相对应的可执行模块的执行分数进行加权,从而对全局执行分数进行确定,执行概率描述了由自主系统执行相对应的可执行模块的概率。

11、在该方法的一些实施方式中,从候选目标的渐进式任务单元结构生成动作策略包括:从渐进式任务单元结构生成随机决策过程。随机决策过程至少包括:与渐进式任务单元结构的可执行模块的动作相对应的一组动作;以及包括自主系统的状态的一组状态,每个状态对应于可执行模块的执行的结果。该方法包括执行随机决策过程。

12、在该方法的一些实施方式中,随机决策过程是因式马尔可夫决策过程。

13、在该方法的一些实施方式中,对应于可执行模块的一个或更多个动作致使一个或更多个候选目标的执行。

14、在第二方面,本技术的各种实现方式提供了一种计算机实现的方法,该计算机实现的方法用于规划要由自主系统执行以通过完成一个或更多个任务来实现对应的一个或更多个目标的动作。该方法包括:访问成组的一个或更多个目标。一个或更多个目标中的每个目标包括对对应的一个或更多个目标的特性的参数进行标识。该方法包括:访问第一数据库,第一数据库包括渐进式任务单元结构,每个渐进式任务单元结构包括用于完成由可执行模块和故障恢复模块描述的任务的对应的动作层次结构,每个可执行模块被配置成由自主系统执行,以执行动作的层次结构中的资源受限动作。每个故障恢复模块被配置成:在确定自主系统未能执行与可执行模块相对应的动作以寻求完成对应任务的情况下,由自主系统来执行每个故障恢复模块。该方法包括:访问第二数据库,该第二数据库包括故障恢复渐进式任务单元结构,该故障恢复渐进式任务单元结构包括要执行的资源受限动作的层次结构,每个故障恢复渐进式任务单元结构对应于渐进式任务单元结构的故障恢复模块。故障恢复模块的执行致使自主系统执行资源受限动作。该方法包括:基于一个或更多个目标的参数,从第一数据库选择一个或更多个渐进式任务单元结构,每个目标与渐进式任务单元结构相对应;以及执行所选择的一个或更多个渐进式任务单元结构。该执行包括:从所选择的一个或更多个渐进式任务单元结构生成一个或更多个随机决策过程。每个随机决策过程包括:与渐进式任务单元结构的可执行模块和故障恢复模块的动作相对应的一组动作;以及与可执行模块的动作的结果相对应的一组状态。该方法包括:通过基于自主系统的当前状态执行该组动作中的一个或更多个动作,来执行一个或更多个随机决策过程;以及,在执行所选择的一个或更多个渐进式任务单元结构时,如果确定自主系统要执行对应于故障恢复模块的动作,则执行故障恢复模块的故障恢复渐进式任务单元结构的资源受限动作的层次结构。

15、在该方法的一些实施方式中,执行对应的故障恢复渐进式任务单元结构的资源受限动作的层次结构包括:从故障恢复渐进式任务单元结构生成随机决策过程。随机决策过程包括:与故障恢复渐进式任务单元结构的资源受限动作相对应的一组动作;以及与资源受限动作的结果相对应的一组状态。该方法包括:通过基于自主系统的当前状态执行该组动作中的一个或更多个动作,来执行随机决策过程。

16、在该方法的一些实施方式中,随机决策过程是因式马尔可夫决策过程。

17、在该方法的一些实施方式中,每个可执行模块与状态变量子组相关联,所述状态变量描述了候选目标的执行状态的参数;以及从所选择的一个或更多个渐进式任务单元结构生成一个或更多个随机决策过程包括:选择所选择的一个或更多个渐进式任务单元结构的与预定状态变量相对应的可执行模块。

18、在第三方面,本技术的各种实现方式提供了一种用于生成要由自主系统执行的动作策略的计算机实现的方法,该动作策略包括要由自主系统执行以实现对应的活动目标的一系列动作,该系列动作包括一个或更多个资源受限动作,在自主系统具有有限资源来实现活动目标的情况下由自主系统来执行该一个或更多个资源受限动作,该自主系统包括一个或更多个感测设备,所述一个或更多个感测设备被配置成对预定的状态变量进行感测,状态变量限定了自主系统的状态。该方法包括:访问第一数据库,所述第一数据库填充有与自主系统检测到的事件相对应的事件描述,该事件在环境中正在发生或已经发生,自主系统被配置成在所述环境中进行操作;访问第二数据库,所述第二数据库填充有候选目标。每个候选目标限定了能够由自主系统完成的任务并且每个候选目标包括:与一个或更多个事件描述相对应的启用条件,在确定在第一数据库中找到了一个或更多个事件描述的情况下,对应的启用条件被满足;以及渐进式任务单元结构,渐进式任务单元结构描述为了实现候选目标而要执行的对应的动作的层次结构,渐进式任务单元结构包括可执行模块,所述可执行模块被配置成由自主系统执行,每个可执行模块与动作的层次结构中的动作相对应并且每个可执行模块与自主系统的给定状态相关联,至少一个渐进式任务单元结构包括至少一个故障恢复模块,该故障恢复模块与在自主系统执行动作策略时响应于由一个或更多个感测设备检测到的自主系统的给定故障状态而要被执行的资源受限动作相对应,可执行模块和故障恢复模块与指示在执行动作策略期间应优先执行哪些模块的执行分数相关联。该方法还包括:通过基于事件描述来确定一个或更多个候选目标的启用条件是否被满足,来从第二数据库中选择一个或更多个候选目标,并且执行所选择的一个或更多个候选目标。对候选目标的执行包括:将致使选择了该候选目标的事件描述中至少之一的参数传送到所选择的候选目标,从而生成活动目标;从渐进式任务单元结构生成动作策略,动作策略包括关于根据自主系统的状态而要被执行的动作的信息,使得在检测到自主系统的故障状态时,对应的资源受限动作被执行,动作策略的一系列动作基于可执行模块和故障恢复模块的执行分数;以及基于自主系统的状态来执行动作策略的一系列动作。

19、在第四方面,本技术的各种实现方式提供了一种用于生成要由自主系统执行的动作策略的系统,该系统包括处理器和存储器,该存储器被配置成存储指令,该指令在被处理器执行时使系统执行上述方法。

20、在第五方面,本技术的各种实现方式提供了包括指令的计算机可读载体,在执行所述指令时所述指令使计算机执行上述方法的步骤。

21、在本说明书的上下文中,除非另外明确规定,否则计算机系统可以指但不限于“电子设备”、“操作系统”、“系统”、“基于计算机的系统”、“控制器单元”、“监控装置”、“控制装置”和/或其适合当前相关任务的任何组合。

22、在本说明书的上下文中,除非另外明确规定,否则表述“计算机可读介质”和“存储器”旨在包括任何性质和种类的介质,其非限制性示例包括ram、rom、磁盘(cd-rom、dvd、软盘、硬盘驱动器等)、usb密钥、闪存卡、固态驱动器和磁带驱动器。仍然在本说明书的上下文中,“一计算机可读介质”和“该计算机可读介质”不应被解释为相同的计算机可读介质。相反,只要适当,“一计算机可读介质”和“该计算机可读介质”也可以被解释为第一计算机可读介质和第二计算机可读介质。

23、在本说明书的上下文中,除非另有明确规定,用语“第一”、“第二”、“第三”等被用作形容词,仅是为了允许将它们所修饰的名词彼此进行区分,并不是为了描述这些名词之间的任何特定关系。

24、本技术的每个实现方式均具有上述目的和/或方面中的至少一个,但不一定具有全部。应当理解,由于试图实现上述目的而产生的本技术的一些方面可能不满足该目的和/或可能满足本文未具体叙述的其他目的。

25、本技术的实现方式的附加和/或替代特征、方面和优点将从以下描述、附图和所附权利要求中变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1