多智能体系统及其控制方法与流程

文档序号:12549556阅读:626来源:国知局
多智能体系统及其控制方法与流程

本发明涉及人工智能技术领域,尤其涉及一种多智能体系统及其控制方法。



背景技术:

多智能体系统作为人工智能的一个重要分支,得到了人们的广泛关注。多智能体系统具有自主协调控制和分布式控制的性能,并具有自行组织的能力、学习能力和推理预测的能力。

通常,多智能体系统包括多个智能体,每个智能体可利用自身装配的多个传感器感知外部环境,从而获取与自身相关的各种状态量,例如速度状态量、位置状态量等;并且,每个智能体还可向相邻智能体发送这些状态量,或者接收相邻智能体发送的状态量。然而,当温度过低或智能体内某个或某些传感器出现故障使得该智能体无法获得相对应的状态量时,会因缺少该状态量而无法很好的进行自我控制,并且,无法向相邻智能体提供这些状态量,从而会影响多智能体系统的信息总量。



技术实现要素:

本发明的目的在于提供一种多智能体系统及其控制方法,以解决智能体因无法得到自身的全部信息而无法很好的进行自我控制,且无法向其他智能体提供充分的信息的问题。

为了实现上述目的,本发明提供如下技术方案:

一种多智能体系统,包括第一智能体和第二智能体,其中,所述第一智能体能够与各个所述第二智能体相互通信,当所述第二智能体具有至少两个时,各个所述第二智能体之间能够相互通信;

各个第二智能体均包括自适应控制器,所述自适应控制器用于当所述第二智能体的状态量未知或不可测时,实时辨识或度量所述第二智能体的未知状态量或不可测状态量。

本发明还提供了一种多智能体系统的控制方法,所述多智能体系统包括第一智能体和第二智能体,其中,所述第一智能体能够与各个所述第二智能体相互通信,当所述第二智能体具有至少两个时,各个所述第二智能体之间能够相互通信;各个第二智能体均包括自适应控制器,所述控制方法包括:

当所述第二智能体的状态量未知或不可测时,利用所述自适应控制器实时辨识或度量所述第二智能体的未知状态量或不可测状态量。

与现有技术相比,本发明提供的多智能体系统具有以下效果:

本发明实施例提供的多智能体系统,各个第二智能体均包括自适应控制器,该自适应控制器能够在第二智能体的状态量未知或不可测时,实时辨识或度量第二智能体的未知状态量或不可测状态量。与现有技术中各个第二智能体仅能通过传感器感知外部环境相比,本申请在温度过低或第二智能体的传感器出现故障时,第二智能体仍然能通过自适应控制器进行未知状态量或不可测状态量的辨识,从而获得相应的状态量,进而能够进行良好的自我控制;并且第二智能体获得相应的状态量之后,可向其他智能体提供充分的信息,因而可提高多智能体系统中的信息总量和信息可靠性,促使多智能体系统更好、更快地完成预设目标。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例提供的多智能体系统的结构示意图;

图2为本发明实施例提供的多智能体系统的第一种状态量的网络通信结构示意图;

图3为本发明实施例中提供的多智能体系统的第二种状态量的网络通信结构示意图;

图4为本发明实施例中提供的第一种状态量的第一个分量随时间变化的示意图;

图5为本发明实施例中提供的第一种状态量的第二个分量随时间变化的示意图;

图6为本发明实施例中提供的第一种状态量的第三个分量随时间变化的示意图;

图7为本发明实施例中提供的第二种状态量的第一个分量随时间变化的示意图;

图8为本发明实施例中提供的第二种状态量的第二个分量随时间变化的示意图;

图9为本发明实施例中提供的第二种状态量的第三个分量随时间变化的示意图;

图10为本发明实施例中提供的第一种状态量所包含的信息量随时间变化的示意图;

图11为本发明实施例中提供的第二种状态量所包含的信息量随时间变化的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例提供的多智能体系统可应用于编队控制、群集控制、路径规划等控制应用中。当然,该多智能体系统还可应用于其他应用中,本申请对此不作具体限定。

如图1所示,该多智能体系统1包括第一智能体11和第二智能体12,其中,第一智能体11能够与第二智能体12相互通信,当第二智能体12具有至少两个时,各个第二智能体12之间能够相互通信;各个第二智能体12均包括自适应控制器121,自适应控制器121用于当第二智能体12的状态量未知或不可测时,实时辨识或度量第二智能体12的未知状态量或不可测状态量。

其中,第一智能体11与第二智能体12中的“第一”“第二”不用于对智能体进行排序,而是为了区分不同的智能体。例如,第一智能体11为领导智能体,第二智能体12为跟随智能体。第一智能体11的数量可为1个、2个或多个,本申请对此不作具体限定,此外第二智能体12的数量可为1个、2个或多个,本申请对此也不作具体限定,本领域技术人员可根据实际需求设置第一智能体和第二智能体的数量。当设置有多个第一智能体11时,多个第一智能体11之间也可相互通信。

第一智能体11与第二智能体12之间的通信、及各个第二智能体12之间的通信可为直接通信或间接通信,该直接或间接通信的路径可根据实际需求等预先设定。示例性地,如图2所示,多智能体系统包括以V0表示的一个第一智能体11和以V1、V2、V3和V4表示的四个第二智能体12,为便于理解,以下用V0标识第一智能体,且分别用V1、V2、V3和V4标识各第二智能体:第二智能体V1与第一智能体V0直接通信,例如,通过传感器进行直接通信;第二智能体V2通过第二智能体V1与第一智能体V0间接通信。

在上述实施例中,第二智能体的状态量可为一种、两种或多种,例如,第二智能体的状态量为多种,其包括速度状态量、位置状态量等等。当第二智能体的多个状态量中的一种状态量未知或不可测时,第二智能体内的自适应控制器实时辨识或度量第二智能体的未知状态量或不可测状态量。其中,上述“自适应控制器”是一种由关键状态量与目标状态量、以及关键状态量与邻居状态量之间的误差耦合而成的反馈协议,其中,该关键状态量为该自适应控制器所在第二智能体的未知或不可测状态量,该目标状态量为第一智能体的相应状态量,该邻居状态量为相邻第二智能体的相应状态量;上述“辨识”指的是对第二智能体自身状态量的分辨和识别;上述“度量”指的是对第二智能体自身状态量的测量;上述“未知状态量”指的是第二智能体中由于某种原因而不可知或无法得到的某些状态量,与“不可测状态量”类似;上述“不可测状态量”指的是因第二智能体的传感器或感应器出现故障而不能测得的状态量。

本发明实施例提供的多智能体系统,第一智能体与各个第二智能体之间能够通信,且各个第二智能体之间能够通信,不仅增强了智能体之间的信息量传递,而且可以避免当某个智能体出现故障时影响整个系统的情况发生,因为即使出现故障的智能体不能向某个智能体传递信息,那么该智能体也能从其他智能体那获取信息;接着,各个第二智能体均包括自适应控制器,该自适应控制器能够在第二智能体的状态量未知或不可测时,实时辨识或度量第二智能体的未知状态量或不可测状态量,与现有技术中温度过低或智能体内某个或某些传感器出现故障则该智能体无法获得相对应状态量相比,本申请在温度过低或第二智能体内某个或某些传感器出现故障时,第二智能体仍然能通过自适应控制器进行未知状态量或不可测状态量的辨识,从而获得相应的状态量,进而能够进行良好的自我控制;并且第二智能体获得相应的状态量之后,可向其他智能体提供这些状态量,因而可提高多智能体系统中的信息总量和信息可靠性,促使多智能体系统更好、更快地完成预设目标。

此外,现有技术中,通常假设多智能体系统中所有智能体之间的所有状态量传递均采用同一通信网络结构,例如,所需传递的状态量包括速度状态量和位置状态量,这两种状态量的传递均使用如图3所示的网络。然而每个智能体对这两种状态量的需求不同,例如,第二智能体V1希望获取相邻三个第二智能体V2、V4和V6的速度状态量,而仅希望获取相邻一个第二智能体V2的位置状态量,此时,图3所示的网络适用于速度状态量,而针对于位置状态量,第二智能体V1与另两个第二智能体V4和V6之间的通信网络的建立(例如,速度传感器的设置)会造成资金投入的浪费,并且其间进行的无用的速度状态量的传递会造成信息的浪费。

为解决该问题,在本发明的一个实施例中,第二智能体的状态量包括至少两种,该至少两种状态量在不同通信网络结构下被通信。示例性地,速度状态量通信所对应的通信网络结构为如图3所示的拓扑结构,位置状态量通信所对应的通信网络结构为如图2所示的拓扑结构,如此,当第二智能体V1希望获取相邻三个智能体V2、V4和V6的速度状态量时,图3所示的通信网络结构可满足其需求,而当第二智能体V1仅需获取相邻一个智能体V2的位置状态量时,图2所示的通信网络结构可满足其需求。而图2所示的通信网络结构明显比图3所示的通信网络结构简单,因而可在满足第二智能体V1对这两种状态量的需求的前提下,减少资金投入和信息的浪费。

多智能体系统的一个目的是达到一致性,即多智能体系统中所有的智能体逐渐达到一致的状态量或所有第二智能体的状态量都能跟踪上第一智能体的状态量,例如,该状态量为速度状态量和/或位置状态量。为实现上述一致性的目的,在本发明的一个实施例中,第二智能体在自适应控制器实时辨识或度量第二智能体的未知状态量或不可测状态量之后,接收控制输入,以使第二智能体与第一智能体的同种状态量之间的差异趋近于零,且使第二智能体与相邻的另一第二智能体的同种状态量之间的差异趋近于零;其中,至少两种状态量中任一状态量对应的控制输入取决于:第二智能体自身的该状态量的第一信息量、与相邻的所有第二智能体通信获取的该状态量的第二信息量、及与第一智能体通信获取的该状态量第三信息量。

示例性地,第二智能体的状态量具有多种,其中速度状态量和位置状态量未知或不可测,则第二智能体通过自适应控制器获取自身的速度状态量的第一速度信息量,并获取与之通信的所有相邻第二智能体的速度状态量的第二速度信息量、以及与之通信的第一智能体的速度状态量的第三速度信息量,根据第一速度信息量与第二速度信息量之间的关系,及第一速度信息量与第三速度信息量之间的关系,对该第二智能体的速度进行控制,使得第二智能体与第一智能体之间的速度趋近于相同,从而使多智能体系统中第二智能体跟踪上第一智能体。同理,使第二智能体的位置与第一智能体的位置趋近于相同,从而使第二智能体跟踪上第一智能体。

实施例二

为使本领域技术人员清楚了解本申请所述的多智能体系统,以下对本申请的多智能体系统进行举例说明。在描述本申请实施例之前,先对多智能体的原理进行简要介绍。

多智能体系统遵循一致性运动,该一致性运动是指所有智能体逐渐达到一致的速度,或者所有跟随智能体的速度都能跟踪上领导智能体的速度,此时多智能体系统达到一致性。具体地,考虑一个具有N个智能体的多智能体系统在n维欧式空间中移动,双积分动态特性的智能体具有质点动态特性。多智能体系统的双积分连续时间模型描述如下:

其中,xi=(xi(1),xi(2),xi(3))T∈5n是智能体i的位置向量,是智能体i的实际速度向量;vi=(vi(1),vi(2),vi(3))T∈5n是智能体i的速度向量;u1i=(u1i(1),u1i(2),u1i(3))T∈Rn是智能体i的关于位置的控制输入;是智能体i的实际加速度向量;u2i=(u2i(1),u2i(2),u2i(3))T∈Rn是智能体i的关于速度的控制输入。

此外,多智能体系统的单积分连续时间模型描述如下:

并且,跟随智能体i和领导智能体0之间的相对位置向量可表示为相对速度向量可表示为

以下基于上述原理,对本申请的多智能体系统进行举例说明。示例性地,在任意时刻,该多智能体系统由两类智能体构成:一个第一智能体和至少两个第二智能体,该第一智能体为领导智能体,该第二智能体为跟随智能体。其中,各个智能体均可通过其自身设置的传感器获取自身的状态量,该状态量可包括速度状态量和位置状态量;此外,各个智能体之间可通过与获取自身状态量不同的传感器在预先设定的通信网络结构下进行信息交互,该通信网络结构包括适用于速度状态量的通信网络结构和适用于位置状态量的通信网络结构。

设xi和vi分别表示第i个跟随智能体的位置状态量和速度状态量,示例性地,跟随智能体i的位置向量为xi=(xi(1),xi(2),xi(3))T∈Rn,跟随智能体i的速度向量为vi=(vi(1),vi(2),vi(3))T∈Rn

当跟随智能体i的速度状态量和位置状态量因环境或自身条件的限制均未知或不可测时,可通过自适应控制器获取这些未知或不可测状态量,自适应控制器示例性地为以下公式:

其中,ci(t)和di(t)分别表示第i个跟随智能体自身的速度状态量和位置状态量;α、β、hi和分别是相应比例因子,其均可为正的常数并可根据实际需要设置;vj和xj分别表示第j个跟随智能体的速度状态量和位置状态量;ΔN={1,2,…,N},Δm={1,2,…,m},ΔNm={m+1,m+2,…,N},N为正整数;和分别是多智能体系统中这两种状态量的通信网络结构的拉普拉斯矩阵和中第i行、第j列的数值,本领域技术人员可参见现有技术,此处不再详细描述。其中,j的取值可参照i的取值。

根据以上公式可知,自适应控制器可通过与第i个跟随智能体通信的所有智能体的速度状态量及位置状态量来确定第i个跟随智能体自身的速度状态量及位置状态量。

需要说明的是,该自适应控制器为完全分布式的自适应控制器。还需说明的是,在实际情况中,跟随智能体为了跟踪上领导智能体,需要获得领导智能体的位置和速度信息,而由于环境或外界的干扰造成某些跟随智能体不能或很难与领导智能体进行直接通信,那么,此时这些跟随智能体通过其他跟随智能体与领导智能体进行间接通信,则可以得到目标信息,同时可减少不必要的资源投入。而跟随智能体自身信息量ci(t)和di(t)的自适应变化率是非负的,且随着跟随智能体逐渐跟踪上领导智能体而致使它们之间的误差逐渐趋向于0,从而使得这两种信息量的自适应变化率趋向于0,由此ci(t)和di(t)是非负有界的。

接着,在第i个跟随智能体获得自身的速度状态量和位置状态量之后,该第i个跟随智能体接收由以下公式表示的控制输入:

其中,u1i(t)和u2i(t)分别表示第i个跟随智能体的速度状态量和位置状态量的控制输入;α和β分别是相应比例因子,其均可为正的常数并可根据实际需要设置;和分别表示第i个跟随智能体和第j个跟随智能体之间的速度状态量的通信信息量和位置状态量的通信信息量。bpi和bvi分别是第i个跟随智能体与领导智能体之间的速度状态量的通信信息量、和第i个跟随智能体与领导智能体之间的位置状态量的通信信息量。

由以上公式可知,将多智能体系统中第i个跟随智能体的状态量减去与该第i个跟随智能体通信的跟随智能体或领导智能体的状态量得到相对状态量(xi-xj)、(vi-vj)、(xi-x0)和(vi-v0),当上述相对状态量趋向于零时控制输入也就趋近于零,也即多智能体系统不再需要输入,其已达到预期目标。

通过控制率u1i(t)和u2i(t)对各个跟随智能体实施控制,由于速度状态量和位置状态量为矢量,因此可以实现跟随智能体受力大小和方向的控制;并且,当所有跟随智能体的质量恒定且相互相等时,控制率u1i(t)和u2i(t)可以简单地理解为跟随智能体加速度a的控制输入。

在实施以上过程后,示例性地,可使用以下势能函数V验证以上自适应控制器及控制输入对多智能体系统的影响:

显然,hi和分别是相应比例因子,其均为正的常数,可根据实际需求设定;其余符号可参见上文解释。根据该函数可知,V几乎处处连续可微。图2-图11示出了本申请的具体示例,在该示例中,多智能体系统包括7个智能体,即1个领导智能体V0和6个跟随智能体V1-V6。图2示出了位置状态量的通信网络结构,其中,领导智能体V0分别与跟随智能体V1和V3直接通信,跟随智能体V1分别与跟随智能体V2和V3直接通信,跟随智能体V3与跟随智能体V4直接通信。图3示出了速度状态量的通信网络结构,其中,领导智能体V0分别与跟随智能体V1、V3和V6直接通信,跟随智能体V6分别与跟随智能体V4和V1直接通信,跟随智能体V1分别与跟随智能体V6和V2直接通信,跟随智能体V3分别与跟随智能体V2和V5直接通信。对比图2和图3可得出,跟随智能体V5和V6无法获取位置状态量。

如图4-图11示出了位置状态量和速度状态量随时间变化的仿真图,其中横轴t的单位为秒,当然,该时间也可为其他单位,例如为分、时等。从图4-图9可知,第二智能体V1、V2、V3和V4的位置状态量随时间趋近于第一智能体V0的位置状态量;第二智能体V1、V2、V3和V4的速度状态量随时间趋近于第一智能体V0的速度状态量。从图10-图11可知,位置状态量和速度状态量在自适应控制器的作用下是递增有界的,这说明第二智能体的自身信息量是有限的。

实施例三

本发明实施例还提供了一种多智能体系统的控制方法,该多智能体系统包括第一智能体和第二智能体,其中,第一智能体能够与各个第二智能体相互通信,当第二智能体具有至少两个时,各个第二智能体之间能够相互通信;各个第二智能体均包括自适应控制器,该控制方法包括:当第二智能体的状态量未知或不可测时,利用自适应控制器实时辨识或度量第二智能体的未知状态量或不可测状态量。

本发明实施例提供的多智能体系统的控制方法,第一智能体与各个第二智能体之间能够通信,且各个第二智能体之间能够通信,不仅增强了智能体之间的信息量传递,而且可以避免当某个智能体出现故障时影响整个系统的情况发生,因为即使出现故障的智能体不能向某个智能体传递信息,那么该智能体也能从其他智能体那获取信息;接着,各个第二智能体均包括自适应控制器,当第二智能体的状态量未知或不可测时,利用自适应控制器实时辨识或度量第二智能体的未知状态量或不可测状态量,与现有技术中各个第二智能体仅能通过传感器感知外部环境相比,本申请在温度过低或第二智能体的传感器出现故障时,仍然能通过自适应控制器进行未知状态量或不可测状态量的辨识,从而获得相应的状态量,进而能够进行良好的自我控制;并且第二智能体获得相应的状态量之后,可向其他智能体提供充分的信息,因而可提高多智能体系统中的信息总量和信息可靠性,促使多智能体系统更好、更快地完成预设目标。

在本发明的一个实施例中,第二智能体的状态量具有至少两种,该至少两种状态量在不同通信网络结构下被通信。

在本发明的一个实施例中,未知状态量或不可测状态量包括速度状态量和位置状态量,自适应控制器为:

其中,ci(t)和di(t)分别表示第i个跟随智能体自身的速度状态量和位置状态量;;α、β、hi和分别是相应比例因子,其均为正的常数,vj和xj分别表示第j个跟随智能体的速度状态量和位置状态量;ΔN={1,2,…,N},Δm={1,2,…,m},ΔNm={m+1,m+2,…,N},N为正整数;和分别是多智能体系统中这两种状态量的通信网络结构的拉普拉斯矩阵和中第i行、第j列的数值。

在本发明的一个实施例中,在利用自适应控制器实时辨识或度量第二智能体的未知状态量或不可测状态量之后,控制方法还包括:

各第二智能体接收控制输入,以使第二智能体与第一智能体的同种状态量之间的差异趋近于零,且使第二智能体与相邻的另一第二智能体的同种状态量之间的差异趋近于零;

其中,至少两种状态量中任一状态量对应的控制输入取决于:第二智能体自身的状态量的第一信息量、与相邻的所有第二智能体通信获取的状态量的第二信息量、及与第一智能体通信获取的状态量的第三信息量。

在本发明的一个实施例中,控制输入为:

其中,u1i(t)和u2i(t)分别表示第i个跟随智能体的速度状态量和位置状态量的控制输入;α和β分别是相应比例因子,其均可为正的常数并可根据实际需要设置;和分别表示第i个跟随智能体和第j个跟随智能体之间的速度状态量的通信信息量和位置状态量的通信信息量。bpi和bvi分别是第i个跟随智能体与领导智能体之间的速度状态量的通信信息量、和第i个跟随智能体与领导智能体之间的位置状态量的通信信息量。

在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1