多智能体分布式协调控制方法、装置、设备和存储介质

文档序号:31347964发布日期:2022-08-31 12:07阅读:131来源:国知局
多智能体分布式协调控制方法、装置、设备和存储介质

1.本发明涉及人工智能技术领域,尤其涉及一种多智能体分布式协调控制方法、装置、设备和存储介质。


背景技术:

2.在生物和工业系统中,随处可见生物群的集群、涌现以及航天器的编队飞行等集体行为。在上述系统中,每个智能体只具有一定的传感、计算、存储和通信能力,通过一些简单的规则,可实现较高的复杂行为或完成单个个体所不能完成的复杂任务。而随着无线通信技术和微处理器技术的发展,多智能体系统的相关理论研究和工程实践近年来都得到了广泛的关注。
3.多智能体系统中,智能体间的合作与竞争是实现群体行为的主要途径。目前针对多智能体系统的分布式协调控制的研究中,智能体仅通过相互合作实现群体目标,模型中往往忽略了个体间可能存在的竞争和冲突。然而,在实际问题中,个体的目标往往相互制约且存在竞争关系,且个体的决策变量通常是相互耦合的(如资源分配)。因此,将博弈论引入到多智能体系统中,博弈论作为研究多决策者行为的数学工具,能够描述智能体间的竞争关系,多智能体系统能够借助博弈论的理论体系解决智能体间的目标冲突,同时极大地丰富系统设计思路。鉴于此,多智能体系统的博弈控制问题成为了近年来的研究热点问题,相关研究成果广泛应用于无线通信网络、光纤网络、智能电网、多机器人控制等方面。
4.对于多智能体系统的博弈控制,如何设计算法求解纳什均衡(nash equilibrium)是该问题的核心。现有技术中,主要采用博弈与控制分离设计的思路,将博弈问题求解与分布式控制器设计解耦,这种方法尽管便于博弈子系统和控制子系统的理论分析,但当两个子系统匹配较差时,需要大量的反复迭代设计来满足性能需求,导致系统设计优化的工作量较大、周期较长,且无法从理论上对“博弈+控制”大闭环系统进行性能分析。此外,实际智能体在应用过程中还存在多种限制,如最大速度限制、最大加速度限制等。因此,如何充分利用博弈子系统和控制子系统之间的耦合关系,建立受限多智能体博弈控制一体化求解框架并给出行之有效对分布式控制方法是多智能体博弈控制领域亟待突破的关键问题。


技术实现要素:

5.本发明提供一种多智能体分布式协调控制方法、装置、设备和存储介质,用以解决现有技术中博弈设计工作量大的缺陷,在考虑实际约束条件的情况下,通过修改收益函数即可实现多智能体的控制,提高适用性和迁移效率。
6.本发明提供一种多智能体分布式协调控制方法,包括:确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智
能体对应的所述辅助系统的状态;基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
7.根据本发明提供的多智能体分布式协调控制方法,所述获取各所述智能体对应的所述辅助系统的状态,包括:获取第一智能体对应所述辅助系统的状态;基于各所述智能体之间的通信网络拓扑结构,确定与所述第一智能体通信连接的至少一个第二智能体,并基于通信交互,获取所述至少一个第二智能体对应所述辅助系统的状态,各所述第二智能体与所述第一智能体通信连接,所述通信网络拓扑结构是基于图论构建的。
8.根据本发明提供的多智能体分布式协调控制方法,还包括:基于所述辅助系统,构建分布式观测器,所述分布式观测器用于确定各所述智能体对应所述辅助系统的估计状态,所述估计状态用于表征各所述智能体对应所述辅助系统的状态;基于所述分布式观测器,获取至少一个第三智能体对应所述辅助系统的估计状态,各所述第三智能体与所述第一智能体无通信连接。
9.根据本发明提供的多智能体分布式协调控制方法,所述确定各所述智能体对应所述辅助系统的估计状态,包括:基于所述通信网络拓扑结构,确定所述第一智能体的邻居集合;基于所述邻居集合,确定所述通信网络拓扑结构的邻接矩阵;基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
10.根据本发明提供的多智能体分布式协调控制方法,所述基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态,包括:基于所述邻居集合和所述邻接矩阵,确定自适应增益,所述自适应增益用于加速所述分布式观测器收敛;基于所述自适应增益,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
11.根据本发明提供的多智能体分布式协调控制方法,还包括:将各所述智能体对应的所述辅助系统的状态收敛至纳什均衡点。
12.根据本发明提供的多智能体分布式协调控制方法,所述基于所述博弈控制一体化模型,确定各所述智能体的分布式控制器,包括:基于所述约束条件,确定各所述分布式控制器的参数取值范围;基于所述参数取值范围,确定各所述分布式控制器的参数值。
13.本发明还提供一种多智能体分布式协调控制装置,包括:模型确定模块,用于确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型,是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;辅助系统确定模块,用于基于所述博弈控制一体化模型,确定各所述智能体的辅
助系统,并获取各所述智能体对应的所述辅助系统的状态;控制器确定模块,用于基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
14.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多智能体分布式协调控制方法。
15.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多智能体分布式协调控制方法。
16.本发明提供的多智能体分布式协调控制方法、装置、设备和存储介质,通过结合收益函数和约束条件,为智能体构建博弈控制一体化模型,通过引入博弈论思想,丰富设计思路,并通过为每个智能体构建辅助系统,在获取各智能体对应辅助系统的状态后,将状态收敛至纳什均衡解,以实现辅助系统的博弈控制一体化,且仅需修改收益函数即可实现多智能体的控制,可满足多任务的使用需求,提高适用性;此外,结合约束条件为每个智能体构建分布式控制器,可加快理论仿真到实际应用的迁移速度。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的多智能体分布式协调控制方法的流程示意图之一;图2是本发明提供的多智能体分布式协调控制方法的流程示意图之二;图3是本发明提供的通信网络拓扑结构的示例示意图;图4是本发明提供的多智能体分布式协调控制装置的结构示意图;图5是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.多智能体系统中,智能体间的合作与竞争是实现群体行为的主要途径。目前针对多智能体系统的分布式协调控制的研究中,智能体仅通过相互合作实现群体目标,模型中往往忽略了个体间可能存在的竞争和冲突。然而,在实际问题中,个体的目标往往相互制约且存在竞争关系,且个体的决策变量通常是相互耦合的(如资源分配)。因此,将博弈论引入到多智能体系统中,博弈论作为研究多决策者行为的数学工具,能够描述智能体间的竞争关系,多智能体系统能够借助博弈论的理论体系解决智能体间的目标冲突,同时极大地丰富系统设计思路。鉴于此,多智能体系统的博弈控制问题成为了近年来的研究热点问题,相
关研究成果广泛应用于无线通信网络、光纤网络、智能电网、多机器人控制等方面。
21.对于多智能体系统的博弈控制,如何设计算法求解纳什均衡(nash equilibrium)是该问题的核心。现有技术中,主要采用博弈与控制分离设计的思路,将博弈问题求解与分布式控制器设计解耦,这种方法尽管便于博弈子系统和控制子系统的理论分析,但当两个子系统匹配较差时,需要大量的反复迭代设计来满足性能需求,导致系统设计优化的工作量较大、周期较长,且无法从理论上对“博弈+控制”大闭环系统进行性能分析。此外,实际智能体在应用过程中还存在多种限制,如最大速度限制、最大加速度限制等。因此,如何充分利用博弈子系统和控制子系统之间的耦合关系,建立受限多智能体博弈控制一体化求解框架并给出行之有效对分布式控制方法是多智能体博弈控制领域亟待突破的关键问题。
22.针对上述问题,本发明实施例提供了一种多智能体分布式协调控制方法,图1是本发明提供的多智能体分布式协调控制方法的流程示意图之一,如图1所示,该方法包括:步骤110、确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型,是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件。
23.具体地,由于现实生活中许多物理系统都是力/力矩驱动的二阶系统,即,二阶多智能体系统具有一定的代表性,且实际物理系统受限于机械、动力或安全因素等方面的考虑,在应用中也会存在多种限制,如:无人机的飞行速度需要大于其平飞最小速度,以提供平飞所需的升力;汽车的最大速度需要被约束,以防止转弯过程中冲出道路;机器人的加速度不能超过其动力系统允许的最大值等,即,对于二阶系统而言,速度和加速度限制等物理约束是实际应用中必须考虑的因素,因此,本发明实施例以受限二阶多智能体的分布式博弈控制为例,结合收益函数和约束条件构建博弈控制一体化模型,将博弈论思想引入多智能体控制,进一步丰富多智能体系统的设计思路。
24.可选地,博弈控制一体化模型如式(1)所示,式(1)为:其中,表示智能体的编号,且,表示智能体的总数量,表示智能体的行为,,表示除智能体以外所有智能体行为构成的向量,表示智能体的速度,表示智能体的期望加速度,表示智能体的收益函数,表示对时间t求导数,表示对时间t求导数。
25.可选地,智能体的行为,对于不同的智能体具有不同的含义,如,若智能体为发电机,行为可以表示为功率;若智能体为机器人,行为可以表示为机器人的位置坐标。
26.可选地,约束条件包括智能体的动力学特征和物理约束,物理约束可以为速度约
束、加速度约束,即,智能体的速度需满足,智能体的期望加速度需满足,其中,表示容许速度上限,且,表示加速度上限,且。
27.可选地,由于每个智能体仅能通过调节自身行为来优化自身的收益函数,使得博弈控制一体化模型表示各智能体之间的竞争关系,因此,博弈控制一体化模型属于博弈问题,而博弈问题存在纳什均衡解,使得,其中,纳什均衡解表明当多智能体的行为达到纳什均衡时,任何智能体单独改变其行为都不会获得更好的收益,表示智能体的行为的纳什均衡解,表示除智能体以外所有智能体行为构成的向量的纳什均衡解。
28.步骤120、基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智能体对应的所述辅助系统的状态,并将所述辅助系统的状态收敛至纳什均衡解。
29.具体地,由于智能体的收益函数中可能包含所有智能体的行为,博弈控制一体化模型需要各智能体之间进行信息交互才能对博弈控制问题进行求解,本发明实施例中,基于约束函数,为每个智能体构建辅助系统,辅助系统用于获取所有智能体对应辅助系统的状态,进一步使智能体的辅助系统的状态收敛至智能体的行为的纳什均衡解,实现博弈控制一体化。
30.可选地,辅助系统的状态如式(2)所示,式(2)为:其中,为参数且,表示所有智能体的行为构成的向量,且,为辅助系统状态构成的向量,表示智能体对应辅助系统的状态,表示收益函数对的偏导数。根据奇异摄动理论可知,在的情况下,可收敛至纳什均衡点,即,智能体的行为,实现博弈控制一体化。
31.步骤130、基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
32.具体地,为加快理论设计到实际应用的迁移速度,本发明实施例中,基于约束条件,为每个智能体构建分布式控制器,控制各智能体的行为满足约束条件,即各智能体的行为收敛至智能体对应的所述辅助系统的状态,进一步收敛至纳什均衡。
33.可选地,图2是本发明提供的多智能体分布式协调控制方法的流程示意图之二,如图2所示,任务目标输入博弈控制一体化模型后,将智能体的行为收敛至纳什均衡,之后通过各分布式控制器输出动力控制指令,并发送至对应的智能体,控制对应智能体的行为满
足博弈控制一体化模型中的约束条件,对应智能体的行为反馈至博弈控制一体化模型,形成闭环,完成后续智能体行为的博弈与控制。
34.可选地,所述获取各所述智能体对应的所述辅助系统的状态,包括:获取第一智能体对应所述辅助系统的状态;基于各所述智能体之间的通信网络拓扑结构,确定与所述第一智能体通信连接的至少一个第二智能体,并基于通信交互,获取所述至少一个第二智能体对应所述辅助系统的状态,各所述第二智能体与所述第一智能体通信连接,所述通信网络拓扑结构是基于图论构建的。
35.具体地,由于智能体的收益函数中可能包含所有智能体的行为,在辅助系统获取所有智能体对应辅助系统的状态时,以第一智能体为例,先获取自身的辅助系统的状态,在其余智能体均与第一智能体通信连接的情况下,采用图论构建各智能体之间的通信网络拓扑结构,通过通信网络拓扑结构确定第二智能体,进一步进行第一智能体与第二智能体之间的通信交互,直接获取其余智能体对应的辅助系统的状态。
36.可选地,辅助系统的状态的获取方法,还包括:基于所述辅助系统,构建分布式观测器,所述分布式观测器用于确定各所述智能体对应所述辅助系统的估计状态,所述估计状态用于表征各所述智能体对应所述辅助系统的状态;基于所述分布式观测器,获取至少一个第三智能体对应所述辅助系统的估计状态,各所述第三智能体与所述第一智能体无通信连接。
37.具体地,在通信网络拓扑结构中存在不与第一智能体通信连接的第三智能体的情况下,为每个智能体的辅助系统构建分布式观测器,通过分布式观测器对第三智能体对应辅助系统的状态进行估计,获取估计状态来表示第三智能体对应辅助系统的状态,结合第一智能体对应辅助系统的状态和第二智能体对应辅助系统的状态,得到所有智能体对应辅助系统的状态。
38.可选地,基于分布式观测器获取的第三智能体对应辅助系统的估计状态如式(3)所示,式(3)为:其中,表示第一智能体对所有第三智能体对应辅助系统的状态向量的估计。
39.可选地,所述确定各所述智能体对应所述辅助系统的估计状态,包括:基于所述通信网络拓扑结构,确定所述第一智能体的邻居集合;基于所述邻居集合,确定所述通信网络拓扑结构的邻接矩阵;基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
40.可选地,所述基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态,包括:基于所述邻居集合和所述邻接矩阵,确定自适应增益,所述自适应增益用于加速
所述分布式观测器收敛;基于所述自适应增益,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
41.具体地,由于第三智能体不与第一智能体通信连接,无法直接通过通信网络拓扑结构直接获取第三智能体对应辅助系统的状态,本发明实施例中,通过构建分布式观测器,对第三智能体对应辅助系统的状态进行估计,第三智能体对应辅助系统的估计状态的获取步骤如下:基于通信网络拓扑结构,确定智能体的邻居集合,并根据邻居集合确定智能体的邻接矩阵,并根据智能体的邻居集合和邻接矩阵,确定自适应增益,进一步确定估计状态,在分布式观测器误差较大的情况下,自适应增益自适应增大,从而加速该分布式观测器的收敛。
42.示例地,图3是本发明提供的通信网络拓扑结构的示例示意图,如图3所示,通信网络拓扑结构包括三个智能体,构成无向图,其中,,表示各智能体组成的智能体集合,,表示边集合,若智能体和智能体通信连接,则为无向图中的一条边,如图3所示,智能体1与智能体2通信连接,智能体2与智能体3通信连接,智能体1不与智能体3通信连接,因此,智能体1作为第一智能体,智能体2作为第二智能体,智能体3作为第三智能体,智能体1和智能体2对应的辅助系统的状态可通过通信交互获得,智能体3的辅助系统的状态可通过智能体1中分布式观测器估计获得。
43.基于上述通信网络拓扑结构,确定智能体的邻居集合为,基于邻居集合,确定邻接矩阵为,其中,若,则;否则,即,若智能体和智能体通信连接,则,否则。
44.可选地,分布式观测器观测如式(4)所示,式(4)为:其中,表示基于邻接矩阵构建的对角矩阵,即,表示智能体的邻居集合,表示智能体对第三智能体对应辅助系统的状态向量的估计,表示自适应增益,且自适应增益如式(5)所示,式(5)为:其中,为标准二范数,为任意参数。
45.可选地,该方法还包括:将各所述智能体对应的所述辅助系统的状态收敛至纳什均衡点。
46.具体地,在辅助系统的状态收敛至纳什均衡点的情况下,对应智能体的行为也收敛至纳什均衡解,收益函数也达到纳什均衡解。
47.可选地,所述基于所述博弈控制一体化模型,确定各所述智能体的分布式控制器,包括:基于所述约束条件,确定各所述分布式控制器的参数取值范围;基于所述参数取值范围,确定各所述分布式控制器的参数值。
48.具体地,在辅助系统可收敛至纳什均衡的情况下,为每个智能体构建分布式控制器,控制智能体的行为满足约束条件,即可完成博弈控制一体化模型的设计,即控制智能体的行为收敛至辅助系统的状态,进一步收敛至纳什均衡。
49.可选地,分布式控制器如式(6)所示,式(6)为:其中,和均表示分布式控制器的参数,且和均大于0,表示速度阻尼,使得智能体的速度收敛至0,表示负反馈,使得收敛至0,进而使得智能体的行为最终收敛至辅助系统的状态,进一步收敛至纳什均衡解。
50.可选地,分布式控制器的参数取值范围的获取方法包括:1)、将智能体的动力学模型进行转换可得式(7),式(7)为:其中,由式(1)可知,,即表示对时间t求导。
51.2)、式(7)对时间t求积分,可得式(8),式(8)为:3)、由于,因此,满足式(9),式(9)为:在的情况下,将代入式(9)中,由于,在满足的条件下,即可满足式(10)中的条件,即满足,式(10)为:4)、此外,由于,分布式控制器的动力学模型可转换为式(11),即式(6)可转换为式(11),式(11)为:
因此,在满足的条件下,即可使智能体的加速度始终满足约束条件。
52.示例地,本发明实施例可应用于电力市场中智能电网的资源分配场景中,发电机的输出功率可表示为,即智能体的行为,则收益函数如式(12)所示,式(12)为:其中,表示发电成本,且,均为发电机相关参数,表示电价,和为市场调节机制中的电价相关参数,由此可见,智能电网的资源分配问题是不同发电机发电量和电价之间的博弈问题,可采用本发明实施例提供的多智能体分布式协调控制方法求解纳什均衡解,即可实现智能电网的资源分配。
53.示例地,本发明实施例还可应用于多机器人编队场景中,机器人的位置坐标可表示为,即智能体的行为,则收益函数如式(13)所示,式(13)为:其中,表示期望队形变量,由于每个机器人仅能通过调节自身位置坐标来优化自己的收益函数,由此可见,式(13)反映出多机器人之间的竞争关系,即存在纳什均衡解为,即可实现多机器人的编队控制。
54.需要说明的是,本发明实施例适用的应用场景不局限于上述两种,还可应用于其他具有博弈问题的场景中。
55.本发明提供的多智能体分布式协调控制方法,通过结合收益函数和约束条件,为智能体构建博弈控制一体化模型,通过引入博弈论思想,丰富设计思路,并通过为每个智能体构建辅助系统,在获取各智能体对应辅助系统的状态后,将状态收敛至纳什均衡解,以实现辅助系统的博弈控制一体化,且仅需修改收益函数即可实现多智能体的控制,可满足多任务的使用需求,提高适用性;此外,结合约束条件为每个智能体构建分布式控制器,可加快理论仿真到实际应用的迁移速度。
56.下面对本发明提供的多智能体分布式协调控制装置进行描述,下文描述的多智能体分布式协调控制装置与上文描述的多智能体分布式协调控制方法可相互对应参照。
57.图4是本发明提供的多智能体分布式协调控制装置的结构示意图,如图4所示,该
多智能体分布式协调控制装置200,包括:模型确定模块201、辅助系统确定模块202和控制器确定模块203,其中:模型确定模块201,用于确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型,是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;辅助系统确定模块202,用于基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智能体对应的所述辅助系统的状态;控制器确定模块203,用于基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
58.本发明提供的多智能体分布式协调控制装置,通过结合收益函数和约束条件,为智能体构建博弈控制一体化模型,通过引入博弈论思想,丰富设计思路,并通过为每个智能体构建辅助系统,在获取各智能体对应辅助系统的状态后,将状态收敛至纳什均衡解,以实现辅助系统的博弈控制一体化,且仅需修改收益函数即可实现多智能体的控制,可满足多任务的使用需求,提高适用性;此外,结合约束条件为每个智能体构建分布式控制器,可加快理论仿真到实际应用的迁移速度。
59.可选地,辅助系统确定模块202,具体用于:所述获取各所述智能体对应的所述辅助系统的状态,包括:获取第一智能体对应所述辅助系统的状态;基于各所述智能体之间的通信网络拓扑结构,确定与所述第一智能体通信连接的至少一个第二智能体,并基于通信交互,获取所述至少一个第二智能体对应所述辅助系统的状态,各所述第二智能体与所述第一智能体通信连接,所述通信网络拓扑结构是基于图论构建的。
60.可选地,辅助系统确定模块202,具体用于:所述获取各所述智能体对应的所述辅助系统的状态,还包括:基于所述辅助系统,构建分布式观测器,所述分布式观测器用于确定各所述智能体对应所述辅助系统的估计状态,所述估计状态用于表征各所述智能体对应所述辅助系统的状态;基于所述分布式观测器,获取至少一个第三智能体对应所述辅助系统的估计状态,各所述第三智能体与所述第一智能体无通信连接。
61.可选地,辅助系统确定模块202,具体用于:所述确定各所述智能体对应所述辅助系统的估计状态,包括:基于所述通信网络拓扑结构,确定所述第一智能体的邻居集合;基于所述邻居集合,确定所述通信网络拓扑结构的邻接矩阵;基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
62.可选地,辅助系统确定模块202,具体用于:所述基于所述邻居集合和所述邻接矩阵,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态,包括:
基于所述邻居集合和所述邻接矩阵,确定自适应增益,所述自适应增益用于加速所述分布式观测器收敛;基于所述自适应增益,确定所述分布式观测器对各所述智能体对应所述辅助系统的估计状态。
63.可选地,辅助系统确定模块202,具体用于:将各所述智能体对应的所述辅助系统的状态收敛至纳什均衡点可选地,控制器确定模块203,具体用于:所述基于所述博弈控制一体化模型,确定各所述智能体的分布式控制器,包括:基于所述约束条件,确定各所述分布式控制器的参数取值范围;基于所述参数取值范围,确定各所述分布式控制器的参数值。
64.图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备300可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行多智能体分布式协调控制方法,该方法包括:确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智能体对应的所述辅助系统的状态;基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
65.此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
66.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的多智能体分布式协调控制方法,该方法包括:确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智能体对应的所述辅助系统的状态;基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述
分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
67.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的多智能体分布式协调控制方法,该方法包括:确定至少两个智能体对应的博弈控制一体化模型,其中,所述博弈控制一体化模型是基于各所述智能体的限定条件构建的,用于表征各所述智能体之间的竞争关系,所述限定条件包括收益函数和约束条件;基于所述博弈控制一体化模型,构建各所述智能体的辅助系统,并获取各所述智能体对应的所述辅助系统的状态;基于所述博弈控制一体化模型,构建各所述智能体的分布式控制器,并基于所述分布式控制器,将所述智能体的行为收敛至所述智能体对应的所述辅助系统的状态。
68.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
69.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
70.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1