本发明涉及多智能体体系决策,尤其涉及一种基于博弈对抗的多智能体中心化策略更新方法及评估系统。
背景技术:
1、多智能体体系在经济、军事等各个领域都有着广泛的应用,且近些年来得到了越来越多的关注和研究。该领域致力于研究多个智能体之间在竞争和合作环境中的交互作用和策略博弈。在这个体系中,智能体相互作用,每个智能体都追求自身的目标,而其行为和决策会受到其他智能体的影响。多智能体体系的博弈对抗性质意味着智能体之间存在着竞争和冲突,通过不同策略的选择,智能体可以试图优化自身的效用函数,同时也需要考虑其他智能体的行为。这种竞争和合作的动态在现实世界的许多领域中都有应用,如金融市场、资源分配、交通流等。在这个领域,研究人员探索各种策略更新模型、博弈均衡、合作与竞争等问题,以促进智能体在对抗环境中的学习和决策能力。
2、基于博弈对抗的多智能体体系致力于探索多个智能体在竞争和合作环境中的策略选择和交互行为。在这个体系中,智能体之间相互影响,每个智能体通过选择不同的策略来追求自己的利益,同时也受到其他智能体策略的影响。这种对抗性的环境引发了策略选择的博弈,智能体需要权衡自身利益和其他智能体的行为,以实现最优决策。基于博弈对抗的多智能体体系涵盖了多个涉及智能体之间竞争和合作关系的研究领域和方法,如多智能体博弈论、进化博弈论、群体行为模拟、多智能体社会网络、对抗式强化学习、群体决策与合作、多智能体竞争与协作、演化博弈动力学、斯塔克伯格安全博弈等等。这些领域和方法都涉及多智能体系统中智能体之间的博弈和决策问题,从而推动了多智能体系统研究的发展。不同领域之间的交叉和融合也为多智能体系统提供了更多的研究和应用机会。
3、多智能体系统的策略更新模型是研究多智能体之间如何调整和改进策略以适应环境变化和对手行为的重要领域。在过去几十年里,关于多智能体策略更新的研究不断深化,涌现出许多创新方法和理论模型。目前常见的一些多智能体系统策略更新模型包括比较更新(comparative updating)、模仿更新(imitative updating)、费米更新(fermiupdating)、莫兰过程(moranprocess)、遗传算法(genetic algorithms)、强化学习(reinforcement learning)、演化博弈(evolutionary game)等。
4、比较更新是常用的描述智能体策略更新规则的随机性过程。在比较更新中,随机选取两个对象a和b,其中一个是另一个的模仿对象。a接受b的策略作为自己的策略的概率为p,p是两个智能体的收益的线性函数,且有:
5、
6、其中ω为选择强度,表示中性漂移的影响,πf和πr分别是两个智能体的收益,δπ是智能体的最大收益差。
7、模仿更新是一种基于模仿他人行为的策略更新方法。在模仿学习中,一个或多个智能体试图通过观察其他智能体或专家的行为来学习策略。它的基本思想是,智能体可以从已有的优秀策略中学习,而不是通过试错和自主探索来获得策略。模仿学习可以分为以下几种类型:行为克隆(behavioral cloning):智能体直接复制专家的行为,尝试学习将观察到的输入映射到输出的映射关系。这种方法的挑战在于,它可能无法应对在训练过程中未见过的情况;逆强化学习(inverse reinforcement learning):逆强化学习通过观察专家的行为,推测出专家所追求的目标和偏好,从而学习到更加通用的策略。这种方法可以适应未知的环境和任务;协同模仿学习(cooperative imitation learning):多个智能体通过模仿彼此的行为来学习合作策略,以实现更好的协同效果。这种方法在多智能体系统中特别有用。
8、费米更新是由比较更新衍生出来的,与比较更新不同之处是该更新规则中通常将p描述成收益的非线性函数,常见的形式为:
9、
10、当选择强度ω<<1,p渐进是收益差πf-πr的线性函数,当ω→∞时,这个过程接近于模仿动态。
11、莫兰过程是由taylor等人在2004年最先引入到博弈论中,并迅速得到研究者们的关注的。学者们从各种角度研究了莫兰过程。莫兰过程分为两个步骤,一个个体使用与它的适应度成比例的概率选取,并产生一个后代,子代继承父代的策略选择;为了保持整个人口数量不变,另一个随机选取的个体将被移除。莫兰过程展示的是一个简单的生死过程,个体的适应度能够被定义成收益的不同形式的函数,普遍的形式为:
12、f=1-ω+ωπ,
13、其中,ω为选择强度,π为当前个体的收益。
14、此外,还有一些近些年来较为广泛使用的策略更新模型,如基于遗传算法的策略更新模型模拟生物进化的过程,通过选择、交叉和变异等操作来优化智能体的策略。这种方法可以在较大的策略空间中寻找更优解。同时,强化学习也是一种常见的策略更新方法,智能体根据环境的反馈来更新策略,以获得更高的累积奖励。在多智能体系统中,可以通过博弈论等方法扩展到多智能体情境。然而强化学习作为一种强大的机器学习方法,也存在一些缺点,比如强化学习通常需要大量的样本来训练智能体,尤其是在复杂的环境中。这使得在实际应用中,特别是在现实世界中的物理环境中,收集足够的样本可能会非常昂贵和耗时。并且强化学习算法通常需要较长的训练时间才能达到良好的性能。训练时间的长短取决于环境复杂性、算法选择和计算资源等因素。此外强化学习算法通常有许多超参数需要调整,如学习率、折扣因子、探索策略等。不同的超参数选择可能会导致算法性能的显著变化,调参可能会很困难。因此在某些特定的场景下,传统的博弈论中的策略更新模型反而能够比强化学习取得更好的效果,并且不需要占用大量的计算资源。为此,我们提出了一种中心化策略更新算法,该中心化策略更新算法可以使得多智能体体系在短时间内进行策略更新并达到不错的评估指标。
15、无论在哪种博弈模型下,对于多智能体博弈策略更新模型以及多智能体决策智能的评估指标的研究都是至关重要的。从多智能体博弈策略更新模型角度来看,多智能体系统中的智能体相互影响,其行为和策略互动产生复杂的结果。博弈策略更新模型可以帮助解析不同智能体之间的策略选择,从而揭示系统的稳定性和均衡情况。同时,通过博弈策略更新模型,可以研究不同智能体之间在资源分配、任务分工等方面的决策优化问题。这有助于实现系统整体性能的提升。并且,多智能体系统中的智能体通常会根据对手的行为进行策略演化。博弈策略更新模型可以帮助研究不同策略更新方法对系统动态的影响。从多智能体决策智能的评估指标来看,多智能体系统的性能不仅仅取决于个体的性能,还与协同合作程度、资源利用效率等因素相关。评估指标可以量化系统整体性能,帮助选择合适的决策策略。不同决策策略对系统结果产生不同影响。评估指标可以帮助分析不同决策对系统效果的影响,从而优化决策策略。通过评估指标,可以了解不同决策策略对资源分配和利用的影响,从而合理规划资源以最大化系统效益。因此,多智能体博弈策略更新模型和多智能体决策智能的评估指标研究在优化多智能体系统性能、预测系统行为以及实现合理的决策策略方面具有重要意义。这些研究帮助我们深入理解多智能体系统的行为模式,为实际应用和决策提供科学依据。
16、多智能体系统决策智能评估标准的研究逐渐受到国内外学者们的关注。研究者们致力于探索多智能体系统的决策机制、协作策略以及性能评估等方面的问题。多智能体系统的能力评估指标涉及多个方面,以反映系统在不同层面上的性能、效率、适应性等特征。目前常用的多智能体系统能力评估指标包括协作效率(collaboration efficiency)、合作稳定性(cooperation stability)、任务分配效果(task allocation effectiveness)、决策质量(decision quality)、冲突解决能力(conflict resolution ability)、适应性(adaptability)、学习能力(learning ability)、效用和收益(utility and gain)、系统稳定性(system stability)、信息共享(information sharing)、环境适应性(environmentadaptability)、时间效率(time efficiency)等,以上的评估指标通常在不同的应用场景中有不同的权重和重要性。并且在某些特定的应用场景下,有些评估指标甚至会失去评估能力,因此针对特定的应用场景,应该制定合理的评估指标来对多智能体体系智能能力进行评估。我们构建了一个完整的多智能体体系智能能力水平评估体系,从多个角度综合考虑评估本发明场景下多智能体系统决策智能能力水平,从而验证前述所提出的策略更新模型相比于传统的策略更新模型的有效性。
技术实现思路
1、本发明提供了一种基于博弈对抗的多智能体中心化策略更新方法及评估系统,能够解决现有技术中现有模型策略更新时间长且更新效果较差的技术问题。
2、根据本发明的一方面,提供了一种基于博弈对抗的多智能体中心化策略更新方法,方法包括:
3、s1,建立我方节点的通信无向图,并为通信无向图中的每个节点分配id及对应的通信端口,id为序列编号,我方节点包括搜索节点、跟踪节点以及火力打击节点;
4、s2,每个节点与其所有邻节点交换id并根据id的大小关系确定每个节点与每个邻节点之间边的方向;
5、s3,根据边的方向将每条边所连接的两个节点划分为传入邻节点和传出邻节点,并根据每个节点与所有邻节点之间边的方向将所有节点划分为源节点、接收节点和内部节点;
6、s4,每个源节点将其id传输给所有的邻节点,每个内部节点均等待接收来自其所有传入邻节点的id,计算这些id中的最小值并将其发送给所有的传出邻节点,每个接收节点接收其所有邻节点的id并计算这些id中的最小值,接收节点向对其发送最小值的邻节点发送yes,向其余邻节点发送no,如果一个内部节点收到的消息全部为yes,则该内部节点向所有向其发送过消息的邻节点发送yes,向所有未向其发送过消息的邻节点发送no,如果一个内部节点收到了一个no,则该内部节点向所有邻节点发送no,源节点等待直到收到所有信息,如果一个源节点收到的信息全是yes,则该源节点保持候选者身份,否则该源节点不再是候选者;
7、s5,当节点向其邻节点发送no时,对应边的方向进行反转;
8、s6,重复s3至s5直至只剩下一个节点为候选者身份,将该候选者身份的节点作为中心节点,其余节点作为非中心节点;
9、s7,每个非中心节点根据中心节点确定各自的前向节点,中心节点基于前向节点得到每个非中心节点向中心节点发送消息的路径;
10、s8,基于我方节点和敌方节点生成空图,根据敌方节点的信息在空图上进行边的连接,并结合我方节点的通信无向图生成跟踪打击图;
11、s9,中心节点基于每个非中心节点向其发送消息的路径、跟踪打击图、跟踪节点和火力打击节点对搜索节点能够覆盖住的敌方节点进行打击链的生成,并基于生成的打击链生成最终拓扑结构。
12、进一步地,根据id的大小关系确定每个节点与每个邻节点之间边的方向包括:
13、比较当前节点与其邻节点的id大小,如果当前节点的id小于邻节点的id,则对应边的方向为当前节点朝向邻节点,如果当前节点的id大于邻节点的id,则对应边的方向为邻节点朝向当前节点。
14、进一步地,根据边的方向将每条边所连接的两个节点划分为传入邻节点和传出邻节点包括:
15、若边的方向为当前节点朝向邻节点,则邻节点为当前节点的传出节点,当前节点为邻节点的传入节点,若边的方向为邻节点朝向当前节点,则当前节点为邻节点的传出节点,邻节点为当前节点的传入节点。
16、进一步地,根据每个节点与所有邻节点之间边的方向将所有节点划分为源节点、接收节点和内部节点包括:
17、如果一个节点与其所有邻节点之间边的方向均为该节点朝向对应邻节点,则该节点为源节点;
18、如果一个节点与其所有邻节点之间边的方向均为对应邻节点朝向该节点,则该节点为接收节点;
19、如果一个节点既非源节点,也非接收节点,则该节点为内部节点。
20、进一步地,建立我方节点的通信无向图,并为通信无向图中的每个节点分配id及对应的通信端口包括:将通信无向图分割为多个子通信无向图,为每个子通信无向图中的每个节点分配id及对应的通信端口。
21、进一步地,中心节点基于每个非中心节点向其发送消息的路径、跟踪打击图、跟踪节点和火力打击节点对搜索节点能够覆盖住的敌方节点进行打击链的生成包括:
22、针对搜索节点能够覆盖住的当前敌方节点,对跟踪节点和火力打击节点进行全排列遍历,遍历能够覆盖当前敌方目标的每一对track—>firing链,然后在跟踪打击图中搜索track—>firing的最短路径,并判断该打击链是否可行,若可行,则在空图中进行节点连接,并继续针对下一个敌方节点进行遍历,若不可行,则对当前敌方节点继续遍历下一对track—>firing打击链。
23、进一步地,方法包括:当无法获取真实的敌方节点的信息时,通过对给定的敌方目标概率分布进行多次采样得出假想的敌方节点的信息,s8包括:
24、根据每次采样得到的假想的敌方节点的信息在空图上进行边的连接,并结合我方节点的通信无向图生成对应的跟踪打击图。
25、进一步地,中心节点基于每个非中心节点向其发送消息的路径、跟踪打击图、跟踪节点和火力打击节点对搜索节点能够覆盖住的敌方节点进行打击链的生成包括:
26、对于每次采样得出的假想的敌方节点的信息,中心节点均基于每个非中心节点向其发送消息的路径、单次采样得到的假想的敌方节点的信息对应的跟踪打击图、跟踪节点和火力打击节点对搜索节点能够覆盖住的敌方节点进行一次打击链的生成。
27、进一步地,基于生成的打击链生成最终拓扑结构包括:
28、分别基于每次采样得出的假想的敌方节点的信息生成的打击链对应生成子拓扑结构;
29、对所有子拓扑结构中节点的连接次数进行统计排序,按照降序依次连接空图中的边,得到最终拓扑结构。
30、根据本发明的另一方面,提供了一种用于评估本发明前述提出的中心化策略更新方法的评估系统,评估系统包括图连通性评估模块、任务匹配度评估模块、击毁率评估模块、任务覆盖度评估模块和弹性抗毁评估模块;
31、图连通性评估模块用于评估中心化策略更新方法更新得到的多智能体拓扑结构的连通能力,任务匹配度评估模块用于评估中心化策略更新方法更新得到的多智能体拓扑结构击毁敌方目标的潜在能力,击毁率评估模块用于评估中心化策略更新方法更新得到的多智能体拓扑结构执行击毁任务的能力,任务覆盖度评估模块用于评估中心化策略更新方法更新得到的多智能体拓扑结构的合理性,弹性抗毁评估模块用于评估中心化策略更新方法更新得到的多智能体拓扑结构的抗打击能力。
32、进一步地,图连通性评估模块用于根据以下公式评估中心化策略更新方法更新得到的多智能体拓扑结构的连通能力:
33、c=w1c1+w2c2,
34、上式中,c表示连通度,c1表示多智能体拓扑结构中的连通分支数量,c2表示多智能体拓扑结构中节点的平均出入度,w1<0,表示连通分支数量的权重系数,w2>0,表示节点平均出入度的权重系数。
35、进一步地,任务匹配度评估模块用于根据以下公式评估中心化策略更新方法更新得到的多智能体拓扑结构击毁敌方目标的潜在能力:
36、k=a1k1+a2k2,
37、
38、上式中,k表示任务匹配度,k1表示敌方目标的平均杀伤链数量,k2表示杀伤链平均长度,a1>0表示敌方目标的平均杀伤链数量的权重系数,a2<0,表示杀伤链平均长度的权重系数,nc表示敌方目标的杀伤链总数,m表示敌方目标数量。
39、进一步地,击毁率评估模块用于根据以下公式评估中心化策略更新方法更新得到的多智能体拓扑结构执行击毁任务的能力:
40、
41、上式中,d表示击毁率,m表示任务结束后多智能体拓扑结构已击毁的敌方目标数量。
42、进一步地,任务覆盖度评估模块用于根据以下公式评估中心化策略更新方法更新得到的多智能体拓扑结构的合理性:
43、
44、上式中,t表示任务覆盖度,表示多智能体拓扑结构能够击毁的敌方目标数量,表示能够监测到的敌方目标数量。
45、进一步地,弹性抗毁评估模块用于根据以下公式评估中心化策略更新方法更新得到的多智能体拓扑结构的抗打击能力:
46、
47、上式中,r表示弹性抗毁度,c、k、d、t依次表示一定比例的节点损毁前多智能体拓扑结构的连通度、任务匹配度、击毁率和任务覆盖度,c'、k'、d'、t'依次表示一定比例的节点损毁后多智能体拓扑结构的连通度、任务匹配度、击毁率和任务覆盖度。
48、应用本发明的技术方案,提供了一种基于博弈对抗的多智能体中心化策略更新方法及评估系统,该方法通过建立我方节点的通信无向图,为通信无向图中每个节点分配id和通信端口,基于节点id选出中心节点,并确定非中心节点与中心节点之间发送消息的路径,能够利用该中心节点来汇总局部信息,从而在短时间内制定更加合理的策略,能够在一定程度上提升多智能体体系决策智能能力水平。