群体协同决策方法、装置、电子设备及存储介质

文档序号：33481538发布日期：2023-03-15 12:28阅读：来源：国知局

技术特征：
1.一种群体协同决策方法，其特征在于，包括：基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；融合所述观测表征向量及所述交互表征向量，得到环境表征向量；基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，得到最优运行策略，以根据所述最优运行策略完成协同围捕任务。2.根据权利要求1所述的群体协同决策方法，其特征在于，所述基于目标无人机的局部观测信息得到观测表征向量，包括：根据无人机与目标无人机之间的类型关系，将目标无人机的局部观测信息划分为多组观测信息，其中，每一组所述观测信息包括同一种所述类型关系的无人机的速度信息和位置信息；获取每一组所述观测信息对应的观测有向图及观测图注意力网络，通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量，其中，所述其他无人机节点为所述观测有向图中除所述目标无人机节点之外的无人机节点；对多组所述影响关系表征向量进行加权求和，得到观测表征向量。3.根据权利要求2所述的群体协同决策方法，其特征在于，所述观测图注意力网络包括第一编码层、第一注意力层、第一聚集层及全连接网络层；所述通过所述观测图注意力网络提取出所述观测有向图中其他无人机节点对目标无人机节点的影响关系表征向量，包括：将所述观测有向图中各无人机节点的速度信息和位置信息输入所述第一编码层，获取所述第一编码层输出的各所述无人机节点的高维特征向量；基于所述高维特征向量确定各所述无人机节点的键向量、查询向量及值向量；将所述其他无人机节点的键向量及所述目标无人机节点的查询向量的转置输入所述第一注意力层，获取所述第一注意力层输出的各所述其他无人机节点与所述目标无人机节点之间的第一注意力权重；将所有所述其他无人机节点的第一注意力权重及所有所述其他无人机节点的值向量输入所述第一聚集层，获取所述第一聚集层输出的目标向量；将所述目标向量及所述目标无人机节点的高维特征向量输入所述全连接网络层，获取所述全连接网络层输出的所述其他无人机节点对所述目标无人机节点的影响关系表征向量。4.根据权利要求1所述的群体协同决策方法，其特征在于，所述基于所述目标无人机的局部通信信息得到交互表征向量，包括：基于所述目标无人机的局部通信信息得到所述目标无人机的局部通信拓扑图；移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图；
通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量。5.根据权利要求4所述的群体协同决策方法，其特征在于，所述移除所述局部通信拓扑图中目标无人机节点与目标同类无人机节点之间的有向边，生成相关通信拓扑图，包括：将所述局部通信拓扑图中的目标无人机节点的观测表征向量分别与各同类无人机节点的观测表征向量拼接成特征向量；基于所述特征向量确定所述目标无人机节点与各所述同类无人机节点之间的交互关系；移除交互关系为不相关的目标同类无人机节点与所述目标无人机节点之间的有向边。6.根据权利要求4所述的群体协同决策方法，其特征在于，所述通信图注意力网络包括第二编码层、第二注意力层及第二聚集层；所述通过通信图注意力网络提取出所述相关通信拓扑图中的交互表征向量，包括：将所述相关通信拓扑图中各同类无人机节点与目标无人机节点之间传递的局部通信信息输入所述第二编码层，获取所述第二编码层输出的编码后的局部通信信息；将各所述编码后的局部通信信息输入所述第二注意力层，获取所述第二注意力层输出的各所述同类无人机节点与所述目标无人机节点之间的第二注意力权重；将所有所述第二注意力权重及所有所述编码后的局部通信信息输入所述第二聚集层，获取所述第二聚集层输出的交互表征向量。7.根据权利要求1至6任一项所述的群体协同决策方法，其特征在于，所述基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，包括：将所述环境表征向量输入所述目标无人机的策略网络，获取所述策略网络输出的动作值；将所述环境表征向量输入所述目标无人机的值网络，获取所述值网络输出的标量值；基于所述动作值及所述标量值对所述目标无人机的群体协同策略进行更新。8.一种群体协同决策装置，其特征在于，包括：第一表征模块，用于基于目标无人机的局部观测信息得到观测表征向量，其中，所述局部观测信息包括在所述目标无人机的预设可视范围内的无人机的速度信息和位置信息；第二表征模块，用于基于所述目标无人机的局部通信信息得到交互表征向量，其中，所述局部通信信息包括在所述目标无人机的预设通信范围内的同类无人机的观测表征向量，所述同类无人机为与所述目标无人机属于友方关系的无人机；融合模块，用于融合所述观测表征向量及所述交互表征向量，得到环境表征向量；策略模块，用于基于所述环境表征向量对所述目标无人机的群体协同策略进行更新，直至得到最优运行策略，以根据所述最优运行策略完成协同围捕任务。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述群体协同决策方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述群体协同决策方法。

技术总结
本发明提供一种群体协同决策方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：基于目标无人机的局部观测信息得到观测表征向量；基于目标无人机的局部通信信息得到交互表征向量；融合观测表征向量及交互表征向量，得到环境表征向量；基于环境表征向量对目标无人机进行群体协同策略更新，由此通过根据融合后得到的环境表征向量进行群体协同策略进行更新，得到最优运行策略，以根据最优运行策略完成协同围捕任务，实现了有效地处理群体系统中无人机动态多变的局部观测信息和局部通信信息，促进无人机之间合作，提高无人机在动态变化环境下的协同围捕决策能力。人机在动态变化环境下的协同围捕决策能力。人机在动态变化环境下的协同围捕决策能力。

技术研发人员：刘振周志明张天乐易建强
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2023.02.13
技术公布日：2023/3/14

完整全部详细技术资料下载

当前第2页1 2