本发明涉及一种基于强化学习的某分队数智化建模方法及仿真系统,属于人工智能。
背景技术:
1、当前,作战实验系统主要通过仿真推演手段分析联合作战背景下的作战行动,因而作战实验的效率和效果受到仿真推演系统的制约。传统的体系对抗仿真推演系统中,仿真实体基于有限状态机构建,推演过程中仿真实体按照固定规则采取行动。这导致推演过程中存在战术固定、对抗流程固化、智能化程度低问题,无法展现强对抗、动态变化的战场态势特点。
2、为解决上述技术问题,公开号为cn116227361a的中国发明专利申请公开了一种智能体决策方法及装置,该方法包括:构建智能体决策模型;获取环境态势信息;基于智能体决策模型对环境态势信息进行处理,确定出智能体决策结果;智能体决策结果用于指示智能体的战术动作执行。该发明有利于提升决策灵活度,进而提高智能体战术策略探索能力。
3、公开号为cn115906673a的中国发明专利申请公开了一种作战实体行为模型一体化建模方法及系统,该方法包括:获取当前战场环境态势;应用深度神经网络构建感知行为模型;将当前战场环境态势输入至训练好的感知行为模型得到感知结果;当感知的结果为各规则外战场事件的标签时,确定与所述规则外战场事件对应的未知决策行为模型,将当前战场环境态势输入与所述规则外战场事件对应的训练好的未知决策行为模型,确定作战实体物理行为;当感知的结果为既定规则战场事件的标签时,根据已知决策行为模型,确定作战实体物理行为。该发明能够提高作战实体在复杂战场环境中感知并处理规则外未知事件的能力。
4、但是现有技术中未见根据战场环境中的实时测量数据快速推演作战指标项的报道。
技术实现思路
1、本发明要解决的技术问题在于,针对不确定性战场态势下的智能博弈与决策问题,提出了一种基于强化学习的某分队数智化建模方法及仿真系统, 能够展现强对抗、动态变化的战场态势,且推演作战指标项的速度快,效率高。
2、为实现所述发明目的,本发明一方面提供一种基于强化学习的某分队数智化建模方法,其包括如下步骤:
3、根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
4、通过打击目标选择模块在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
5、通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
6、通过智能体选择模块根据毁伤概率的高低依次选择n个智能体实体,并将所选择的智能体的测量数据组成特征向量提供给图注意力机制模型模块,第n个智能体实体的特征向量为an;
7、通过图注意力机制模型模块根据n个智能体实体的特征向量生成对该打击目标实体的摧毁向量为e={e1t,…,ent,…,ent},其中,图注意力机制模型模块包括n个图注意力机制模型,ent为第n个图注意力机制模型在t时刻输出对打击目标的摧毁向量,n=1,2,…,n;
8、通过bp神经网络根据n个智能体实体的特征向量和摧毁向量e={e1t,…,ent,…,ent}生成t时刻输出的q个指标项。
9、为实现所述发明目的,本发明还提供一种基于强化学习的某分队数智化仿真系统,其特征在于,包括动态知识图谱构建模块和智能决策模块,其中,
10、动态知识图谱构建模块被配置为根据实时测量数据生成包括实体和连接实体之间的边的动态知识图谱,实体包括多个智能体和多个打击目标;
11、智能决策模块包括通过打击目标选择模块、概率神经网络、智能体选择模块、图注意力机制模型模块和bp神经网络模块,其中,
12、打击目标选择模块被配置为在t时刻根据作战任务从动态知识图谱中选择1个打击目标实体;
13、概率神经网络被配置为分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率;
14、智能体选择模块被配置为根据毁伤概率的高低依次选择n个智能体实体,并将所选择的智能体的测量数据组成特征向量并提供给图注意力机制模型模块,第n个智能体实体的特征向量为an;
15、图注意力机制模型模块被配置根据n个智能体实体的特征向量生成对该打击目标实体的摧毁向量为e={e1t,…,ent,…,ent},其中,图注意力机制模型模块包括k个图注意力机制模型,ent为第k个图注意力机制模型在t时刻输出对打击目标的摧毁向量, ,n=1,2,…,n;
16、bp神经网络被配置为根据n个智能体实体的特征向量和摧毁向量e={e1t,…,ent,…,ent}生成t时刻输出的q个指标项。
17、为实现所述发明目的,本发明还提供一种存储装置,其存储有计算机程序代码,其特征在于,所述计算机程序代码能够被处理器调用以执行上述方法。
18、有益效果
19、与现有技术相比,本发明提供基于强化学习的某分队数智化建模方法及仿真系统具有如下有益效果:
20、(1)本发明通过构建构参战的动态知识图谱而达到能够展现强对抗、动态变化的战场态势;
21、(2)本发明通过概率神经网络分别计算与该打击目标相连的智能体实体对该打击目标的毁伤概率,从而可以快速地确定选择哪些智能体对打击目标进行打击;
22、(3)本发明通过图注意力机制模型模块根据所选择的n个智能体实体的特征向量生成对该打击目标实体的摧毁向量,不仅考虑的一个智能体自身对打击目标打击能力,还考虑了其它智能体对本智能体的贡献度,从而使得最终计算的打击目标的指标项更加科学和准确;
23、(4)本发明通过bp神经网络根据智能体的特征向量和摧毁向量生成t时刻输出的q个指标项,推演作战指标项的速度快,效率高。
1.一种基于强化学习的某分队数智化建模方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于强化学习的某分队数智化建模方法,其特征在于,
3.根据权利要求2所述的基于强化学习的某分队数智化建模方法,其特征在于,bp神经网络包括第一输入模块、第一隐含模块和第一输出模块,所述第一输入模块包括n个神经元,第n个神经元t时刻输入的值为:
4.根据权利要求1-3任一项所述的基于强化学习的某分队数智化建模方法,其特征在于,概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块,其中,第二输入模块包括初级输入模块和归一化模块,所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为:
5.一种基于强化学习的某分队数智化仿真系统,其特征在于,包括动态知识图谱构建模块和智能决策模块,其中,
6.根据权利要求5所述的基于强化学习的某分队数智化仿真系统,其特征在于,
7.根据权利要求6所述的基于强化学习的某分队数智化仿真系统,其特征在于,bp神经网络包括第一输入模块、第一隐含模块和第一输出模块,所述第一输入模块包括n个神经元,第n个神经元t时刻输入的值为:
8.根据权利要求5-6任一项所述的基于强化学习的某分队数智化仿真系统,其特征在于,概率神经网络包括第二输入模块、第二隐含模块、求和模块和竞争模块,其中,第二输入模块包括初级输入模块和归一化模块,所述初级输入模块输入第n个智能体实体打击目标实体的特征向量为:
9.一种存储装置,其存储有计算机程序代码,其特征在于,所述计算机程序代码能够被处理器调用以执行权利要求1-4任一项所述的方法。