一种面向空战一对一博弈对抗的飞行器控制方法及装置

文档序号：35394490发布日期：2023-09-09 15:41阅读：83来源：国知局

本发明涉及人工智能，尤其涉及一种面向空战一对一博弈对抗的飞行器控制方法及装置。

背景技术：

1、空战对抗是现代作战中夺取制空权的主要作战样式，对掌控空中态势发展，达成战术意图具有重要意义。近年来，空战智能体(例如：飞行器)技术虽得到快速发展，但由于军事装备的无人化程度越来越高，导致现有的空战智能体还远无法达到空战对抗的性能要求。此外，空战战术决策是空战过程中的关键核心，又由于空战智能体自主决策能力的不足，对于复杂的空中态势认知能力欠缺，使得该空战智能体在空战对抗中往往只能落入下风，难以达成战术目的。

2、现有的一对一空战对抗方法，整个控制过程较为单一，易导致我方飞行器无法进行自主地智能决策，使得我方飞行器的对抗性能较低。

技术实现思路

1、本发明提供一种面向空战一对一博弈对抗的飞行器控制方法及装置，利用外层策略网络和内层飞行控制器网络，可分别得到较为准确的外层指令和内层动作，然后，基于该外层指令和多个内层动作，可控制第一飞行器对第二飞行器进行有效且准确地对抗，使得该第一飞行器具有较高的自主智能决策能力。

2、本发明提供一种面向空战一对一博弈对抗的飞行器控制方法，包括：

3、获取第一飞行器所在环境对应的外层状态信息，该外层状态信息包括该第一飞行器对应的相关状态信息及第二飞行器相对于该第一飞行器的位置信息；

4、将该外层状态信息输入至外层策略网络中，得到该外层策略网络输出的外层指令，该外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的；

5、将该第一飞行器对应的内层状态信息输入至内层飞行控制器网络，得到该内层飞行控制器网络输出的内层动作，该内层状态信息包括该相关状态信息及该外层指令中的目标控制信号，该内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的；

6、根据该外层指令及多个该内层动作，控制该第一飞行器对抗该第二飞行器。

7、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，该内层飞行控制器网络是基于以下步骤得到的：获取飞行器样本对应的样本外层状态信息及随机外层指令；基于该样本外层状态信息及该随机外层指令，根据待训练内层飞行控制器网络，确定该飞行器样本对应的第一转移历史数据；根据多个该第一转移历史数据，结合内层评价器网络，得到该内层飞行控制器网络；其中，该第一转移历史数据包括根据该待训练内层飞行控制器网络计算得到的历史内层状态、历史内层动作及历史内层奖赏信号。

8、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，根据多个该第一转移历史数据，结合内层评价器网络，得到该内层飞行控制器网络，包括：利用该内层评价器网络，计算得到该飞行器样本对应的内层预估价值；根据多个该第一转移历史数据及该内层预估价值，对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练，得到该内层飞行控制器网络。

9、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，该根据多个该第一转移历史数据及该内层预估价值，对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练，得到该内层飞行控制器网络，包括：获取多个该第一转移历史数据中各该第一转移历史数据对应的历史内层奖赏信号；确定多个该历史内层奖赏信号对应的平均内层奖赏信号；根据该平均内层奖赏信号及该内层预估价值，对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练，得到该内层飞行控制器网络。

10、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，该外层策略网络是基于以下步骤得到的：获取飞行器样本对应的样本内层状态信息及随机外层指令；基于该样本内层状态信息及该随机外层指令，根据该内层飞行控制器网络、待训练外层策略网络及历史策略池，确定该飞行器样本对应的第二转移历史数据；根据多个该第二转移历史数据，结合外层评价器网络，得到该外层策略网络；其中，该第二转移历史数据包括根据该待训练外层策略网络计算得到的历史外层状态、历史外层动作及历史外层奖赏信号。

11、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，该根据多个该第二转移历史数据，结合外层评价器网络，得到该外层策略网络，包括：利用该外层评价器网络，计算得到该飞行器样本对应的外层预估价值；根据多个该第二转移历史数据及该外层预估价值，对该待训练外层策略网络及该外层评价器网络进行联合训练，得到该外层策略网络。

12、根据本发明提供的一种面向空战一对一博弈对抗的飞行器控制方法，该随机外层指令包括随机油门指令及随机目标信号，该随机目标信号包括目标信号稳定角及目标信号变化速率；该油门指令位于[0,1]；该目标信号稳定角位于该飞行器样本对应的俯仰角和滚转角的取值区间内；该目标信号变化速率位于该飞行器样本对应的俯仰角速率和滚转角速率的取值区间内。

13、本发明还提供一种面向空战一对一博弈对抗的飞行器控制装置，包括：

14、获取模块，用于获取第一飞行器所在环境对应的外层状态信息，该外层状态信息包括该第一飞行器对应的相关状态信息及第二飞行器相对于该第一飞行器的位置信息；

15、处理模块，用于将该外层状态信息输入至外层策略网络中，得到该外层策略网络输出的外层指令，该外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的；将该第一飞行器对应的内层状态信息输入至内层飞行控制器网络，得到该内层飞行控制器网络输出的内层动作，该内层状态信息包括该相关状态信息及该外层指令中的目标控制信号，该内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的；根据该外层指令及多个该内层动作，控制该第一飞行器对抗该第二飞行器。

16、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。

17、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。

18、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。

19、本发明提供的面向空战一对一博弈对抗的飞行器控制方法及装置，通过获取第一飞行器所在环境对应的外层状态信息，所述外层状态信息包括所述第一飞行器对应的相关状态信息及第二飞行器相对于所述第一飞行器的位置信息；将所述外层状态信息输入至外层策略网络中，得到所述外层策略网络输出的外层指令，所述外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的；将所述第一飞行器对应的内层状态信息输入至内层飞行控制器网络，得到所述内层飞行控制器网络输出的内层动作，所述内层状态信息包括所述相关状态信息及所述外层指令中的目标控制信号，所述内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的；根据所述外层指令及多个所述内层动作，控制所述第一飞行器对抗所述第二飞行器。该方法利用外层策略网络和内层飞行控制器网络，可分别得到较为准确的外层指令和内层动作，然后，基于该外层指令和多个内层动作，可控制第一飞行器对第二飞行器进行有效且准确地对抗，使得该第一飞行器具有较高的自主智能决策能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱圆恒柴嘉骏赵冬斌
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种具有减震效果的MD鞋底的制作方法
上一篇：一种废水取样留样装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。