一种基于深度强化学习的无监督智能作战推演系统的制作方法

文档序号:17445688发布日期:2019-04-17 05:33阅读:630来源:国知局
一种基于深度强化学习的无监督智能作战推演系统的制作方法

本发明属于作战推演技术领域,尤其涉及一种基于深度强化学习的无监督智能作战推演系统。



背景技术:

智能作战是指在信息作战的基础上运用智能武器和手段实现以高效指挥化、打击精确化、操作自动化、行为智能化为主旨的高技术作战形式。从本质上讲,智能作战是人的智能向信息战场和武器系统的辐射和延伸。从作战程序和手段看,智能作战包括智能化的指挥控制战和智能化武器的攻防对抗。智能作战的主要标志是智能化武器群及智能化作战手段的出现。

为解决上述问题,国内外设计了相关基于专家系统的作战推演系统,主要思想是利用专家系统的规则库输出特定态势下的决策,同时仿真敌我双方在场景下的博弈。目前常见的基于专家系统的作战推演系统主要基于专家库或者传统遗传算法等进行决策,通过不断丰富专家库或者新的算法方式提升作战推演系统的智能水平,但提升能力有限。

随着人工智能技术的兴起,可以利用gpu服务器构建深度学习平台,采用深度强化学习算法,通过不断训练和模型迭代提升系统的智能水平,并实现自主学习能力和多智能体之间的协作。

强化学习是人工智能机器学习领域里的一个分支,用于控制一只能够在某个环境下自主行动的智能体,通过和环境之间的互动,包括感知与得到奖励,而不断改进它的行为,而强化学习的目的,就是选择一系列行动来最大化未来的奖励。深度强化学习把神经网络提取复杂高维数据特征的能力融入强化学习,将数据转化到低维特征,便于强化学习处理。众所周知,军事决策是军事领域中最复杂、最具挑战的活动,并由此促进了军事辅助决策支持技术的产生和发展。可以预见,深度强化学习技术的不断进步必将对军事智能辅助决策领域产生深刻而重大的影响。



技术实现要素:

本发明的目的在于提供一种基于深度强化学习的无监督智能作战推演系统,改进传统基于专家库的作战推演系统的算法、引擎和流程,提高智能体的智能水平和学习能力,大幅度提升推演系统的智能水平。

为实现上述目的,本发明所采取的技术方案为:

一种基于深度强化学习的无监督智能作战推演系统,所述基于深度强化学习的无监督智能作战推演系统包括对抗终端、作战仿真引擎、深度强化学习平台以及数据管理平台,所述作战仿真引擎中设置有装备模型库和场景模型库,所述数据管理平台中设置有样本数据库和训练模型库,其中:

所述对抗终端,用于连接所述作战仿真引擎的输入接口;

所述作战仿真引擎,用于根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,完成初始化,所述作战环境包括作战模式、作战单元以及作战场景;

并在作战模式为训练模式时,基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策或多步决策,并更新环境信息;

还用于根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成训练;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件;

所述深度强化学习平台,用于从数据管理平台的训练模型库中导入训练模型,并结合所述作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈;还用于更新作战单元对应的训练模型,并在作战博弈推演结束后输出训练模型至数据管理平台的训练模型库中保存;

所述数据管理平台,用于保存所述深度强化学习平台输出的训练模型以及所述作战仿真引擎输出的样本数据;还用于向所述深度强化学习平台输出训练模型。

作为优选,所述环境信息包括:敌我双方的数量、位置信息、当前状态、相互间距。

作为优选,所述单步决策包含作战单元的一个作战动作;所述多步决策包含作战单元的多个连续作战动作。

作为优选,所述对抗终端作为设备终端,通过所述作战仿真引擎的输入接口向所述作战仿真引擎输入作战环境定义信息。

作为优选,所述作战仿真引擎的作战模式还包括仿真模式,所述仿真模式包括人机对抗和机机对抗;

所述对抗终端,还用于提供三维可视化接口,在仿真模式下可视化呈现所述作战仿真引擎的环境信息;还用于提供对抗操作接口,在人机对抗时通过对抗操作接口人为向所述作战仿真引擎输入作战操作。

作为优选,所述作战模式为机机对抗时,所述基于深度强化学习的无监督智能作战推演系统,执行如下操作:

所述作战仿真引擎,用于接入所述对抗终端的三维可视化接口,并根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,从数据管理平台的训练模型库中导入训练模型,完成初始化;并基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策,并根据单步决策更新环境信息,刷新所述对抗终端的可视化呈现效果;

还用于根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成仿真;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件;

所述深度强化学习平台,用于从数据管理平台的训练模型库中导入训练模型,并结合所述作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈;

所述数据管理平台,用于保存所述作战仿真引擎输出的样本数据;还用于向所述深度强化学习平台和所述作战仿真引擎输出训练模型。

作为优选,所述作战模式为人机对抗时,所述基于深度强化学习的无监督智能作战推演系统,执行如下操作:

所述作战仿真引擎,用于接入所述对抗终端的三维可视化接口和对抗操作接口,并根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,从数据管理平台的训练模型库中导入训练模型,完成初始化;并根据对抗终端的作战操作,基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策,同时接收所述对抗终端输入的作战操作,并根据单步决策和作战操作更新环境信息,刷新所述对抗终端的可视化效果;

还用于根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成仿真;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件;

所述深度强化学习平台,用于从数据管理平台的训练模型库中导入训练模型,并结合所述作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈;

所述数据管理平台,用于保存所述作战仿真引擎输出的样本数据;还用于向所述深度强化学习平台和所述作战仿真引擎输出训练模型。

本发明提出的一种基于深度强化学习的无监督智能作战推演系统,智能作战决策通过深度强化学习平台中的训练模型进行反馈,多智能体之间具备协调和配合能力,大幅提升系统自主学习能力和持续优化能力;对抗终端支持人工操作和机器自主学习操作,可实现人机对抗输出优质训练样本数据;可提供第一视角和全局视角展示,用户通过第一视角和全局视角可直接进行作战场景模拟训练和复盘推演;所有环境配置定义具有通用化特性,且考虑对战双方的战力均衡,使智能化算法有决策选择空间,从而适配多种深度学习算法和装备模型,而且系统中对抗终端数量支持扩展。

附图说明

图1为本发明的基于深度强化学习的无监督智能作战推演系统的一种实施例架构图;

图2为本发明的基于深度强化学习的无监督智能作战推演系统的一种实施例流程框图;

图3为本发明显示空战对抗场景时对抗终端的一种实施例运行效果图;

图4为本发明显示空战对抗场景时对抗终端的一种实施例运行全局态势图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。

如图1所示,本实施例提供一种基于深度强化学习的无监督智能作战推演系统,系统在进行设备部署时采用对抗终端作为智能作战推演系统的显控设备,部署仿真模拟器软件,提供对抗操作接口和三维可视化接口,且系统中对抗终端的数量支持扩展。

采用工作站作为智能作战推演系统的仿真设备,部署作战仿真引擎;采用gpu服务器作为智能作战推演系统的训练设备,部署深度强化学习平台。

采用存储盘阵作为智能作战推演系统的存储设备,部署数据管理平台,且数据管理平台中设有样本数据库和训练模型库,提供训练样本数据导入导出、训练模型管理等功能。

本实施例中的各设备互相之间通过交换网络互联,需要说明的是,各设备互相之间可以采用无线连接、电连接或机械连接。

由图可见,智能作战推演系统中还设置有装备模型库和场景模型库,装备模型库对作战单元创建装备模型,并提供装备模型管理等功能。作战单元包括作战相关元素,例如飞机、雷达、导弹等。场景模型库对场景进行建模,提供场景模型管理等功能。

所述的装备模型库和场景模型库可以与数据管理平台共用一个存储设备,也可以独立设置在存储盘阵中,为作战仿真引擎提供装备模型信息以及场景模型信息,本实施例中,在作战仿真引擎中开辟内存空间,用于设置装备模型库和场景模型库。

其中,工作站的作战仿真引擎设计为一个与算法无关的作战仿真平台,其实现方式为linux或windows平台下运行的软件包,本实施例的实现方式为linux平台下运行的python软件包。作战仿真引擎提供基于深度学习等决策算法接口,并通过该决策算法接口与所述深度强化学习平台建立连接,作战仿真引擎的主要特性是提供:作战环境定义、装备模型库导入、作战的样本数据导入和导出、训练模型库导入、多训练平台决策接入,作战规则定义,推演分析报告等功能。

在智能作战推演中,作战环境的参数配置与算法模型的应用也有紧密联系,如果作战一方在参战单位数量、性能方面都有压倒优势,且作战目标容易达成,那么另一方将完全无法取胜,在这种胜负分明的作战环境下,包括深度强化学习算法在内的智能决策手段很难有发挥空间。因此,需要综合考虑实际需求中的战场状况与仿真环境的构造特征,选取合适的作战环境,使得对战双方的决策均有选择余地,从而让算法决策能够体现价值。

另外,gpu服务器上的深度强化学习平台作为智能作战推演系统的后台训练设备,可以利用深度强化学习算法训练作战单元的智能体模型,还可结合战术训练、对抗考核等实际作战数据(常见的为实际飞行数据)在内的外部样本数据共同强化训练作战单元,输出训练模型至训练模型库。

深度强化学习平台涉及到dqn,ddpg,a3c、ppo等主流强化学习算法。这些算法需进行改造运用到智能作战推演场景,包括将输入和输出定义为仿真环境的状态与控制变量,并根据作战环境的参数配置与胜负条件计算每个状态下的奖励函数,实现算法与仿真环境的对接。本实施例中采用的强化学习算法为dqn。

本实施例根据具体算法在深度强化学习平台进行大量训练测试,验证各种算法及组合的效果并评估。其中算法的核心原理可概括为:用深度神经网络近似价值函数(q函数)或策略函数,通过控制目标智能体的动作与环境互动,改变其状态,并获得奖励,通过奖励更新价值/策略函数的参数,达成训练目的。

基于所述算法的核心原理,推进智能作战推演系统的核心目标:实现算法训练与智能决策。为此,需要对仿真环境的状态变量空间与控制变量空间进行筛选,得到适用于算法输入、输出的状态空间s={s,s2,……,sn}和控制空间c={c1,c2,……,cm}。

当然状态、控制空间的筛选需考虑多方面因素:首先,状态空间能够完整反应战场形势,没有信息丢失,而控制空间需要能够完成作战单元各种行为动作,同时在当前仿真框架中能够实现稳定的基于时间片迭代式控制;其次,在满足上述条件的前提下,状态空间与控制空间的维度需要尽可能精简,使算法训练的计算量控制在计算能力可完成的维度;此外,作战环境的参数配置也会对空间筛选产生影响,如果环境设置在某一方面做出了简化处理,对应的状态与控制参数也可以进行相应的简化。

结合图2所示,对智能作战推演系统中各设备的工作进一步说明:

在智能作战推演系统的设备部署基础下,预先进行装备建模以及作战场景建模,分别保存至装备模型库和场景模型库中,待作战仿真引擎选用。同时,进行作战规则建模,作为作战仿真引擎判断作战当前是否满足胜负平关系或结束条件的依据。

在作战推演开始前,先定义本次作战推演的作战环境,所述作战环境包括作战模式、作战单元以及作战场景,本实施例中采用对抗终端作为设备终端,通过所述作战仿真引擎的输入接口向所述作战仿真引擎输入作战环境定义信息。

进一步地,对抗终端还提供三维可视化接口,在仿真模式下可视化呈现所述作战仿真引擎的环境信息。同时提供对抗操作接口,在人机对抗时通过对抗操作接口人为向所述作战仿真引擎输入作战操作。

需要说明的是,作战环境定义信息不仅限于采用对抗终端输入,还可以通过与作战仿真引擎的输入接口连接的设备终端或者后台服务器输入作战环境定义信息。

本实施例的智能作战推演系统的可选作战模式包括训练模式和仿真模式,且仿真模式包括人机对抗和机机对抗。

s1、当作战模式为训练模式时,基于深度强化学习的无监督智能作战推演系统,执行如下操作:

s11、作战仿真引擎根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,完成初始化。其中,作战环境包括作战模式、作战单元以及作战场景;

同时,深度强化学习平台根据算法配置信息,从数据管理平台的训练模型库中导入训练模型,完成初始化。

s12、作战仿真引擎基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策或多步决策,并更新环境信息。

s13、深度强化学习平台结合作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈。

s14、作战仿真引擎根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成训练;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件。

s15、深度强化学习平台通过大量的作战博弈推演的样本数据,并结合战术训练、对抗考核等实际飞行数据在内的外部样本数据,提升智能决策水平,在训练结束后根据作战单元在本次作战博弈推演中的表现,更新作战单元对应的训练模型,并在作战博弈推演结束后输出训练模型至数据管理平台的训练模型库中保存。

在上述的训练模式中,数据管理平台在深度强化学习平台初始化时向其输出训练模型,并在作战博弈推演结束后保存深度强化学习平台输出的训练模型以及作战仿真引擎输出的样本数据。

需要说明的是,数据管理平台中保存的训练模型在深度强化学习平台中同样有保存,双重存储大大降低了数据丢失率。故在训练模式时,训练模型可以从训练模型库中导入,也可以直接调用保存在深度强化学习平台中的训练模型。

其中,环境信息包括:敌我双方的数量、位置信息、当前状态,以及以作战环境中的一个作战单元为中心作战单元,其余作战单元与所述中心作战单元的作战关系,作战关系例如敌我关系、相对距离、危险程度、是否处于相互作战状态等。

而且为了使训练更加接近真实作战场景,作战仿真引擎在训练模式时执行的可以是基于一个作战动作的单步决策,也可以是基于多个连续作战动作的多步决策(即为基于战术组合动作执行多步决策),从而提高了作战单元的执行的灵活性,对训练模型的训练效果更好,也增加了作战难度,对深度强化学习平台的智能水平有更好的提升效果。

s2、当作战模式为机机对抗时,基于深度强化学习的无监督智能作战推演系统,执行如下操作:

s21、作战仿真引擎接入所述对抗终端的三维可视化接口,并根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,从数据管理平台的训练模型库中导入训练模型,完成初始化;

同时,深度强化学习平台从数据管理平台的训练模型库中导入训练模型,完成初始化。

s22、作战仿真引擎基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策,并根据单步决策更新环境信息,刷新所述对抗终端的可视化呈现效果。

s23、深度强化学习平台结合所述作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈。

s24、作战仿真引擎根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成仿真;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件。

在上述的机机对抗中,数据管理平台向作战仿真引擎和深度强化学习平台输出训练模型,并在作战博弈推演结束后保存作战仿真引擎输出的样本数据。

机机对抗可用于检测深度强化学习平台的智能水平,并通过大量的对抗数据对训练模型作出分析评判。

s3、当作战模式为人机对抗时,所述基于深度强化学习的无监督智能作战推演系统,执行如下操作:

s31、作战仿真引擎接入对抗终端的三维可视化接口和对抗操作接口,并根据设备终端输入的作战环境定义信息,从装备模型库导入与作战环境相关的装备模型,从场景模型库导入与作战环境相关的场景模型,从数据管理平台的训练模型库中导入训练模型,完成初始化;

同时,深度强化学习平台从数据管理平台的训练模型库中导入训练模型,完成初始化。

s32、作战仿真引擎根据对抗终端的作战操作,基于时间片进行敌我双方作战博弈推演,将当前的环境信息发送至所述深度强化学习平台,根据深度强化学习平台输出的动作反馈执行单步决策,同时接收所述对抗终端输入的作战操作,并根据单步决策和作战操作更新环境信息,刷新所述对抗终端的可视化效果。

s33、深度强化学习平台结合作战仿真引擎发送的环境信息,向作战仿真引擎输出动作反馈。

s34、作战仿真引擎根据预定义规则判断当前是否满足胜负平关系或结束条件,若当前满足胜负平关系或结束条件时,输出作战推演分析报告,并将作战过程作为样本数据保存至所述数据管理平台的样本数据库,完成仿真;反之继续进行敌我双方作战博弈推演,直至满足胜负平关系或结束条件。

在上述的人机对抗中,数据管理平台向作战仿真引擎和深度强化学习平台输出训练模型,并在作战博弈推演结束后保存作战仿真引擎输出的样本数据。需要说明的是,在仿真模式时,训练模型从训练模型库同时导入到深度强化学习平台和作战仿真引擎,在深度强化学习平台中作为智能决策基础与环境信息共同协作,在作战仿真引擎中作为与作战单元匹配备用。由上述作战推演过程可见,作战仿真引擎在每次训练或仿真结束后均会输出一份作战推演分析报告,该作战推演分析报告主要实现基于交战推演过程和结果进行胜率统计、装备论证和战法研究等统计分析,便于对本次作战推演过程的了解,以及对此类作战推演长期作战情况的全局观察。

进一步地,在每次训练或仿真结束后输出至数据管理平台中的样本数据,可再次导入作战仿真引擎中,用于回放作战过程。在每次作战推演过程中,作战单元根据深度强化学习平台的智能决策执行单步决策或多步决策,在训练的过程中需将agent(智能体)的行动选择转化为若干个离散的值,作为下一步采取的动作值。以在空战对抗场景为例,采用当前双方的位置、角度、转向角、距离等参数作为神经网络输入,搭建深度神经网络进行训练,输出为下一步动作的概率值,每一步都选择使得概率最大的动作。并对改进的dqn(深度强化学习方法),如prioritizedreplay和duelingnetwork进行验证,最终取得合理的结果,并固化为训练模型。飞机通过大量样本训练,实现空间到达,探测,防御,攻击四个核心能力的组合优化。

智能作战推演系统中的人机对抗加入了人为控制因素,打破了训练模式和机机对抗完全依靠算法的情况,实现人机对抗输出优质训练样本数据,不仅对作战单元的训练模型具有很好的提升效果,且使得训练模型更加接近真实的作战决策。

人机对抗时采用对抗终端作为前端展示和操作模块,以空战对抗场景为例,对抗终端上部署飞行模拟器,由键盘输入控制飞机对象,模拟作战单元进行人机对抗。通过键盘可以控制飞机的飞行速度、方位角等操作。在开始前,用户可以在地图上选择对象的位置,设置对象的初始速度和方位角。键盘输入数据(速度、方位角)转换成经纬度坐标,驱动控制对象位置变化,人为控制飞行动作后,把操作的数据信息上传到服务端,经过后端决策处理后,把我方飞机的运行动作反馈到客户端的数据处理部分,经过数据处理后的我方飞机经纬度坐标,驱动我方飞机的位置信息显示变化,其运行效果如图3所示。

对抗终端同时部署全局态势可视化软件,将敌我双方飞机运行轨迹展示在作战地图中,基于html5、javascript和css等前端网页技术开发,整合gis部分,对页面进行渲染,将地图信息、对象信息及特效进行可视化,其运行全局态势情况如图4所示。

本实施例将深度强化学习应用于空战对抗典型作战场景中,设计实现的作战推演系统可以用于人机对抗试验,实现战术对抗场景模拟,为飞行员开展空战态势感知能力提供训练手段。基于深度强化学习训练模型构建飞行员训练和考核系统,满足飞行员编队作战训练水平提高的培养需求。通过典型空战场景实际训练数据和自我博弈输出,总结提炼代表性战术策略,为后续的实际空中作战提供指导性建议,并为作战使用手册提供必要的素材和培训支撑。同时推演仿真数据可以评估作战装备的情况,优化装备的使用策略,识别发展装备的核心能力要素。

需要说明的是,本实施例的智能作战推演系统也可以扩展至其他作战领域,通过人工智能获得训练模型,进而由具备一定智能水平的训练模型来实现作战单元的自主作战。

在本发明所提供的实施例中,容易理解的是,所揭露的相关系统,可以通过其它的方式实现。例如,所述平台或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到一个系统,或一些特征可以忽略,或不执行。另一点,单元或组件的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得计算机处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1