面向无人平台指挥控制的策略博弈系统及其应用方法与流程

文档序号：16857410发布日期：2019-02-12 23:29阅读：444来源：国知局

本发明涉及无人平台控制技术，具体涉及一种面向无人平台指挥控制的策略博弈系统及其应用方法。

背景技术：

随着第四次工业革命的到来，将使人类进入无人机时代，对无人机任务规划系统的迫切需求日益增长。无人机可广泛完成军、民应用领域的多种任务，目前已成为各发达国家必争的战略技术高地。确保无人机在复杂环境中有效、可靠执行任务的关键难题之一是无人机的决策技术，这同时是无人机任务规划精确性的基础。

博弈无处不在，每当人们为达成协议或解决冲突而彼此互动时，博弈就发生了。一场博弈需要有两个以上的参与人，每个参与人都对他人的行动做出反应，或者每个参与人会考虑其他人会怎么反应。参与人应当前瞻博弈中将来的行动，然后倒推出当前的最优行动，这是策略的一般原理。

现有博弈着重于研究人机或机器与机器之间的交互，表现为两个参与人有策略的依次轮流行动的博弈，如井字棋、跳棋、国际象棋等。在博弈中，首先根据已知的策略和参与人生成博弈树，然后通过逆推法确定逆推均衡结果以及参与人的均衡策略。一般根据当前参与人选择的策略，计算机自动给出最优的应对策略，保证博弈过程中寻找到最优解。

无人任务规划中要求及时正确的处理无人机在执行任务过程中出现的突发情况，如果能够将策略博弈应用于无人平台指挥控制中，可以帮助规划人员快速进行决策。

技术实现要素：

本发明所要解决的技术问题是：一种面向无人平台指挥控制的策略博弈系统及其应用方法，通过回合制博弈方式帮助规划人员快速进行无人机指挥控制决策。

在策略或人员不固定的情况下用于多人协同博弈操作，提高参与人的主观能动性，适应博弈过程中各种不确定因素。

本发明解决上述技术问题采用的技术方案是：

面向无人平台指挥控制的策略博弈系统,包括无人平台和策略博弈系统，

所述策略博弈系统用于通过回合制博弈方式提取可用的无人机作战策略，进行博弈决策分析，并形成对抗式博弈线；

所述无人平台提供对提取的无人机作战策略的仿真，以及根据对抗式博弈线生成无人机任务规划方案，根据无人机任务规划方案控制无人机执行相应动作指令；

所述策略博弈系统包括web端、后台服务和数据库；所述web端与后台服务之间通过http请求和websocket消息通信机制进行交互；所述后台服务通过消息总线连接无人平台；所述数据库为后台服务提供数据支撑；所述无人平台包括无人飞行器、无线数据传输单元和地面指挥系统；所述地面指挥系统通过无线数据传输单元与无人飞行器之间进行交互。

作为进一步优化，所述地面指挥系统包括：

辅助控制单元、任务规划单元和策略指令解码器；

所述策略指令解码器，用于对策略博弈系统提取的无人机作战策略进行解码分析，提交给任务规划单元；

所述任务规划单元，用于对策略指令解码器提交的解码分析后的无人机作战策略进行无人机仿真，仿真结果提交给策略博弈系统供其进行博弈决策分析，在收到策略博弈系统生成并发送的对抗式博弈线后生成无人机任务规划方案，提交给辅助控制单元；

所述辅助控制单元，用于根据任务规划单元发送的无人机任务规划方案控制无人机执行相应动作指令。

作为进一步优化，所述博弈决策分析包括根据无人平台仿真结果和专家评分结果进行博弈决策。

此外，本发明还提供了上述面向无人平台指挥控制的策略博弈系统的应用方法，其包括以下步骤：

a.博弈初始化；

b.在博弈过程中，博弈方交替出策略，提交给无人机任务规划平台进行仿真；

c.利用仿真结果对博弈方出的策略进行决策分析；

d.根据博弈过程生成博弈线；

e.根据博弈线生成无人机规划方案。

作为进一步优化，步骤a中，所述博弈初始化包括：

准备标准化的无人机作战策略库，根据标准化的策略库创建博弈用的导图文件，所述导图文件以思维导图的形式保存策略，在博弈时可以选择作为本次博弈的策略库，在博弈过程中参与人可以动态的更换文件，以调整博弈过程，增强业务逻辑发生变化时的处理能力；

设置好想定信息，并划分好博弈角色，博弈用户分3种角色：参与者、裁决者、围观者；裁决者整体掌控博弈过程，包括指定谁出牌、裁定当前回合是否有效、为参与人添加策略和决策点；参与人为个体或者团体；在团体中，有一个组长，作为参与者，其他人为组员，作为围观者；组长可指定、收回或切换出策略/策略集权、允许组员加入、退出或踢出组员；组员可申请出牌或释放出策略/策略集权，及申请退出、加入主题；但是组员只有在博弈开始后才允许加入主题；

创建博弈房间，博弈分多方博弈和单人博弈。

作为进一步优化，所述博弈线即博弈树，其中主要包括决策点、回合、策略以及策略集要素；回合表示为博弈树中节点，回合间有先后关系，在树中表现为父子关系；另外决策点也表示成节点，在决策点处表示分支；回合的子节点是策略集，策略集是已出策略的组合，每个回合的策略集表示成一棵树；

整个博弈线的组织形式为树嵌套树形式：

第一层树结构由回合和决策点组成，是博弈线主要结构；

第二层树结构由回合与策略集组成，每个回合下面存在一个或者多个策略集节点，策略集中又包含若干个策略。

作为进一步优化，步骤b中，只有当用户获得博弈控制权时才可出策略；在出策略前，首先需要创建一个策略集，然后在策略集中展示策略，同一个策略集中不允许出现相同策略；博弈控制权可以由裁决者指定到某个参与人，或者依次循环获取；

由决策点产生博弈分支，裁决者添加决策时，允许为主题博弈参与者的各方添加决策点，且可以出多个决策点，裁决者指定为哪方参与者添加决策点时，则出牌控制权相应移交至对应参与者，通过增加决策点后可以在决策点上增加分支。

作为进一步优化，所述博弈方在出策略时，采用策略博弈系统后台的策略应对推荐服务推荐的策略，所述策略应对推荐服务采用关联关系应对推荐算法或者用户偏好推荐算法来推荐策略。

作为进一步优化，所述关联关系应对推荐算法包括：

通过ansj_seg对指定策略中的字符串进行分词；

根据tf-idf算法计算出指定个数的关键字；

针对每个关键字用skip-gram模型进行上下文预测，获取关联关键词组；

由关联关键词组获得关联策略，做为指定策略的应对推荐；

在采用skip-gram模型进行上下文预测时，首先建立策略语料库，然后根据策略语料库中的语料文本建立语料模型，最后根据关键字采用三层神经网络对语料模型进行训练，采用随机梯度上升法对目标函数中所有参数进行更新，使用hierarchicalsoftmax算法对输出层进行归一化优化，从而获得关联关键词组。

作为进一步优化，所述用户偏好推荐算法包括：

首先根据用户对策略的评分和出牌频率收集用户行为数据，并对数据进行归一化预处理，然后使用欧几里德公式计算策略间的相似度，使用k-neighborhoods算法挑选相似邻居集，最后从相似邻居集中获取用户偏好策略，作为推荐策略。

作为进一步优化，步骤c中，利用仿真结果结合裁决者对策略的评分对博弈方出的策略进行决策分析。

本发明的有益效果是：将指挥员战前针对敌方的运筹决策、指挥对抗思维活动，转变为结构化可评估优化的博弈过程，辅助指挥员分析敌方、我方可能采取的策略及带来的影响，最终形成基于对抗思维的博弈线，为作战构想的设计提供依据，主要用于管理作战思路，服务于理解任务阶段。本发明首次把策略博弈系统用于无人平台指挥控制，为无人平台指挥控制时提供了一种新的策略决策选择。

此外，本发明在博弈过程过程中的博弈方出策略时采用关联关系应对推荐或者用户偏好推荐，可以实现应对策略的快速、准确推荐。

附图说明

图1为本发明实施例中的面向无人平台指挥控制的策略博弈系统结构示意图；

图2为本发明实施例中的策略博弈系统的应用方法流程图；

图3为博弈线结构示意图。

具体实施方式

本发明旨在提出一种面向无人平台指挥控制的策略博弈系统及其应用方法，通过回合制博弈方式帮助规划人员快速进行无人机指挥控制决策。在本发明中，通过回合制博弈方式提取可用的无人机作战策略，进行博弈决策分析，并形成对抗式博弈线，然后根据对抗式博弈线生成无人机规划方案，从而根据无人机规划方案对无人机进行指挥控制。

实施例：

如图1所示，本实施例中的面向无人平台指挥控制的策略博弈系统,包括无人平台和策略博弈系统，

所述策略博弈系统用于通过回合制博弈方式提取可用的无人机作战策略，进行博弈决策分析，并形成对抗式博弈线，所述无人平台提供对提取的无人机作战策略的仿真；根据对抗式博弈线生成无人机任务规划方案；根据无人机任务规划方案控制无人机执行相应动作指令；

所述策略博弈系统包括web端、后台服务和数据库；所述web端与后台服务之间通过http请求和websocket消息通信机制进行交互，所述后台服务通过消息总线连接无人平台；所述数据库为后台服务提供数据支撑；所述无人平台包括无人飞行器、无线数据传输单元和地面指挥系统；所述地面指挥系统通过无线数据传输单元与无人飞行器之间进行交互。

具体而言，所述地面指挥系统包括：辅助控制单元、任务规划单元和策略指令解码器；

所述策略指令解码器用于对策略博弈系统提取的无人机作战策略进行解码分析，提交给任务规划单元；

所述任务规划单元用于对策略指令解码器提交的解码分析后的无人机作战策略进行无人机仿真，仿真结果提交给策略博弈系统供其进行博弈决策分析，在收到策略博弈系统生成并发送的对抗式博弈线后生成无人机任务规划方案，提交给辅助控制单元；

所述辅助控制单元用于根据任务规划单元发送的无人机任务规划方案控制无人机执行相应动作指令。

上述系统的应用方法如图2所示，其包括：

1)博弈初始化；

准备好标准化的无人机作战策略库，根据标准化的策略库创建好博弈用的导图文件，导图文件以思维导图的形式保存策略，在博弈时可以选择作为本次博弈的策略库，在博弈过程中参与人可以动态的更换文件，以调整博弈过程，增强业务逻辑发生变化时的处理能力；

设置好想定信息并划分好博弈角色，博弈用户分3种角色：参与者、裁决者、围观者；裁决者整体掌控博弈过程，包括指定谁出牌、当前回合是否有效、为参与人添加策略和决策点；参与人为个体或者团体；在团体中，有一个组长，即参与者，其他人为组员，即围观者；组长可指定、收回、切换出策略/策略集权、允许组员加入、退出或踢出；组员可申请出牌、释放出策略/策略集权，及申请退出、加入主题；但是组员只有在博弈开始后才允许加入主题；

创建博弈房间，博弈分多方和单人博弈。

博弈线约定说明：

博弈线即博弈树，其中主要包括决策点、回合、策略以及策略集要素；回合表示为博弈树中节点，回合间有先后关系，在树中表现为父子关系；另外决策点也表示成节点，在决策点处表示分支；回合的子节点是策略集，策略集是已出策略的组合，每个回合的策略集表示成一棵树；

整个博弈线的组织形式为树嵌套树形式：

第一层树结构由回合和决策点组成，是博弈线主要结构；

第二层树结构由回合与策略集组成，每个回合下面存在一个或者多个策略集节点，策略集中又包含若干个策略。

其它约定：只有裁决者可以创建博弈主题，其可创建多个不同目的的主题供相关人员参与博弈讨论。裁决者创建主题时可限制参与人数、规定博弈规则等。裁决者可以指定博弈参与人的出牌顺序；用户以参与人或旁观者的身份选择一个博弈主题参与博弈，当主题的参与人数达到创建时指定人员数时，则各参与者依次轮流进行策略博弈。

2)博弈方出策略，提交给无人机任务规划平台；

博弈方循环出策略，每循环一轮成为一个回合，出策略时配置好相关的策略数据，完成所策略后单击提交，然后无人机任务规划平台会收到消息在仿真系统中让无人机进行策略动作；只有当用户获得博弈控制权时才可博弈出策略。在出策略前，首先需要创建一个策略集，然后在策略集中展示策略，注意在同一个策略集中不允许出现相同策略。博弈控制权可以由裁决者指定到某参与人，或者依次循环获取；

由决策点产生博弈分支，这与传统的策略博弈中的思想一致。裁决者添加决策时，允许为主题博弈参与者的各方添加决策点，且可以出多个决策点。裁决者指定为哪方参与者添加决策点，则出牌控制权相应移交至对应的人；通过增加决策点后可以在决策点上增加分支。

3)裁决者进行裁决；

裁决者对博弈方出对策略进行裁决，可以评分，裁决有效无效。

4)另一方进行博弈，提交给无人机任务规划平台；

本步骤是另一博弈方的出策略步骤，具体方法与步骤2)一样。

为了提高出策略的效率和准确性，在本发明中，博弈方可以采用策略博弈系统后台的策略应对推荐服务推荐的策略，所述策略应对推荐服务采用关联关系应对推荐算法或者用户偏好推荐算法来推荐策略。

具体而言，所述关联关系应对推荐算法包括：

通过ansj_seg(java中文分词工具)对指定策略中的字符串进行分词；

根据tf-idf(词频-逆文本频率指数)算法计算出指定个数的关键字；

针对每个关键字用skip-gram模型(一种神经网络模型)进行上下文预测，获取关联关键词组；

由关联关键词组获得关联策略，做为指定策略的应对推荐；

在采用skip-gram模型进行上下文预测时，首先建立策略语料库，然后根据策略语料库中的语料文本建立语料模型，最后根据关键字采用三层神经网络对语料模型进行训练，采用随机梯度上升法对目标函数中所有参数进行更新，使用hierarchicalsoftmax(层次归一化指数)算法对输出层进行归一化优化，从而获得关联关键词组。

所述用户偏好推荐算法包括：

首先根据用户对策略的评分和出牌频率收集用户行为数据，并对数据进行归一化预处理，然后使用欧几里德公式计算策略间的相似度，使用k-neighborhoods(k临近)算法挑选相似邻居集，最后从相似邻居集中获取用户偏好策略，作为推荐策略。

5)裁决是否进行下一回合,是则开始新回合，否则继续本回合博弈；

本步骤中，裁决者若裁定当前回合未结束则继续当前回合博弈，若当前回合结束，则进入下一个新的回合。

6)生成博弈线；

博弈线是博弈过程的直观化展示，在web端上单击博弈展开按钮，就可以看到博弈线，如图3所示。

7)根据博弈线生成无人机规划方案。

本步骤中，系统根据博弈线生成无人机规划方案，根据此规划方案可以帮助规划人员快速决策，从而对无人机进行指挥控制。

由此，本发明可以将指挥员战前针对敌方的运筹决策、指挥对抗思维活动，转变为结构化可评估优化的博弈过程，辅助指挥员分析敌方、我方可能采取的策略及带来的影响，最终形成基于对抗思维的博弈线，为作战构想的设计提供依据。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张万鹏;杨震;魏占阳;张煜;刘鸿福;彭颖毅
技术所有人：中国人民解放军国防科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。