一种基于博弈论的无人艇集群打击位置的选取方法

文档序号：25657717发布日期：2021-06-29 22:25阅读：815来源：国知局

：
1.本发明涉及无人艇集群对抗领域，尤其涉及一种基于博弈论的无人艇集群打击位置的选取方法。

背景技术：
：
2.博弈论作为一种具有利益冲突的理性决策者在竞争环境下进行决策的理论依据，被广泛地应用在交通、经济和军事等领域。由于其在动力学中的巨大优势，博弈论被广泛应用到实际的控制领域中。随着科技的进步和理论的不断完善，博弈论在军事上的运用的范围越来越广，包括无人机对地攻防对抗、无人艇编队及最优路径规划。
3.纳什均衡作为非合作博弈的重要概念，可以使所有参加者达到一种使得所有参与者达到一种互相牵制的均衡状态的策略。对于有限个静态策略，可以通过遍历的方法寻找纳什均衡点。纳什均衡点的求解可以分为纯策略意义下的纳什均衡求解和混合策略意义下的纳什均衡求解。然而在纯策略意义下，纳什均衡点可能并不存在[1](王成山,吉兴全.输电网投资规划的nash均衡分析(二)——混合策略nash均衡的分析[j].电力系统自动化,2002(20):1
‑
5+65.)。在纯策略纳什均衡不存在的情况下，可以进行混合策略的纳什均衡求解。
[0004]
智能优化算法是作为混合策略意义下进行纳什均衡求解的一种常见手段，如粒子群优化算法[2](jiaye chen,wenzhong guo.“apso
‑
optimizednash equilibrium
‑
basedtask scheduling algorithm for wireless sensor network.”communications in computer andinformation science,401(2013):62
‑
73.)。粒子群优化算法源于对鸟群捕食的行为研究，通过种群中个体之间的协调合作来寻找最优解，作为一种实际有效的智能优化算法，有着广泛地应用
[0005]
在无人艇集群对抗的过程中，无人艇的打击位置选取对于无人艇集群军事作战的最终结果有着至关重要的影响，面对复杂多变的战场形势，决策者需要迅速地做出最有利的作战策略，实时找到明智的决策。因此，把博弈论应用到无人艇的打击位置选取具有很高的研究价值和战略意义。基于博弈论的无人艇的打击位置选取的研究，目前还未见到相关的文献。

技术实现要素：
：
[0006]
针对现有技术的不足，本发明提供一种基于博弈论的无人艇集群打击位置的选取方法。在敌我双方无人艇具有对等的作战能力并且双方掌握对方的无人艇的数量、初始位置的信息情况下，进行关于无人艇集群的打击位置的纳什均衡点求解，从而实时地提供一种理性、有效的决策。
[0007]
本发明针对在完全信息情况下基于博弈论的无人艇集群打击位置的选取方法，包括以下步骤：
[0008]
步骤1：采用栅格化的方法构建敌我双方无人艇集群所处的海域环境，双方掌握对
方的无人艇的数量、初始位置的信息。
[0009]
采用栅格法重构双方无人艇所处的海域环境，建立海域坐标系，设定相邻的两个栅格单元之间的距离为1个单位长度。敌我双方通过雷达、卫星等手段掌握对方的无人艇数量、初始位置的信息。
[0010]
步骤2：通过敌我双方打击的安全打击距离safe_dis、最大打击的范围max_dis、击毁对方无人艇的概率p以及被对方无人艇的击毁的概率q构建双方关于打击位置的收益函数。
[0011]
步骤2
‑
1计算我方无人艇处于第i个区域时击毁敌方无人艇的概率
[0012]
我方无人艇处于第i个区域时击毁敌方无人艇的概率由我方无人艇打击的安全距离、最大的打击范围和与敌方无人艇之间的距离决定。代表击中敌方无人艇的概率，记击中敌方第l艘无人艇的概率为则根据我方无人艇打击的安全距离、最大的打击范围和与敌方无人艇之间的距离进行计算，若敌方无人与我方无人艇的距离小于我方的打击的安全距离，或者超过了我方无人艇打击的最大的范围，则为0。若敌方无人与我方无人艇的距离大于我方的打击的安全距离且没有超过方无人艇打击的最大的范围，则dis(i，l)代表我方的第i个区域与敌方第l艘无人艇之间的距离，safe_dis_a代表我方无人艇的安全打击距离，max_dis_a代表我方无人艇的最大打击的范围。
[0013]
步骤2
‑
2计算敌方无人艇处于第j个区域时击毁我方无人艇的概率
[0014]
敌方无人艇处于第j个区域时击毁我方无人艇的概率由敌方无人艇打击的安全距离、最大的打击范围和与我方无人艇之间的距离决定。代表击中我方无人艇的概率，记击中我方方第k艘无人艇的概率为则根据敌方无人艇打击的安全距离、最大的打击范围和与我方无人艇之间的距离进行计算，若我方无人与敌方无人艇的距离小于敌方的打击的安全距离，或者超过了敌方无人艇打击的最大的范围，则为0。若我方无人与敌方无人艇的距离大于敌方的打击的安全距离且没有超过敌方无人艇打击的最大的范围，则dis(j，k)代表敌方的第j个区域与我方第k艘无人艇之间的距离，safe_dis_b代表敌方无人艇的安全打击距离，max_dis_b代表敌方无人艇的最大打击的范围。
[0015]
步骤2
‑
3计算我方无人艇处于第i个区域时被敌方无人艇击毁的概率3计算我方无人艇处于第i个区域时被敌方无人艇击毁的概率3计算我方无人艇处于第i个区域时被敌方无人艇击毁的概率其中代表我方无人艇处于第i个区域时被敌方第k艘无人艇击毁的概率。
[0016]
步骤2
‑
4设置我方击毁敌方无人艇的概率的权重我方无人艇被敌方击毁的概率的权重率的权重敌方击毁我方无人艇的概率的权重敌方无人艇被我方击毁的概率的权重击毁的概率的权重
[0017]
步骤2
‑
5构造出我方无人艇位于第i个区域的收益函数5构造出我方无人艇位于第i个区域的收益函数5构造出我方无人艇位于第i个区域的收益函数敌方无人艇位于第j个区域的收益函数敌方无人艇位于第j个区域的收益函数
[0018]
步骤3：通过初始位置和收益函数，敌我双方各自生成有限个数的策略,策略的个数为n+1。为我方策略，为敌方策略。
[0019]
局中人包括我方和敌方，分别记作a和b，根据敌方无人艇的初始位置通过计算每个区域的收益函数，得到收益最高的前m
a
个区域，得到一个新的位置矩阵新策略是以作为我方无人艇打击位置,敌方根据我方无人艇的初始位置通过计算每个区域的收益函数，得到收益最高的前m
b
个区域，得到一个新的位置矩阵新策略是以作为敌方无人艇打击位置；我方在通过敌方的新的位置矩阵生成策略敌方在通过我方的新的位置矩阵生成策略依次下去，我方生成个策略，敌方生成个策略。其中是我方以自身的初始位置作为策略，是敌方以自身的初始位置作为策略。
[0020]
步骤4：利用遍历法，在纯策略意义下寻找纳什均衡点。
[0021]
遍历我方和敌方每一种策略，根据纳什均衡的定义，如果存在这样的一个策略对遍历我方和敌方每一种策略，根据纳什均衡的定义，如果存在这样的一个策略对满足若我方采取策略敌方采取以外的策略收益会降低；若敌方采取策略我方采取以外的策略收益会降低，那么则存在纯策略意义下的纳什均衡点，为策略对
[0022]
步骤5：若纯策略意义下的纳什均衡点不存在，则利用粒子群优化算法寻找在混合策略下的纳什均衡点。
[0023]
步骤5
‑
1设定粒子群优化算法的参数和具体表达式。
[0024]
设定粒子群优化算法中的速度的惯性权重最大值α
max
和最小值α
min
，学习率β1与β2，粒子群优化算法的速度和位置更新公式为：
[0025][0026][0027]
其中h代表粒子群种群数量；h代表第h个粒子，h＝1，2，...，h；o代表迭代的次数，
最大迭代次数为o；v
h
(o)代表第h个粒子在第o次迭代时的速度；z
h
(o)代表第h个粒子在第o次迭代时候的位置；α(o)是速度的惯性权重，由最大值α
max
随着迭代次数的增加衰减到最小值α
min
，α(o)＝α
max
‑
o(α
max
‑
α
min
)/o；β1与β2代表学习率，r1)o)与r2(o)代表第o次迭代时候生成的(0，1)区间的随机数；lo
h
代表第h个粒子目前找到的局部最优解,go代表粒子群目前找到的全局最优解。
[0028]
步骤5
‑
2设定粒子群优化关于寻找混合意义下的纳什均衡点。
[0029]
粒子群优化算法的优化的目标函数具体表达式为：
[0030]
g(x，y)＝max{max{g1(x，y)，0}+max{g2(x，y)，0}}
[0031]
其中g1(x，y)和g2(x，y)具体表达式为：
[0032][0033]
其中x＝{x0，x1，...，x
n
}，x
i
代表我方选取策略的概率，y＝{y0，y1，...，y
n
}，y
j
代表敌方选取策略的概率；f
a
代表我方的收益矩阵，f
b
代表敌方的收益矩阵，具体表达式为：为：
[0034][0035]
其中f
a
(i，：)代表f
a
矩阵中第i行元素，f
b
(：，j)代表f
b
矩阵中第j列元素，代表我方采取策略敌方采取策略时，我方每艘无人艇的收益总和。代表我方采取策略敌方采取策略时，敌方每艘无人艇的收益总和。
[0036]
步骤6：根据计算出的纳什均衡点，敌我双方选择各自的打击位置。
附图说明
[0037]
图1是本发明的基于博弈论的无人艇集群打击位置的选取方法具体步骤示意图；
[0038]
图2是本发明的敌我双方策略生成示意图；
[0039]
图3是本发明的敌我双方无人艇在栅格化意义下的移动示意图；
[0040]
图4是本发明仿真模拟海域栅格化以及敌我双方无人艇随机生成的初始位置示意图；
[0041]
图5是本发明仿真模拟敌我双方生成的策略与示意图；
[0042]
图6是本发明仿真模拟敌我双方生成的策略与示意图；
[0043]
图7是本发明仿真模拟粒子群优化算法优化的目标函数的函数值变化示意图；
具体实施方式
[0044]
下面将结合附图就本发明的发明目的、技术方案、发明优点作进一步详细说明。
[0045]
在无人艇集群对抗的过程中，需要迅速地做出最有利的作战策略，在考虑击中对方无人艇的同时也需要考虑不被对方无人艇击中，一旦无人艇的数量较多时，根据传统的理论很难计算出一个最优决策。把博弈论的相关理论引入无人艇集群打击位置的选取，可以迅速、有效地找到一个理性决策，从而提高自身收益。因此，把博弈论应用到无人艇集群打击位置的选取具有很高的研究价值和战略意义。
[0046]
如图1所示，本发明实现一种基于博弈论的无人艇集群打击位置的选取方法，其方法具体如下执行：
[0047]
步骤1：采用栅格化的方法构建敌我双方无人艇集群所处的海域环境，双方掌握对方的无人艇的数量、初始位置的信息。
[0048]
采用栅格法重构双方无人艇所处的海域环境，建立海域坐标系，设定相邻的两个栅格单元之间的距离为1个单位长度。如图2所示，敌我双方无人艇的移动可以看作是关于栅格单元的上下左右移动。
[0049]
步骤2：构建双方关于打击位置的收益函数，收益函数由击毁对方无人艇的概率p以及被对方无人艇的击毁的概率q来决定，击毁对方无人艇的概率p以及被对方无人艇的击毁的概率q来决定。
[0050]
步骤2
‑
1计算我方无人艇处于第i个区域时击毁敌方无人艇的概率
[0051]
我方无人艇处于第i个区域时击毁敌方无人艇的概率由我方无人艇打击的安全距离safe_dis_a、最大的打击范围max_dis_a和与敌方无人艇之间的距离决定。代表击中敌方无人艇的概率，记击中敌方第l艘无人艇的概率为则根据我方无人艇打击的安全距离、最大的打击范围和与敌方无人艇之间的距离进行计算，若敌方无人与我方无人艇的距离小于我方的打击的安全距离，或者超过了我方无人艇打击的最大的范围，则为0。若敌方无人与我方无人艇的距离大于我方的打击的安全距离且没有超过方无人艇打击的最大的范围，则dis(i，l)代表我方的第i个区域与敌方第l艘无人艇之间的距离，safe_dis_a代表我方无人艇的安全打击距离，max_dis_a代表我方无人艇的最大打击的范围。
[0052]
步骤2
‑
2计算敌方无人艇处于第j个区域时击毁我方无人艇的概率
[0053]
敌方无人艇处于第j个区域时击毁我方无人艇的概率由敌方无人艇打击的安全距离safe_dis_b、最大的打击范围max_dis_b和与我方无人艇之间的距离决定。代表击中我方无人艇的概率，记击中我方第k艘无人艇的概率为则则根据敌方无人艇打击的安全距离、最大的打击范围和与我方无人艇之间的距离进行计算，若我方无人与敌方无人艇的距离小于敌方的打击的安全距离，或者超过了敌方无人艇打击的最大的范围，则为0。若我方无人与敌方无人艇的距离大于敌
方的打击的安全距离且没有超过敌方无人艇打击的最大的范围，则方的打击的安全距离且没有超过敌方无人艇打击的最大的范围，则dis(j，k)代表敌方的第j个区域与我方第k艘无人艇之间的距离，safe_dis_b代表敌方无人艇的安全打击距离，max_dis_b代表敌方无人艇的最大打击的范围。
[0054]
步骤2
‑
3计算我方无人艇处于第i个区域时被敌方无人艇击毁的概率3计算我方无人艇处于第i个区域时被敌方无人艇击毁的概率其中代表我方无人艇处于第i个区域时被敌方第k艘无人艇击毁的概率。
[0055]
步骤2
‑
4设置我方击毁敌方无人艇的概率的权重我方无人艇被敌方击毁的概率的权重率的权重敌方击毁我方无人艇的概率的权重敌方无人艇被我方击毁的概率的权重击毁的概率的权重
[0056]
步骤2
‑
5构造出我方无人艇位于第i个区域的收益函数5构造出我方无人艇位于第i个区域的收益函数5构造出我方无人艇位于第i个区域的收益函数敌方无人艇位于第j个区域的收益函数敌方无人艇位于第j个区域的收益函数
[0057]
步骤3：如图3所示，通过初始位置和收益函数，敌我双方各自生成有限个数的策略,策略的个数为n+1。为我方策略，为敌方策略。
[0058]
局中人我方和敌方记作a和b，根据敌方无人艇的初始位置通过计算每个区域的收益函数，得到收益最高的前m
a
个区域，得到一个新的位置矩阵新策略是以作为我方无人艇打击位置,敌方根据我方无人艇的初始位置通过计算每个区域的收益函数，得到收益最高的前m
b
个区域，得到一个新的位置矩阵新策略是以作为敌方无人艇打击位置；我方在通过敌方的新的位置矩阵生成策略敌方在通过我方的新的位置矩阵生成策略依次下去，我方生成个策略，敌方生成个策略，敌方生成个策略。其中是我方以自身的初始位置作为策略，是敌方以自身的初始位置作为策略。
[0059]
步骤4：利用遍历法，在纯策略意义下寻找纳什均衡点。
[0060]
遍历我方和敌方每一种策略，根据纳什均衡的定义，如果存在这样的一个策略对遍历我方和敌方每一种策略，根据纳什均衡的定义，如果存在这样的一个策略对满足若我方采取策略敌方采取以外的策略收益降低；若敌方采取策略我方采取以外的策略收益降低，那么则存在纯策略意义下的纳什均衡点，为策略对
[0061]
步骤5：若纯策略意义下的纳什均衡点不存在，则利用粒子群优化算法寻找在混合策略下的纳什均衡点。
[0062]
步骤5
‑
1设定粒子群优化算法的参数和具体表达式。
[0063]
设定粒子群优化算法中的速度的惯性权重最大值α
max
和最小值α
min
，学习率β1与β2，
粒子群优化算法的速度和位置更新公式为：
[0064][0065][0066]
其中h代表粒子群种群数量；h代表第h个粒子，h＝1，2，...，h；o代表迭代的次数，最大迭代次数为o；v
h
(o)代表第h个粒子在第o次迭代时的速度；z
h
(o)代表第h个粒子在第o次迭代时候的位置；α(o)是速度的惯性权重，由最大值α
max
随着迭代次数的增加衰减到最小值α
min
，α(o)＝α
max
‑
o(α
max
‑
α
min
)/o；β1与β2代表学习率，r1(o)与r2(o)代表第o次迭代时候生成的(0，1)区间的随机数；lo
h
代表第h个粒子目前找到的局部最优解,go代表粒子群目前找到的全局最优解。
[0067]
步骤5
‑
2设定粒子群优化关于寻找混合意义下的纳什均衡点。
[0068]
粒子群优化算法的优化的目标函数具体表达式为：
[0069]
g(x，y)＝max{max{g1(x，y)，0}+max{g2(x，y)，0}}
[0070]
其中g1(x，y)和g2(x，y)具体表达式为：
[0071][0072]
其中x＝{x0，x1，...，x
n
，x
n+1
}，x
i
代表我方选取策略的概率，y＝{y0，y1，...，y
n
，y
n+1
}，y
j
代表敌方选取策略的概率；f
a
代表我方的收益矩阵，f
b
代表敌方的收益矩阵，具体表达式为：
[0073][0074][0075]
其中f
a
(i，：)代表f
a
矩阵中第i行元素，f
b
(：，j)代表f
b
矩阵中第j列元素，代表我方采取策略敌方采取策略时，我方每艘无人艇的收益总和。代表我方采取策略
敌方采取策略时，敌方每艘无人艇的收益总和。
[0076]
步骤6：根据计算出的纳什均衡点，敌我双方选择各自的打击位置。
[0077]
以下是本发明所设计的基于博弈论的无人艇集群打击位置的选取方法模拟仿真验证。
[0078]
假设我方有15艘无人艇，敌方有10艘无人艇，我方无人艇的活动区域横坐标范围为[
‑
8,8]，纵坐标范围为[1,8]；敌方无人艇的活动区域横坐标范围为[
‑
8,8]，纵坐标范围为[
‑
8,
‑
1]；把敌我双方的海域环境栅格化，敌我双方的格子均为112个，初始位置随机生成，如图4所示，我方无人艇用*表示，敌方无人艇用
○
表示。
[0079]
如表1所示，设置我方无人艇打击的安全距离safe_dis_a为3个单元长度；我方无人艇最大的打击范围max_dis_a为20个单元长度；敌方无人艇打击的安全距离safe_dis_b为3个单元长度；敌方无人艇最大的打击范围max_dis_b为20个单元长度；我方击毁敌方无人艇的概率的权重我方无人艇被敌方击毁的概率的权重敌方击毁我方无人艇的概率的权重敌方无人艇被我方击毁的概率的权重
[0080]
表1
[0081][0082]
通过初始位置和收益函数，我方生成3个策略我方生成3个策略策略和策略如图5所示，策略和策略如图6所示。计算出我方收益函数矩阵f
a
与敌方收益函数矩阵f
b
如下所示。
[0083][0084][0085]
纯策略意义下的纳什均衡存在，为
[0086]
设置粒子群优化算法中的速度的惯性权重最大值α
max
＝0.9和最小值α
min
＝0.4，学习率β1＝0.001与β2＝0.001，粒子群种群数量h＝50，最大迭代次数o＝760。
[0087]
粒子群优化算法优化的目标函数的函数值变化如图7所示，其混合意义下的纳什均衡点为我方以0.0005的概率采取策略以0.5773的概率采取策略以0.4222的概率采取策略敌方以0.0008的概率采取策略以0.7046的概率采取策略以0.2945的概率采取策略
[0088]
综合仿真实验，本发明所设计的方案可以满足无人艇集群对抗时关于打击位置的选取要求。
[0089]
本发明涉及一种在完全信息情况下的无人艇对抗博弈方法，在敌我双方无人艇具
有对等的作战能力的前提下，进行关于无人艇集群的打击位置的纳什均衡点求解，包括纯策略的纳什均衡点和混合策略的纳什均衡点的求解。通过求解博弈论中的纳什均衡点，提供一种理性的决策手段，属于无人艇集群对抗领域。
[0090]
以上仅是本发明的优选实施方式，应当指出，以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：符兴全;温广辉;房肖;刘照辉;栾萌
技术所有人：东南大学
我是此专利的发明人

上一篇：危废焚烧配伍方法、装置、存储介质及电子设备与流程
上一篇：鼓风机和呼吸机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。