用于无人机编队智能决策的控制方法、系统及存储介质与流程

文档序号:17184409发布日期:2019-03-22 21:13阅读:162来源:国知局
用于无人机编队智能决策的控制方法、系统及存储介质与流程

本发明涉及无人机模拟对抗技术领域,具体地涉及一种用于无人机编队智能决策的控制方法、系统及存储介质。



背景技术:

无人机模拟对抗的数据是空中对抗策略项制定的重要依据之一。在无人机进行模拟对抗时,无人机的控制主要是依据双方无人机的即时态势来计算双方无人机的博弈模型,继而控制两方无人机执行的相应的动作。这种控制方法虽然可以满足小规模(2*2)的无人机编队的对抗条件,但是,在一些大规模无人机群的模拟对抗过程中,现有的算法以及控制方法在处理时,往往会出现模型无法求解或者控制指令生成过慢等问题。



技术实现要素:

本发明实施方式的目的是提供一种用于无人机编队智能决策的控制方法、系统及存储介质,该控制方法、系统及存储介质可以缩短无人机对抗的控制时间,提高无人机对抗的控制效率。

为了实现上述目的,本发明实施方式提供一种用于无人机智能决策的控制方法,所述控制方法可以包括:

分析第一无人机群中的每架第一无人机的第一状态信息和第二无人机群中的每架第二无人机的第二状态信息,计算每架所述第一无人机的行动组合相对于每架所述第二无人机的行动组合的第一优势值,构建第一无人机矩阵;

分析每个所述第二状态信息和每个所述第一状态信息,计算每架所述第二无人机的行动组合相对于每架所述第一无人机的行动组合的第二优势值,构建第二无人机矩阵;

根据所述第一无人机矩阵和所述第二无人机矩阵构建所述第一无人机群和所述第二无人机群的博弈双矩阵;

采用粒子群算法计算所述博弈双矩阵的纳什均衡;

根据计算出的纳什均衡调控所述第一无人机群和第二无人机群进行模拟对抗。

可选地,所述采用粒子群算法计算所述博弈双矩阵的纳什均衡包括:

输入所述博弈双矩阵并初始化所述粒子群算法的各个变量;

根据所述博弈双矩阵的维度生成初始的种群以作为初始的解;

根据所述博弈双矩阵的维度确定适应度函数;

分别计算所述解中的每个粒子的适应度;

确定每个粒子的个体极值和所述种群的全体极值;

计算所述粒子群算法的惯性权重;

根据所述惯性权重更新每个粒子的速度和位置;

分别对所述解中的每个粒子进行处理以使得每个粒子满足归一化条件;

根据处理后的所述解更新个体极值和全体极值;

判断所述全体极值是否在预设的求解精度范围内;

在判断所述全体极值在所述求解精度范围内的情况下,输出所述解;

在判断所述全体极值不在所述求解精度范围内的情况下,再次计算所述粒子群算法的惯性权重并执行所述控制方法的相应步骤,直到判断所述全体极值在所述求解精度范围内。

可选地,所述采用粒子群算法计算所述博弈双矩阵的纳什均衡包括:

输入所述博弈双矩阵并初始化所述粒子群算法的各个变量;

初始化迭代次数;

根据所述博弈双矩阵的维度生成初始的种群以作为初始的解;

根据所述博弈双矩阵的维度确定适应度函数;

分别计算所述解中的每个粒子的适应度;

确定每个粒子的个体极值和所述种群的全体极值;

计算所述粒子群算法的惯性权重;

根据所述惯性权重更新每个粒子的速度和位置;

分别对所述解中的每个粒子进行处理以使得每个粒子的满足归一化条件;

根据处理后的所述解更新个体极值和全体极值;

判断迭代次数是否大于或等于预设的阈值;

在判断所述迭代次数大于或等于预设的阈值的情况下,输出所述解;

在判断所述迭代次数小于预设的阈值的情况下,再次计算所述粒子群算法的惯性权重并执行所述控制方法的相应步骤,直到判断所述迭代次数大于或等于预设的阈值。

可选地,所述分别对所述解中的每个粒子进行处理以使得每个粒子的满足归一化条件进一步包括:

从所述解中随机选取一个未被选取的粒子;

判断选取的粒子是否处于可行空间;

在判断选取的粒子处于可行空间的情况下,再次从所述解中随机选取一个未被选取的粒子直到所述解中不存在未被选取的粒子;

在判断所述选取的粒子并非处于可行空间的情况下,对所述粒子进行归一化操作,并再次从所述解中随机选取一个未被选取的粒子直到所述解中不存在未被选取的粒子。

可选地,所述根据所述博弈双矩阵的维度生成初始的种群以作为初始的解包括:

针对所述第一无人机群和所述第二无人机群的每个策略项,分别从区间(0,1)中随机选取一个随机数以作为每个策略项对应的概率值。

可选地,所述根据所述博弈双矩阵的维度确定适应度函数包括:

根据公式(1)生成所述适应度函数,

其中,p为粒子的适应度;x[i]为所述第一无人机群的第i个策略项;y[j]为所述第二无人机群的第j个策略项;a[i][j]为在所述第一无人机群选择第i个策略项,所述第二无人机群选择第j个策略项的情况下,所述第一无人机群的第一优势值;b[i][j]为在所述第一无人机群选择第i个策略项,所述第二无人机群选择第j个策略项的情况下,所述第二无人机群的第二优势值。

可选地,所述计算所述粒子群算法的惯性权重包括:

根据公式(2)确定所述惯性权重,

其中,ωk为第k次迭代时的所述惯性权重,ωmax为迭代过程中最大的惯性权重,ωmin为迭代过程中最小的惯性权重,k为迭代次数,kmax为最大迭代次数。

可选地,所述根据所述惯性权重更新每个粒子的速度和位置包括:

根据公式(3)和公式(4)更新每个粒子的速度,

其中,为第k+1次迭代时第t个粒子中的一个策略项xm的速度,ωk为所述惯性权重,为第k次迭代时第t个粒子中的一个策略项xm的速度,为所述粒子群算法的学习因子,λ1、λ2为服从(0,1)均匀分布的随机数,pbest(t(m))为第t个粒子迭代到k代为止所能搜索到策略项xm的最优解,为第k次迭代时第t个粒子中的一个策略项xm的的位置矢量,gbest(t(m))为第t个粒子迭代到k代为止所述种群所能搜索到策略项xm的最优解;

其中,为第k+1次迭代时第t个粒子中的一个策略项yn的速度,ωk为所述惯性权重,为第k次迭代时第t个粒子中的一个策略项yn的速度,为所述粒子群算法的学习因子,λ1、λ2为服从(0,1)均匀分布的随机数,pbest(t(n))为第t个粒子迭代到k代为止所能搜索到策略项yn的最优解,为第k次迭代时第t个粒子中的一个策略项yn的的位置矢量,gbest(t(n))为第t个粒子迭代到k代为止所述种群所能搜索到策略项yn的最优解;

根据公式(5)和公式(6)更新每个粒子的位置,

其中,为第k+1次迭代时第t个粒子中的一个策略项xm的位置矢量,为第k次迭代时第t个粒子中的一个策略项的位置矢量xm的位置矢量,为第k+1次迭代时第t个粒子中的一个策略项xm的速度;

其中,为第k+1次迭代时第t个粒子中的一个策略项yn的位置矢量,为第k次迭代时第t个粒子中的一个策略项的位置矢量yn的位置矢量,为第k+1次迭代时第t个粒子中的一个策略项yn的速度。

本发明的另一方面还提供一种用于无人机编队智能决策的控制系统,所述控制系统包括处理器,所述处理器用于执行上述任一所述的控制方法。

本发明的再一方面还提供一种存储介质,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行上述任一所述的控制方法。

通过上述技术方案,本发明提供的用于无人机编队智能决策的控制方法、系统及存储介质,通过建立双方无人机的矩阵模型,并对两个矩阵进行求解,计算出两个矩阵的纳什均衡,从而实现对两方无人机的合理控制,相对于现有技术的控制方法而言,本发明计算出纳什均衡的速度更快,从而提高了双方无人机编队在模拟对抗时的反应时间。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:

图1根据本发明的一个实施方式的用于无人机编队智能决策的控制方法的流程图;

图2是根据本发明的一个实施方式的采用粒子群算法计算博弈双矩阵的纳什均衡的方法的流程图之一;

图3是根据本发明的一个实施方式的对每个粒子进行归一化处理的流程图;以及

图4是根据本发明的一个实施方式的采用粒子群算法计算博弈双矩阵的纳什均衡的方法的流程图之二。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。

在本申请实施方式中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。

另外,若本申请实施方式中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。

如图1所示是根据本发明的一个实施方式的用于对无人机编队智能决策的控制方法的流程图。在图1中,该方法可以包括:

在步骤s100中,分析第一无人机群中的每架第一无人机的第一状态信息和第二无人机群中的每架第二无人机的第二状态信息,计算每架第一无人机的行动组合相对于每架第二无人机的行动组合的第一优势值,构建第一无人机矩阵。其中,每架第一无人机的行动组合可以构成该第一无人机群的多个策略项。在本发明的一个示例中,该第一无人机群可能执行的策略项可以包括m种,该策略项s1的集合可以为s1={s11,s12,…,s1m}。相应的,该第一无人机群选择执行其中的一个策略项的概率的分布可以为σ1={σ11,σ12,…,σ1m}。其中,

在步骤s200中,分析每个第二状态信息和每个第一状态信息,计算每架第二无人机的行动组合相对于每架第一无人机的行动组合的第二优势值,构建第二无人机矩阵。在本发明的一个示例中,该第二无人群可能执行的策略项可以包括n种,该策略项s2的集合可以为s2={s21,s22,…,s2n}。相应的,该第二无人机群执行其中一个策略项的概率的分布可以为σ2={σ21,σ22,…,σ2m}。其中,

以步骤s100和步骤200中示出的示例为例,第一优势值umn表示在第一无人机群选择执行策略项s1m,第二无人机群选择执行策略项s2n的情况下,第一无人机群相对于第二无人机群的取得的优势。相应的,第二优势值vmn表示在第二无人机群选择执行策略项s2n,第一无人机群选择执行策略项s1m的情况下,第二无人机群相对于第一无人机群的取得的优势。因此,在该示例中,计算第一无人机群和第二无人机群的期望收益函数可以采用公式(1)和公式(2)表示,

其中,u为第一无人机群的期望收益值,σ1i为第一无人机群执行策略项s1i的概率,σ2j为第二无人机群执行策略项s2j的概率,uij为在第一无人机群执行策略项s1i,第二无人机群执行策略项s2j的情况下,第一无人机群的第一优势值;

其中,v为第二无人机群的期望收益值,σ1i为第二无人机群执行策略项s1i的概率,σ2j为第二无人机群执行策略项s2j的概率,vij为在第二无人机群执行策略项s2j,第一无人机群执行策略项s1i的情况下,第二无人机群的第二优势值。

在步骤s300中,根据第一无人机矩阵和第二无人机矩阵构建第一无人机群和第二无人机群的博弈双矩阵。在该实施方式中,该步骤可以是例如将第一无人机矩阵中的每个元素与第二个无人机矩阵中的元素一一匹配,从而使得构建的博弈双矩阵包括第一无人机群的每个策略项和第二无人机群的每个策略项的混合项。

在步骤s400中,采用粒子群算法计算博弈双矩阵的纳什均衡。在该实施方式中,计算该博弈双矩阵的方式可以是本领域人员所知的多种方式。在本发明的一个示例中,该粒子群算法可以包括如图2所示的步骤。在图2中,该步骤s400可以包括:

在步骤s401中,输入博弈双矩阵并初始化粒子群算法的各个变量。

在步骤s402中,根据博弈双矩阵的维度生成初始的种群以作为初始解。由于无人机群在对抗的过程中每架无人机的行动组合包括多种,例如俯冲、拉升、转向、发射炮弹等。相应的,由行动组合组成的策略项的数量也会相对庞大。所以,在本发明的该示例中,可以分别对单个策略项随机生成对应的概率的方法来提高粒子群算法对第一无人机群和第二无人机群的策略项集合的覆盖广度,使得粒子群算法最终输出的解能够满足双方无人机模拟对抗的要求。因此,在该示例中,以第一无人机群和第二无人机群的策略项集合均包括3个策略项为例,对集合s1和集合s2中的每个策略项(项)分别产生一个区间(0,1)内的随机数以作为该策略项对应的概率。例如:

σ1={0.1,0.4,0.5};

σ2={0.3,0.1,0.6}。

相应的,该粒子群中的一个粒子则是表示一个策略项s1m和另一个策略项s1n的混合项。

在步骤s403中,根据博弈双矩阵的维度确定适应度函数。在该粒子群算法中,每个粒子均表示博弈模型的一个混合局势(第一无人机群选择执行的策略项和第二无人机群选择执行的策略项的混合项),所有的粒子搜索空间范围即为整个混合局势空间。在粒子群算法的每次迭代过程中,为了检验每次迭代结果与纳什均衡的接近程度,并结合纳什均衡定义的性质以及给出的收益函数,该适应度函数可以是例如公式(3),

其中,p为粒子的适应度;x[i]为第一无人机群的第i个策略项;y[j]为第二无人机群的第j个策略项;a[i][j]为在第一无人机群选择第i个策略项,第二无人机群选择第j个策略项的情况下,第一无人机群的第一优势值;b[i][j]为在第一无人机群选择第i个策略项,第二无人机群选择第j个策略项的情况下,第二无人机群的第二优势值。

在步骤s404中,分别计算解中的每个粒子的适应度。在该实施方式中,计算每个粒子的适应度的方式可以是本领域人员所知的多种方式。在本发明的该示例中,可以采用如公式(3)分别计算每个粒子的适应度。

在步骤s405中,确定每个粒子的个体极值和种群的全体极值。

在步骤s406中,计算粒子群算法的惯性权重。在该实施方式中,计算粒子群算法的方式可以是本领域人员所知的多种方式。但在本发明的该示例中,可以根据公式(4)确定该惯性权重,

其中,ωk为第k次迭代时的惯性权重,ωmax为迭代过程中最大的惯性权重,ωmin为迭代过程中最小的惯性权重,k为迭代次数,kmax为最大迭代次数。

在步骤s407中,根据惯该性权重更新每个粒子的速度和位置。在该实施方式中,更新每个粒子的速度和位置的方式可以是本领域人员所知的多种方式。在本发明的该示例中,可以根据公式(5)和公式(6)更新每个粒子的速度,

其中,为第k+1次迭代时第t个粒子中的一个策略项xm的速度,ωk为所述惯性权重,为第k次迭代时第t个粒子中的一个策略项xm的速度,为所述粒子群算法的学习因子,λ1、λ2为服从(0,1)均匀分布的随机数,pbest(t(m))为第t个粒子迭代到k代为止所能搜索到策略项xm的最优解,为第k次迭代时第t个粒子中的一个策略项xm的的位置矢量,gbest(t(m))为第t个粒子迭代到k代为止所述种群所能搜索到策略项xm的最优解。

其中,为第k+1次迭代时第t个粒子中的一个策略项yn的速度,ωk为所述惯性权重,为第k次迭代时第t个粒子中的一个策略项yn的速度,为所述粒子群算法的学习因子,λ1、λ2为服从(0,1)均匀分布的随机数,pbest(t(n))为第t个粒子迭代到k代为止所能搜索到策略项yn的最优解,为第k次迭代时第t个粒子中的一个策略项yn的的位置矢量,gbest(t(n))为第t个粒子迭代到k代为止所述种群所能搜索到策略项yn的最优解。

根据公式(7)和公式(8)更新每个粒子的位置,

其中,为第k+1次迭代时第t个粒子中的一个策略项xm的位置矢量,为第k次迭代时第t个粒子中的一个策略项的位置矢量xm的位置矢量,为第k+1次迭代时第t个粒子中的一个策略项xm的速度;

其中,为第k+1次迭代时第t个粒子中的一个策略项yn的位置矢量,为第k次迭代时第t个粒子中的一个策略项的位置矢量yn的位置矢量,为第k+1次迭代时第t个粒子中的一个策略项yn的速度。

在步骤s408中,分别对解中的每个粒子进行处理以使得每个粒子满足归一化条件。在该实施方式中,对每个粒子分别进行归一化的方式可以是本领域人员所知的多种方式。在本发明的一个示例中,该方式可以是例如图3中示出的步骤。在图3中,该步骤可以包括:

在步骤s4081中,从解中随机选取一个未被选取的粒子;

在步骤s4082中,判断选取的粒子是否处于可行空间;

在判断选取的粒子处于可行空间(例如每个粒子中的各个策略项的概率值之和是否等于1)的情况下,再次从解中随机选取一个未被选取的粒子直到解中不存在未被选取的粒子;

在步骤s4083中,在判断选取的粒子并非处于可行空间的情况下,对粒子进行归一化操作,并再次从解中随机选取一个未被选取的粒子直到解中不存在未被选取的粒子。

在步骤s409中,根据处理后的解更新个体极值和全体极值。

在步骤s410中,判断全体极值是否在预设的求解精度范围内。在该实施方式中,该求解精度根据实际需要取得的解的要求来确定。至于根据解的要求来确定该求解精度,这对本领域人员应当是可知的。

在步骤s411中,在判断全体极值在求解精度范围内的情况下,输出对应的解。

在判断全体极值不在求解精度范围内的情况下,再次计算粒子群算法的惯性权重并执行控制方法的相应步骤(步骤s406至步骤s410),直到判断全体极值在求解精度范围内。

另外,为了防止求解精度过高而出现的多次计算仍旧无法计算出符合要求的解的问题出现,该步骤s400也可以包括如图4中所示出的步骤。在图4中,该步骤s400可以包括:

在步骤s401中,输入博弈双矩阵并初始化粒子群算法的各个变量;

在步骤s402中,初始化迭代次数;

在步骤s403中,根据博弈双矩阵的维度生成初始的种群以作为初始的解;

在步骤s404中,根据博弈双矩阵的维度确定适应度函数;

在步骤s405中,分别计算解中的每个粒子的适应度;

在步骤s406中,确定每个粒子的个体极值和种群的全体极值;

在步骤s407中,计算粒子群算法的惯性权重;

在步骤s408中,根据惯性权重更新每个粒子的速度和位置;

在步骤s409中,分别对解中的每个粒子进行处理以使得每个粒子的满足归一化条件;

在步骤s410中,根据处理后的解更新个体极值和全体极值;

在步骤s411中,判断迭代次数是否大于或等于预设的阈值。该阈值可以是根据运行该粒子群算法的机器的计算能力来确定,至于如何根据计算能力来确定该阈值的方式,对本领域人员应当是可知的。

在步骤s412中,在判断迭代次数大于或等于预设的阈值的情况下,输出解;

在判断迭代次数小于预设的阈值的情况下,再次计算粒子群算法的惯性权重并执行控制方法的相应步骤,直到判断迭代次数大于或等于预设的阈值。

该图4中示出的步骤通过设置迭代次数阈值的方式来限制粒子群算法的迭代次数,解决了粒子群算法因为求解精度的设置不当而出现的“死循环”的问题。

在步骤s500中,根据计算出的纳什均衡调控第一无人机群和第二无人机群进行模拟对抗。

本发明的另一方面还提供一种用于无人机编队智能决策的控制系统,该控制系统可以包括处理器,处理器用于执行上述任一的控制方法。

在该实施方式中,该处理器可以包括通用处理器、专用处理器、常规处理器、数字信号处理器(dsp)、多个微处理器、与dsp核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(asic)、现场可编程门阵列(fpga)电路、任何其它类型的集成电路(ic)、状态机、系统级芯片(soc)等。

本发明的再一方面还提供一种存储介质,存储介质存储有指令,指令用于被机器读取以使得机器执行上述任一的控制方法。

通过上述技术方案,本发明提供了一种针对大规模无人机编队在模拟对抗时快速计算纳什均衡的方法,从而实现对无人机编队的有效控制,提高了模拟对抗的控制效率。

以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1