一种基于动态目标分配的深度强化学习队形变换方法及系统

文档序号:29416224发布日期:2022-03-26 13:10阅读:502来源:国知局
一种基于动态目标分配的深度强化学习队形变换方法及系统

1.本发明涉及深度强化学习领域,特别是涉及一种基于动态目标分配的深度强化学习队形变换方法及系统。


背景技术:

2.在实际应用中,多飞行器编队往往因特殊任务需要进行队形的变换。而当前队形变换算法大多应用于无障碍环境中多飞行器编队队形变换,当环境变复杂时,算法避障效率低、迭代时间长且易陷入局部最优解,因此难以应用于复杂障碍环境。
3.深度强化学习算法由于其出色的态势感知能力和强大的决策能力使其常用于解决复杂环境中的智能决策问题。对于多飞行器编队队形变换问题而言,当环境中障碍增多时,其算法优势在于能够迅速根据当前状态进行决策,反应速度快,避碰能力强,灵活性强;当环境中障碍减少时,由于其采用端到端的控制方式,使其机动小,规划的航路更利于跟踪,同时不需要给出队形变换目标点位置,实时性强。
4.因此,在传统ddpg算法基础上,提出基于动态目标分配的多飞行器深度强化学习队形变换算法。


技术实现要素:

5.本发明的目的是提供一种基于动态目标分配的深度强化学习队形变换方法及系统,以解决队形变换过程中由于目标分配随机易产生局部最优航路问题。
6.为实现上述目的,本发明提供了如下方案:
7.一种基于动态目标分配的深度强化学习队形变换方法,所述变换方法包括:
8.s1:确定状态空间、动作空间以及奖励函数;
9.s2:随机初始化在线actor网络q(s,a|θq)的网络参数θ
μ
和在线critic网络μ(s|θ
μ)
的网络参数θq;
10.s3:初始化目标actor网络的网络参数θ
μ

、目标critic网络的网络参数θq′
,并将所述目标actor网络的网络参数和目标critic网络的网络参数复制到所述在线actor网络和目标critic网络的网络参数;
11.s4:初始化经验池和训练环境;
12.s5:判断训练回合数是否达到最大回合数,如果达到,则执行步骤s13,如果未达到,返回上一步骤;
13.s6:各飞行器以某一初始编队队形出发,t0时刻开始变换队形;
14.s7:计算各飞行器最优分配目标点,各飞行器探索动作向目标点飞行,探测器探测周围己方飞行器,如果探测己方飞行器,则执行步骤s8,否则返回上一步骤;
15.s8:根据障碍锥判断飞行器是否需要避障或避碰,如果需要避障或避碰,则执行步骤s9,否则返回步骤s7;
16.s9:计算飞行器需要避障的航向角度,各飞行器选择动作,并进入下一状态;
17.s10:根据所述奖励函数下一状态中计算奖励值;
18.s11:将此时系统状态、动作、奖励值和下一系统状态作为一组元组数据存入经验池;
19.s12:从所述经验池中随机采样批量元组数据,依次更新当前critic网络、当前actor网络、目标critic网络和目标actor网络;
20.s13:判断rs是否为c2+c3,若条件成立,则当前回合结束,转到步骤s5,若条件不成立,则转到步骤s7;
21.s14:训练结束,复杂障碍环境中队形变换完成。
22.可选的,所述状态空间的表达式如下:
[0023][0024]
式中,b
jbk
为由初始队形bj变换至目标队形bk,δdi·
t
、δφi·
t
、δvi·
t
、δψi·
t
的表达式为:
[0025][0026]
其中,di·
t
为t时刻第i架飞行器与当前队形几何中心的距离,di′
为第i架飞行器对应的目标节点与目标队形几何中心的距离,φi·
t
为t时刻第i架飞行器与当前队形几何中心的方位,φi′
为第i架飞行器对应的目标节点与目标队形几何中心的方位,vi·
t
为t时刻第i架飞行器的速度,v
tar
为目标队形的速度,ψi·
t
为t时刻第i架飞行器的航向角,ψ
tar
为目标队形的航向角;
[0027]
所述动作空间的表达式如下:
[0028][0029]
式中,v
max
为飞行器的最大速度,v
min
为飞行器最小速度,为飞行器的最大角速度,分别为飞行器最小角速度,vu、分别为映射到[-1,1]区间内飞行器的速度、角速度,v、为映射前飞行器的速度、角速度;
[0030]
所述奖励函数的表达式如下:
[0031][0032]
式中,r
t
为时间协同奖励,rs为空间协同奖励,r
col
为避碰及避障奖励,r
l
为最小航程奖励,δti为第i架飞行器完成队形变换的时间,ti是第i架飞行器完成队形变换的时刻,t0为编队开始变换队形的时刻,为t时刻第i架飞行器的速度,为t时刻第i架飞行器的航向,v
tar
为目标队形的速度,ψ
tar
为目标队形的航向角,为t时刻第i架飞行器与当前编队几何中心的距离,di为第i架飞行器的目标位置与目标编队几何中心的距离,为t时刻第i架飞行器与当前编队几何中心的方位,φi为第i架飞行器的目标位置与目标编队几何中心的方位,为互惠速度障碍法为第i架飞行器计算的避碰航向,为速度障碍法为第i架飞行器计算的避障航向,p
ti
为第i架飞行器的位置,p
ob
为障碍的位置,c1、c2、c3、c4为常数,ξ1、ξ2、ξ3、ξ4为相应权重系数。
[0033]
可选的,所述计算各飞行器最优分配目标点具体采用以下公式:
[0034][0035][0036]
其中,当待分配目标点的飞行器ui成功匹配到分配到的目标点ti时,则效能函数f
ii
计入目标节点效能和函数,此时对应权重ωi=1,否则ωi=0;
[0037]
效能函数计算公式为:
[0038][0039]
式中,ξ1、ξ2分别为权重系数,δd
ijt
为t时刻第i架飞行器当前位置与分配到的目标点tj之间的距离,δφ
ijt
为t时刻第i架飞行器和当前队形中心点的角度与目标点和目标队形中心点的角度之差,(x
it
,y
it
)为t时刻第i架飞行器的位置,为第i架飞行器分配的目标点tj的位置,(x
mid
,y
mid
)为当前队形的中心点坐标,δφ
tu_mid
为t时刻第i架飞行器和当前队形中心点的角度,δφ
t_mid
为目标点tj和目标队形中心点的角度。
[0040]
可选的,所述计算飞行器需要避障的航向角度具体采用以下公式:
[0041][0042]
其中,α
rvo
为需要避障的航向角度,vu为需要避障的飞行器的速度。
[0043]
可选的,所述各飞行器选择动作具体采用以下公式:
[0044]at
=μ(s
t

μ
)+η
t
[0045]
其中,μ(s
t

μ
)为在线critic网络,η
t
为随机噪声。
[0046]
可选的,更新当前critic网络、当前actor网络具体采用以下公式:
[0047]
在线actor网络更新策略梯度为:
[0048][0049]
式中,n为训练次数、q(s,a|θ
μ
)为在线actor网络、θ
μ
为在线actor网络的参数、μ(s|θ
μ
)为目标actor网络;
[0050]
在线critic网络通过最小化损失函数进行更新,其损失函数为:
[0051][0052]
式中,yi为当前动作的目标值、θq为在线critic网络的参数。
[0053]
其中,
[0054]
yi=ri+γq

(s
i+1


(s
i+1

μ

)|θq′
)
[0055]
式中,μ

(s
i+1

μ

)为目标actor网络、θ
μ

为目标actor网络的参数、θq′
为目标critic网络的参数、γ为折扣因子。
[0056]
可选的,更新目标critic网络和目标actor网络具体包括:
[0057]
采取软更新的方式更新目标网络参数,其目标actor网络、目标critic网络更新方式分别为:
[0058]
θ
μ

=τθ
μ
+(1-τ)θ
μ

[0059]
θq′
=τθq+(1-τ)θq′
[0060]
其中,τ<<1。
[0061]
本发明另外提供一种基于动态目标分配的深度强化学习队形变换系统,其特征在于,所述系统包括:
[0062]
状态空间、动作空间及奖励函数确定模块,用于确定状态空间、动作空间以及奖励函数;
[0063]
第一初始化模块,用于随机初始化在线actor网络q(s,a|θq)的网络参数θ
μ
和在线critic网络μ(s|θ
μ
)的网络参数θq;
[0064]
第二初始化模块,用于初始化目标actor网络的网络参数θ
μ

、目标critic网络的网络参数θq′
,并将所述目标actor网络的网络参数和目标critic网络的网络参数复制到所述在线actor网络和目标critic网络的网络参数;
[0065]
第三初始化模块,用于初始化经验池和训练环境;
[0066]
第一判断模块,用于判断训练回合数是否达到最大回合数,如果达到,则执行第三判断模块,如果未达到,返回上一模块;
[0067]
队形变换模块,用于各飞行器以某一初始编队队形出发,t0时刻开始变换队形;
[0068]
最优分配目标点计算模块,用于计算各飞行器最优分配目标点,各飞行器探索动作向目标点飞行,探测器探测周围己方飞行器,如果探测己方飞行器,则执行第二判断模块,否则返回上一模块;
[0069]
第二判断模块,用于根据障碍锥判断飞行器是否需要避障或避碰,如果需要避障或避碰,则执行步骤航向角度计算模块,否则返回最优分配目标点计算模块;
[0070]
航向角度计算模块,用于计算飞行器需要避障的航向角度,各飞行器选择动作,并进入下一状态;
[0071]
奖励值计算模块,用于根据所述奖励函数下一状态中计算奖励值;
[0072]
存储模块,用于将此时系统状态、动作、奖励值和下一系统状态作为一组元组数据存入经验池;
[0073]
更新模块,用于从所述经验池中随机采样批量元组数据,依次更新当前critic网络、当前actor网络、目标critic网络和目标actor网络;
[0074]
第三判断模块,用于判断rs是否为c2+c3,若条件成立,则当前回合结束,转到第一判断模块,若条件不成立,则转到最优分配目标点计算模块;rs为空间协同奖励,c2,c3为常数;
[0075]
输出模块,训练结束,复杂障碍环境中队形变换完成。
[0076]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0077]
本发明中的上述方法设计动态目标分配算法为各飞行器分配目标队形中与其对应的最优节点,解决了队形变换过程中由于目标分配随机易产生局部最优航路问题;针对传统ddpg算法易产生局部最优路径、难以实现时间协同等问题,将多飞行器编队队形变换的多目标优化问题转化为奖励函数设计问题,设计了一种基于队形变换综合代价约束的奖励函数,使算法规划出的编队航程代价最小。
附图说明
[0078]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0079]
图1为本发明实施例基于动态目标分配的深度强化学习队形变换方法流程图;
[0080]
图2为本发明实施例横向一字队形示意图;
[0081]
图3为本发明实施例纵向一字队形示意图;
[0082]
图4为本发明实施例反向三角形编队示意图;
[0083]
图5为本发明实施例三角形编队示意图;
[0084]
图6为本发明实施例速度障碍法避障原理图;
[0085]
图7为本发明实施例互惠速度障碍法碰撞原理图;
[0086]
图8为本发明实施例基于动态目标分配的深度强化学习队形变换系统结构示意图。
具体实施方式
[0087]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0088]
本发明的目的是提供一种基于动态目标分配的深度强化学习队形变换方法及系统,以解决队形变换过程中由于目标分配随机易产生局部最优航路问题。
[0089]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0090]
本发明中通过该设计动态目标分配算法为各飞行器分配目标队形中与其对应的最优节点,解决了队形变换过程中由于目标分配随机易产生局部最优航路问题。
[0091]
针对传统ddpg算法易产生局部最优路径、难以实现时间协同等问题,将多飞行器编队队形变换的多目标优化问题转化为奖励函数设计问题,本发明设计了一种基于队形变换综合代价约束的奖励函数,使算法规划出的编队航程代价最小,具体方法如下:
[0092]
1、确定运动学模型
[0093]
将队形变换问题中的飞行器看作质点运动模型,使用飞行器的加速度、航向角来控制飞行器的运动过程。飞行器的运动方程可表示为:
[0094][0095]
式中:i=1,2,

,n,n为飞行器的数量,vi表示第i架飞行器在xoy平面内的速度,ψ为飞行器的航向角,a表示飞行器的加速度。考虑到控制输入的饱和约束,飞行器的加速度a和航向角ψ满足以下条件:
[0096][0097]
式中,加速度具体约束参数则取决于飞行器的机型和飞行参数。
[0098]
2、编队队形描述
[0099]
队形描述方法为:
[0100]bi
={(b
mid
,di,φi,v
tar

tar
)|i=1,2,

,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0101]
式中,b
mid
为编队队形几何中心坐标,di为第i架飞行器与编队队形几何中心的距离,φi为第i架飞行器与编队队形几何中心的方位,v
tar
为目标队形的速度,ψ
tar
为目标队形的航向角。
[0102]
3、队形变换代价约束
[0103]
(1)飞行器运动学约束
[0104]
在队形变换整个过程中,飞行器的航向角、航向角速度都必须在一定范围内变化,以满足飞行器的飞行性能约束j
uav
。其约束条件为
[0105][0106]
式中,ψ
min
、ψ
max
分别为飞行器最小、最大航向角;分别为飞行器最小、最大航向角速度。
[0107]
(2)时间协同代价约束
[0108]
多飞行器编队队形变换后,要求各飞行器队形变换的时间相同。因此,编队成员间的时间协同代价可表示为
[0109][0110]
式中,j
t
为时间协同代价函数,δti为第i架飞行器完成队形变换的时间,t0为开始队形变换的时间。
[0111]
(3)空间协同代价约束
[0112]
当飞行器编队在队形变换后形成目标队形时,各飞行器应当在目标队形中相应的目标点上,即各飞行器与当前编队几何中心的距离、方位应当满足目标队形的条件,同时各飞行器的速度、航向应与目标队形的速度航向一致。因此,多飞行器编队队形变换的空间协同代价为:
[0113][0114]
式中,js为空间协同代价函数,δvi·
t
为t时刻第i架飞行器的速度与目标队形速度之差,δψi·
t
为t时刻第i架飞行器的航向与目标队形航向之差,为t时刻第i架飞行器的速度,为t时刻第i架飞行器的航向,v
tar
为目标队形的速度,ψ
tar
为目标队形的航向角,为t时刻第i架飞行器与当前编队几何中心的距离,di为第i架飞行器的目标位置与目标编队几何中心的距离,为t时刻第i架飞行器与当前编队几何中心的方位,φi为第i架飞行器的目标位置与目标编队几何中心的方位。
[0115]
(4)碰撞代价约束
[0116]
第i架飞行器的碰撞代价j
obs,i
分为第i架飞行器静态障碍碰撞代价j
s_obs,i
、动态障碍碰撞代价j
d_obs,i
以及飞行器之间的碰撞代价j
uav,i
。则编队整体碰撞代价约束j
col
为:
[0117][0118]
式中各变量为:
[0119][0120]
其中,为第i架飞行器的第k个航路点与静态障碍中心的距离,r
s_k
为第k个航路点处静态障碍威胁区域的半径,为第i架飞行器的第k个航路点与动态障碍的距离,r
d_k
为第k个航路点处动态障碍威胁圆的半径,d
uav
为飞行器之间距离之和,(x
d_obs
,y
d_obs
)为静态威胁障碍中心的坐标,为第i架飞行器的第k个航路点坐标。
[0121]
(5)最小航程代价约束
[0122]
编队中各飞行器完成队形变换后所用航程应最小,因此,最小航程代价约束为:
[0123][0124]
式中,j
l
为最小航程代价,li为第i架飞行器完成队形变换的航程,为第i架飞行器的第k+1个航路点。
[0125]
(6)队形变换综合代价约束
[0126]
多飞行器队形变换的综合代价描述为
[0127]
j=w1j
t
+w2js+w3j
col
+w4j
l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0128]
式中:w1、w2、w3、w4分别相应权重系数,j
t
为时间协同代价,js为空间协同代价,j
col
为编队整体碰撞代价,j
l
为最小航程代价。
[0129]
4、动态目标分配算法设计
[0130]
多飞行器动态目标分配算法可以用如下模型描述:
[0131]
dta=《b,u,t,f》
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0132]
其中,b为任务队形集合,设定任务队形为b=(b1,b2,b3,b4)。b1表示横向一字形编队,b2表示纵向一字形编队,b3表示反向三角形编队,b4表示三角形编队。u为待分配目标点的飞行器集合,u=(uav1,uav2,

,uavn)。t为当前队形bi下,设定的待分配的目标点集合t=(t1,t2,

,tn)。f为飞行器匹配相应目标点的效能矩阵,形式如下:
[0133][0134]
其中f
ij
表示uavi匹配目标点tj时的相应效能。
[0135]
为了便于描述编队队形内各成员之间的距离,采用(dx,dy)表示两架飞行器之间的相对位置关系,其中dx表示横向距离,dy表示纵向距离。以五架飞行器组成的编队为例设计动态目标分配算法中四种编队队形。
[0136]
(1)横向一字形编队
[0137]
横向一字形编队中,如图2所示,各飞行器横向排列,所以dy=0。dx则根据实际需要进行调整。横向一字形编队主要用于大面积搜索,飞行器数量的增加或间距增加可以扩大搜索范围,提高执行任务的效率。
[0138]
(2)纵向一字形编队
[0139]
纵向一字形编队中,如图3所示,各飞行器纵向排列,所以dx=0。dy则根据实际需要进行调整。纵向一字形编队主要用于编队避障等任务。
[0140]
(3)反向三角形编队
[0141]
反向三角形编队中,如图4所示,任意相邻两飞行器之间横向距离为dx,纵向距离为dy。反向三角形编队主要用于拦截等作战任务。
[0142]
(4)三角形编队
[0143]
三角形编队中,如图5所示,任意相邻两飞行器之间横向距离为dx,纵向距离为dy。三角形编队主要用于突防等作战任务。
[0144]
综上所述,编队队形中各成员与几何中心距离、方位如表1所示。
[0145]
表1编队队形库参数设置
[0146]
[0147][0148]
处于一个编队的飞行器要想实现编队保持,飞行器需要相互之间保持通信。如果飞行器之间无法保持持续的通信,那么可能发生编队散乱甚至碰撞。为实现编队中各成员之间的通信,需要建立通信拓扑结构。
[0149]
在这四种编队队形中,每架飞行器都要与其他编队成员进行通信,从而确定编队几何中心的位置,因此各编队必须采用互联通结构进行通信。基于上述分析,设计编队队形网络拓扑为全连通拓扑结构。
[0150]
在满足飞行器之间不存在目标节点冲突的条件下,为了使目标节点分配方案最优,则应满足所有执行队形变换的飞行器对当前的目标节点效能之和最大,即最优分配方案的表达式描述为:
[0151][0152]
其中,当ui成功匹配到目标点ti时,则效能函数f
ii
计入目标节点效能和函数,此时对应权重ωi=1,否则ωi=0。
[0153]
效能函数计算公式为:
[0154][0155]
式中,ξ1、ξ2分别为权重系数,δd
it
为t时刻第i架飞行器当前位置与分配到的目标点tj之间的距离,δφ
ijt
为t时刻第i架飞行器和当前队形中心点的角度与目标点和目标队形中心点的角度之差,(x
it
,y
it
)为t时刻第i架飞行器的位置,为第i架飞行器分配的目标点tj的位置,(x
mid
,y
mid
)为当前队形的中心点坐标,δφ
tu_mid
为t时刻第i架飞行器和当前队形中心点的角度,δφ
t_mid
为目标点tj和目标队形中心点的角度。
[0156]
图1为本发明实施例基于动态目标分配的深度强化学习队形变换方法流程图,如图1所示所述方法包括:
[0157]
s1:将不确定环境中队形变换问题建模为马尔可夫决策过程,设计状态空间(如式(15))、动作空间(如式(17))、奖励函数(如式(18))。通过求解马尔可夫决策过程得到最优队形变换航路。
[0158]
其中,状态空间如下:
[0159][0160]
式中,b
jbk
为由初始队形bj变换至目标队形bk,δdi·
t
、δφi·
t
、δvi·
t
、δψi·
t
的表达式为:
[0161][0162]
其中,di·
t
为t时刻第i架飞行器与当前队形几何中心的距离,di′
为第i架飞行器对应的目标节点与目标队形几何中心的距离,φi·
t
为t时刻第i架飞行器与当前队形几何中心的方位,φ
′i为第i架飞行器对应的目标节点与目标队形几何中心的方位,vi·
t
为t时刻第i架飞行器的速度,ψi·
t
为t时刻第i架飞行器的航向角。
[0163]
动作空间如下:
[0164][0165]
式中,v
max
、v
min
分别为飞行器最大、最小速度,分别为飞行器最大、最小角速度,vu、分别为映射到[-1,1]区间内飞行器的速度、角速度,v、为映射前飞行器的速度、角速度。
[0166]
奖励函数如下:
[0167][0168]
式中,r
t
为时间协同奖励,rs为空间协同奖励,r
col
为避碰及避障奖励,r
l
为最小航程奖励,δti为第i架飞行器完成队形变换的时间,ti是第i架飞行器完成队形变换的时刻,t0为编队开始变换队形的时刻,为t时刻第i架飞行器的速度,为t时刻第i架飞行器的航向,v
tar
为目标队形的速度,ψ
tar
为目标队形的航向角,为t时刻第i架飞行器与当前编队几何中心的距离,di为第i架飞行器的目标位置与目标编队几何中心的距离,为t时刻第i架飞行器与当前编队几何中心的方位,φi为第i架飞行器的目标位置与目标编队几何中心的方位,为互惠速度障碍法为第i架飞行器计算的避碰航向,为速度障碍法为第i架飞行器计算的避障航向,p
ti
为第i架飞行器的位置,p
ob
为障碍的位置,c1、c2、c3、c4为常数,ξ1、ξ2、ξ3、ξ4为相应权重系数。
[0169]
s2:随机初始化在线actor网络q(s,a|θq)和在线critic网络μ(s|θ
μ
)的网络参数θ
μ
和θq。
[0170]
注:ddpg网络架构由在线actor网络、目标actor网络、在线critic网络、目标critic网络四个网络组成。
[0171]
深度确定性策略梯度算法ddpg四个神经网络更新的方式如下:
[0172]
在线actor网络更新策略梯度为:
[0173][0174]
式中,n为训练次数、q(s,a|θ
μ
)为在线actor网络、θ
μ
为在线actor网络的参数、μ(s|
θ
μ
)为目标actor网络。
[0175]
在线critic网络通过最小化损失函数进行更新,其损失函数为:
[0176][0177]
式中,yi为当前动作的目标值、θq为在线critic网络的参数。
[0178]
其中,
[0179]
yi=ri+γq

(s
i+1


(s
i+1

μ

)|θq′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0180]
式中,μ

(s
i+1

μ

)为目标actor网络、θ
μ

为目标actor网络的参数、θq′
为目标critic网络的参数、γ为折扣因子。
[0181]
ddpg算法采取软更新的方式更新目标网路参数,其目标actor网络、目标critic网络更新方式分别为:
[0182]
θ
μ

=τθ
μ
+(1-τ)θ
μ

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0183]
θq′
=τθq+(1-τ)θq′
[0184]
其中,τ<<1。
[0185]
引入behavior策略,即在线actor网络输出动作时加入随机噪声η
t
,将智能体执行的确定值动作变为随机值动作a
t

[0186]at
=μ(s
t

μ
)+η
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
[0187]
s3:初始化目标网络μ

和θq′
及其权重,并将各目标网络的参数复制到在线网络。
[0188]
s4:初始化经验池,初始化训练环境。
[0189]
s5:判断训练回合数是否达到最大回合数,如果达到,则转到过程13。如果未达到,则转到s5。
[0190]
s6:各飞行器以某一初始编队队形出发,t0时刻开始变换队形。
[0191]
s7:根据式(13)、(14)计算各飞行器最优分配目标点,各飞行器根据式(23)探索动作向目标点飞行,探测器探测周围己方飞行器。如果探测己方飞行器,则转入s8,否则转入s7。
[0192]
s8:根据障碍锥判断飞行器是否需要避障或避碰。如果需要避障或避碰,则转入s9,否则转入s7。
[0193]
避障策略描述如下:
[0194]
如图5所示,当相对速度矢量v
uo
位于δpopul1时,需要在避碰时间ti内增大航向角使得αi>αo;当相对速度矢量v
uo
位于δpopul2时,需要减小航向角使得αi>αo。
[0195]
其中,避碰时间
[0196][0197]
αi与α的关系由式(11)确定。
[0198][0199]
式中,y

和x


[0200]
[0201]
其中,β为动态障碍物航向角。
[0202]
设某一时刻的飞行器航向角为α,在其飞行的下一个采样周期δt内,其可能产生的航向角集合a
α
为a
α
={α|α∈(α+ω
min
*δt,α+ω
max
*δt)},此时基于速度障碍法产生的相对速度矢量集合记为v
uo
。通过速度障碍法计算出动态避碰区域vo后,剔除v
uo
集合中会导致碰撞的相对速度矢量即可得到避障成功的相对矢量速度,再从中选取动作即可完成避碰。
[0203]
避碰策略描述如下:
[0204]
如图6所示,互惠速度障碍锥rvo可由碰撞锥cc平移得到。为了实现避障,需要将uav2的速度向量偏转出互惠速度障碍锥rvo。假设当uav2的速度向量刚好偏转出互惠速度障碍锥rvo时,其对应的转角为α
rvo
,速度向量为则根据图中几何关系可知
[0205][0206]
式中,由向量间运算关系可知
[0207][0208]
式中,||
·
||2表示
·
的二范数,
[0209][0210]
s9:根据式(12)或式(28)计算飞行器需要避障的航向角度,各飞行器根据式(23)选择动作,并进入下一状态。
[0211]
s10:下一系统状态中根据式(18)计算奖励值。
[0212]
s11:将此时系统状态、动作、奖励值和下一系统状态作为一组元组数据存入经验池。
[0213]
s12:从经验池中随机采样批量元组数据,根据式(20)、式(19)、式(22)依次更新当前critic网络、当前actor网络和目标网络。
[0214]
s13:判断rs是否为c2+c3,若条件成立,则当前回合结束,转到s5。若条件不成立,则转到s7。
[0215]
s14:训练结束,复杂障碍环境中队形变换完成。
[0216]
图8为本发明实施例基于动态目标分配的深度强化学习队形变换系统结构示意图,如图8所示,所述系统包括:
[0217]
状态空间、动作空间及奖励函数确定模块201,用于确定状态空间、动作空间以及奖励函数;
[0218]
第一初始化模块202,用于随机初始化在线actor网络q(s,a|θq)的网络参数θ
μ
和在线critic网络μ(s|θ
μ)
的网络参数θq;
[0219]
第二初始化模块203,用于初始化目标actor网络的网络参数θ
μ

、目标critic网络的网络参数θq′
,并将所述目标actor网络的网络参数和目标critic网络的网络参数复制到
所述在线actor网络和目标critic网络的网络参数;
[0220]
第三初始化模块204,用于初始化经验池和训练环境;
[0221]
第一判断模块205,用于判断训练回合数是否达到最大回合数,如果达到,则执行第三判断模块,如果未达到,返回上一模块;
[0222]
队形变换模块206,用于各飞行器以某一初始编队队形出发,t0时刻开始变换队形;
[0223]
最优分配目标点计算模块207,用于计算各飞行器最优分配目标点,各飞行器探索动作向目标点飞行,探测器探测周围己方飞行器,如果探测己方飞行器,则执行第二判断模块,否则返回上一模块;
[0224]
第二判断模块208,用于根据障碍锥判断飞行器是否需要避障或避碰,如果需要避障或避碰,则执行步骤航向角度计算模块,否则返回最优分配目标点计算模块;
[0225]
航向角度计算模块209,用于计算飞行器需要避障的航向角度,各飞行器选择动作,并进入下一状态;
[0226]
奖励值计算模块210,用于根据所述奖励函数下一状态中计算奖励值;
[0227]
存储模块211,用于将此时系统状态、动作、奖励值和下一系统状态作为一组元组数据存入经验池;
[0228]
更新模块212,用于从所述经验池中随机采样批量元组数据,依次更新当前critic网络、当前actor网络、目标critic网络和目标actor网络;
[0229]
第三判断模块213,用于判断rs是否为c2+c3,若条件成立,则当前回合结束,转到第一判断模块,若条件不成立,则转到最优分配目标点计算模块;rs为空间协同奖励,c2,c3为常数;
[0230]
输出模块214,训练结束,复杂障碍环境中队形变换完成。
[0231]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0232]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1