一种分布式飞行雷达平台的航迹规划方法

文档序号:30072475发布日期:2022-05-18 02:24阅读:114来源:国知局
一种分布式飞行雷达平台的航迹规划方法

1.本发明属于分布式雷达的航迹规划领域,特别涉及一种分布式飞行雷达平台的航迹规划方法。


背景技术:

2.目前,分布式飞行雷达平台大多用于对地海目标进行检测及定位,其主要任务为:以广域复杂地图为背景依靠多平台协同检测及定位,通过离线训练形成智能空间构型,经在线训练得到最优策略(航迹),分布式飞行雷达平台按照策略飞行,实现在地图杂波信息的干扰下对指定任务目标的检测及定位,并飞行至目标位置。
3.现有的针对分布式雷达的航迹规划多为静态或瞬时动态环境下的,即目标的位置较为固定且回波信息不影响雷达的检测位置;其仅通过对接收回波进行滤波提高检测及定位性能,不会考虑航迹对检测及定位性能的影响;目前基于深度强化学习的空间构型优化技术仅针对目标与雷达平台的空间位置关系进行优化,通过训练达到避障及飞行到指定目标位置的效果;两种技术在高动态的复杂地海环境中实现目标的高性能检测及定位都面临很大挑战。现有的基于深度强化学习的空间构型优化技术因为实际应用通常会忽视目标的检测及定位性能,检测性能即在杂波中准确提取目标回波的能力,定位性能即对目标的定位准确度,实际场景中雷达平台与目标的距离远近及位置关系等因素都会影响其检测及定位性能,从而影响构型优化结果,因此构型优化结果无法适用于真实的地图环境。
4.现有的针对分布式飞行雷达平台的航迹规划技术并没有考虑平台与目标之间,因为相对位置时变对检测性能及定位性能的影响;即当平台在不断接近目标的动态过程中,发射及接收到的信号也会随之变化,导致检测及定位性能的变化;因此现有的航迹规划方法在目标及雷达平台位置实时变化的场景中表现不好。


技术实现要素:

5.本发明的目的在于克服现有的航迹规划技术,在目标及雷达平台位置实时变化的场景中很难达到预期的高性能的问题,提供一种分布式飞行雷达平台的航迹规划方法。
6.本发明的第一方面提供一种分布式飞行雷达平台的航迹规划方法,包括如下步骤:
7.s1.获取环境信息以及目标信息,使用目标回波信号模型得到目标回波信号幅度,并将所有环境回波信号叠加得到杂波信号幅度;
8.s2.将目标回波与环境回波叠加得到接收信号回波,计算雷达平台的检测性能;以及,计算雷达平台的几何精度因子并作为雷达平台的定位性能;
9.s3.将所述检测性能与所述定位性能作为maddpg算法的奖励,根据雷达平台的物理特性建立雷达平台飞行轨迹的约束条件;
10.s4.基于所述奖励以及所述约束条件建立maddpg算法,并对所述maddpg算法进行离线训练;
11.s5.将雷达平台的初始位置、目标位置范围输入至训练好的maddpg算法中;训练好的maddpg算法在雷达平台的飞行过程中与环境交互,得到分布式雷达平台的航迹。
12.可以理解的是,雷达平台的物理特性可以包括:雷达平台的加速度、速度、转弯速率、飞行高度等。
13.进一步的是,所述s3中,将所述检测性能与所述定位性能作为maddpg算法的奖励,包括:
14.计算检测权重,将所述检测权重与所述检测性能作为检测奖励r2,r2=w1f1;其中,w1为检测权重,f1为检测性能;
15.计算定位权重,将所述定位权重与所述定位性能作为定位奖励r3,r3=w2f2;其中,w2为定位权重,f2为定位性能。
16.进一步的是,使用指数递减惯性权重算法得到定位权重以及检测权重。
17.进一步的是,所述定位权重w2的计算方法如下:
[0018][0019]
其中,f1为检测性能,f
1max
为训练中检测性能能达到的最大值;
[0020]
检测权重w1的计算方法为:
[0021]
w1=1-w2。
[0022]
进一步的是,在所述s3中,将所述检测性能与所述定位性能作为maddpg算法的奖励,
[0023]
还包括:设置行动奖励、目标奖励与碰撞奖励;
[0024]
一种分布式飞行雷达平台的航迹规划方法
[0025]
技术领域
[0026]
本发明属于分布式雷达的航迹规划领域,特别涉及一种分布式飞行雷达平台的航迹规划方法。
[0027]
背景技术
[0028]
目前,分布式飞行雷达平台大多用于对地海目标进行检测及定位,其主要任务为:以广域复杂地图为背景依靠多平台协同检测及定位,通过离线训练形成智能空间构型,经在线训练得到最优策略(航迹),分布式飞行雷达平台按照策略飞行,实现在地图杂波信息的干扰下对指定任务目标的检测及定位,并飞行至目标位置。
[0029]
现有的针对分布式雷达的航迹规划多为静态或瞬时动态环境下的,即目标的位置较为固定且回波信息不影响雷达的检测位置;其仅通过对接收回波进行滤波提高检测及定位性能,不会考虑航迹对检测及定位性能的影响;目前基于深度强化学习的空间构型优化技术仅针对目标与雷达平台的空间位置关系进行优化,通过训练达到避障及飞行到指定目标位置的效果;两种技术在高动态的复杂地海环境中实现目标的高性能检测及定位都面临很大挑战。现有的基于深度强化学习的空间构型优化技术因为实际应用通常会忽视目标的检测及定位性能,检测性能即在杂波中准确提取目标回波的能力,定位性能即对目标的定位准确度,实际场景中雷达平台与目标的距离远近及位置关系等因素都会影响其检测及定位性能,从而影响构型优化结果,因此构型优化结果无法适用于真实的地图环境。
[0030]
现有的针对分布式飞行雷达平台的航迹规划技术并没有考虑平台与目标之间,因
为相对位置时变对检测性能及定位性能的影响;即当平台在不断接近目标的动态过程中,发射及接收到的信号也会随之变化,导致检测及定位性能的变化;因此现有的航迹规划方法在目标及雷达平台位置实时变化的场景中表现不好。
[0031]
发明内容
[0032]
本发明的目的在于克服现有的航迹规划技术,在目标及雷达平台位置实时变化的场景中很难达到预期的高性能的问题,提供一种分布式飞行雷达平台的航迹规划方法。
[0033]
本发明的第一方面提供一种分布式飞行雷达平台的航迹规划方法,包括如下步骤:
[0034]
s1.获取环境信息以及目标信息,使用目标回波信号模型得到目标回波信号幅度,并将所有环境回波信号叠加得到杂波信号幅度;
[0035]
s2.将目标回波与环境回波叠加得到接收信号回波,计算雷达平台的检测性能;以及,计算雷达平台的几何精度因子并作为雷达平台的定位性能;
[0036]
s3.将所述检测性能与所述定位性能作为maddpg算法的奖励,根据雷达平台的物理特性建立雷达平台飞行轨迹的约束条件;
[0037]
s4.基于所述奖励以及所述约束条件建立maddpg算法,并对所述maddpg算法进行离线训练;
[0038]
s5.将雷达平台的初始位置、目标位置范围输入至训练好的maddpg算法中;训练好的maddpg算法在雷达平台的飞行过程中与环境交互,得到分布式雷达平台的航迹。
[0039]
可以理解的是,雷达平台的物理特性可以包括:雷达平台的加速度、速度、转弯速率、飞行高度等。
[0040]
进一步的是,所述s3中,将所述检测性能与所述定位性能作为maddpg算法的奖励,包括:
[0041]
计算检测权重,将所述检测权重与所述检测性能作为检测奖励r2,r2=w1f1;其中,w1为检测权重,f1为检测性能;
[0042]
计算定位权重,将所述定位权重与所述定位性能作为定位奖励r3,r3=w2f2;其中,w2为定位权重,f2为定位性能。
[0043]
进一步的是,使用指数递减惯性权重算法得到定位权重以及检测权重。
[0044]
进一步的是,所述定位权重w2的计算方法如下:
[0045][0046]
其中,f1为检测性能,f
1max
为训练中检测性能能达到的最大值;
[0047]
检测权重w1的计算方法为:
[0048]
w1=1-w2。
[0049]
进一步的是,在所述s3中,将所述检测性能与所述定位性能作为maddpg算法的奖励,
[0050]
还包括:设置行动奖励、目标奖励与碰撞奖励;
[0051]
行动奖励r1,用于通过减少每轮的飞行步数使雷达平台在尽可能少的步数下完成飞行,完成对雷达平台的能量约束;
[0052]
目标奖励r4,为使雷达平台在接近目标后能准确打击目标,在平台与目标距离小
于某一具体值时给出一个较大值的正奖励,引导平台快速接近目标;
[0053]
碰撞奖励r5,为避免平台间距离过近发生碰撞,设定一个碰撞奖励r5,当平台间的距离小于安全距离时,就会给予其负奖励。
[0054]
进一步的是,在所述s3中,根据雷达平台的物理特性建立雷达平台飞行轨迹的约束条件,包括:根据雷达平台的速度特性建立转弯速率约束以及根据雷达平台的加速度特性建立过载约束;
[0055]
所述转弯速率约束为:
[0056][0057]
其中,为平台的瞬时速度,b1、a1分别为预设的速度上下限阈值;
[0058]
所述过载约束为:
[0059][0060]
其中,为平台的瞬时加速度,b2、a2分别为预设的加速度上下限阈值。
[0061]
进一步的是,在所述步骤s1中,所述目标回波信号幅度的计算公式为:
[0062][0063]
其中,p
t
是雷达发射信号的峰值功率,λ为雷达的工作波长,σ为目标的雷达散
[0064]
行动奖励r1,用于通过减少每轮的飞行步数使雷达平台在尽可能少的步数下完成飞行,完成对雷达平台的能量约束;
[0065]
目标奖励r4,为使雷达平台在接近目标后能准确打击目标,在平台与目标距离小于某一具体值时给出一个较大值的正奖励,引导平台快速接近目标;
[0066]
碰撞奖励r5,为避免平台间距离过近发生碰撞,设定一个碰撞奖励r5,当平台间的距离小于安全距离时,就会给予其负奖励。
[0067]
进一步的是,在所述s3中,根据雷达平台的物理特性建立雷达平台飞行轨迹的约束条件,包括:根据雷达平台的速度特性建立转弯速率约束以及根据雷达平台的加速度特性建立过载约束;
[0068]
所述转弯速率约束为:
[0069][0070]
其中,为平台的瞬时速度,b1、a1分别为预设的速度上下限阈值;
[0071]
所述过载约束为:
[0072][0073]
其中,为平台的瞬时加速度,b2、a2分别为预设的加速度上下限阈值。
[0074]
进一步的是,在所述步骤s1中,所述目标回波信号幅度的计算公式为:
[0075][0076]
其中,p
t
是雷达发射信号的峰值功率,λ为雷达的工作波长,σ为目标的雷达散射截面积,电压增益:面积,电压增益:分别为雷达的发射电压增益和接收电压增益,l是雷达发射接收双程天线损耗,r
t
和rr分别为发射雷达平台与接收雷达平台到目标散射单元的中心距离,θ为目标单元的方位角,为杂波目标单元的俯仰角;
[0077]
所述杂波信号幅度的计算公式为:
[0078][0079]
式中σ1为地海杂波散射系数。
[0080]
进一步的是,所述检测性能f1的计算公式为:
[0081]
f1=|sx1|-|sx0|,
[0082]
其中:x1=a
t
s+acs+n,x0=acs+n;ac为杂波信号幅度,a
t
为目标回波信号幅度;x1为目标回波,x0为环境回波,n为噪声,s为雷达发射信号。
[0083]
进一步的是,所述定位性能f2的计算公式为:
[0084][0085]
其中,h=[e1,e2,...,en]
t
是由目标到第i个雷达平台视线的方向余弦向量,gdop为几何精度因子。
[0086]
本发明中使用的maddpg算法的环境被设置为二维空间,共有n个雷达平台分别为agent1,agent2,

,agentn,其中n为自然数;在maddpg算法中,每个雷达平台的状态不仅包括自身状态、还有其它雷达平台状态与环境状态;算法中每一个雷达平台的状态s
agei
包括:雷达平台在环境中的坐标位置(p
agei,x
,p
agei,y
)、速度矢量(v
agei,x
,v
agei,y
)及雷达检测角度;环境状态s
env
包括目标位置;针对雷达平台agenti在t时刻的状态定义为:s
t,agei
=(s
age1
,s
age2
,...s
agen
,s
env
)
[0087]
maddpg算法的动作设计包括:雷达平台的动作空间被设置为一个二维的连续空间,动作策略被设置为为每一时刻给予雷达平台一个瞬时速度大小和偏角其中vm为雷达速度矢量,||vm||为速度矢量的大小,为速度水平偏角;因此其速度矢量可以表示为同时采用确定性动作策略,即根据当前时刻的状态输入,输出一个经过选择的确定速度,则雷达平台经过

t时刻后的位置更新为如下式:
[0088][0089]
本发明的第二方面提供一种可读存储介质,其上存储有计算机程序,所述程序被
至少一个处理器执行以实现上述的一种分布式飞行雷达平台的航迹规划方法。
[0090]
与现有技术相比,本发明的有益效果:
[0091]
1.本发明通过选择几何精度因子作为定位性能,并通过接收信号回波计算检测性能,以及将检测性能与定位性能作为针对分布式雷达平台飞行轨迹的优化目标,并基于优化目标建立maddpg算法;可以在航迹规划时兼顾检测性能以及定位性能;同时因为在航迹规划时考虑了航迹对雷达检测性能以及定位性能的影响,因此使用本发明规划的航迹可以在目标及雷达平台位置实时变化的场景中达到预期的高性能;
[0092]
2.在本发明的示例性实施例中通过在全飞行过程按指数惯性权重分配方式分别对检测性能和定位性能作加权处理,使得在距目标较远的飞行初期以检测性能为主要优化目标,接近目标后的飞行后期以定位性能为主要优化目标,平衡了飞行过程的检测性能与定位性能占比;使用本发明得到的航迹可以更加的贴合分布式飞行雷达平台在实际使用中对检测性能以及定位性能的需求;
[0093]
3.在本发明的示例性实施例中的航迹规划方法可应用于多个雷达平台在复杂环境中对目标的检测及定位;通过训练好的maddpg算法得到的航迹,可以使得多个雷达平台在杂波密集、目标rcs信息时变及目标位置具有一定随机性等高动态环境中以最优路线快速飞行至目标,同时实现对目标的高性能检测及定位。
附图说明
[0094]
图1为本发明示例性实施例中提出的一种分布式飞行雷达平台的航迹规划方法的简略流程图;
[0095]
图2为本发明的示例性实施例中提出的一种分布式飞行雷达平台的航迹规划方法的要素构成图;
[0096]
图3为本发明示例性实施例中提出的一种分布式飞行雷达平台的航迹规划方法的流程图。
具体实施方式
[0097]
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
[0098]
实施例1
[0099]
如图1、图2以及图3所示,一种分布式飞行雷达平台的航迹规划方法,包括如下步骤:
[0100]
s1.使用雷达平台搭载的双基地雷达获取环境信息以及目标信息,使用目标回波信号模型得到目标回波信号幅度,根据雷达平台接收的所有环境回波信号叠加得到杂波信号幅度;
[0101]
述目标回波信号幅度的计算公式为:
[0102]
[0103]
其中,p
t
是雷达发射信号的峰值功率,λ为雷达的工作波长,σ为目标的rcs,电压增益益分别为雷达的发射电压增益(幅度增益)和接收电压增益,l是雷达发射接收双程天线损耗,r
t
和rr分别为发射雷达平台与接收雷达平台到目标散射单元的中心距离,θ为目标单元的方位角,为杂波目标单元的俯仰角;
[0104]
所述杂波信号幅度的计算公式为:
[0105][0106]
式中σ1为地海杂波散射系数。
[0107]
s2.将目标回波与环境回波叠加得到接收信号回波,计算雷达平台的检测性能;
[0108]
所述检测性能f1的计算公式为:
[0109]
f1=|sx1|-|sx0|,
[0110]
其中:x1=a
t
s+acs+n,x0=acs+n,x1为目标回波,x2为杂波(环境)回波,n为噪声,s为雷达发射信号。
[0111]
本实例的雷达发射信号表示为:
[0112][0113]
其中bw为带宽,pw为脉宽,n为划分通道个数,fs为采样频率,f
γ
为频率间隔,这一信号计算方法可根据雷达的不同类型做出相应调整。
[0114]
s3.计算几何精度因子并作为雷达平台的定位性能;
[0115]
本发明利用几何精度因子(geometric dilution precision,gdop)计算雷达平台的定位性能,要获得最好的定位精度,参与定位的雷达平台应具有最小的gdop值,gdop值的具体计算过程如下:
[0116][0117]
其中,dρ=[dρ1,dρ2,...,dρn]
t
为伪距误差向量,h=[e1,e2,...,en]
t
是由目标到第i个雷达平台视线的方向余弦向量,为各分量独立同分布的dρ的方差。
[0118]
s4.建立针对分布式雷达平台的飞行轨迹的转弯速率约束和过载约束;
[0119]
所述转弯速率约束为:
[0120]
[0121]
其中,为平台的瞬时速度,b1、a1分别为预设的速度上下限阈值;
[0122]
所述过载约束为:
[0123][0124]
其中,为平台的瞬时加速度,b2、a2分别为预设的加速度上下限阈值。
[0125]
通过转弯速率约束与过载约束可以使maddpg算法规划出的雷达平台的飞行轨迹满实际雷达平台飞行的动力学特性、能量特性以及波束指向特性。b1、a1与b2、a2值的设定可以根据实际使用的雷达飞行平台进行调整。
[0126]
s5.使用指数递减惯性权重提高雷达平台飞行初期的检测性能占比和飞行后期的定位性能占比,得到检测权重以及定位权重;雷达平台的飞行初期即为雷达平台由距离目标较远(起始位置)时逐渐接近目标的飞行过程,雷达平台的飞行后期即为雷达平台距离由目标比较近时直至达到飞行目标时的飞行过程所述定位权重w2的计算方法为:
[0127][0128]
其中,f1为检测性能,f
1max
为训练中检测性能能达到的最大值,为一个经验值,可以在实际使用场景下进行测试得到;
[0129]
检测权重w1的计算方法为:
[0130]
w1=1-w2。
[0131]wmax
与w
min
的取值可根据实际需求选取,用于根据实际情况以及飞行任务调整本发明在实际使用中雷达平台的飞行阶段,本实施例中分别赋值0.9和0.4,该权重分配方式可以进一步的提升飞行前期的检测性能,以及飞行后期的定位性能。
[0132]
s6.基于所述检测权重、所述定位权重、所述检测性能、所述定位性能以及所述转弯速率约束和过载约束建立maddpg算法,并对所述maddpg算法进行离线训练;
[0133]
本实施例中所使用的maddpg算法的整体结构,可以从论文:何明,张斌,柳强,陈希亮,杨铖.maddpg算法经验优先抽取机制[j].控制与决策,2021,36(01):68-74.doi:10.13195/j.kzyjc.2019.0834.中得到。
[0134]
其中,所述maddpg算法的奖励包括:
[0135]
行动奖励r1,用于通过减少每轮的飞行步数使雷达平台在尽可能少的步数下完成飞行,完成对雷达平台的能量约束;
[0136]
检测奖励r2,即加权后的检测性能,用于提高雷达的检测性能使雷达平台顺利检测并打击目标,控制雷达平台以合理的航线飞行至目标;
[0137]
定位奖励r3,即加权后的定位性能,用于提高雷达的定位性能使雷达平台快速精确定位目标;
[0138]
目标奖励r4,为使雷达平台在接近目标后能准确打击目标,在平台与目标距离小于某一具体值时给出一个较大值的正奖励,引导平台快速接近目标;
[0139]
碰撞奖励r5,为避免平台间距离过近发生碰撞,设定一个碰撞奖励r5,当平台间的距离小于安全距离时,就会给予其负奖励。
[0140]
在本实施例中,以多个导弹打击同一目标为应用场景,导弹从不同位置发射,在导
弹发射时,仅能得到目标的位置范围,导弹的飞行目标为击中该目标;各奖励的数值,以及用途如表1所示:
[0141][0142]
表1
[0143]
表中,为归一化的导弹间距,其中为两平台间距向量,d
safe
为平台不会相撞的最小安全距离,d
env
为地图宽度,用于归一化。
[0144]
所述maddpg算法的环境被设置为二维空间,共有n个雷达平台分别为agent1,agent2,

,agentn,其中n为自然数;在maddpg算法中,每个雷达平台的状态不仅包括自身状态、还有其它雷达平台状态与环境状态;算法中每一个雷达平台的状态s
agei
包括:雷达平台在环境中的坐标位置(p
agei,x
,p
agei,y
)、速度矢量(v
agei,x
,v
agei,y
)及雷达检测角度;环境状态s
env
包括目标位置;针对雷达平台agenti在t时刻的状态定义为:s
t,agei
=(s
age1
,s
age2
,...s
agen
,s
env
)
[0145]
述maddpg算法的动作设计包括:
[0146]
雷达平台的动作空间被设置为一个二维的连续空间,动作策略被设置为为每一时刻给予雷达平台一个瞬时速度大小和偏角其中vm为雷达速度矢量,||vm||为速度矢量的大小;为速度水平偏角;因此其速度矢量可以表示为同时采用确定性动作策略,即根据当前时刻的状态输入,输出一个经过选择的确定速度,则雷达平台经过

t时刻后的位置更新为如下式:
[0147][0148]
s7.将雷达平台的初始位置、目标位置范围输入至训练好的maddpg算法中,训练好的maddpg算法输出航迹控制雷达平台飞行,同时训练好的maddpg算法在雷达平台的飞行过程中与环境交互,不断的对雷达平台的航迹进行更新,直至雷达平台达到目标位置。
[0149]
分布式雷达平台可以依据所述检测检测及定位性能的计算结果与已有的先验知识,通过maddpg算法进行离线训练;其中已有先验知识包括地图杂波的散射系数与目标位置的大致范围,是飞行前已有的检测结果;对雷达平台中包含的连续状态采用梯度下降的方式对q值表进行更新,构建完整的多平台检测及定位深度强化学习离线训练网络。
[0150]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1