一种面向抗干扰的雷达频率捷变方法与流程

文档序号:23588193发布日期:2021-01-08 14:22阅读:253来源:国知局
一种面向抗干扰的雷达频率捷变方法与流程

本发明属于频率捷变和雷达抗干扰技术领域,尤其涉及一种面向抗干扰的雷达频率捷变方法。



背景技术:

面对日益复杂的电磁环境,雷达抗干扰能力越来越受到研究人员的关注。雷达抗干扰方法一般可分为两类。一类是被动式,即在接收到干扰之后通过优化接收处理的方法消除或减轻干扰对于目标探测的影响。例如,时域傅里叶变换方法(pre-fft)是在傅里叶变换之前在时域上将干扰信号置零,频域傅里叶变换方法(post-fft)是在傅里叶变换之后在频域上将干扰信号出现的频段滤除,自适应波束形成是在空域上去抑制干扰。此外,还有一些在联合域去抑制干扰的方法,例如空时自适应处理等。但这类方法需要获得干扰信号在时、频或空域上的信息才能达到期望的抗干扰效果。

另一类是主动式,即雷达通过在时、空、频、码等维度上对发射信号进行选择和设计以达到避免干扰的目的。相比于被动抗干扰技术,主动抗干扰技术在抗干扰效能上具有更大潜力。捷变相参技术被认为是对抗干扰的最有效方式之一,它通过发射波形在时、空、频、码等多个维度快速捷变来避免与其他电磁设备在电磁资源上发生冲突进而减小干扰。频率捷变是捷变相参技术中应用最为广泛的方法之一。但目前频率捷变方式较为单一,往往是随机捷变或者进行人为设计后固定不变,在面对复杂多变的电磁环境时难以发挥频率捷变的抗干扰潜力。在一些研究中,强化学习的方法被引入到雷达频率捷变策略的设计中,使雷达能够根据自身观测自适应地选取发射频率,取得了一定抗干扰效能提升。但是,雷达单次观测到的信息往往较为有限,只依靠雷达单次观测难以获取最优频率捷变策略。

现有技术中,雷达频率捷变的方式大多固定单一,并受限于雷达的有限观测,并没有一种雷达频率捷变的方法能同时应对复杂多变的电磁环境和雷达有限观测的问题,导致频率捷变难以发挥其抗干扰的潜力。



技术实现要素:

本发明的目的是为克服已有技术的不足之处,提出一种面向抗干扰的雷达频率捷变方法。本发明使雷达能够综合当前观测和历史观测两方面的信息,自适应切换发射频率以避免干扰,能够同时应对复杂多变的电磁环境和雷达有限观测的问题。

本发明提出一种面向抗干扰的雷达频率捷变方法,其特征在于,包括以下步骤:

(1)初始化;

(1-1)构建雷达频率选择估值网络qeval,表达式如下:

qt,ht=qeval(ot,ht-1;θ)

其中,θ为qeval的网络参数,ot是雷达在t时间步时的观测;在qeval中,ht-1是雷达对于t-1时间步及以前的记忆向量,qt是t时间步雷达对于各个可选择频率的评估向量,ht是雷达对于t时间步及以前的记忆向量;θ的初始值为随机产生;

将初始的估值网络qeval作为当前估值网络qeval

(1-2)构建雷达频率选择目标网络qtarget,表达式如下:

其中,qtarget与qeval结构相同;在qtarget中,令t时间步雷达对于各个可选择频率的评估向量记为vt,雷达对于t-1时间步及以前的记忆向量记为gt-1,雷达对于t时间步及以前的记忆向量记为gt;qtarget的参数为的初始值是独立于θ随机产生的;

将初始的目标网络qtarget作为当前目标网络qtarget

(1-3)创建一个初始为空的内存d,内存大小为ld;初始化时间步t=1;初始化qeval的记忆向量h0为全零向量;

(2)观测获取;

构建t时间步雷达获得的观测:

ot=[ft-1,it-1,rt-1,dt,pt],

其中,ft-1是雷达在t-1时间步选择的频率对应的索引值,记雷达可选择的频率共有m种,分别以1,2,...,m标记为对应的索引值,即ft-1∈{1,2,...,m};其中,f0为从{1,2,...,m}中随机选择的一个索引值;it-1是雷达在t-1时间步估计的接收干扰功率,令i0=0;rt-1是雷达在t-1时间步抗干扰效能的即时评估,令r0=0;当t≥2时,rt-1的计算表达式如下:

其中,是功率阈值;

是t时间步雷达对离自身最近的n个目标的距离预测值;pt是雷达自身在t时间步的位置;

其中,dt的预测方法如下:

若雷达在t-1时间步所受干扰功率小于阈值在t-1时间步,雷达发射信号获得离自身最近的n个目标的距离测量值:以及每个目标在t-1时间步相应的速度测量值:其中,为t-1时间步雷达发射信号获得离自身最近第n个目标的距离测量值;为离雷达最近第n个目标在t-1时间步的速度测量值,1≤n≤n;l0,a0均为全零向量;

则t时间步雷达对离自身最近的第n个目标距离预测值为:

其中,δt是相邻两个时间步间的时间间隔;

若雷达在t-1时间步所受干扰功率大于等于阈值则t时间步雷达对离自身最近的第n个目标距离预测值为:

(3)频率选择与记忆更新;

将ot和ht-1输入当前估值网络qeval

当前估值网络qeval输出对应的qt和ht,其中:

其中,表示雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估值;

雷达按照如下方式选择t时间步的频率,得到t时间步的雷达频率捷变结果:

其中,ò∈(0,1)是探索概率;

(4)经历构建与储存;

对t进行判定:

若t<2,则令t=t+1,然后重新返回步骤(2);

若t≥2,则构建t时间步的经历:et=[ot-1,ht-2,ft-1,rt-1,ot,ht-1],然后将经历et储存到内存d中,令t=t+1,然后重新返回步骤(2);直至当t≥lb+1时,构建t时间步的经历et并将et储存到内存d后,进入步骤5);其中,若t>ld+1时,则将从内存d中移除,构建t时间步的经历et并将et储存到内存d中,然后进入步骤5);lb为设定的训练集的经历数目,1≤lb≤ld;

(5)训练集构建;

从内存d中随机截取lb个连续经历,构建一个训练集b:

其中,τ为该训练集的起始时间步;若lb+1≤t≤ld+1,则τ从[2,t-lb+1]范围内的整数中随机选取;若t>ld,则τ从[2,ld-lb+2]范围内的整数中随机选取;

(6)构造代价函数;

对于步骤(5)构建的训练集中的每一个经历et∈b,τ≤t≤τ+lb-1,计算对应的目标值yt:

其中,γ∈[0,1]是衰减系数;

表示通过当前目标网络qtarget计算的雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估值;的计算方法如下:

令初始记忆向量gτ-1=hτ-1,对于每个时间步t,τ≤t≤τ+lb-1,将该时间步对应的观测ot和记忆向量gt-1输入到当前目标网络qtarget,当前目标网络qtarget输出t时间步雷达对于各个可选择频率的评估向量vt和雷达对于t时间步及以前的记忆向量gt;其中,

构造代价函数:

(7)网络参数更新;

利用梯度下降对当前估值网络qeval的网络参数θ进行更新:

其中,α∈(0,1)为更新步长;更新后,令t←t+1,然后重新回到步骤(2);

其中,每隔设定的时间步数t时,对当前目标网络qtarget的网络参数进行更新,将当前qeval的网络参数θ赋值给当前目标网络qtarget得到更新后的当前目标网络qtarget,即当mod(t,t)=0时,其中,mod(t,t)表示求t对t的余数。

本发明的特点及有益效果:

本发明针对目前频率捷变固定单一,并且受限于雷达的有限观测,难以发挥频率捷变雷达抗干扰潜力的问题,提出一种新的频率捷变方法,使雷达能够综合当前和历史观测自适应切换发射频率,以获得更好的抗干扰效果。

本发明通过深度强化学习获得一种频率捷变策略,使雷达根据自身观测不断切换发射频率,能够适应复杂多变的电磁环境,达到良好的抗干扰效果;同时,本发明通过引入长短时记忆网络,使雷达能够综合当前和历史观测来切换发射频率,解决了雷达单次观测不足的问题。

本发明适用于多部雷达工作在同一频段下的场景,尤其针对雷达所在平台快速运动的场景,例如汽车雷达场景与机载雷达协同作战的场景等,在民用和军事上均有广泛应用背景。使用本发明中的方法,每部雷达能够通过不断切换频率减小相互间干扰,保证各自正常工作,快速适应由于相对运动造成的周围电磁环境的迅速变化。随着雷达在民用和军事上的普及,雷达间的干扰问题将会日益严重,本发明所提出的方法能够缓解雷达数量增长和频谱资源有限的矛盾,提高雷达在复杂电磁环境中的生存能力。

附图说明

图1为本发明方法的整体流程图。

图2为本发明中雷达频率选择估值网络的结构示意图。

图3为本发明中雷达频率选择和记忆向量更新过程示意图。

具体实施方式

本发明提出一种面向抗干扰的雷达频率捷变方法,下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种面向抗干扰的雷达频率捷变方法,整体流程如图1所示,包括以下步骤:

(1)初始化;

(1-1)构建雷达频率选择估值网络qeval,表达式如下:

qt,ht=qeval(ot,ht-1;θ)

其中,qeval表示雷达频率选择估值网络,是一个神经网络;θ为qeval的网络参数,ot是雷达在t时间步时的观测;在qeval中,ht-1是雷达对于t-1时间步及以前的记忆向量,qt是t时间步雷达对于各个可选择频率的评估向量,ht是雷达对于t时间步及以前的记忆向量。估值网络qeval的网络参数θ初始值是随机产生的。将初始的估值网络qeval作为当前估值网络qeval

图2给出了本发明的频率选择估值网络的结构示意图,该网络由一个全连接层和一个长短时记忆(longshort-termmemory,lstm)层级联而成。t-1时间步的雷达的记忆向量即为t时间步lstm层的隐状态,ht-1。记忆向量ht-1包含了对于t-1时间步及之前雷达的历史观测信息。每输入一次雷达观测ot通过全连接层后,在lstm层ht-1将会结合ot更新为ht,ht包含了t时间步及之前的雷达的历史观测信息。基于这样带有记忆功能的网络结构,雷达能够结合当前和历史的观测来进行频率选择。

(1-2)构建雷达频率选择目标网络qtarget,表达式如下:

其中,qtarget表示雷达频率选择目标网络,也是一个神经网络,与网络qeval的结构完全一样。为区别开来,通过目标网络qtarget产生的t时间步评估向量,输入的t-1时间步的记忆向量和输出的t时间步的记忆向量分别记为vt,gt-1,gt。目标网络qtarget的参数的初始值是独立于θ随机产生的。将初始的目标网络qtarget作为当前目标网络qtarget

(1-3)创建一个初始为空的内存d,内存大小为ld(本实施例中ld=1000。)。

初始化时间步t=1。

初始化qeval中雷达记忆向量h0为全零向量。

(2)观测获取;

构建t时间步雷达获得的观测:

ot=[ft-1,it-1,rt-1,dt,pt],

其中,ft-1是雷达在t-1时间步选择的频率对应的索引值,雷达可选择的频率共有m种,分别以1,2,...,m标记为对应的索引值,即ft-1∈{1,2,...,m}(t=1时,f0从{1,2,...,m}中随机选择一个索引值作为f0的取值);it-1是雷达在t-1时间步估计的接收干扰功率(t=1时,令i0=0;当t大于1时,这个值通过雷达信号处理算法即可获得);rt-1是雷达在t-1时间步抗干扰效能的即时评估(t=1时,令r0=0),当t≥2时,评估方法为:

其中,是规定的功率阈值(本实施例中,是当干扰噪声功率比为10db的干扰功率值);是t时间步雷达对离自身最近的n个目标的距离预测值,整数n为既定参数(n是大于0的整数,本实施例中n=2);pt是雷达自身在t时间步的位置。

由于雷达在t时间步选择频率并发射信号之前不能获得t时间步的目标距离的信息,本发明通过如下方法对t时间步的目标距离进行预测。

若雷达在t-1时间步所受干扰功率小于阈值在t-1时间步,雷达发射信号能够获得离自身最近的n个目标的距离测量值:以及每个目标在t-1时间步相应的速度测量值:(t=1时,l0,a0均为全零向量)。其中,为t-1时间步雷达发射信号获得离自身最近第n个目标的距离测量值;为离雷达最近第n个目标在t-1时间步的速度测量值,1≤n≤n;基于此,对t时间步雷达对离自身最近的第n个目标距离预测值为:

其中,δt是相邻两个时间步间的时间间隔(即雷达两次发射的时间间隔,在本实施例中,δt=0.1秒)。

若雷达在t-1时间步所受干扰功率超过阈值导致探测失败,那么t时间步雷达对离自身最近的第n个目标距离的预测值为:

(3)频率选择与记忆更新;

将雷达观测ot和记忆向量ht-1输入到当前估值网络qeval

qt,ht=qeval(ot,ht-1;θ)

当前估值网络qeval输出t时间步雷达对于各个可选择频率的评估向量qt和雷达对于t时间步及以前的记忆向量ht,其中:

其中,表示雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估值。基于此,雷达按照如下方式选择频率,得到t时间步的雷达频率捷变结果:

其中,ò∈(0,1)是探索概率,在本实施例中,ò=0.05。

图3给出了本发明中雷达频率选择和记忆向量更新的过程示意图。图中纵向箭头表示雷达频率选择的过程:在每一时间步,雷达结合当前观测和记忆向量,通过估值网络获得对各个可选频率的评估向量,进而选择该时间步的频率。图中横向箭头表示雷达记忆向量更新的过程:横向箭头表示时间的递进,记忆向量随着时间不断更新;在每一时间步,雷达结合当前观测和上一时间步的记忆向量,通过估值网络获得该时间步的记忆向量,因此能够不断将新的观测融入到记忆向量中。

(4)经历构建与储存;

对t进行判定:

若t<2,则令t=t+1,然后重新返回步骤(2);

若t≥2,则构建t时间步的经历:et=[ot-1,ht-2,ft-1,rt-1,ot,ht-1],然后将经历et储存到内存d中,令t=t+1,然后重新返回步骤(2);直至当t≥lb+1时,构建t时间步的经历et并将et储存到内存d后,进入步骤5);其中,若t>ld+1时,则将从内存d中移除,构建t时间步的经历et并将et储存到内存d中,然后进入步骤5);

其中,lb为设定的训练集的经历数目,lb是大于0的整数,1≤lb≤ld,在本实施例中,lb=20;

(5)训练集构建;

从内存d中随机截取lb个连续经历,构建一个训练集b:

其中,τ为该训练集的起始时间步;若lb+1≤t≤ld+1,则τ从[2,t-lb+1]范围内的整数中随机选取;若t>ld+1,则τ从[2,ld-lb+2]范围内的整数中随机选取。

(6)构造代价函数;

对于步骤(5)构建的训练集中的每一个经历et∈b(τ≤t≤τ+lb-1),计算对应的目标值yt:

其中,γ∈[0,1]是衰减系数,γ越大,表示选择t时间步的频率时对未来抗干扰效能rt'(t'>t)考虑的多少;

表示通过当前目标网络qtarget计算的雷达在t时间步如果采取频率i将会获得的抗干扰效能的评估。的计算过程如下:

令初始记忆向量gτ-1=hτ-1,对于每个时间步t(τ≤t≤τ+lb-1),将该时间步对应的观测ot和当前qtarget的记忆向量gt-1输入到当前目标网络qtarget,当前目标网络qtarget输出t时间步雷达对于各个可选择频率的评估向量vt和雷达对于t时间步及以前的记忆向量gt,表达式如下:

其中,

基于目标值,构造代价函数:

其中,

qt-1,ht-1=qeval(ot-1,ht-2;θ),

其中,是估值网络qeval计算的雷达在t-1时间步如果采取频率i将会获得的抗干扰效能的评估,i=1,2,…,m;是与估值网络qeval的网络参数θ有关的,ft-1是雷达在t-1时间步选择的频率索引,ft-1∈{1,2,...,m}。

(7)网络参数更新;

利用梯度下降对当前估值网络qeval的网络参数θ进行更新:

其中,α∈(0,1)为更新步长(在本实施例中,α=1×10-3),偏导项借助tensorflow框架容易计算。更新后,令t←t+1,然后重新回到步骤(2)。

其中,当每隔一定时间步数t(t是大于0的整数,在本实施例中t=10)对当前目标网络qtarget的网络参数进行更新,将当前qeval的网络参数θ赋值给当前目标网络qtarget得到更新后的当前目标网络qtarget,即当mod(t,t)=0时,其中,mod(t,t)表示求t对t的余数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1