一种基于深度强化学习的雷达智能干扰抑制决策方法

文档序号:34441307发布日期:2023-06-13 02:31阅读:88来源:国知局
本发明设计一种基于深度强化学习的雷达智能干扰抑制决策方法,属于电子干扰。
背景技术
::1、在现代雷达电子博弈技术中,干扰机系统的智能化决策水平愈发提高,其可根据双方的环境参数针对性地选择最为合适的信号类型对我方雷达施加干扰。以有源性雷达干扰信号为例,压制性干扰主要对目标回波实施阻塞或瞄准式的遮盖操作,使我方雷达无法检测到目标回波尖峰;欺骗性干扰则主要在真实目标回波尖峰附近生成多个差别不大的欺骗性假目标尖峰,从而使我方雷达的虚警概率大幅提高。但干扰机的智能化发展同样推动着雷达干扰抑制智能化决策的发展。2、传统的雷达干扰抑制算法较为丰富,而在后端信号处理方面较为典型的有:基于时域或频域的对消算法(tdc、fdc),该类算法的实施条件是干扰信号对时、频域中某一域的变动程度较小时,可在该信息域中找到原始信号的部分信息,并在该域中实施对消操作从而尽可能去除干扰信号造成的影响;基于干扰重构的抑制算法(ir)是针对欺骗性干扰信号极为有效的一种抑制算法思想,根据欺骗性干扰信号的生成规律反向推演其生成过程中的关键参数,并根据得到的参数生成对应的干扰信号实施对消操作从而获得几乎不含干扰信号的目标回波信号,该类算法对于针对性的干扰信号有着比其它干扰抑制算法更好的抑制效果。3、复杂多变的真实环境决定了人为决定合适的干扰抑制算法需要较长的判断时间。而人工智能技术在雷达干扰抑制决策方向的引入,则可以通过设置恰当的环境特征奖赏函数和合理的逻辑结构,提高决策过程的快速性和准确性。技术实现思路1、针对现有人工决策速度较慢和干扰抑制策略需要预先准备等问题,本发明设计了一种基于深度强化学习的雷达智能干扰抑制决策方法,通过将深度学习网络与强化学习算法相结合,使得智能体雷达能够在一定底噪环境中与干扰机所释放的干扰信号不断进行博弈操作从而学习并优化干扰抑制策略;通过对抑制前后的回波信号进行脉压操作以验证抑制后恢复效果。此发明避免了人工判决在速度和准确性方面的不足,优化了传统强化学习算法需要q-table进行成果存储调用的策略效果,提高了决策系统在干扰判决特征和干扰抑制动作方面的可拓展性。2、本发明的目的是这样实现的:步骤一,构建雷达干扰抑制交互环境。3、(1)线性调频雷达信号(lfm)是当前雷达广泛使用的一类雷达探测信号。因此根据其波形公式和参数范围生成随机lfm回波信号,并根据预设的干扰参数生成多种压制和欺骗性的有源干扰信号组成博弈环境中的干扰样式库。4、5、其中,rect(t/t)是脉宽为t的矩形脉冲,f0为调制初频,为回波信号的初相,k为lfm信号的调制斜率,且信号带宽b=kt。此外,δt为目标回波信号的双程传播延时,其计算公式为:6、7、其中,r为雷达与探测目标间的相对距离,c=3×108m/s。8、(2)向环境中添加一定量的底噪,并通过预设的信噪比和干噪比参数以雷达回波信号为基底自适应调整干扰信号的功率谱幅度。9、(3)干扰抑制决策所针对的信号应为各类信号时域状态下的叠加,基于该思路设计得到如下所示的受干扰雷达回波信号:10、u(t)=s(t)+ji(t)+n(t),i∈[1,6]11、其中,u(t)为待处理信号,s(t)为回波信号,j(t)为干扰信号,其类型共计6种,n(t)为环境噪声。12、(4)以所得到的受干扰后雷达回波信号为环境集合,提取多个方面的状态参数构成初始状态空间,其中:13、环境信干噪比(sinr)在原理上综合了信噪比和干噪比的概念,通过引入干扰能量从而对信号通信质量进行更为全面的评估,因而sinr是衡量干扰抑制效果的重要指标之一,其可表示为:14、15、其中,ps、pi和pn分别为回波信号、干扰信号和噪声信号的有效功率。干扰抑制比(interference suppression ratio,isr)从干信比变化的角度反映了干扰信号能量被抑制的程度,isr越大,说明干扰抑制算法的抑制效果越好,因此isr可以充分反映干扰抑制算法的有效性,其可表示为:16、17、其中,jsr1和jsr0分别表示干扰抑制前和干扰抑制后的干信比。18、波形稳定度通过分析时域信号包络来衡量信号时域包络的恢复程度,首先利用希尔伯特(hilbert)变换得到解析信号:19、20、其中,u(t)为待提取包络信号,为hilbert变换后信号,为解析信号,a(t)为包络信息。21、对得到的解析信号取模,即可提取得到包络信息,过程如下:22、23、式中ejωt为复载波信号,其模为1,从而将复数包络转换为实数包络,即完成对信号包络的提取。24、根据f所提取的包络信息,通过各数值点与包络均值的偏差程度来对包络稳定性进行评估,数值越大说明稳定性越差、干扰抑制效果越差,评估过程可表示为:25、26、其中,|a[n]|是包络|a(t)|的离散化表现,m为离散化后的数值点总数。27、在脉压效果方面使用真假目标判决和主副瓣比作为状态参数,首先对干扰抑制后的时域波形按照一定规则进行矩形窗滑动搜索,从而找到抑制后的可能目标数量;然后根据搜索到的目标群与真实目标位置的距离差异进行真假目标判决;其判决结果设为n,只有当真目标唯一,无假目标时的判决结果为1,反之为0。28、而峰值旁瓣比(peak side lobe ratio,pslr)则是根据主瓣与最强旁瓣间的峰值强度比值来评判脉压效果的指标之一,pslr越大,则说明脉压效果越好,反之则越差。其可通过距离分辨率公式找到第一副瓣峰值位置并计算得到。整合以上五种状态参数,即可得到初始状态空间st的内容为:29、st=[sinr,isr,su(t),n,pslr]30、动作集合设计方面,将动作集合记为a,其内部包括时域对消算法、频域对消算法、分数阶傅里叶滤波算法、基于干扰重构的频谱弥散干扰抑制算法、基于干扰重构的切片重构干扰抑制算法和基于干扰重构的间歇采样转发干扰抑制算法共计六种干扰抑制算法。当选择动作时,则挑选对应的干扰抑制算法进行环境交互并产生新的环境状态。31、动作集合a和初始状态集合st的确立,为干扰抑制策略训练提供了前提条件。32、步骤二,构建雷达干扰抑制决策机制。33、(1)深度强化学习网络(deep q networks,dqn)架构中的q估计和q目标网络均采用全连接网络(deep neural network,dnn)结构,dnn包含输入层、隐藏层、输出层三层,其函数拟合效果较好,且适合该场景应用;在将得到的初始状态集合st递交dqn决策机构进行信息处理前,需要首先对机构内部的经验回放池、q估计和q目标网络及所有相关预设参数进行初始化处理;其中q估计网络和q目标网络的随机初始权重赋值应保持相同。34、(2)随机生成一个博弈环境并得到其环境状态集合st,将其送入q估计网络中进行q值评估。在评估完所有动作的q值后,根据贪婪策略进行干扰抑制动作选择,即在保留智能体探索其它动作可能性的同时,根据贪婪值以不同的倾向程度选择最大q值对应的动作。35、(3)根据当前状态st和当前采取的干扰抑制动作at,得到对应奖励rt和下一时刻状态st+1。并将四元组[st,at,rt,st+1]作为一组经验存入经验回放池中,之后对当前状态进行重置。若经验回放池饱和,则按录入顺序清除内部早期经验。36、其中,当前奖励rt由干扰抑制后的环境信干噪比、波形稳定度和脉压效果指标以及干扰抑制过程中的干扰抑制比指标经综合计算得到,其可表示为:37、38、式中,rpslr、rs、rsinr和risr分别为峰值旁瓣比、波形稳定度、环境信干噪比和干扰抑制比指标所对应的奖励值,n为脉压后真假目标数量判决结果。39、其中,环境信干噪比和干扰抑制比的奖励值为综合动作奖励值的主要参考部分;而峰值旁瓣比和波形稳定度的奖励值则在0~1之间,对综合动作奖励值起微调作用;真假目标数量判决对奖励值起最重要的调整作用,即脉压后出现的所有40、异常情况均视做干扰抑制失败,必须给予智能体以负反馈。41、(4)重复执行(2)~(3),在经验回放池内的数据量达到上限后开始dqn架构中q估计网络参数的更新42、首先从经验回放池中随机取出一定数量的经验组作为样本。43、然后将样本中的奖励值rt和下一时刻状态st+1作为q目标网络的输入计算其q值:44、45、式中,γ为奖励遗忘因子,用于防止历史经验对决策的过度影响,θ-为q目标网络的参数。46、利用均方差函数作为损失函数的基本结构,将上一步得到的q目标值送入q估计网络中计算差值,并反向传播以更新q估计网络的内部权重参数。损失函数的计算公式为:47、48、(5)设定网络参数迁移间隔次数,即每隔一定次数的q估计网络权重更新后,将q估计网络的内部权重参数以硬更新的方式完全复制给q目标网络。49、(6)设定迭代次数,重复执行(2)~(5),直至q估计网络完成收敛。此时该方法所给出的最佳干扰抑制策略即为:对受干扰的雷达回波信号使用q值最大的对应干扰抑制算法进行信号处理即可得到最佳的干扰抑制效果。50、与现有技术相比,本发明的有益效果是:本发明针对人工干扰抑制决策耗时较长、精准度低和需要提前预设干扰抑制策略等问题,设计了一种基于深度强化学习的雷达智能干扰抑制决策方法。对干扰抑制后的回波信号脉压效果进行分析。实验仿真结果表明,本文所采用的基于深度强化学习的雷达智能干扰抑制决策方法,不仅具有较快的决策速度和较为准确的决策精度,而且节约了存储空间,从而进一步减轻了雷达博弈系统的整体承载压力。决策后所采用的干扰抑制算法对受干扰的雷达回波信号有较好的恢复效果。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1