一种基于深度强化学习的干扰探测共享信号设计方法

文档序号:35450287发布日期:2023-09-14 05:28阅读:41来源:国知局
一种基于深度强化学习的干扰探测共享信号设计方法

本发明属于电子对抗领域,具体涉及一种基于深度强化学习的干扰探测共享信号设计方法。


背景技术:

1、随着现代科技的进步,雷达干扰技术与雷达侦察技术在现代电子战中扮演着“矛”和“盾”的角色,既相互制衡又相互发展。目前,敌我双方的对抗博弈正处于以高强度、强对抗、复杂性高为主要特征的白热化阶段。为了在保证己方生存的前提下摧毁敌方威胁目标,一机多能是武器装备发展的必然态势。因此,雷达电子战正向着更深层次兼容的方向发展,其关键问题在于“信号共享”的实现,即实现一种能够将干扰功能和探测功能集成的信号波形,又称为“共享信号”。一体化系统利用干扰机发射干扰探测共享信号,在对敌方雷达实施干扰的同时,进行隐蔽探测、定位和跟踪。

2、雷达干扰与雷达探测是相辅相成的关系,对于干扰探测共享信号而言,信号在具有干扰特性的同时还要具备探测能力,使得我方系统发射的干扰探测共享信号可以适应现代电子战环境。

3、随着学者对干扰探测共享信号研究的深入,针对共享信号的智能优化设计算法也被广泛研究。杨丹丹等发表的“混沌二相调制雷达/干扰机共享信号优化设计”针对基于混沌二相编码信号的干扰探测共享信号,对混沌序列进行遍历搜索以得到最优信号,该算法针对性较强,泛化能力较弱;韩国玺等发表的“基于icga的雷达与雷达干扰一体化信号的优化设计”,利用基于自适应排序选择策略的混沌遗传算法求解序列优化模型;朱晟坤等发表的“雷达通信干扰一体化ofdm共享信号优化方法”给出了基于遗传算法的正交频分复用子载波功率优化方法,但遗传算法中控制变量较多,其中的交叉率、变异率等参数的设定需要依靠经验确定,且首先需要对问题进行编码,找到最优解之后再进行解码,实现较为复杂;陈涛等发表的“基于icga的雷达与雷达干扰一体化信号的优化设计”利用q-learning与“切割”假设法结合的方法设计干扰信号波形。但q-learning中存在过估计问题,易使算法陷入局部最优。陈涛等发表的“基于dqn的探测干扰一体化波形优化设计”利用dqn算法求解目标函数,获取最优的幅度编码方式。dqn算法虽然增强了q-learning的学习能力,但并未解决过估计问题。

4、综上所述,现有干扰探测共享信号的优化设计大多采用遗传算法或强化学习算法,但是现有方法中控制变量较多,因此实现较为复杂;而且由于过估计现象易使算法陷入局部最优。


技术实现思路

1、本发明的目的是为解决现有方法中的控制变量多导致实现过程复杂,以及由于过估计导致算法易陷入局部最优的问题,而提出的一种基于深度强化学习的干扰探测共享信号设计方法。

2、本发明为解决上述技术问题所采取的技术方案是:一种基于深度强化学习的干扰探测共享信号设计方法,所述方法具体包括以下步骤:

3、步骤一、将己方干扰机作为深度强化学习模型的智能体,将对方雷达作为深度强化学习模型的环境;

4、步骤二、初始化深度强化学习模型的初始状态为s0,所述初始状态s0为随机产生的一组长度为l的二进制序列;

5、步骤三、初始化时刻t=0;

6、步骤四、智能体在t时刻的状态st下与环境进行交互后随机选取动作值at,智能体执行动作值at进入下一时刻状态st+1,所述状态st+1为智能体在t时刻执行动作值at后产生的下一时刻的二进制序列;

7、将智能体在状态st下执行动作值at进入状态st+1的奖励值表示为rt,将四元组<st,at,rt,st+1>存入经验回放池中,再执行步骤五;

8、步骤五、判断深度强化学习模型的当前值网络是否达到收敛状态,若达到收敛状态,则执行步骤八;否则当前值网络未达到收敛状态则执行步骤六;

9、步骤六、判断是否达到深度强化学习模型的参数的更新频率,若达到,则从经验回放池中抽取四元组对深度强化学习模型的当前值网络进行训练后,将当前值网络的参数复制到目标值网络后再执行步骤七,若未达到,则直接执行步骤七;

10、步骤七、令t=t+1,再返回步骤四;

11、步骤八、将深度强化学习模型的目标值网络输出的最终时刻的状态作为最优状态,利用最优状态对应的二进制序列来设计干扰探测共享信号。

12、本发明的有益效果是:

13、本发明以非均匀间歇采样重复转发信号作为共享信号,以信号脉压后幅度均值与标准差之比以及时延分辨常数和多普勒分辨常数构造联合目标函数,并在竞争深度q学习网络(dueling double deep q network,d3qn)算法的基础上引入状态价值函数,进而根据目标函数和状态价值函数获得奖励函数,利用d3qn求解奖励函数,以奖励函数的最大化为目标获取最优的共享信号。本发明的设计共享信号的方法实现过程简单,且不会出现过估计的问题,具有较好的优化设计能力和较高的稳定性,且泛化能力较强,突破了现有探测干扰共享信号性能的局限性。

14、对本发明优化设计后共享信号的脉压特性、恒虚警概率检测门限以及模糊函数进行分析,实验仿真结果表明,本发明的干扰探测共享信号经过脉压后产生大量假目标,有良好的压制干扰和欺骗干扰双重效果,同时信号具有较高的距离分辨力和速度分辨力。



技术特征:

1.一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述方法具体包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述步骤四中,随机选取动作值采用的是ε-greedy算法。

3.根据权利要求2所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述奖励值rt为:

4.根据权利要求3所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述根据状态st+1设计干扰探测共享信号,其具体过程为:

5.根据权利要求4所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述矩形信号gt(t)为:

6.根据权利要求5所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述信号s(t)的脉压后信号为:

7.根据权利要求6所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述参数d的计算公式为:

8.根据权利要求6所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述时延分辨常数cτ的计算公式为:

9.根据权利要求6所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述多普勒分辨常数cξ的计算公式为:

10.根据权利要求6所述的一种基于深度强化学习的干扰探测共享信号设计方法,其特征在于,所述深度强化学习模型的损失函数为:


技术总结
一种基于深度强化学习的干扰探测共享信号设计方法,它属于电子对抗领域。本发明解决了现有方法中的控制变量多导致实现过程复杂,以及由于过估计导致算法易陷入局部最优的问题。本发明以非均匀间歇采样重复转发信号作为共享信号,以信号脉压后幅度均值与标准差之比以及时延分辨常数和多普勒分辨常数构造联合目标函数,并在竞争深度Q学习网络算法的基础上引入状态价值函数,进而根据目标函数和状态价值函数获得奖励函数,利用D3QN求解奖励函数,以奖励函数的最大化为目标获取最优的共享信号。本发明方法可以应用于干扰探测共享信号的设计。

技术研发人员:肖易寒,刘禹汐,陈涛,张颖,陈志亮
受保护的技术使用者:哈尔滨工程大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1