一种面向非线性扫频干扰的智能抗干扰决策方法

文档序号:37157583发布日期:2024-02-26 17:21阅读:19来源:国知局
一种面向非线性扫频干扰的智能抗干扰决策方法

本发明属于通信抗干扰,特别是涉及一种面向非线性扫频干扰的智能抗干扰决策方法。


背景技术:

1、随着各种无线设备的广泛运用,电磁环境日益复杂,恶意干扰与通信抗干扰技术属于矛盾双方,互相促进,交替发展。线性扫频干扰是一种典型的动态干扰样式,具有干扰能量集中、干扰带宽较宽、实施方便、干扰效率高等优势,得到了广泛应用。但随着软件无线电、干扰认知、模式识别、信号检测等技术的迅速发展,以及无线通信系统计算能力的快速提升,针对常规线性扫频干扰的参数感知算法、行为预测算法及高效抗干扰策略均已被提出和应用,有望明显提高线性扫频干扰下无线通信的可靠性和有效性。

2、为此,非线性扫频干扰样式应运而生。它具有动态性强、干扰规律性弱、感知和抗干扰处理困难等优点,显著提高了干扰效能。目前,针对非线性扫频干扰,一般是采用基于机器学习的抗干扰决策算法,如基于q学习的抗非线性扫频干扰算法。但这类算法收敛速度慢、计算量大、实时性差,严重制约了无线通信可靠性和有效性的提高。


技术实现思路

1、本发明的目的是提供一种面向非线性扫频干扰的智能抗干扰决策方法,以解决上述现有技术存在的问题。

2、为实现上述目的,本发明提供了一种面向非线性扫频干扰的智能抗干扰决策方法,包括以下步骤:

3、基于马尔科夫决策过程表征非线性扫频干扰下的通信抗干扰过程,对无线通信系统在任一时隙下的环境状态、执行动作、即时奖励进行定义;

4、基于所述环境状态、执行动作构建q表,根据非线性扫频干扰的起止频率和扫频周期按线性扫频干扰初始化抗干扰策略,并根据初始化后的抗干扰策略对q表初始化,形成初始q表;

5、基于q学习算法对所述初始q表进行迭代更新,当算法收敛时获取最优q表,并获取所述最优q表的对应动作;

6、基于所述对应动作对无线通信系统的执行动作进行优化。

7、可选地,所述环境状态指无线通信系统面临的干扰状态,定义第t个时隙的状态为:

8、s(t)=[fj(t)]

9、其中,s(t)表示环境状态,fj(t)∈{1,2,...,m},分别表示第t个时隙的通信信道以及干扰所在的信道;干扰信号所有可能的状态为s1,s2,...,sm,组成状态空间s,其中s1=1,s2=2,…,sm=m;

10、所述执行动作指第t个时隙无线通信系统采取的动作:

11、a(t)=[fu(t)]

12、其中fu(t)∈{1,2,...,m}表示第t个时隙通信信号所在的信道,a(t)表示执行动作,无线通信系统所有可能的动作为a1,a2,...am,组成动作空间a,其中a1=1,a2=2,…,am=m;

13、所述即时奖励指当无线通信系统在s(t)状态执行动作a(t)时,获得即时奖励值为r(t):

14、

15、其中,

16、

17、式中,为信道切换代价,当用户当前时隙传输信道与上一时隙传输信道相同时为0,否则为1,即前一时隙与后一时隙采用不同通信信道时将产生信道切换成本,cf为信道切换代价系数。

18、可选地,所述q表构建完成后,将q表设为全0值。

19、可选地,所述根据非线性扫频干扰的起止频率和扫频周期按线性扫频干扰初始化抗干扰策略的过程包括:

20、无线通信系统感知获得非线性扫频干扰的起止频率和扫频周期;

21、基于所述起止频率和扫频周期,根据线性扫频干扰的抗干扰知识,初始化抗干扰策略,确定跳频频点和驻留时间。

22、可选地,所述根据初始化后的抗干扰策略对q表初始化,形成初始q表的过程包括:

23、基于跳频频点和驻留时间获取先验知识;

24、将所述先验知识赋值到q表中,完成q值的初始化,形成初始q表。

25、可选地,所述先验知识的获取公式为:

26、

27、其中,t为干扰周期,t/2为驻留时间,t表示第t个时隙,a和b均为任意常数,且满足a>b;跳频频点f1,f2按下式计算:

28、

29、

30、式中fl、fh为非线性扫频干扰起止干扰频率;当执行动作a(t)与f1或f2一致时,将q值赋为较高奖励值a;当执行动作a(t)与环境状态s(t)一致时,将q值赋为较低奖励值b,其它条件下,q值为0。

31、可选地,基于q学习算法对所述初始q表进行迭代更新的过程包括:

32、从前一时隙的环境状态出发,基于前一时隙的抗干扰策略,在前一时隙的传输子时隙执行对应的执行动作,获得对应的即时奖励,同时在当前时隙的感知子时隙感知当前时隙的环境状态,并更新初始q表。

33、可选地,所述初始q表的更新公式为:

34、q[s(t),a(t)]=(1-α)q[s(t-1),a(t-1)]+αr(t)

35、其中,q[s(t),a(t)]为更新后当前时隙初始q表的q值,s(t-1)为前一时隙的环境状态,a(t-1)为前一时隙的传输子时隙的执行动作,r(t)为对应的即时奖励,α为学习因子,当q表内的所有q值均不再明显变化时,则认为q表收敛至最优。

36、本发明的技术效果为:

37、本发明在未知非线性扫频干扰环境下,通过将已有的抗线性扫频干扰策略作为先验知识嵌入到q学习抗干扰过程中,实现无线通信系统快速学习未知非线性干扰行为,显著提高了收敛速度,迅速逼近最优传输策略,提高了非线性扫频干扰下的通信抗干扰处理的实时性。



技术特征:

1.一种面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述环境状态指无线通信系统面临的干扰状态,定义第t个时隙的环境状态为:

3.根据权利要求1所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述q表构建完成后,将q表设为全0值。

4.根据权利要求1所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述根据非线性扫频干扰的起止频率和扫频周期按线性扫频干扰初始化抗干扰策略的过程包括:

5.根据权利要求4所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述根据初始化后的抗干扰策略对q表初始化,形成初始q表的过程包括:

6.根据权利要求5所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述先验知识的获取公式为:

7.根据权利要求1所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述基于q学习算法对所述初始q表进行迭代更新的过程包括:

8.根据权利要求7所述的面向非线性扫频干扰的智能抗干扰决策方法,其特征在于,所述初始q表的更新公式为:


技术总结
本发明属于通信抗干扰技术领域,公开了一种面向非线性扫频干扰的智能抗干扰决策方法,包括:基于马尔科夫决策过程表征非线性扫频干扰下的通信抗干扰过程,对无线通信系统在任一时隙下的环境状态、执行动作、即时奖励进行定义;基于环境状态、执行动作构建Q表,初始化抗干扰策略,根据抗干扰策略对Q表初始化,形成初始Q表;基于Q学习算法对初始Q表进行迭代更新,当算法收敛时获取最优Q表以及对应动作;基于对应动作对无线通信系统的执行动作进行优化。本发明在未知非线性扫频干扰环境下,通过将已有的抗线性扫频干扰策略作为先验知识嵌入到Q学习抗干扰过程中,实现无线通信系统快速学习未知非线性干扰行为,提高通信的可靠性和有效性。

技术研发人员:牛英滔,许拔
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1