一种基于深度确定梯度强化学习的通信抗干扰方法与流程

文档序号:16774273发布日期:2019-02-01 18:36阅读:356来源:国知局
一种基于深度确定梯度强化学习的通信抗干扰方法与流程

本发明属于无线通信技术领域,涉及一种基于深度确定策略梯度强化学习的通信抗干扰方法。



背景技术:

随着无线通信技术的发展,无线通信系统面临的电磁环境日益复杂恶劣,既可能会遭受来自己方通信的非故意干扰,也可能会受到敌方故意释放的干扰信号影响。传统的抗干扰手段均针对干扰源的静态干扰方式,采取固定抗干扰策略。随着干扰手段的智能化,干扰源可以根据合法用户通信状态的改变动态调整干扰策略,使得传统抗干扰方法无法保证合法用户在动态干扰环境下的正常通信。因此有必要针对干扰源的动态干扰策略采取相应的智能抗干扰策略,保证合法用户在动态干扰环境下的正常通信。

目前,针对干扰源的动态干扰手段主要采用基于强化学习的方式进行抗干扰策略动态调整。该方法首先对抗干扰策略空间进行离散化处理,构造抗干扰策略集;其次构造与合法用户通信质量相关的效用函数;通过频谱采样和预处理获取环境状态矩阵,并将环境状态矩阵通过深度神经网络实现离散策略选择;最后把选择策略作用于环境并估计环境状态转移。通过多次学习,得到在动态干扰策略下的最优通信策略。具体可参考:xinliu,etc.,“anti-jammingcommunicationsusingspectrumwaterfall:adeepreinforcementlearningapproach”,ieeecommunicationletters,vol.22,no.5,may.2018。该方法通过对功率选择策略进行量化离散处理,构成功率选择集合。然后构造深度神经网络,并将从无线干扰环境中采样的频谱时隙矩阵通过该神经网络输出对应每个离散功率策略的状态行为函数值。最后通过∈-greedy贪心策略进行功率策略的选择。然而,该方法对功率进行量化离散处理时会引入量化误差,使得功率选择结果无法达到最优。不仅如此,在离散化功率时对于不同子信道上的发射功率,根据量化离散处理规则,构造的策略集合有需要包含n×l个元素,其中n是信道数,是量化级数,对应深度神经网络需要个ln输出。当系统信道数和量化级数过多时,神经网络输出个数成指数增长,增加神经网络的训练和基于∈-greedy贪心策略进行策略选择的复杂度。



技术实现要素:

针对以上技术问题,本发明提出一种基于深度确定策略梯度策略强化学习机制(deepdeterministicpolicygradient,ddpg)的通信抗干扰功率选择方法。在对功率策略空间进行离散化的情况下,完成确定抗干扰功率策略的选择,提高抗干扰性能,降低策略选择复杂度。

本发明首先根据干扰源数量和无线信道模型构造干扰环境。根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报。将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。本发明中构造了包括目标演员(target_actor)、估计演员(evaluate_actor)、目标评论家(target_critic)和估计评论家(evaluate_critic)的四个深度神经网络,分别用于基于环境状态矩阵的策略选择、策略选择网络训练、策略选择评价和评价网络训练等操作。其中,目标演员神经网络和估计演员神经网络具有相同的网络结构,目标评论家神经网络和估计评论家神经网络具有相同的网络结构。环境状态矩阵通过目标演员神经网络输出抗干扰策略。合法用户对发射功率调整和信道选择,实现智能抗干扰策略调整。根据无线干扰环境模型和抗干扰策略计算回报函数值和转移环境状态矩阵。当前环境状态、当前抗干扰策略、回报函数值、和转移环境状态构成经验组,存储在经验池中。最后抽取经验池中的经验组完成对估计演员神经网络和估计评论家神经网络的训练。当学习步数达到一定数量时,通过估计演员神经网络和估计评论家神经网络的参数分别完成对目标演员神经网络和目标评论家神经网络的更新。该学习机制一直持续,直到学习结果收敛。

利用本发明所提合法用户智能抗干扰方案实现包括以下步骤:

s1,智能抗干扰方案各个算法模块定义:干扰环境定义、干扰环境状态定义、回报函数定义、抗干扰策略定义、经验存储池定义。

s2,构造目标演员神经网络(target_actor)、估计演员神经网络(evaluate_actor)、目标评论家神经网络(target_critic)和估计评论家神经网络(evaluate_critic)四个深度神经网络。其中目标演员神经网络和估计演员神经网络具有相同的网络结构、目标评论家神经网络和估计评论家神经网络具有相同的结构。

s3,将环境状态信息,即频谱时序矩阵通过目标演员神经网络得到抗干扰策略,该策略作用于干扰环境,计算抗干扰策略在当前干扰环境下的回报值和转移状态矩阵,并进行存储。

s4,从经验池中抽样经验组对估计演员神经网络和估计评论家神经网络进行训练和参数跟新。

s5,判断学习机制是否满足停止条件,若满足,则停止学习得到最后抗干扰策略;否则回到s2继续学习。

根据本发明的实施例,上述步骤s1包括以下步骤:

s1.1,干扰环境定义:根据干扰者数量、干扰方式和无线信道模型定义干扰环境。

s1.2,干扰环境状态定义:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定。

s1.3,回报函数定义:根据合法用户的通信质量指标构造反馈回报函数。

s1.4,抗干扰策略定义:将不同子信道上的发射功率组合定义为抗干扰策略集。每个子信道上的发射功率可以是连续区间上的任何值。

s1.5,经验存储池定义:预设一个固定大小的经验存储池,用于存储由当前环境状态矩阵、抗干扰策略、回报函数值和转移环境状态矩阵组成的经验组。

根据本发明实施例,上述步骤s2包括以下步骤:

s2.1,采用相同结构的卷积神经网络构造目标演员神经网络和估计演员神经网络。卷积神经网络包括多个卷积层、多个池化层和多个全连接层。目标演员神经网络根据输入频谱时隙状态矩阵完成抗干扰策略的选择。估计演员神经网络根据抽样经验组完成网络训练和参数更新。当训练步数达到预设值时,用估计演员神经网络参数覆盖目标演员神经网络参数,从而完成目标演员神经网络的参数更新。

s2.2,采用相同结构的常规深度神经网络构造目标评论家神经网络和估计评论家神经网络。该深度神经网络包括多个神经网络层,每个神经网络层中包括多个神经元、激活函数。目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣。估计评论家神经网络根据抽样经验信息进行网络训练和参数更新。当训练步数达到预设值时,用估计评论家神经网络参数覆盖目标评论家神经网络完成参数更新。

根据本发明的实施例,上述步骤s3包括以下步骤:

s3.1,根据步骤s1.2中环境状态的定义,将环境状态矩阵通过步骤s2.1中构造的目标演员神经网络得到抗干扰策略。并将抗干扰策略作用于步骤s1.1定义的干扰环境,计算回报函数值和下一步转移后的状态矩阵。

s3.2,定义一个容量为m的经验池,并将s3.1中的当前环境状态、选择的策略行为、得到的回报函数值和下一步环境状态构成经验组{s,a,r,s_}存储在经验池中。

根据本发明的实施例,上述步骤s4包括以下步骤:

s4.1,从s3.2得到的经验池中随机抽取一定数量的经验组用于卷积神经网络参数的训练和更新。

s4.2,通过步骤s4.1抽取的经验组中的当前状态s和下一步状态s_,通过目标神经网络和估计神经网络得到对应的两个状态行为值。通过当前回报函数值和两个状态行为值构建损失函数,通过最小化损失函数对估计评论家神经网络完成网络训练和更新。

s4.3,将步骤s4.1抽取的经验组中的当前状态s通过估计评论家神经网络得到其状态行为值,将步骤s4.1抽取经验组中的当前状态s和策略a通过目标演员神经网络得到对应状态行为值。根据两个状态行为值构造损失函数,进行估计演员神经网络的训练和参数更新。

本发明的有益效果为:

本发明基于深度确定策略梯度策略的强化学习机制完成通信中连续抗干扰策略选择。克服了量化离散处理策略空间带来的量化误差,降低了神经网络输出单元格数和网络复杂度,提高了抗干扰算法性能。

附图说明

图1为本发明设计的基于确定深度策略梯度策略强化学习机制的抗干扰策略选择算法处理框架

图2为本发明设计的目标演员神经网络和估计演员神经网络结构

图3为本发明设计的目标评论家神经网络和估计评论家神经网络结构

图4为本发所设计的算法与最优策略选择、随机策略选择和基于dqn离散化决策方法的算法性能对比。

具体实施方式

为使本发明的步骤更加详细清楚,以下结合附图和实施案例对本发明进一步详细说明。

实施例一

图1是本发明算法具体实施方法,下面结合图1详细说明各个步骤及其原理。

本发明提出的基于深度确定梯度策略强化学习连续策略选择抗干扰方法算法实现框架如图1所示。步骤s1中s1.1中完成干扰和无线环境建模。场景中多个干扰源对合法通信链路进行干扰,干扰方式可包括但不局限于:单音干扰、多音干扰、线性扫频干扰、部分频带干扰和噪声跳频干扰五种干扰。干扰源可以通过调整干扰参数或者切换干扰方式实现对合法用户的干扰动态调整。五种干扰方式具体数学模型如下:

(1)单音干扰

单音干扰信号的复基带表达式为:

其中,a为单音干扰信号幅度,fj为单音干扰信号频率,为单音干扰初始相位。

(2)多音干扰

多音干扰信号的复基带表达式为:

其中,am为多音干扰中的第m个单音干扰幅度,fm为第m个单音干扰的频率,为第m个单音干扰的初始相位。

(3)线性扫频干扰

线性扫频干扰信号的复基带表达式为:

其中,a是幅度,f0是初始频率,k是调频系数,是初始相位,t是信号时长。

(4)部分频带干扰

部分频带噪声干扰在部分频带内表现为高斯白噪声,其复基带的表达式:

其中,un(t)为服从均值为零,方差为的基带噪声,fj为信号的中心频率,为[0,2π]内均匀分布且相互独立的相位。

(5)噪声调频干扰

噪声调频信号的复基带可以如下表示:

其中,a为噪声调频信号的幅度,f0为噪声调频信号的载波频率,kfm为调频指数,ξ(t)为零均值、方差为一定值的窄带嘎斯白噪声。其中是一个维纳过程,属于一个的高斯分布。调频指数kfm和方差共同决定了噪声调频的有效带宽。

干扰源根据最大干扰效果动态选择干扰方式和相应的参数。

合法用户抗干扰策略通过环境中无线频谱信息采样,计算回报函数值r,计算环境状态矩阵s;根据回报函数、环境状态、当前抗干扰策略和下一步转移状态矩阵构建历史经验组,存储在经验池中;神经网络根据当前环境状态矩阵进行下一步抗干扰行为选择,并将该抗干扰策略作用于环境,同时根据历史经验进行参数的更新;整个算法迭代进行直到算法收敛。具体的,该算法的具体实施步骤如下:

本发明中步骤s1.2、s1.3和s1.4分别完成环境状态设计、回报函数的设计和抗干扰策略的设计。在多子信道情况下,合法链路接收端在子信道上接收的信号可表示为:

其中m∈{1,…,n}是信道索引号,n是信道个数;xt是有用发射信号,xj是干扰信号,是子信道上高斯白噪声;j∈{1,…,j}是干扰源索引号,j是干扰源个数;t是时序索引号;表示合法通信用户间的信道,表示干扰源到合法用户接收机的干扰信道。因此,合法用户接收端可获得的信干噪比和可达速率可表示为:

其中是子信道上的等效信道增益,是对应噪声功率。接收端在时刻t的可达速率可表示为n个子信道上的速率总和:

抗干扰决策之前,首先通过对无线环境的采样得到每个子信道上对应的功率,所有子信道的功率构成功率向量p=[pt,1,pt,2,…,pt,n],其中n对应子信道数目。状态矩阵s由多个历史功率向量构成st=[pt-1pt-2…pt-t]t,其中t是观测时间窗。同时考虑到抗干扰策略在发射功率方面的限制,本发明中设计的回报函数考虑了所采用的抗干扰策略同时在信干噪比上的增益和功率开销,具体表达式如下:

其中是干扰源在信道上的干扰功率;函数表示当fj=m时,输出1,否则输出0;是发射功率开销。

由于受到干扰源的影响,在某些子信道上的干扰强度较大,可以通过调整相应信道上的发射功率,保证在可控功率范围内最大化链路通信质量。因此本发明中在每个子信道上的抗干扰策略为在该子信道上的发射功率。本发明中将假设子信道m最大发射功率为其中m∈{1,…,n},因此抗干扰策略集可表示为

发明步骤s1中s1.5步骤中定义了经验组和经验池,通过对历史经验的存储和抽样提供后续步骤中的神经网络的训练和参数更新。根据图1的算法结构描述,发明中定义了容量大小为me的经验池,可存储me条历史经验。通过步骤s1中s1.2-s1.5得到的当前环境状态s,回报函数值r,当前抗干扰策略at和转移环境状态s-构建经验组{s,r,at,s_}。该经验组被逐条存入经验池中,当经验池中存储的经验组条数达到容量上限,存储时间最长的经验组被新进的经验组覆盖。

在发明步骤s2步骤s2.1中,采用卷积神经网络构造目标演员神经网络μ(·|θμ)和估计演员神经网络μ'(·|θμ)。目标演员神经网络和估计演员神经网络具有相同的网络结构,具体结构如图2所示,具体参数参考实施例二。由步骤s1.2得到的当前环境状态矩阵通过目标演员神经网络从连续抗干扰策略空间上选择对应子信道的发射功率向量:为了实现对未知策略的探索,克服落入局部最优的情况,该功率向量与相同维度的随机探索噪声叠加,即组成当前抗干扰策略at。该策略作用于环境,完成策略与干扰环境的交互,从而进行下一步转移环境状态和回报函数值的计算。在发明步骤s2步骤s2.2中采用相同深度神经网络结构构造目标评论家神经网络q(·|θt)和估计评论家神经网络q'(·|θt)。目标演员神经网络根据输入频谱时隙状态矩阵完成抗干扰策略的选择。估计演员神经网络根据抽样经验组完成网络训练和参数跟新。当训练步数达到预设值时,用估计演员神经网络参数覆盖目标演员神经网络参数,从而完成目标演员神经网络的参数更新。目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣。估计评论家神经网络根据抽样经验信息进行网络训练和参数更新。当训练步数达到预设值时,用估计评论家神经网络参数覆盖目标评论家神经网络完成参数更新。

步骤s3中步骤s3.1中将s2.2中得到的策略作为当前信道m上的发射功率,下一次计算环境状态时根据新的发射功率和干扰模型进行计算。步骤s3中步骤s3.2中,按照s1.5中定义的经验存储池的容量和结构,将s2.1中的当前环境状态、s2.2中选择的策略行为、s2.2中得到的回报函数值和s3.1得到的下一步环境状态构成经验组{s,at,r,s_}存储在该经验池中。当存储的经验组达到经验组的容量上限时,最新的得到的经验组存储在最旧经验组存储的存储单元中,覆盖该最旧经验组。

在步骤s4中步骤s4.1中,根据预设定的batch_size大小从步骤s3中的经验存储池中抽取对应个数的经验组完成对估计评论家q'(·|θt)神经网络的参数训练。根据图1所示,步骤s4中步骤s4.2对估计评论家神经网络q'(·|θq')的训练通过最小化其损失函数loss_function实现,其中loss_function的定义如下:

lloss_function(θq')=(1/n)∑i(yi-q(si,ai|θq'))2(10)

yi=ri+γq(si+1,μ'(si+1|θμ')|θq)(11)

其中q(si,ai|θq)表示依赖于估计演员神经网络参数θq‘的状态行为值函数,γ表示长期回报折扣因子。当训练步数达到更新步数i时,将估计评论家神经网络中的网络参数复制到目标评论家神经网络中完成网络参数的更新。步骤s4中步骤s4.3对估计演员神经网络μ'(·|θμ')的训练通过强化目标评论家神经网络最优策略选择方向和估计演员神经网络当前环境状态下参数最优选择方向实现,更新方法如下:

当训练步数达到更新步数i时,将估计演员神经网络中的网络参数复制到目标演员神经网络中完成网络参数的更新。

在步骤s5中,随着训练的持续进行,回报函数r逐渐收敛到其最优值。本发明中计录ζ步r的均值变化情况,当该均值变化足够小时认为训练收敛,停止该算法,并将最终输出的策略抗干扰作为最终策略。收敛的判定方式如下:

其中υ是判定收敛的终止条件,设置为一个非常小的正值。

实施例二

本发明所提出的用于抗干扰决策的卷积神经网络结构如图2所示:仿真中假设系统划分128个子信道,根据频谱采样信号构造128×128的频谱时隙状态矩阵作为卷积神经网络的输入;然后经过三个卷积层、两个池化层和两个全连接层输出1×128的功率向量。具体的,卷积神经网络中所的卷积层、池化层和运算如下:

假设卷积运算的输入数据为i,相应的卷积核k与输入数据的维度相同。以三维输入数据为例(当输入数据为二维时,可将第三维看成1)。卷积操作要求卷积核k第三维与输入数据i第三维相同,用w1,w2,w3表示各三个维度,经过卷积操作后,输出为:

在卷积神经网络池化操作通常包括最大化池化、均值池化,其计算方法如下:

均值池化:

最大值池化:

本发明中采用了最大值池化。

具体的,本实施例中,每一层结构如图2所示,每层结构具体描述如下:

卷积神经网络第一层为输入层,其输入尺寸由子信道个数和观测时隙长度决定。在网络模型中可用频谱划分为128个子信道,观测时隙为长度为128,因此输入状态矩阵维度为128×128。

卷积神经网络第二层有卷积、relu激活函数和池化操作组成。具体的,来自输入层的状态矩阵首先经过卷积核尺寸为3×3的卷积操作,其中卷积核个数为20,卷积步长为1,采用relu作为激活函数。经过该操作后的输出结果维度为126×126×20。其中relu激活函数操作为:

y=max{0,x}(17)

再将该输出进行最大池化操作,池化尺寸为2×2。经过第一层的卷积池化操作后输出维度为63×63×20。

来自第二层的卷积池化操作后的输出通过卷积网络第三层,卷积操作得到31×31×30的输出。其中卷积核尺维度为3×3,卷积核个数为30,激活函数采用relu函数,卷积步长为2。

卷积网络第四层将第三层的输出作为输入进行卷积操作,采用的卷积核尺寸为4×4,卷积核个数为30,卷积步长为2,并对w1,w2两个维度进行补零操作,补零个数为1。经过该层卷积操作后输出维度为15×15×30。并将改成卷积操作后的输出进行最大池化操作,池化尺寸为3×3,经过池化后输出维度为5×5×30。

卷积网络第五层为全连接层,在该层中构建1024个神经元,激活函数采用relu函数。来自卷积神经网络第四层维度为5×5×30的输出被重组为维度为1×750的向量,经过该全连接层处理后输出维度1×360的向量。

卷积网络第六层为全连接层,在该层中构建128个神经元,激活函数采用relu函数。来自卷积神经网络第五层的输出经过该全连接层处理后输出与抗干扰策略集维度对应的q(·|θt)值向量,输出维度为1×128。

图3为用于实现估计评论家神经网络和目标评论家神经网络的层神经网络,神经网络结构。第一层为输入层,其维度为128×(128+1),其中包含表示信道功率信息的状态矩阵st,和用于表示策略的功向量at。第二层为神经层1,神经元个数为1024,输出维度为1024×1,激活函数为relu函数。第三层为神经层2,神经元个数为128,输出维度为128×1,采用relu激活函数。第四层为神经层3,神经元个数为32,输出维度为32×1,采用relu激活函数。第五层为神经层4,神经元个数为1,输出用于评价演员网络策略选择优劣的q值。

进一步地,图4展示了本发明中基于深度确定策略梯度强化学习的连续功率选择抗干扰策略性能。图中进行了随机功率选择策略、基于dqn的离散功率选择策略、本发明所提基于深度确定策略梯度的连续功率选择策略和理想最优功率选择策略的性能。从图中可以看出,本发明中所提出的算法回报函数相比随机功率选择策略有很大的性能提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1