本发明属于无线通信技术领域,特别是一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。
背景技术:
基于认知无线电理论,以动态频谱接入的方式进行抗干扰通信,是抗干扰领域的一大研究热点。而在实际抗干扰通信过程中,数据传输时间长度对抗干扰系统的吞吐量具有不可忽视的作用。当传输时间长度远大于干扰时间长度时,一次数据传输时间内容易遭受多次干扰,将严重降低通信的质量。反之,当传输时间长度远小于干扰时间长度时,会导致用户频繁切换工作信道,消耗较多的切换时间,同样也会严重降低通信的质量。所以,在动态频谱抗干扰系统中,信道选择与传输时间的优化都有非常重要的研究意义。
在现有研究中,大多数只聚焦于信道选择的优化问题,并提出了很多算法。单用户场景下,有研究工作(参考文献slimenif,schaeersb,chtourouz,etal,jammingmitigationincognitiveradionetworksusingamodifiedq-learningalgorithm[j],internationalconferenceonmilitarycommunications&informationsystems,2015:1-7.machuzaksandjayaweerask.reinforcementlearningbasedanti-jammingwithwidebandautonomouscognitiveradios[c].ieeeinternationalconferenceoncommunicationsinchina,2016:1-5.)将信道选择问题建模为markov决策过程,并用强化学习算法来解决;在多用户场景下,有研究工作(参考文献arefmaandjayaweerask.anovelcognitiveanti-jammingstochasticgame.cognitivecommunicationsforaerospaceapplicationsworkshop,2017:1-4.chenc,songm,xinc,etal.agame-theoreticalanti-jammingschemeforcognitiveradionetworks[j].ieeenetwork,2013,27(3):22-27.)将其建模为markov博弈问题,并用多智能体强化学习算法来解决。以上文献中针对单用户与多用户场景下的信道选择问题提出了比较好的解决方案,并通过仿真验证了其所提算法的性能,但是实际通信受信道、传输时间等因素的联合制约,上述文献中只考虑了单一因素的影响。
目前在抗干扰领域,主要研究了信道选择对抗干扰性能的影响,并未考虑抗干扰质量受到实际通信的各种因素影响,研究的抗干扰影响因素比较单一,没有综合考虑其他因素对抗干扰通信性能的影响。
技术实现要素:
本发明的目的在于提供一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。从而提高无线通信网络系统吞吐量。
实现本发明目的的技术解决方案为:一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。
进一步地,所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括以下步骤:
步骤1,设定在实际通信过程中,有m个可用信道,n个传输时间长度等级,其中可用信道集合记为
步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度td(k),执行d次基于快速强化学习的信道选择,获得当前传输时隙长度td(k)下的最优吞吐量性能r=r;
步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度td(k+1);
步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥k-1时,算法结束。
进一步地,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度td(k),执行d次基于快速强化学习的信道选择,获得当前传输时隙长度td(k)下最优的吞吐量性能r=r,具体如下:
步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为td,快速强化学习时隙数为d>0,设置初始快速强化学习时隙d=0,初始化q值表为全零矩阵,初始工作状态为s0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;
步骤2.2,在工作信道ft上传输数据,传输时间长度为td,计算工作信道ft的回报值r;
步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值
步骤2.4,根据q值表更新信道选择概率向量p(d),并根据p(d)探索选择下一时隙的工作信道ft';
步骤2.5,当d>0时,用户根据快速强化学习更新维护q值表;
步骤2.6,发送ack反馈至发射机端,以协调收发端的数据频率;
步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥d,算法结束,获得传输时隙长度td下的最优吞吐量性能r=r,其中r为回报值。
进一步地,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:
定义d时隙用户状态为s(d)=s(ft(d),fj(d)),状态空间为
定义d时隙做出的决策动作为
定义d时隙用户的信道选择概率向量为
进一步地,步骤2.4中所述的根据q值表更新信道选择概率向量p(d),并根据p(d)探索选择下一时隙的工作信道ft',具体如下:
信道选择概率向量p(d)的更新公式为:
其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,q(sd,m)为d时隙用户在sd状态下执行动作m对应的q值;
下一时隙的工作信道a(d+1)为:
a(d+1)=ft'(2)。
进一步地,步骤2.5中所述的用户根据快速强化学习更新维护q值表,具体如下:
用户根据快速强化学习维护一张q(s,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新q值表直至强化学习结束,q值表中的值将趋于稳定状态;
在任意d时隙,q值表的更新公式为:
qd+1(sd,ad+1)=qd(sd,ad+1)+α(rd+γφ-qd(sd,ad+1))(3)
其中,qd(sd,ad+1)为d时隙用户在sd状态下执行动作ad+1对应的q值,qd+1(sd,ad+1)、为更新后的q值,α为学习速率,γ为折扣因子,rd为当前状态sd的即时回报值,φ为sd+1状态下所有动作的最大q值,即智能体记忆里最大的利益;智能体在选择并执行动作ad+1后,在d+1时隙到达sd+1状态;
rd和φ的计算公式如下:
其中,
进一步地,步骤3中所述的更新传输时间长度选择向量ψn(k),具体如下:
每个传输时间长度的选择概率的更新公式如下:
其中0<b<1是迭代步长,i、j为传输时间长度,ri(k)为归一化吞吐量,从强化学习中获得;ψij(k)为k时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率;ψij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率。
本发明与现有技术相比,其显著优点在于:(1)通过在线学习的方式,从动态未知环境中实现了信道和传输时间长度的联合优化;(2)快速强化学习算法在减小状态空间的基础上,利用宽带频谱感知设计了一种评估函数并行更新规则,有效提升了收敛速度;(3)解决了信道选择优化和传输时间长度的联合优化问题,提高了无线通信网络系统的吞吐量。
附图说明
图1是本发明信道选择和传输时间联合优化的分层强化学习抗干扰算法的系统模型图。
图2是本发明中分层强化学习算法的时隙结构示意图。
图3是本发明中分层强化学习算法的流程示意图。
图4是本发明中下层快速强化学习算法单个时隙ts内的结构示意图。
图5是本发明中上层随机自动学习机算法的流程示意图。
图6是本发明实施例中不同传输时间条件下最优信道选择策略对应的吞吐量曲线图。
图7是本发明实施例中各信道的选择概率变化曲线图。
具体实施方式
下面参考附图并结合实施例来对本发明作进一步详细说明。
结合图1,本发明一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,对无线通信网络做如下刻画:在一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络中,干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。
结合图2和图3,一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,以较小的时间粒度进行基于快速强化学习的信道选择优化,以较大的时间粒度进行基于随机自动学习机的传输时间长度优化。用户每选择一种数据传输时间,则在该传输时间下进行多次基于强化学习的信道选择优化,获得信道选择收敛条件下的吞吐量性能,然后再次通过随机自动学习机选择新的传输时间长度。如此循环执行,强化用户对动态环境的认知,达到优化信道选择和传输时间长度的目的。
结合图4,为快速强化学习抗干扰算法在单个时隙ts内结构设计图,该结构中用户执行的操作如下:其中数据传输时间为td,宽带感知的时间为twbss,ack反馈时间为tack,智能学习时间tl忽略不计,每个快速强化学习周期(时隙)为ts=td+twbss+tack。处于s0(ft,fj)状态的用户,在ft信道上传输数据td时间,获得当前信道的回报值r,之后在全频段进行宽带频谱感知twbss时间,获得当前的干扰信道fj'。然后在当前s0(ft,fj)状态下,根据q值表选择一个最优的动作a,ft'=a,此时用户到达新的状态s1(ft',fj')。用户在更新评估函数
结合图5,为随机自动学习机算法的实现流程图,该结构中用户执行的操作如下:其中每个ts时隙进行一次强化学习选择信道,每d个强化学习时隙进行一次随机自动学习机学习,根据强化学习收敛后获得的吞吐量性能,调整传输时间长度。
进一步地,设定在实际通信过程中,假设有m个可用信道,n个传输时间长度等级,其中可用信道集合记为
其中,pm(k)为选择信道m的概率,且
从在线学习的角度看,给定信道选择和传输时间长度策略,根据历史的信道与传输时间长度选择策略和回报值信息,确定下一时刻的信道选择和传输时间长度。记所有的可行策略组成的集合为
结合图2~图5,一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括以下步骤:
一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,包括以下步骤:
步骤1,设定在实际通信过程中,有m个可用信道,n个传输时间长度等级,其中可用信道集合记为
步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度td(k),执行d次基于快速强化学习的信道选择,获得当前传输时隙长度td(k)下的最优吞吐量性能r=r;
步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度td(k+1);
步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥k-1时,算法结束。
进一步地,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度td(k),执行d次基于快速强化学习的信道选择,获得当前传输时隙长度td(k)下最优的吞吐量性能r=r,具体如下:
步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为td,快速强化学习时隙数为d>0,设置初始快速强化学习时隙d=0,初始化q值表为全零矩阵,初始工作状态为s0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;
步骤2.2,在工作信道ft上传输数据,传输时间长度为td,计算工作信道ft的回报值r;
步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值
步骤2.4,根据q值表更新信道选择概率向量p(d),并根据p(d)探索选择下一时隙的工作信道ft';
步骤2.5,当d>0时,用户根据快速强化学习更新维护q值表;
步骤2.6,发送ack反馈至发射机端,以协调收发端的数据频率;
步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥d,算法结束,获得传输时隙长度td下的最优吞吐量性能r=r,其中r为回报值。
进一步地,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:
定义d时隙用户状态为s(d)=s(ft(d),fj(d)),状态空间为
定义d时隙做出的决策动作为
定义d时隙用户的信道选择概率向量为
进一步地,步骤2.4中所述的根据q值表更新信道选择概率向量p(d),并根据p(d)探索选择下一时隙的工作信道ft',具体如下:
信道选择概率向量p(d)的更新公式为:
其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,q(sd,m)为d时隙用户在sd状态下执行动作m对应的q值;
下一时隙的工作信道a(d+1)为:
a(d+1)=ft'(2)
进一步地,步骤2.5中所述的用户根据快速强化学习更新维护q值表,具体如下:
用户根据快速强化学习维护一张q(s,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新q值表直至强化学习结束,q值表中的值将趋于稳定状态;
在任意d时隙,q值表的更新公式为:
qd+1(sd,ad+1)=qd(sd,ad+1)+α(rd+γφ-qd(sd,ad+1))(1)
其中,qd(sd,ad+1)为d时隙用户在sd状态下执行动作ad+1对应的q值,qd+1(sd,ad+1)、为更新后的q值,α为学习速率,γ为折扣因子,rd为当前状态sd的即时回报值,φ为sd+1状态下所有动作的最大q值,即智能体记忆里最大的利益;智能体在选择并执行动作ad+1后,在d+1时隙到达sd+1状态;
rd和φ的计算公式如下:
其中,
进一步地,步骤3中所述的更新传输时间长度选择向量ψn(k),具体如下:
每个传输时间长度的选择概率的更新公式如下:
其中0<b<1是迭代步长,i、j为传输时间长度,ri(k)为归一化吞吐量,从强化学习中获得;ψij(k)为k时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率;ψij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下,下一时刻选择传输时间长度为j的概率。
实施例1
本发明的第一个实施例具体描述如下,系统采用matlab软件对所提信道选择和传输时间联合优化模型及分层强化学习抗干扰算法进行了仿真验证,同时分析了所提算法的收敛性。
无线通信环境中包含1路扫频干扰信号、1个发射机和1个接收机,有m=5个可用信道,n=5个可选传输时间长度。具体的分层强化学习相关参数设置如表1所示。
表1仿真参数设置
仿真结果分析:
图6给出了在不同的传输时间长度下,基于强化学习的信道选择算法获得优化的吞吐量性能曲线图。通过仿真结果可以发现,随着传输时间的增加,系统的吞吐量性能呈现出先增后减的趋势,即存在最优的传输时间长度。
图7给出了信道选择和传输时间联合优化的分层强化学习抗干扰算法对不同传输时间的选择概率曲线。在学习开始阶段各传输时间的选择概率相同,随着不断学习,传输时间为2.0ms的选择概率逐渐趋近于1。通过与图6对比,可以证明所提算法能够选择出最优的传输时间。
综上所述,本发明提出的一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,不仅能通过快速强化学习以较小的时间粒度优化信道选择策略,还可以通过随机自动学习机以较大的时间粒度优化传输时间长度,获得最优的信道选择和传输时间联合策略。仿真结果验证了所提算法的收敛性,实现了信道选择和传输时间的联合优化,提升了系统的吞吐量性能。