基于Q学习的无线通信防窃听干扰功率控制算法的制作方法

文档序号:14847394发布日期:2018-06-30 16:52阅读:313来源:国知局
基于Q学习的无线通信防窃听干扰功率控制算法的制作方法

本发明涉及机器学习和物理层安全领域,更具体地,涉及一种基于Q学习的无线通信防窃听干扰功率控制算法。



背景技术:

友好干扰机以一定的功率发射干扰,旨在干扰窃听者,使其无法窃听到合法发送机发送的信息,从而保证其保密性。友好干扰机干扰功率的调节对保密效果有着至关重要的影响。干扰功率过大,干扰机干扰窃听者的同时也会干扰主频道上的信息传输,造成合法接收者无法复原出发送者所传输的信息,更消耗了大量的能量,增加了网络的能耗;若干扰功率过小,窃听者仍然能够窃听大部分信息,达不到保密效果。干扰机需要通过感知合法发送者的信息发射功率从而对自身的干扰功率,做出合理设置和选择。

2013年的论文《Physical Layer Securityfor Two-Way UntrustedRelaying With FriendlyJammers》中提出最优干扰功率算法,是通过测量出可计算的状态量建立模型,以恒定最优功率进行干扰,从而实现通信信道的保密性。论文《Ally Friendly Jamming:How to Jam Your Enemy and Maintain Your Own Wireless Connectivity at the Same Time》提出用密钥适当控制友好干扰信号,使其对于未经授权的设备是不可预测的干扰,而合法接收者可以根据密钥进行恢复,但密钥一旦被窃听者获取,将很难在短时间发现并有效保护秘密信息。论文《Secure Communication through Wireless-Powered Friendly Jamming:Jointly Online Optimization over Geography,Energy and Time、Competing mobile network game:Embracing antijamming andjammingstrategies with reinforcement learning》是针对频道校对、干扰器地理位置布置等因素进行强化学习,假定前提是对准频道即干扰成功。但发送者的信息发射功率通常由于合法接受者的地理位置、接收功率、解码能力等因素而变化波动。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于Q学习的无线通信防窃听干扰功率控制算法,通过Q学习算法训练干扰机,使其能够根据合法发送者的信息发射功率不断尝试,发射干扰功率,最终达到最佳的干扰功率

为解决上述问题,本发明提供的技术方案为:一种基于Q学习的无线通信防窃听干扰功率控制算法,包括以下步骤:

S1.初始化发射功率Ps、安全评估系数ρ、干扰功率xi和工作时间的等级ts,将边缘服务器的工作时间ts平均分割为k个部分,记作一个时隙

S2.计算第k个时隙工作状态的相关量;

S3.友好干扰机使用Q学习算法学习,在每个时隙根据系统状态S(k)做出决策,选择相应的动作xi(k)

S4.边缘服务器完成Q学习训练后,友好干扰机根据Q值表中当前状态S(k)对应的方程调度动作发送友好干扰信号。

进一步地,所述的S1步骤包括:

S101.将发射功率Ps平均分割为n档,记发射功率集为L,令L=[P1,P2,···,Pn];

S102.确定合法发送方与接收方协同做出的安全评估系数ρ,ρ∈[0,1];

S103.将合法发送者发射功率Ps、安全评估系数ρ合并得到状态集合,记为S,S=[Ps,ρ];

S104.将友好干扰机的干扰功率平均分割为n档,记友好干扰机的干扰功率动作集为A,令A=[x1,x2,···,xn];

S105.将边缘服务器的工作时间ts平均分割为k个部分,记作一个时隙ts(k)。

进一步地,所述的S2步骤包括:

S201.确定信道衰落系数为λ,λ∈[0,1]、测量合法发送者到接受者的距离dsr、合法发送者到窃听者的距离dse、友好干扰机到窃听者的距离为dje;

计算窃听者窃听渠道所得信息:

S202.计算合法接收者所得信息:其中θ∈[0,1]为在加密技术帮助下,合法接受者对干扰的免疫程度;

S203.计算测量信息保密容量C(Ps(k),xi(k)):

C(Ps(k),xi(k))=log(γr(Ps(k),xi(k)))-log(γe(Ps(k),xi(k)))

S204.计算保密信息量I(S(k),xi(k)):

I(S(k),xi(k))=ρ(k)C(Ps(k),xi(k))

S205.计算测量系统能量损耗Es(xi(k)):

Es(xi(k))=xi(k)Ei+xi(k)Ev+ηEn

其中,Ei为测量友好干扰机单位能量损耗,Ev为边缘服务器计算能量损耗,En为常规信息传输能量损耗,记η为常规系数,η∈[0,1];

S206.根据上述测量得到的保密容量和能量损耗,计算无线通信防窃听干扰功率控制算法的即时效益函数:

U(S(k),xi(k))=I(S(k),xi(k))-Es(xi(k))。

进一步地,所述的S3步骤具体包括:

S301.根据合法发送者的发射功率组成的状态集和干扰机干扰功率动作集初始化Q矩阵;令矩阵V=mn,m≥0,n≥0,并列出Q值表;预设Q学习的学习率和未来重视程度的衰减系数分别为α∈(0,1]、δ∈(0,1],调节α、δ至合适的取值;

S302.测得第k个时隙合法发送者的发射功率Ps(k),安全评估系数ρ(k),得到状态值S(k);查询Q值表中S(k)对应的最优干扰功率xi*,记最优调度概率为(1-ε),ε∈(0,1];通过策略选择此时的调动动作,调节ε至合适取值;

S303.当k=1,在初始时隙由于无法测量状态S1随机选择一个干扰功率动作当k≥2,在k时隙测量测量状态为S(k),友好干扰机干扰功率为此时边缘服务器通过S206步骤的公式计算本次训练获得的即时效益U(S(k),xi(k));

S304.在时隙k结束时,依据步骤S101至S104测量第(k+1)个时隙发送者的发射功率Ps(k+1)和安全评估系数ρ(k+1),从而确定下一时隙的状态值S(k+1)

S305.更新友好干扰机在状态S(k)下采取动作的Q方程和通过最优动作得到的V方程;边缘服务器根据公式为:

S306.重复步骤S302至步骤S305,直至得到一个收敛的理想Q值表。

在本发明中,使用强化学习中的Q学习算法设计无线通信防窃听干扰功率控制算法。由于通信过程中通信信道的抗干扰程度、能量损耗、发射功率波动都难以预测,Q学习算法训练干扰机使其能够根据合法发送者的信息发射功率、合法发送方与接收方协同商定的安全评估系数进行不断尝试,发射干扰功率,最终达到最佳的干扰功率,从而取得信息安全性的最大化和网络能量损耗的最小化,提高网络能量利用率的理想效果。

Q学习算法的核心优势在于它是一种无模型的深度学习算法。它无需对状态量进行精准具体的测定,只需在设备的工作过程中对相关工作状态进行观测并通过马尔科夫决策过程将反馈效益最大化,然后对Q函数进行更新即可不断优化决策。本发明在未知信号模型的情况下,基于受环境波动而不断变化的发射功率、合法发送方与接收方协同商定的安全评估系数生成状态空间,将能量损耗等可获取的信息量考量列入效益函数,解决由于关键物理量无法测量而难以优化友好干扰功率的问题。更进一步的,优化最终达到平衡最佳干扰功率和能量损耗之间的平衡的状态,从而取得信息安全性的最大化和网络能量损耗的最小化,提高网络能量利用率的理想效果。

与现有技术相比,有益效果是:本发明提供的一种基于Q学习的无线通信防窃听干扰功率控制算法,综合考虑干扰器的干扰能力和边缘服务器的能量损耗问题,使用Q学习算法不需要测量具体的能量损耗、信息量,仅通过迭代尝试即可得到最优;通过Q学习算法训练干扰机,使其能够根据合法发送者的信息发射功率不断尝试,发射干扰功率,最终达到最佳的干扰功率,从而取得信息安全性的最大化和网络能量损耗的最小化,提高网络能量利用率的理想效果。

附图说明

图1为本发明方法流程图。

图2为本发明功能结构图。

具体实施方式

如图1所示,一种基于Q学习的无线通信防窃听干扰功率控制算法,包括以下步骤:

步骤1:初始化发射功率Ps、安全评估系数ρ、干扰功率xi和工作时间的等级ts。

S101.将发射功率Ps平均分割为n档,记发射功率集为L,令L=[P1,P2,···,Pn];

S102.确定合法发送方与接收方协同做出的安全评估系数ρ,ρ∈[0,1];

S103.将合法发送者发射功率Ps、安全评估系数ρ合并得到状态集合,记为S,S=[Ps,ρ];

S104.将友好干扰机的干扰功率平均分割为n档,记友好干扰机的干扰功率动作集为A,令A=[x1,x2,···,xn];

S105.将边缘服务器的工作时间ts平均分割为k个部分,记作一个时隙

步骤2:计算第k个时隙工作状态的相关量。

S201.确定信道衰落系数为λ,λ∈[0,1]、测量合法发送者到接受者的距离dsr、合法发送者到窃听者的距离dse、友好干扰机到窃听者的距离为dje;

计算窃听者窃听渠道所得信息:

S202.计算合法接收者所得信息:其中θ∈[0,1]为在加密技术帮助下,合法接受者对干扰的免疫程度;

S203.计算测量信息保密容量C(Ps(k),xi(k)):

C(Ps(k),xi(k))=log(γr(Ps(k),xi(k)))-log(γe(Ps(k),xi(k)))

S204.计算保密信息量I(S(k),xi(k)):

I(S(k),xi(k))=ρ(k)C(Ps(k),xi(k))

S205.计算测量系统能量损耗Es(xi(k)):

Es(xi(k))=xi(k)Ei+xi(k)Ev+ηEn

其中,Ei为测量友好干扰机单位能量损耗,Ev为边缘服务器计算能量损耗,En为常规信息传输能量损耗,记η为常规系数,η∈[0,1];

S206.根据上述测量得到的保密容量和能量损耗,计算无线通信防窃听干扰功率控制算法的即时效益函数:

U(S(k),xi(k))=I(S(k),xi(k))-Es(xi(k))。

步骤3:友好干扰机使用Q学习算法学习,在每个时隙根据系统状态S(k)做出决策,选择相应的动作xi(k)

S301.根据合法发送者的发射功率组成的状态集和干扰机干扰功率动作集初始化Q矩阵;令矩阵V=mn,m≥0,n≥0,并列出Q值表;预设Q学习的学习率和未来重视程度的衰减系数分别为α∈(0,1]、δ∈(0,1],调节α、δ至合适的取值;

S302.测得第k个时隙合法发送者的发射功率Ps(k),安全评估系数ρ(k),得到状态值S(k);查询Q值表中S(k)对应的最优干扰功率记最优调度概率为(1-ε),ε∈(0,1];通过策略选择此时的调动动作,例如:以(1-ε)的概率选择最优调度动作,记作以ε的概率随机选择除最优外的其余调度动作,记作x-i,调节ε至合适取值;

S303.当k=1,在初始时隙由于无法测量状态S1随机选择一个干扰功率动作当k≥2,在k时隙测量测量状态为S(k),友好干扰机干扰功率为此时边缘服务器通过S206步骤的公式计算本次训练获得的即时效益U(S(k),xi(k));

S304.在时隙k结束时,依据步骤S101至S104测量第(k+1)个时隙发送者的发射功率Ps(k+1)和安全评估系数ρ(k+1),从而确定下一时隙的状态值S(k+1)

S305.更新友好干扰机在状态S(k)下采取动作的Q方程和通过最优动作得到的V方程;边缘服务器根据公式为:

S306.重复步骤S302至步骤S305,直至得到一个收敛的理想Q值表。

步骤4:边缘服务器完成Q学习训练后,友好干扰机根据Q值表中当前状态S(k)对应的方程调度动作发送友好干扰信号。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1