一种高额奖励惩罚的竞争深度Q网络功率控制方法

文档序号:26749807发布日期:2021-09-25 02:07阅读:101来源:国知局
一种高额奖励惩罚的竞争深度Q网络功率控制方法
一种高额奖励惩罚的竞争深度q网络功率控制方法
技术领域
1.本发明涉及认知无线电控制方法领域,更具体地,涉及一种高额奖励惩罚的竞争深度q网络功率控制方法。


背景技术:

2.伴随着无线通信技术的迅猛发展和广泛使用,频谱资源的需求不断激增,与之相对的却是无线频谱资源日渐枯竭的严峻现实,这逐渐成为无线通信技术进一步发展亟须解决的一大难题。然而,目前大部分频谱资源的分配还是使用比较传统且固定的分配方法,即把特定的频段指定划给特定的用户,其他用户需得到授权以后才能使用这些频谱资源。学术界和工业界做了大量的研究表明,一方面大量的频谱资源其实并未真正被授权用户所使用,大量授权频段会处于空闲状态,授权用户的空闲频段使用率较低,另一方面却是公共频段频谱资源的疯抢与拥堵。因此,如何解决频谱资源分配过程中的这些矛盾,提高频谱利用率就显得极为重要。
3.认知无线电(cognitive radio,cr)技术的概念,其目的是为了缓解频谱资源短缺和频谱利用率低等问题。认知无线电的认知过程分成六个步骤,分别是定位(orient)、观察(observe)、学习(study)、决策(decide)、计划(plan)和行动(act)。认知无线电通过对外部环境的观察与学习,智能调节自身的决策与定位,实现相应的计划和行动,对外界环境作出自适应调整过程。对于频谱共享而言,认知无线电核心思想是:在对取得频谱使用权的授权用户(primary user,pu)不产生干扰的前提下,次用户(second user,su)通过感知周围的无线电环境,伺机进行频谱接入以提高频谱利用率,该技术通过动态频谱分配技术实现多个频段的接入,能够对空闲频谱进行充分利用。
4.在强化学习(rl)的基础上,结合深度学习发展而来的深度强化学习算法在很多人工智能领域取得与人类相当的水平,如围棋、dota、startcraft ii等。具体的,深度q网络(deep q

networks,dqn)是将rl过程与一类神经网络(deep neural network)相结合,逼近q动作值函数,神经网络可以弥补q学习在泛化和函数逼近能力方面的局限性。而竞争深度q网络(dueling dqn)是在普通dqn的基础上做了算法的改进,将状态的价值和该状态下的动作advantage值求和作为q值进行重新评估。
5.在最新的研究中,有研究者将dqn算法应用于频谱分配中,仿真结果表明,该算法具有较快的收敛速度和较低的丢包率。也有学者为了克服未知动态工业物联网环境的挑战,提出了一种改进的深度q学习网络应用于工业物联网频谱资源管理。还有研究者将竞争深度强化学习算法应用于对土壤重金属含量的预测,并能够得到比较良好的效果。但这些深度强化学习方法都没有同时兼顾状态的价值和该状态下的动作值,或者在设计奖励函数时常常没有按照频谱接入的成功情况进行奖励函数等级的划分。


技术实现要素:

6.本发明提供一种高额奖励惩罚的竞争深度q网络功率控制方法,该方法同时考虑
到状态和动作的价值,并将其求和再重新评估,能够有效提高系统稳定性。
7.为了达到上述技术效果,本发明的技术方案如下:
8.一种高额奖励惩罚的竞争深度q网络功率控制方法,包括以下步骤:
9.s1:辅助基站收集主用户和次用户的通信信息,并将获得的信息传输给次用户;
10.s2:将次用户在每个时隙选择的发射功率设置为动作值,构建动作空间;
11.s3:构建高额奖励惩罚的分级奖励函数;
12.s4:构建功率控制策略。
13.进一步地,所述步骤s1的具体过程是:
14.由于主用户和次用户为非合作的关系,次用户以下垫式接入主用户信道,主次用户均不可获知双方的功率发射策略,在信号传输过程中,辅助基站发挥着重要作用,它负责收集主用户和次用户的通信信息,并将获得的信息传输给次用户。假设环境中有x个辅助基站,则状态值为:
15.s(t)=[s1(t),s2(t),...,s
k
(t),...,s
x
(t)]
[0016]
其中,第k个辅助基站接收的信号强度,定义为:
[0017][0018]
式中,l
ik
(t)、l
jk
(t)分别表示t时刻辅助基站与主、次用户之间的距离,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率;在t时刻,次用户k在状态s
k
(t)下选择某个动作,此时次用户将进入s
k
(t)的下一个状态。
[0019]
进一步地,步骤s2中,将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化的值,且每个次用户选择h种不同的发射值,所以共有h
n
种可选择动作空间,动作空间定义为:
[0020]
a(t)=[p1(t),p2(t),

,p
n
(t)]。
[0021]
进一步地,步骤s3中,设计四项指标来评判次用户频谱接入的成功等级,指标定义如下:
[0022][0023]
其中,和分别表示任意主用户和任意次用户的信噪比,μ
i
和μ
j
分别表示主用户和次用户预设的阈值,和∑p
j
分别表示任意接入信道的主用户功率、次用户发射功率之和;
[0024]
步骤s3中,把任意主用户的信噪比是否都大于预设阈值定义为判断功率控制是否成功最先决的条件,若任意主用户的信噪比并非都大于预设阈值,则可直接判定频谱接入完全失败cf;若任意主用户的信噪比都大于预设阈值,但不存在次用户的信噪比高于预设阈值,则把这种情况称之为次级接入失败sf;若任意主用户的信噪比都大于预设阈值,任意次用户的信噪比也均大于预设阈值,并且所有接入信道的主用户发射功率都大于次用户发
射功率之和,则将这种接入方式称之为完全接入成功cs;在完全接入成功的条件中,若仅有部分次用户信噪比高于预设阈值,其余条件不变,则将这种接入方式称之为次级接入成功ss,具体公式表达如下:
[0025][0026]
根据以上分级条件,定义奖励函数为:
[0027][0028]
上式中,a1>10a2,a3>10a4,把奖励函数按照频谱接入成功情况进行等级划分,将次用户完全接入成功给予高额奖励,将次用户完全接入失败给予高额惩罚,使得系统更快探索出成功接入策略。
[0029]
进一步地,步骤s4中,定义主用户按照以下策略进行功率发射,功率控制策略如下:
[0030][0031][0032]
该策略下主用户在每个时间点t采用逐步更新的方式控制发送功率;
[0033]
当t时刻主用户i的信噪比γ
i
(t)≤μ
i
且主用户i预测t+1时刻信噪比γ

i
(t)≥μ
i
时,主用户增加发射功率;当t时刻主用户i的信噪比γ
i
(t)≥μ
i
且主用户i预测t+1时刻信噪比γ

i
(t)≥μ
i
时,主用户减小发射功率;其他情况下保持当前发射功率不变;主用户i预测t+1时刻信噪比为:
[0034][0035]
次用户通过下垫式接入到主用户的信道,并且为了不影响主用户的正常通信,次用户在进行功率发射时往往有着严格的要求;要避免对主用户正常通信产生影响,需要次用户把从辅助基站那里收集到的数据信息进行不断学习,然后以合适的发射功率完成通信传输任务;信噪比是衡量链路质量的重要指标。定义第i个主用户的信噪比为:
[0036]
i=1,2,...,m
[0037]
定义第j个次用户的信噪比为:
[0038]
i=1,2,...,n
[0039]
其中h
ii
和h
jj
分别表示第i个主用户、第j个次用户的信道增益,p
i
(t)和p
j
(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,h
ij
(t)、h
ji
(t)、h
kj
(t)分别表示第i个主用户与第j个次用户、第j个次用户与第i个主用户、第k个次用户与第j个次用户之间的信道增益,n
i
(t)和n
j
(t)分别表示第i个主用户和第j个次用户接收到的环境噪声;信道增益和发射功率等是动态变化的,根据香农定理,定义第j个次用户吞吐量与信噪比之间的关系为:
[0040]
t
j
(t)=wlog2(1+γ
j
(t))
[0041]
其中,w表示信号带宽,在该动态变化的系统中,要保证系统的功率分配效果最佳,既要满足主用户的信噪比高于预设阈值,还要保证次用户能够通过不断学习来调整自身发射功率,从而让整个系统中次用户的总吞吐量最大化。
[0042]
与现有技术相比,本发明技术方案的有益效果是:
[0043]
本发明对深度强化学习过程中的奖励函数进行改进,根据次用户频谱接入的情况进行等级划分,给予不同的动作以不同奖励值大小。对最正确接入最成功的动作给与高额奖励,对最错误接入最失败的动作给与高额惩罚,这样可以使系统更快探索出成功接入的策略;把竞争深度q网络与高额奖励惩罚的分级奖励函数相结合,并应用于频谱的动态功率控制,不仅可以有效提高系统的稳定性,还能提高次用户的总吞吐量,减小功率损耗,起到节约能源的作用。
附图说明
[0044]
图1为本发明方法所在应用系统的模型图;
[0045]
图2为普通dqn网络结构图;
[0046]
图3为dueling dqn网络结构图;
[0047]
图4为三种不同深度强化学习算法的损失函数对比图;
[0048]
图5为三种不同深度强化学习算法训练40000次的累积奖励图;
[0049]
图6为三种不同深度强化学习算法训练40000次的次用户总吞吐量图;
[0050]
图7为三种不同深度强化学习算法下次用户的平均发射功率图。
具体实施方式
[0051]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0052]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0053]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0054]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0055]
如图1,在以主基站(pbs)为中心的一定区域内,假设认知无线网络中有m个主用户(pu)和n个次用户(su)(n>m),1个主基站和若干辅助基站(abs),主用户、次用户、辅助基站随机分布在网络环境中。主基站可以保证主用户通信的正常进行,辅助基站既可以收集主用户的接收信号强度信息,也可以收集次用户的接收信号强度信息,并且能够把收集到的
数据信息再发送给次用户。
[0056]
在本模型中,次用户通过下垫式接入到主用户的信道,并且为了不影响主用户的正常通信,次用户在进行功率发射时往往有着严格的要求。要避免对主用户正常通信产生影响,这就需要次用户把从辅助基站那里收集到的数据信息进行不断学习,然后以合适的发射功率完成通信传输任务。
[0057]
信噪比是衡量链路质量的重要指标。定义第i个主用户的信噪比为:
[0058][0059]
定义第j个次用户的信噪比为:
[0060][0061]
其中h
ii
和h
jj
分别表示第i个主用户、第j个次用户的信道增益,p
i
(t)和p
j
(t)分别表示t时刻第i个主用户和第j个次用户的发射功率,h
ij
(t)、h
ji
(t)、h
kj
(t)分别表示第i个主用户与第j个次用户、第j个次用户与第i个主用户、第k个次用户与第j个次用户之间的信道增益,n
i
(t)和n
j
(t)分别表示第i个主用户和第j个次用户接收到的环境噪声。
[0062]
本模型信道增益和发射功率等是动态变化的,根据香农定理,定义第j个次用户吞吐量与信噪比之间的关系为:
[0063]
t
j
(t)=wlog2(1+γ
j
(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0064]
其中,w表示信号带宽,在该动态变化的系统中,要保证系统的功率分配效果最佳,既要满足主用户的信噪比高于预设阈值,还要保证次用户能够通过不断学习来调整自身发射功率,从而让整个系统中次用户的总吞吐量最大化。
[0065]
本发明的目的在于,采用dueling dqn并改进其奖励函数来进行频谱的动态功率控制,次用户可以根据从辅助基站那里获得到的信息,自适应地去调整自己的发射功率,从而完成认知无线网络的动态功率控制。
[0066]
同普通的dqn算法一样,dueling dqn算法具有与普通dqn相同的网络结构,即有一个环境、一个回放记忆单元、两个结构相同但参数不同的神经网络和误差函数。基于深度强化学习的方法来处理频谱的功率控制问题,实质上是一个马尔科夫决策过程。普通dqn提出使用动作值函数q(s,a)逼近最优控制策略:
[0067][0068]
而dueling dqn则是把状态的价值和该状态下的动作advantage值求和作为q值进行重新评估,竞争深度q网络区别于普通深度q网络的核心内容就表现为:
[0069]
q(s,a;θ,α,β)=v(s;θ,β)+a(s,a;θ,a)
ꢀꢀꢀ
(5)
[0070]
dqn和dueling dqn的网络结构对比图如图2和图3所示,可知dueling dqn在输出层之前有两条数据流,一条数据流输出状态的q值,另一条数据流输出动作的advantage值。
[0071]
1)状态
[0072]
本系统模型的主用户和次用户为非合作的关系,次用户以下垫式接入主用户信道,主次用户均不可获知双方的功率发射策略。在信号传输过程中,辅助基站发挥着重要作用,它负责收集主用户和次用户的通信信息,并将获得的信息传输给次用户。假设环境中有x个辅助基站,则状态值为:
[0073]
s(t)=[s1(t),s2(t),

,s
k
(t),

,s
x
(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0074]
其中,第k个辅助基站接收的信号强度,定义为:
[0075][0076]
式中,l
ik
(t)、l
jk
(t)分别表示t时刻辅助基站与主、次用户之间的距离,l0(t)表示基准距离,τ表示路径损耗指数,σ(t)表示系统的平均噪声功率。
[0077]
在t时刻,次用户k在状态s
k
(t)下选择某个动作,此时次用户将进入s
k
(t)的下一个状态。
[0078]
2)动作
[0079]
将次用户在每个时隙选择的发射功率设置为动作值,每个次用户的发射功率为离散化的值,且每个次用户可以选择h种不同的发射值,所以本系统模型共有h
n
种可选择动作空间。动作空间定义为:高额奖励惩罚的分级奖励函数:
[0080]
a(t)=[p1(t),p2(t),

,p
n
(t)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0081]
3)高额奖励惩罚的分级奖励函数
[0082]
要使次用户能够自适应地选择合适的发射功率完成频谱共享,一个非常关键的问题就是要设计一个高效的奖励函数。本文从紧贴现实的角度出发,设计四项指标来评判次用户频谱接入的成功等级。指标定义如下:
[0083][0084]
其中,和分别表示任意主用户和任意次用户的信噪比,μ
i
和μ
j
分别表示主用户和次用户预设的阈值,和∑p
j
分别表示任意接入信道的主用户功率、次用户发射功率之和;
[0085]
把任意主用户的信噪比是否都大于预设阈值定义为判断功率控制是否成功最先决的条件,若任意主用户的信噪比并非都大于预设阈值,则可直接判定频谱接入完全失败(complete failure,cf)。若任意主用户的信噪比都大于预设阈值,但不存在次用户的信噪比高于预设阈值,则把这种情况称之为次级接入失败(second failure,sf)。若任意主用户的信噪比都大于预设阈值,任意次用户的信噪比也均大于预设阈值,并且所有接入信道的主用户发射功率都大于次用户发射功率之和,则将这种接入方式称之为完全接入成功(complete success,cs)。在cs的条件中,若仅有部分次用户信噪比高于预设阈值,其余条件不变,则将这种接入方式称之为次级接入成功(second success,ss)。具体公式表达如下:
[0086]
[0087]
根据以上分级条件,定义奖励函数为:
[0088][0089]
上式中,a1>10a2,a3>10a4,把奖励函数按照频谱接入成功情况进行等级划分,将次用户完全接入成功给予高额奖励,将次用户完全接入失败给予高额惩罚,使得系统更快探索出成功接入策略。
[0090]
4)策略
[0091]
定义主用户按照以下策略进行功率发射,功率控制策略如下:
[0092][0093][0094]
该策略下主用户在每个时间点t采用逐步更新的方式控制发送功率。当t时刻主用户i的信噪比γ
i
(t)≤μ
i
且主用户i预测t+1时刻信噪比γ

i
(t)≥μ
i
时,主用户增加发射功率;当t时刻主用户i的信噪比γ
i
(t)≥μ
i
且主用户i预测t+1时刻信噪比γ

i
(t)≥μ
i
时,主用户减小发射功率;其他情况下保持当前发射功率不变。主用户i预测t+1时刻信噪比为:
[0095][0096]
本文提出一种基于高额奖励惩罚的竞争深度q网络功率控制方法,并在python平台进行实验仿真,因其为改进奖励函数的dueling dqn算法,故后文及实验将其简称为dueling dqn算法。在相同仿真环境下,将natural dqn算法、double dqn算法和dueling dqn算法进行性能对比。每种算法都将迭代40000次,每1000次将各项指标的性能结果显示一次。图4为三种不同深度强化学习算法的损失函数对比图,从图中可以看到,三种最终都可以收敛。但natural dqn算法和double dqn算法不稳定,损失波动较大,并且收敛速度较慢。本文提出的dueling dqn算法能够以比较快的速度收敛,并且损失值保持在非常小的范围。
[0097]
如图5和图6,图像显示为三种不同深度强化学习算法训练40000次的累积奖励和次用户总吞吐量。对比三种算法可以发现:相比较于natural dqn算法和double dqn算法,本文提出的dueling dqn算法从第5回合开始就能探索出次用户接入成功的动作,开始获得正奖励,累积奖励也持续保持上升,表明该算法能快速学习到正确的动作,具备明显的优势。并且,在次用户的总吞吐量这项指标上,本算法的总吞吐量也是最大的,性能最优越。
[0098]
图7显示的是三种算法下次用户的平均发射功率。总的来看,natural dqn算法的平均发射功率是最高的,double dqn算法的平均发射功率几乎都在2.0mw以上。而dueling dqn算法的平均发射功率是最低的,大部分处于1.5mw和2.0mw,少数高于2.0mw。仿真结果表
明,结合上面的各项指标,本文提出的dueling dqn算法在进行动态功率控制时,不仅能够保证次用户的总吞吐量最大,还能在保证次用户频谱成功接入的情况下平均发射功率最低,这样能够有效减少功率损耗,节约能源。
[0099]
相同或相似的标号对应相同或相似的部件;
[0100]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0101]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1