基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法与流程

文档序号:16132006发布日期:2018-12-01 00:25阅读:366来源:国知局

本发明属于通信技术领域,涉及一种基于q-learning算法的lte与wifi共存竞争窗口值的动态优化方法。

背景技术

无线移动通信以其使用的广泛性和接入的便利性,成为未来信息通信系统中越来越重要的角色。随着移动互联网与物联网业务的飞速发展,移动数据流量骤增,导致授权频段短缺,因此运营商希望去发掘未授权频谱来补充授权频谱。3gpp提出的lte-u(lte-unlicensed)也称做授权辅助接入模式(licensedassistedaccess,laa),旨在尽可能维持原有lte协议规范的条件下,将lte技术应用于非授权频段(如5ghz附近),通过在非授权频段部署小型基站,并依靠载波聚合技术让lte在非授权频段和授权频段协同工作,从而达到提升蜂窝系统容量和提高非授权频段频谱利用率的目的。

目前在未授权频段上lte和wifi的共存方案主要有两种:占空比静默模式(dutycyclemuting,dcm)和laa。dcm是lte-u的第一个版本,最初由爱立信和高通公司在2013年提出。这种方案通过lte周期性静默一段时间的方式与wifi分享未授权频谱,不需要“先听后说”(listenbeforetalk,lbt),并且因为不需要修改lte协议而很容易部署,目前只在中国、印度、韩国和美国使用。在2014年6月法国的sophiaantipolis会议中,首次提出ltelaa方案。这种方案旨在寻求一个长远的全球解决方案,它的一个重要特征就是lte接入未授权频谱前需要对信道情况进行评估,即lbt机制的空闲信道评估(clearchannelassessment,cca)过程。因而这种机制需要对lte协议栈进行修改以及设备商的支持。目前3gpp、esti等电信组织也正在积极对lbt共存机制制定相关标准。我们研究lte与wifi网络之间基于lbt的共存机制即laa机制。由于对基于lbt的laa机制性能的关注和担忧,一些研究人员对这种共存机制的性能进行了评估。通过研究发现,lbt机制的竞争窗口值对共存机制的性能影响很大,一个良好的退避机制会根据网络中实际负载情况产生合理的竞争窗口值,从而提高信道的频谱利用率,使用户获得较好的体验。

当前,已有的退避机制缺乏动态学习的过程,如二进制指数退避机制,固定竞争窗口退避机制等,且不能根据实时情景灵活的调整系统参数,客观上限制了共存系统信道的频谱利用率的提高。

因此,设计一个良好的退避机制,针对实时的网络负载情况,业务类型等能够生成合理的竞争窗口值将有助于提高信道的频谱利用率,同时扩展下一代通信系统的系统容量,为用户提供较好的服务质量,以提升用户体验。



技术实现要素:

有鉴于此,本发明的目的在于提供一种基于q-learning算法的lte与wifi共存竞争窗口值的动态优化方法,laa小基站通过q-learning算法,可根据网络实时业务负载,业务类型等因素进行灵活的调整其与wifi系统共存的lbt机制竞争窗口值,在保证lte与wifi用户公平共存的条件下,最大化系统总吞吐量,提高共存系统的频谱利用率,从而提升用户体验。该方法具有简洁高效的特点,与此同时,具备一定的可移植性。

为达到上述目的,本发明提供如下技术方案:

基于q-learning算法的lte与wifi共存竞争窗口值的动态优化方法,包括以下步骤:

s1:设置laa小基站的状态集合和动作集合;

s2:在t=0时刻,初始化laa小基站的状态和行为q值为“0”;

s3:计算laa小基站的初始状态st的状态值;

s4:根据公式计算logistic混沌映射序列,然后将该序列映射到laa小基站行为值集合中并随机选择一个行为at(i);

s5:执行行为at(i)后,系统将根据公式获取环境奖励值rt,然后进入到下一个状态st+1;

s6:根据公式更新laa小基站的行为q值函数;

s7:令t←t+1,重复执行步骤s4~s6,直至到达目标状态。

进一步,在步骤s1中,laa小基站的状态集合表示为系统吞吐量和公平性的组合,即st={rt,ft},rt表示t时刻系统在未授权频段上所获得的总吞吐量,即laa和wifi用户吞吐量之和,ft表示平均意义上的公平性函数,定义公平性函数为:

其中rt(s,l)和rt(s,w)表示laa和wifi用户吞吐量,nl表示laa小基站的数量,nw表示wifi的用户数,根据预定义的吞吐量和公平性阈值,将laa小基站分成四种状态:低吞吐量低公平性、低吞吐量高公平性、高吞吐量低公平性和高吞吐量高公平性,即

其中分别表示吞吐量和公平性的阈值,且

对于行为集合,将竞争窗口值作为laa小基站行为,并且根据有限动作集合的马尔科夫过程定义任意t时刻laa小基站行为16≤at(i)≤128。

进一步,在步骤s2中,设置laa小基站的状态和行为q值为零矩阵,对于laa小基站马尔科夫决策过程的求解目标是寻找一个最优策略π*,以使得每一个状态s的值v(s)同时达到最大,状态值函数表示如下:

其中r(st,at)表示laa小基站从环境中获取的奖励值,p(st+1|st,at)表示laa小基站当处于状态st时选择行为at后转移到状态st+1的概率。

进一步,在步骤s4中,laa小基站的目标是获取较高的奖励值,引入具有遍历性、规律性和随机性特征的混沌运动作为一种优化机制;

混沌系统中有三种常见的映射系统:logistic映射、chebyshev映射和henon映射,对于logistic映射其方程表示为:

zk+1=μzk(1-zk)

其中0≤μ≤4称为分枝参数,当μ∈[3.5699456…,4]时,logistic映射工作于混沌态,取μ=4;k表示迭代次数,z称为混沌变量,混沌域为(0,1)。

进一步,在步骤s5中,laa小基站执行选择的行为后将从环境中获取一个奖励值,奖励值函数定义为:

其中ε表示权重因子且0<ε<1,表示共存系统吞吐量最低要求阈值,ft°表示共存系统公平性函数的最小要求阈值。

进一步,在步骤s6中,laa小基站在从环境中获取奖励值后,需要对q矩阵进行更新,其更新公式为:

式中α表示学习速率且0<α<1,υ表示折扣因子且0≤υ<1。

本发明的有益效果在于:通过q-learning算法动态优化lte与wifi在未授权频段上基于lbt机制共存的竞争窗口值,与传统的退避算法相比,本发明中基于q-learning算法能够对lte与wifi在未授权上共存的竞争窗口值进行动态优化,laa小基站可以根据网络实时情景灵活调整竞争窗口值。其过程如图2所示,首先laa小基站在某个状态下,根据当前的环境基于混沌系统的logistic映射选择并执行某个行为;然后观察环境获取奖励值,根据公式更新q函数值并基于当前q函数值确定下一个状态的行为,重复上述动作直到收敛,本发明能够在保证用户公平性的条件下,提高信道的频谱利用率,同时扩展下一代通信系统的系统容量,为用户提供较好的服务质量,提升用户体验。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为本发明实施例所述的一种基于q-learning算法的lte与wifi共存竞争窗口值的动态优化方法的流程示意图;

图2为本发明实施例所述的q-learning与环境交互过程模型;

图3为本发明实施例所述的lte与wifi共存的网路模型图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

本发明针对lte于wifi在未授权频段(5ghz)上基于lbt机制共存问题,提出一种基于q-learning算法的lte与wifi共存竞争窗口值的动态优化方法。与传统的退避算法相比,本发明中基于q-learning算法能够对lte与wifi在未授权上共存的竞争窗口值进行动态优化,laa小基站可以根据网络实时情景灵活调整竞争窗口值。其过程如图2所示,首先laa小基站在某个状态下,根据当前的环境基于混沌系统的logistic映射选择并执行某个行为;然后观察环境获取奖励值,根据公式更新q函数值并基于当前q函数值确定下一个状态的行为,重复上述动作直到收敛。

考虑共存场景中存在多个laa小型基站和多个wifi接入点(ap),网络模型如图3所示。由于laa小基站可以在多个未授权频段上运行,并且主要关注laa的共存性能,因此,所考虑的场景可以简化为更简单的共存场景,在特定的一个未许可信道上存在多个laa小基站和一个wifiap。假设在所考虑的共存场景中存在nl个laa小基站和一个具有nw个用户的wifiap,其中wifi用户的网络接入遵循ieee802.11标准。

如图1所示,基于动态优化lte与wifi在未授权频段上基于lbt机制共存的竞争窗口值的方法,该方法包括以下步骤:

100:设置laa小基站的状态集合和动作集合;

200:在t=0时刻,初始化laa小基站的状态和行为q值为“0”;

300:计算laa小基站的初始状态st的状态值;

400:根据公式计算logistic混沌映射序列,然后将该序列映射到laa小基站行为值集合中并随机选择一个行为at(i);

500:执行行为at(i)后,系统将根据公式获取环境奖励值rt,然后进入到下一个状态st+1;

600:根据公式更新laa小基站的行为q值函数;

700:令t←t+1,重复执行步骤400~600,直至到达目标状态。

q-learning算法是一种确定最优决策策略的增强学习应用算法,可以被认为是异步动态规划的一种方法。在q-learning算法迭代过程中,将状态集合定义为s,若决策时间为t,则st∈s,表示在t时刻laa小基站的状态为st。同时,将laa小基站可能执行的有限行为集合定义为a,at∈a表示在t时刻laa小基站的行为。奖励函数r(st,at)表示laa小基站基于所处的状态st执行行为at后从环境中获得的奖励值,然后从状态st转移到st+1,在下一个决策时间t+1对qt函数进行更新。q-learning算法实际是马尔科夫决策过程(markovdecisionprocesses,mdp)的一种变化形式。

在共存网络中,laa小基站用户在未授权频段上与wifi用户和谐共存。基于q-learning算法工作原理,将状态集合表示如下:

st={rt,ft}

其中rt表示t时刻系统在未授权频段上所获得的总吞吐量,即rt=rt(s,l)+rt(s,w)。ft表示平均意义上的公平性函数,将公平函数定义如下:

其中rt(s,l)(rt(s,w))表示laa(wi-fi)用户吞吐量,ft的值越接近于1表明系统越公平。根据预定义(且)的阈值,将laa小基站分成四种状态:低吞吐量低公平性、低吞吐量高公平性、高吞吐量低公平性、高吞吐量高公平性。因此状态集合s的元素表示如下:

将竞争窗口值作为行为集合,则laa小基站的行为集合a={a(1),a(2),…,a(k)},其单位为时隙个数。根据有限动作集合的马尔科夫过程,定义任意t时刻laa小基站行为16≤at(i)≤128

laa小基站面临的任务是决定一个最优策略,使得所获得的奖励最大。对于laa小基站,会根据当前的状态,观察环境,然后对下一步的状态/动作做出最好的决定。状态st的折扣累计奖励值函数可以表示为:

其中r(st,at)表示laa小基站在状态st选择动作at时所获得的即时奖励。υ表示折扣因子且0≤υ<1,折扣因子趋于0表示laa小基站主要考虑即时奖励。p(st+1|st,at)表示laa小基站选择动作at时从状态st转移到st+1的概率。mdp求解的目标是寻找一个最优策略π*,以使得每一个状态s的值v(s)同时达到最大。根据贝尔曼原理,当laa小基站的总折扣期望奖励最大时至少能得到一个最优策略π*使得:

其中v*(st)表示laa小基站从状态st开始并遵循最优策略π*所获得的最大折扣累计奖励值。对于一个给定的策略π,是将状态空间映射到动作空间的函数,即:π:st→at。因此最优策略可以表示成如下形式:

π*(st)=argv*(st)

laa小基站的目标是获取较高的奖励值,因此,在每个状态下,将会选择具有较高q值的动作。但是在学习的初始阶段,对于状态-动作的经验比较少,q值不能准确地表示正确的强化值,通常,最高q值的动作导致了laa小基站总是沿着相同的路径而不可能探索到其他更好的值,从而容易陷入局部最优。因此,为了克服该缺点,laa小基站必须随机地选择动作,因此,引入具有遍历性、规律性和随机性特征的混沌运动作为一种优化机制,从而减小laa小基站动作选择策略陷入局部最优解的可能。

混沌系统主要有logistic映射、chebyshev映射和henon映射三种,对于logistic映射系统,其方程表示为:

zk+1=μzk(1-zk)

其中,式中0≤μ≤4称为分枝参数,k表示迭代次数,z称为混沌变量,混沌域为(0,1)。当μ∈[3.5699456…,4]时,logistic映射工作于混沌态,也就是说,在logistic映射的作用下产生的序列是非周期且不收敛的。混沌系统呈现出的混沌运动状态看似随机复杂,但实际上存在着内部规律。

基于奖励值函数,laa小基站将会以高吞吐量和高公平性为目标选择策略进行迭代。将laa小基站从环境中获取的奖励值函数定义为:

其中ε表示权重因子且0<ε<1,ε越小表明q-learning过程更倾向于公平性因素所获得的奖励。表示共存系统吞吐量最低要求阈值,ft°表示共存系统公平性函数的最小要求阈值。从奖励值函数表达式中可以看出rt是有界函数,根据瓦特金斯(watkins)收敛条件可知该q-learning过程具有收敛性。考虑到整个网络的吞吐量性能和网络公平性因素,奖励值函数在系统吞吐量高于最低吞吐量阈值的条件下使得公平性函数值尽可能的接近1。

在q-learning算法中,基于策略π,laa小基站按下式在每个时刻t以递归的方式对q值函数进行计算:

很显然,q值表示当laa小基站在状态st时遵循策略π执行动作at所获得的期望折扣奖励。因此,目标在于评估最优策略π*下的q值。从上式可以得出状态值函数与行为值函数的关系如下:

然而,基于非确定性环境,上述q值函数只有在最优策略下才成立,即q值函数的值在非最优策略下通过q学习是变化的(或称不收敛)。因此,修正q值函数其计算公式如下所示:

其中α表示学习速率且0<α<1,学习速率越大,表明保留之前训练的效果就越少。如果每个状态-动作对能够多次重复,学习速率会根据合适的方案下降,则对任意有限的mdp,q-learning算法能够收敛至最优策略。学习速率和折扣因子协同作用调节q矩阵的更新,进而影响q-learning算法的学习性能,α取值0.5,υ取值0.8。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1