一种基于Q学习的双连接流量分配方法与流程

文档序号:17126968发布日期:2019-03-16 00:35阅读:408来源:国知局
一种基于Q学习的双连接流量分配方法与流程

本发明涉及移动通信网络中的双连接技术领域,尤其是一种基于q学习的双连接流量分配方法。



背景技术:

双连接(dc,dual-connectivity)是3gpprelease-12版本引入的重要技术。通过双连接技术,lte宏基站和小基站可以利用现有的非理想回传(backhaul)接口实现载波聚合,从而为用户提供更高的速率,以及利用宏/微组网提高频谱效率和负载平衡。支持双连接的终端可以同时连接两个lte基站,增加单用户的吞吐量。

在5g网络的部署过程中,5g小区既可以作为宏覆盖独立组网,也可以作为小站对现有的lte网络进行覆盖和容量增强。无论采用哪种组网方式,双连接技术都可以用来实现lte和5g系统的互连,从而提高整个移动网络系统的无线资源利用率,降低系统切换的时延,提高用户和系统性能。

3gpprelease-14在lte双连接技术基础上,定义了lte和5g的双连接技术。lte/5g双连接是运营商实现lte和5g融合组网、灵活部署场景的关键技术。在5g早期可以基于现有的lte核心网实现快速部署,后期可以通过lte和5g的联合组网来实现全面的网络覆盖,提高整个网络系统的无线资源利用率、降低系统切换时延以及提高用户和系统性能。

5g核心网的部署,一种可能的lte和5g融合方式是将演进的lte(elte,enhancedlte)enb连接到5g核心网上。这种场景下,根据menb是elteenb还是5ggnb,3gpp定义了两种不同的lte/5g双连接模式。一种模式是5ggnb作为menb,称为模式4/4a。另一种模式是以elteenb作为menb,称为模式7/7a/7x。双连接模式7/7a/7x和双连接模式3/3a/3x在协议架构上很相似,区别在于核心网是5g核心网还是lte核心网。

在lte/5g双连接下,上行用户面数据总是通过menb来传输。作为menb的基站会建立一个分离式承载,用于下行用户面数据路由和转发,下行用户面数据路由和转发的工作由pdcp层完成。分离式承载下的pdcp层会决定将下行pdcppdu发给本地的rlc层,还是通过回程接口转发给从基站。分离式承载下的pdcp层的数据路由和转发主要实现两个功能:一是时延估计和数据发送路径选择;二是流量控制。其目标是尽量让通过不同路径发送出去的pdu经历相同的时延,从而减少终端侧pdcp层的分组重排序来提升tcp性能。

3gpp仅仅对各种不同模式下的lte/5g双连接的协议架构进行了定义,要真正实现lte和5g双连接还有许多关键性技术需要突破,回程接口的流量控制就是需要解决的一个重要问题。

近年以来,强化学习在人工智能所充当的角色越来越重要了,很多研究机构和高校都采用强化学习实现高性能的系统。

强化学习(reinforcementlearning,rl)可以从延迟的回报中获取最优的控制策略。一个可学习的智能体,它可以观察环境的状态并能做出一组动作改变这些状态,学习的任务是获得一个控制策略,以选择能达到目的的行为。rl因其自适应性和灵活性,被广泛地应用于机器人和自动控制领域,并被引入到解决移动通信网络的资源优化问题。

强化学习的基本原理是若智能体(agent)的某个动作策略导致环境产生正的奖赏(强化信号),那么agent以后采取这个动作策略的趋势便会加强,反之采取这个动作策略的趋势就会减弱,这和生理学中的条件反射原理是接近的。

基本的强化学习模型是由反映当前环境情况的状态集合s={s1,s2,…,sn},学习者可执行的动作集合s={a1,a2,…,an},回报函数(强化信号)r和学习者的策略π:s→a等基本要素构成。

q学习是强化学习中最典型的一个算法。q函数q(s,a)表示在状态s下执行动作a,以及采取后续策略的折扣奖赏和的期望。该定义当前状态和动作的q值包含了所有需要的信息,以确定在状态s下选择动作a时,将来会获得的折扣累积回报。q值函数的学习是通过q值迭代来完成的。每次迭代更新一个q(s,a),为了能更新所有的q(s,a),agent需要不断地与环境交互。当q值函数经过多次迭代后,所有的q值都不再发生较大的变化时,即可认为q值函数收敛,q学习结束。它在每一次的迭代中,首先感知当前的环境状态s∈s,并查找相应的所有q值,根据当前的策略π选择动作a作用于环境,a∈a;环境状态会由此变化为s′∈s,同时根据所执行动作的效果获得一个强化信号(称为“回报函数”)r(s,a);学习者便据此按照下式更新其策略,并进入下一次迭代:

其中,α为学习率,α∈[0,1)。随着t→∞,若每对(s,a)的q值能够经历无穷多次更新,且α递减至0,则qt(s,a)将以概率1收敛到最优值q*(s,a)。如此循环下去,通过不断地“试错”学习,最终目标是找到每个状态的最佳策略π*(s)∈a,以最大化期望的长期累积回报。

此时,最优策略π*可以由下式得到。

在迭代时用到的是后继动作值函数中的最大值,跟当前选择动作的策略无关,因此q学习被认为是离策略的算法,q学习的收敛性并不依赖于动作空间的探索方法。



技术实现要素:

发明目的:为解决移动通信网络中用户和主基站、从基站双连接的情况下,网络发送给一个用户的业务流量如何在两个网络间进行分配,从而实现在双连接同时传输的情况下业务时延最小的技术问题,本发明提出一种基于q学习的双连接流量分配方法。

技术方案:本发明提出的技术方案为:一种基于q学习的双连接流量分配方法,该方法在用户同时和主、从基站连接的情况下,以数据传输的业务时延最小为目的,采用q学习方法得到网络发送给用户的业务流量在两个网络间进行分配的最优策略,包括步骤:

(1)参数设置:记主、从基站中可用资源块的数目分别为nm和ns,设置学习率α、折扣因子γ、动作选择的探索概率ε和迭代次数t;构建系统的状态空间s、动作集合a和回报函数r;状态空间s通过三维数组{sm,ss,sa}描述系统所有状态,其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目;动作集合a的表达式为a={a0,a1,a2…,an},a0,a1,a2…,an分别表示不同的分配方案,n为分配方案的总数;回报函数r的表达式为:dm表示主基站支路时延,ds表示从基站本身的时延,db表示从基站回程链路的时延;

(2)初始化q值表,使q值表中的每一个元素q(s,a)都为零或者随机值,s为系统的一个状态,s∈s;初始化α=α0、γ=γ0、ε=ε0;α0、γ0、ε0为符合系统要求的常数;

(3)获取系统当前状态s;根据当前时刻的系统的状态,采用探索概率ε,从动作集合中选取动作a并从q值表中查找相应的q值q(s,a);

(4)执行动作a,计算执行动作a后获得的回报值rt(a);根据动作a执行的结果得到下一状态s′,从q值表中找到状态s′的动作值函数的最大值maxqt(s',a'),a'∈a,a′为maxqt(s',a')对应的动作;

更新动作函数值为:

其中,t表示当前时刻,t+1表示下一时刻;

(5)步骤(4)结束后,更新α和γ,α和γ均为负指数函数,随时间增大逐渐减小;

(6)更新q值表中相应的动作函数值;根据更新后的q值表,找到状态s的动作值函数的最大值计算最优的q值为:

(7)重复执行步骤(3)至(6),直至最优的q值q*(s,a)收敛,然后输出各个状态s的最优动作,即

进一步的,所述动作集合a中的各个分配方案的含义为:a0表示拒绝所有的分组在主、从基站之间分配;ai表示将n-i个分组分给主基站,将i-1个分组分给从基站,i=1,2,…,n。

进一步的,所述主基站支路时延dm的计算方法为:

dm=d1+d2

其中,y1=sm,y4=nm,y7为执行动作a后分给主基站的分组数,μm为主基站资源块服务速率。

进一步的,所述从基站本身的时延ds的计算方法为:

ds=d3+d4

其中,y2=ss,y5=ns,y8为执行动作a后分给从基站的分组数,μs为从基站资源块服务速率。

有益效果:与现有技术相比,本发明具有以下优势:

本发明将人工智能应用到双连接场景的流量控制问题,能够提高决策效率,可以最大程度提高主基站和从基站的资源利用率,同时实现了分流后的两条支路时延差最小化。是一种有效的网络资源分配方法。

附图说明

图1本发明系统模型图;

图2为回报函数的计算流程图;

图3为主基站支路延时的计算流程图;

图4为从基站支路延时的计算流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示,基于q学习的多连接流量控制问题解决方案有如下特点:

(1)问题建模:把双连接流量分配问题建模为两个m/m/n队列,n对应基站可用的资源块的数目。因此,主基站的队列为m/m/nm,从基站的队列为m/m/ns。

(2)q学习中状态空间的定义:根据每个队列中分数的数目和系统到来的突发分组数目,建立状态空间s,s通过三维数组{sm,ss,sa}描述系统所有状态,即每个状态s用一组三维数字表示;其中,sm和ss分别表示已分配给主、从基站的分组的数目,sa代表待分配表示的分组的数目。例如s={5,3,4}表示主基站队列有5个分组,从基站队列有3个分组,进入系统的分组有4个。

(3)q学习中动作集合的定义:动作集合定义为a={0,1,2,...,n},不同动作分别表示有多少分组分配给主基站和从基站。n=sa+1,sa代表到达系统的分组数目。a=0表示拒绝所有的分组;a=1表示sa个分组全部分配给主基站;a=2表示sa-1个分组分配给主基站、1个分组分配给从基站;a=3表示sa-2个分组分配给主基站、2个分组分配给从基站;以此类推,a=n表示sa个分组全部分配给从基站。例如:sa=3,a=2,则分配2个分组给主基站,分配1个分组给从基站。

(4)q学习中回报函数的定义:回报函数定义为主基站支路时延和从基站支路时延的函数。从基站支路的时延包括从基站本身的时延和回程链路的时延。设回报函数为r,符号dm、ds和db分别表示主基站、从基站和回程链路的时延,则回报函数采用式(1)计算,为两个支路时延差的倒数。因此,时延差越小,则回报函数越大,保证了分流的结果使得两个支路的时延最接近,减少了终端对分组的排序时间。

(5)本发明中各支路时延的计算:主基站和从基站的时延由进入系统的最后一个分组的响应时间来决定,一个分组的响应时间包括排队时延和服务时延。设当前系统状态为s={y1,y2,y3},主基站系统的资源数为nm=y4,从基站系统的资源数为ns=y5。设动作y3分配给主基站的分组数为y7,分配给从基站的分组数为y8。则dm(y1)=d1+d2,d1为等待时间,d2为服务时间。同理则ds(y2)=d3+d4+db,d3为等待时间,d4为服务时间。dm和ds的计算方法见图2、图3、图4所示:

主基站支路时延dm的计算方法为:

dm=d1+d2

其中,y1=sm,y4=nm,y7为执行动作a后分给主基站的分组数,μm为主基站资源块服务速率。

从基站本身的时延ds的计算方法为:

ds=d3+d4

其中,y2=ss,y5=ns,y8为执行动作a后分给从基站的分组数,μs为从基站资源块服务速率。

例如,设系统的nm=8,ns=3,队列长度n=8,当前系统状态为s={5,3,4}。若采取了动作a=2,则分配1个分组给从基站、分配3个分组给主基站,从而系统的下一状态为:sa=0,sm=8,ss=4。因此相关的时延分别为:dm(5)~exp(1(μm)),ds(3)~exp(1(3μs))+exp(1/(μs))。这两部分的时延均包括等待时间和服务时间,主基站因为系统资源数为8,则不没有等待时间,分组到来后直接服务,服务时间服从exp(1/(μm))分布;从基站因此资源数为3,分配来的分组需要等待前面3个分组服务结束后才能得到服务,因此从基站支路的等待时间服从exp(1/(3μs))分布、服务时间服从exp(1/(μs))分布。

(6)主基站系统和从基站系统中每个窗口的服务率用μm和μs表示,统一为μi,i∈{m,s}。μi采用式(2)计算。

式中,1/μ'是分组信息的平均长度,单位为比特/分组,ci是链路i的容量或速率,单位为比特/秒。

(7)链路i的容量ci可以采用香农公式计算,如式(3)所示。fi为该链路的频段宽度,不同系统(5g、4g)中链路的频带宽度可能会不一样。sinri为该链路的信号干扰噪声比。如果主基站和各从基站的频率使用各不相同,则sinri主要考虑信道增益。信道增益可以使用winner公式来计算,winnerb1描述了城市中宏小区与小小区之间的信道模型,winnerc2描述了城市中宏小区之间的信道模型。

ci=filog2(1+sinri),i∈{m,s}(3)

(8)基于q学习的双连接流量分配方法步骤如下:

1)初始化q(s,a)。初始化q值表,可以令q值表中每一个元素都为零或者是利用随机函数产生的值,设定初始学习率α和折扣因子γ,设定动作选择算法中的初始探索概率ε。初始概率的选择本实施例中采用boltzmann搜索方法。

2)获取系统当前状态s。获取当前主基站队列中的分组数、从基站队列中的分组数和进入系统的分组数,从而判断系统当前所处的状态。

3)选择执行的动作a。

在每一个决策时刻,控制器根据当前系统状态采取一个动作使得系统变化到另外一个状态的概率值是确定的。设v(s1,s2)表示当前状态为s={s1,s2,j}时系统总的业务到达和离开率,则v(s1,s2)取值如式(4)所示,λ是业务到达速率。

v(s1,s2)=λ+min(sm,s1)μm+min(ss,s2)μs(4)

设pss'(a)表示从状态s采取动作a后转移到状态s'的概率,则从状态s=(sm,ss,-)采取动作a后到达状态s'=(sm',ss',-)的概率如式(5)所示。

当系统总的到达和离开率给定后,给定当前状态s={sm,ss,sa}和采取的动作a,则状态转移表1所示:

表1状态转移表

4)观察动作集合a={0,1,2,...,n},根据当前时刻系统的状态,观察系统执行此动作后的动作函数值qt(s,a),按式(4)给出boltzmann搜索方法的概率来选择动作a,并执行该动作。该搜索方法中对状态-动作对的探索是由参数t控制的,t为温度系数,随迭代逐渐降为0。t越小,不同q值导致的选择概率的差异就越大(q值越大选择相应系统的概率就越高);t越大,动作的选择就越不受q值影响,所有动作就会采取几乎相等的概率被选择。

5)获取回报(奖赏)r和下一时刻的系统状态s'。根据动作执行的结果,按照式(3)计算获得的当前回报值r,并找到下一状态的动作值函数的最大值根据式(7)更新qt+1(s,a)。

6)系统参数更新。每轮迭代结束后,更新学习率和探索概率。为了满足q学习的收敛性要求,可以设置它们以负指数规律随着学习的过程逐渐减少为0。

7)更新q值表,最后找到最优的q值。按式(8)计算,得到最优的q值。

其中,为状态s的动作值函数的最大值;

重复执行步骤3)至6),直至最优的q值q*(s,a)收敛,然后输出各个状态s的最优动作,即

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1