无线自回传小基站接入控制与资源分配联合优化方法与流程

文档序号:14993953发布日期:2018-07-20 23:11阅读:221来源:国知局

本发明属于无线通信领域,涉及1个宏基站固定部署在中心、多个小基站和多个用户的双跳网络场景下,无线自回传小基站接入控制与资源分配联合优化方法。



背景技术:

在未来5g网络研究中,无线自回传(wirelessself-backhaul)小基站的密集部署被作为实现超密集网络(ultradensenetwork,udn)的关键技术,而引起了人们广泛的关注。在宏基站覆盖范围内小基站使用无线毫米波或微波来代替传统有线光纤连接的方式,能够降低系统部署成本。宏基站使用大规模mimo天线可以增大频谱空间复用率。但是为了不同用户的差异性需求、需要尽可能利用全部的可用资源,包括最大化传输功率,这样会造成能效的降低。因此,只最大化频谱效率或者能量效率已不再满足用户的性能需求,如何最大化基站覆盖范围内系统在相对长期的资源分配中获得更高的频谱效率和能效问题显得十分重要,这就需要在保证每个用户的平均时延约束以及每个基站的传输功率约束的前提下,使用马尔科夫决策过程的分析方法对无线自回传小基站的无线资源分配方法作出联合最大化频谱效率和能量效率的考虑,为任一动态到达的用户需求制定最佳的接入与资源分配方法,从而使得系统在相对长期的资源分配中获得更高的频谱效率和能效。

在现有的资源分配方案中,大多数只关注如何为当前到达的用户需求来确定相应的资源分配策略,而忽略了当前所做的决策对后续到达的用户需求分配资源的影响;小基站的接收和发送是严格限定在两个正交的时间或者频率信道内,没有实现小基站接收来自宏基站的下行回传链路数据并利用相同的频谱资源同时传输下行接入链路数据给小用户等问题。除此之外,常见的优化目标未考虑用户数据包到达的随机性、数据包传输的时延特性、资源的剩余量对资源分配的影响,且只是考虑了单独对频谱效率或者能效的优化。因此,把马尔科夫决策过程的分析方法应用到有效最大化频谱效率的同时,最大化能量效率。



技术实现要素:

有鉴于此,本发明的目的在于提供一种无线自回传小基站接入控制与资源分配联合优化方法,引入每个用户的平均时延约束以及每个基站的传输功率约束溢出概率约束,使用马尔科夫决策过程使得长期的频谱效率最大化和能效最大化取一个折衷。

为达到上述目的,本发明提供如下技术方案:

无线自回传小基站接入控制与资源分配联合优化方法,包括以下步骤:

s1:在每个用户的平均时延约束以及每个基站的传输功率约束的前提下,使用马尔科夫决策过程对无线自回传小基站的无线资源分配方法建立联合最大化频谱效率和能量效率的多目标优化模型;

s2:在用户数据包的随机动态到达环境下,使用近似动态规划的方法为任一动态到达的用户需求制定最佳的接入与资源分配策略,从而使系统在相对长期的资源分配中获得更高的频谱效率和能效。

进一步,所述步骤s1中,所述的每个用户的平均时延约束是:每个用户的平均时延都必须不大于一个固定值其中平均时延和平均队列长度成线性关系,把平均时延映射到平均队列长度;即每个用户平均队列长度都必须不大于一个固定值,此固定值为平均队列长度的门限值。

所述的每个基站的传输功率约束是:系统中每个基站都预先设置有不同的资源类型与数量,如带宽资源、传输功率等,每个基站的传输功率约束考虑如下:

其中pi(t)为基站i在时隙t时的传输功率,按从小到大的功率等级顺序有pi(t)=[p1(t),p2(t),...,pl(t),...,pl(t)],其中l=1,2,...l分别表示基站的功率等级,i表示基站集合中任一元素,pmax表示基站最大的传输功率。

进一步,系统中用户在下一时隙t+1的队列长度更新过程表示为:

qi,j(t+1)=min[qi,j(t)+ai,j(t)-bi,j(t),b],i=1,2,...,i...,i,j=1,2,...,j...,j;

上式中qi,j(t)为时隙t时用户在宏基站或小基站处的队列长度,当i=1为时隙t时宏基站用户在mbs处的队列,当i>1为时隙t小基站用户在联合宏基站和小基站处的队列长度;

上式中ai,j(t),当i=1是用户在时隙t开始到达宏基站的数据包数量,当i>1为时隙t到达宏基站的小基站用户的随机包数量;

上式中bi,j(t),当i=1是宏基站mbs在时隙t向宏用户发送的数据包数量,当i>1为小基站在时隙t发送的数据包数量,b为每个有限长度的缓冲区可以容忍的最大数据队列长度;

上式中qi,j(t+1),当i=1是为下一个调度时隙t+1时用户k在宏基站处的队列长度,qk1(t+1)为下一个调度时隙t+1时联合宏基站和小基站处的队列长度。

进一步,所述步骤s1中,所述的最大化频谱效率和能量效率问题,即长期最大化se的同时最小化其网络功率总消耗问题,建模为如下马尔科夫决策过程问题:

系统状态空间:时隙t的系统全局状态空间由时隙t时用户在基站处队列积压的长度和时隙t新的用户需求到达之前基站的资源使用状态组成;

行动空间:mdp(markovdecisionprocess,马尔科夫决策过程)的一个策略是一个从系统状态空间到行动空间的映射,其确定了当系统处于任一状态时,系统根据当前到达的用户需求所采取的行动;

状态转移概率:当前有用户需求到达时,在当前系统状态下,根据其所对应的决策采取行动后,转移到系统的下一状态的概率;

回报函数:在时隙t时,状态采取行动后到达下一状态的最大单步收益函数。

进一步,系统对当前状态可采取的每个决策包括基站是否接纳当前用户的接入,也包括对新用户的需求所对应的频谱资源分配策略和基站的传输功率配置;

行动空间满足每个基站的传输功率约束条件。

进一步,所述步骤s2中,引入决策后状态,表示根据当前t时隙的状态,实施基站接纳当前用户的接入,并按照用户需求分配频谱资源和配置基站传输功率的决策之后而新的用户需求尚未到达的系统状态;

使用基于近似动态规划的方法把决策后状态的值函数用带参的线性函数近似拟合处理。

进一步,每个离散时隙t上,基于近似动态规划的接入与回传一体化小基站资源动态分配方法,具体步骤如下:

s21:在时隙t开始时,对每个状态,初始化其值函数,并选择初始状态,初始化折扣因子,设置初始时间为0,行为探索率为0.1,初始拉格朗日乘子为0等参数;

s22:当时隙在0到总周期t的区间内时执行如下:使用ε-贪心策略对行为空间进行探索,对新用户的需求实施是否接入、对应的频谱资源分配策略和基站传输功率的配置;对最优近似值函数求解,并令此时的解为以上最大化问题的解;

s23:根据基于随机梯度法更新待估参数的样本值函数不断逼近近似值函数的方法求出的最接近真实值函数的近似值函数,根据基于蒙特卡罗方法的外部用户需求随机变量采样算法对外部用户需求随机变量进行一次采样;根据梯度法更新拉格朗日乘子,通常迭代步长为递减函数或常数;

s24:更新时间,并根据系统状态转移概率的转移方程计算t+1时隙的系统状态。

进一步,在每个离散时隙t上,基于随机梯度法更新待估参数的样本值函数不断逼近近似值函数的方法,具体步骤如下:

1)在时隙t开始时,输入目标函数:对应的样本值函数和决策后状态的近似值函数之间的均方差最小;

2)给定满足一定条件的确定步长,折扣因子,设置初始时间为0,均方差误差门限等参数;

3)使用即时差分td(0)的方法取值函数样本,作为样本值函数的初始值;

4)使用数值微分的方法对待估参数取样本值;

5)计算当前状态的值函数样本;

6)观察样本值函数,智能体按照随机梯度法沿着梯度方向更新待估参数向量;

7)求得最优近似值函数;

8)判定中对应的样本值函数和决策后状态的近似值函数之间的均方差是否小于均方差误差门限,若不满足,则又继续执行样本值函数的步骤6),否则依此执行;

9)获得最接近真实值函数的近似值函数。

进一步,每个离散时隙t上,基于蒙特卡罗方法的外部用户需求随机变量采样方法,具体步骤如下:

1)在时隙t开始时,给定采样路径标记,并初始化为1;

2)设置总的采样次数,并设置总采样次数,选择初始状态,初始化折扣因子等参数;

3)当采样次数在1到总采样次数的区间内时执行如下:选择一条采样路径;否则结束采样;

4)对于训练的每一个采样时刻,用公式表示采样的实现;

5)得到时隙t到达宏基站或小基站用户的随机包数量与时隙t基站分给该自回传小基站用户的无线资源量;

6)采样次数加1,继续重复以上步骤。

本发明的有益效果在于:本发明在保证每个用户的平均时延约束以及每个基站的传输功率约束的前提下,根据用户的队列状态信息、基站的资源使用状态联合考虑的情况,使用马尔科夫决策过程对无线自回传小基站的无线资源分配方法建立联合最大化频谱效率和能量效率的多目标优化,可在长期的资源分配中取得频谱效率和能效最大化的折衷。同时使用近似动态规划的方法把决策后状态的值函数用带参的线性函数近似拟合处理,即可为任一动态到达的用户需求制定最佳的接入与资源分配策略,有效解决了动态优化理论中常见求解方法的维度灾问题。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:

图1为一个宏基站固定部署在中心、多个小基站和多个用户的双跳网络场景图;

图2为基于近似动态规划的方法(approximatedynamicprogramming,adp)的mdp求解过程展示图;

图3为基于随机梯度法更新待估参数的样本值函数逼近近似值函数算法的流程图;

图4为基于蒙特卡罗方法的外部用户需求随机变量采样算法的流程图;

图5为基于近似动态规划的接入与回传一体化小基站资源动态分配算法的流程图。

具体实施方式

下面将结合附图,对本发明的优选实施例进行详细的描述。

参见图1所示,图1描述了一个宏基站固定部署在中心、多个小基站和多个用户的双跳网络场景图,本实施例中包含一个宏基站,使用大规模mimo天线阵列,天线阵列数为m,在其覆盖范围内有i-1个单天线无线回传小基站。基站i集合i∈{1,2,...,i},当i=1时表示宏基站,当i≠1时表示小基站。假定宏基站和小基站共用相同的频谱,即小基站为带内自回传小基站。每个自回传小基站均配有全双工硬件,使得小基站能够工作在全双工模式。且有宏基站和小基站都带有一个有限的缓存空间,用于存储某一时刻等待发送的数据包。有j个单天线用户可任意接入到宏基站或者任意一个小基站。在大规模mimo系统中,宏基站在相同频带上波束成形组大小是n,下行通过使用波束赋形技术,使得宏基站能够使用相同的频谱资源同时与多个用户通信,同时也可用来减少宏用户间的同层干扰,同一基站下通过采用正交频分多址接入机制可以完美消除各小用户之间的干扰。在每个时隙t,t∈τ,假设全双工无线自回传系统中共有两类队列,且每个用户对应一个数据包队列。对于宏基站用户,当用户请求通过宏基站发送至核心网时,核心网会通过有线光纤的方式把宏用户的数据包发送到宏基站,并暂时在缓存区按照先到顺序排成队列,随后将数据包传给宏用户。对于小基站的用户,数据包通过核心网在mbs处排成n个队列,随后小基站从宏基站处接收小用户数据包并同时转发给小用户,未来得及传送的数据包会在小基站处形成排队。

参见图2所示,图2为基于近似动态规划的方法的mdp求解过程展示图,本实施例中,s0(t)为设置的初始状态;s(t)为时隙t时用户队列积压的长度和当前基站资源使用状态组成的系统全局状态;sa(t)为对t时隙状态s(t)实施行动后而新用户需求尚未到达的系统状态,即决策后状态;s(t+1)为状态s(t)采取行动a(t)后到达的下一状态;{a1(t),a2(t),...a(t)}为a(t)所有可能的行动构成的集合;g(λ,s(t),a(s(t)))为状态s(t)采取行动a(t)后到达下一状态s(t+1)的最大单步收益函数;va(sa(t))为决策后状态sa(t)的值函数,表示从决策后状态sa(t)到t时段的最小化最大单步收益;为第k次迭代待估参数向量的样本值函数。

参见图3所示,图3为基于随机梯度法更新待估参数的样本值函数逼近近似值函数算法的流程图,步骤如下:

步骤301:在时隙t开始时,输入目标函数:对应的样本值函数和决策后状态的近似值函数之间的均方差最小。

步骤302:给定满足一定条件的确定步长,折扣因子,设置初始时间为0,均方差误差门限等参数。

步骤303:使用即时差分td(0)的方法取值函数样本,作为样本值函数的初始值。

步骤304:使用数值微分的方法对待估参数取样本值。

步骤305:计算当前状态的值函数样本。

步骤306:观察样本值函数,智能体按照随机梯度法沿着梯度方向更新待估参数向量。

步骤307:求得最优近似值函数。

步骤308:判定中对应的样本值函数和决策后状态的近似值函数之间的均方差是否小于均方差误差门限,若不满足,则又继续执行样本值函数步骤306等步骤,否则依此执行。

步骤309:获得最接近真实值函数的近似值函数。

参见图4所示,为基于蒙特卡罗方法的外部用户需求随机变量采样算法的流程图,步骤如下:

步骤401:在时隙t开始时,给定采样路径标记,并初始化为1。

步骤402:设置总的采样次数,并设置总采样次数,选择初始状态,初始化折扣因子等参数。

步骤403:判定采样次数是否在1到总采样次数的区间内,若是,依此执行,否则结束采样。

步骤404:选择一条采样路径。

步骤405:对于训练的每一个采样时刻,用公式表示采样的实现。

步骤406:得到时隙t到达宏基站或小基站用户的随机包数量与时隙t基站分给该自回传小基站用户的无线资源量。

步骤407:采样次数加1,继续重复以上步骤。

参见图5所示,为基于近似动态规划的接入与回传一体化小基站资源动态分配算法的流程图,步骤如下:

步骤501:在时隙t开始时,对每个状态,初始化其值函数,并选择初始状态,初始化折扣因子,设置初始时间为0,行为探索率为0.1,初始拉格朗日乘子为0等参数。

步骤502:判定时隙是否在0到总周期t的区间内,若是,依此执行,否则结束算法。

步骤503:使用ε-贪心策略对行为空间进行探索,对新用户的需求实施是否接入、对应的频谱资源分配策略和基站传输功率的配置。

步骤504:对最优近似值函数求解,并令此时的解为以上最大化问题的解。

步骤505:根据上述基于随机梯度法更新待估参数的样本值函数不断逼近近似值函数的方法求出的最接近真实值函数的近似值函数,根据上述基于蒙特卡罗方法的外部用户需求随机变量采样算法对外部用户需求随机变量进行一次采样。

步骤506:根据梯度法更新拉格朗日乘子,通常迭代步长为递减函数或常数。

步骤507:更新时间,并根据系统状态转移概率t的转移方程计算t+1时隙的系统状态。

最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1