一种基于深度强化学习的异构蜂窝网络联合优化方法与流程

文档序号:16009217发布日期:2018-11-20 20:27阅读:232来源:国知局

本发明属于无线通信技术领域,具体涉及一种基于深度强化学习的异构蜂窝 网络联合优化方法。



背景技术:

随着无线通信技术的快速发展,异构蜂窝网络面临着日益增长的网络容量需 求的巨大挑战。异构蜂窝网络可以平衡流量负载和降低小型设备费用,这在下一 代蜂窝网络中被认为是有前途的技术。

目前异构蜂窝网络依旧存在诸多问题,如用户关联、资源分配和功率控制等 问题。由于联合优化问题的高维动作空间,使用强化学习方法获得最优策略具有 一定难度。考虑到联合优化问题的高维动作空间,深度强化学习(Deep Reinforcement Learning,DRL)可以被认为是一个有希望来处理复杂的控制问题 的技术。通过将深度神经网络(Deep Neural Network,DNN)与强化学习相结合, 可以提高深度Q网络(Deep Q-Network,DQN)的学习性能和学习效率。因此,本 方法提出基于深度强化学习的异构蜂窝网络联合优化方法。



技术实现要素:

为了克服上述现有技术存在的不足,本发明的目的在于提出一种基于深度强 化学习的异构蜂窝网络联合优化方法。

为了达到上述目的,本发明所采用的技术方案是:一种基于深度强化学习的 异构蜂窝网络联合优化方法,其特征在于,所述方法包括如下步骤:

针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制的联合优化 问题,在考虑到联合优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网 络系统模型基础上,通过提出多智能体深度强化学习优化策略,结合用户满意度 (Quality of service,Qos)和运营商追求利益的条件,利用深度强化学习方法,获 得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统 效用的最大化。

进一步地,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、 FBSs和用户设备(User Equipments,UEs)组成的两层异构蜂窝网络。假设某一个 MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示 为BS={MBS,FBS1,...,FBSL}。假设所有的基站和N个UEs都只有一个通信天 线,BS可以在K个信道上工作。

对于任意一个UE,定义二元信道分配变量为:

其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道。因此, 对于每一个UE,有

此外,定义二元联合基站变量:

其中,在时间t,如果第i个用户连接到第l个基站,则否则, 考虑到每个UE只能接入一个基站,对于每一个UE,有

假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围 内,于是,第i个UE处的瞬时信号干扰比(Signal to Interference Plus Noise Ratio, SINR)为:

其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽, N0是噪声谱功率。

于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:

在双层异构蜂窝网络中,UE想保证其QoS要求下使BS的传输速率最大化。 BS希望以最低的运营成本维持UE的QoS要求。因此,要处理相互冲突的目标 在UE和BS之间考虑BS的运营成本。

同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用 户服务的最低要求Ωi,即

此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格。于是,第i个UE总传输成本为:

定义第i个UE的效用wi(t)为收入利润与运营成本之差,可以写成

其中,ρ>0为每个用户单位速率的收益。

注意,在异构网络中,每个UE考虑用户关联,资源分配和功率控制的联合 优化问题以最大化其长期奖励。在这里,定义长期奖励lri(t)作为无限期瞬时奖 励的总和,即

其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。

进一步地,所述多智能体深度强化学习优化策略,所采取的实现过程包括: 定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝 网络中,每个UE都扮演着一个智能体的角色。因此,提出分布式多智能体强化 学习优化策略。

状态空间:目标状态s(t)由N个UE的服务质量综合确定。

s(t)={s1(t),s2(t),...,sN(t)}

当用户对服务质量满意时就等于1,不满意就是0。

动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应 用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率 水平选择变量定义为:

其中,如果BS选择传输功率pm,则否则,考虑到BS 传输时只能选择一种功率水平,于是有:

于是,每一个UE的动作空间中四个变量:

奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:

其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效 用就是其奖励。否则,UE的奖励就是其动作的选择成本。

考虑到其简单性和分布性特点,采用分布式多智能体强化学习。每个UE通 过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。每个UE 不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状态给其 他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化。

第i个UE的累计收益定义为:

其中,E表示学习期望,它与时间t无关。

由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于 是,值函数可简化为:

其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移 概率。

于是,基于贝尔曼准则,最优策略为:

于是,得到最优Q值函数

基于上述最优Q值函数最优策略可得:

一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息 (s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。同时,为 了解决较大空间联合问题,将深度神经网络(Deep Neural Network,DNN)引入到Q 学习的框架中,深度Q网络(Deep Q Network,DQN)是最有效的方法。在DQN 中,DNN可以很好地表示大型空间变量。此外,可以使用DNN通过从状态映射 到动作来近似Q值函数。神经网络函数近似其中权重θ被 用作Q网络参数。

Q网络在每次迭代中更新其权重θ以此尽量降低损失函数:

其中DQN函数:定义θ为在线网络Qi(s,ai;θ)的权重,并且θ-为目标网络的权重。尽管目标网络是在线网络的副本, 但在更新在线网络函数时θ-被多次迭代。动作ai是从Qi(s,ai;θ)中选择一个简单 的ε-greedy策略。

在DQN中,为了解决算法的不稳定性,可以使用经验再现策略。在学习过 程中,不是只使用当前的经验(s,ai,ui(s,ai),s′),而是通过抽取小批量的经验从重 放存储器D随机均匀地重放。在这些训练实例中通过减少相关性,经验重播策 略确保最优策略不被驱赶到局部最小值。

此外,由于在Q学习和DQN方法中使用相同的值来选择和评估动作,所以 Q值函数可能过于近似地估计。因此,使用深度双Q网络(Double Deep Q Network, DDQN)通过将目标替换为下述目标来缓解上述问题:

更具体地说,在线网络和目标网络都采用下一个状态s′来计算最佳值 Qi(s′,ai′;θ)。然后,利用折扣因子γ和当前的奖励ui(s,ai),获得目标值最后,通过将在线网络函数预测的最优值Qi(s,ai;θ)用来减去目标值来计算误差, 然后通过反馈传播更新权重θ。

此外,考虑到Q值函数可以描述在一个状态s下采取行动ai的有效程度,引 入神经对抗网络来估计值函数V(s)和相关优势函数A(s,ai)。优势函数A(s,ai)描 述了与其他可能的行为相比,行为ai的优势。因此,在神经对抗网络框架中, DDQN的最后一层被分成两个子网络来估计V(s)和A(s,ai)。然后,通过结合V(s) 和A(s,ai),动作值函数Qi(s,ai)可以通过下面的公式:

其中,α和β是两个函数中的参数。

然后,将D3QN扩展到多智能体深层强化学习。D3QN与多智能体Q学习 相结合,提出了多智能体D3QN方法。更具体地,在训练的每个步骤中,每个 UE通过状态动作对(s,ai)的输入从D3QN导出估计的Q值。ε-greedy策略用于 选择执行操作ai。然后,在从网络环境观察当前奖励ui(s,ai)和下一状态s′之后, 将状态转换(s,ai,ui(s,ai),s′)存储到重放存储器D中。在步骤结束时,每个UE 用来自重放存储器D的随机小批量样本更新D3QN的参数θ。

与现有技术相比,本发明的有益效果是:本发明针对用户关联,资源分配和 下行链路传输功率的联合问题,提出异构网络下基于深度强化学习联合优化问题 的方法,引入基于多用户深度强化学习的分布式算法,在保证用户服务质量需求 的前提下,以获得最优的用户关联、信道分配和功率控制联合优化策略,实现下 行链路长期效用的最大化。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明 作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发 明,并不用于限定本发明。

本发明研究了下行链路异构蜂窝网络中用户关联,资源分配和功率控制的联 合优化问题,通过多智能体深度强化学习的分布式优化算法来获得最优策略。主 要内容总结如下:

技术方案:针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制 的联合优化问题,开发了一种基于DRL的分布式算法框架。主要问题是为了最 大化下行链路长期整体网络效用同时保证用户满意度(Quality of service,Qos)。最 优策略是通过在宏基站(Macro Base Station,MBS)中部署多个具有不同发射功 率、覆盖范围的家庭基站(Femto Base Station,FBS),不仅可以降低通信负载和 运营商的成本,而且可使用与MBS相同的无线频率以提高无线频谱的利用率。

优化算法设计:考虑到联合优化问题的非凸性和组合特性,提出了多智能体 深度强化学习算法。具体来说,定义了智能体的状态,动作和收益函数。然后, 引入基于竞争构架的深度双Q网络(Dueling Double DeepQ-Network,D3QN)方法 来学习最优策略。通过消息传递,智能体分布通过较少的通信开销获得状态空间。 基于Q学习、深度Q网络和多智能体算法框架,D3QN能够通过从当前状态接 近动作值函数来有效地计算最优策略。

多智能体强化学习被用来获得用户联合,资源分配和功率控制的联合策略。 用户设备(User Equipments,UEs)通过选择BS,传输信道和功率等级以最大化其 长期奖励lri(t)。由于一个UE的长期收益不可避免地受到其他UE的动作的影 响,因此我们必须考虑网络环境的时变动态特性。

具体过程如下:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中, S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函 数,P是状态转移矩阵。在本节中,我们首先描述多智能体强化学习的系统模型, 接着提出基于多智能体深度强化学联合优化策略。

A.系统模型

考虑由MBS、FBSs和用户设备UEs组成的两层异构蜂窝网络。假设某一个 MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示 为BS={MBS,FBS1,...,FBSL}。假设所有的基站和N个UEs都只有一个通信天 线,BS可以在K个信道上工作。

对于任意一个UE,定义二元信道分配变量为:

其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道。因此, 对于每一个UE,有

此外,定义二元联合基站变量:

其中,在时间t,如果第i个用户连接到第l个基站,则否则, 考虑到每个UE只能接入一个基站,对于每一个UE,有

假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为 由于FBSs被部署在MBS的无线电覆盖范围 内,于是,第i个UE处的瞬时信号干扰比(Signal to Interference Plus Noise Ratio, SINR)为:

其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽, N0是噪声谱功率。

于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:

在双层异构蜂窝网络中,UE想保证其QoS要求下使BS的传输速率最大化。 BS希望以最低的运营成本维持UE的QoS要求。因此,要处理相互冲突的目标 在UE和BS之间考虑BS的运营成本。

同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用 户服务的最低要求Ωi,即

此外,假设第k个信道下行链路的数据传输成本为: 其中,λ1是BS传输功率的单位价格。于是,第i个UE 总传输成本为:

我们定义第i个UE的效用wi(t)为收入利润与运营成本之差,可以写成

其中,ρ>0为每个用户单位速率的收益。

注意,在异构网络中,每个UE考虑用户关联,资源分配和功率控制的联合 优化问题以最大化其长期奖励。在这里,我们定义长期奖励lri(t)作为无限期瞬 时奖励的总和,即

其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。

B.多智能体深度强化学习联合优化策略

定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构 蜂窝网络中,每个UE都扮演着一个智能体的角色。因此,我们提出分布式多智 能体强化学习优化策略。

状态空间:目标状态s(t)由N个UE的服务质量综合确定。 s(t)={s1(t),s2(t),...,sN(t)},

当用户对服务质量满意时就等于1,不满意就是0。

动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应 用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率 水平选择变量定义为:

其中,如果BS选择传输功率pm,则否则,考虑到BS 传输时只能选择一种功率水平,于是有:

于是,每一个UE的动作空间中四个变量:

奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:

其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效 用就是其奖励。否则,UE的奖励就是其动作的选择成本。

考虑到其简单性和分布性特点,本发明采用分布式多智能体强化学习。每个 UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。 每个UE不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状 态给其他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的 最大化。

第i个UE的累计收益定义为:

其中,E表示学习期望,它与时间t无关。

由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于 是,值函数可简化为:

其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移 概率。

于是,基于贝尔曼准则,最优策略为:

于是,得到最优Q值函数

基于上述最优Q值函数最优策略可得:

一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。同时,为 了解决较大空间联合问题,将深度神经网络(Deep Neural Network,DNN)引入到Q 学习的框架中,深度Q网络(Deep Q Network,DQN)是最有效的方法。在DQN 中,DNN可以很好地表示大型空间变量。此外,可以使用DNN通过从状态映射 到动作来近似Q值函数。神经网络函数近似Qi(s,ai;θ)≈Qi*(s,ai),其中权重θ被 用作Q网络参数。

Q网络在每次迭代中更新其权重θ以此尽量降低损失函数:

其中DQN函数:定义θ为在线网络 Qi(s,ai;θ)的权重,并且θ-为目标网络的权重。尽管目标网络是在线网络的副本, 但在更新在线网络函数时θ-被多次迭代。动作ai是从Qi(s,ai;θ)中选择一个简单 的ε-greedy策略。

在DQN中,为了解决算法的不稳定性,我们使用了经验再现策略。在学习 过程中,不是只使用当前的经验(s,ai,ui(s,ai),s′),而是通过抽取小批量的经验从 重放存储器D随机均匀地重放。在这些训练实例中通过减少相关性,经验重播 策略确保最优策略不被驱赶到局部最小值。

此外,由于在Q学习和DQN方法中使用相同的值来选择和评估动作,所以 Q值函数可能过于近似地估计。因此,使用深度双Q网络(Double Deep Q Network, DDQN)通过将目标替换为下述目标来缓解上述问题:

更具体地说,在线网络和目标网络都采用下一个状态s′来计算最佳值 Qi(s′,ai′;θ)。然后,利用折扣因子γ和当前的奖励ui(s,ai),获得目标值最后,通过将在线网络函数预测的最优值Qi(s,ai;θ)用来减去目标值来计算误差, 然后通过反馈传播更新权重θ。

此外,考虑到Q值函数可以描述在一个状态s下采取行动ai的有效程度,引 入神经对抗网络来估计值函数V(s)和相关优势函数A(s,ai)。优势函数A(s,ai)描 述了与其他可能的行为相比,行为ai的优势。因此,在神经对抗网络框架中, DDQN的最后一层被分成两个子网络来估计V(s)和A(s,ai)。然后,通过结合V(s) 和A(s,ai),动作值函数Qi(s,ai)可以通过下面的公式:

其中,α和β是两个函数中的参数。

然后,将D3QN扩展到多智能体深层强化学习。D3QN与多智能体Q学习 相结合,提出了多智能体D3QN方法。更具体地,在训练的每个步骤中,每个 UE通过状态动作对(s,ai)的输入从D3QN导出估计的Q值。ε-greedy策略用于 选择执行操作ai。然后,在从网络环境观察当前奖励ui(s,ai)和下一状态s′之后, 将状态转换(s,ai,ui(s,ai),s′)存储到重放存储器D中。在步骤结束时,每个UE 用来自重放存储器D的随机小批量样本更新D3QN的参数θ。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是 对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不 脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发 明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1