一种基于深度强化学习的C-RAN用户关联和计算资源分配方法与流程

文档序号：17899191发布日期：2019-06-13 16:13阅读：497来源：国知局

本发明属于移动通信技术领域，具体涉及一种基于深度强化学习的c-ran用户关联和计算资源分配方法。

背景技术：

5g时代即将到来，以支持人类，机器之间的大规模连接。5g接入网是一个满足多场景的多层异构网络，能够容纳已广泛应用的各种无线接入技术和5g新空口多种接入技术。c-ran被认为是在5g网络中实现这些服务的核心技术。c-ran将基站（basestation，bs）基础设施与云计算融合在一起，再利用光纤与低延迟网络连接，形成一个大基带单元（basebandunit，bbu）池。这种集中式基带处理可以大大减少覆盖同样区域的基站数量；面向协作的无线远端模块和天线可以提高系统频谱效率；基于基站虚拟化技术可以降低成本，共享处理资源，减少能源消耗。c-ran中通过密集部署rrh（remoteradiohead），可以实现更高的数据速率和频谱效率。然而，大量rrh之间的联合基带数据处理和协作，将使回程链路产生巨大流量负载。边缘缓存是缓解此问题的有效方案，因为它通过使流行内容更接近最终用户来减少回程链路上的流量。与现有蜂窝网络不同，在c-ran中，计算资源位于具有强大计算平台的中央无线网络云中。这种集中式资源分配可以带来显着的好处：由于先进的协调信号处理技术，提高了网络性能；通过利用负荷变化来减少能源消耗等。伴随着用户数量和服务要求的增加，大量的计算任务需要卸载到c-ran的bbu池中。这样，bbu需要灵活地进行计算资源分配，来满足用户低时延的需求。

技术实现要素：

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法，通过制定用于与rrh关联方案和bbu计算资源分配策略，从而减少服务时延，提高用户服务质量，缓解回程容量负担。

本发明提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法，包括如下步骤：

步骤s1、构建深度强化学习模型，初始化深度神经网络参数，将用户接收到的信干噪比和bbu池中各计算服务器的计算能力根据取值范围划分量化为多个水平，每个水平均与有限状态马尔可夫状态空间相对应，再将sinr状态、bbu池中计算状态和rrh缓存状态组合成系统状态作为神经网络的输入；

步骤s2、根据输入的系统状态对神经网络进行训练，获取神经网络输出，即系统动作；

步骤s3、c-ran按照系统动作进行用户关联和bbu池中计算资源分配，并根据奖赏函数和状态转移矩阵获取该系统动作下的奖赏值与下一时隙系统状态；

步骤s4、将奖赏值和下一时隙系统状态输入至神经网络中，重复上述步骤s1-s3直至奖赏值趋于稳定，从而完成训练过程，根据最后的系统动作进行用户关联和buu池计算资源分配。

作为本发明的进一步技术方案，步骤s1中初始化的深度神经网络参数包括权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。

进一步的，步骤s1中构建深度强化学习模型的具体步骤为：

步骤s11、第t时隙，用户与第个rrh之间的无线信道可达速率为；

其中，为无线信道带宽；为第个rrh相关联的用户接受到的sinr，公式为，和表示用户与第个和第个rrh之间的信道增益，和为第个rrh对用户和用户的发射功率，为第个rrh的发射功率，为复高斯白噪声的方差；

步骤s12、用户计算任务为；其中，为用户请求任务数据量大小，为计算工作负载/强度；

步骤s13、缓存内容被请求概率遵循分布，内容被请求概率为：，其中，表示泊松分布到达率，。

更进一步的，步骤s11中，在fsmc模型中，与第个rrh相关联的用户的sinr被建模成一个随机变量；根据的取值范围量化成l个水平：，；，；，，每个水平都与fsm状态空间相对应。

更进一步的，步骤s12中，不同时隙，rrh所服务用户数以及bbu池分给各用户的资源都不相同，导致bbu计算资源随时隙而变化。计算资源建模为一个随机变量，其对应的fsm状态空间为。

更进一步的，步骤s13中，用户请求内容是否被缓存到rrh作为一个随机变量，其相对应的状态空间为。

进一步的，步骤s2中，系统动作分为两部分，一部分是用户与rrh的关联方案，另一部分是bbu池中计算资源分配策略，可表示为，其中，，，；为用户与第个rrh相关联，且为每个用户只能与一个rrh关联；，表示用户的计算任务卸载到bbu第m个计算服务器上，且表示每个任务只能由一个服务器执行。

进一步的，步骤s3中，奖赏函数由用户服务时间决定，奖赏函数为

，其中，为用户的最大服务时间，，为用户与第个rrh之间的数据传输时间，；为rrh将用户请求内容交付到核心网络并返回的往返时间成本，，表示第个rrh缓存了用户请求内容，为bbu池执行用户计算任务所需的计算时间，公式中为执行用户任务所分配的计算能力；

不同时隙系统状态将通过起始状态和状态转移矩阵得到。状态转移矩阵的sinr状态转移矩阵为其中，为从状态到状态的转移概率；

计算能力状态转移矩阵为，

其中，表示从状态到状态的转移概率；

则缓存状态转移矩阵为，表示从0状态到1状态的转移概率。

进一步的，奖赏函数在t时隙，系统即时奖赏为用户服务时间，网络管理者通过在状态执行动作得到即时奖赏，深度q网络累计奖赏的公式为，其中，为网络管理者眼光是否看得长远，当t足够大时近似于零。

本发明基于深度强化学习，制定用户与rrh的关联方案和bbu计算资源分配的策略，从而减少服务时延，提高用户服务质量，并且在rrh处增加缓存功能，缓解系统的回程容量负担。

附图说明

图1为本发明的流程示意图。

具体实施方式

请参阅图1，本实施例提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法，该方法包括以下步骤：

步骤101：初始化深度神经网络参数：权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。

用户奖励函数定义为：

，

其中，表示用户的最大服务时间；

表示用户与第个rrh之间的数据传输时间，这里，表示rrh将用户请求内容交付到核心网络并返回的往返时间成本。，表示第个rrh缓存了用户请求内容；

表示bbu执行用户计算任务所需的计算时间，这里表示执行用户任务所分配的计算能力。

在t时隙，系统即时奖赏为用户服务时间。网络管理者通过在状态执行动作得到即时奖赏。深度q网络的目的发现使长期累计奖赏最大的策略，累计奖赏可由下式表示：

，

其中，代表网络管理者眼光是否看得长远，当t足够大时近似于零。

sinr状态转移矩阵表示为：

，

其中，表示从状态到状态的转移概率。

计算能力状态转移矩阵表示为：

，

其中，表示从状态到状态的转移概率。

缓存状态转移矩阵可表示为：，这里表示从0状态到1状态的转移概率。

步骤102：在fsmc模型中，与第个rrh相关联的用户的sinr被建模成一个随机变量。根据的取值范围划分或量化成l个水平：，；，；，。每个水平都与fsm状态空间相对应。

不同时隙，bbu池分给所有rrh的计算资源都是不同的。

不同时隙，rrh所服务的用户数是不同的，导致每个用户分配的计算资源也不同的。

以上两点导致bbu计算资源随时隙而变化。这样，计算资源被建模成一个随机变量，对应的fsm状态空间为。

用户请求内容是否被缓存到rrh可被视为一个随机变量，相对应的状态空间为

步骤103：、第t时隙，用户与第个rrh之间的无线信道可达速率为：

，

其中，为无线信道带宽；表示与第个相关联的用户接受到的sinr，这里和表示用户与第个和第个rrh之间的信道增益，和表示第个rrh对用户和用户的发射功率，表示第个rrh的发射功率。表示复高斯白噪声的方差。

用户计算任务表示为。这里表示用户请求任务数据量大小，为计算工作负载/强度。

缓存内容被请求概率遵循分布，内容被请求概率为：，这里，表示泊松分布到达率，，。

步骤104：系统动作由两部分组成可表示为：

，

其中，，；

，表示用户与第个rrh相关联，且表示每个用户只能与一个rrh关联；，表示用户的计算任务卸载到bbu第m个计算服务器上，且表示每个任务只能由一个服务器执行。

步骤105：建立深度强化学习模型，初始化深度神经网络参数：权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军;靳晓岩;蔡艳;朱洪波;杨龙祥
技术所有人：南京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。