本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的c-ran用户关联和计算资源分配方法。
背景技术:
5g时代即将到来,以支持人类,机器之间的大规模连接。5g接入网是一个满足多场景的多层异构网络,能够容纳已广泛应用的各种无线接入技术和5g新空口多种接入技术。c-ran被认为是在5g网络中实现这些服务的核心技术。c-ran将基站(basestation,bs)基础设施与云计算融合在一起,再利用光纤与低延迟网络连接,形成一个大基带单元(basebandunit,bbu)池。这种集中式基带处理可以大大减少覆盖同样区域的基站数量;面向协作的无线远端模块和天线可以提高系统频谱效率;基于基站虚拟化技术可以降低成本,共享处理资源,减少能源消耗。c-ran中通过密集部署rrh(remoteradiohead),可以实现更高的数据速率和频谱效率。然而,大量rrh之间的联合基带数据处理和协作,将使回程链路产生巨大流量负载。边缘缓存是缓解此问题的有效方案,因为它通过使流行内容更接近最终用户来减少回程链路上的流量。与现有蜂窝网络不同,在c-ran中,计算资源位于具有强大计算平台的中央无线网络云中。这种集中式资源分配可以带来显着的好处:由于先进的协调信号处理技术,提高了网络性能;通过利用负荷变化来减少能源消耗等。伴随着用户数量和服务要求的增加,大量的计算任务需要卸载到c-ran的bbu池中。这样,bbu需要灵活地进行计算资源分配,来满足用户低时延的需求。
技术实现要素:
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法,通过制定用于与rrh关联方案和bbu计算资源分配策略,从而减少服务时延,提高用户服务质量,缓解回程容量负担。
本发明提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法,包括如下步骤:
步骤s1、构建深度强化学习模型,初始化深度神经网络参数,将用户接收到的信干噪比和bbu池中各计算服务器的计算能力根据取值范围划分量化为多个水平,每个水平均与有限状态马尔可夫状态空间相对应,再将sinr状态、bbu池中计算状态和rrh缓存状态组合成系统状态作为神经网络的输入;
步骤s2、根据输入的系统状态对神经网络进行训练,获取神经网络输出,即系统动作;
步骤s3、c-ran按照系统动作进行用户关联和bbu池中计算资源分配,并根据奖赏函数和状态转移矩阵获取该系统动作下的奖赏值与下一时隙系统状态;
步骤s4、将奖赏值和下一时隙系统状态输入至神经网络中,重复上述步骤s1-s3直至奖赏值趋于稳定,从而完成训练过程,根据最后的系统动作进行用户关联和buu池计算资源分配。
作为本发明的进一步技术方案,步骤s1中初始化的深度神经网络参数包括权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。
进一步的,步骤s1中构建深度强化学习模型的具体步骤为:
步骤s11、第t时隙,用户
其中,
步骤s12、用户
步骤s13、缓存内容被请求概率遵循
更进一步的,步骤s11中,在fsmc模型中,与第
更进一步的,步骤s12中,不同时隙,rrh所服务用户数以及bbu池分给各用户的资源都不相同,导致bbu计算资源随时隙而变化。计算资源
更进一步的,步骤s13中,用户
进一步的,步骤s2中,系统动作分为两部分,一部分是用户与rrh的关联方案,另一部分是bbu池中计算资源分配策略,可表示为
进一步的,步骤s3中,奖赏函数由用户服务时间决定,奖赏函数为
不同时隙系统状态将通过起始状态和状态转移矩阵得到。状态转移矩阵的sinr状态转移矩阵为
计算能力状态转移矩阵为
其中,
则缓存状态转移矩阵为
进一步的,奖赏函数在t时隙,系统即时奖赏为用户服务时间,网络管理者通过在状态
本发明基于深度强化学习,制定用户与rrh的关联方案和bbu计算资源分配的策略,从而减少服务时延,提高用户服务质量,并且在rrh处增加缓存功能,缓解系统的回程容量负担。
附图说明
图1为本发明的流程示意图。
具体实施方式
请参阅图1,本实施例提供一种基于深度强化学习的c-ran用户关联和计算资源分配方法,该方法包括以下步骤:
步骤101:初始化深度神经网络参数:权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。
用户
其中,
在t时隙,系统即时奖赏为用户服务时间。网络管理者通过在状态
其中,
sinr状态转移矩阵表示为:
其中,
计算能力状态转移矩阵表示为:
其中,
缓存状态转移矩阵可表示为:
步骤102:在fsmc模型中,与第
不同时隙,bbu池分给所有rrh的计算资源都是不同的。
不同时隙,rrh所服务的用户数是不同的,导致每个用户分配的计算资源也不同的。
以上两点导致bbu计算资源随时隙而变化。这样,计算资源
用户
步骤103:、第t时隙,用户
其中,
用户
缓存内容被请求概率遵循
步骤104:系统动作由两部分组成可表示为:
其中,
步骤105:建立深度强化学习模型,初始化深度神经网络参数:权重w、偏置b、学习率l、卷积神经网络卷积层、池化层和全连接层数目。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。