基于强化学习的异构网络资源管理方法

文档序号：7939992阅读：289来源：国知局

专利名称：基于强化学习的异构网络资源管理方法
技术领域：
本发明涉及一种特别用于异构网络环境中的无线资源管理方法，并采用了强化学习的控制策略，属于通信技术领域。
背景技术：
随着无线通信技术的快速发展，出现了多种无线接入技术并存的局面，由于这些无线接入系统都是专门针对某些特定的业务类型和用户群体而设计的，所以在网络的覆盖范围、可用带宽、资费水平、对用户移动性的支持和服务质量(QoQ保证等方面都存在一定的差异性，这种针对特定业务类型而专门设计的无线接入系统己经无法再满足用户日益复杂多变的业务需求。由于现在的各种无线接入系统在很多区域内都是重叠覆盖的，因此可以将这些相互重叠的不同类型的无线接入系统智能地融合在一起，共同为用户提供随时随地的无线接入服务，从而构成了一种异构无线网络(Heterogeneous Wireless Networks, HWN)。所谓异构(heterogenoous)其实是指两个无线接入系统采用了不同的无线接入技术，或者是采用相同的无线接入技术但属于不同的无线运营商。在异构无线网络中，用户可以根据业务需要和网络状态等因素随时选择接入到最合适的那个无线接入系统中，从而满足用户灵活多变的个性化业务需求。另外，通过合理的无线资源管理，可以充分利用异构无线网络中各种无线接入系统的基础设施和频率资源，充分激发这些系统的潜能，共同为用户提供单系统运营模式下所无法支持的业务和功能，从而在满足用户复杂多变的个性化业务需求的同时提高无线运营商的利润水平为了实现异构网络的真正融合，无线资源管理已经成为异构网络中的关键技术之一。为此人们针对异构网络中的资源管理问题提出了很多方案和算法。强化学习(RL)可以从延迟的回报中获取最优的控制策略，一个可学习的智能体，它可以观察环境的状态并能做出一组动作改变这些状态，学习的任务是获得一个控制策略，以选择能达到目的的行为。 RL以其自适应性和灵活性，被广泛的应用于机器人和自动控制领域，并被引入到动态频谱接入中。

发明内容
技术问题本发明的目的是提出有一种基于强化学习的异构网络资源管理方法，针对异构网络的多种业务需求和多样呼叫类型，该算法将不同的呼叫类型区分对待，对不同的业务类型采取不同的资源分配策略，提出了基于负载的带宽自适应均衡因子和基于带宽的利润函数，并将二者联合作为回报函数。技术方案本发明的基于强化学习的异构网络资源管理方法将强化学习用于异构网络的资源管理中，具体包括以下内容a.状态空间由可用网络数量、当前的网络负载状况、呼叫类型及业务类型组成；b.动作空间包括网络的选择以及带宽的分配，带宽分配是按照2b个带宽单元来分配的，其中b = 0,1,2,......，所以在此用b的取值来定义动作空间A :A = {0,1,2，......η · (K+l)-l}，其中η就是状态空间中的可用网络数量，K表示b的最大取值，K =
max (b)，如果当前只有一个网络覆盖，则A= {0,1,2,......K}，分别表示当前网络所能够
分配的不同带宽等级2°个带宽单元，21个带宽单元，......22个带宽单元，如果当前有两
个网络覆盖，则A = {0，1，2，. . . K，K+l，. . . 2K+1}，分别表示不同的网络所能分配的不同带宽等级；c.回报函数需要根据不同的业务进行定义语音业务对带宽要求不高，只要Bv。个带宽单元就能满足其通信需求，不管接入哪个网络，只要给它分配的带宽多于Bv。个带宽单元，则回报就是0，如果给它分配的带宽是Bv。个带宽单元，则就获取相应的回报， Bv。为传输语音业务所需要的带宽单元数目；对于视频业务和数据业务就涉及到带宽需求的问题，用一个利润函数P来和每次分配动作相关联，则视频业务的回报函数定义为
权利要求
1.一种基于强化学习的异构网络资源管理方法，其特征在于该方法将强化学习用于异构网络的资源管理中，具体包括以下内容a.状态空间由可用网络数量、当前的网络负载状况、呼叫类型及业务类型组成；b.动作空间包括网络的选择以及带宽的分配，带宽分配是按照2b个带宽单元来分配的，其中b = 0,1,2,......，所以在此用b的取值来定义动作空间A :A = {0,1,2，......η · (K+l)-l}，其中η就是状态空间中的可用网络数量，K表示b的最大取值，K =max (b)，如果当前只有一个网络覆盖，则A= {0,1,2,......K}，分别表示当前网络所能够分配的不同带宽等级2°个带宽单元，21个带宽单元，......22个带宽单元，如果当前有两个网络覆盖，则A = {0，1，2，. . . K，K+l，. . . 2K+1}，分别表示不同的网络所能分配的不同带宽等级；c.回报函数需要根据不同的业务进行定义语音业务对带宽要求不高，只要Bv。个带宽单元就能满足其通信需求，不管接入哪个网络，只要给它分配的带宽多于Bv。个带宽单元，则回报就是0，如果给它分配的带宽是Bv。个带宽单元，则就获取相应的回报， Bv。为传输语音业务所需要的带宽单元数目；对于视频业务和数据业务就涉及到带宽需求的问题，用一个利润函数P来和每次分配动作相关联，则视频业务的回报函数定义为 =B^d<2^<Bm^vd，其中β是权重系数，G为自适应带宽均衡因子，Β_ν( 为视频业务所需的最小带宽，Bfflax vd为视频业务所需要的最大带宽；数据业务的回报函数定义为r =1Ife^da，其中^llin da为数据业务所需的最小带宽。
2.如权利要求1所述的基于强化学习的异构网络资源管理方法，其特征在于所述的利润函数P = g-σ · 1，其中g表示这次分配动作相对于动作之前的带宽收益值，则g = ΔΒ =4_Bf，其中&表示动作之后的带宽表示动作之前的带宽；1表示这次动作所付出的代价值，1 = Bf · τ，其中τ表示切换时延；σ是时延敏感系数，σ越大，时延损失在利润函数中占得比重就越大；因此P = g_ σ · 1 = Bb-Bf- σ · Bf · τ。
3.如权利要求1所述的基于强化学习的异构网络资源管理方法，其特征在于所述的自适应带宽均衡因子G定义为G = (1- η》b，其中b表示本次分配动作为该用户分配了 2b个带宽单元，Hi表示所选网络i的负载。
全文摘要
本发明的基于强化学习的异构网络资源管理方法，针对异构网络的多种业务需求和多样呼叫类型，将强化学习用于异构无线网络的资源管理中，将不同的呼叫类型区分对待，赋予不同的处理优先级，对不同的业务类型采取不同的资源分配策略，给出了基于负载的带宽自适应均衡因子和基于带宽的利润函数，并将二者联合作为回报函数，在尽量满足各种业务带宽需求的情况下实现了不同网络之间的负载均衡和同一网络内的自适应带宽分配，提高了资源利用率。
文档编号H04W28/08GK102238631SQ201110236029
公开日2011年11月9日申请日期2011年8月17日优先权日2011年8月17日
发明者朱琦, 赵夙, 赵彦清申请人:南京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱琦;赵彦清;赵夙
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：认知正交频分复用系统中基于业务质量的资源分配方法
上一篇：一种实现上行空分多址的方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。