基于马尔科夫决策过程的网络选择方法及装置与流程

文档序号:19060871发布日期:2019-11-06 01:46阅读:311来源:国知局
基于马尔科夫决策过程的网络选择方法及装置与流程

本发明涉及5g超密集网络和异构网络技术领域,尤其涉及一种基于马尔科夫决策过程的网络选择方法及装置。



背景技术:

随着移动互联网和物联网的快速发展,移动通信业务增长迅速,预计到2021年,全球移动数据业务量将增长7倍。与2010年相比,蜂窝无线网络在2020年将面临着1000倍的数据量挑战。为满足数据流量的高速增长、海量设备连接以及不断涌现的新业务和新应用需求,提出了新一代5g移动网络的部署需要。5g移动网络具有更高的数据流量、用户体验速率、海量终端连接以及更低时延、更高可靠性等特征。通过在室内外热点区域密集部署低功率小基站,形成超密集网络,是解决5g移动网络数据流量爆炸式增长有效解决方案。在这样的无线环境中,用户在任何时候选择最佳的接入网都是一个重要的问题。

网络选择方案是影响用户体验和网络整体资源利用率的重要因素。lte-a场景中,有许多工作已经对该问题展开了深入的研究。从不同的角度来考虑了网络选择问题以实现系统的qos最优化。一些方案中,采用终端获得功率强度、信干噪比或传输速率,来实现用户收益最大化。另一些方案中,同时考虑终端侧和网络侧,通过建立博弈模型,证明系统可以达到纳什均衡,从而实现最大化系统效益。

但是,实际应用中,终端需要完成多种不同类型的业务,终端在进行不同业务时,对服务质量qos的需求并不相同,采用现有技术中的方案选择网络,不能很好地适应任务到达的高度动态性和智能区分不同任务的qos需求,导致终端选择网络传输后,任务qos得不到最大化保证,以及系统整体性能较差。



技术实现要素:

本发明实施例提供一种基于马尔科夫决策过程的网络选择方法及装置,用于解决现有技术中无法保证任务的服务质量的技术问题。

为了解决上述技术问题,一方面,本发明实施例提供一种基于马尔科夫决策过程的网络选择方法,包括:

根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;

获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;

根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;

根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

进一步地,所述当前状态信息包含超密集接入网系统包含的接入网络,以及每一接入网络的最大负载用户数。

进一步地,所述状态空间中包含若干种状态,每一状态表示一种可能的网络选择结果。

进一步地,所述马尔科夫决策过程模型中终端到达接入网络服从独立泊松分布,终端离开接入网络也服从独立泊松分布。

另一方面,本发明实施例提供一种基于马尔科夫决策过程的网络选择装置,包括:

模型构建模块,用于根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;

网络性能获取模块,用于获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;

转移收益计算模块,用于根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;

网络选择模块,用于根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

进一步地,所述当前状态信息包含超密集接入网系统包含的接入网络,以及每一接入网络的最大负载用户数。

进一步地,所述状态空间中包含若干种状态,每一状态表示一种可能的网络选择结果。

进一步地,所述马尔科夫决策过程模型中终端到达接入网络服从独立泊松分布,终端离开接入网络也服从独立泊松分布。

再一方面,本发明实施例提供一种电子设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述方法的步骤。

又一方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述方法的步骤。

本发明实施例提供的基于马尔科夫决策过程的网络选择方法及装置,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

附图说明

图1为本发明实施例提供的基于马尔科夫决策过程的网络选择方法示意图;

图2为本发明实施例提供的超密集接入网系统的网络拓扑结构示意图;

图3为本发明实施例提供的基于马尔科夫决策过程的网络选择装置示意图;

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的基于马尔科夫决策过程的网络选择方法示意图,如图1所示,本发明实施例提供一种基于马尔科夫决策过程的网络选择方法,其执行主体为基于马尔科夫决策过程的网络选择装置,该方法包括:

步骤s101、根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率。

具体来说,首先根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率。

图2为本发明实施例提供的超密集接入网系统的网络拓扑结构示意图,如图2所示,例如,在5g超密集接入网下,系统包含n个接入网络,其中nf个飞蜂窝网络,np个微微小区网络,nw个公用wifi网络。

终端到达和离开服从以λnτ和μnτ为参数的独立泊松分布,其中τ为一个决策时隙,根据系统的当前状态信息,建立马尔科夫决策过程模型(mdp)。

确定终端选择网络的状态空间、行为空间和转移概率。

网络选择的状态空间集合可以用s表示,s用公式表示如下:

其中,zn+1表示由n+1个元素构成的整数集合,s={s1,s2…sn,u},s表示状态空间集合中任意其中一个状态,s中共包含n+1个元素,sn表示网络选择时,第n个网络的负载终端数量,u表示目标终端的选择标识,表示第n个网络的最大容量,u*表示当前需要进行网络选择的终端总量。

终端自由选择该区域任意网络,根据已确定的状态空间s,确定动作空间a,a可用公式表示为:

a={a|a=1,2,…n}(2)

其中,动作空间表示当前终端的决策集合,表示终端设备可以选择任意一个网络,a表示其中的一个个动作,这个动作可以是1…n任一个网络。

但是,当第n个网络的资源不足以分配的时,系统该状态sblocked表示为:

sbolcked={s∈s|actionisaandsa=s'a}(3)

终端到达接入网络(x)服从独立泊松分布,x:p(λnτ),其中,τ表示一个决策时隙,在τ时间内当终端到达数为x时的概率为p(x),p(x)用公式表示如下:

状态s在动作a下转移到状态s'的转移概率为p(s'|s,a),p(s'|s,a)用公式表示如下:

其中,x表示在时间τ内,到达的终端数量,h表示所有的终端任务的总类型数量。

在所有的状态空间下,转移概率之和为1,用公式可表示为:

步骤s102、获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量。

具体来说,充分考虑终端任务在不同qos下的性能需求差异,定义终端设备携带语音、视频、交互等不同类型任务在可用带宽、时延、丢包率等m个服务质量性能指标权重向量w={w1,w2,…wh},h表示终端设备携带任务的总类型数。其中,任意任务类型h'的服务质量性能指标权重向量可表示为表示任务类型为h'下服务质量性能指标m归一化权重值。

根据n个网络不同的性能,得到当前状态下网络的提供的网络性能归一化权重向量:w'={w′1,w'2,…,w'n}t和网络负载系数η,其中,w'n表示第n个网络在m个服务质量性能指标下的权重向量。

步骤s103、根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益。

具体来说,在得到网络性能归一化权重向量、服务质量性能指标权重向量、状态空间和行为空间之后,即可根据网络性能归一化权重向量、服务质量性能指标权重向量、状态空间和行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益。

状态s在动作a下转移到状态s'的转移收益为r(s'|s,a),r(s'|s,a)用公式表示如下:

其中,wh'表示任务h'归一化权重向量,表示状态s下第n个网络的归一化权重向量,ηn为第n个网络的负载系数,sn表示网络选择时,第n个网络的负载终端数量,表示第n个网络的最大容量。

步骤s104、根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

具体来说,根据转移收益可以确定终端网络选择的方案,但是,前一终端的决策会对后一终端产生影响,因此,需要考虑长期收益。

在策略π下,考虑系统的长期收益,并根据转移收益和转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

长期收益用公式表示如下:

其中,t从0开始,s0=s表示当前系统的状态,mτ表示接下来的m个决策时隙τ,vπ(s)表示在动作a下达到状态s后,在接下来的m个决策时间内总期望的折扣奖励,即为长期收益。γ是折扣应因子,表示后续时隙系统收益对当前时隙的系统收益的影响,值越大表示也看重长期利益,反之,看中当前系统收益。

当总收益达到最大化时,确定最终状态s,根据最终状态s得到终端选择网络的结果。

获取最终状态s的计算公式如下:

本发明实施例提供的基于马尔科夫决策过程的网络选择方法,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

基于上述任一实施例,进一步地,所述当前状态信息包含超密集接入网系统包含的接入网络,以及每一接入网络的最大负载用户数。

具体来说,建立马尔科夫决策过程模型,首先需要确定超密集接入网系统的当前状态信息,当前状态信息包含超密集接入网系统包含的接入网络,以及每一接入网络的最大负载用户数等信息。

例如,在5g超密集接入网下,系统包含n个接入网络,其中nf个飞蜂窝网络,np个微微小区网络,nw个公用wifi网络。

系统的最大负载为u,u=u1+u2…+un+…un,其中,un表示系统中第n个网络的最大负载用户数。sinri表示第i个终端的信干噪比,ci表示终端i在网络的带宽为w下能达到的最大吞吐量。

本发明实施例提供的基于马尔科夫决策过程的网络选择方法,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

基于上述任一实施例,进一步地,所述状态空间中包含若干种状态,每一状态表示一种可能的网络选择结果。

具体来说,网络选择的状态空间集合可以用s表示,s用公式表示如下:

其中,zn+1表示由n+1个元素构成的整数集合,s={s1,s2…sn,u},s表示状态空间集合中任意其中一个状态,s中共包含n+1个元素,sn表示网络选择时,第n个网络的负载终端数量,u表示目标终端的选择标识,表示第n个网络的最大容量,u*表示当前需要进行网络选择的终端总量。

状态空间中包含若干种状态,每一状态表示一种可能的网络选择结果。

最终通过系统的长期收益,确定最终状态s,根据最终状态s得到终端选择网络的结果。

本发明实施例提供的基于马尔科夫决策过程的网络选择方法,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

基于上述任一实施例,进一步地,所述马尔科夫决策过程模型中终端到达接入网络服从独立泊松分布,终端离开接入网络也服从独立泊松分布。

具体来说,马尔科夫决策过程模型中终端到达接入网络服从独立泊松分布,终端离开接入网络也服从独立泊松分布。

例如,终端到达接入网络(x)服从独立泊松分布,x:p(λnτ),其中,τ表示一个决策时隙,在τ时间内当终端到达数为x时的概率为p(x),p(x)用公式表示如下:

本发明实施例提供的基于马尔科夫决策过程的网络选择方法,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

基于上述任一实施例,图3为本发明实施例提供的基于马尔科夫决策过程的网络选择装置示意图,如图3所示,本发明实施例提供一种基基于马尔科夫决策过程的网络选择装置,用于执行上述任一实施例中所述的方法,具体包括模型构建模块301、网络性能获取模块302、转移收益计算模块303和网络选择模块304,其中:

模型构建模块301用于根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;网络性能获取模块302用于获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;转移收益计算模块303用于根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;网络选择模块304用于根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

基于上述任一实施例,进一步地,所述当前状态信息包含超密集接入网系统包含的接入网络,以及每一接入网络的最大负载用户数。

基于上述任一实施例,进一步地,所述状态空间中包含若干种状态,每一状态表示一种可能的网络选择结果。

基于上述任一实施例,进一步地,所述马尔科夫决策过程模型中终端到达接入网络服从独立泊松分布,终端离开接入网络也服从独立泊松分布。

本发明实施例提供一种基于马尔科夫决策过程的网络选择装置,用于执行上述任一实施例中所述的方法,通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同,此处不再赘述。

本发明实施例提供的基于马尔科夫决策过程的网络选择装置,充分考虑终端任务在不同服务质量下的性能需求差异,来获取转移收益,并且考虑系统的长期收益,计算系统最大收益时的系统状态,得到终端网络选择方案。

图4为本发明实施例提供的电子设备的结构示意图,如图4所示,所述设备包括:处理器(processor)401、存储器(memory)402、总线403,以及存储在存储器上并可在处理器上运行的计算机程序。

其中,处理器401和存储器402通过总线403完成相互间的通信;

处理器401用于调用并执行存储器402中的计算机程序,以执行上述各方法实施例中的步骤,例如包括:

根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;

获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;

根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;

根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例中的步骤,例如包括:

根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;

获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;

根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;

根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述各方法实施例中的步骤,例如包括:

根据超密集接入网系统的当前状态信息,建立马尔科夫决策过程模型,并确定终端选择网络的状态空间、行为空间和转移概率;

获取所述超密集接入网系统中每一网络的网络性能归一化权重向量,以及预先设置的服务质量性能指标权重向量;

根据所述网络性能归一化权重向量、所述服务质量性能指标权重向量、所述状态空间和所述行为空间,获取每一动作下,从一个状态转移到另一个状态的转移收益;

根据所述转移收益和所述转移概率,获取长期收益最大时对应的系统状态,得到终端选择网络的结果。

以上所描述的装置及设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1