基于强化学习的网络切片资源映射方法与流程

文档序号：20273411发布日期：2020-04-03 19:19阅读：239来源：国知局

本发明涉及计算机技术领域，具体地涉及一种基于强化学习的网络切片资源映射方法。

背景技术：

随着社交网络、移动互联网、物联网等领域地迅速发展，云计算、大数据等新兴技术的出现，用户的终端数量不断增加，流量规模也在迅速增长，伴随而来的还有用户需求越来越多样化，要求网络的传输需求不能只考虑对带宽和时延的高容忍度，更要重视业务的精准细致的要求；另一方面，随着5g时代的到来，更加速了对网络要求的转变，如何满足多样化的业务需求成为当前互联网亟需解决的问题。2015年3月，下一代移动通信网络联盟(nextgenerationmobilenetworks,ngmn)公布了《ngmn5g白皮书》，其中定义了5g八大类二十四种典型场景，主要分为三类：移动宽带增强(embb)、大规模机器通信(mmtc)、超高可靠超低时延通信(urllc)，其中，embb场景数据量大，对网络传输速率要求高，mmtc对连接的可靠性要求较高，urllc业务的数据包较小，对时延和错误率要求严格，这三类场景所针对的具体应用场合不同，业务特点也不同，对5g网络提出的技术需求也不同，所以应该以灵活有效的方式构建相应网络，来满足业务需求。5g网络架构设计的目标就是以用户为中心，实现针对各种业务场景，灵活组网和部署，预期可以更好地实现多样化通信服务，为终端用户提供更加优化的网络支持。

网络切片被学术界认为是即将到来的5g时代中，解决网络灵活部署提供多样化服务的有效方案。网络切片在共享的物理网络基础设施上创建和运行多个异构虚拟网络，以满足不同业务需求并提高资源利用效率。依靠网络切片，运营商等网络资源提供者可以使用一个或者多个切片向不同的业务场景提供针对性的网络服务，同时也可以向不同的垂直行业提供这些具有类似网络特性的通信服务。网络切片技术可以实现从“onesizefitsall”向“onesizeperservice”的转变，不需要为每一个服务建设一个专用物理网络就可以实现业务的多样化可定制，其主要目标是将来自不同租户的带有节点和链路资源约束条件的网络切片请求编排到底层物理网络上，为多个租户构建独立的网络环境，同时为物理网络运营者创造尽可能多的收益。

现有的研究主要通过设计启发式算法来进行网络切片编排。网络切片链路中网络功能节点的编排是至关重要的环节，其中，大部分启发式算法都采用贪婪型的节点编排策略，该类策略将资源需求多的虚拟节点映射到资源最丰富的物理节点上，从而最大可能地满足当前网络切片请求的需求。然而，当前网络切片请求的映射结果会影响到后续网络切片请求的编排，现有研究主要关注最大化当前请求被接受的可能，而忽视了其对未来网络切片请求的影响。在网络功能节点编排结果的基础上，下一阶段要实现虚拟节点间链路的编排。相关技术中，在端到端节点间链路部署方面已经有了很多相关的工作，主要基于最短路径选择方法。网络切片请求链路的部署会涉及链路资源和服务器资源之间的权衡，包括了链路带宽资源、链路时延等多方面的影响，服务器方面包括服务器计算资源及服务器处理时延等多方面因素。

现有网络切片算法的节点映射和链路映射间关联性较差，且链路映射路径较长，导致算法请求接受率和收益开销比均较低。

现有技术存在一些缺点，如下：

在节点资源映射阶段，没有结合考虑节点的价值信息则进行相应的节点资源映射。

技术实现要素：

本发明实施例的目的是提供一种网络切片资源映射方法，该方法可以在节点资源映射阶段对物理节点进行价值评估，从而得到物理节点的价值大小的排序信息，并以所述排序信息为映射依据执行节点资源映射，避免了现有技术中未考虑物理节点价值信息的问题，进而可以在考虑物理节点的价值信息进行物理节点资源映射的情况下，提高各物理节点的资源利用率。

为了实现上述目的，本发明实施例提供一种基于强化学习的网络切片资源映射方法，所述方法包括：

根据所述网络切片资源映射请求，触发节点资源映射，其中，针对物理节点的价值信息进行价值评估，根据评估结果提供物理节点的价值大小的排序信息，并根据所述排序信息对价值最大的物理节点进行网络功能资源映射；以及

触发链路资源映射，进行设定次模拟链路选择，计算所述设定次模拟链路选择的反馈结果并选取所述反馈结果中的最优值，并根据所述最优值相对应的链路选择进行链路资源映射。

可选的，所述物理节点的价值信息包括以下一者或多者：

节点资源能力、节点相邻链路数量、节点连通性或节点的中介中心性。

可选的，所述针对物理节点的价值信息进行价值评估包括以下一者或多者：

根据以下公式对所述物理节点进行资源能力评估：

其中，res(i)表示物理节点i的剩余cpu资源，l(n)表示物理节点i的相邻链路集合；

根据以下公式对所述物理节点进行节点相邻链路数量评估：

n(i)＝link(i)

其中，link(i)表示物理网络中节点i的相邻链路数量；

根据以下公式对所述物理节点进行节点连通性评估：

其中，a,b分别为网络切片需求链路的起始节点和目的节点，sp(i,j)表示物理节点i和j间的最短路径距离；或者

根据以下公式对所述物理节点进行中介中心性评估：

其中，gjk(i)表示节点j和k之间经过节点i的最短路径数量，gjk表示节点j和节点k之间所有的最短路径数量。

可选的，根据所述节点资源能力、节点相邻链路数量、节点连通性和节点的中介中心性进行价值评估的情况下，所述价值评估还包括：

根据以下公式对所述物理节点进行综合评估：

其中，c(i)和z(i)的数值取值范围是[0,1]，和根据以下公式进行归一化处理获得：

以及

根据所述综合评估的结果提供物理节点的价值大小的排序信息。

可选的，所述方法还包括：

在所述节点资源映射的阶段，在触发网络功能资源映射动作的情况下，计算将当前物理节点部署为网络节点与否的收益大小，并在部署收益大于未部署收益的情况下，将当前物理节点部署为网络节点；

其中，根据以下公式计算未将当前物理节点部署为网络节点的收益大小：

其中，res(i)表示当前物理节点i的剩余cpu资源，r表示当前物理节点已经占用的计算资源总量，r表示当前物理节点的总计算资源量，d(i)表示当前物理节点处理网络功能所产生的时延，η表示权重；

根据以下公式计算将当前物理节点部署为网络节点的收益大小：

其中，res'(i)表示将当前物理节点部署为网络节点后的剩余计算资源，r'表示将当前物理节点部署为网络节点后，当前物理节点所有已用的计算资源总量。

可选的，所述方法还包括：

在触发所述链路资源映射后，进行设定次模拟链路选择，计算所述设定次模拟链路选择的反馈结果并选取所述反馈结果中的最优值，并根据所述最优值相对应的链路选择进行链路资源映射；

其中，根据以下公式计算模拟链路选择的反馈结果：

其中，b(i,j)表示选择的这条链路原本带宽总量，b(i,j)表示该切片需求链路需要的资源量，d(i,j)表示网络切片链路所需时延，d(i,j)表示物理链路的传输时延，b表示切片需求的链路带宽，v表示所述综合评估的结果，b表示链路上的总带宽，β和σ分别表示带宽需求和时延需求的权重。

可选的，所述模拟链路选择过程中，根据起始点至目的点的可选链路范围内随机选择任一条链路计算所选链路相对应的所述反馈结果。

通过上述技术方案，在接收到网络切片资源映射请求后，可以在节点资源映射阶段对物理节点进行价值评估，从而得到物理节点的价值大小的排序信息，并以所述排序信息为映射依据执行节点资源映射，避免了现有技术中未考虑物理节点价值信息的问题，进而可以在考虑物理节点的价值信息进行物理节点资源映射的情况下，提高各物理节点的资源利用率。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的网络切片资源映射方法的基本流程示意图；

图2是本发明实施例提供的网络切片资源映射方法的流程示意图；

图3示出了本发明实施例提供的模拟链路选择的反馈流程示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

网络切片作为一个逻辑的端到端网络，具有一组定制的网络功能，使用网络功能链为用户提供服务，而网络功能链由一组有序的虚拟化网络功能组成。网络切片的本质就是将多个虚拟网络功能进行按需动态映射并部署，并将这些虚拟网络功能链连成通路，实现端到端的业务链路，形成相互独立的端到端虚拟网络，每个网络切片链路可以根据用户需求提供定制化的网络服务。

5g时代，出于运营商的角度，更希望占有少量的节点，最大化服务器及网络链路利用率。在一个底层物理网络中的链路资源和服务器资源都是有限并且是相互依赖的，只要其中一个资源成为瓶颈，系统性能就会明显下降。例如，当只有少数的服务器可用时，服务器的计算资源有限，即使链路带宽足够，处理延迟也会增加。同样地，在服务器资源足够时，链路带宽不足也会导致排队延迟。这两种情况都会导致系统性能低下。因此，服务器与带宽之间的复杂关系使得网络切片的部署问题变得更加复杂，需要考虑多方面的资源限制情况。

本发明提出一种基于强化学习的网络切片资源映射方法，所述方法包括：

图1示出了本发明实施例提供的网络切片资源映射方法的基本流程示意图，如图1所示，在接收到网络切片资源映射请求后，可以根据该网络切片资源映射请求触发节点资源映射，在节点资源映射阶段，考虑到需结合物理节点的价值信息情况进行节点资源映射，可以针对物理节点的价值信息进行价值评估，进而得到关于物理节点的价值大小的排序信息，根据还排序信息对物理节点进行排序，进一步可以对经过排序的物理节点进行节点资源映射，或者直接以所述排序信息为映射依据执行节点资源映射。在确定完成节点资源映射后，即在以所述排序信息为映射依据进行节点资源映射后，触发链路资源映射，进而在完成链路资源映射后反馈最初接收的该网络切片资源映射请求实现，以结束本次网络切片资源映射流程。

该物理节点的价值信息可以包括以下一者或多者：节点资源能力、节点相邻链路数量、节点连通性或节点的中介中心性。进而针对物理节点的价值信息进行价值评估也可以为针对物理节点的节点资源能力、节点相邻链路数量、节点连通性或节点的中介中心性中的一者或多者进行价值评估，具体地该价值评估过程如下所述：

在节点资源映射阶段，综合考量自身资源状况和底层拓扑特性，将节点映射和链路映射阶段有机结合起来，改进了传统的两阶段映射算法。定义一个节点评价函数来衡量节点的资源映射能力。通过拓扑感知计算物理网络中节点和链路的全局重要性指标，重要性指标综合考虑节点或链路的多种拓扑属性，可以反映物理节点或链路的资源大小和在网络中的连通性强弱，通过拓扑信息计算节点重要性指标并将其作为节点资源映射阶段选择物理节点的重要依据。物理网络中节点和链路资源全局重要性的度量方法，以及如何将节点和链路的全局资源重要性引入到虚拟网络映射算法中，在发明实施例中，考虑的因素包括以下一者或多者：

(1)节点资源能力：节点cpu资源大小与相邻链路带宽和的乘积，度量节点资源大小与本地连通性，公式定义如下：

其中，res(i)为物理节点i的剩余cpu资源，l(n)表示物理节点i的相邻链路集合。

(2)节点相邻链路数量:该属性反映了一个节点拥有的相邻链路数量，一个节点的相邻链路越多，它到其他节点的可达路径也越容易找到，公式如下定义：

n(i)＝link(i)

其中，link(i)表示物理网络中节点i的相邻链路数量。

(3)节点连通性：该物理节点到网络切片链路需求起始节点和目的节点的最短路径距离之和的倒数，度量节点在网络中与起始节点和终止节点的连通能力，公式定义如下：

式中，a,b分别为网络切片需求链路的起始节点和目的节点，sp(i,j)表示物理节点i和j间的最短路径距离。

(4)中介中心性：该属性是指一个节点担任其它两个节点之间最短路径“桥梁”或“中介”的次数。一个节点充当“中介”的次数越高，说明它的中介中心性越高。计算方式如下：

其中gjk(i)表示节点j和k之间经过节点i的最短路径数量，gjk表示节点j和节点k之间所有的最短路径数量。

综上，对于物理网络中物理节点价值的综合评估函数的定义如下：

由于ci、zi的数值取值范围是[0,1]，而hi、ni不在此数值范围内，需要对这两个属性归一化处理：

对物理网络中节点进行评估后，根据节点的价值大小进行排序，首先选择排名最靠前也就是价值最大的节点，对其进行网络功能节点资源映射。

图2示出了本发明实施例提供的网络切片资源映射方法的流程示意图，如图2所示，所述方法还包括：

在所述节点资源映射的阶段，在触发网络功能资源映射动作的情况下，计算将当前物理节点部署为网络节点与否的收益大小，并在部署收益大于未部署收益的情况下，将当前物理节点部署为网络节点。

具体地，本发明不仅从用户角度考虑，将切片部署在可以满足用户业务需求的节点和链路上，使用户的业务需求得到保证，还从网络资源提供者的角度，尽量少的占用物理节点服务器个数，最大化服务器及网络链路利用率，使得网络资源获得最大化收益。因此，采用背包问题最后一件物品放置方法，考虑在该物理节点的有限剩余计算资源的情况下，将切片请求中的网络节点部署到该物理节点，获得的收益大还是部署的代价大，从而确定该节点是否可以部署在剩余计算资源有限的物理节点上。

首先根据以下公式计算未将当前物理节点部署为网络节点的收益大小：

其中，res(i)表示当前物理节点i的剩余cpu资源，r表示当前物理节点已经占用的计算资源总量，r表示当前物理节点的总计算资源量，d(i)表示当前物理节点处理网络功能所产生的时延，η表示权重。

接下来，根据以下公式计算将当前物理节点部署为网络节点的收益大小：

上述评价函数中，引入了资源量占用比重判断，目的在于评价物理网络节点服务器的资源使用情况，从网络资源提供者的角度出发，期望获得更大的资源利用率，实现更少地占用服务器数量。函数中η表示权重，公式中前一项表示物理节点的价值，表征满足网络切片需求的能力，后一项表示资源利用率的情况。

图3示出了本发明实施例提供的模拟链路选择的反馈流程示意图，结合图2和图3所示，该方法还包括：

在触发所述链路资源映射后，进行设定次模拟链路选择，计算所述设定次模拟链路选择的反馈结果并选取所述反馈结果中的最优值，并根据所述最优值相对应的链路选择进行链路资源映射。

具体地，在链路部署阶段，采用强化学习算法，强化学习算法的基本要素包含状态环境、动作策略、奖励函数、学习函数。基于q-learning方法，定义反馈函数，在该反馈函数定义时，会考虑以下几方面因素：(1)反馈函数要能够表征节点之间是否有链路连通；(2)反馈函数要反应出将切片需求映射在该条链路是否可以满足带宽需求和时延需求；(3)反馈函数要体现出该切片映射后的链路利用率；(4)反馈函数要体现出在映射该链路后，下一个节点评价如何，利用前述的价值评估函数v来确定。

传统的强化学习算法，只是在算法初始阶段，对反馈矩阵进行初始化，然后根据反馈矩阵来进行学习过程，从而更新q矩阵。本算法中，自定义一个反馈函数，目的在于可以反映每一步环境探索后能得到的反馈。算法过程如图3所示，并根据以下公式计算模拟链路选择的反馈结果：

进而在确定链路资源映射成功的情况下结束本次流程。其中，若在节点或链路的任一资源映射未成功的情况下，返回至流程开始阶段，重新开始网络切片资源映射流程。

本发明提出的网络切片资源映射方法，针对当前网络切片资源映射算法问题进行分析，在节点资源映射阶段，协同考虑节点资源、链路资源以及节点之间连通性问题，定义了一个节点评估函数，来衡量节点的资源映射能力，采用背包算法，评估将切片中网络功能节点请求映射到某一物理节点所获得的收益，来决策是否映射到该节点上；在链路资源映射阶段，采用强化学习算法，增强了节点资源映射与链路资源映射的相关性，解决了传统启发式算法响应速度慢的问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李莉;赵丽媛
技术所有人：无锡北邮感知技术产业研究院有限公司
我是此专利的发明人

上一篇：一种机械分离机构及机械分离系统的制作方法
上一篇：一种糖尿病患者食品热量简算装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。