面向移动边缘计算的服务功能链部署方法与流程

文档序号：19149201发布日期：2019-11-15 23:53阅读：来源：国知局

技术特征：

1.一种面向移动边缘计算的服务功能链部署方法，其特征是，采用q强化学习方法进行部署，q强化学习方法为一个马尔可夫决策过程mdp，在这个mdp中有一个状态集合s，一个动作集合a，一个转移函数t:s×a×s→[0；1]以及一个反馈函数r:当状态由s转移到s′，环境将根据反馈函数给出一个反馈值r，只是一个完成的训练过程，为了达到最终的目标，将进行多次的训练从而获得一个长期的累计反馈值，使用或去计算这个累计反馈值，其中rt是在第t步时的反馈值，代表所有随机变量的累计期望，进一步，q矩阵将通过式(1)进行更新：

其中，s和a分别代表当前的状态和动作，和则分别代表下一个状态和下一个动作，q‘(s,a)为q(s,a)的前一状态。r(s,a)表示在(s,a)下的反馈值。α∈(0,1]代表学习率，γ∈(0,1]代表折扣率；其中：

1)、状态空间

状态空间包含了所有可能的系统状态，用式(2)表示：

sn＝{sn|sn＝(qn,hp)},se＝{se|se＝(qe,hp)}(2)

其中qn＝(o1,o2,…,on)是一个n位的0-1变量以表示所有边缘服务器的计算资源的可用性，具体来说，oi＝0(oi＝1)表示边缘服务器ni的剩余计算资源是大于/小于预设阈值t的，如果oi＝0，则vnf被部署到边缘服务器ni上，否则不能部署；qe＝(t1,t2,…,tm)是一个m位的0-1变量以表示所有物理链路的带宽资源的可用性；

2)、动作空间

动作空间定义如式(3)：

其中hw代表将被部署vnf的边缘服务器，在系统的初始状态，a包含所有的候选边缘服务器；

3)、反馈函数

反馈函数定义如式(4)：

其中lmax是所有延迟中的最大值，如果hp,hw之间的不存在物理链路或边缘服务器hw的计算资源不足，rn(sn,a)将被赋值为-n。如果边缘服务器hw的计算资源仍然充足，则rn(sn,a)的值将根据(4)中的式子计算得到，式中的λ和ρ分别是用于衡量处理时延和传输时延重要程度的权重因子，物理链路的反馈函数根据式(5)进行定义：

其中如果hp,hw之间的不存在物理链路或物理链路(hp,hw)的带宽资源不足，rn(sn,a)将被赋值为-n；

为了避免产生局部最优策略，引入∈-greedy机制，用下式表示：

这是一种探索和采用之间的折中，∈-greedy将具有∈的概率去探索新的解决方法，同时具有1-∈的概率采用原有的解决方法去做决策。

2.如权利要求1所述的面向移动边缘计算的服务功能链部署方法，其特征是，具体步骤细化如下：

[1]初始化q矩阵和r矩阵qn(sn,a),qe(se,a)，rn(sn,a),re(se,a)

[2]迭代开始，进入[3]

[3]从sfc请求集合中随机产生sfc请求cu

[4]依次取sfc请求cu中的每一个虚拟网络功能vnf进行放置训练，进入[5]

[5]产生随机数，如果该随机数小于∈的值，进入[6],否则进入[9]

[6]进行判断，如果rn(sn,a)>0∧re(se,a)>0为真，进入[7]

[7]将当前动作a添加到候选动作集合possibleactions中

[8]从候选动作集合possibleactions中随机产生放置当前vnf的服务器selectserver

[9]进行判断，如果rn(sn,a)>0∧re(se,a)>0为真,进入[10]

[10]将当前动作a添加到候选动作集合possibleactions中

[11]从候选动作集合possibleactions中选择具有最高q值的动作作为放置当前vnf的服务器selectserver

[12]将当前需要放置的vnf放置在selectserver上

[13]更新链路状态空间

[14]更新边缘服务器状态空间

[15]根据更新qn(sn,a),qe(se,a)

[16]从sfc请求集合中依次取出sfc请求cu

[17]依次取sfc请求cu中的每一个vnf进行放置训练，进入[18]

[18]根据qs(s,a)＝qn(sn,a)+qe(se,a)计算qs矩阵

[19]根据qs矩阵进行部署，为当前最佳部署策略。

[20]计算当前部署情况下的总延时

[21]更新链路状态空间

[22]更新边缘服务器状态空间

[23]判断每一个sfc是都被部署成功，并计算出部署成功的sfc数目

[24]计算平均延迟l＝总延迟/成功部署数

[25]返回部署策略平均延迟l。

技术总结
本发明涉及网络功能虚拟化领域与移动边缘计算领域，为在应用机器学习的方法解决MEC中的服务功能链部署问题，达到传输延迟和处理延迟的最小化，本发明，面向移动边缘计算的服务功能链部署方法，采用Q强化学习方法进行部署，Q强化学习方法为一个马尔可夫决策过程MDP，在这个MDP中有一个状态集合S，一个动作集合A，一个转移函数T：S×A×S→[0；1]以及一个反馈函数当状态由s转移到s′，环境将根据反馈函数给出一个反馈值r，只是一个完成的训练过程，为了达到最终的目标，将进行多次的训练从而获得一个长期的累计反馈值，使用或去计算这个累计反馈值。本发明主要应用于网络通信场合。

技术研发人员：周晓波;靳祺桢;李克秋;邱铁;陈桐
受保护的技术使用者：天津大学
技术研发日：2019.07.29
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2