面向移动边缘计算的服务功能链部署方法与流程

文档序号:19149201发布日期:2019-11-15 23:53阅读:来源:国知局

技术特征:

1.一种面向移动边缘计算的服务功能链部署方法,其特征是,采用q强化学习方法进行部署,q强化学习方法为一个马尔可夫决策过程mdp,在这个mdp中有一个状态集合s,一个动作集合a,一个转移函数t:s×a×s→[0;1]以及一个反馈函数r:当状态由s转移到s′,环境将根据反馈函数给出一个反馈值r,只是一个完成的训练过程,为了达到最终的目标,将进行多次的训练从而获得一个长期的累计反馈值,使用去计算这个累计反馈值,其中rt是在第t步时的反馈值,代表所有随机变量的累计期望,进一步,q矩阵将通过式(1)进行更新:

其中,s和a分别代表当前的状态和动作,则分别代表下一个状态和下一个动作,q‘(s,a)为q(s,a)的前一状态。r(s,a)表示在(s,a)下的反馈值。α∈(0,1]代表学习率,γ∈(0,1]代表折扣率;其中:

1)、状态空间

状态空间包含了所有可能的系统状态,用式(2)表示:

sn={sn|sn=(qn,hp)},se={se|se=(qe,hp)}(2)

其中qn=(o1,o2,…,on)是一个n位的0-1变量以表示所有边缘服务器的计算资源的可用性,具体来说,oi=0(oi=1)表示边缘服务器ni的剩余计算资源是大于/小于预设阈值t的,如果oi=0,则vnf被部署到边缘服务器ni上,否则不能部署;qe=(t1,t2,…,tm)是一个m位的0-1变量以表示所有物理链路的带宽资源的可用性;

2)、动作空间

动作空间定义如式(3):

其中hw代表将被部署vnf的边缘服务器,在系统的初始状态,a包含所有的候选边缘服务器;

3)、反馈函数

反馈函数定义如式(4):

其中lmax是所有延迟中的最大值,如果hp,hw之间的不存在物理链路或边缘服务器hw的计算资源不足,rn(sn,a)将被赋值为-n。如果边缘服务器hw的计算资源仍然充足,则rn(sn,a)的值将根据(4)中的式子计算得到,式中的λ和ρ分别是用于衡量处理时延和传输时延重要程度的权重因子,物理链路的反馈函数根据式(5)进行定义:

其中如果hp,hw之间的不存在物理链路或物理链路(hp,hw)的带宽资源不足,rn(sn,a)将被赋值为-n;

为了避免产生局部最优策略,引入∈-greedy机制,用下式表示:

这是一种探索和采用之间的折中,∈-greedy将具有∈的概率去探索新的解决方法,同时具有1-∈的概率采用原有的解决方法去做决策。

2.如权利要求1所述的面向移动边缘计算的服务功能链部署方法,其特征是,具体步骤细化如下:

[1]初始化q矩阵和r矩阵qn(sn,a),qe(se,a),rn(sn,a),re(se,a)

[2]迭代开始,进入[3]

[3]从sfc请求集合中随机产生sfc请求cu

[4]依次取sfc请求cu中的每一个虚拟网络功能vnf进行放置训练,进入[5]

[5]产生随机数,如果该随机数小于∈的值,进入[6],否则进入[9]

[6]进行判断,如果rn(sn,a)>0∧re(se,a)>0为真,进入[7]

[7]将当前动作a添加到候选动作集合possibleactions中

[8]从候选动作集合possibleactions中随机产生放置当前vnf的服务器selectserver

[9]进行判断,如果rn(sn,a)>0∧re(se,a)>0为真,进入[10]

[10]将当前动作a添加到候选动作集合possibleactions中

[11]从候选动作集合possibleactions中选择具有最高q值的动作作为放置当前vnf的服务器selectserver

[12]将当前需要放置的vnf放置在selectserver上

[13]更新链路状态空间

[14]更新边缘服务器状态空间

[15]根据更新qn(sn,a),qe(se,a)

[16]从sfc请求集合中依次取出sfc请求cu

[17]依次取sfc请求cu中的每一个vnf进行放置训练,进入[18]

[18]根据qs(s,a)=qn(sn,a)+qe(se,a)计算qs矩阵

[19]根据qs矩阵进行部署,为当前最佳部署策略。

[20]计算当前部署情况下的总延时

[21]更新链路状态空间

[22]更新边缘服务器状态空间

[23]判断每一个sfc是都被部署成功,并计算出部署成功的sfc数目

[24]计算平均延迟l=总延迟/成功部署数

[25]返回部署策略平均延迟l。


技术总结
本发明涉及网络功能虚拟化领域与移动边缘计算领域,为在应用机器学习的方法解决MEC中的服务功能链部署问题,达到传输延迟和处理延迟的最小化,本发明,面向移动边缘计算的服务功能链部署方法,采用Q强化学习方法进行部署,Q强化学习方法为一个马尔可夫决策过程MDP,在这个MDP中有一个状态集合S,一个动作集合A,一个转移函数T:S×A×S→[0;1]以及一个反馈函数当状态由s转移到s′,环境将根据反馈函数给出一个反馈值r,只是一个完成的训练过程,为了达到最终的目标,将进行多次的训练从而获得一个长期的累计反馈值,使用或去计算这个累计反馈值。本发明主要应用于网络通信场合。

技术研发人员:周晓波;靳祺桢;李克秋;邱铁;陈桐
受保护的技术使用者:天津大学
技术研发日:2019.07.29
技术公布日:2019.11.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1