一种基于MEC环境的服务迁移决策方法、装置、设备及介质

文档序号:34313878发布日期:2023-05-31 22:59阅读:88来源:国知局
一种基于MEC环境的服务迁移决策方法、装置、设备及介质

本发明涉及移动通信,具体涉及一种基于mec环境的服务迁移决策方法、装置、设备及介质。


背景技术:

1、在5g通信和物联网的推动下,移动计算从集中式移动云计算(mcc)向移动边缘计算(mec)转变,移动边缘计算是由欧洲电信标准协会etsi提出的,即在移动网络边缘提供it服务环境和云计算能力,移动边缘计算中最具挑战性的问题之一是考虑用户移动性的服务提供。移动性预测是在移动服务提供问题中实现有效服务迁移的关键功能,预测用户的未来位置和时间序列,则可以估计用户将来可能遇到的预期延迟,并为用户选择最优的mec服务器。在早期的轨迹预测中,马尔可夫模型和隐马尔可夫模型(hmm)是人们用于预测的主要方法,但马尔可夫模型用于预测人类复杂运动轨迹的表现始终比较有限,且随着近几年深度学习技术的兴起与快速发展,利用神经网络对轨迹进行预测成为研究的新思路,而传统的循环神经网络(rnn)无法解决长期依赖问题。


技术实现思路

1、本发明的目的在于提供一种基于mec环境的服务迁移决策方法、装置、设备及介质,针对mec环境中的移动服务提供问题提出了bl-drl框架,bidirectional lstm用于移动性预测,drl用于迁移决策,通过结合提出的drl框架和用户移动预测模型来处理移动性服务提供的问题。

2、本发明提供了一种基于mec环境的服务迁移决策方法,所述方法具体包括:

3、基于多对多预测的bidirectional lstm模型,利用已知的人类活动流动性数据构建用户移动预测模型;

4、建立drl框架,所述drl框架包括状态s、动作a和奖励r,其中,状态s表示用户与各mec服务器的距离以及用户当前位置,动作a表示用户可选择的mec服务器,奖励r表示状态s下采用动作a的回报;

5、通过dqn算法训练所述drl框架,并根据所述用户移动预测模型获得服务迁移决策模型,所述服务迁移决策模型用于预测用户在迁移过程的未来位置并为用户选择最优的mec服务器。

6、进一步的,所述基于多对多预测的bidirectional lstm模型,利用已知的人类活动流动性数据构建用户移动预测模型,具体步骤包括:

7、将已知的人类活动流动性数据以预设比例划分训练集和测试集,并设定预测窗口大小;

8、基于多对多预测的bidirectional lstm模型,将所述训练集进行差分并获得第一差分序列,对所述第一差分序列做归一化处理后进行训练,获得预测差分值的模型;

9、将所述测试集进行差分并获得第二差分序列,再将所述第二差分序列输入至所述预测差分值的模型,获得预测差分值;

10、将所述预测差分值与用户当前时刻所在的位置相加,获得用户未来多个时间步长内的预测位置;

11、通过对所述预测位置和实际位置差值的绝对值进行求和平均,获得平均预测误差;

12、根据所述平均预测误差优化所述预测差分值的模型,获得用户移动预测模型。

13、进一步的,所述奖励r满足函数值r=k-μ,其中,k表示用户请求数,μ表示固定值。

14、更进一步的,所述用户请求数为一个时间步长与mec服务器处理每个用户请求的时间之商,所述时间步长为每次采集用户位置数据的时间间隔。

15、更进一步的,所述mec服务器处理每个用户请求的时间满足

16、tall=ttrans+tcomp+tmig (1)

17、或

18、tall=ttrans+tcomp (2)

19、其中,tall为mec服务器处理每个用户请求的时间,ttrans为数据传输时间,tcomp为mec服务器计算时间,tmig为mec服务器内的虚拟机迁移时间。

20、更进一步的,所述数据传输时间为传输数据大小与通信容量之商,所述mec服务器计算时间为任务负载大小与mec服务器计算能力之商,所述mec服务器内的虚拟机迁移时间为虚拟机大小和网络带宽之商。

21、进一步的,所述通过dqn算法训练所述drl框架,具体包括:

22、基于dqn算法,设置第一神经网络和第二神经网络;

23、所述第一神经网络用于训练所述drl框架的状态s、动作a和奖励r并获得预测值,在所述第一神经网络中采用贪婪策略抽取动作a并以经验回放的方式将每一步状态s、动作a、奖励r存储至经验池;

24、所述第二神经网络用于获取所述经验池的数据进行训练和在每第一预设时间段内拷贝所述第一神经网络的数据并更新,所述第二神经网络由公式(3)获得目标值,所述目标值满足

25、targetq=r+γmaxa′q(s′,a′;θ) (3)

26、其中,γ表示衰减因子,θ表示神经网络参数的均方误差损失权重;

27、根据损失函数在每第二预设时间段内更新所述第一神经网络,所述损失函数为

28、l(e)=e[(targetq-q(s,a;θ))2] (4)

29、其中,targetq为目标值,q(s,a,θ)为预测值,公式(4)为目标值与预测值的均方误差,通过梯度下降更新θ来最小化损失;

30、所述第一神经网络和所述第二神经网络设置动作约束,在输出动作时将非法动作屏蔽。

31、本发明还提供了一种基于mec环境的服务迁移决策装置,所述装置具体包括:

32、第一处理模块,用于基于多对多预测的bidirectional lstm模型,利用已知的人类活动流动性数据构建用户移动预测模型;

33、第二处理模块,用于建立drl框架,所述drl框架包括状态s、动作a和奖励r,其中,状态s表示用户与各mec服务器的距离以及用户当前位置,动作a表示用户可选择的mec服务器,奖励r表示状态s下采用动作a的回报;

34、第三处理模块,用于通过dqn算法训练所述drl框架,获得基于mec环境的服务迁移决策模型,所述基于mec环境的服务迁移决策模型用于为用户在迁移过程中选择最优的mec服务器。

35、本发明还提供了一种计算机设备,包括:存储器和处理器及存储在存储器上的计算机程序,当所述计算机程序在处理器上被执行时,实现如上述方法中任一项所述的基于mec环境的服务迁移决策方法。

36、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时实现如上述方法中任一项所述的基于mec环境的服务迁移决策方法。

37、与现有技术相比,本发明具有以下技术效果的至少之一:

38、1、设计了一种bl-drl模型,可以共同解决移动服务的提供,即mec环境中的迁移问题.

39、2、扩展了bidirectional lstm预测模型,该模型为m-drl(mobility-aware deepreinforcement learning)训练提供了有用的粗粒度迁移率信息,提出了该移动性模型的独立训练算法,以实现更准确的移动性预测和模型重用。

40、3、对移动轨迹序列进行差分处理,消除了时间序列的自相关性,解决了lstm预测的滞后性问题,极大地提升了预测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1