一种基于图强化学习的DT边缘网络任务卸载方法

文档序号:37542098发布日期:2024-04-08 13:42阅读:15来源:国知局
一种基于图强化学习的DT边缘网络任务卸载方法

本发明属于移动边缘计算,涉及一种基于图强化学习的dt边缘网络任务卸载方法,尤其涉及一种基于图注意力多智能体强化学习的dt边缘网络任务卸载方法。


背景技术:

1、为满足高清视频、vr/ar、工业互联网、车联网等业务发展需求,移动边缘计算(mobile edge computing,mec)被认为是一种有效的解决方案,通过将云计算功能推向边缘网络来支持无处不在的超低延迟计算服务。mec服务器具备存储和计算能力,能使用户设备(user equipment,ue)能够在边缘网络卸载和处理相应的任务,从而减少海量新兴应用(例如移动应用、自动驾驶、增强现实和互动在线游戏)的服务延迟。然而,由于mec服务器的存储资源有限,并且在密集部署的小蜂窝网络中,大量具有异构服务需求的任务卸载请求将导致严重的小区间干扰,导致服务体验(quality of experience,qoe)较差。因此,适当协作的任务卸载策略对于提高ue的qoe至关重要。

2、现有的工作已经基于传统的近似方法解决了这些挑战,但是传统的启发式优化方法需要精确的建模和特定的专家知识,不能适用于拓扑复杂的动态mec场景,也不能保证不同mec场景下的决策质量。

3、为了提高资源的效用,人工智能已成为mec应用中资源配置的关键使能技术。在面对具有多个约束的动态卸载问题时,单一的经典方法往往表现出有限的性能,而强化学习(rl)的应用极大地解决了这一挑战。它采用代理通过与动态mec环境交互来学习最优的任务卸载和资源分配策略。然而,在物理网络中有效实施rl算法需要边缘服务器和ue之间不断通信以获得实时状态信息,训练效率低且通信成本高。

4、数字孪生(digital twin,dt)作为一项有前景的技术出现,能够将物理世界复制到数字世界,并且可以通过数据和模拟来分析、预测和优化物理系统,为智能mec网络系统提供了优秀的解决方案。具体来说,通过将dt与mec网络相结合,构建mec网络的虚拟孪生,通过模拟mec系统的状态信息(例如ue和边缘节点的位置、边缘节点的存储和计算能力)来反映物理世界。物理mec网络在整个生命周期中与数字孪生网络不断交互、同步演进。数字孪生中物理mec系统的镜像为智能mec网络提供了无限可能。例如,通过虚拟世界中的模拟,智能体可以探索不同的任务卸载操作以学习最佳决策模型。然后,最优模型参数将反馈到物理mec网络。dt赋能的mec网络可以轻松访问虚拟世界中的数据源,从而提高mec系统的仿真和分析能力。

5、在普遍存在的多小区mec网络中,dt可以部署在mec服务器上。例如基站(bs)之类的dt边缘节点通常无法获取全局信息,因此以集中的方式为每个边缘节点制定网络策略是不切实际的。一些现有的工作已经证明基于多智能体强化学习(multi-agentreinforcement learning,marl)的算法可以有效地为多mec网络或dt设计分散式学习模式以及增强的多单元mec系统。

6、然而,随着终端设备的移动性和异构性变得复杂以及mec规模的不断扩大,边缘节点之间复杂的空间关系使得在此类mec环境中实现高效的任务卸载和资源分配策略变得困难。具体来说,需要考虑以下两个层次的空间关系:1)由于ue的移动性,mec网络中任何边缘节点的决策都会影响领域节点的通信质量和服务器资源,从而导致领域节点的卸载决策相互作用,2)ue可实现的上行链路传输速率主要取决于无线资源分配策略和来自其他小区的小区间干扰,距离越近的小区对彼此干扰的影响越大。因此,边缘节点在制定任务卸载、资源分配策略之前应该更多地关注其邻居边缘节点。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于图强化学习的dt边缘网络任务卸载方法,旨在通过基于数字孪生边缘网络协作任务卸载机制,旨在有限的服务器计算资源和无线通信资源条件下最大化所有ue的qoe效用。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于图强化学习的dt边缘网络任务卸载方法,所述方法包括如下步骤:

4、s1、基于数字孪生技术构建mec网络系统模型;

5、s2、根据mec网络系统模型的动态和去中心化环境,将任务卸载问题转化为去中心化的部分可观察马尔科夫决策过程;

6、s3、结合图纸里网络与多智能体强化学习算法提出gatmarl算法以解决部分可观察马尔科夫决策过程问题,从而获得边缘网络任务协作卸载策略。

7、进一步地,在步骤s1中,所述mec网络系统模型由一组ν={1,2,···,ν}的基站bs组成,每一个基站bs都配备具有计算能力的mec服务器来为相关联的用户设备ue提供计算服务;mn={1,2,···,mn}来表示基站n∈n内的ue集合;所述mec网络系统模型采用时隙动态mec网络,其中时隙集合表示为t={0,1,2,···},时隙被划分为相同持续时间,表示为t∈t;

8、进一步地,在步骤s1中,所述mec网络系统模型包括任务模型、通信模型、任务卸载模型以及任务效用模型;

9、1)任务模型是指,每个ue周期性地生成具有计算密集型任务,则在每个时隙t生成的计算任务由表示,其中表示任务数据大小,表示执行一位输入所需的cpu周期,表示延迟敏感权值,是三个预定义的服务延迟阈值,其中为最小服务延迟阈值,为最大服务延迟阈值;

10、2)通信模型是指,用c={1,2,···,c}表示每个基站的可用信道集合,表示时隙t的信道分配变量,其中表示基站n将信道c∈c分配给否则通信模型存在以下约束:

11、

12、

13、令为信道c上从到其本地基站n的信道增益,根据香农定理,时隙t时在信道c上的上行传输速率为:

14、

15、其中为信道带宽,为的发射功率,σ2为噪声功率,是信道c上其他ue对基站bsn的接收干扰,可以表示为:

16、

17、其中是信道c上从到bsn的干扰信道增益;

18、则在其本地bsn的上行传输速率可以表示为:

19、

20、3)任务卸载模型包括本地卸载模型和协作卸载模型,本地卸载模型被配置为:根据的通信模型,将的任务传输到本地bsn的上行链路传输延迟表示为:

21、

22、设fn为bsn的cpu频率,则在本地bsn的任务计算延迟表示为:

23、

24、结合任务通信和计算延迟可以计算出将任务卸载到本地基站bs的服务延迟,如下式所示:

25、

26、协作卸载模型被配置为:令为bsn和bsn′之间的平均传输速率,则将的任务传输到bsn′的总传输延迟计算为:

27、

28、用fn′表示bsn′的cpu频率,则任务服务延迟为:

29、

30、则将任务卸载到bsn′的服务延迟如下:

31、

32、由此,ue在时隙t时的任务服务延迟可以表示为:

33、

34、其中1{·}是一个指示函数,如果事件{·}为真,则1{·}=1,否则1{·}=0;

35、4)任务效用模型采用基于qoe效用的实际研究调查的通用效用函数,由预定义的服务延迟阈值确定的效用函数如下:

36、

37、进一步地,在步骤s2中,转换后的部分可观察马尔可夫决策过程表示为:

38、

39、

40、

41、

42、

43、其中为信道分配决策集合,是卸载决策的集合,式(14.3)保证每个ue最多可以分配一个信道,式(14.4)表示一个基站内的每个信道最多可以分配给一个ue。

44、进一步地,在步骤s2中,每个基站bs对应一个代理,用一个元组<s,{on}n∈n,{an}n∈n,r,γ>来描述的部分可观察马尔可夫决策的交互过程,其中s表示所有代理可能的环境状态,on为局部观察空间,an表示智能体n的可用动作集合,r为奖励函数,γ∈[0,1)表示折扣因子;每个时隙t,每个代理n接收到局部观察并在时采取行动,然后可以得到所有智能体的联合动作记为执行联合动作后,环境会返回全局奖励rt=r(st,at)并将状态转换到下一个状态st+1。

45、进一步地,在步骤s2中,每个时隙t时基站bs的数字孪生的环境状态、局部观察空间、动作空间和奖励函数分别为:

46、1)在每个时隙t,环境状态包括所有ue的任务计算需求情况、网络中的无线信道状况以及所有基站bs当前的可用计算资源,则环境状态空间st∈s为:

47、

48、其中表示所有的任务请求信息,包括任务大小,所需计算资源以及三个预定义服务延迟阈值;为每个信道上所有相关联的ue到其本地bsn上的信道增益向量,为每个信道上从其他ue到bsn的干扰信道增益向量;fn为每个基站bs上的mec服务器的可用计算资源;

49、2)在部分可观察环境中,每个基站bs智能体n在时隙t的局部观察空间为:

50、

51、其中为bsn中所有关联的ue的任务计算需求信息。

52、3)时隙t时智能体n的动作空间为:

53、

54、其中为bsn中所有ue的信道决策,是bsn中所有ue的任务卸载决策;

55、4)采取联合动作at后,环境会返回一个奖励rt来评估联合动作的效果,则奖励函数定义为:

56、

57、因此,在部分可观察环境中,每个代理n接收本地观察并根据其局部策略πn(an|τn)执行动作其中τn是历史动作观察,用π={πn}n∈n表示所有智能体的联合策略,则联合动作价值函数可以定义为:

58、qπ(st,at)=e[∑i∈tγirt+i|st,at]\*mergeformat     (1.19)

59、其中e[·]是期望运算,动作价值函数qπ(st,at)表示以st为初始状态,at为初始动作的联合策略π下的折扣累积全局奖励的期望。

60、进一步地,在步骤s3中,所述gatmarl算法包括每个代理的本地动作价值网络、图注意模块以及联合动作值混合模块,其中,本地动作价值网络是指由门循环单元和多层感知组成的深度循环q网络;在每个时隙t,每个智能体n的本地动作价值网络接收局部观察和上一个动作作为输入,并输出局部动作价值函数

61、进一步地,在步骤s3中,图注意力模块用于为局部动作价值函数生成对应的权重,具体包括:由共享mlp编码器将环境状态st编码为局部潜在表示向量然后采用图注意网络来捕获代理之间的相关性;注意力系数en.i表示节点n的特征对其邻居节点i的重要性;然后使用softmax函数对注意力系数进行归一化,使不同节点的注意力系数可以轻松进行比较,如下所示:

62、

63、给定归一化注意力系数,具有l个独立注意力机制的节点n的输出特征表示可以由下式给出:

64、

65、其中σ是非线性函数,||表示串联,l表示第l个注意力机制;通过应用图注意力机制,学习节点之间的注意力特征表示然后,mlp网络将智能体n的作为输入,并为智能体n的局部动作值函数生成权重

66、进一步地,在步骤s3中,联合动作值混合模块根据图注意力模块给出的图形注意力权重将联合动作价值函数qtot分解为:

67、

68、最后,训练gatmarl算法来最小化以下损失函数:

69、

70、其中θ是预测网络的参数,x表示从经验缓冲区中随机采样的小批量大小的数量,x表示第x个样本,ytot=r+γmaxa′qtot(τ′,a′;θ-)和θ-是目标网络的参数。

71、本发明的有益效果在于:

72、本发明与现有的边缘计算任务卸载技术相比,所提出的基于dt的智能协作任务卸载机制,从效用和卸载成功率指标方面都有一定的优势。本发明首先将dt与mec网络相结合来辅助智能任务卸载方案,以提高mec系统的仿真和分析能力。并且使用基于图注意力的多智能体强化学习(gatmarl)算法来解决数字孪生mec网络中的dec-pomdp问题。

73、本发明的gatmarl采用基于图注意力的价值分解网络来帮助bs代理将更多注意力分配给其他bs的价值信息,以学习更好的协作卸载策略,以最大化所有ue的qoe效用。

74、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1