基于图注意力多智能体强化学习的协同任务卸载和服务缓存方法

文档序号：36236308发布日期：2023-12-01 17:21阅读：22来源：国知局

本发明属于移动通信，具体涉及一种基于图注意力多智能体强化学习的协同任务卸载和服务缓存方法。

背景技术：

1、移动边缘计算(mobile edge computing，mec)被认为是支持大量超低时延计算服务的有效解决方案，它通过将云功能推向更靠近用户设备的边缘网络，有效降低了任务的处理时延。配置了存储和计算资源的mec服务器可以缓存各种服务(包括程序代码和数据库)，并使用户设备(user equipment，ue)请求的计算任务能够在边缘网络上处理，从而减少了大量新兴应用(如自动驾驶、增强现实和互动网络游戏)的服务时延。

2、然而，mec服务器有限的存储资源使其只能同时缓存小部分流行的服务内容。同时，在密集部署的小蜂窝网络中，大量异构服务的卸载请求也会造成严重的区间干扰，导致服务质量(quality of experience，qoe)较差。显然，mec网络的计算性能与计算卸载和服务缓存策略密切相关。因此，高效的任务卸载和服务缓存策略对于提高ue的qoe至关重要。国内外研究人员针对此问题进行了大量深入研究，一些主要的成果有：

3、(1)移动边缘计算中的服务缓存、计算卸载和资源分配算法(参考文献：zhang g,zhang s,zhang w,et al.joint service caching,computation offloading andresource allocation in mobile edge computing systems[j].ieee transactions onwireless communications,2021,20(8):5288-5300.)：该算法考虑了多用户设备的场景，对传输、计算资源分配，服务缓存和任务卸载的联合优化问题，目的是最小化所有用户设备的能耗。

4、(2)高空站台辅助智能交通系统中的服务缓存与任务卸载算法(参考文献：ren q,abbasi o,kurt g k,et al.caching and computation offloading in high altitudeplatform station(haps)assisted intelligent transportation systems[j].ieeetransactions on wireless communications,2022,21(11):9010-9024.)：该算法考虑了智能交通场景下的服务缓存与任务卸载，对任务卸载、服务缓存、带宽和计算资源分配决策联合优化，目的是最小化系统时延。

5、然而，随着服务请求的多样化、区域化，以及mec规模的不断扩大，边缘节点之间复杂的空间相关性使得现有的优化算法在这种mec环境中难以获得高效的任务卸载和资源分配策略。具体来说，需要考虑以下两方面的空间相关性：

6、(1)不同边缘节点间服务请求类型不同，相邻节点通常由于ue的相似性而具有相同的流行服务请求类型；

7、(2)ue可达到的上行传输速率主要取决于无线资源分配策略和其他小区间的干扰，且距离越近的小区对彼此的干扰越大。

8、因此，边缘节点在制定任务卸载、资源分配和服务缓存策略之前，应更多地关注它们邻居边缘节点的服务请求和无线网络状态信息。

技术实现思路

1、为解决上述问题，本发明考虑多基站、多样化服务请求的mec网络的协同任务卸载和服务缓存场景，提出了一种基于图注意力多智能体强化学习的协同任务卸载和服务缓存算法。

2、本发明采用的技术方案包括以下步骤：

3、s1.在多基站、多样化服务请求的mec网络场景下构建mec系统，其中：

4、所述mec系统中每一个基站都配置了mec服务器为其关联的用户设备提供计算服务的缓存和计算资源；定义基站集合为为基站数量；定义为与基站关联的用户设备集合，表示与基站n关联的用户设备数量；所述mec系统是时隙动态的，采用

5、表示时隙的集合，每个时隙的长度相等，记为所述mec系统还包括任务模型、服务缓存模型、通信模型、任务卸载模型和效用模型；

6、s2.基于mec系统，以最大化基于qoe的系统效用为目标，建模协同任务卸载和服务缓存问题；

7、s3.将协同任务卸载和服务缓存问题转化为分布式部分可观测的马尔可夫决策过程，包括：

8、s31.将协同任务卸载和服务缓存问题转化为有n个基站的分布式部分可观测的马尔可夫决策过程，且将每一个基站看做一个智能体；

9、s32.设置环境状态空间、局部观测空间、动作空间和奖励函数；

10、s4.采用基于图注意力多智能体强化学习算法对所述转化的分布式部分可观测的马尔可夫决策过程进行求解，包括：

11、s41.构建基于图注意力多智能体强化学习网络，其包括图注意力模块、联合动作价值混合模块以及每一个智能体对应的局部动作价值网络；

12、s42.每一个智能体将自身接收的局部观测值和上一个动作输入自身对应的局部动作价值网络，输出局部动作价值函数；

13、s43.图注意力模块将mec系统的环境状态作为输入，输出每一个局部动作价值函数的权重；

14、s44.联合动作价值混合模块根据权重将所有局部动作价值函数相加得到联合动作价值函数，并通过最小化损失函数的方式进行训练；

15、s45.训练完成后，根据基站的局部观测值获取全局最优的任务卸载和服务缓存策略。

16、进一步的，任务模型的建立方法包括：每个用户设备定期生成不同qoe和服务需求的计算任务，定义为mec系统中的服务类型集合，为服务类型的数量；定义用户设备在t时刻生成的计算任务由6个参数组成，表示为其中，为用户设备mn在t时刻生成的计算任务的任务数据大小，为用户设备mn在t时刻生成的计算任务的服务类型，为用户设备mn在t时刻生成的计算任务的每bit输入数据所需的cpu周期数；是根据用户设备mn在t时刻生成的计算任务的服务类型预定义的三个服务时延阈值，是最小服务时延阈值，是最大服务时延阈值，是用户设备mn开始感觉到qoe下降至较差体验的点。

17、进一步的，服务缓存模型的建立方法包括：基站在t时隙缓存的服务用于在t+1时隙执行相应的任务；定义二元变量为t时隙服务k在基站n中的服务缓存决策，其中，如果服务k在基站n中缓存，则否则

18、进一步的，通信模型的建立方法包括：mec系统带宽被划分为c个正交信道，在每个时隙进行分配，且每个信道完全复用mec系统的频谱资源；定义表示每个基站可用信道的集合，用表示t时隙基站n的信道分配变量，如果基站n将信道分配给用户设备mn，则否则

19、设为t时隙用户设备mn在信道c上与其本地基站n的信道增益，则用户设备mn在t时隙在信道c上的上行传输速率表示为：

20、

21、故用户设备mn在t时隙在本地基站n的上行传输速率表示为：

22、

23、其中，w为信道带宽，为用户设备mn的发射功率，σ2为背景噪声功率，为t时隙基站n在信道c上接收到的来自其他用户设备的干扰。

24、进一步的，于图注意力多智能体强化学习的协同任务卸载和服务缓存方法，其特征在于，任务卸载模型的建立方法包括：每个用户设备的计算任务有本地基站卸载和协同卸载两种卸载策略；定义表示用户设备mn在t时隙的任务卸载决策，如果用户设备mn在t时刻生成的计算任务被卸载到其本地基站n执行，则如果用户设备mn在t时刻生成的计算任务被卸载到基站执行，则如果用户设备mn在t时刻生成的计算任务被丢弃，则其中，t时隙是一个时间段，t时刻表示t时隙的开始时刻；

25、若选择本地基站卸载策略，用户设备mn在t时刻生成的计算任务发送到其本地基站n的上行链路时延的计算公式为：

26、

27、其中，为用户设备mn在t时刻生成的计算任务的任务数据大小，表示用户设备mn在t时隙在本地基站n的上行传输速率；

28、用户设备mn的计算任务在其本地基站n的任务计算时延的计算公式为：

29、

30、其中，fn为基站n的cpu频率，表示用户设备mn在t时刻生成的计算任务的每bit输入数据所需的cpu周期数；

31、故用户设备mn在t时刻生成的计算任务被卸载到其本地基站n的处理时延为：

32、

33、若选择协同卸载策略，用户设备mn在t时刻生成的计算任务迁移到基站n′会产生额外的传输时延，此时用户设备mn在t时刻的计算任务发送到基站n′的上行链路时延的计算公式为：

34、

35、其中，表示基站n与基站n′之间的平均传输速率；

36、用户设备mn的计算任务在基站n′的任务计算时延的计算公式为：

37、

38、其中，fn′表示基站n′的cpu频率；

39、故用户设备mn在t时刻生成的计算任务被卸载到基站n′的处理时延为：

40、

41、进一步的，效用模型的建立方法包括：定义效用函数评估用户设备的服务质量，所述效用函数表示为：

42、

43、其中，表示用户设备mn在t时隙获得的效用，表示处理用户设备mn在t时刻生成的计算任务的服务时延，表示用户设备mn在t时刻生成的计算任务的最小服务时延需求，表示用户设备mn在t时刻生成的计算任务的最大服务时延需求。

44、进一步的，步骤s32设置环境状态空间、局部观测空间、动作空间和奖励函数，包括：

45、在环境状态空间中：

46、

47、其中，st表示t时隙mec系统的环境状态，是t时刻所有用户设备请求的任务计算需求信息集合，为用户设备mn在t时刻生成的计算任务；是与基站n关联的所有用户设备在每一个信道上的信道增益集合，为t时隙用户设备mn在信道c上与其本地基站n的信道增益；是其他用户设备与基站n在每一个信道上的干扰信道增益集合，为t时隙用户设备mn′在信道c上与基站n的干扰信道增益；为t-1时刻的服务缓存决策集合；

48、在局部观测空间中：

49、

50、其中，表示智能体n在t时隙的局部观测值；

51、在动作空间中：

52、

53、其中，表示智能体n在t时隙的动作空间，是智能体n服务缓存决策，表示t时隙服务k在基站n中的服务缓存决策；是智能体n覆盖范围下所有用户设备的信道分配决策，表示用户设备mn在t时隙的信道分配变量；是智能体n覆盖范围下所有用户设备的任务卸载决策，表示用户设备mn在t时隙的任务卸载决策；

54、所述奖励函数定义为：

55、

56、其中，rt表示所有智能体在t时隙获得的奖励，at表示所有智能体在t时隙的联合动作，表示用户设备mn在t时隙获得的效用，r()表示与st和at相关的奖励函数。

57、进一步的，步骤s43图注意力模块将mec系统的环境状态作为输入，输出每一个局部动作价值函数的权重，包括：

58、s431.将mec系统的多智能体环境构建为无向图其中是节点的集合，每个节点代表一个智能体，ε是表示节点之间连通性的边的集合，每一个节点有一个由边集ε确定的邻居节点集合

59、s432.在t时隙，将环境状态st输入到mlp编码器中，并输出局部潜在表示向量其中表示节点n的局部潜在表示向量，然后局部潜在向量再输入到gat网络中；

60、s433.采用gat网络中的自注意力机制计算每一个节点与其邻居节点间的注意力系数，并使用softmax函数对注意系数进行归一化得到归一化注意力系数；

61、s434.根据归一化注意力系数采用多头注意力机制计算每一个节点的输出特征表示向量，并输入mlp网络获取每一个智能体的局部动作价值函数的权重。

62、进一步的，步骤s44中采用的损失函数表示为：

63、

64、ytot＝r+γmaxa′qtot(τ′,a′；θ-)

65、其中，θ为预测网络的参数，x表示从经验回放池中随机小批量采样的样本数，x表示样本序号，θ-为目标网络参数，r表示当前时隙所有智能体的奖励，γ表示折扣因子，τ′表示下一个时隙所有智能体的联合动作观测历史，a′表示下一个时隙所有智能体的联合动作，qtot()表示当前时隙所有智能体的联合动作价值函数。

66、本发明的有益效果：

67、本发明针对多基站、多样化服务请求mec网络下的协同任务卸载和服务缓存问题，提出了一种基于图注意力的多智能体强化学习算法。首先，对多基站、多样化服务请求的mec网络场景进行建模，同时引入基于qoe的效用函数表示ue对服务时延的满意度，并在存储资源和无线资源的约束下，以最大化基于qoe的系统效用为目标，将优化问题建模为协同任务卸载和服务缓存问题。然后，提出了一种基于图注意力的多智能体强化学习算法来学习最优的任务卸载和服务缓存策略。通过仿真实验，与基准算法相比，所提算法在缓存命中率、系统效用和计算成功率方面具有明显改进。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚枝秀夏士超李云吴广富
技术所有人：重庆邮电大学
我是此专利的发明人

上一篇：一种聚吡咯的制作方法
上一篇：一种全氟化高压电解液及含有该电解液的钠金属电池

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。