一种算力网络中基于图神经网络的资源协同调度方法

文档序号:40165487发布日期:2024-11-29 15:58阅读:38来源:国知局
一种算力网络中基于图神经网络的资源协同调度方法

本发明属于计算机领域,具体涉及一种算力网络中基于图神经网络的资源协同调度方法。


背景技术:

1、算力网络(compute first networking,cfn)是一种新型的网络架构,它旨在通过将各种计算资源(如边缘计算设备、云计算中心、智能终端设备等)整合在一起,形成一个巨大的计算网络,在云-边-端之间实现按需分配和灵活调度计算资源和网络资源。更加高效的利用网络边缘的海量分布式计算资源,为客户提供更高效、更灵活的计算服务。

2、然而,由于网络环境的动态性和不确定性,当网络拓扑结构发生变化(例如,新的计算节点加入或现有节点离开网络)时,传统的基于深度强化学习的算法需要重新训练模型以适应新的环境,这既耗时又低效。本发明公布一种用于处理动态网络环境中的实时优化问题的方法。目前大多数关于算力网络计算资源与网络资源协同调度的研究均未涉及到网络拓扑结构变化情况下资源均衡问题,因此本发明通过将图神经网络(graph neuralnetwork,gnn)与深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法相结合,公布了一种在动态网络下保持资源均衡的协同调度方法。


技术实现思路

1、本发明所要解决的技术问题是针对背景技术的不足提供了一种基于gnn的计算资源与网络资源协同调度方法;为了最大化算力网络的性能并满足用户的多样化需求,本发明结合gnn和ddpg,公布了一种在动态网络环境下高效利用算力资源的算法。

2、本发明为解决上述技术问题采用以下技术方案:

3、一种算力网络中基于图神经网络的资源协同调度方法,包含基于图神经网络的资源协同调度应用场景,所述基于图神经网络的资源协同调度应用场景包含云-边-端协同计算网络环境以及智能体和网络节点通信与计算环境;

4、其中,所述云-边-端协同计算网络环境包含云端计算服务器集群、边缘设备集合以及终端用户集合;

5、所述云端计算服务器集群包含弹性服务器和专业服务器;

6、所述边缘设备集合包含边缘服务器和连接网络与终端设备的基站;

7、所述终端用户集合包含智能手机、移动平板、笔记本电脑等终端设备;

8、当终端向算力网络发出服务请求,智能体将与云端计算服务器集群和边缘设备集合交互以分配适合的计算节点;

9、所述智能体和网络节点通信与计算环境包含智能体根据接收到的服务请求,评估当前网络节点的资源状态,包括可用资源容量、网络带宽、网络延迟;同时利用图神经网络gnn结合网络资源的实时状态和服务请求的要求,计算最优资源分配方案同时发送指令到方案涉及到的计算节点,接收到指令的计算节点将反馈资源的实际使用情况,接着图神经网络gnn将根据接收到的反馈信息更新当前网络状态信息,智能体获得新的网络状态信息会及时调整资源分配方案,确保算力资源的有效利用和服务请求的高效处理,以适应网络资源的动态变化和服务请求的多样性;

10、具体包括如下步骤:

11、步骤1,采用图神经网络gnn中的消息传递神经网络mpnn框架对网络环境进行有效建模;并通过消息传递神经网络mpnn获取图的状态信息;

12、步骤2,通过ddpg算法获取更可靠的资源分配方案;

13、步骤3,智能体在每个决策时刻,根据当前网络环境状态和服务请求的需求,使用ddpg算法来确定最优资源分配策略,根据确定的最佳策略为任务分配最合适的资源;

14、步骤4,在资源分配后,智能体将持续监控系统的运行状态和性能收集反馈信息,并根据反馈信息对资源分配策略进行调整,以确保系统的高效性和稳定性。

15、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤1中,建立的图结构框架中的节点代表网络中的各个实体,包含计算节点、服务器、终端设备,而边则表示这些实体之间的连接与交互关系算力。

16、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤2中,ddpg算法由两个核心部分组成:用于决策的actor网络和用于评估价值的critic网络;使用双重神经网络架构即当前网络和目标网络,即ddpg实际上引入了四个网络,用于做出决策和价值评估;actor网络和critic网络四种网络的具体分工如下所示:actor当前网络的目的是根据当前的网络状态信息进行决策以选择当前动作;同时与网络环境交互更新网络状态信息得到新的状态和奖励;在该模型中,actor当前网络的输入为网络环境的状态信息,选择时间步数为时的动作;actor目标网络的目的是根据经验回放池中采样的下一状态,选择最优的下一动作;网络状态信息定期从actor当前网络中得到;actor目标网络的输入包括经验回放池里的经验以及从actor当前网络复制的网络状态信息;

17、critic当前网络的主要职责是评估当前状态的价值,根据actor当前网络选择的动作和环境反馈的奖励,计算目标q值,作为动作选择的依据;该网络通过迭代更新价值网络参数,优化价值评估的准确性;critic目标网络用于评估计算下一时刻的状态-动作的q值函数,网络参数定期利用critic当前网络的参数进行更新,用于生成更准确的目标价值评估,帮助优化整个网络的性能。

18、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤3中,最优分配资源策略实现包括:通过gnn获取状态信息;智能体获得最优分配策略;智能体分配资源并持续监控系统状态信息。

19、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤3中,通过gnn获取状态信息,具体如下:网络环境本质上就具备图结构特性,其中节点代表网络中的各个实体,包含计算节点、服务器、终端设备,而边则表示这些实体之间的连接与交互关系;即网络拓扑可定义为,其中表示网络实体的集合,代表实体之间的关系;采用gnn中的消息传递神经网络框架对网络环境进行有效建模;mpnn的前向传播一般分为信息传递阶段和读取阶段两个阶段:

20、当信息传递阶段操作t个时间步,每个节点根据其邻居节点和其自身的隐藏状态以及二者之间的边缘特征通过消息传递函数生成在t+1时间步接收到的消息,其中为节点在时间步数的隐藏状态;接收到消息后将根据自身隐藏状态和消息利用更新函数得到自身在t+1时间步数的隐藏状态;在信息传递完成后,在读取阶段根据节点当前的隐藏状态使用读取函数r计算整个图的特征向量,表示了当前待决策任务决策步骤的状态;其中,节点隐藏状态为在mpnn框架中描述节点特征的向量;计算资源用到表示,包括为服务请求分配的计算类型、计算能耗、可用资源容量和节点;

21、在ddpg算法中环境执行对应的动作后需要返回当前动作的奖励,考虑同时优化计算资源与网络资源,以达到资源均衡将奖励函数设计为:;其中,表示由于执行动作产生的计算资源利用率与网络资源利用率的奖励值,代表针对低能耗和低时延的动作的奖励值,为计算能耗,代表计算资源总量,表示网络时延用来衡量执行动作后与与目标利用率之间的差异程度;为权重系数;为标准化因子,以确保这些指标在同一维度上计算。

22、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤3中,智能体获得最优分配策略,具体如下:采用ddpg算法,优化目标为最大化预期的累积奖励,通过奖励来衡量策略的优劣程度,进而通过最大累积奖励来得到最优资源分配策略;在ddpg中,采用深度神经网络来近似策略函数和价值函数,其中,策略函数用于输出给定网络状态下的最优动作,而价值函数则用于计算不同时刻q值;基于图神经网络的ddpg算法实现如下:

23、(1)对于策略函数和价值函数均使用双重神经网络架构,因此策略优化模型中包括 actor当前网络和actor目标网络、critic当前网络和critic目标网络;首先初始化四个网络中的网络参数:随机初始化actor当前网络参数与critic当前网络参数,同时更新相应的目标网络参数与,初始化,每轮训练时间步数,考虑到实际应用中网络模型的复杂性为确保模型有足够的机会来学习数据中的潜在模式,设置训练最大轮数为为节点个数;同时为避免模型出现过拟合的情况,设置验证频率,容忍期限,计数器,即每35个进行一次验证,如果当前表现没有超越最佳表现则增加计数器否则重置计数器;如果计数器达到容忍期限设定值,则停止训练;避免出现过拟合的情况并节省计算资源;

24、(2)在步骤1中已经通过mpnn获得网络环境下待决策任务决策步骤的状态,actor当前网络接收来自网络环境的状态,基于状态选择当前动作,表示在决策时刻时添加的随机噪声以增加学习的覆盖;接着actor当前网络与网络环境进行交互,环境根据动作为子任务分配相应的资源后得到新状态以及奖励,之后将每个决策时刻的当前状态、动作、奖励以及下一状态为经验元组存入经验回放池中;与此同时actor目标网络在经验回放集合中进行采样得到,选择最优的下一动作,这些动作作为critic目标网络的输入之一,critic目标网络接着从经验回放集合中随机采样个元组作为样本进行训练,用于评估下一时刻的状态-动作的q值函数得到的结果作为参数输入到critic当前网络中用于计算当前目标的q值,考虑到随着时间步数的增加,未来奖励对当前决策的影响将逐渐减小,因此引入衰减因子降低未来奖励在当前决策中的影响程度;具体计算公式可表示为:;

25、(3)由于网络拓扑环境、计算资源与网络资源是动态变化的,actor网络和critic网络需要不断适应变化的网络环境,以提供准确的评估或决策;具体的实现方式是不断地更新网络参数;通过均方差损失函数利用神经网络的梯度反向传播来更新critic当前网络的所有参数,结合critic当前网络的q值函数利用actor策略梯度函数对actor当前网络参数进行更新;为了增强训练的稳定性和收敛性,ddpg中目标网络使用软更新更新网络参数,critic目标网络更新方法为,actor目标网络更新方法为,其中为软更新系数;

26、(4)将状态更新到下一个状态再重复上述三个步骤,如果达到终止条件,则跳出循环,同时返回通过不断训练得到的最优资源分配方案的具体动作、对应的q值估计以及actor网络和critic网络的网络参数。

27、作为本发明一种算力网络中基于图神经网络的资源协同调度方法的进一步优选方案,在步骤4中,智能体在每个决策时刻,根据当前网络环境状态和服务请求的需求,通过ddpg算法得到最优资源分配方案的具体动作,为每个任务分配最合适的资源;接收到任务的计算节点将反馈资源的实际使用情况,接着利用mpnn根据接收到的反馈信息更新当前网络状态信息,智能体获得新的网络状态信息会及时调整资源分配方案,用于确保算力资源的有效利用和服务请求的高效处理,以适应网络资源的动态变化和服务请求的多样性。

28、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

29、本发明一种基于gnn的计算资源与网络资源协同调度方法,一方面,本发明利用gnn强大的信息处理能力、拓扑适应性、优化调度能力和协同决策能力,在综合考虑网络中各个计算节点的资源使用状态的情况下使算力网络高效运行并提升网络性能;另一方面,将网络环境建模成图结构,并利用gnn来实时更新并提取网络环境中的状态信息;为了最大化算力网络的性能并满足用户的多样化需求,本发明结合gnn和ddpg,公布了一种在动态网络环境下高效利用算力资源的算法;

30、本发明利用gnn来处理算力网络中的拓扑结构和节点之间的复杂关系,以支持本发明能够适应网络拓扑结构变化的情况并优化网络性能;根据mpnn提供的图的状态信息,采用ddpg算法使得智能体在网络动态环境中不断协同优化计算资源和算力资源以达到资源均衡的目的,使应用场景更符合现实情况并可取得比较好的效果;

31、本发明使用双重神经网络架构分离策略学习和价值学习减少了过度估计的风险,并且引入经验回放的方式使得算法更容易收敛,提升了算法的稳定性和学习效率,还增强了模型的泛化能力和鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1