本发明属于机器学习领域,具体涉及一种基于边缘计算的大语言模型优化方法。
背景技术:
1、大语言模型(large language models,llms)是指具有大量参数和复杂结构的深度学习模型。然而,这些模型通常需要大量计算资源和存储空间,主要在高性能云计算平台上集中部署,导致计算资源限制、延迟和带宽等问题。
2、边缘计算通过将部分计算任务移至边缘设备上,可以降低延迟并提高实时性,但由于边缘设备计算能力有限,难以直接运行大规模语言模型。
3、目前大多采用dqn或q-learning或pso算法,在训练过程中存在算法收敛速度较慢、训练效率低的弊端,同时还容易陷入局部最优决策,无法获得全局最优的模型分割点选择与资源分配策略,以致无法实现大语言模型优化的目的。
技术实现思路
1、本发明所要解决的技术问题是针对背景技术的不足提供了一种基于边缘计算的大语言模型优化方法,通过找寻最优分割点,将transformer模型在用户设备和云服务器上进行合理分割部署,从而实现计算资源利用的优化和响应延迟的降低。
2、本发明为解决上述技术问题采用以下技术方案:一种基于边缘计算的大语言模型优化方法,具体包含如下步骤;
3、步骤1,模型建立:所述模型包含部署在用户设备和云端服务器的transformer模型;在边缘计算环境之下,对transformer模型在用户设备和云端进行分割部署;
4、其中,环境中的用户设备表示集合,云端服务器表示集合;在t时间段中,用户设备和云端服务器的计算资源分别表示为和;
5、步骤2,分割模型,具体包含如下步骤:
6、步骤2.1,将transformer模型分割,分割点记为 q;
7、步骤2.2,设模型的总层数为 x,在模型的第 q层进行分割,前 q层部署在用户设备上表示为,其余 x- q层部署在云端服务器上表示为,其中,分割点 q是可调的;
8、步骤2.3,对于一个输入的,通过ue将 x转换为中间张量:其中,表示部署在用户设备层的参数;中间张量y通过无线信道传输到云端服务器,而在传输途中会受到瑞利衰落信道增益和高斯白噪声的影响,得到: 其中,h表示瑞利衰落信道增益,n表示高斯白噪声;
9、步骤2.4,经过云端服务器处理得到:其中,表示部署在云端服务器层的参数;
10、步骤3,约束模型:由于在边缘计算的环境中,用户设备和云端服务器的计算资源存在限制,所以给定以下约束条件:其中,表示用户设备的最大计算资源,表示云端服务器的最大计算资源;
11、步骤4,优化模型:在选择合适分割点 q时,需要考虑计算资源和计算所消耗的时间的动态平衡,即在保证任务完成的同时,也要最小化计算延迟和传输延迟;该优化模型可表示为:其中,表示用户设备计算前 q层所需要的时间,表示云端服务器计算剩余 x- q层所需要的时间,表示数据由用户设备向云端服务器传输所需要的时间。
12、作为本发明一种基于边缘计算的大语言模型优化方法的进一步优选方案,所述边缘计算环境包含分割点的选择、用户设备和云端服务器的关联抉择和资源的动态分配。
13、作为本发明一种基于边缘计算的大语言模型优化方法的进一步优选方案,所述分割点选择,具体实施策略如下:
14、1)初始化:初始化mcts树,根节点表示初始状态,此时的分割点为 q;其中,mcts为蒙特卡罗树搜索;
15、2)选择:在mcts树中,从根节点开始,通过决策网络选择子节点,沿最优路径进行树的扩展,选择一个未完全展开的节点;
16、3)扩展:若选择的节点未完全展开,则根据当前状态对该节点进行扩展,生成新的子节点,计算前 q层和后 x- q层的数据传输量和计算需求,所述模型可表示为:其中,和分别表示前 q层和后 x- q层的计算复杂程度,传输数据的量, b为带宽;
17、4)模拟:使用价值网络对新扩展的节点进行模拟,估计当前结点的价值,得到一个回报值;
18、5)回溯:将模拟得到的回报值回溯到根节点,更新路径上的节点价值,调整决策网络和价值网络的参数;此处利用学习来更新节点价值,其公式如下:其中:是在状态 s下选择动作 a的状态—动作值;是学习率,决定了新信息在更新过程中的重要性;是当前步骤获得的回报,是折扣因子;是在下一个状态下所有可能动作的最大值;
19、6)迭代:重复以上选择、扩展、模拟、回溯的过程,直到满足终止条件,从而达到了确定最优分割点的目的。
20、作为本发明一种基于边缘计算的大语言模型优化方法的进一步优选方案,所述用户设备与云服务器关联,具体如下:
21、在每个时间段 t内,根据分割点选择的结果,优化用户端与云端服务器的关联策略;关联策略根据反馈值进行迭代调整,从而达到最小计算延迟和传输延迟的目的。
22、作为本发明一种基于边缘计算的大语言模型优化方法的进一步优选方案,所述资源的动态分配,具体如下:
23、在确定完最优分割点和关联策略后,根据实时负载和任务需求动态调整资源的分配;设定如下的动态资源分配策略以实现资源利用的最大化,同时避免过载:
24、首先监控用户设备和云端服务器的实时计算负载,接着根据负载预测资源分配,最后实施资源预留以应对突发的计算需求;
25、动态资源分配可定义为:其中,表示用户设备、云端服务器计算相应层数所需要的时间与相应的当前系统负载量的关系;为当前负载量。
26、本发明采用以上技术方案与现有技术相比,具有以下技术效果:
27、本发明采用一种基于边缘计算环境下transformer模型的分割优化方法;通过将transformer模型的底层部分部署在用户设备上,高层部署在云端服务器上,实现了模型的分层协同推理;同时采用结合了决策网络和价值网络mcts方法,建立起一种自适应动态调整机制,用来找寻最佳分割点,从而将模型进行最优分割;提高了系统的计算能力,降低了设备延迟,实现资源的均衡利用;
28、本发明采用了结合了决策网络和价值网络的mcts方法,通过对大量历史数据和复杂特征进行学习,决策网络和价值网络可给出更精准的估计,从而指导mcts在搜索过程中减少对不必要分支的搜索,大大提高了搜索效率和资源的利用率;通过深度学习模型对该方法的端到端训练,可更快适应不同环境,从而有更快的收敛速度;
29、本发明通过高效的用户端与云服务器协同工作的边缘计算环境,并联合分割式部署的transformer模型来缓解计算压力,从而达到准确、快速的互联互通,达到分布式协同计算的目的;此外,本发明着眼于llms分割点的自适应选择,使研究效果达到最佳,最终提高了系统的实用性和鲁棒性。