一种云边协同的大语言模型智能客服部署优化方法与流程

文档序号：37557707发布日期：2024-04-09 17:49阅读：9来源：国知局

本发明属于人工智能，具体涉及一种云边协同的大语言模型智能客服部署优化方法。

背景技术：

1、在电商领域，智能客服系统的应用变得越来越普遍。同时随着近年来大语言模型的不断发展，许多系统开始依赖于大型语言模型(large language models,llms)，如chatgpt、文心一言等api或者企业直接在云端部署开源大模型如llama2、gpt-3等采用迭代递增的方式处理用户的请求，以提升客户服务体验。然而，将大语言模型应用于电商智能客服场景中，目前技术面临以下几个重要的挑战。

2、1.高昂的api调用费用：直接chatgpt、文心一言等成熟、商业化llm的api为客户提供服务，则会面临api调用成本高。这对于预算有限的电商企业尤其具有挑战性，尤其是在客服流量高峰期间，费用可能迅速累积；2.数据安全问题：通过api调用外部服务处理客户数据，存在潜在的数据安全和隐私风险。客户数据可能包含敏感信息，因此，将这些数据传输至外部服务器进行处理可能引发数据泄露和隐私问题；3.内存访问开销大：常规方式部署llm用于客服问答系统，在推理过程中需要频繁访问gpu内存，尤其是在逐个字符生成文本时。这不仅减慢了推理速度，而且增加了能耗，导致在消费级硬件上的部署变得更加困难；4.推理延迟：由于增量式解码的方式，云端部署的llm每个词元的生成都依赖于前一个词元的状态。这种顺序依赖导致了整体客服问答系统的端到端推理延迟增长，影响了客户体验，特别是在期待即时反馈的客服场景中；5.计算并行性差：llm由于其顺序生成词元的特性，限制了并行处理的能力。在多gpu等并行计算资源中，这种方法无法充分利用硬件的计算能力，导致计算效率不佳；6.受网络稳定性影响较大：网络稳定性也是一个重要因素，在网络状况不佳的情况下，依赖于云端服务器的智能客服系统可能会遇到延迟或中断的问题，严重影响服务质量；7.算力设备要求高：若在云端部署llm为用户直接提供服务，则会面临部署算力设备要求高，且推理速度相对较慢的问题。

3、因此，当前电商智能客服应用中存在的问题和缺点主要集中在成本、数据安全、推理效率、扩展性和维护上，这些不仅增加了企业的运营成本，也降低了客户服务的效率和质量。解决这些问题需要创新的解决方案，既能保持高效的客户服务，又能保证数据安全和降低成本。

技术实现思路

1、针对以上问题，本发明提出了一种云边协同的大语言模型智能客服部署优化方法，在电商智能客服领域引入了一种创新的大语言模型与小模型联合推理的方法，旨在克服传统大型语言模型(llm)推理部署的局限性并提高效率，降低推理成本，极大提升电商客服系统的性能和用户满意度。为解决以上技术问题，本发明所采用的技术方案如下：

2、一种云边协同的大语言模型智能客服部署优化方法，包括如下步骤：

3、s1，在边缘侧和云侧收集用户请求和对应的问题答复，构建电商问答数据集；

4、s2，将步骤s1得到的电商问答数据集输入云侧的大型语言模型进行训练得到云问答预测模型，基于云问答预测模型获取每个用户请求预测结果所对应的云预测词元序列；

5、s3，基于量化算法和剪枝算法对大型语言模型进行压缩获取若干个不同的微指导模型，利用电商问答数据集依次对每个微指导模型进行训练，并基于每个模型的训练结果更新电商问答数据集，同时基于训练后每个微指导模型的输出构建损失函数对每个微指导模型进行优化，将优化后的所有微指导模型部署均在每个边缘侧；

6、s4，在线收集边缘侧接收到的用户请求，判断tdelay＞δ，若是，选用任一本地问答预测模型输入对应的问题答复作为对用户请求的答复，否则，使用该边缘侧的所有本地问答预测模型分别进行预测，并收集每个本地问答预测模型的预测结果构建词元有向无环图n，将词元有向无环图n发送到云侧后，执行步骤s5，其中，tdelay表示边缘侧的网络延迟，δ表示预设的网络延迟阈值；

7、s5，云侧对transformer中注意力机制的注意力得分进行改进，并将词元有向无环图n输入改进后的transformer中进行识别，输出更新后的词元有向无环图no；

8、s6，云侧基于贪心解码或随机解码以及步骤s5得到的更新后的词元有向无环图no对步骤s4得到的词元有向无环图n中的词元依次进行验证，输出最佳词元序列作为对用户请求的答复，并将该答复传输给边缘侧。

9、在步骤s4中，所述收集每个本地问答预测模型的预测结果构建词元有向无环图n，包括如下步骤：

10、i，收集所有本地问答预测模型的预测结果，所述预测结果包括词元序列、词元概率以及预测结果所对应的模型编号；

11、ii，将所有词元序列依次分割为对应的词元，每个词元作为一个节点，词元概率和预测结果所对应的模型编号作为该节点的属性；

12、iii，基于步骤i得到的所有词元识别共享路径，所述共享路径是指在两个或者两个以上的词元序列中拥有至少一个相同的词元；

13、iv，按照词元序列中词元的顺序依次创建所有的有向边，对步骤i中的节点进行识别以对相邻的词元进行连接即可得到词元有向无环图n；

14、v，对步骤iii得到的词元有向无环图n中的相同路径进行合并以对词元有向无环图n进行优化。

15、所述步骤s5包括如下步骤：

16、s5.1，为接收到的词元有向无环图n中的每个节点定义一个注意力分数；

17、s5.2，基于词元有向无环图n中的每个节点的邻居节点更新每个节点的隐藏状态，基于更新的隐藏状态对transformer中的注意力机制的注意力得分进行优化；

18、s5.3，基于步骤s5.2优化后的注意力得分对transformer的注意力机制进行改进，云侧基于改进后的transformer对接收到的词元有向无环图n进行识别，输出更新后的词元有向无环图no。

19、在步骤s5.1中，所述注意力分数的计算公式为：

20、

21、式中，attention(u，v)表示节点u对节点v的注意力分数，score(hu，hv)表示基于节点u的隐藏状态hu和节点v的隐藏状态hv的评分函数，score(hu，hw)表示基于节点u的隐藏状态hu和节点w的隐藏状态hw的评分函数，adj(u)表示节点u的邻接节点集合，节点v是与节点u连接并指向节点u的前驱节点。

22、在步骤s5.3中，更新节点隐藏状态的表达式为：

23、h′u＝σ(∑v∈adj(u)attention(u，v)·w·hv)；

24、式中，w表示权重矩阵，w∈rd×d，σ(·)表示激活函数，h′u表示节点u的新隐藏状态，adj(u)表示节点u的邻接节点集合，attention(u，v)表示节点u对节点v的注意力分数，hv表示节点v的隐藏状态。

25、本发明的有益效果：

26、1.减少内存访问次数：传统的llm推理方法中，每生成一个词元都需要访问模型的所有参数，导致频繁的内存访问和高能耗。本技术通过端侧小模型预先生成词元有向无环图(dag)并将其交予云端进行验证，显著减少了对llm参数的重复访问，从而降低了内存带宽需求和能源消耗。这种优化使得模型在消费级硬件上运行变得更加可行，为中小型电商企业提供了成本效益更高的解决方案。

27、2.降低端到端推理延迟：传统llm通常采用增量式解码，导致推理过程中的延迟较长。本技术通过并行处理词元dag中的多个词元，显著提高了处理速度，从而降低了端到端的推理响应时间。这对于电商智能客服场景尤为重要，因为客户期望能够获得快速而准确的响应。

28、3.提升计算并行性：本技术的并行解码方法允许云端大模型同时处理多个词元，更有效地利用了gpu等并行计算资源。这不仅提高了计算效率，还使得模型能够在更广泛的硬件环境中部署，包括那些拥有有限计算资源的环境。

29、4.适应不同网络条件：在网络条件良好时，mmg模型生成的序列可以通过云端大模型进行验证，以生成高质量回答；而在网络条件不佳时，可以直接使用小模型在端侧生成的回答。这种灵活的适应机制确保了服务质量，即使在网络不稳定的环境中也能维持一定水平的服务。

30、5.准确性和性能的提升：本技术不仅在减少推理时间和提高能效方面表现出色，还通过集体提升调优技术提高了词元推测的准确性。这意味着在保持高质量输出的同时，整体性能也得到了提升，这对于提供一致且高效的客户服务体验至关重要。不仅适用于拥有强大算力的大型企业，也适用于资源有限的小型企业或组织，使得更多的企业能够利用先进的语言模型技术来提升他们的客户服务体验。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王闻宇,张青青,王晓飞
技术所有人：派欧云计算（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。