大语言模型的缩放利用的制作方法

文档序号:44821896发布日期:2026-03-03 23:26阅读:12来源:国知局


背景技术:

1、近年来,人工智能(ai)和机器学习(ml)的普及和应用得到显著增加。此外,随着云计算系统托管的服务变得越来越可供终端用户和其他组织使用,对更复杂和健壮的计算模型(诸如大语言模型(llm))的访问已经变得越来越普遍。可以训练这些基础模型以执行各种任务,诸如聊天机器人,对一般问题提供答案,生成代码和其他编程脚本,并且在一些情况下,提供关于特定主题的特定信息。

2、虽然基础模型(诸如chatgpt和其他大语言模型)在使用大量计算资源执行各种任务时提供了有用的工具,但是存在与训练这些大语言模型以准确且快速地执行各种任务相关的大量计算和处理费用。此外,这些llm通常需要昂贵的最先进的基础设施(例如,gpu)来托管。随着这些模型扩展,继续向上扩展,以及查询和上下文可以被输入到llm中的令牌预算的增加,与运行利用这些llm资源的应用相关联的成本可能变得低效且计算成本高,特别是随着进行越来越多的应用编程接口(api)调用。

3、这些和其他问题与利用和缩放llm和其他基础模型资源有关。


技术实现思路


技术特征:

1.一种用于使用一个或多个大语言模型来处理批量输入的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述一个或多个批量排列包括所述多个数据输入的第一排列,所述第一排列包括其中所述多个数据输入相对于所述第一顺序被重排序的第一重排序数据输入集合。

3.根据权利要求2所述的方法,其中所述一个或多个批量排列包括所述多个数据输入的第二排列,所述第二排列包括其中所述多个数据输入相对于所述第一顺序被重排序的第二重排序数据输入集合。

4.根据权利要求3所述的方法,其中所述一个或多个批量排列包括所述多个数据输入的多个附加排列,其中所述第二输出集合包括针对来自所述第一排列、所述第二排列和所述多个附加排列的每个排列的输出集合。

5.根据权利要求4所述的方法,还包括:确定针对来自所述第一输出集合和所述第二输出集合的每个输出的置信度值。

6.根据权利要求1所述的方法,其中所述批量排列中的一个或多个批量排列包括缩减的数据输入集合。

7.根据权利要求6所述的方法,其中基于具有高相关联的置信度值的来自第一输入集合或第二输入集合的相关联输出的一个或多个数据输入,所述缩减的数据输入集合排除所述一个或多个数据输入。

8.根据权利要求1所述的方法,其中生成所述批量提示输出包括:基于由所述大语言模型对于来自所述第一输出集合和所述第二输出集合的每个输出确定的置信度分数,来确定针对来自所述第一输出集合和所述第二输出集合的每个输出的一个或多个权重。

9.根据权利要求8所述的方法,其中所述一个或多个权重包括基于所述大语言模型确定对应输出可能准确的一个或多个高权重值,并且所述一个或多个权重包括基于所述大语言模型确定对应输出可能不准确的一个或多个低权重值。

10.一种系统,包括:

11.根据权利要求10所述的系统,其中所述一个或多个批量排列包括所述多个数据输入的第一排列,所述第一排列包括其中所述多个数据输入相对于所述第一顺序被重排序的第一重排序数据输入集合。

12.根据权利要求11所述的系统,其中所述一个或多个批量排列包括所述多个数据输入的第二排列,所述第二排列包括其中所述多个数据输入相对于所述第一顺序被重排序的第二重排序数据输入集合。

13.根据权利要求12所述的系统,还包括由所述至少一个处理器执行的指令以用以:确定针对来自所述第一输出集合和所述第二输出集合的每个输出的置信度值。

14.根据权利要求10所述的系统,其中所述批量排列中的一个或多个批量排列包括缩减的数据输入集合。

15.根据权利要求14所述的系统,其中基于具有高相关联的置信度值的来自第一输入集合或第二输入集合的相关联输出的一个或多个数据输入,所述缩减的数据输入集合排除所述一个或多个数据输入。

16.根据权利要求10所述的系统,其中生成所述批量提示输出包括:基于由所述大语言模型对于来自所述第一输出集合和所述第二输出集合的每个输出确定的置信度分数,来确定针对来自所述第一输出集合和所述第二输出集合的每个输出的一个或多个权重。

17.根据权利要求16所述的系统,其中所述一个或多个权重包括基于所述大语言模型确定对应输出可能准确的一个或多个高权重值,并且所述一个或多个权重包括基于所述大语言模型确定对应输出可能不准确的一个或多个低权重值。

18.一种非暂态计算机可读介质,其上存储有指令,所述指令在由至少一个处理器执行时使计算设备:

19.根据权利要求18所述的计算机可读介质,其中所述一个或多个批量排列包括所述多个数据输入的第一排列,所述第一排列包括其中所述多个数据输入相对于所述第一顺序被重排序的第一重排序数据输入集合。

20.根据权利要求19所述的计算机可读介质,其中所述批量排列中的一个或多个批量排列包括缩减的数据输入集合,并且其中基于具有高相关联的置信度值的来自第一输入集合或第二输入集合的相关联输出的一个或多个数据输入,所述缩减的数据输入集合排除所述一个或多个数据输入。


技术总结
本公开涉及以可缩放的方式并以减少由基础模型(例如,LLM)处理的令牌量以及在处理输入任务时进行的API调用的数目的方式,高效地接收和处理输入任务。系统批量处理输入集合,以将其作为单个批量的输入提供给LLM。该系统生成批量输入的一个或多个排列,以基于可变次序来确定输出,在该可变次序中在批量输入的相应排列内提供输入数据。该系统还可以消除相应批量内的一个或多个数据输入,以促进较小批量的输入,而不牺牲LLM响应于批量排列而生成的输出集合的准确度。

技术研发人员:林健哲,M·迪森德鲁克,毛曼卿,项一健,J·T·陈,丁柏舜,徐名扬,杜亮,R·亚伯拉罕
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:
技术公布日:2026/3/2
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!