人机交互的数据处理方法、服务器、存储介质和程序产品与流程

文档序号:37464811发布日期:2024-03-28 18:47阅读:7来源:国知局
人机交互的数据处理方法、服务器、存储介质和程序产品与流程

本申请涉及计算机技术,尤其涉及一种人机交互的数据处理方法、服务器、存储介质和程序产品。


背景技术:

1、随着人工智能的发展,大模型被广泛应用于自然语言处理领域的人机交互中。目前需要在多个任务方向上验证不同大模型以及同一大模型优化前后的表现。由于大模型并不如传统的算法模型一样仅针对单一任务,因此很难用传统单一指标进行衡量计算。大模型本质上是语言模型,各种任务形式都可以归类为问答,目前对大模型的测评集中在测评模型的问答质量。传统的人工测评的方式在大模型快速迭代的周期内很难保证评测速度,并且很多细分领域(如细分行业、学科)往往需要领域专家进行判断以保证质量,将造成较大资源开销。

2、目前,对大模型的测评往往集中为如下2种形式:一是采用众包的方式,小范围的召集领域内具有相关背景知识的学者进行评测,一般会直接给出同一个问题的来自不同大模型的回答,让学者评判回答更好的一个,最终计算各大模型的相对得分;二是专注于数据集的构建,将测评数据中的问答对转换成问题-选项的选择题形式并确定正确答案,再让待测大模型一一进行选择,最终确定大模型的绝对分值,以此进行快速评测。第一种方式的优点在于准确率较高,缺点是资源消耗大,扩展性差(每来一个新模型,需要重新比较),效率较低;第二种方式的优点是测评速度快、扩展性强,但缺点也很明显,需要构建高质量的问题-选择数据集,并且将问答对转化为选择题,某种意义上更强调大模型面对选择题的答题能力,不一定能正确反应大模型面对其他答题形式的能力,测评准确性差。


技术实现思路

1、本申请提供一种人机交互的数据处理方法、服务器、存储介质和程序产品,用以解决现有的大模型测评方法要么扩展性差且效率低、要么测评准确性差的问题。

2、第一方面,本申请提供一种人机交互的数据处理方法,包括:获取待测评数据和配置的提示模板,所述待测评数据包括问题和待测评的人机交互模型生成的所述问题的响应,所述提示模板包含用于填充待测评数据的槽位和测评思维链;将待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级;根据所述待测评数据的质量等级,确定所述人机交互模型的测评结果。

3、第二方面,本申请提供一种人机交互的数据处理方法,包括:接收端侧设备发送的对语言模型的测评请求,获取所述语言模型生成的待测评数据,所述待测评数据包括问题和所述语言模型生成的所述问题的响应;获取提示模板,所述提示模板包含用于填充待测评数据的槽位和测评思维链;将待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级;根据所述待测评数据的质量等级,确定所述语言模型的测评结果;向所述端侧设备输出所述语言模型的测评结果。

4、第三方面,本申请提供一种服务器,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述服务器执行第一方面或第二方面所述的方法。

5、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面或第二方面所述的方法。

6、第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面所述的方法。

7、本申请提供的人机交互的数据处理方法、服务器、存储介质和程序产品,通过配置包含填充槽位和测评思维链的提示模板,并获取包括问题和待测评的人机交互模型生成的所述问题的响应的待测评数据;将待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型,使得第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级,根据所述待测评数据的质量等级,计算得到所述人机交互模型的测评结果,通过采用绝对等级评价(absolute category rating,简称acr)的方式引入问题响应质量的多个质量等级,可以缓解对于同一问答对的多次打分不一致的情况,更好地控制测评模型测评的鲁棒性;并且,通过配置包含测评思维链的提示模板,指导第一测评模型按照测评思维链中设计的测评步骤进行分析和推理并确定问题响应的质量等级,可以提升测评模型的测评能力,提升测评准确性,而且通过提示模板和思维链引导大模型测评质量等级的方式,可以针对任何形式的待测评数据进行测评,而不限定于选择题的形式,扩展性强、测评效率高。



技术特征:

1.一种人机交互的数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待测评数据,包括:

3.根据权利要求2所述的方法,其特征在于,所述将待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级,包括:

4.根据权利要求2所述的方法,其特征在于,所述获取待测评数据,还包括:

5.根据权利要求4所述的方法,其特征在于,所述获取待测评数据,还包括:

6.根据权利要求5所述的方法,其特征在于,所述将待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级,包括:

7.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:

8.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:

9.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:

10.一种人机交互的数据处理方法,其特征在于,包括:

11.一种服务器,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-10任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-10任一项所述的方法。


技术总结
本申请提供一种人机交互的数据处理方法、服务器、存储介质和程序产品。本申请的方法,通过配置包含填充槽位和测评思维链的提示模板,将包括问题和待测评响应的待测评数据填充至所述提示模板的槽位中生成测评指令,将所述测评指令输入第一测评模型,使得第一测评模型进行基于所述测评思维链的逻辑推理,得到所述待测评数据的质量等级,根据所述待测评数据的质量等级,计算得到所述人机交互模型的测评结果,采用ACR的方式引入问题响应质量的多个质量等级,可缓解对于同一问答对的多次打分不一致的情况,更好地控制测评模型测评的鲁棒性;通过测评思维链指导第一测评模型的测评步骤,可提升测评准确性,扩展性强、测评效率高。

技术研发人员:卿立之,康杨杨,孙常龙
受保护的技术使用者:杭州阿里云飞天信息技术有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1