本发明涉及大数据处理与人工智能,尤其涉及一种模型评测方法、装置及设备。
背景技术:
1、随着人工智能和大数据的快速发展,各行各业均开始应用大模型进行预测。在使用大模型进行预测前,通常需要对大模型进行评测,以评估其性能,进而选择性能更优的大模型进行应用。大模型的评测方法通常是使用flageval、c-eval、cmmlu、mmcu、agieval、gaokao等评测集对大模型进行评测。由于评测集通常存在片面性,导致目前对大模型的评测带有较强的场景特性,不同场景的数据只能反馈大模型的特性能力,无法对大模型综合能力进行完整、全面的评价。
技术实现思路
1、本发明实施例提供一种模型评测方法、装置及设备,解决目前对大模型的评测带有较强的场景特性,不同场景的数据只能反馈大模型的特性能力,无法对大模型综合能力进行完整、全面的评价。
2、第一方面,本发明提供一种模型评测方法,所述方法包括:
3、获取目标测评数据集以及待评测的大模型;
4、根据所述目标测评数据集对所述待评测的大模型的层级进行评测,得到所述待评测的大模型的目标能力;
5、所述目标能力包括以下至少一项:知识记忆和知识理解能力,语义抽象能力;
6、所述目标能力包括知识记忆和知识理解能力时,所述根据所述目标测评数据集对所述待评测的大模型的层级进行评测,得到所述待评测的大模型的目标能力包括:
7、将所述目标测评数据集中的至少一条文本数据输入至所述待评测的大模型;
8、提取所述待评测的大模型每一层级的输出的隐向量;
9、在所述隐向量上构建线性分类器;
10、使用所述线性分类器对所述至少一条文本数据进行评测,得到所述待评测的大模型每一层级的知识记忆和知识理解能力。
11、可选地,所述获取目标测评数据集包括:
12、获取至少一个初始测试集;
13、从所述至少一个所述初始测试集中抽取至少部分测试数据;
14、基于所述至少部分测试数据生成目标测评数据集。
15、可选地,所述使用所述线性分类器对所述至少一条文本数据进行评测,得到所述待评测的大模型每一层级的知识记忆和知识理解能力包括:
16、基于所述目标测评数据集确定评测模式;
17、基于所述评测模式确定所述至少一条文本数据对应的待测评属性;
18、使用所述线性分类器对所述待测评属性进行分类,得到分类结果;
19、根据所述分类结果确定得到所述待评测的大模型每一层级的知识记忆和知识理解能力。
20、可选地,所述目标能力包括语义抽象能力时,所述根据所述目标测评数据集对所述待评测的大模型的层级进行评测,得到所述待评测的大模型的目标能力包括::
21、将所述目标测评数据集中的至少一条文本数据输入至所述待评测的大模型;
22、提取所述待评测的大模型的每一层级的注意力模式;
23、基于每一层级的所述注意力模式得到所述待评测的大模型的语义抽象能力。
24、可选地,所述基于每一层级的所述注意力得到所述待评测的大模型的语义抽象能力包括:
25、将所述每一层级的所述注意力模式与预设注意力模式进行比较,得到比较结果;
26、根据所述比较结果确定所述待评测的大模型的语义抽象能力。
27、可选的,所述预设注意力模式包括依次从字、词、短语、句子、段落到篇章的形式。
28、可选地,所述提取所述待评测的大模型的每一层级的注意力模式包括:
29、提取所述至少一条文本数据的每一条语句;
30、基于所述每一条语句中最后一个字符的对前面所有字符的注意力,得到所述待评测的大模型的每一层级的注意力模式。
31、第二方面,本发明实施例还提供一种模型评测装置,所述装置包括:
32、获取模块,用于获取目标测评数据集以及待评测的大模型;
33、评测模块,用于根据所述目标测评数据集对所述待评测的大模型的层级进行评测,得到所述待评测的大模型的目标能力;
34、所述目标能力包括以下至少一项:知识记忆和知识理解能力,语义抽象能力;
35、所述目标能力包括知识记忆和知识理解能力时,所述评测模块包括:
36、第一输入子模块,用于将所述目标测评数据集中的至少一条文本数据输入至所述待评测的大模型;
37、第一提取子模块,用于提取所述待评测的大模型每一层级的输出的隐向量;
38、构建子模块,用于在所述隐向量上构建线性分类器;
39、第一评测子模块,用于使用所述线性分类器对所述至少一条文本数据进行评测,得到所述待评测的大模型每一层级的知识记忆和知识理解能力。
40、可选地,所述获取模块包括:
41、获取子模块,用于获取至少一个初始测试集;
42、抽取子模块,用于从所述至少一个所述初始测试集中抽取至少部分测试数据;
43、生成子模块,用于基于所述至少部分测试数据生成目标测评数据集。
44、可选地,所述第一评测子模块具体用于:
45、基于所述目标测评数据集确定评测模式;
46、基于所述评测模式确定所述至少一条文本数据对应的待测评属性;
47、使用所述线性分类器对所述待测评属性进行分类,得到分类结果;
48、根据所述分类结果确定得到所述待评测的大模型每一层级的知识记忆和知识理解能力。
49、可选地,所述目标能力包括语义抽象能力时,所述评测模块还包括:
50、第二输入子模块,用于将所述目标测评数据集中的至少一条文本数据输入至所述待评测的大模型;
51、第二提取子模块,用于提取所述待评测的大模型的每一层级的注意力模式;
52、得到子模块,用于基于每一层级的所述注意力模式得到所述待评测的大模型的语义抽象能力。可选地,所述预设注意力模式包括依次从字、词、短语、句子、段落到篇章的形式。
53、可选地,所述得到子模块具体用于:
54、将所述每一层级的所述注意力模式与预设注意力模式进行比较,得到比较结果;
55、根据所述比较结果确定所述待评测的大模型的语义抽象能力。
56、可选地,所述第二提取子模块具体用于:
57、提取所述至少一条文本数据的每一条语句;
58、基于所述每一条语句中最后一个字符的对前面所有字符的注意力,得到所述待评测的大模型的每一层级的注意力模式。
59、第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器,用于读取存储器中的程序实现如第一方面所述的模型评测方法中的步骤。
60、第四方面,本发明实施例还一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如第一方面所述的模型评测方法中的步骤。
61、在本技术实施例中,获取目标测评数据集以及待评测的大模型;根据所述目标测评数据集对所述待评测的大模型进行评测,得到所述待评测的大模型的目标能力;所述目标能力包括以下至少一项:知识记忆和知识理解能力,语义抽象能力。本发明实施例能够对大模型的知识记忆和知识理解能力以及语义抽象能力进行评测,从而实现对大模型综合能力进行完整、全面的评价。