本公开属于模型测评,更具体地说,是涉及一种测评题目动态生成方法及系统、电子设备、可读存储介质。
背景技术:
1、大语言模型(large language model,llm)是一种先进的自然语言处理技术,它通过在大量的文本数据上进行预训练,学习到了丰富的语言知识和模式。这些模型可以生成流畅、连贯且具有逻辑性的文本,同时还能回答问题和进行情感分析等任务。随着大语言模型的快速发展,人们开始担心它们可能带来风险或产生负面社会影响,因此对其全方位评估变得越来越重要。然而,现有评估方法通常缺乏自适应性,不能根据不同的应用场景和用户需求动态调整题目难度,这在面对不断涌现的大型模型时限制了评估的准确性。
技术实现思路
1、本公开的目的在于提供一种测评题目动态生成方法及系统、电子设备、可读存储介质,以解决现有评估方法缺乏自适应性的问题。
2、本公开实施例的第一方面,提供了一种测评题目动态生成方法,包括:
3、基于种子题目和提示生成多个第一测试题目;
4、基于目标模型针对多个第一测试题目的第一回复信息确定多个第一测试题目的难度;
5、若多个第一测试题目的难度不符合预设难度,则对多个第一测试题目进行调整,返回执行基于所述目标模型针对多个第一测试题目的回复信息确定多个第一测试题目的难度的步骤;
6、若多个第一测试题目的难度符合预设难度,则将多个第一测试题目确定为针对所述目标模型的测试题目。
7、本公开实施例的第二方面,提供了一种测评题目动态生成系统,包括:
8、题目生成模块:用于基于种子题目和提示生成多个第一测试题目;
9、题目难度确定模块:用于基于目标模型针对多个第一测试题目的第一回复信息确定多个第一测试题目的难度;
10、题目难度调整模块:用于若多个第一测试题目的难度不符合预设难度,则对多个第一测试题目进行调整,返回执行基于所述目标模型针对多个第一测试题目的回复信息确定多个第一测试题目的难度的步骤;
11、题目确定模块:用于若多个第一测试题目的难度符合预设难度,将多个第一测试题目确定为针对所述目标模型的测试题目。
12、本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的测评题目动态生成方法的步骤。
13、本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的测评题目动态生成方法的步骤。
14、本公开实施例提供的测评题目动态生成方法及系统、电子设备、可读存储介质的有益效果在于:本发明提出了一种自适应调整题目难度的方法,根据大型模型的表现动态调整题目难度。这种方法能够确保评估结果更加准确和适用于不同的任务和领域。在面对不断涌现的大型模型时,可以根据实际需求灵活地调整题目难度,从而提高了评估方法的适应性和实用性。
1.一种测评题目动态生成方法,其特征在于,包括:
2.如权利要求1所述的测评题目动态生成方法,其特征在于,还包括:
3.如权利要求2所述的测评题目动态生成方法,其特征在于,
4.如权利要求1所述的测评题目动态生成方法,其特征在于,所述基于目标模型针对所述多个第一测试题目的回复信息确定所述多个第一测试题目的难度,包括:
5.如权利要求4所述的测评题目动态生成方法,其特征在于,计算所述多个第一测试题的第一回复信息与所述多个第一测试题对应的第二回复信息确定所述目标模型回复的正确性的公式为:
6.如权利要求1所述的测评题目动态生成方法,其特征在于,所述若多个第一测试题目的难度不符合预设难度,则对多个第一测试题目进行调整,包括:
7.如权利要求6所述的测评题目动态生成方法,其特征在于,所述难度调整因子的计算公式为:
8.一种测评题目动态生成系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。