1.一种构建数据库的方法,构建出的数据库用于评测大模型针对目标任务的执行性能,所述目标任务意图将自然语言查询文本转换成sql查询语句;所述方法包括:
2.根据权利要求1所述的方法,其中,获取评测样本集,包括:
3.根据权利要求2所述的方法,其中,从所述通用数据集中筛选出与所述目标任务对应的样本,包括:
4.根据权利要求1所述的方法,其中,通过对所述评测样本集涉及的多个推荐sql查询语句进行语法解析,确定若干表结构的定义信息,以及其中各个表结构下待插入的数据记录的记录信息,包括:
5.根据权利要求4所述的方法,其中,基于所述多个sql抽象语法树,确定所述定义信息和所述记录信息,包括:
6.根据权利要求1所述的方法,其中,所述评测样本集的数量为多个,针对多个评测样本集分别构建有目标数据库。
7.根据权利要求6所述的方法,其中,所述多个评测样本集中包括不同语种的评测样本集,和/或,不同sql复杂度的评测样本集。
8.一种评测大模型的方法,包括:
9.根据权利要求8所述的方法,其中,在得到该评测样本对应的预测sql查询语句之后,所述方法还包括:
10.根据权利要求9所述的方法,其中,所述解析结果对包括对应多个解析项的多对解析值;其中,基于所述各个评测样本对应的解析结果对,统计所述大模型针对所述评测样本集的语法正确率,包括:
11.根据权利要求10所述的方法,其中,所述多个匹配规则中包括针对第一解析项的第一匹配规则,所述第一匹配规则包括等效匹配子规则。
12.根据权利要求11所述的方法,其中,所述第一解析项包括查询字段、关键字或函数名,所述等效匹配子规则包括字母的大小写等效。
13.根据权利要求11所述的方法,其中,所述第一解析项包括查询条件,所述等效匹配子规则包括查询条件中逻辑运算符的不同操作数在不同排列顺序下等效。
14.根据权利要求8所述的方法,其中,所述评测样本集的数量为多个,针对多个评测样本集分别构建有目标数据库,所述评测结果包括所述大模型针对所述多个评测样本集的多个评测子结果。
15.根据权利要求14所述的方法,其中,所述多个评测样本集中包括不同语种的评测样本集,和/或,不同sql复杂度的评测样本集。
16.根据权利要求8或14所述的方法,其中,所述大模型的数量为多个,所述评测结果包括多个大模型各自针对同一评测样本集的评测子结果。
17.根据权利要求8所述的方法,还包括:
18.一种构建数据库的装置,构建出的数据库用于评测大模型针对目标任务的执行性能,所述目标任务意图将自然语言查询文本转换成sql查询语句;所述装置包括:
19.一种评测大模型的装置,包括:
20.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-17中任一项所述的方法。
21.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-17中任一项所述的方法。