构建数据库、评测大模型的方法及装置与流程

文档序号:37158186发布日期:2024-02-26 17:23阅读:来源:国知局

技术特征:

1.一种构建数据库的方法,构建出的数据库用于评测大模型针对目标任务的执行性能,所述目标任务意图将自然语言查询文本转换成sql查询语句;所述方法包括:

2.根据权利要求1所述的方法,其中,获取评测样本集,包括:

3.根据权利要求2所述的方法,其中,从所述通用数据集中筛选出与所述目标任务对应的样本,包括:

4.根据权利要求1所述的方法,其中,通过对所述评测样本集涉及的多个推荐sql查询语句进行语法解析,确定若干表结构的定义信息,以及其中各个表结构下待插入的数据记录的记录信息,包括:

5.根据权利要求4所述的方法,其中,基于所述多个sql抽象语法树,确定所述定义信息和所述记录信息,包括:

6.根据权利要求1所述的方法,其中,所述评测样本集的数量为多个,针对多个评测样本集分别构建有目标数据库。

7.根据权利要求6所述的方法,其中,所述多个评测样本集中包括不同语种的评测样本集,和/或,不同sql复杂度的评测样本集。

8.一种评测大模型的方法,包括:

9.根据权利要求8所述的方法,其中,在得到该评测样本对应的预测sql查询语句之后,所述方法还包括:

10.根据权利要求9所述的方法,其中,所述解析结果对包括对应多个解析项的多对解析值;其中,基于所述各个评测样本对应的解析结果对,统计所述大模型针对所述评测样本集的语法正确率,包括:

11.根据权利要求10所述的方法,其中,所述多个匹配规则中包括针对第一解析项的第一匹配规则,所述第一匹配规则包括等效匹配子规则。

12.根据权利要求11所述的方法,其中,所述第一解析项包括查询字段、关键字或函数名,所述等效匹配子规则包括字母的大小写等效。

13.根据权利要求11所述的方法,其中,所述第一解析项包括查询条件,所述等效匹配子规则包括查询条件中逻辑运算符的不同操作数在不同排列顺序下等效。

14.根据权利要求8所述的方法,其中,所述评测样本集的数量为多个,针对多个评测样本集分别构建有目标数据库,所述评测结果包括所述大模型针对所述多个评测样本集的多个评测子结果。

15.根据权利要求14所述的方法,其中,所述多个评测样本集中包括不同语种的评测样本集,和/或,不同sql复杂度的评测样本集。

16.根据权利要求8或14所述的方法,其中,所述大模型的数量为多个,所述评测结果包括多个大模型各自针对同一评测样本集的评测子结果。

17.根据权利要求8所述的方法,还包括:

18.一种构建数据库的装置,构建出的数据库用于评测大模型针对目标任务的执行性能,所述目标任务意图将自然语言查询文本转换成sql查询语句;所述装置包括:

19.一种评测大模型的装置,包括:

20.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-17中任一项所述的方法。

21.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-17中任一项所述的方法。


技术总结
本说明书实施例披露一种构建数据库、大模型评测的方法及装置。构建出的数据库用于评测大模型针对NL2SQL任务的的执行性能,构建方法包括:获取评测样本集,其中各个评测样本包括自然语言查询文本和对应的推荐SQL查询语句;针对该评测样本集创建目标数据库;通过对评测样本集涉及的多个推荐SQL查询语句进行语法解析,确定若干表结构的定义信息,以及其中各个表结构下待插入数据记录的记录信息;通过执行基于该定义信息生成的SQL建表语句,在目标数据库中创建具有该若干表结构的若干目标表;通过执行基于该记录信息生成的SQL插入语句,在各个目标表中插入对应的数据记录。进一步,基于构建好的数据库计算大模型评测指标,从而实现全自动化的大模型测评。

技术研发人员:郭婷婷,叶青
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2024/2/25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1