本发明涉及金融科技领域,具体而言,涉及一种数据表的检索方法、装置、存储介质及电子设备。
背景技术:
1、传统的sql(stuctured query language,结构化查询语言,用于访问和处理数据库的标准计算机语言)翻译技术,通常都是基于在已知的数据表上进行。算法系统需要依据用户的自然对话,判断用户需要查询的数据表。
2、相关技术中,判断用户需要查询的数据表通常是基于分类模型计算的,但是分类模型需要依赖大量的标注数据,同时当用户需要新增数据表时,需要对分类模型进行重新训练,才可以对用户需要查询的数据表进行查询,这一过程周期较长,因此分类模型的算法无法在业务场景有效落地。
3、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本发明实施例提供了一种数据表的检索方法、装置、存储介质及电子设备,以至少解决相关技术中依据需要大量训练样本训练得到的分类模型查询用户需要查询的数据表,灵活性差的技术问题。
2、根据本发明实施例的一个方面,提供了一种数据表的检索方法,包括:响应目标对象的数据查询请求,将所述数据查询请求的查询语料转化为文本向量;在目标检索库中检索所述文本向量,得到n个第一向量,其中,所述n为大于1的整数;基于所述文本向量与每个所述第一向量的相似度,确定查询结果,其中,所述查询结果至少包括:所述数据查询请求查询的数据表的数据表标识。
3、进一步地,基于所述文本向量与每个所述第一向量的相似度,确定查询结果,包括:计算所述文本向量与每个所述第一向量的相似度,得到n个向量相似度;判断每个所述向量相似度是否大于预设相似度阈值,并将所述向量相似度大于所述预设相似度阈值的所述第一向量作为第二向量;通过倒排索引查询所述第二向量关联的数据表标识;基于所述第二向量关联的数据表标识,确定所述查询结果。
4、进一步地,所述倒排索引中至少包括:目标语料与所述数据表标识的关联关系,通过倒排索引查询所述第二向量关联的数据表标识,包括:确定所述第二向量关联的目标语料;通过所述倒排索引查询所述目标语料对应的数据表标识,得到所述第二向量关联的数据表标识。
5、进一步地,在基于所述第二向量关联的数据表标识,确定所述查询结果之后,还包括:将所述第二向量关联的数据表标识和所述查询语料插入所述倒排索引;将所述文本向量插入所述目标检索库。
6、进一步地,计算所述文本向量与每个所述第一向量的相似度,得到n个向量相似度,包括:计算所述文本向量与每个所述第一向量的余弦距离;基于所述文本向量与每个所述第一向量的余弦距离,确定n个所述向量相似度。
7、进一步地,在基于所述文本向量与每个所述第一向量的相似度,确定查询结果之前,还包括:获取历史语料与每个数据表标识的对应关系,其中,所述历史语料至少包括:金融服务行业的相关语料;将所述历史语料作为哈希表的键,并将所述历史语料对应的数据表标识作为所述哈希表的值,建立所述倒排索引。
8、进一步地,基于所述第二向量关联的数据表标识,确定所述查询结果,还包括:判断所述第二向量关联的数据表标识的数量是否大于预设值;在所述第二向量关联的数据表标识的数量大于预设值的情况下,对所述第二向量关联的数据表标识进行去重处理,并对进行去重处理后得到的数据表标识进行筛选,得到所述查询结果。
9、进一步地,将所述数据查询请求的查询语料转化为文本向量,包括:将所述数据查询请求的查询语料输入文本向量化模型,输出所述文本向量。
10、根据本发明实施例的另一方面,还提供了一种数据表的检索装置,包括:转换单元,用于响应目标对象的数据查询请求,将所述数据查询请求的查询语料转化为文本向量;检索单元,用于在目标检索库中检索所述文本向量,得到n个第一向量,其中,所述n为大于1的整数;确定单元,用于基于所述文本向量与每个所述第一向量的相似度,确定查询结果,其中,所述查询结果至少包括:所述数据查询请求查询的数据表的数据表标识。
11、进一步地,确定单元包括:计算子单元,用于计算所述文本向量与每个所述第一向量的相似度,得到n个向量相似度;处理子单元,用于判断每个所述向量相似度是否大于预设相似度阈值,并将所述向量相似度大于所述预设相似度阈值的所述第一向量作为第二向量;查询子单元,用于通过倒排索引查询所述第二向量关联的数据表标识;确定子单元,用于基于所述第二向量关联的数据表标识,确定所述查询结果。
12、进一步地,所述倒排索引中至少包括:目标语料与所述数据表标识的关联关系,查询子单元包括:确定模块,用于确定所述第二向量关联的目标语料;查询模块,用于通过所述倒排索引查询所述目标语料对应的数据表标识,得到所述第二向量关联的数据表标识。
13、进一步地,确定单元还包括:第一插入子单元,用于在基于所述第二向量关联的数据表标识,确定所述查询结果之后,将所述第二向量关联的数据表标识和所述查询语料插入所述倒排索引;第二插入子单元,用于将所述文本向量插入所述目标检索库。
14、进一步地,计算子单元包括:计算模块,用于计算所述文本向量与每个所述第一向量的余弦距离;确定模块,用于基于所述文本向量与每个所述第一向量的余弦距离,确定n个所述向量相似度。
15、进一步地,数据表的检索装置还包括:获取单元,用于在基于所述文本向量与每个所述第一向量的相似度,确定查询结果之前,获取历史语料与每个数据表标识的对应关系,其中,所述历史语料至少包括:金融服务行业的相关语料;建立单元,用于将所述历史语料作为哈希表的键,并将所述历史语料对应的数据表标识作为作为所述哈希表的值,建立所述倒排索引。
16、进一步地,确定子单元还包括:判断模块,用于判断所述第二向量关联的数据表标识的数量是否大于预设值;处理模块,用于在所述第二向量关联的数据表标识的数量大于预设值的情况下,对所述第二向量关联的数据表标识进行去重处理,并对进行去重处理后得到的数据表标识进行筛选,得到所述查询结果。
17、进一步地,转换单元包括:输入输出子单元,用于将所述数据查询请求的查询语料输入文本向量化模型,输出所述文本向量。
18、根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的数据表的检索方法。
19、根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据表的检索方法。
20、在本发明中,响应目标对象的数据查询请求,将数据查询请求的查询语料转化为文本向量;在目标检索库中检索文本向量,得到n个第一向量,其中,n为大于1的整数;基于文本向量与每个第一向量的相似度,确定查询结果,其中,查询结果至少包括:数据查询请求查询的数据表的数据表标识。进而解决了相关技术中依据需要大量训练样本训练得到的分类模型查询用户需要查询的数据表,灵活性差的技术问题。在本发明中,通过将查询语料转化为文本向量,并基于目标检索库进行检索,确定出目标对象查询的数据表,避免了通过分类模型查询用户需要查询的数据表的方式,在进行数据表更新后需要重新训练模型,灵活性差的情况,从而实现了提高查询数据表的灵活性技术效果。