用于训练语义特征向量生成模型和语义搜索的方法和装置与流程

文档序号:34864733发布日期:2023-07-23 17:08阅读:33来源:国知局
用于训练语义特征向量生成模型和语义搜索的方法和装置与流程

本说明书实施例通常涉及自然语言处理(natural language processing,nlp),尤其涉及用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。


背景技术:

1、随着人工智能技术的飞速发展,自然语言处理技术逐渐取得越来越广泛的应用。例如在语义搜索领域,为了实现在大量文本中找到与输入的文本语义相近的文本,通常需要借助于各种文本向量化方法,将整个文本转化为语义特征向量的形式,再通过向量之间的相似度计算来确定文本之间的相似度。现有的文本向量化方法中,通常采用诸如优化预训练或微调(fine-tuning)方式以期望提高语义表征的准确性。但由于现有方式主要针对通用文本表征方法,因而在针对特定需求的文本语义模糊匹配场景下的匹配效果不理想。因而尽可能地提高文本的语义特征向量的表征能力,成为进一步提高文本相似度的确定、语义搜索等的效果的有效手段之一。


技术实现思路

1、鉴于上述,本说明书实施例提供了一种用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义搜索方法和装置。利用该方法、装置,可以实现提高文本的语义特征向量的表征能力,进而有助于更准确地确定语义相似度,尤其有助于针对特定需求的文本语义模糊匹配场景的语义搜索方法的召回率的有效提升。

2、根据本说明书的实施例的一个方面,提供一种用于训练语义特征向量生成模型的方法,包括:获取训练样本集,其中,所述训练样本集中包括样本待查询文本和样本参考文本;对所述样本参考文本进行文本提取,得到与所述样本参考文本对应的第一部分文本和第二部分文本;以及执行以下训练步骤:将所述训练样本集中的训练样本以及对应的第一部分文本和第二部分文本提供给当前语义特征向量生成模型,得到分别与所述样本待查询文本、所述样本参考文本、所述第一部分文本和所述第二部分文本对应的语义特征向量;基于所述样本待查询文本分别与所述样本参考文本、所述第一部分文本和所述第二部分文本对应的语义特征向量之间的相似度确定所述样本待查询文本与所述样本参考文本的全局匹配信息和局部匹配信息;根据所述全局匹配信息和所述局部匹配信息确定损失函数的损失值;以及在不满足训练结束条件时根据所述损失值调整所述当前语义特征向量生成模型的参数以及继续执行所述训练步骤。

3、根据本说明书的实施例的另一个方面,提供一种语义相似度确定方法,包括:将待查询文本和参考文本分别提供给语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量,其中,所述参考文本的语义特征向量融合有基于所述参考文本提取的部分文本的信息;以及根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。

4、根据本说明书的实施例的又一个方面,提供一种语义相似度确定方法,包括:对参考文本进行文本提取,得到与所述参考文本对应的第一部分文本和第二部分文本;将待查询文本、所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本分别提供给语义特征向量生成模型,得到所述待查询文本、所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本分别对应的语义特征向量;根据所述待查询文本对应的语义特征向量分别与所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本对应的语义特征向量之间的相似度确定所述待查询文本与所述参考文本的全局匹配信息和局部匹配信息;以及根据所确定的全局匹配信息和局部匹配信息,确定所述待查询文本和所述参考文本之间的语义相似度。

5、根据本说明书的实施例的再一个方面,提供一种语义搜索方法,包括:接收用户提供的查询文本;根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及将所述语义搜索结果提供给所述用户。

6、根据本说明书的实施例的再一个方面,提供一种用于训练语义特征向量生成模型的装置,包括:样本获取单元,被配置为获取训练样本集,其中,所述训练样本集中包括样本待查询文本和样本参考文本;文本提取单元,被配置为对所述样本参考文本进行文本提取,得到与所述样本参考文本对应的第一部分文本和第二部分文本;以及训练单元,被配置为将所述训练样本集中的训练样本以及对应的第一部分文本和第二部分文本提供给当前语义特征向量生成模型,得到分别与所述样本待查询文本、所述样本参考文本、所述第一部分文本和所述第二部分文本对应的语义特征向量;基于所述样本待查询文本分别与所述样本参考文本、所述第一部分文本和所述第二部分文本对应的语义特征向量之间的相似度确定所述样本待查询文本与所述样本参考文本的全局匹配信息和局部匹配信息;根据所述全局匹配信息和所述局部匹配信息确定损失函数的损失值;在不满足训练结束条件时根据所述损失值调整所述当前语义特征向量生成模型的参数以及继续训练步骤。

7、根据本说明书的实施例的再一个方面,提供一种语义相似度确定装置,包括:向量生成单元,被配置为将待查询文本和参考文本分别提供给语义特征向量生成模型,得到所述待查询文本和所述参考文本分别对应的语义特征向量,其中,所述参考文本的语义特征向量融合有基于所述参考文本提取的部分文本的信息;以及相似度确定单元,被配置为根据所述待查询文本和所述参考文本分别对应的语义特征向量,确定所述待查询文本和所述参考文本之间的语义相似度。

8、根据本说明书的实施例的另一方面,提供一种语义相似度确定装置,包括:提取单元,被配置为对参考文本进行文本提取,得到与所述参考文本对应的第一部分文本和第二部分文本;向量化单元,被配置为将待查询文本、所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本分别提供给语义特征向量生成模型,得到所述待查询文本、所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本分别对应的语义特征向量;匹配信息确定单元,被配置为根据所述待查询文本对应的语义特征向量分别与所述参考文本、与所述参考文本对应的第一部分文本和第二部分文本对应的语义特征向量之间的相似度确定所述待查询文本与所述参考文本的全局匹配信息和局部匹配信息;以及语义相似度确定单元,被配置为根据所确定的全局匹配信息和局部匹配信息,确定所述待查询文本和所述参考文本之间的语义相似度。

9、根据本说明书的实施例的另一方面,提供一种语义搜索装置,包括:接收单元,被配置为接收用户提供的查询文本;各相似度确定单元,被配置为根据如前述的语义相似度确定方法,确定所述查询文本和参考文本集中的各个参考文本之间的语义相似度;语义搜索单元,被配置为基于所述查询文本和各个参考文本之间的语义相似度,从所述参考文本集中确定出语义搜索结果;以及结果提供单元,被配置为将所述语义搜索结果提供给所述用户。

10、根据本说明书的实施例的另一方面,提供一种用于训练语义特征向量生成模型的装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的用于训练语义特征向量生成模型的方法。

11、根据本说明书的实施例的另一方面,提供一种语义相似度确定装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的语义相似度确定方法。

12、根据本说明书的实施例的另一方面,提供一种语义相似度确定装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的语义相似度确定方法。

13、根据本说明书的实施例的另一方面,提供一种语义搜索装置,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上所述的语义搜索方法。

14、根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义相似度确定方法、或者语义搜索方法。

15、根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的用于训练语义特征向量生成模型的方法、语义相似度确定方法、语义相似度确定方法、或者语义搜索方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1