相似度模型的训练方法、设备、存储介质及程序产品与流程

文档序号:37379353发布日期:2024-03-22 10:31阅读:15来源:国知局
相似度模型的训练方法、设备、存储介质及程序产品与流程

本技术涉及计算机应用,尤其涉及相似度模型的训练方法、设备、存储介质及程序产品。


背景技术:

1、随着计算机技术的普及,搜索引擎在日常生活中扮演着查询疑问和检索信息的重要手段。搜索引擎可以通过相似度模型对搜索请求(即问题(query))和该搜索请求的搜索结果(即文档(doc))的相关性进行约束,以提高搜索的体验。传统的相似度模型采用端到端的架构进行设计,具体的,相似度模型在获取到搜索请求和搜索结果之后,对搜索请求和搜索结果进行拼接,得到拼接后的文本信息,然后对拼接后的文本信息进行特征提取,得到拼接后的文本信息的全局特征信息,进而基于该全局特征信息预测搜索请求和搜索结果的相似度。但是传统的相似度模型提取的全局特征信息简单、粗暴,忽略了很多细粒度的知识和表征,导致通过传统的相似度模型预测得到的相似度不够准确。


技术实现思路

1、本技术实施例提供了相似度模型的训练方法、设备、存储介质及程序产品,能够在不影响相似度的预测速度的情况下,有效提升预测得到的相似度的准确性。

2、一方面,本技术实施例提供一种相似度模型的训练方法,该方法包括:

3、获取训练样本;其中,所述训练样本包括搜索请求和搜索结果;

4、调用相似度模型,将所述搜索请求和所述搜索结果进行拼接,得到拼接后的文本信息,并对所述拼接后的文本信息进行特征提取,得到所述拼接后的文本信息的全局特征信息;

5、对所述搜索请求进行特征提取,得到所述搜索请求在至少两个维度下的第一局部特征信息,并对所述搜索结果进行特征提取,得到所述搜索结果在所述至少两个维度下的第二局部特征信息;

6、将所述第一局部特征信息和所述第二局部特征信息进行特征融合,得到融合后的特征信息;

7、按照减小所述全局特征信息和所述融合后的特征信息的差异的方向,对所述相似度模型进行训练,得到训练后的相似度模型;其中,所述训练后的相似度模型用于识别搜索请求和搜索结果的相似度。

8、在一个实施例中,所述方法还包括:

9、将所述搜索请求在各个维度下的第一局部特征信息和所述搜索结果在相应维度下的第二局部特征信息进行拼接,得到在所述各个维度下的拼接特征信息;

10、获取所述至少两个维度中每两个维度下的拼接特征信息之间的距离;

11、所述按照减小所述全局特征信息和所述融合后的特征信息的差异的方向,对所述相似度模型进行训练,得到训练后的相似度模型,包括:

12、按照减小所述全局特征信息和所述融合后的特征信息的差异,以及增大所述每两个维度下的拼接特征信息之间的距离的方向,对所述相似度模型进行训练,得到所述训练后的相似度模型。

13、在一个实施例中,所述方法还包括:

14、基于所述至少两个维度中每两个维度下的拼接特征信息之间的距离,得到在所述至少两个维度下的拼接特征信息的距离总和;

15、所述按照减小所述全局特征信息和所述融合后的特征信息的差异,以及增大所述每两个维度下的拼接特征信息之间的距离的方向,对所述相似度模型进行训练,得到所述训练后的相似度模型,包括:

16、按照减小所述全局特征信息和所述融合后的特征信息的差异,以及增大在所述至少两个维度下的拼接特征信息的距离总和的方向,对所述相似度模型进行训练,得到所述训练后的相似度模型。

17、在一个实施例中,所述训练样本还包括相似度标签,所述相似度标签用于指示所述搜索请求和所述搜索结果的相似度;所述方法还包括:

18、基于所述全局特征信息,对所述搜索请求和所述搜索结果的相似度进行识别,得到识别结果;其中,所述识别结果用于指示所述搜索请求和所述搜索结果的相似度;

19、所述按照减小所述全局特征信息和所述融合后的特征信息的差异的方向,对所述相似度模型进行训练,得到训练后的相似度模型,包括:

20、按照减小所述全局特征信息和所述融合后的特征信息的差异,以及减小所述识别结果和所述相似度标签的差异的方向,对所述相似度模型进行训练,得到所述训练后的相似度模型。

21、在一个实施例中,所述对所述搜索请求进行特征提取,得到所述搜索请求在至少两个维度下的第一局部特征信息,并对所述搜索结果进行特征提取,得到所述搜索结果在所述至少两个维度下的第二局部特征信息,包括:

22、调用局部特征识别组件,对所述搜索请求进行特征提取,得到所述搜索请求在所述局部特征识别组件对应维度下的第一局部特征信息;

23、调用所述局部特征识别组件,对所述搜索结果进行特征提取,得到所述搜索结果在所述局部特征识别组件对应维度下的第二局部特征信息。

24、在一个实施例中,在任一维度下的第一局部特征信息或者第二局部特征信息包括:关键词,实体信息,同义词,或者意图信息。

25、在一个实施例中,所述根据所述任一节点指示的关键词在所述文本信息中的上下文信息,获取所述任一节点的节点情感信息,包括:

26、调用节点情感识别模型,对所述任一节点指示的关键词在所述文本信息中的上下文信息进行特征提取,得到所述上下文信息的词向量;

27、根据所述上下文信息的词向量,对所述任一节点进行情感识别,得到所述任一节点的节点情感信息。

28、另一方面,本技术实施例提供了一种相似度模型的训练装置,该相似度模型的训练装置包括:

29、获取单元,用于获取训练样本;其中,所述训练样本包括搜索请求和搜索结果;

30、模型调用单元,用于调用相似度模型,将所述搜索请求和所述搜索结果进行拼接,得到拼接后的文本信息,并对所述拼接后的文本信息进行特征提取,得到所述拼接后的文本信息的全局特征信息;

31、特征提取单元,用于对所述搜索请求进行特征提取,得到所述搜索请求在至少两个维度下的第一局部特征信息,并对所述搜索结果进行特征提取,得到所述搜索结果在所述至少两个维度下的第二局部特征信息;

32、特征融合单元,用于将所述第一局部特征信息和所述第二局部特征信息进行特征融合,得到融合后的特征信息;

33、模型训练单元,用于按照减小所述全局特征信息和所述融合后的特征信息的差异的方向,对所述相似度模型进行训练,得到训练后的相似度模型;其中,所述训练后的相似度模型用于识别搜索请求和搜索结果的相似度。

34、另一方面,本技术实施例提供一种计算机设备,包括处理器、存储装置和通信接口,处理器、存储装置和通信接口相互连接,其中,存储装置用于存储支持计算机设备执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行如下步骤:

35、获取训练样本;其中,所述训练样本包括搜索请求和搜索结果;

36、调用相似度模型,将所述搜索请求和所述搜索结果进行拼接,得到拼接后的文本信息,并对所述拼接后的文本信息进行特征提取,得到所述拼接后的文本信息的全局特征信息;

37、对所述搜索请求进行特征提取,得到所述搜索请求在至少两个维度下的第一局部特征信息,并对所述搜索结果进行特征提取,得到所述搜索结果在所述至少两个维度下的第二局部特征信息;

38、将所述第一局部特征信息和所述第二局部特征信息进行特征融合,得到融合后的特征信息;

39、按照减小所述全局特征信息和所述融合后的特征信息的差异的方向,对所述相似度模型进行训练,得到训练后的相似度模型;其中,所述训练后的相似度模型用于识别搜索请求和搜索结果的相似度。

40、另一方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述相似度模型的训练方法。

41、另一方面,本技术实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行上述相似度模型的训练方法。

42、本技术实施例中,按照减小全局特征信息和融合后的特征信息的差异的方向,对相似度模型进行训练,可以确保训练后的相似度模型提取到的全局特征信息能够体现在至少两个维度下的局部特征信息,即全局特征信息能够体现不同视角的特征,也就是说,全局特征信息能够体现更多细粒度的特征。因此,基于训练后的相似度模型提取到的全局特征信息,对搜索请求和搜索结果的相似度进行预测,可提高预测得到的相似度的准确性。另外,由于训练目标是让相似度模型提取到的全局特征信息和融合后的局部特征信息接近一致,其中训练后的相似度模型在预测阶段相对传统的相似度模型并没有发生改变,训练后的相似度模型仍然采用端到端的架构,即本技术实施例并未改变相似度模型的架构和参数量,因此本技术实施例不会对预测速度产生影响。那么可以理解为,通过本技术实施例提供的相似度模型的训练方法得到的训练后的相似度模型,能够在不影响相似度的预测速度的情况下,有效提升预测得到的相似度的准确性,也就是说,本技术实施例中训练后的相似度模型的准确度能够得到显著提升。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1