一种语义相关性检索模型的确定方法及装置与流程

文档序号:30700778发布日期:2022-07-09 19:41阅读:75来源:国知局
一种语义相关性检索模型的确定方法及装置与流程

1.本技术涉及数据处理领域,特别是涉及一种语义相关性检索模型的确定方法及装置。


背景技术:

2.语义检索,是指搜索引擎基于用户输入的检索词捕捉用户意图,以此进行检索,从而为用户返回最符合其需求的检索结果。
3.语义检索方法,在信息检索、搜索引擎中有着重要的地位,在检索结果召回与精准排序等环节发挥着重要作用。相关技术中,语义检索方法是基于检索词与检索结果的字面匹配度为用户返回检索结果的,如此导致返回的检索结果可能不符合用户的检索预期,尤其当检索词本身比较泛化的情况下,基于字面匹配返回的检索结果并不理想。
4.由此可见,优化语义检索方法具有重要的意义。


技术实现要素:

5.为了解决上述技术问题,本技术提供了一种语义相关性检索模型的确定方法及装置,提升语言模型对检索词和检索结果的语义相关性的理解,由此提高返回的检索结果与检索词之间整体匹配度。
6.本技术实施例公开了如下技术方案:
7.一方面,本技术实施例提供了一种语义相关性检索模型的确定方法,所述方法包括:
8.构建由目标检索词和检索结果组成的预训练语料;
9.通过对所述预训练语料进行整词遮盖处理,获得预训练样本;
10.根据所述训练样本对初始语言模型进行预训练,基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模型进行参数调整;
11.调整完成预训练的所述初始语言模型得到语义相关性的初始检索模型;
12.获取包括样本标签的训练样本;所述训练样本的样本标签用于标识所述训练样本中的检索词和检索结果的相关性;
13.根据所述训练样本对所述初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的目标检索模型。
14.另一方面,本技术实施例提供了一种语义相关性检索模型的确定装置,所述装置包括构建单元、处理单元、预训练单元、调整单元、获取单元和训练单元:
15.所述构建单元,用于构建由目标检索词和检索结果组成的预训练语料;
16.所述处理单元,用于通过对所述预训练语料进行整词遮盖处理,获得预训练样本;
17.所述预训练单元,用于根据所述训练样本对初始语言模型进行预训练,基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模
型进行参数调整;
18.所述调整单元,用于调整完成预训练的所述初始语言模型得到语义相关性的初始检索模型;
19.所述获取单元,用于获取包括样本标签的训练样本;所述训练样本的样本标签用于标识所述训练样本中的检索词和检索结果的相关性;
20.所述训练单元,用于根据所述训练样本对所述初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的目标检索模型。
21.由上述技术方案可以看出,通过对包括目标检索词和检索结果的预训练语料进行整词遮盖处理获得预训练样本,根据预训练样本对初始语言模型进行预训练,并对完成预训练的所述初始语言模型进行调整得到语义相关性的初始检索模型;通过包括样本标签的训练样本对初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对初始检索模型进行参数调整,获得语义相关性的目标检索模型。对初始语言模型的预训练中,能够基于上下文语义信息预测被遮盖处理的部分,由此学习目标检索词和检索结果二者之间的语义相关性知识;调整完成预训练的初始语言模型获得语义相关性的初始检索模型,然后通过训练样本对初始检索模型进行进一步地训练,使其学习检索词和检索结果二者之间的语义相关性知识。相较于现有技术中基于检索词与检索结果的字面匹配度返回检索结果的检索方式,能够基于二者之间的语义相关性进行检索结果的返回,由此提高返回检索结果与检索词之间整体匹配度。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本技术实施例提供的一种语义相关性检索模型的确定方法的方法流程图;
24.图2为本技术实施例提供的一种语义相关性检索模型的确定方法的框架示意图;
25.图3为本技术实施例提供的一种语义相关性检索模型的确定装置的装置结构图。
具体实施方式
26.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.图1为本技术实施例提供的一种语义相关性检索模型的确定方法的方法流程图,所述方法包括:
28.s101:构建由目标检索词和检索结果组成的预训练语料。
29.s102:通过对所述预训练语料进行整词遮盖处理,获得预训练样本。
30.构建由目标检索词和检索结果组成的预训练预料,进一步地,对构建好的预训练
预料进行整词遮盖处理,获得预训练样本。
31.在一种可能的实现方式中,利用query以及对应的doc的标题、上传者、导演、演员、内容标签、类型标签等信息生成预训练预料,相应地,将预训练预料中能够表示语料为query或为doc的特征词进行整词遮盖(整词mask)处理,获得预训练样本。
32.s103:根据所述预训练样本对初始语言模型进行预训练,基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模型进行参数调整。
33.根据预训练样本对初始语言模型进行预训练,由于预训练样本是通过对预训练语料进行整词遮盖处理获得的,因此,在预训练阶段,基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模型进行参数调整。
34.在一种可能的实现方式中,对输入的基于query以及对应的doc的标题、上传者、导演、演员、内容标签、类型标签等信息生成的预训练样本进行字特征提取,进行对初始语言模型的预训练。初始语言模型通过学习字向量的上下文信息,由此学习query和doc之间的语义相关性知识,提升初始语言模型对文本的语义相关性理解的作用。
35.在一种可能的实现方式中,所述初始语言模型可以为包含12层transformer的bert-wwm模型。
36.s104:调整完成预训练的所述初始语言模型得到语义相关性的初始检索模型。
37.针对完成预训练后的初始语言模型进行调整,得到语义相关性的初始检索模型。
38.初始语言模型完成预训练得到初始检索模型后,为了更进一步学习检索词和检索结果之间的相关性,需要对初始检索模型进行进一步地相关性训练,以便能够输出针对目标检索词和检索结果相关性的分类结果,因此在一种了能的实现方式中,可以调整完成预训练后的初始语言模型得到增加有分类层的语义相关性的初始检索模型。
39.可以理解的是,在一种可能的实现方式中,还可以对完成预训练后的初始语言模型进行模型剪枝的等模型压缩的调整。
40.s105:获取包括样本标签的训练样本。
41.s106:根据所述训练样本对所述初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的目标检索模型。
42.获取包括样本标签的训练样本;所述训练样本的样本标签用于标识所述训练样本中的检索词和检索结果的相关性。
43.在根据训练样本对初始检索模型进行训练的阶段,根据对训练样本的训练结果和其所对应的样本标签之间的差异对初始检索模型进行参数调整,获得语义相关性的目标检索模型。初始检索模型能够基于包括样本标签的训练样本的训练,进一步学习检索词和检索结果的相关性知识,获得语义相关性的目标检索模型。
44.在一种可能的实现方式中,所述训练样本包括第一训练样本和第二训练样本,则s106包括以下步骤:
45.s1061:根据所述第一训练样本对所述初始检索模型进行训练,根据对所述第一训练样本的检测结果和所述第一训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的第一目标检索模型;
46.s1062:根据所述第二训练样本对所述第一目标检索模型进行训练,根据对所述第二训练样本的检测结果和所述第二训练样本的样本标签之间的差异对所述第一目标检索模型进行参数调整,获得语义相关性的第二目标检索模型;
47.s1063:将所述第二目标检索模型作为所述语义相关性的目标检索模型。
48.在一种可能的实现方式中,所述第一训练样本为标注样本和后验样本中的一类样本,所述第二训练样本为所述标注样本和所述后验样本中除了所述第一训练样本的另一类样本;其中,所述标注样本为包括标注了样本标签的数据,所述标注样本的样本标签用于标识所述标注样本中的检索词和检索结果的相关性;所述后验样本由包括样本标签的正例样本和负例样本组成,所述正例样本的样本标签用于标识所述正例样本中的检索结果与目标检索词相关,所述负例样本的样本标签用于标识所述负例样本中的检索结果与所述目标检索词不相关。
49.需要说明的是,将标注样本和后验样本中的哪一类样本确定为第一训练样本,作为对初始检索模型进行训练的先行训练样本,即,本技术中对根据标注样本和后验样本对初始检索模型的训练顺序不做限定。
50.可以理解的是,当标注样本为人为标注的样本时,考虑到人为标注的主观性差异以及人工标注的成本较高,将标注样本作为第一训练样本,将数据量大的后验样本作为第二训练样本。
51.在一种可能的实现方式中,所述标注样本、所述正例和所述负例均采用三元组格式,表示样本中的检索词、检索结果以及样本标签。
52.在一种可能的实现方式中,所述后验样本通过如下方式构建:
53.s11:获取所述目标检索词的检索结果;
54.s12:基于所述检索结果中点击率大于预设阈值的检索结果构建所述正例样本;
55.s13:基于所述检索结果中点击率小于或等于所述预设阈值的检索结果构建所述负例样本。
56.在一种可能的实现方式中,s13包括以下步骤:
57.s131:确定与所述目标检索词相似度大于预设相似度的待定检索词;
58.s141:根据所述待定检索词的检索结果构建所述负例样本。
59.在一种可能的实现方式中,所述标注样本可以为人工标注的样本,所述后验样本可以为主要来自于用户的后验点击数据,具体地,正例样本可以为后验高点击且字面匹配较低过滤的样本,负例样本可以为随机采样、相似标签采样、后验低点击率、字面匹配较差的样本。比如:负例样本可以来自相似query下的点击样本进行负采样、相似doc标签范围内的负采样等。可以理解的是,负例样本的构建可以有多种采样方式,在本技术中对其构建方式不做任何限定。
60.在一种可能的实现方式中,根据所述后验样本进行模型训练时,可以同时并采用课程学习方式,进行样本由易到难的模型训练。
61.在一种可能的实现方式中,还可以引入视频及语音模态向量,进行多流学习。
62.在一种可能的实现方式中,对经过上述方法训练后得到的语义相关性的目标检索模型进行优化处理,具体地,基于模型压缩对所述目标检索模型进行加速优化处理,实现线上推理应用,以达到高效的上线推理效果。这一步主要对模型进行蒸馏,在保证一定精度的
提前下,对模型层数、网络宽度、head个数等参数进行缩减,达到耗时降低的目的。对模型进行模型量化、模型剪枝、算法融合等加速方式,提前模型的推理效果。最后一步,进行上线的推理部署。
63.在一种可能的实现方式中,上述优化阶段可以为采用12层到单层的蒸馏、相关性统计特征蒸馏、精度量化、tensorrt及tvm等包括算子重写及融合在内的编译优化,最终保证一定精度情况下达到理想的线上推理性能,并采用gpu推理上线。整体来看,利用大规模参数模型达到上线要求的情况下,可以达到提升相关性检索的语义和泛化性能。
64.由此可见,通过对包括目标检索词和检索结果的预训练语料进行整词遮盖处理获得预训练样本,根据预训练样本对初始语言模型进行预训练,并对完成预训练的所述初始语言模型进行调整得到语义相关性的初始检索模型;通过包括样本标签的训练样本对初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对初始检索模型进行参数调整,获得语义相关性的目标检索模型。对初始语言模型的预训练中,能够基于上下文语义信息预测被遮盖处理的部分,由此学习目标检索词和检索结果二者之间的语义相关性知识;调整完成预训练的初始语言模型获得语义相关性的初始检索模型,然后通过训练样本对初始检索模型进行进一步地训练,使其学习检索词和检索结果二者之间的语义相关性知识。相较于现有技术中基于检索词与检索结果的字面匹配度返回检索结果的检索方式,能够基于二者之间的语义相关性进行检索结果的返回,由此提高返回检索结果与检索词之间整体匹配度。
65.图2示出了本技术实施例提供的一种语义相关性检索模型的确定方法的框架示意图,可以执行上述实施例所提供的语义相关性检索模型的确定方法,具体包括两部分,如下:
66.第一部分为包括三个阶段的训练部分,第一阶段为预训练阶段、第二阶段为标注样本训练阶段、第三阶段为后验样本训练阶段;第二部分包括模型蒸馏、加速优化以及在线推理。
67.基于此,通过对初始语言模型进行预训练以及标注样本和后验样本的训练,获得语义相关性的目标检索模型,进而基于模型蒸馏、加速优化等处理提高目标检索模型的线上推理性能,以便后续进行线上推理,能够基于二者之间的语义相关性进行检索结果的返回,由此提高返回检索结果与检索词之间整体匹配度。
68.图3为本技术实施例提供的一种语义相关性检索模型的确定装置的装置结构图,所述装置包括构建单元301、处理单元302、预训练单元303、调整单元304、获取单元305和训练单元306:
69.所述构建单元301,用于构建由目标检索词和检索结果组成的预训练语料;
70.所述处理单元302,用于通过对所述预训练语料进行整词遮盖处理,获得预训练样本;
71.所述预训练单元303,用于根据所述预训练样本对初始语言模型进行预训练,基于对所述预训练样本中被遮盖部分的预测结果与所述被遮盖部分之间的差异对所述初始语言模型进行参数调整;
72.所述调整单元304,用于调整完成预训练的所述初始语言模型得到语义相关性的初始检索模型,所述初始检索模型增加有分类层;
73.所述获取单元305,用于获取包括样本标签的训练样本;所述训练样本的样本标签用于标识所述训练样本中的检索词和检索结果的相关性;
74.所述训练单元306,用于根据所述训练样本对所述初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的目标检索模型。
75.在一种可能的实现方式中,所述训练单元还用于:
76.根据所述第一训练样本对所述初始检索模型进行训练,根据对所述第一训练样本的检测结果和所述第一训练样本的样本标签之间的差异对所述初始检索模型进行参数调整,获得语义相关性的第一目标检索模型;
77.根据所述第二训练样本对所述第一目标检索模型进行训练,根据对所述第二训练样本的检测结果和所述第二训练样本的样本标签之间的差异对所述第一目标检索模型进行参数调整,获得语义相关性的第二目标检索模型;
78.将所述第二目标检索模型作为所述语义相关性的目标检索模型。
79.在一种可能的实现方式中,所述获取单元还用于获取所述目标检索词的检索结果;
80.所述构建单元还用于基于所述检索结果中点击率大于预设阈值的检索结果构建所述正例样本;
81.所述构建单元还用于基于所述检索结果中点击率小于或等于所述预设阈值的检索结果构建所述负例样本。
82.在一种可能的实现方式中,所述装置还包括确定单元,所述确定单元用于确定与所述目标检索词相似度大于预设相似度的待定检索词;
83.所述构建单元根据所述待定检索词的检索结果构建所述负例样本。
84.在一种可能的实现方式中,所述装置还包括模型压缩单元,所述模型压缩单元用于基于模型压缩对所述目标检索模型进行加速优化处理。
85.在一种可能的实现方式中,所述模型压缩单元还用于基于模型蒸馏、模型量化或模型剪枝对所述目标模型进行加速优化处理。
86.由此可见,通过对包括目标检索词和检索结果的预训练语料进行整词遮盖处理获得预训练样本,根据预训练样本对初始语言模型进行预训练,并对完成预训练的所述初始语言模型进行调整得到语义相关性的初始检索模型;通过包括样本标签的训练样本对初始检索模型进行训练,根据对所述训练样本的训练结果和所述训练样本的样本标签之间的差异对初始检索模型进行参数调整,获得语义相关性的目标检索模型。对初始语言模型的预训练中,能够基于上下文语义信息预测被遮盖处理的部分,由此学习目标检索词和检索结果二者之间的语义相关性知识;调整完成预训练的初始语言模型获得语义相关性的初始检索模型,然后通过训练样本对初始检索模型进行进一步地训练,使其学习检索词和检索结果二者之间的语义相关性知识。相较于现有技术中基于检索词与检索结果的字面匹配度返回检索结果的检索方式,能够基于二者之间的语义相关性进行检索结果的返回,由此提高返回检索结果与检索词之间整体匹配度。
87.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件
说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
88.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
89.以上对本技术实施例所提供的一种语义相关性检索模型的确定方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法。同时,对于本领域的一般技术人员,依据本技术的方法,在具体实施方式及应用范围上均会有改变之处。
90.综上所述,本说明书内容不应理解为对本技术的限制,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。而且本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1