自监督学习模型的训练方法、装置、设备及存储介质与流程

文档序号:31935017发布日期:2022-10-26 01:31阅读:57来源:国知局
自监督学习模型的训练方法、装置、设备及存储介质与流程

1.本技术涉及互联网和计算机领域,特别涉及一种自监督学习模型的训练方法、装置、设备及存储介质。


背景技术:

2.目前,在检索时可以通过检索模型对用户所输入的目标信息检索得到对应的检索信息。
3.在相关技术中,在检索模型训练的过程中,从开源数据库中获取多个训练样本,并将多个训练样本分为多个训练样本集合,使得一个训练样本集合中不存在相似的训练样本,进一步地,将一个训练样本集合作为一个batch,将一个batch中的训练样本输入至检索模型,以训练样本本身作为正样本,且batch内不同的训练样本互为负样本,以此对检索模型进行训练。
4.然而,在上述相关技术中,batch内不同的训练样本互为负样本,且一个batch中不存在相似的训练样本,即训练样本的负样本中不存在相似信息,检索模型训练后能够区分相差较大的信息,但无法区分相差较小的信息,如检索模型无法很好地区分“a用户无法登陆社交平台”和“a用户登录社交平台发表观点”这两个信息,导致检索模型的检索效果差。


技术实现要素:

5.本技术实施例提供了一种自监督学习模型的训练方法、装置、设备及存储介质,提高了文本特征提取模型针对语义相差较小的文本信息的区分能力,进而提高了文本特征提取模型的检索能力。所述技术方案如下。
6.根据本技术实施例的一个方面,提供了一种自监督学习模型的训练方法,所述方法包括以下步骤:
7.获取样本集合,所述样本集合包括至少两个文本样本;
8.对于所述样本集合中的目标文本样本,对所述目标文本样本以及所述样本集合中除所述目标文本样本之外的其它文本样本进行拼接处理,生成所述目标文本样本对应的第一负样本;
9.采用所述目标文本样本对应的第一负样本,对文本特征提取模型进行自监督训练;其中,所述文本特征提取模型用于基于输入文本得到所述输入文本的特征信息,以匹配与所述输入文本语义相近的检索文本。
10.根据本技术实施例的一个方面,提供了一种自监督学习模型的训练装置,所述装置包括以下模块:
11.集合获取模块,用于获取样本集合,所述样本集合包括至少两个文本样本;
12.样本生成模块,用于对于所述样本集合中的目标文本样本,对所述目标文本样本以及所述样本集合中除所述目标文本样本之外的其它文本样本进行拼接处理,生成所述目标文本样本对应的第一负样本;
13.模型训练模块,用于采用所述目标文本样本对应的第一负样本,对文本特征提取模型进行自监督训练;其中,所述文本特征提取模型用于基于输入文本得到所述输入文本的特征信息,以匹配与所述输入文本语义相近的检索文本。
14.根据本技术实施例的一个方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现上述自监督学习模型的训练方法。
15.根据本技术实施例的一个方面,本技术实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现上述自监督学习模型的训练方法。
16.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述自监督学习模型的训练方法。
17.本技术实施例提供的技术方案可以带来如下有益效果:
18.通过将文本样本和样本集合中除文本样本之外的其它文本样本进行拼接处理,得到文本样本对应的第一负样本,使得第一负样本中包括文本样本的全部或部分信息,减少第一负样本与文本样本之间的语义差距,后续基于第一负样本对文本特征提取模型进行自监督训练,提高了文本特征提取模型针对语义相差较小的文本信息的区分能力,使得后续基于文本特征提取模型所确定的输入信息的检索信息更加准确,进而提高了文本特征提取模型的检索能力。
附图说明
19.图1是本技术一个实施例提供的自监督学习模型的训练方式的示意图;
20.图2示例性示出了一种文本特征提取系统的示意图;
21.图3是本技术一个实施例提供的自监督学习模型的训练方法的流程图;
22.图4示例性示出了一种文本特征提取模型的训练和使用流程的示意图;
23.图5是本技术一个实施例提供的自监督学习模型的训练装置的框图;
24.图6是本技术另一个实施例提供的自监督学习模型的训练装置的框图;
25.图7是本技术一个实施例提供的计算机设备的结构框图。
具体实施方式
26.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
27.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
28.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
29.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
30.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
31.本技术实施例提供的方案涉及人工智能的机器学习等技术,通过文本样本的拼接插入生成文本样本对应的第一负样本,进而采用该第一负样本对文本特征提取模型进行训练。其中,上述第一负样本也可以称为难负样本。示例性地,如图1所示,对于样本集合中的某个文本样本,基于该文本样本生成该文本样本对应的正样本,并将样本集合中除该文本样本之外的其它文本样本拼接插入至文本样本,以生成该文本样本对应的难负样本;进一步地,对于文本特征提取模型,随机掩盖文本特征提取模型中各层网络的神经元,得到不同的三个掩码模型,且不同掩码模型多掩盖的模型参数不同;之后,将上述文本样本输入至第一掩码模型,以得到样本特征信息,将上述正样本输入至第二掩码模型,以得到正样本特征信息,将上述难负样本输入至第三掩码模型,以得到难负样本特征信息,进而基于样本特征信息、正样本特征信息和难负样本特征信息对文本特征提取模型进行自监督训练。
32.请参考图2,其示出了本技术一个实施例提供的文本特征提取系统的示意图。该文本特征提取系统可以包括终端设备10和服务器20。
33.终端设备10可以为诸如手机、平板电脑、pc(personal computer,个人计算机)、智能语音交互设备、智能家电、车载终端、飞行器等电子设备,本技术实施例对此不作限定。
34.服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
35.上述终端设备10以及上述服务器20可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
36.在一些实施例中,上述服务器20中包括文本特征提取模型,上述终端设备10中包括任意具有检索功能的应用程序。如图2所示,终端设备10基于应用程序的用户界面获取用户所输入的输入文本,并将该输入文本发送至服务器20;对应地,服务器20将该输入文本输入至文本特征提取模型,得到该输入文本对应的特征信息,并基于该特征信息为输入文本
匹配语义相近的检索文本,并将与输入文本语义相近的检索文本发送至终端设备10,使得终端设备10在用户界面中向用户显示该检索文本。
37.需要说明的一点是,上述文本特征提取模型可以是在服务器20中训练得到,也可以是在其它计算机设备中训练得到。如图2所示,文本特征提取系统中包括自监督学习模型的训练系统,该自监督学习模型的训练系统中包括至少一个模型训练设备30,通过该模型训练设备30对文本特征提取模型进行训练,并向服务器20提供训练好的文本特征提取模型。在一些实施例中,上述服务器20同时为自监督学习模型的训练系统中的模型训练设备30。
38.请参考图3,其示出了本技术一个实施例提供的自监督学习模型的训练方法的流程图。该方法中个步骤可以由上述图2中的服务器20/模型训练设备30(以下统称为“计算机设备”)执行。该方法可以包括以下几个步骤(301~303)中的至少一个步骤:
39.步骤301,获取样本集合。
40.样本集合是指文本特征提取模型的训练样本的集合,该样本集合至少两个文本样本。在本技术实施例中,在文本特征提取模型训练之前,计算机设备获取样本集合。
41.在一些实施例中,上述样本集合可以是预先存储的信息,也可以是实时获取的信息。在一种可能的实施方式中,样本集合为预先存储的信息。在一些实施例中,计算机设备在确定对文本特征提取模型训练之后,基于样本集合的存储位置,从对应的存储位置获取样本集合。其中,上述存储位置可以位于计算机设备本身,也可以位于除计算机设备之外的其它设备,本技术实施例对此不作限定。在另一种可能的实施方式中,样本集合为实时获取的信息。在一些实施例中,计算机设备在确定对文本特征提取模型训练之后,从网络环境中实时收集获取样本集合。其中,计算机设备可以依赖自身设备收集获取样本集合,也可以依赖除计算机设备之外的其它设备收集获取样本集合,本技术实施例对此不作限定。
42.在一些实施例中,为了提高文本特征提取模型的训练效果,上述样本集合中不包括语义相近的文本样本。示例性地,在获取多个文本样本之后,对文本样本进行语义聚类,进而根据聚类结果将语义相近的文本样本分类至不同的样本集合中,使得同一样本集合中不包括语义相近的文本样本。
43.步骤302,对于样本集合中的目标文本样本,对目标文本样本以及样本集合中除目标文本样本之外的其它文本样本进行拼接处理,生成目标文本样本对应的第一负样本。
44.在本技术实施例中,计算机设备在获取上述样本集合之后,对文本样本以及样本集合中除该文本样本之外的其它文本样本进行拼接处理,以生成该文本样本对应的第一负样本。以目标文本样本为例,对于样本集合中的目标文本样本,对目标文本样本以及样本集合中除目标文本样本之外的其它文本样本进行拼接处理,生成目标文本样本对应的第一负样本。
45.上述目标文本样本是指样本集合中的任意一个文本样本,上述第一负样本是指难负样本。目标文本样本对应第一负样本中包括该目标文本样本语义的关键文本信息,即第一负样本的关键文本信息中包括目标文本样本的关键文本信息。
46.在一些实施例中,第一负样本中可以包括目标文本样本中的全部关键文本信息,或者,第一负样本中也可以包括目标文本样本中的部分关键文本信息,本技术实施例对此不作限定。示例性地,目标文本样本的关键文本信息包括关键文本信息a和关键文本信息b,
第一负样本的关键文本信息包括关键文本信息a、关键文本信息b和关键文本信息c;或者,目标文本样本的关键文本信息包括关键文本信息a和关键文本信息b,第一负样本的关键文本信息包括关键文本信息a和关键文本信息c。
47.在一种可能的实施方式中,第一负样本中包括目标文本样本的全部关键文本信息,即在上述拼接处理时,将目标文本样本的全部关键文本信息拼接插入至上述其它文本样本。在一些实施例中,对于目标文本样本,计算机设备在目标文本样本中拼接插入上述其它文本样本,以保证目标文本样本的全部关键文本信息均拼接插入至该其它文本样本,示例性地,目标文本样本为“用户a针对第一事件发表看法”,其它文本样本为“用户b回应第二事件”,则第一负样本为“用户a针对第一事件用户b回应第二事件发表看法”;或者,计算机设备从目标文本样本中获取该目标文本样本的至少一个关键文本信息,进而将该目标文本样本的全部关键文本信息均拼接插入至上述其它文本样本中。
48.在另一种可能的实施方式中,第一负样本中包括目标文本样本的部分关键文本信息,即在上述拼接处理时,将目标文本样本的部分关键文本信息拼接插入至上述其它文本样本。在一些实施例中,对于目标文本样本,计算机设备从目标文本样本中获取该目标文本样本的至少一个关键文本信息,进而从该至少一个关键文本信息中选择目标关键文本信息拼接插入至少上述其它文本样本中。其中,上述目标关键文本信息可以是从上述至少一个关键文本信息中的任意一个关键文本信息,示例性地,从该至少一个关键文本信息中随机选择一个或多个关键文本信息作为上述目标关键文本信息;或者,上述目标关键文本信息也可以是上述至少一个关键文本信息中与其它文本样本语义相近关键文本信息,示例性地,从上述至少一个关键文本信息中选择与其它文本样本之间的语义距离小于距离阈值的一个或多个关键文本信息作为上述目标关键文本信息。其中,上述距离阈值可以是任意数据,根据实际情况对该距离阈值进行灵活设置和调整,本技术实施例对此不作限定。示例性地,该距离阈值可以是预先设定的阈值;或者,也可以是在获取关键文本信息与其它文本样本之间的语义距离之后根据最小的一个或多个语义距离确定的阈值。
49.在一些实施例中,计算机设备通过分词处理获取上述关键文本信息。以目标文本样本为例,计算机设备在获取该目标文本样本之后,对该目标文本样本进行分词处理,得到至少一个分词,进而根据各个分词的词性,将动词和/或名词作为目标文本样本的关键文本信息。其中,上述名词是指位于动词后且与动词相邻的名词。
50.需要说明的一点是,上述其它文本样本的数量可以是任意数值,根据实际情况可以对该数值进行灵活设置和调整,本技术实施例对此不作限定。
51.步骤303,采用目标文本样本对应的第一负样本,对文本特征提取模型进行自监督训练。
52.文本特征提取模型用于基于输入文本得到输入文本的特征信息,以匹配与输入文本语义相近的检索文本。在本技术实施例中,计算机设备在获取第一负样本之后,采用目标文本样本对应的第一负样本,对文本特征提取模型进行自监督训练。
53.在一些实施例中,上述目标文本样本对应有正样本,计算机设备在对文本特征提取模型进行训练时,采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第一负样本进行自监督训练。在一种可能的实施方式中,目标文本样本对应的正样本即为目标文本样本本身。在另一种可能的方式中,通过关键文本信息替换生成目标文本样
本对应的正样本;示例性地,计算机设备在获取上述目标文本样本之后,从该目标文本样本中获取至少一个关键文本信息,进而对全部或部分关键文本信息进行近义词替换,以生成目标文本样本对应的正样本。
54.在一些实施例中,上述目标文本样本还对应有第二负样本。其中,该第二负样本是指易负样本,在上述样本集合中,不同的文本样本之间互为第二负样本。在一种可能的实施方式中,在文本特征提取模型的训练过程中,采用目标文本样本、目标文本样本对应的正样本、目标文本样本对应的第一负样本,以及目标文本对应的第二负样本对该文本特征提取模型进行自监督训练。在另一种可能的实施方式中,在文本特征提取模型的训练过程中,先采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第二负样本,对初始文本特征提取模型进行自监督训练,得到上述文本特征提取模型,进一步地,采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第一负样本继续对文本特征提取模型进行自监督训练,以实现模型优化。
55.综上所述,本技术实施例提供的技术方案中,通过将文本样本和样本集合中除文本样本之外的其它文本样本进行拼接处理,得到文本样本对应的第一负样本,使得第一负样本中包括文本样本的全部或部分信息,减少第一负样本与文本样本之间的语义差距,后续基于第一负样本对文本特征提取模型进行自监督训练,提高了文本特征提取模型针对语义相差较小的文本信息的区分能力,使得后续基于文本特征提取模型所确定的输入信息的检索信息更加准确,进而提高了文本特征提取模型的检索能力。
56.另外,本技术提供了一种第一负样本的自动生成方案,对于样本集合中的文本样本,对文本样本与其它文本样本进行拼接处理即可保证第一负样本中包括文本样本的全部或部分信息,与相关技术中人工标注第一负样本相比,或者与相关技术中从样本数据库中挑选语义距离较小的样本作为第一负样本相比,基于样本集合自身所包含的信息即可生成第一负样本,提高了第一负样本的生成效率,且操作简便,减少了人力资源消耗。
57.下面,对上述第一负样本的生成方式进行介绍。
58.在示例性实施例中,上述步骤302包括以下至少一项:
59.1、从样本集合中除目标文本样本之外的其它文本样本中,确定目标文本样本对应的干扰文本样本。
60.干扰文本样本是指对目标文本样本的语义进行干扰的文本样本。在本技术实施例中,计算机设备在获取上述目标文本样本值周,从样本集合中除目标文本样本之外的其它文本样本中,确定目标文本样本对应的干扰样本。
61.在一种可能的实施方式中,上述干扰文本样本是指样本集合中任意一个其它文本样本。在一些实施例中,计算机设备从样本集合中的其它文本样本中随机选择一个其它文本样本作为上述干扰文本样本。
62.在另一种可能的实施方式中,上述干扰文本样本是指样本集合中与目标文本样本之间的语义距离满足第一条件的其它文本样本。在一些实施例中,计算机设备分别获取各个其它文本样本与上述目标文本样本之间的语义距离;进一步地,将语义距离小于第一阈值的其它文本样本,确定为目标文本样本对应的干扰文本样本。在这种情况下,选择语义距离小的其它文本样本作为干扰文本样本,提高了干扰文本样本与目标文本样本之间的相似度,减少第一负样本与文本样本之间的语义差距,使得后续基于第一负样本对文本特征提
取模型进行自监督训练后,能够提高文本特征提取模型针对语义相差较小的文本信息的区分能力。其中,该第一阈值可以是任意数值,根据实际情况可以对该第一阈值进行灵活设置和调整,本技术实施例对此不作限定。示例性地,该第一阈值可以是预先设置的阈值;或者,也可以是在获取其它文本样本与目标文本样本之间的语义距离之后,根据最小的一个或多个语义距离确定的阈值。
63.在一些实施例中,在获取其它文本样本与目标文本样本之间的语义距离时,计算机设备基于上述文本特征提取模型获取其它文本样本与目标文本样本之间的语义距离。其中,该文本特征提取模型是根据目标文本样本对应的第一负样本训练得到的,该第一负样本是指样本集合中除目标文本样本之外的其它文本样本,且样本集合中不同的文本样本之间互为第二负样本。示例性地,计算机设备将样本集合中的各个文本样本分别输入至文本特征提取模型,得到各个文本样本分别对应的特征信息;进一步地,根据各个文本样本分别对应的特征信息,分别获取各个其它文本样本与目标文本样本之间的语义距离。当然,在其它可能的实施方式中,计算机设备也可以采用其它方式获取上述语义距离。示例性地,计算机设备基于其它文本样本与目标文本样本之间的相似字符串长度确定上述语义距离;或者,计算机设备基于其它文本样本与目标文本样本之间的语料相似度确定上述语义距离;或者,计算机设备基于其它文本样本与目标文本样本之间的知识相似度确定上述语义距离;等等。
64.2、在目标文本样本中拼接插入干扰文本样本生成目标文本样本对应的第一负样本。
65.在本技术实施例中,计算机设备在获取上述干扰文本样本之后,在目标文本样本中拼接插入干扰文本样本生成目标文本样本对应的第一负样本。
66.在一些实施例中,计算机设备将干扰文本样本的全部文本拼接插入至上述目标文本样本。其中,干扰文本样本针对目标文本样本的插入位置可以是随机的,也可以是某个特定位置,本技术实施例对此不作限定。
67.在一种可能的实施方式中,干扰文本样本针对目标文本样本的插入位置是随机的。在一些实施例中,计算机设备从目标文本样本中随机确定干扰文本样本的插入位置,进而在该插入位置处拼接插入干扰文本样本。
68.在另一种可能的实施方式中,干扰文本样本针对目标文本样本的插入位置是某个特定的位置。在一些实施例中,计算机设备对目标文本样本进行分割处理,得到至少一个文本片段,并分别获取各个文本片段与干扰文本样本之间的语义距离;进一步地,根据语义距离小于第二阈值的文本片段在目标文本样本中的位置,在目标文本样本中拼接插入干扰文本样本生成目标文本样本对应的第一负样本。在这种情况下,将干扰文本样本拼接插入在语义距离小的文本片段之前或之后,减少了第一负样本与文本样本之间的语义差距,使得后续基于第一负样本对文本特征提取模型进行自监督训练时,能够提高文本特征提取模型针对语义相差较小的文本信息的区分能力。
69.示例性地,对于上述分割处理,文本片段的数量为n,且n为正整数;计算机设备将目标文本样本分割为至少一个文本子片段,且不同文本子片段中不包括重复文本;进一步地,基于各个文本子片段在目标文本样本中的排列顺序,将前i个文本子片段依次拼接生成第i个文本片段,且i为小于或等于n的正整数。
70.示例性地,对于上述文本片段与干扰文本样本之间的语义距离,计算机设备可以根据上述文本特征提取模型获取文本片段与干扰文本样本之间的语义距离,也可以根据相似字符串长度、语料相似度、知识相似度等获取文本片段与干扰文本样本之间的语义距离,本技术实施例对此不作限定。
71.示例性地,上述第二阈值可以是任意数值,根据实际情况可以对该第二阈值进行灵活设置和调整,本技术实施例对此不作限定。例如,该第二阈值可以是预先设置的阈值;或者,也可以是在获取文本片段与干扰文本样本之间的语义距离之后,根据最小语义距离确定的阈值。
72.示例性地,对于上述拼接插入,干扰文本样本可以拼接插入在上述语义距离小于第二阈值的文本片段之前,也可以拼接插入在上述语义距离小于第二阈值的文本片段之后,本技术实施例对此不作限定。需要说明的一点是,在第一负样本中,干扰文本样本与上述语义距离小于第二阈值的文本片段相邻。
73.当然,在其它可能的实施方式中,也可以由工作人员预先设定上述插入位置,进而后续直接根据该插入位置进行拼接插入。示例性地,该插入位置可以为:目标文本样本最前方、目标文本样本最后方、目标文本样本最中间、目标文本样本的第2个字符后等,本技术实施例对此不作限定。
74.在一些实施例中,计算机设备将干扰文本样本的关键文本信息拼接插入至上述目标文本样本。示例性地,计算机设备从干扰文本样本中获取干扰文本样本的关键文本信息;进一步地,在目标文本样本中拼接插入关键文本信息,生成目标文本样本对应的第一负样本。在这种情况下,将干扰文本样本的关键文本信息拼接插入在目标文本样本中,避免第一负样本包含的信息过多而造成的训练负担,提高了文本特征提取模型的训练效率。
75.其中,干扰文本样本的关键文本信息针对目标文本样本的插入位置可以是随机的,也可以是某个特定位置,本技术实施例对此不作限定。
76.在一种可能的实施方式中,干扰文本样本的关键文本信息针对目标文本样本的插入位置是随机的。在一些实施例中,计算机设备从目标文本样本中随机确定干扰文本样本的关键文本信息的插入位置,进而在该插入位置处拼接插入干扰文本样本的关键文本信息。
77.在另一种可能的实施方式中,干扰文本样本的关键文本信息针对目标文本样本的插入位置是某个特定的位置。在一些实施例中,计算机设备对目标文本样本进行分割处理,得到至少一个文本片段,并分别获取各个文本片段与干扰文本样本的关键文本信息之间的语义距离;进一步地,根据语义距离小于第三阈值的文本片段在目标文本样本中的位置,在目标文本样本中拼接插入干扰文本样本的关键文本信息,以生成目标文本样本对应的第一负样本。
78.示例性地,对于上述分割处理,具体参见上文,在此不作赘述。
79.示例性地,对于上述文本片段与干扰文本样本的关键文本信息之间的语义距离,计算机设备可以根据上述文本特征提取模型获取文本片段与干扰文本样本的关键文本信息之间的语义距离,也可以根据相似字符串长度、语料相似度、知识相似度等获取文本片段与干扰文本样本的关键文本信息之间的语义距离,本技术实施例对此不作限定。
80.示例性地,上述第三阈值可以是任意数值,根据实际情况可以对该第三阈值进行
灵活设置和调整,本技术实施例对此不作限定。例如,该第三阈值可以是预先设置的阈值;或者,也可以是在获取文本片段与干扰文本样本的关键文本信息之间的语义距离之后,根据最小语义距离确定的阈值。
81.示例性地,对于上述拼接插入,干扰文本样本的关键文本信息可以拼接插入在上述语义距离小于第三阈值的文本片段之前,也可以拼接插入在上述语义距离小于第三阈值的文本片段之后,本技术实施例对此不作限定。需要说明的一点是,在第一负样本中,干扰文本样本的关键文本信息与上述语义距离小于第三阈值的文本片段相邻。
82.当然,在其它可能的实施方式中,也可以由工作人员预先设定上述插入位置,进而后续直接根据该插入位置进行拼接插入。
83.需要说明的一点是,上述干扰文本样本的关键文本信息可以是干扰文本样本的全部关键文本信息,也可以是干扰文本样本的部分关键文本信息,本技术实施例对此不作限定。另外,干扰文本样本的关键文本信息的获取方式,与图3实施例中的目标文本样本的关键文本信息的获取方式类似,具体参见图3实施例,在此不作赘述。
84.综上所述,本技术实施例提供的技术方案中,通过在文本样本中拼接插入干扰文本样本生成第一负样本,提供了一种第一负样本的自动生成方式,操作简便,减少人力资源消耗,并提高了第一负样本的生成效率。
85.下面,对上述文本特征提取模型的训练方式进行介绍。
86.在示例性实施例中,上述步骤303包括以下至少一项:
87.1、基于文本特征提取模型,生成第一掩码模型、第二掩码模型和第三掩码模型。
88.在本技术实施例中,在对文本特征提取模型训练之前,计算机设备基于文本特征提取模型,生成第一掩码模型、第二掩码模型和第三掩码模型。其中,掩码模型是指掩盖原始模型中各层网络的部分模型参数后得到模型,由于掩码参数的随机性,不同的掩码模型对应不同的模型参数。
89.在一些实施例中,计算机设备随机掩盖文本特征提取模型中各层网络的模型参数,得到第一掩码模型、第二掩码模型和第三掩码模型。其中,不同掩码模型所掩盖的模型参数不同,因此,不同的掩码模型对应不同的模型参数。
90.在一种可能的实施方式中,通过丢弃神经元的方式实现模型参数的掩盖。示例性地,文本特征提取模型中包括多层网络,且每层网络中包括多个神经元,对于多层网络中的目标网络,随机丢弃该目标网络中的一个或多个神经元,以实现这对该目标网络的参数掩盖。需要说明的一点是,不同网络中所丢弃的神经元的数量可以相同,也可以不同,本技术实施例对此不作限定。
91.2、将目标文本样本、目标文本样本对应的正样本和目标文本样本对应的第一负样本分别输入至不同的掩码模型。
92.在本技术实施例中,计算机设备在获取上述第一掩码模型、第二掩码模型和第三掩码模型之后,将第一掩码模型作为针对目标文本样本的掩码模型,进而将目标文本样本输入至该第一掩码模型,得到样本特征信息;以及,将第二掩码模型作为针对正样本的掩码模型,将目标文本样本对应的正样本输入至该第二掩码模型,得到正样本特征信息;以及,将第三掩码模型作为针对第一负样本的掩码模型,将目标文本样本对应的第一负样本输入至该第三掩码模型,得到第一负样本特征信息。
93.3、根据样本特征信息、正样本特征信息和第一负样本特征信息,确定目标文本样本对应的第一语义距离和第二语义距离。
94.在本技术实施例中,计算机设备在获取上述样本特征信息、正样本特征信息和第一负样本特征信息之后,根据样本特征信息和正样本特征信息,确定目标文本样本对应的第一语义距离和;以及,根据样本特征信息和第一负样本特征信息,确定目标文本样本对应的第二语义距离。
95.4、基于各个文本样本分别对应的第一语义距离和第二语义距离,对文本特征提取模型进行自监督训练。
96.在本技术实施例中,计算机设备在获取上述第一语义距离和第二语义距离之后,基于各个文本样本分别对应的第一语义距离和第二语义距离,对文本特征提取模型进行自监督训练。需要说明的一点是,针对文本特征提取模型的自监督训练属于多次迭代训练。示例性地,在某个迭代训练结束后,在文本特征提取模型未训练完成的情况下,重新从上述基于文本特征提取模型,生成第一掩码模型、第二掩码模型和第三掩码模型的步骤开始执行,直至文本特征提取模型训练完成。
97.在一些实施例中,上述目标文本样本还对应有第二负样本。其中,该第二负样本是指易负样本。
98.在一种可能的实施方式中,在文本特征提取模型的训练过程中,采用目标文本样本、目标文本样本对应的正样本、目标文本样本对应的第一负样本,以及目标文本对应的第二负样本对该文本特征提取模型进行自监督训练。在一些实施例中,计算机设备基于上述文本特征提取模型,生成第四掩码模型,并将目标文本样本对应的第二负样本输入至第四掩码模型,得到第二样本特征信息;进一步地,根据样本特征信息和第二负样本特征信息,确定目标文本样本对应的第三语义距离,并基于各个文本样本分别对应的第一语义距离、第二语义距离和第三语义距离,对文本特征提取模型进行自监督训练。需要说明的一点是,在某个迭代训练结束后,在文本特征提取模型未训练完成的情况下,重新获取新的四个掩码模型重复执行上述步骤,直至文本特征提取模型训练完成。
99.在另一种可能的实施方式中,在文本特征提取模型的训练过程中,先采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第二负样本,对初始文本特征提取模型进行自监督训练,得到上述文本特征提取模型,进一步地,采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第一负样本继续对文本特征提取模型进行自监督训练。在一些实施例中,计算机设备将样本集合中除目标文本样本之外的其它文本样本,确定为目标文本样本对应的第二负样本;进一步地,采用目标文本样本对应的第二负样本,对初始文本特征提取模型进行自监督训练,得到上述文本特征提取模型;之后,再采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第一负样本继续对文本特征提取模型进行自监督训练。需要说明的一点是,在对初始文本特征提取模型进行自监督训练,可以如上述类似采用掩码模型进行训练,也可以直接对初始文本特征提取模型进行训练,本技术实施例对此不作限定。
100.综上所述,本技术实施例提供的技术方案中,通过掩盖模型参数生成不同的掩码模型,进一步对,将文本样本、正样本和负样本分别输入至不同的掩码模型,在每次迭代训练时对模型的隐形构造进行了更改,能够有效预防文本特征提取模型出现过拟合问题,并
且,在每一次训练迭代中能够生成多样性的正样本和多样性的第一负样本,提高了文本特征提取模型的训练效果。
101.另外,在本技术实施例中,上述文本特征提取模型也可以称为检索模型。下面,如图4所示,以检索模型为例,对模型的训练和使用进行完整介绍。具体步骤如下:
102.在模型训练过程中:
103.步骤401,获取样本集合,该样本集合中包括至少两个文本样本。
104.步骤402,对于样本集合中的目标文本样本,在目标文本样本中拼接插入样本集合中除目标文本样本之外的其它文本样本,生成目标文本样本对应的第一负样本。
105.步骤403,基于目标文本样本生成目标文本样本对应的正样本。
106.步骤404,采用目标文本样本、目标文本样本对应的正样本,以及目标文本样本对应的第一负样本,对检索模型进行训练。
107.在模型训练完成后的离线过程中:
108.步骤405,从检索文本数据库中获取多个检索文本,该检索文本的数量可以是任意数据,本技术实施例对此不作限定。
109.步骤406,将各个检索文本分别输入至检索模型中,得到各个检索文本分别对应的特征信息。
110.在模型训练完成后的在线过程中:
111.步骤407,获取用户帐号所输入的输入文本。在一些实施例中,计算机设备通过客户端获取该输入文本。
112.步骤408,将输入文本输入至检索模型中,得到输入文本对应的特征信息。
113.步骤409,根据输入文本对应的特征信息,以及各个检索文本分别对应的特征信息,分别获取各个检索文本与输入文本之间的语义距离。
114.步骤410,将语义距离小于目标值的检索文本,确定为输入文本对应的检索文本。其中,目标值可以是任意数据,根据实际情况可以对该目标值进行灵活设置和调整,本技术实施例对此不作限定。
115.在一些实施例中,若上述输入文本是通过客户端获取的,则计算机设备可以将输入文本对应的检索文本发送至客户端,使得客户端能够向用户展示对应的检索文本,或向用户展示与该检索文本相关的信息。其中,与检索文本相关的信息可以为以检索文本为标题的文本,或者,以检索文本为关键文本信息的文本,等等,本技术实施例对此不作限定。
116.下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
117.请参考图5,其示出了本技术一个实施例提供的自监督学习模型的训练装置的框图。该装置具有实现上述自监督学习模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置500可以包括:集合获取模块510、样本生成模块520和模型训练模块530。
118.集合获取模块510,用于获取样本集合,所述样本集合包括至少两个文本样本。
119.样本生成模块520,用于对于所述样本集合中的目标文本样本,对所述目标文本样本以及所述样本集合中除所述目标文本样本之外的其它文本样本进行拼接处理,生成所述目标文本样本对应的第一负样本。
120.模型训练模块530,用于采用所述目标文本样本对应的第一负样本,对文本特征提取模型进行自监督训练;其中,所述文本特征提取模型用于基于输入文本得到所述输入文本的特征信息,以匹配与所述输入文本语义相近的检索文本。
121.在示例性实施例中,如图6所示,所述样本生成模块520,包括:样本确定单元521和样本生成单元522。
122.样本确定单元521,用于从所述样本集合中除所述目标文本样本之外的其它文本样本中,确定所述目标文本样本对应的干扰文本样本。
123.样本生成单元522,用于在所述目标文本样本中拼接插入所述干扰文本样本生成所述目标文本样本对应的第一负样本。
124.在示例性实施例中,所述样本确定模块521,还用于:
125.分别获取各个所述其它文本样本与所述目标文本样本之间的语义距离;
126.将语义距离小于第一阈值的其它文本样本,确定为所述目标文本样本对应的干扰文本样本。
127.在示例性实施例中,所述样本生成单元522,还用于:
128.对所述目标文本样本进行分割处理,得到至少一个文本片段;
129.分别获取各个所述文本片段与所述干扰文本样本之间的语义距离;
130.根据语义距离小于第二阈值的文本片段在所述目标文本样本中的位置,在所述目标文本样本中拼接插入所述干扰文本样本生成所述目标文本样本对应的第一负样本。
131.在示例性实施例中,所述样本生成单元522,还用于:
132.从所述干扰文本样本中获取所述干扰文本样本的关键文本信息;
133.在所述目标文本样本中拼接插入所述关键文本信息,生成所述目标文本样本对应的第一负样本。
134.在示例性实施例中,如图6所示,所述模型训练模块530,包括:模型掩码单元531、特征提取单元532、距离确定单元533和模型训练单元534。
135.模型掩码单元531,用于基于所述文本特征提取模型,生成第一掩码模型、第二掩码模型和第三掩码模型;其中,不同的掩码模型对应不同的模型参数。
136.特征提取单元532,用于将所述目标文本样本输入至所述第一掩码模型,得到样本特征信息;将所述目标文本样本对应的正样本输入至所述第二掩码模型,得到正样本特征信息;将所述目标文本样本对应的第一负样本输入至所述第三掩码模型,得到第一负样本特征信息。
137.距离确定单元533,用于根据所述样本特征信息和所述正样本特征信息,确定所述目标文本样本对应的第一语义距离;根据所述样本特征信息和所述第一负样本特征信息,确定所述目标文本样本对应的第二语义距离。
138.模型训练单元534,用于基于各个所述文本样本分别对应的第一语义距离和第二语义距离,对所述文本特征提取模型进行自监督训练。
139.在示例性实施例中,所述模型掩码单元531,还用于随机掩盖所述文本特征提取模型中各层网络的模型参数,得到所述第一掩码模型、所述第二掩码模型和所述第三掩码模型;其中,不同掩码模型所掩盖的模型参数不同。
140.综上所述,本技术实施例提供的技术方案中,通过将文本样本和样本集合中除文
本样本之外的其它文本样本进行拼接处理,得到文本样本对应的第一负样本,使得第一负样本中包括文本样本的全部或部分信息,减少第一负样本与文本样本之间的语义差距,后续基于第一负样本对文本特征提取模型进行自监督训练,提高了文本特征提取模型针对语义相差较小的文本信息的区分能力,使得后续基于文本特征提取模型所确定的输入信息的检索信息更加准确,进而提高了文本特征提取模型的检索能力。
141.需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
142.请参考图7,其示出了本技术一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述自监督学习模型的训练方法的功能。具体来讲:
143.计算机设备700包括中央处理单元(central processing unit,cpu)701、包括随机存取存储器(random access memory,ram)702和只读存储器(read only memory,rom)703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(input/output,i/o系统)706,和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。
144.基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。
145.大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,大容量存储设备707可以包括诸如硬盘或者cd-rom(compact disc read-only memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
146.不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read only memory,可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、闪存或其他固态存储设备,cd-rom、dvd(digital video disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。
147.根据本技术的各种实施例,计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在系统总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或
远程计算机系统(未示出)。
148.所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述自监督学习模型的训练方法。
149.在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述自监督学习模型的训练方法。
150.可选地,该计算机可读存储介质可以包括:rom(read only memory,只读存储器)、ram(random access memory,随机存取记忆体)、ssd(solid state drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括reram(resistance random access memory,电阻式随机存取记忆体)和dram(dynamic random access memory,动态随机存取存储器)。
151.在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述自监督学习模型的训练方法。
152.应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本技术实施例对此不作限定。
153.以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1