分类模型训练方法及装置、目标文本确定方法及装置与流程

文档序号:26009057发布日期:2021-07-23 21:28阅读:106来源:国知局
分类模型训练方法及装置、目标文本确定方法及装置与流程

本申请涉及人工智能领域,特别涉及一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质。



背景技术:

在信息检索技术领域,常见的文本召回方法主要包括文本匹配召回、标签召回和语义召回,其中,文本匹配召回是根据用户的问题语句(query)中的关键词到语料库中,基于关键词的词频-逆文本频率指数(termfrequency-inversedocumentfrequency,tf-idf)统计分析方法匹配最相关的文本(doc);标签召回是根据语料库中的文本的标签来匹配最相关的召回文本;语义召回是通过语义相似度计算与问题语句最相关的文本,而常见的语义匹配召回主要为基于表示的语义匹配,通过将用户的问题语句和文本分别表示成语义向量,然后对问题语句的语义向量和文本的语义向量进行语义相似度计算来进行匹配召回。

然而,通过此种语义匹配召回方式学习出来的语义向量有局限性,问题语句和召回文本之间没有交互,也没有考虑上下文的信息,导致匹配的精度不高。因此,如何提高问题语句和召回文本之间的匹配精度,就成了亟待解决的问题。



技术实现要素:

有鉴于此,本申请实施例提供了一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面,提供了一种分类模型训练,包括:

获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;

基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;

基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。

根据本申请实施例的第二方面,提供了一种目标文本确定方法,包括:

获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;

将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型上述分类模型训练方法获得;

基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。

根据本申请实施例的第三方面,提供了一种分类模型训练装置,包括:

训练数据获取模块,被配置为获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;

训练样本构建模块,被配置为基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;

模型训练模块,被配置为基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。

根据本申请实施例的第四方面,提供了一种目标文本确定装置,包括:

问题获取模块,被配置为获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;

概率获得模块,被配置为将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;

文本确定模块,被配置为基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。

根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。

根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。

本申请提供的所述目标文本确定方法,包括获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。具体的,所述目标文本确定方法提出了一种两阶段文本检索策略,首先将目标问题输入搜索数据库,通过搜索数据库获取该目标问题对应的多个初始文本,实现第一阶段的文本粗召回,然后将第一阶段召回的初始文本,通过预先训练的分类模型进行进一步的筛选,从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。

此外,在通过分类模型对第一阶段召回的初始文本进行筛选时,将目标问题与每个初始文本进行拼接输入分类模型中,分类模型会计算拼接后的文本中每一个位置上面的词向量与该文本上其他词向量之间的相似度,相当于将拼接后的文本中的词向量两两交互计算,通过参考每个词向量周围的所有位置上的词向量的特征,从而实现结合拼接后的文本的上下文语境信息,提升目标问题与初始文本的匹配精度,可以更加准确的获得目标问题对应的目标文本。

附图说明

图1是本申请实施例提供的计算设备的结构框图;

图2是本申请实施例提供的一种语义匹配模型的训练方法的流程图;

图3是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图;

图4是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图;

图5是本申请实施例提供的一种语义匹配模型的训练方法的另一流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。

首先,对本发明一个或多个实施例涉及的名词术语进行解释。

embedding::即嵌入式表达,词嵌入是计算机处理文本必不可少的一个环节,即将输入的自然语言符号通过一个数值矩阵映射到固定长度的向量,从而将复杂的文本问题转化为数学问题。

transformer模型:一种基于注意力模型来解决序列问题的神经网络模型,该模型主要分为编码器(encoder)和解码器(decoder)两部分,编码器和解码器的基本结构相似,都是由多头自注意力层和全连接层组成。transformer模型和传统解决序列问题的循环神经网络模型相比,其可以捕获更长距离的文本信息。

bert模型:bert,即bidirectionalencoderrepresentationfromtransformers,是指双向transformer模型的编码器部分,是一种自编码语言模型,模型用掩码语言模型和下一句子预测两个预训练任务分别捕捉词语和句子级别的表示。

albert模型:一种轻量级的bert模型,其目的是为了解决目前预训练模型参数量过大的问题,albert模型相对于bert模型主要做了三点改进:(1)因式分解嵌入矩阵;(2)跨层参数共享,即多个层使用相同的参数;(3)用句子顺序额预测(sentence-orderprediction,sop)来取代下一句子预测(nsp),具体来说,其正训练样本与nsp相同,但负训练样本是通过选择一篇文档中的两个连续的句子并将它们的顺序交换构造的。

召回:是指在搜索、推荐等领域,根据用户的搜索问题、用户行为等,返回相关的或用户感兴趣的)内容。常见的召回方法有文本匹配召回、标签召回、语义召回等

语义匹配召回:是指通过对用户的问题语句和文本语料进行词嵌入编码,并通过向量相似度计算方法,计算问题语句的语义向量和文本语料的语义向量的语义相似度,来实现语义匹配召回。

elasticsearch:一种非关系型数据库。是一个接近实时的搜索平台,从索引这个文档到这个文档能够被搜索到只有一个轻微的延迟。该非关系型数据库可拓展、高可用,它的目的就是为了能快速的查询用户想要的数据。

在本申请中,提供了一种分类模型训练方法及装置、一种目标文本确定方法及装置、一种计算设备及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。

计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。

在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例提供的分类模型训练方法的流程图,具体包括以下步骤。

步骤202:获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案。

实际应用中,为了保证分类模型的训练效果,训练数据集合中会包括多个样本问题和每个样本问题对应的样本答案,其中,每个样本问题和对应的样本答案组成一个query(样本问题)-answer(样本答案)对,那么训练数据集合中包括多个query-answer对。

其中,样本问题可以是任意长度、任意类型的样本问题,每个样本问题对应的样本答案可以理解为,每个样本问题对应的标准答案;例如样本问题为:“2012年到2016年期间我国经济增速放缓是为什么?”;该样本问题对应的样本答案为:“因为支撑中国经济过去高速增长的需求结构和供给条件已经改变,2012年到2016年期间我国经济增速放缓实际是发展阶段变化的结果,而不是所谓周期性的短期变化”。

步骤204:基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本。

其中,搜索数据库可以为elasticsearch数据库,也可以为其他具有搜索功能的文本数据库,本申请对此不做任何限定。

具体的,在获取训练数据集合中的样本问题和每个样本问题对应的样本答案之后,将每个样本问题输入到elasticsearch数据库中,通过elasticsearch数据库检索到每个样本问题对应的、预设数量的样本文本;其中,预设数量可以根据实际的分类模型训练需要设置,例如设置为100个、200个等等。

实际应用中,elasticsearch数据库在基于样本问题进行样本文本搜索时,可以基于样本问题中的关键词实现的样本文本搜索,即elasticsearch数据库抽取样本问题中的关键词,通过这些关键词搜索与这些关键词对应的100个初始样本文本,比如抽取的样本问题的几个关键词同时出现在一个初始样本文本的情况下,则可以确定该初始样本文本被检索的概率就会高,在这100个初始样本文本中的排序也就会靠前,即基于样本问题通过elasticsearch数据库检索出的100个初始样本文本均会与该样本问题存在关联性,以实现后续可以基于检索出的初始样本文本和样本问题构建较为准确的正训练样本。

本申请实施例中的分类模型为有监督训练,训练样本包括正训练样本和负训练样本,那么所述基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本,包括:

将所述样本问题输入搜索数据库,获得所述样本问题对应的初始样本文本;

将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度大于等于预设相似度阈值的初始样本文本作为第一样本文本;

基于所述样本问题和所述第一样本文本,构建所述样本问题对应的正训练样本;

基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本,构建所述样本问题对应的负训练样本。

具体实施时,首先分别将每个样本问题输入搜索数据库中,通过搜索数据库检索到每个样本问题对应的、预设数量的初始样本文本。然后将每个样本问题对应的样本答案与其样本问题对应的初始样本文本进行匹配,将匹配相似度大于等于预设相似度阈值的初始样本文本作为第一样本文本。最后基于每个样本问题和其样本问题对应的第一样本文本,构建每个样本问题对应的正训练样本。同时,基于每个样本问题和从搜索数据库中获取的、与其样本问题对应的第一样本文本不同的其他样本问题,构建每个样本问题对应的负训练样本。

其中,预设相似度阈值可以根据实际需要进行设置,例如设置为80%或者90%等。

具体的,将所述样本问题对应的样本答案与所述初始样本文本进行匹配,确定将所述样本问题对应的样本答案与所述初始样本文本的相似度时,其实可以通过计算两个字符串之间的编辑距离来计算样本答案和每个初始样本文本的相似度。

例如:字符串1为:“我现在在北京”和字符串2为:“我在北京”,字符串1多了一个“现”字,这两个字符串之间的编辑距离就是1。

计算两个字符串之间的编辑距离就是比较两个字符串通过增加、删除或者是替换等一系列的操作之后,经过多少步可以将一个字符串转换成另一字符串,那么经过的步骤就是两个字符串之间的编辑距离,距离越小,相似度就越高。

那么将样本答案和初始样本文本分别看作一个字符串,通过经过多少步可以将初始样本文本转换成样本答案,经过的步数即是样本答案和初始样本文本之间的编辑距离,通过此编辑距离,计算样本答案和初始样本文本之间的相似度。

实际应用中,可以使用fuzzywuzzy(字符串模糊匹配工具)实现将样本问题对应的样本答案和每个初始样本文本进行匹配,实现样本答案和每个初始样本文本相似度计算,也可以使用其他的相似度计算工具实现样本答案和每个初始样本文本相似度计算,在此不做任何限定。

举例说明,若预设数量为100个,预设相似度阈值为80%,以对一个样本问题a对应的训练样本进行构建进行详细说明。

首先,将样本问题a输入elasticsearch数据库,通过elasticsearch数据库检索到每个样本问题对应的100个初始样本文本。

然后将样本问题a对应的标准答案与这100个初始样本文本中的每个初始样本文本进行匹配,计算该样本问题a对应的标准答案与每个初始样本文本的相似度,将相似度大于等于80%的初始文本样本作为第一样本文本。

最后基于样本问题a和每个第一样本文本,构建样本问题a对应的正训练样本。

同时,基于该样本问题a和从elasticsearch数据库中获取的、与第一样本文本不同的其他样本文本(即从elasticsearch数据库中获取的、非第一样本文本的文本),构建样本问题a对应的负训练样本。

本申请实施例中,分类模型的训练依赖于训练样本,实际应用中,训练样本越多分类模型的训练效果越好,但是目前训练样本依赖于人工标注,而人工标注的成本很大,大量的训练样本标注会极大的增加人工成本;那么本申请中,通过人工标注的少量的query-answer对,通过样本问题从搜索数据库中,获取与样本问题关联的多个初始样本问题,基于样本问题和关联的每个初始样本文本实现正训练样本的构建,并且基于样本问题和与关联的初始样本文本不同的其他样本文本实现负训练样本的构建,通过此种方式可以快速的实现效果较好的分类模型的训练样本构建,以提升后续分类模型的训练效果。

具体的,所述基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本,构建所述样本问题对应的负训练样本,包括:

将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度小于预设相似度阈值的初始样本文本作为第二样本文本;

基于所述样本问题从所述搜索数据库中,获取与所述初始样本文本不同的第三样本文本;

从与所述样本问题不同的其他样本问题对应的初始样本文本中确定第四样本文本;

基于所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本,构建所述样本问题对应的负训练样本。

具体实施时,在进行分类模型的负训练样本构建时,存在多种构建方式,可以从将相似度小于预设相似度阈值的初始样本文本和样本问题结合,形成负训练样本;也可以从搜索数据库中检索与当前样本问题对应的样本文本不同的其他样本文本和样本问题结合,形成负训练样本;此外,还可以基于将与当前样本问题不同的任意一个样本问题对应的样本文本和样本问题结合,形成负训练样本。或者是将上述方式进行两两结合或者三个结合形成负训练样本。

沿用上例,将样本问题a对应的标准答案与这100个初始样本文本中的每个初始样本文本进行匹配,计算该样本问题a对应的标准答案与每个初始样本文本的相似度,将相似度小于80%的初始文本样本作为第二样本文本。

同时,基于样本问题a从elasticsearch数据库中,获取与样本问题a对应的100个初始样本文本不同的、预设数量的文本作为第三样本文本;其中,此处的预设数量也可以根据实际需要进行设置,在此不做任何限定。

以及从与样本问题a不同的样本问题b对应的100个初始样本文本中选择预设数量的初始文本样本作为第四样本文本;其中,样本问题b对应的100个初始样本文本也可以是从elasticsearch数据库中获取的初始样本文本,且此处的预设数量也可以根据实际需要进行设置,在此不做任何限定。

那么在获取第二样本文本、第三样本文本、第四样本文本之后,可以将样本问题a分别与每个第二样本文本进行组合,构建该样本问题a对应的负训练样本;还可以将样本问题a分别与每个三样本文本进行组合,构建该样本问题a对应的负训练样本;或者将样本问题a分别与每个第四样本文本进行组合,构建该样本问题a对应的负训练样本;又或者将样本问题a分别与每个第二样本文本、第三样本文本、第四样本文本进行组合,构建该样本问题a对应的负训练样本。具体的,负训练样本的组合方式可以根据实际应用进行设置,在此不做限定。

实际应用中,在进行负训练样本构造时,会考虑到三种情况,一种是与样本问题关联的,但是相似度小于预设相似度阈值的样本文本,结合样本问题实现负训练样本的构建;一种是与样本问题不关联的,但是从搜索数据库中获取的样本文本,结合样本问题实现负训练样本的构建;还有一种是与样本问题必然不相关,但是包含其他样本问题的样本答案的样本文本,结合样本问题实现负训练样本的构建。通过考虑以上三种情况,使得分类模型在训练时可以结合负训练样本的各种情况,实现更加丰富、差异化的学习,极大的提高了分类模型的训练效果。

此外,为了使得分类模型训练时,可以基于样本问题和对应的样本文本之间交互的语义匹配,更好的考虑上下文语境信息;由于不同样本问题下,同一个样本文本的表示是不同的,通过样本问题和其他样本问题对应的样本文本之间形成的训练样本,在分类模型训练时基于样本问题和样本文本之间的交互(即样本问题和对应的样本文本拼接后的文本中所有词向量的两两交互)可以抓住语义焦点,实现后续分类模型对文本的精确召回,在分类模型训练时,会将样本问题和对应的样本文本进行拼接作为训练样本实现对分类模型的训练,具体实现方式如下所述:

所述基于所述样本问题和所述第一样本文本,构建所述样本问题对应的正训练样本,包括:

将所述样本问题和所述第一样本文本进行拼接;

将所述样本问题和所述第一样本文本拼接后的结果作为所述样本问题对应的正训练样本,并为所述正训练样本添加对应的第一标签。

以及所述基于所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本,构建所述样本问题对应的负训练样本,包括:

将所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本进行拼接;

将所述样本问题,和和所述第二样本文本、所述第三样本文本和/或所述第四样本文本拼接后的结果作为所述样本问题对应的负训练样本,并为所述负训练样本添加对应的第二标签。

其中,第一标签可以为表示训练样本为正训练样本的标签,例如1;第二标签可以为表示训练样本为负训练样本的标签,例如0。

实际应用中,在进行正训练样本构建时,将每个样本问题分别与其对应的每个第一样本文本进行拼接,然后将拼接结果作为正训练样本,且为每个正训练样本第一标签:1;以及将每个样本问题与其对应的第二样本文本、第三样本文本和/或第四样本文本进行拼接,然后将拼接结果作为负训练样本,且为每个正训练样本第二标签:0。后续在对分类模型进行训练时,可以基于正训练样本、负训练样本、第一标签和第二标签,实现对分类模型的准确训练。

具体实施时,在进行分类模型训练时,若训练样本较多,会对分类模型的训练过程造成负担,若训练样本较少,会对分类模型的训练精度产生影响,因此在进行训练样本构建之前,从搜索数据库中检索样本问题对应的初始样本文本时,会对初始样本文本的数量进行限制,从而实现对构建的正训练样本和负训练样本的数量的限制。此外,为了进一步的提高构建的正训练样本的准确性,提高分类模型的训练精度,可以在从搜索数据库中检索样本问题对应的样本文本之后,通过样本问题的语义对初次检索到的样本文本进行进一步的筛选,具体实现方式如下所述:

所述将所述样本问题输入搜索数据库,获得所述样本问题对应的初始样本文本,包括:

将所述样本问题输入搜索数据库,获得所述样本问题对应的至少一个待筛选样本文本;

对所述样本问题进行语义分析,基于语义分析结果从所述至少一个待筛选样本文本中筛选所述样本问题对应的初始样本文本。

实际应用中,在将样本问题输入搜索数据库进行样本文本检索时,仅是通过关键词匹配的方式实现对样本问题对应的样本文本的检索,会存在一种情况,就是虽然样本问题的关键词与某个样本文本中的关键词匹配的较多,但是从语义上来看,该样本文本并非包含该样本问题的样本答案的文本。

为了避免此种情况的发生,提高后续构建训练样本的准确性,在获取初始样本文本时,首先,将每个样本问题输入搜索数据库,获得每个样本问题对应的多个待筛选样本文本,然后对每个样本问题进行语义分析,基于每个样本问题的语义分析结果从对应的多个待筛选样本文本中,筛选出该样本问题合适的初始样本问题。

步骤206:基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型,其中,所述分类模型输出通过搜索数据库获取的所述样本问题的样本文本包含所述样本问题对应的样本答案的概率。

具体实施时,所述分类模型包括输入层、编码层和二分类层;

相应地,所述基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型,包括:

将所述训练样本通过所述输入层输入所述分类模型,并通过所述编码层获得所述训练样本的编码向量;

将所述训练样本的编码向量输入所述二分类层,获得所述训练样本的初始概率;

基于所述训练样本的初始概率与所述样本标签计算损失值;

根据所述损失值调整所述分类模型的参数,继续训练所述分类模型,直至达到训练停止条件。

其中,分类模型包括但不限于albert模型,其他可以在模型训练过程中实现样本问题和样本文本交互,基于交互的语义匹配考虑上下文语境信息的二分类模型均可,为了便于理解,本申请以分类模型为albert模型进行解释。

具体的,首先将上述构建的正训练样本和负训练样本通过分类模型的输入层输入分类模型,并通过编码层(如embedding)获得训练样本的编码向量(即隐层向量);然后将训练样本的编码向量输入下游的二分类任务层,在二分类任务层通过预设线性表达式将多维度的编码向量转换成一个二维向量,其中,该二维向量的每一维元素代表了训练样本对应的初始概率。最后,基于训练样本的初始概率与样本标签计算损失值,再根据损失值调整分类模型的网络参数,继续训练分类模型,直至分类模型达到训练停止条件。

本说明书实施例中,首先,可以基于样本问题和搜索数据库实现分类模型的训练样本的快速、准确构建,为后续的分类模型训练节省训练时间;然后基于样本问题和对应的样本文本进行拼接构建的训练样本对分类模型进行训练,使得分类模型在进行训练时,使得样本问题和样本文本进行交互,使得分类模型在后续应用时可以很好的考虑问题和对应文本的上下文语境信息,准确的抓住语义焦点,实现对文本包含问题的答案的概率的准确预测。

其中,处理器120可以执行图3所示方法中的步骤。图3是示出了根据本申请一实施例提供的一种目标文本确定方法的示意性流程图,具体包括以下步骤。

步骤302:获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本。

其中,目标问题包括但不限于任何长度,任何类型的问题。仍以上述为例,目标问题可以为:“2012年到2016年期间我国经济增速放缓是为什么?”。

而搜索数据库可以参见上述实施例,在此不再赘述。

具体的,获取目标问题,并将目标问题输入搜索数据库中,通过搜索数据库获取该目标问题对应的多个初始文本。

具体实施时,所述将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本,包括:

将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个待筛选文本;

对所述目标问题进行语义分析,基于语义分析结果从所述至少一个待筛选文本中筛选所述目标问题对应的至少一个初始文本。

实际应用中,为了减轻分类模型的工作量以及提高从搜索数据库中获得的该目标问题对应的初始文本的准确性,在获取目标问题之后,先将目标问题输入搜索数据库,获得该目标问题对应的多个待筛选文本。然后对该目标问题进行语义分析,基于该目标问题的语义分析结果从上述多个待筛选文本中,筛选出该目标问题较为匹配的初始文本。

步骤304:将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率。

其中,所述分类模型由上述分类模型训练方法获得。

具体的,在获取目标问题和该目标问题对应的多个初始文本之后,分别将该目标文本与对应的每个初始文本输入分类模型,获得每个初始文本包含该目标文本对应的目标答案的概率。

具体实施时,所述将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,包括:

将所述目标问题和所述至少一个初始文本中每个初始文本进行拼接,且将每个拼接后的结果输入分类模型,获得每个初始文本包含所述目标问题对应的目标答案的概率。

以目标问题为:2012年到2016年期间我国经济增速放缓是为什么?;该目标问题对应的初始文本为:因为支撑中国经济过去高速增长的需求结构和供给条件已经改变,2012年到2016年期间我国经济增速放缓实际是发展阶段变化的结果,而不是所谓周期性的短期变化,为例,将目标问题和该目标问题对应的初始文本拼接后的结果为:2012年到2016年期间我国经济增速放缓是为什么?因为支撑中国经济过去高速增长的需求结构和供给条件已经改变,2012年到2016年期间我国经济增速放缓实际是发展阶段变化的结果,而不是所谓周期性的短期变化。

然后将“2012年到2016年期间我国经济增速放缓是为什么?因为支撑中国经济过去高速增长的需求结构和供给条件已经改变,2012年到2016年期间我国经济增速放缓实际是发展阶段变化的结果,而不是所谓周期性的短期变化”输入预先训练的分类模型,获得该目标文本包含该目标问题对应的目标答案的概率,例如概率为0.3。

实际应用中,将目标问题和每个对应的初始文本输入分类模型之后,分类模型会输出每个初始文本中包含该目标问题对应的目标答案的概率,以及每个初始文本中不包含该目标问题对应的目标答案的概率;由于本申请中仅基于正训练样本实现对目标文本进行筛选,因此仅对通过分类模型获得“每个初始文本中包含该目标问题对应的目标答案的概率”进行介绍。

本说明书实施例中,首先通过检索数据库实现对目标问题对应的初始文本的粗召回,再将粗召回的初始文本与目标问题的结合输入分类模型,在分类模型中通过计算初始文本和目标问题之间的语义相似度,从目标问题对应的初始文本中对包含该目标问题的目标答案的文本进一步的筛选,以确定后续获取的目标文本的准确性。

步骤306:基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。

具体实施时,所述基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本,包括:

基于所述概率对所述至少一个初始文本中所有初始文本进行降序排列,从高到低获取降序排列后的预设数量的初始文本,作为包含所述目标问题对应的目标答案的目标文本。

具体的,在获得目标问题对应的每个初始文本的概率后,基于概率将初始文本从高到低进行排序,然后基于预设需求选取预设数量的初始文本作为包含该目标问题对应的目标答案的目标文本。例如选取降序排序后的前10或前15个初始文本作为包含该目标问题对应的目标答案的目标文本等。

本申请实施例提供的所述目标文本确定方法,包括获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。具体的,所述目标文本确定方法提出了一种两阶段文本检索策略,首先将目标问题输入搜索数据库,通过搜索数据库获取该目标问题对应的多个初始文本,实现第一阶段的文本粗召回,然后将第一阶段召回的初始文本,通过预先训练的分类模型进行进一步的筛选,从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。

此外,在通过分类模型对第一阶段召回的初始文本进行筛选时,将目标问题与每个初始文本进行结合输入分类模型中,分类模型会计算目标问题与每个初始文本拼接后的文本的每个词的特征,以及每两个词之间的相互影响,在分类模型中实现目标问题与每个初始文本进行交互,可以很好的考虑上下文语境信息,提升目标问题与初始文本的匹配精度,可以更加准确的获得目标问题对应的目标文本。

与上述方法实施例相对应,本说明书还提供了一种分类模型训练装置的实施例,图4示出了本说明书一个实施例的一种分类模型训练装置的结构示意图。如图4所示,该装置包括:

训练数据获取模块402,被配置为获取训练数据集合,其中,所述训练数据集合包括样本问题以及所述样本问题对应的样本答案;

训练样本构建模块404,被配置为基于所述样本问题和通过搜索数据库获取的所述样本问题的样本文本,构建所述样本问题对应的训练样本;

模型训练模块406,被配置为基于所述训练样本以及所述训练样本对应的样本标签对分类模型进行训练,获得所述分类模型。

可选地,所述训练样本构建模块404,进一步被配置为:

将所述样本问题输入搜索数据库,获得所述样本问题对应的初始样本文本;

将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度大于等于预设相似度阈值的初始样本文本作为第一样本文本;

基于所述样本问题和所述第一样本文本,构建所述样本问题对应的正训练样本;

基于所述样本问题和从所述搜索数据库中获取的、与所述第一样本文本不同的其他样本文本,构建所述样本问题对应的负训练样本。

可选地,所述训练样本构建模块404,进一步被配置为:

将所述样本问题对应的样本答案与所述初始样本文本进行匹配,将匹配相似度小于预设相似度阈值的初始样本文本作为第二样本文本;

基于所述样本问题从所述搜索数据库中,获取与所述初始样本文本不同的第三样本文本;

从与所述样本问题不同的其他样本问题对应的初始样本文本中确定第四样本文本;

基于所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本,构建所述样本问题对应的负训练样本。

可选地,所述训练样本构建模块404,进一步被配置为:

将所述样本问题输入搜索数据库,获得所述样本问题对应的至少一个待筛选样本文本;

对所述样本问题进行语义分析,基于语义分析结果从所述至少一个待筛选样本文本中筛选所述样本问题对应的初始样本文本。

可选地,所述训练样本构建模块404,进一步被配置为:

将所述样本问题和所述第一样本文本进行拼接;

将所述样本问题和所述第一样本文本拼接后的结果作为所述样本问题对应的正训练样本,并为所述正训练样本添加对应的第一标签。

可选地,所述训练样本构建模块404,进一步被配置为:

将所述样本问题,和所述第二样本文本、所述第三样本文本和/或所述第四样本文本进行拼接;

将所述样本问题,和和所述第二样本文本、所述第三样本文本和/或所述第四样本文本拼接后的结果作为所述样本问题对应的负训练样本,并为所述负训练样本添加对应的第二标签。

可选地,所述分类模型包括输入层、编码层和二分类层;

相应地,所述模型训练模块406,进一步被配置为:

将所述训练样本通过所述输入层输入所述分类模型,并通过所述编码层获得所述训练样本的编码向量;

将所述训练样本的编码向量输入所述二分类层,获得所述训练样本的初始概率;

基于所述训练样本的初始概率与所述样本标签计算损失值;

根据所述损失值调整所述分类模型的参数,继续训练所述分类模型,直至达到训练停止条件。

本说明书实施例提供的分类模型训练装置,可以基于样本问题和搜索数据库实现分类模型的训练样本的快速、准确构建,为后续的分类模型训练节省训练时间;基于样本问题和对应的样本文本进行拼接构建的训练样本对分类模型进行训练,使得分类模型在进行训练时,使得样本问题和样本文本进行交互,使得分类模型在后续应用时可以很好的考虑问题和对应文本的上下文语境信息,准确的抓住语义焦点,实现对文本包含问题的答案的概率的准确预测。

与上述方法实施例相对应,本说明书还提供了一种目标文本确定装置实施例,图5示出了本说明书一个实施例的一种目标文本确定装置的结构示意图。

如图5所示,该装置包括:

问题获取模块502,被配置为获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;

概率获得模块504,被配置为将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由权利要上述所述分类模型训练方法获得;

文本确定模块506,被配置为基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。

可选地,所述概率获得模块504,进一步被配置为:

将所述目标问题和所述至少一个初始文本中每个初始文本进行拼接,且将每个拼接后的结果输入分类模型,获得每个初始文本包含所述目标问题对应的目标答案的概率。

可选地,所述文本确定模块506,进一步被配置为:

基于所述概率对所述至少一个初始文本中所有初始文本进行降序排列,从高到低获取降序排列后的预设数量的初始文本,作为包含所述目标问题对应的目标答案的目标文本。

可选地,所述问题获取模块502,进一步被配置为:

将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个待筛选文本;

对所述目标问题进行语义分析,基于语义分析结果从所述至少一个待筛选文本中筛选所述目标问题对应的至少一个初始文本。

本申请提供的所述目标文本确定装置,包括获取目标问题,并将所述目标问题输入搜索数据库获取所述目标问题对应的至少一个初始文本;将所述目标问题和所述至少一个初始文本输入分类模型,获得所述至少一个初始文本包含所述目标问题对应的目标答案的概率,其中,所述分类模型由上述分类模型训练方法获得;基于所述概率从所述至少一个初始文本中,确定包含所述目标问题对应的目标答案的目标文本。具体的,所述目标文本确定方法提出了一种两阶段文本检索策略,首先将目标问题输入搜索数据库,通过搜索数据库获取该目标问题对应的多个初始文本,实现第一阶段的文本粗召回,然后将第一阶段召回的初始文本,通过预先训练的分类模型进行进一步的筛选,从而在多个初始文本中筛选出与目标问题最相关的、较为准确的目标文本。

此外,在通过分类模型对第一阶段召回的初始文本进行筛选时,将目标问题与每个初始文本进行结合输入分类模型中,分类模型会计算目标问题与每个初始文本拼接后的文本的每个词的特征,以及每两个词之间的相互影响,在分类模型中实现目标问题与每个初始文本进行交互,可以很好的考虑上下文语境信息,提升目标问题与初始文本的匹配精度,可以更加准确的获得目标问题对应的目标文本。

需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述分类模型训练方法、目标文本确定方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述分类模型训练方法、目标文本确定方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述分类模型训练方法的步骤或者所述目标文本确定方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述分类模型训练方法、目标文本确定方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述分类模型训练方法、目标文本确定方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1