一种融合答案信息的问题分类模型构建方法、装置和介质与流程

文档序号:15999844发布日期:2018-11-20 19:18阅读:120来源:国知局

本发明涉及数据分类技术领域,特别是涉及一种融合答案信息的问题分类模型构建方法、装置和计算机可读存储介质。



背景技术:

问题分类任务实际上是一种短文本分类任务。短文本分类的定义如下:给定一批短文本集合S和标签集合C,定义一个函数F,该函数可以自动且正确地为S中的每条短文本指派C中一个类别标签。短文本与普通文档不同,具有文本长度短的特性,即一条短文本中仅仅包含几个特征词,它对内容相似度度量没有提供足够的词共现和共享的上下文,这样导致很难提取其有效特征。

目前,问题分类模型的研究方法大致可分为以下三类:第一类方法是基于融合各种问题特征的问题分类方法,该方法挖掘问题本身的特性,比如通过规则得到问题词和关键词,通过查阅相应的词典,例如WordNet查找关键词的上位词以达到词义消歧的效果,通过加入N元文法特征和词性特征等来完善问题的特征表示,并使用传统的机器学习方法,如支持向量机,最大熵模型等进行训练,最终得到问题分类模型。第二类方法是基于规则的问题分类方法,该方法通过问题的句法结构提取相关单词,进而基于将这些相关单词和概念联系起来的规则对问题进行分类。第三类方法是基于神经网络的问题分类方法,该方法利用词的分布式表征表示问题,可以使用卷积神经网络,循环神经网络等构建分类模型。

上述构建问题分类模型的几种方法都是针对于问题本身的特征进行分类,特征表示不丰富,导致建立的问题分类模型精度较低。

可见,如何提升问题分类模型的精度,是本领域技术人员亟待解决的问题。



技术实现要素:

本发明实施例的目的是提供一种融合答案信息的问题分类模型构建方法、装置和计算机可读存储介质,可以提升问题分类模型的精度。

为解决上述技术问题,本发明实施例提供一种融合答案信息的问题分类模型构建方法,包括:

获取待处理问题所对应的候选答案;

依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;

按照预设的融合规则,将所述问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;

利用所述融合结果对初始问题分类模型进行训练,以得到问题分类模型。

可选的,所述依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库包括:

利用Word2Vec模型,将目标问题转化为问题向量、将与所述目标问题对应的各候选答案转化为相应的候选答案向量;其中,所述目标问题为所有所述待处理问题中的任意一个待处理问题;

计算所述问题向量和各所述候选答案向量之间的余弦距离,并将所述余弦距离作为相应候选答案的相关度;

对各所述候选答案进行相关度排序,选取相关度最高的一个候选答案作为所述目标问题的答案,以构建问题-答案语料库。

可选的,所述按照预设的融合规则,将所述问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果包括:

利用Word2Vec模型,将目标问题转化为问题向量、将与所述目标问题对应的答案转化为答案向量;其中,所述目标问题为所有所述待处理问题中的任意一个待处理问题;

使用长短期记忆网络分别对所述问题向量和所述答案向量进行语义编码;

利用双向注意力流机制对经过语义编码的问题向量和答案向量进行注意力编码,得到相应的处理结果;并将所述处理结果和经过语义编码后的问题向量和答案向量进行拼接,以得到相应的融合结果。

可选的,在所述依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库之前,还包括:

依据预先建立的停用词表,对各所述候选答案进行去停用词处理;

利用自动摘要技术对去停用词后的各候选答案进行简述处理,将得到的答案信息作为最终的候选答案。

本发明实施例还提供了一种融合答案信息的问题分类模型构建装置,包括获取单元、构建单元、融合单元和训练单元;

所述获取单元,用于获取待处理问题所对应的候选答案;

所述构建单元,用于依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;

所述融合单元,用于按照预设的融合规则,将所述问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;

所述训练单元,用于利用所述融合结果对初始问题分类模型进行训练,以得到问题分类模型。

可选的,所述构建单元包括转化子单元、计算子单元和选取子单元;

所述转化子单元,用于利用Word2Vec模型,将目标问题转化为问题向量、将与所述目标问题对应的各候选答案转化为相应的候选答案向量;其中,所述目标问题为所有所述待处理问题中的任意一个待处理问题;

所述计算子单元,用于计算所述问题向量和各所述候选答案向量之间的余弦距离,并将所述余弦距离作为相应候选答案的相关度;

所述选取子单元,用于对各所述候选答案进行相关度排序,选取相关度最高的一个候选答案作为所述目标问题的答案,以构建问题-答案语料库。

可选的,所述融合单元包括转化子单元、编码子单元和拼接子单元;

所述转化子单元,用于利用Word2Vec模型,将目标问题转化为问题向量、将与所述目标问题对应的答案转化为答案向量;其中,所述目标问题为所有所述待处理问题中的任意一个待处理问题;

所述编码子单元,用于使用长短期记忆网络分别对所述问题向量和所述答案向量进行语义编码;

所述拼接子单元,用于利用双向注意力流机制对经过语义编码的问题向量和答案向量进行注意力编码,得到相应的处理结果;并将所述处理结果和经过语义编码后的问题向量和答案向量进行拼接,以得到相应的融合结果。

可选的,还包括删减单元和处理单元;

所述删减单元,用于依据预先建立的停用词表,对各所述候选答案进行去停用词处理;

所述处理单元,用于利用自动摘要技术对去停用词后的各候选答案进行简述处理,将得到的答案信息作为最终的候选答案。

本发明实施例还提供了一种融合答案信息的问题分类模型构建装置,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序以实现如上述融合答案信息的问题分类模型构建方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述融合答案信息的问题分类模型构建方法的步骤。

由上述技术方案可以看出,获取待处理问题所对应的候选答案;每个待处理问题对应的候选答案个数往往为多个;依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;在该语料库中,每个问题有其对应的一个答案。按照预设的融合规则,将所述问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;利用所述融合结果对初始问题分类模型进行训练,以得到问题分类模型。由于融合结果中包含有答案的特征信息,克服了现有技术中仅从问题本身出发,特征不丰富的问题。利用融合结果对初始问题分类模型进行训练时,可以有效提升问题分类模型的精度。

附图说明

为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种融合答案信息的问题分类模型构建方法的流程图;

图2为本发明实施例提供的一种构建融合答案信息的问题-答案语料库的方法的流程图;

图3为本发明实施例提供的一种融合问题和答案的方法的流程图;

图4为本发明实施例提供的一种融合答案信息的问题分类模型构建装置的结构示意图;

图5为本发明实施例提供的一种融合答案信息的问题分类模型构建装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来,详细介绍本发明实施例所提供的一种融合答案信息的问题分类模型构建方法。图1为本发明实施例提供的一种融合答案信息的问题分类模型构建方法的流程图,该方法包括:

S101:获取待处理问题所对应的候选答案。

问题是短文本的一种类型表现,它可以通过搜索引擎检索答案,以达到补充问题的目的。因此,在本发明实施例中,可以获取问题所对应的答案,并将其进行融合,使用融合后的结果来表征问题,从而丰富问题的特征信息。

待处理问题可以是构建问题分类模型时所需的问题。

在实际应用中,待处理问题的数量往往较多。本发明实施例可以利用搜索引擎检索每个待处理问题对应的多个候选答案。在具体实现中,对于每个待处理问题可以检索4-5个候选答案。

为了便于后续的调用,可以通过网络爬虫爬取答案至本地,将各待处理问题以及其对应的候选答案通过JSON格式存储在问题-多答案语料库中,在该问题-多答案语料库中每个问题有其对应的多个候选答案。

S102:依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库。

在S101中每个待处理问题对应的候选答案的个数为多个,为了提升答案的精度,并且减低后续处理的复杂度,可以从一个待处理问题对应的多个候选答案中选取出一个最优的候选答案,作为待处理问题对应的答案。

在本发明实施例中,可以计算待处理问题和其对应的各候选答案之间的相关度。待处理问题和候选答案的相关度越高,说明该候选答案与该待处理问题的契合程度越好。

在具体实现中,可以依据相关度对候选答案进行排序,从多个候选答案中筛选出一个最优的答案,从而构建出问题-答案语料库。在该问题-答案语料库中一个问题有其对应的一个答案。构建问题-答案语料库的具体过程可以参见图2所示的流程图,在此不再赘述。

S103:按照预设的融合规则,将问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果。

融合规则用于表示将问题和其对应的答案进行融合的方式。在本发明实施例中,可以将问题和答案转化成特征向量的方式,并对特征向量进行编码和拼接,以实现问题和答案的融合。其具体实现过程可以参见图3所示的流程图,在此不再赘述。

S104:利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。

问题-答案语料库中的每个问题都有其对应的一个融合结果,该融合结果中包含了问题和其相应的答案融合后对应的特征信息。

相比于现有技术中仅从问题本身出发只包含问题所对应的特征信息而言,本发明实施例中的融合结果包含的特征信息更加丰富。利用融合结果对初始问题分类模型进行训练,有效的提升了问题分类模型的精度。

在具体实现中,可以将融合结果使用双向长短期记忆网络(Long-Short Term Memory,LSTMs)进行编码,并将该编码输入softmax层进行分类,通过反向传播优化所有参数,最终得到最优的问题分类模型。

在本发明实施例中,构建问题-答案语料库是进行后续问题答案融合的基础,接下来将对问题-答案语料库的具体构建过程展开介绍,如图2所示为构建问题-答案语料库的方法的流程图,该方法包括:

S201:利用Word2Vec模型,将目标问题转化为问题向量、将与目标问题对应的各候选答案转化为相应的候选答案向量。

待处理问题的数量较多,每个待处理问题的处理流程相同,在本发明实施例中,以所有待处理问题中的任意一个待处理问题即目标问题为例展开介绍。

在具体实现中,可以使用jieba分词工具对目标问题及其对应的候选答案进行分词,统计词语得到词库,并对其进行编号。再使用预训练好的Word2Vec模型对词库中的每个词赋予向量值,对模型中不存在的词向量则可以随机赋值;根据处理好的向量表,对目标问题及其对应的候选答案进行向量表示。

为了便于区分不同的向量表示,可以将目标问题对应的向量表示称作问题向量,将候选答案对应的向量表示称作候选答案向量。

S202:计算问题向量和各候选答案向量之间的余弦距离,并将余弦距离作为相应候选答案的相关度。

一个目标问题对应的候选答案有多个,相应的,候选答案向量的个数为多个。在具体实现中,可以依次计算该问题向量与每个候选答案向量的余弦距离。

其中,计算特征向量之间的余弦距离属于现有技术中常用的技术手段,在本发明实施例中,对其具体过程不再赘述。

S203:对各候选答案进行相关度排序,选取相关度最高的一个候选答案作为目标问题的答案,以构建问题-答案语料库。

以一个目标问题为例,在具体实现中,可以从所有候选答案对应的所有相关度中,选取出相关度最高的一个候选答案作为目标问题对应的答案。

当相关度最高的候选答案的个数为多个时,则可以从这多个答案中选取其中的任意一个答案作为目标问题的答案。例如,一个目标问题对应的候选答案有5个,分别为候选答案1-候选答案5,该目标问题和这5个候选答案之间的相关度分别为80%、75%、90%、90%、80%,通过相关度排序,可知候选答案3和候选答案4对应的相关度最高,均为90%,因此,可将候选答案3或者是候选答案4作为目标问题的答案。

需要说明的是,上述S201-S203是以一个目标问题为例,对确定出该目标问题的一个最优答案的过程展开的介绍,依据S201-S203的操作,可以确定出所有待处理答案各自对应的答案,从而构建出问题-答案语料库。

通过构建问题-答案语料库,可以用答案对问题进行补充说明。但是问题-答案语料库中体现的是问题和答案的对应关系,将问题和其相应的答案作为训练语料之前,需要将问题和答案进行融合处理。接下来将对问题及其对应的答案的融合过程展开介绍,如图3所示为对问题及其对应的答案进行融合处理的方法的流程图,该方法包括:

S301:利用Word2Vec模型,将目标问题转化为问题向量、将与目标问题对应的答案转化为答案向量。

其中,目标问题为所有待处理问题中的任意一个待处理问题。

该步骤和上述S201中的原理相同,在此不再赘述。

S302:使用长短期记忆网络分别对问题向量和答案向量进行语义编码。

在具体实现中可以使用双向的LSTMs分别对问题向量和答案向量进行语义编码,并对应的将前向的和后向的LSTMs所编码的结果拼接起来。

S303:利用双向注意力流机制对经过语义编码的问题向量和答案向量进行注意力编码,得到相应的处理结果;并将处理结果和经过语义编码后的问题向量和答案向量进行拼接,以得到相应的融合结果。

双向注意力流机制表示分别对问题到答案和答案到问题建立注意力流机制。问题到答案建立注意力机制可以得到一个处理结果,相应的,答案到问题建立注意力机制也可以得到一个处理结果。

在具体实现中,可以将这两个处理结果和S302中语义编码后的问题向量和答案向量进行拼接,从而得到该问题所对应的一个融合结果。

需要说明的是,上述S301-S303是以一个目标问题为例,对该目标问题及其对应的答案进行融合的具体过程展开的介绍,依据S301-S303的操作,可以对问题-答案语料库中的所有问题及其对应的答案进行融合处理,从而得到问题-答案语料库中所有问题所对应的融合结果。

由上述技术方案可以看出,获取待处理问题所对应的候选答案;每个待处理问题对应的候选答案个数往往为多个;依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;在该语料库中,每个问题有其对应的一个答案。按照预设的融合规则,将问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。由于融合结果中包含有答案的特征信息,克服了现有技术中仅从问题本身出发,特征不丰富的问题。利用融合结果对初始问题分类模型进行训练时,可以有效提升问题分类模型的精度。

在实际应用中,候选答案可能会出现过长的现象,使得相关度计算出现不公平的现象。针对该种情况,可以利用自动摘要技术来简述答案,以此达到限制答案长度的效果。

具体的,可以依据预先建立的停用词表,对各候选答案进行去停用词处理;利用自动摘要技术对去停用词后的各候选答案进行简述处理,将得到的答案信息作为最终的候选答案。

其中,停用词表中存储有可从答案中滤除的词语,依据该停用词表,可以滤除候选答案中的停用词。

通过对候选答案进行去停用词和简述处理,可以保证后续计算候选答案的相关度时的公平性。

图4为本发明实施例提供的一种融合答案信息的问题分类模型构建装置的结构示意图,包括获取单元41、构建单元42、融合单元43和训练单元44;

获取单元41,用于获取待处理问题所对应的候选答案;

构建单元42,用于依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;

融合单元43,用于按照预设的融合规则,将问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;

训练单元44,用于利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。

可选的,构建单元包括转化子单元、计算子单元和选取子单元;

转化子单元,用于利用Word2Vec模型,将目标问题转化为问题向量、将与目标问题对应的各候选答案转化为相应的候选答案向量;其中,目标问题为所有待处理问题中的任意一个待处理问题;

计算子单元,用于计算问题向量和各候选答案向量之间的余弦距离,并将余弦距离作为相应候选答案的相关度;

选取子单元,用于对各候选答案进行相关度排序,选取相关度最高的一个候选答案作为目标问题的答案,以构建问题-答案语料库。

可选的,融合单元包括转化子单元、编码子单元和拼接子单元;

转化子单元,用于利用Word2Vec模型,将目标问题转化为问题向量、将与目标问题对应的答案转化为答案向量;其中,目标问题为所有待处理问题中的任意一个待处理问题;

编码子单元,用于使用长短期记忆网络分别对问题向量和答案向量进行语义编码;

拼接子单元,用于利用双向注意力流机制对经过语义编码的问题向量和答案向量进行注意力编码,得到相应的处理结果;并将处理结果和经过语义编码后的问题向量和答案向量进行拼接,以得到相应的融合结果。

可选的,还包括删减单元和处理单元;

删减单元,用于依据预先建立的停用词表,对各候选答案进行去停用词处理;

处理单元,用于利用自动摘要技术对去停用词后的各候选答案进行简述处理,将得到的答案信息作为最终的候选答案。

图4所对应实施例中特征的说明可以参见图1-图3所对应实施例的相关说明,这里不再一一赘述。

由上述技术方案可以看出,获取待处理问题所对应的候选答案;每个待处理问题对应的候选答案个数往往为多个;依据各待处理问题和相应的候选答案之间的相关度,构建问题-答案语料库;在该语料库中,每个问题有其对应的一个答案。按照预设的融合规则,将问题-答案语料库中的每个待处理问题及其对应的答案进行融合处理,得到相应的融合结果;利用融合结果对初始问题分类模型进行训练,以得到问题分类模型。由于融合结果中包含有答案的特征信息,克服了现有技术中仅从问题本身出发,特征不丰富的问题。利用融合结果对初始问题分类模型进行训练时,可以有效提升问题分类模型的精度。

如图5所示为本发明实施例提供的一种融合答案信息的问题分类模型构建装置50的硬件结构示意图,包括:

存储器51,用于存储计算机程序;

处理器52,用于执行计算机程序以实现如上述融合答案信息的问题分类模型构建方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述融合答案信息的问题分类模型构建方法的步骤。

以上对本发明实施例所提供的一种融合答案信息的问题分类模型构建方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1