一种语句相似度判断方法及判断系统与流程

文档序号:17991338发布日期:2019-06-22 00:49阅读:604来源:国知局
一种语句相似度判断方法及判断系统与流程

本发明属于自然语言处理中语义相似度计算技术领域,尤其涉及一种语句相似度判断方法及判断系统。



背景技术:

句子语义相似度计算,目前在信息检索、数据挖掘、机器翻译、文档抄袭检测、自动问答等领域,均有着广泛的应用。

现有技术用于语义相似度计算的经典模型是如图1所示的基于lstm的孪生神经网络。将要进行相似度计算的句子对做词嵌入,即将句子以词向量表示。将词向量输入到神经网络,再将网络的输出做计算操作,最后输出。

目前,所述基于lstm的孪生神经网络还具有如下缺点:

lstm网络提取句子特征,没有综合考虑句子前向和反向关系特征,导致语义特征提取不全,相似度判别结果不理想。

传统的神经网络需要过多的考虑人为的语义特征,人工干预过多

传统的基于rnn的网络只能提取文本前后信息关联,而不能提取文本部分重要信息特征,传统基于cnn的网络只能提取文本部分文本语义特征,忽略前后联系,鉴于此,改模型将两种模型融合,取各自优点,进行多角度特征提取文本语义特征信息。



技术实现要素:

为克服现有技术的上述缺陷,本发明针对lstm网络不能捕捉句子的上下文含义以及句子的特征信息提取不全的缺点,为了提高语义相似度计算的准确度,提高qa系统问话匹配的精确度,提出了一种语句相似度判断方法,包含一种新型模型,该模型将以双向lstm和cnn网络结构作为最后文本相似度计算的特征向量提取网络。

具体地,如图1-2所示,本发明所述语句相似度判断方法包括以下步骤:

步骤一:搜集原始文本,原始文本无特殊要求,格式为要进行相似度判断的句子对,相似度为1,不相似为0;

步骤二:构建相似度判断模型,

所述相似度判断模型以cnn和快捷堆叠式bilstm作为句子的编码器;

本发明中的堆叠式bilstm编码器,该模型堆叠bilstm层数为3层,bilstmi表示第i层的bilstm,因此第i层的bilstm在t时刻输入的句子表示为则第i层bilstm在时刻t的输出表示为:

w=(w1,w2,...,wn)表示句子序列,其中wi∈rd表示句子中第i个词的表示向量,则第i层bilstm在时刻t表示为:

(fori>1)。假设本发明模型是m层bilstm,最后的文本向量表示可由最后第m层bilstm输出再经过最大池化操作获得。最后一层表示为:

其中,dm表示bilstm隐藏状态的维度,v表示句子的最后向量表示,句子对分别表示为rnn1,rnn2。分别将编码器的向量输出作单元距离计算,记为hrnn1,以及元素相乘计算,记为hrnn2。

本发明中的cnn编码器,对量化后的的文本做卷积操作,句子对分别表示为cnn1,cnn2,分别将池化后的句子对做单元距离计算,记为hcnn1,以及元素相乘计算,记为hcnn2。

步骤三:将以上的文本特征融合,即将表示的句子向量拼接,将几种不同向量合并成维度更高的向量,其中,所述文本特征包括rnn1,rnn2,hrnn1,hrnn2,cnn1,cnn2,hcnn1,hcnn2。

步骤四:将合并的向量经过一层全连接层;其中,所述全连接层采用dropout策略,即随机选择部分神经元让其失效,不参与运算,此操作可有效防止训练陷入过拟合风险。

步骤五:将该全连接层的输出作为下一个全连接层的输入,其中下一个全连接层的输出类别数为分类类别数。

步骤六:最后通过分类器和损失函数训练网络用于对文本进行相似度判断;所述分类器为softmax分类器,所述损失函数为交叉熵。

本发明步骤一中,所述搜集原始文本的过程包括:原始文本无特别要求,格式为一句子对和一个标签,如果相似,标签为1,否则为0。

本发明中,模型以cnn和快捷堆叠式bilstm作为句子的编码器,以迁移学习的思想,对原始的句子作初始化操作作为编码器的输入;

句子初始化是指:(1)对原始句子进行分词,去停用词后,将文本以词级表示,利用词向量将文本量化。(2)将原始句子用glove模型以字级量化。(3)将两种文本量化后向量拼接,作为文本输入表示。其中word2vec维度为150,glove维度为150。

基于以上方法,本发明还提供了一种语句相似度判断系统,包括:

文本搜集模块,用于搜集原始文本;

模型构建模块,用于构建相似度判断模型,所述相似度判断模型以cnn和快捷堆叠式bilstm作为句子的编码器;

特征融合模块,用于将表示的句子向量拼接,将不同向量合并成维度更高的向量;

全连接层输入模块,用于将合并的向量经过一层全连接层;

全连接层输出模块,用于将所述全连接层的输出作为下一个全连接层的输入,其中下一个全连接层的输出类别数为分类类别数;

判断模块,用于通过分类器和损失函数训练网络用于语句相似度判断。

与现有技术相比,本发明具有如下有益的技术效果:

本发明通过以cnn和bilstm网络为编码器,充分提取文本特征向量,以提高最终的文本相似度计算的精确度,提高具体qa应用场景中问话匹配的准确度。该模型不需要句子的语义特征,减少人工干预成本。没有采用attention结构,相对于采用attention算法的模型提高算法的运行效率。

附图说明

图1为现有技术的用于语义相似度计算的经典模型是基于lstm的孪生神经网络。

图2为快捷堆叠式bilstm编码器的示意图。

图3为本发明中模型的结构图。

图4为本发明语句相似度判断系统的示意图。

具体实施方式

结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。

本发明所述语句相似度判断方法包括以下步骤:

步骤一:搜集原始文本,原始文本无特殊要求,格式为要进行相似度判断的句子对,相似度为1,不相似为0;

步骤二:构建相似度判断模型,

所述模型以cnn和快捷堆叠式bilstm作为句子的编码器;

堆叠式bilstm编码器介绍:该模型堆叠bilstm层数为3层,bilstmi表示第i层的bilstm,因此第i层的bilstm在t时刻输入的句子表示为则第i层bilstm在时刻t的输出表示为:w=(w1,w2,...,wn)表示句子序列,其中wi∈rd表示句子中第i个词的表示向量,则第i层bilstm在时刻t表示为:

(fori>1)。假设本发明模型是m层bilstm,最后的文本向量表示可由最后第m层bilstm输出再经过最大池化操作获得。最后一层表示为:其中,dm表示bilstm隐藏状态的维度,v表示句子的最后向量表示,句子对分别表示为rnn1,rnn2。分别将编码器的向量输出作单元距离计算,记为hrnn1,以及元素相乘计算,记为hrnn2,

cnn编码器:对量化后的的文本做卷积操作,句子对分别表示为cnn1,cnn2,分别将池化后的句子对做单元距离计算,记为hcnn1,以及元素相乘计算,记为hcnn2。

步骤三:将以上的文本特征融合,即将表示的句子向量拼接,将几种不同向量合并成维度更高的向量。

步骤四:将合并的向量经过一层全连接层,其中全连接层采用dropout策略,即随机选择部分神经元让其失效,不参与运算,此操作可有效防止训练陷入过拟合风险。

步骤五:将该全连接层的输出作为下一个全连接层的输入,其中下一个全连接层的输出类别数为分类类别数。

步骤六:最后以softmax作为分类器,以交叉熵作为损失函数,训练网络。

本发明步骤一中,所述搜集原始文本的过程包括:原始文本无特别要求,格式为一句子对和一个标签,如果相似,标签为1,否则为0。

本发明中,模型以cnn和快捷堆叠式bilstm作为句子的编码器,以迁移学习的思想,对原始的句子作初始化操作作为编码器的输入;

句子初始化是指:(1)对原始句子进行分词,去停用词后,将文本以词级表示,利用词向量将文本量化。(2)将原始句子用glove模型以字级量化。(3)将两种文本量化后向量拼接,作为文本输入表示。其中word2vec维度为150,glove维度为150。

本发明提出的模型以cnn和快捷堆叠式bilstm作为句子的编码器,以迁移学习的思想,对原始的句子作初始化操作作为编码器的输入,模型的分类器用softmax分类器。

本发明为语义相似度度判断算法,主要用户人机对话qa系统中。语义相似度判断在qa中起到至关重要的作用,为了提高用户问话匹配的精确度,因此发明了该种判别方法。在以lstm为基础,提出三层堆叠式lstm结合cnn网络结构的方法提取句子特征,有效的提高了语义判断的准确度。

三层堆叠是指:三层快捷连接(每一层的bilstm的输入是之前所有层的输出和词嵌入表示向量)的bilstm。

在snli,muti-nlimatched,muti-nlimismatched语料中测试结果如下,评价指标为accuracy:

上表可以看出三层堆叠式lstm结合cnn网络结构的方法提取句子特征,有效的提高了语义判断的准确度。

本发明还提供了一种语句相似度判断系统,包括:

文本搜集模块,用于搜集原始文本;

模型构建模块,用于构建相似度判断模型,所述相似度判断模型以cnn和快捷堆叠式bilstm作为句子的编码器;

特征融合模块,用于将表示的句子向量拼接,将不同向量合并成维度更高的向量;

全连接层输入模块,用于将合并的向量经过一层全连接层;

全连接层输出模块,用于将所述全连接层的输出作为下一个全连接层的输入,其中下一个全连接层的输出类别数为分类类别数;

判断模块,用于通过分类器和损失函数训练网络用于语句相似度判断。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1