基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备与流程

文档序号:24128467发布日期:2021-03-02 16:20阅读:51来源:国知局
基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备与流程

[0001]
本发明属于自然语言处理领域,设特别涉及一种基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备。


背景技术:

[0002]
语义匹配一直以来都是自然语言处理领域中一个重要研究方向,其主要致力于对各种文本元素(如句子和文档)之间潜在的语义相同性或不相同性进行建模,在许多自然语言处理任务(例如问题回答,信息提取,复述识别)中起着核心作用。目前,语音匹配存在的难点主要就是句子自身的语义计算和句子之间的匹配计算。
[0003]
现有的方法使用不同的神经网络对句子进行建模,并显示出在此任务上的有效性。这些方法主要可以分为两类,第一类是通过分别对每个句子进行编码,然后基于两个句子表示来计算语义关系,从而对句子对进行建模。该类别的缺点是两个句子在编码部分不会交互,但可以使用一个句子的表示形式来表示另一个句子。第二类基于细粒度表示,例如学习字符级特征向量。它在字符级别应用神经网络来改进词语表示,然后将该表示传入神经网络以获得句子表示。该类别的缺点是虽用到了细粒度的特征向量,但在模型性能方面却没能取得较好的提升。


技术实现要素:

[0004]
本发明提出一种基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备,所述方法包括以下步骤:
[0005]
s1、使用预训练语言模型将输入的两个待检测句子划分为词语级和字符级的句子表示,使用字向量融合的方式代替未登录词向量,使用layenormalization算法对数据进行归一化;
[0006]
s2、使用双向长短时记忆网络提取句子表示矩阵的上下文知识,并使用余弦距离处理双向长短时记忆网络提取的特征,生成匹配向量;
[0007]
s3、使用一种基于交互的自注意力机制提取句子表示矩阵及其交互矩阵中的重点特征,生成对应的匹配向量;
[0008]
s4、将获取的两种不同的匹配向量进行拼接,由前馈神经网络得到高级特征向量并计算分类结果。
[0009]
本发明还提出一种基于多粒度多通道的神经网络的语义匹配装置,该装置包括句子表示模块、上下文知识提取模块、注意力提取模块、基于bi-lsmt特征提取模块、拼接模块以及前馈神经网络,其中:
[0010]
句子表示模块,用于将两个待检测的句子划分为词语级和字符级的句子表示,并进行预处理;
[0011]
注意力提取模块,使用两个自注意力机制分别提取两个句子表示矩阵中的重要特
征,再利用绝对距离计算两个句子在重要特征上的差异,然后将得到的差异特征交由一个新的自注意力机制提取得到最终的匹配向量;
[0012]
基于bi-lsmt特征提取模块,使用双向长短时记忆网络提取句子表示矩阵的上下文知识,使用余弦距离处理双向长短时记忆网络提取的特征;
[0013]
拼接模块,将注意力提取模块以及基于bi-lsmt特征提取模块的特征进行拼接;
[0014]
前馈神经网络,将拼接模块拼接的信息输入前馈神经网络进行语义匹配。
[0015]
本发明还提出一种基于多粒度多通道的神经网络的语义匹配计算机程序,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程至少包括执行一种基于多粒度多通道的神经网络的语义匹配方法个步骤的指令。
[0016]
本发明的有益效果如下:
[0017]
1)本发明提出一种基于多粒度多通道的神经网络的语义匹配方法,本方法能够准确的识别出两个句子的语义是否相同。
[0018]
2)本方法提出一种使用字向量融合的方式代替预训练词向量中的未登录词,给予模型更好的起点,提高模型在语义匹配中的识别准确率。
[0019]
3)本方法提出一种基于交互的自注意力机制,通过对待检测句子间的交互向量进行自注意力计算,使得自注意力机制更加适用于语义匹配的场景。
[0020]
本发明使用双向长短时记忆网络提取全局特征,使用自注意力机制侧重局部特征,并采用各自的距离计算方法计算句子间的差异,使得模型学习到的权重更加全面,更加精准。
附图说明
[0021]
图1为本发明的模型训练过程流程图;
[0022]
图2为本发明中采用的模型框架图。
具体实施方式
[0023]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024]
本发明提出一种基于多粒度多通道的神经网络的语义匹配方法,如图1的流程图以及图2的系统结构图,具体包括以下步骤:
[0025]
s1、使用预训练语言模型将输入的两个待检测句子划分为词语级和字符级的句子表示,使用字向量融合的方式代替未登录词向量,使用layenormalization算法对数据进行归一化;
[0026]
s2、使用双向长短时记忆网络提取句子表示矩阵的上下文知识,并使用余弦距离处理双向长短时记忆网络提取的特征,生成匹配向量;
[0027]
s3、使用一种基于交互的自注意力机制提取句子表示矩阵及其交互矩阵中的重点特征,生成对应的匹配向量;
[0028]
s4、将获取的两种不同的匹配向量进行拼接,由前馈神经网络得到高级特征向量并计算分类结果。
[0029]
实施例1
[0030]
本实施例将结合具体数据对本发明进行进一步的说明,本实施例使用的数据集共有238766个中文问题匹配对,每条数据包含两个句子和一个标签,标签为0或1,如为0则说明两个句子语义不相同,如为1则说明两个句子语义相同。
[0031]
s11:使用预训练语言模型将输入的两个待检测句子划分为词语级和字符级的句子表示;
[0032]
所述词语级句子表示是指使用jieba分词将输入的中文句子进行分词,并从预训练的词向量中获取对应的词语表示,组成的词向量序列。而字符级句子表示则是指将句子划分单独的字,并从预训练的词向量中获取对应的字向量,组成的字向量序列。
[0033]
s12:使用字向量融合的方式代替未登录词向量,并使用layenormalization算法对数据进行归一化。
[0034]
所述字向量融合是指使用词语中包含的字通过相加求平均的方式组成未登录词向量。所述layenormalization算法是一种对数据进行归一化处理的算法,可以适用于使用长短时记忆模型的情况。主要功能就是将输入数据的数据分布之间的差距变小,提高神经网络模型的泛化能力。
[0035]
s21:使用双向长短时记忆网络提取句子表示矩阵的上下文知识;
[0036]
所述双向长短时记忆网络是一种较为常用的循环神经网络,可以较好的循环神经网络中的长线依赖问题,提取句子表示矩阵中的序列信息,这里采用的双向长短时记忆网络的隐藏层大小为290,隐藏层数为2。
[0037]
s22:使用余弦距离处理双向长短时记忆网络提取的特征;
[0038]
所述余弦距离都是一些较为常用的向量距离计算方法,之所以采用这一种方法计算双向长短时记忆网络提取出的句子表示矩阵间的距离,是因为这一种方法常被用于处理双向长短时记忆网络提取的特征,其有效性已经有所见证。并且通过这里的距离计算将输入向量维数进行了压缩,方便后续的前馈神经网络训练。
[0039]
s31:使用自注意力机制提取句子表示矩阵中的重点信息;
[0040]
所述自注意力机制是一种常用于自然语言处理领域的方法,该方法可以通过权重的训练提取出输入序列中的重要信息。这里采用的自注意力机制的隐藏层大小为300,输出张量第二维大小为21。
[0041]
s32:使用绝对距离进行交互计算并计算得出匹配向量;
[0042]
所述绝对距离其实就是直接使用减法求两个句子表示向量之间的差值。这种方法由于过度直接,所以一般在语音匹配中并不常用。但是经过多次实验得出,对于自注意力机制提取的特征直接使用绝对距离比较句子间的重要特征差异,其效果最佳。此外,对经过计算得到的差异向量,进行自注意力机制的注意力计算,得到最终匹配向量。
[0043]
s41:将由步骤s2和s3得到的两种不同的距离向量进行拼接,由前馈神经网络得到高级特征向量并计算分类结果。
[0044]
所述拼接是指将直接将得到的距离向量进行同维度上的拼接。在本实施例中,余弦距离处理双向长短时记忆网络特征的距离向量的形状大小为64*580,其中64为批次大
小,580为长短时记忆网络的隐藏层大小乘以2。而基于交互的自注意力机制特征的距离向量的形状大小为64*300。因此词语级加上字符级的距离向量,最终的拼接矩阵形状大小为64*1460,然后将拼接所得到的距离矩阵输入到前馈神经网络中。该前馈神经网络一共有三层,第一层即输入层大小为1460,第二层即隐藏层大小为870,第3层即输出层大小为2,为最后的分类数量。前馈神经网络输出的预测结果由softmax分类器进行处理。最后使用交叉熵损失函数将预测结果和实际结果之间的差距反向传播到模型中,达成模型的训练。
[0045]
本实施例2
[0046]
本实施例还提出一种基于多粒度多通道的神经网络的语义匹配装置,该装置包括句子表示模块、上下文知识提取模块、注意力提取模块、基于bi-lsmt特征提取模块、拼接模块以及前馈神经网络,其中:
[0047]
句子表示模块,用于将两个待检测的句子划分为词语级和字符级的句子表示,并进行预处理;
[0048]
注意力提取模块,使用两个自注意力机制分别提取两个句子表示矩阵中的重要特征,再利用绝对距离计算两个句子在重要特征上的差异,然后将得到的差异特征交由一个新的自注意力机制提取得到最终的匹配向量;
[0049]
基于bi-lsmt特征提取模块,使用双向长短时记忆网络提取句子表示矩阵的上下文知识,使用余弦距离处理双向长短时记忆网络提取的特征;
[0050]
拼接模块,将注意力提取模块以及基于bi-lsmt特征提取模块的特征进行拼接;
[0051]
前馈神经网络,将拼接模块拼接的信息输入前馈神经网络进行语义匹配。
[0052]
进一步的,句子表示模块进行预处理的过程包括:
[0053]
检测预训练词向量中是否包含词语中的字,如果全部包含的话,则采用顺序相加的方式计算出该词向量;
[0054]
如果只部分包含,则将该词语分解为包含部分和不包含部分两个部分,对包含部分直接采用预训练词向量,不包含部分则使用语言模型生成一个向量代替该部分向量,然后将所得的向量使用顺序相加的方式代替出未登录词向量。
[0055]
进一步的,采用顺序相加的方式计算出词向量计算一个词的词向量:
[0056][0057]
其中,word
i
表示词向量,char
j
则是对应词拆分后的字向量,n表示词拆分为字后的数量。
[0058]
实施例3
[0059]
本实施例提出一种基于多粒度多通道的神经网络的语义匹配计算机程序,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程至少包括执行一种基于多粒度多通道的神经网络的语义匹配方法个步骤的指令。
[0060]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1