自然语言语义识别方法、装置、计算机设备和存储介质与流程

文档序号:20840974发布日期:2020-05-22 17:29阅读:248来源:国知局
自然语言语义识别方法、装置、计算机设备和存储介质与流程

本申请涉及互联网技术领域,特别是涉及一种自然语言语义识别方法、装置、计算机设备和存储介质。



背景技术:

随着互联网技术的发展,网络上的信息越来越多,其中大量的信息是以自然语言的形式存在,自然语言是指一种自然地随文化演化的语言,是人类交流和思维的主要工具。这些自然语言中包含大量有用信息,若能对这些自然语言进行准确的语义识别,那么就可以对自然语言包含的有用信息进行合理利用。其中,这里所谓的语义识别指的是确定自然语言蕴含的语义所属的语义类型,例如,自然语言可以为“我喜欢晴天”,经过语义识别可以确定该自然语言蕴含的语义所属的语义类型为“欢喜”的类型,又例如,自然语言可以为“我不喜欢加班”,经过语义识别可以确定该自然语言蕴含的语义所属的语义类型为“厌恶”。

因此,亟需一种自然语言语义识别的方法。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够对文本信息进行自然语言语义识别的方法、装置、计算机设备和存储介质。

第一方面,提供一种自然语言语义识别方法,该方法包括:

将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;

将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;

根据该相似度值集合对该目标文本进行语义识别。

在其中一个实施例中,该将目标文本的文字向量输入至文本编码器之前,该方法还包括:

获取训练样本集合,该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别;

利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络,该初始神经网络包括初始向量映射层、初始特征提取层和分类层;

将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

在其中一个实施例中,该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在其中一个实施例中,该获取训练样本集合,包括:

获取多个初始训练样本,每个该初始训练样本包括训练文本和训练文本的文本类别;

对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量,该字典中存储有文字与数字的对应关系;

根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

在其中一个实施例中,该对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列之前,该方法还包括:

对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

在其中一个实施例中,该将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,包括:

将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

在其中一个实施例中,该根据该相似度值集合对该目标文本进行语义识别,包括:

将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在其中一个实施例中,该将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别,包括:

当该相似度值集合中存在至少两个数值最大的相似度值时,在该至少两个数值最大的相似度值中随机选择一个作为目标相似度值,将该目标相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

第二方面,提供一种自然语言语义识别装置,该装置包括:

第一输入模块,用于将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;

第二输入模块,用于将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;

语义识别模块,用于根据该相似度值集合对该目标文本进行语义识别。

在其中一个实施例中,该装置还包括训练模块,该训练模块用于,获取训练样本集合,该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别;

利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络,该初始神经网络包括初始向量映射层、初始特征提取层和分类层;

将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

在其中一个实施例中,该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在其中一个实施例中,该训练模块具体用于,获取多个初始训练样本,每个该初始训练样本包括训练文本和训练文本的文本类别;

对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量,该字典中存储有文字与数字的对应关系;

根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

在其中一个实施例中,该装置还包括统一模块,该统一模块用于,对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

在其中一个实施例中,该第二输入模块具体用于,将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

在其中一个实施例中,该语义识别模块具体用于,将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在其中一个实施例中,该语义识别模块具体用于,当该相似度值集合中存在至少两个数值最大的相似度值时,在该至少两个数值最大的相似度值中随机选择一个作为目标相似度值,将该目标相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述第一方面任一所述的方法。

第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一所述的方法。

上述自然语言语义识别方法、装置、计算机设备和存储介质,通过首先将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;然后将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;最后根据该相似度值集合对该目标文本进行语义识别。因为本申请提供的自然语言语义识别的方法,首先将目标文本由文本格式转换成特征向量这种数学计算可以利用的格式。而后利用数学计算方法对目标文本的特征向量和参考文本的特征向量进行计算相似度值的操作,用得到的相似度值的数值大小来衡量目标文本的特征向量与参考文本的特征向量之间的相似度,间接可以得到目标文本和参考文本之间的相似度,最后根据目标文本和参考文本之间的相似度实现对目标文本的语义识别。因此,本申请的提供的自然语言语义识别的方法在一定程度上可以对未被语义识别的目标文本进行较为准确地语义识别。

附图说明

图1为一个实施例中自然语言语义识别方法的应用场景图;

图2为一个实施例中自然语言语义识别方法的流程示意图;

图3为一个实施例中获得文本编码器的流程示意图;

图4为一个实施例中获取训练样本集合的流程示意图;

图5为一个实施例中自然语言语义识别装置的结构框图;

图6为一个实施例中另一种自然语言语义识别装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

随着互联网技术的发展,网络上的信息越来越多,其中大量的信息是以自然语言的形式存在。例如用户现在可以很方便的在网络上用自然语言表达自己的想法,一般情况下,用户利用自然语言表达自己想法时,会将自然语言转换为文本的形式发表在互联网上。这些文本中包含大量用户对人物、事件、产品等的评论信息。如果可以对这些自然语言的文本进行准确的语义识别,例如喜、怒、哀、乐、批评或赞扬等,那么就可以准确掌握用户的需求,进而根据用户的需求对产品进行调整。其中,这里所谓的语义识别指的是确定自然语言的文本中所蕴含的语义所属的语义类型,例如,自然语言的文本可以为“我喜欢晴天”,经过语义识别可以确定该自然语言的文本所蕴含的语义所属的语义类型为“欢喜”的类型,又例如,自然语言的文本可以为“我不喜欢加班”,经过语义识别可以确定该自然语言的文本所蕴含的语义所属的语义类型为“厌恶”。

目前还没有合适的方法可以对自然语言进行语义识别,因此亟需一种自然语言语义识别的方法。

本申请实施例提供的自然语言语义识别方法,可以应用于如图1所示的应用环境中。其中,服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在本申请实施例中,如图2所示,提供了一种自然语言语义识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤201,服务器将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量。

在本申请实施例中,文本编码器可以包括向量映射层以及特征提取层,该特征提取层是由双向长短期记忆神经网络(英文:bi-lstm)构建的。对应的,步骤201中,服务器将目标文本的文字向量输入至文本编码器可以包括:将目标文本的文字向量依次输入至该文本编码器的向量映射层和特征提取层中。

其中,向量映射层可以对输入的目标文本的文字向量进行映射,得到维数增加的向量,然后向量映射层会把该维数增加的向量输入至特征提取层,特征提取层可以对该维数增加的向量进行语义抽取,经过语义抽取可以将该维数增加的向量转换为目标文本的特征向量。这里所谓的目标文本的特征向量指的是目标文本的文字向量经过上述转换方式后所转换成的向量。

其中,双向长短期记忆神经网络(英文:bi-lstm)特征抽取的原理是,对于一个文本对应的向量,首先从前到后学习一次,得到一个学习结果,然后再从后到前学习一次,得到一个学习结果,最后把两次所得的学习结果组合起来作为最终的学习结果。具体的,可以先将该文本对应的向量中的数字按照该文本的正向语序排列成一个正向向量,接着对该正向向量进行特征抽取,得到该文本的正向特征向量。然后,将该文本的正向向量首尾颠倒,得到该文本的反向向量,同样的,对该文本的反向向量进行特征抽取,得到该文本的反向特征向量。最后,将该文本的正向特征向量和反向特征向量拼接起来,得到该文本最终的特征向量。

在本申请实施例中,正向语序的含义是,该文本中的文字在正常语言习惯下出现的先后顺序。

本步骤中,将目标文本转换成特征向量这种数学形式是因为目标文本是文本的格式,在后续的操作中,服务器并不能直接对文本格式的数据进行计算等操作,因此,需要将目标文本转换成特征向量这种数学计算可以利用的形式。

步骤202,服务器将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合。

本步骤中,相似度计算模型会计算出目标文本的特征向量与各个参考文本的特征向量之间的相似度值。可选的,服务器会将计算出的这些相似度值按照数值大小的关系排序输出成相似度值集合。参考文本可以根据需要预先选定,并且可以给每个参考文本标注对应的文本类别。

该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度。相似度可以表示目标文本与参考文本所包含的文字信息和语义信息之间的相同程度。

步骤203,服务器根据该相似度值集合对该目标文本进行语义识别。

本步骤中,可以在相似度值集合中确定一个相似度值,然后将该相似度值对应的参考文本的文本类别作为目标文本的文本类别。一般情况下,相似度值越大,表示目标文本和参考文本之间的相似度越高,表示目标文本和参考文本所包含的文字信息和语义信息有很强的相似性,也就是说,这两条文本有很大可能表达的是同一个意思。因此,本申请实施例中可以通过相似度值对目标文本进行语义识别。

上述自然语言语义识别方法中,通过首先将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;然后将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;最后根据该相似度值集合对该目标文本进行语义识别。因为本申请提供的自然语言语义识别的方法,首先将目标文本由文本格式转换成特征向量这种数学计算可以利用的格式。而后利用数学计算方法对目标文本的特征向量和参考文本的特征向量进行计算相似度值的操作,用得到的相似度值的数值大小来衡量目标文本的特征向量与参考文本的特征向量之间的相似度,间接可以得到目标文本和参考文本之间的相似度,最后根据目标文本和参考文本之间的相似度实现对目标文本的语义识别。因此,本申请的提供的自然语言语义识别的方法在一定程度上可以对未被语义识别的目标文本进行较为准确地语义识别。

在本申请实施例中,请参考图3,提供了一种获得文本编码器的方法,该方法包括:

步骤301,服务器获取训练样本集合。

该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别。

在使用文本编码器之前,有必要对文本编码器进行训练。训练时,需要获取多个训练样本,其中,每条训练样本都是以带有文本类别的文字向量的形式存在于训练样本集合中的。训练样本可以根据需要预先选定一些具有代表性的样本。

步骤302,服务器利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络。

该初始神经网络包括初始向量映射层、初始特征提取层和分类层。

本步骤中,该初始神经网络包括多个层,每个层具有不同的功能。训练文本的文字向量经过初始神经网络的初始向量映射层和初始特征提取层之后会变成特征向量的形式,其中,分类层用于给目标文本赋予一个类别,具体的,该目标文本的特征向量经过最后的分类层之后会得到一个预测类别。

可选的,该初始神经网络的参数可以是,优化器选用动量梯度下降-均方根反向传播(英文:adam),学习率设置为0.001,损失函数选用交叉熵损失函数(英文:cross-entropy),每次输入数据批量大小为100,预设迭代次数为30次。

训练文本的文字向量经过该初始神经网络后,会得到一个预测文本类别,然后将预测得到的文本类别与真实的文本类别通过cross-entropy计算损失值,然后将得到的损失值输入adam中,对该初始神经网络中的各个参数往收敛方向进行微调,经过预设的迭代次数后,该初始神经网络会完成训练。

步骤303,服务器将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

本步骤中,该训练后的神经网络中的分类层是用于给训练文本分类的,在后续使用中,不需要该训练后神经网络的分类层,只需利用该训练后神经网络得到文字向量的特征向量即可,所以需要去掉该训练后神经网络的分类层。将剩下的部分作为一个文本编码器来使用。

在本申请实施例中,通过合理设置初始神经网络的参数,首先对该初始神经网络进行整体训练,然后将训练后神经网络的分类层去掉,剩下的部分当做文本编码器来使用,用于将文字向量转换成特征向量。经过该方法获得的文本编码器,具有较为良好的编码性能。

在本申请实施例中,该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在本申请实施例中,词嵌入向量映射法(英文:wordembedding)操作可以将低维离散的向量映射为高维连续的向量。具体的,可以给文本向量乘一个矩阵,得到维数增加的向量,该矩阵的列数可以根据需要调整。例如,文本向量是一个1行32列的向量,可以给该文本向量乘上一个32行128列的矩阵,使得该文本向量变成一个1行128列的向量。其中,给该文本向量乘上一个32行128列的矩阵的操作可以被称为词嵌入向量映射法,128可以是其他比32大的数字。

对于该双向长短期记忆神经网络,已在上述实施例中做了说明,在此不再赘述。该双向长短期记忆神经网络适用于对上下文有紧密联系的文本进行预测。

本申请实施例中,大裕量损失函数(英文:marginsoftmax)用于衡量待分类样本与类别中心的距离。

然后利用词嵌入向量映射法,将文本向量转换成高维连续向量。得到的高维连续向量相对于文本向量来说,可以更好的刻画文本向量包含的信息。然后因为该双向长短期记忆神经网络特有的特征抽取方式,使得本申请中得到的特征向量可以更好的表征文本向量中所包含的语义信息,并且,因为大裕量损失函对待分类样本和类别中心的距离度量更加严格,所以使得分类的各个结果之间差距更加明显,同一个分类内部距离更加紧凑。

在本申请实施例中,请参考图4,提供了一种获取训练样本集合的方法,该方法包括:

步骤401,服务器获取多个初始训练样本。

每个该初始训练样本包括训练文本和训练文本的文本类别。可以根据需要预先获取多个具有代表性的初始训练样本,该初始训练样本是带有文本类别的文本形式。举例如下:

37,高中数学问题,数列

37,高中数学,数列问题。

38,劝告你不听是什么成语

38,只要不听劝告是什么成语带一的39,支付宝为什么不能实名认证

39,为什么不能支付宝实名认证?

40,小尾巴怎么设置

40,贴吧里的小尾巴怎么设置?

其中,数字代表文本类别,数字后面的句子是与文本类别对应的训练文本。

步骤402,服务器对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量。

该字典中存储有文字与数字的对应关系。具体的,可以预先给每个文字指定一个对应的数字,不同的文字对应不同的数字,然后把这些文字和数字的对应关系存入一个字典中。例如,对于一个文字列表,按照顺序对文字列表中的文字进行编号,然后将每个文字的编号作为该文字对应的数字,然后将带有数字编号的文字列表作为一个字典。

实际应用时,对于一条训练文本,可以在字典中查找该训练文本中每个文字所对应的数字,然后将该训练文本由文字序列转换成数字序列的形式。再根据需要,设置一个长度来截取数字序列,对于长度不满足该长度的数字序列,在该数字序列末尾用0补齐。

为了便于理解,现对上述获得训练文本的文字向量的过程进行举例说明。例如,对于上述“小尾巴怎么设置”这条训练文本,首先根据字典查找出“小”对应数字“7”、“尾”对应数字“32”、“巴”对应数字“2”、“怎”对应数字“45”、“么”对应数字“9”、“设”对应数字“15”、“置”对应数字“60”。那么,“小尾巴怎么设置”这句话就可以转变成[7,32,2,45,9,15,60]这样的数字序列的形式。假设预设的长度值为32位,但该数字序列的长度值为7位,不满足32位。此时可以用0将该数字序列补齐至32位,那么最终得到的训练文本的文字向量就是[7,32,2,45,9,15,60,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。

步骤403,服务器根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

本步骤中,在得到训练文本的文字向量后,可以将初始训练样本中带有文本类别的训练文本转换为带有文本类别的文字向量。

在本申请实施例中,通过将训练文本由文字形式转变为长度统一的数字序列的形式,便于后续操作中的统一处理。

在本申请实施例中,服务器对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

全角格式表示一个文字需要占两个字符,半角格式表示一个文字需要占一个字符。

本申请实施例中,在得到训练文本对应的文本向量之前,有必要对训练文本进行统一化处理,统一化处理的目的是为了让所有训练文本的格式是统一的。例如训练文本中的字体大小、文本长度、大小写格式等。

本申请实施例中,因为对训练文本进行统一化操作,训练文本经过统一化操作之后,在格式上是统一的,所以在服务器对训练文本进行转换时,可以按照统一的标准来操作,不至于因为格式不统一而导致处理过程中出现失误。

在本申请实施例中,服务器将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

本申请实施例中,相似度计算模型利用上述各种算法,计算得出目标文本的特征向量与各个参考文本的特征向量之间的相似度值,该相似度值可以用来表示目标文本与各个参考文本之间的相似程度。例如,余弦相似度算法是通过计算目标文本的特征向量与各个参考文本的特征向量之间的余弦值,然后将得到的余弦值作为该相似度值,余弦值越大代表相似度值越大,也即是,两条特征向量之间的相似度越高。以此可以判断出该目标文本和该参考文本之间的相似度大小。

本申请实施例中,通过数学计算的方式计算特征向量之间相似度值,然后可以量化的得出目标文本和各个参考文本之间的相似度,使得后续判断目标文本和参考文本之间相似度的过程变得更加明确。

在本申请实施例中,服务器将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在本申请实施例中,以上述余弦相似度为例进行说明,在计算出目标文本的特征向量和参考文本的特征向量之间的余弦值(也即是相似度值)之后。可选的,服务器会将得到的各个相似度值按照数值大小进行排序后再输出。通常情况下,相似度值越高,表示两条文本所表达的含义有很大可能是相同的。因此,可以在该相似度值集合中选取数值最大的相似度值,然后将该相似度值对应的参考文本的文本类别作为目标文本的文本类别。

在一种可能的情况下,该相似度值集合中会出现数值相同的两个或多个相似度值,此时,可以随机选择一个相似度值,然后将该相似度值对应的参考文本的文本类别作为目标文本的文本类别。

此外,还可以预设一个相似度阈值,只有当该相似度值集合中数值最大的相似度值的数值超过该相似度阈值时,才将该相似度值对应的参考文本的文本类别作为目标文本的文本类别。

在本申请实施例中,因为该相似度值是明确的数值,所以可以明确的根据计算得到的相似度值来对目标文本进行语义识别,使得语义识别的过程变得清晰准确。

应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在本申请实施例中,如图5所示,提供了一种自然语言语义识别装置,包括:第一输入模块501、第二输入模块502和语义识别模块503,其中:

该第一输入模块501,用于将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;

该第二输入模块502,用于将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;

该语义识别模块503,用于根据该相似度值集合对该目标文本进行语义识别。

在本申请实施例中,在本申请实施例中,请参考图6,提供了另一种自然语言语义识别装置600,该自然语言语义识别装置600除了包括该自然语言语义识别装置500包括的各模块外,可选的,该自然语言语义识别装置600还包括训练模块504和统一模块505。

在本申请实施例中,该训练模块504用于,获取训练样本集合,该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别;

利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络,该初始神经网络包括初始向量映射层、初始特征提取层和分类层;

将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

在本申请实施例中,该该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在本申请实施例中,该训练模块504具体用于,获取多个初始训练样本,每个该初始训练样本包括训练文本和训练文本的文本类别;

对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量,该字典中存储有文字与数字的对应关系;

根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

在本申请实施例中,该统一模块505用于,对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

在本申请实施例中,该第二输入模块502具体用于,将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

在本申请实施例中,该语义识别模块503具体用于,将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在其中一个实施例中,该语义识别模块503具体用于,当该相似度值集合中存在至少两个数值最大的相似度值时,在该至少两个数值最大的相似度值中随机选择一个作为目标相似度值,将该目标相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

关于自然语言语义识别装置的具体限定可以参见上文中对于自然语言语义识别方法的限定,在此不再赘述。上述自然语言语义识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在本申请实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语义识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自然语言语义识别方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在本申请实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;

将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;

根据该相似度值集合对该目标文本进行语义识别。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

获取训练样本集合,该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别;

利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络,该初始神经网络包括初始向量映射层、初始特征提取层和分类层;

将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

在本申请实施例中,该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

获取多个初始训练样本,每个该初始训练样本包括训练文本和训练文本的文本类别;

对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量,该字典中存储有文字与数字的对应关系;

根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在本申请实施例中,处理器执行计算机程序时还实现以下步骤:

当该相似度值集合中存在至少两个数值最大的相似度值时,在该至少两个数值最大的相似度值中随机选择一个作为目标相似度值,将该目标相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该向量映射层用于将该目标文本的文字向量转换为维数增加的向量,该特征提取层用于对该维数增加的向量进行语义抽取,获得该目标文本的特征向量,该特征提取层是由双向长短期记忆神经网络构建的;

将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;

根据该相似度值集合对该目标文本进行语义识别。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

获取训练样本集合,该训练样本集合包括多个训练样本,每个该训练样本包括训练文本的文字向量与训练文本的文本类别;

利用该训练样本集合对初始神经网络进行训练,得到训练后的神经网络,该初始神经网络包括初始向量映射层、初始特征提取层和分类层;

将该训练后的神经网络中除分类层之外的其他层作为该文本编码器。

在本申请实施例中,该初始向量映射层是根据词嵌入向量映射法构建的;该初始特征提取层是根据双向长短期记忆神经网络构建的;该分类层是根据大裕量损失函数构建的。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

获取多个初始训练样本,每个该初始训练样本包括训练文本和训练文本的文本类别;

对于每个该初始训练样本,根据字典将该初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对该数字序列进行截取处理,得到该初始训练样本中的训练文本的文字向量,该字典中存储有文字与数字的对应关系;

根据每个该初始训练样本中的训练文本的文字向量和每个该初始训练样本中的训练文本的文本类别,获取该训练样本集合。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

对于每个该初始训练样本,将该初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及,将该初始训练样本中的训练文本包含的英文统一为大写格式或小写格式。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

将该目标文本的特征向量输入至该相似度计算模型中,得到该相似度计算模型利用余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、修正余弦相似度算法、汉明距离算法或曼哈顿距离算法计算并输出的该相似度值集合。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

将该相似度值集合中数值最大的相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:

当该相似度值集合中存在至少两个数值最大的相似度值时,在该至少两个数值最大的相似度值中随机选择一个作为目标相似度值,将该目标相似度值对应的参考文本的文本类别作为该目标文本的文本类别。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1