文本分类模型的训练方法、装置及可读存储介质与流程

文档序号：17130978发布日期：2019-03-16 01:12阅读：157来源：国知局

本发明涉及文本分类技术领域，尤其涉及一种文本分类模型的训练方法、装置及计算机可读存储介质。

背景技术：

随着网络技术的快速发展，对于电子文本信息进行有效地组织和管理，并快速准确且全面地从中获取相关信息的要求越来越高。文本分类作为信息处理的重要研究方向，是解决文本信息发现的常用方法。

文本分类是自然语言处理领域最基本的研究课题之一，随着深度学习的发展，其中的监督学习方法使得已知文本类别的分类任务更加容易、高效、准确。在此过程中，有充足的训练数据驱动端到端的学习过程并由非线性映射使得文本的语义可以被清晰地表征出来。然而，这种理想的分类情况需要两个前提：一、充足的训练数据；二、训练数据相应的标签。因此，分类的结果会被限制在这些已知类别内。

单分类问题则将待分类的样本类别从已知类别扩大到未知类别，其目的是从所有待分类样本中找到某一种特定类别的样本，而不考虑其他样本的类别。

在现有技术中，一般从原始正样本数据中，基于词的粒度，构造每个词的特征表示后组合成该文本的特征表示，再把这个文本的特征输入单分类器进行训练，使用训练好的单分类器对测试样本进行分类，其中，常用的分类器有单分类svm(one-classsupportvectormachine，ocsvm)。然而这种特征构造方法仅仅基于词的粒度，没有结合上下文的深层次语义信息，忽略了词与词之间的依赖关系，导致正样本集在特征空间中的分布并不能很好地与负样本区分开来，导致分类器的分类效果不佳。

技术实现要素：

本发明的主要目的在于提供一种文本分类模型的训练方法、装置及计算机可读存储介质，旨在解决实现提高文本分类器的分类效果。

为实现上述目的，本发明提供一种文本分类模型的训练方法，所述文本分类模型的训练方法包括以下步骤：

获取已标识为正样本的样本组对应的第一词向量序列；

获取已识别类别的样本组对应的第二词向量序列；

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征；

基于所述第一特征计算均方距离作为紧凑性损失；

基于所述第二特征计算交叉熵作为描述性损失；

根据所述紧凑性损失和所述描述性损失计算误差损失；

基于所述误差损失采用反向传播优化算法，训练所述特征提取神经网络的参数。

优选地，所述基于所述第一特征计算均方距离作为紧凑性损失的步骤包括：

从所述第一特征中确定一个目标特征；

计算所述目标特征之外的第一特征的均值；

计算所述目标特征与所述均值的差值；

返回执行所述从所述第一特征中确定一个目标特征的步骤，直至获得各个所述第一特征对应的差值，并根据所述差值计算均方距离作为所述紧凑性损失。

优选地，所述特征提取神经网络为卷积神经网络，所述通过特征提取神经网络提取所述第一词向量的第一特征和所述第二词向量的第二特征的步骤包括：

通过所述卷积神经网络对所述第一词向量和第二词向量进行卷积处理和池化处理，得到所述第一词向量和第二词向量在低维空间的特征表示；

将所述第一词向量和第二词向量在低维空间的特征表示输入全连接层进行处理，得到所述第一词向量的第一特征及所述第二词向量的第二特征。

优选地，所述基于所述误差损失采用反向传播优化算法，训练所述特征提取神经网络的参数的步骤之后还包括：

获取所述已标识为正样本的样本组对应的第一特征的特征均值；

将所述特征均值作为单分类模型的特征空间的中心点。

优选地，所述将所述特征均值作为单分类模型特征空间的中心点的步骤之后，还包括：

获取测试样本，及所述测试样本对应的特征；

将所述测试样本对应的所述特征映射至所述特征空间；

计算所述测试样本对应的所述特征在所述特征空间中的映射点，与所述中心点的欧式距离；

根据所述欧式距离进行文本分类。

优选地，所述根据所述欧式距离进行文本分类的步骤包括：

判断所述欧式距离是否小于或等于预设距离阈值；

当所述欧式距离小于或等于所述预设距离阈值时，判定所述测试样本为正样本。

优选地，所述已标识为正样本的样本组的文本内容和所述已识别类别的样本组的文本内容相关联。

此外，为实现上述目的，本发明还提供一种文本分类模型的训练装置，其特征在于，所述文本分类模型的训练装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练程序，所述训练程序被所述处理器执行时实现如上所述的文本分类模型的训练方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练程序，所述训练程序被处理器执行时实现如上所述的文本分类模型的训练方法的步骤。

本发明实施例提出的一种文本分类模型的训练方法、装置及计算机可读存储介质，先获取已标识为正样本的样本组对应的第一词向量序列，以及获取已识别类别的样本组对应的第二词向量序列，然后通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征，并基于所述第一特征计算均方距离作为紧凑性损失，基于所述第二特征计算交叉熵作为描述性损失，最后根据所述紧凑性损失和所述描述性损失计算误差损失，进而基于所述误差损失采用反向传播优化算法，训练所述特征提取神经网络的参数。由于本发明可以计算误差损失，并通过误差损失对特征提取神经网络进行反向优化，因此提高了分类器的分类效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明文本分类模型的训练方法第一实施例的流程示意图；

图3为本发明文本分类模型的训练方法第二实施例的流程示意图；

图4为本发明文本分类模型的训练方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：

获取已标识为正样本的样本组对应的第一词向量序列；

获取已识别类别的样本组对应的第二词向量序列；

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征；

基于所述第一特征计算均方距离作为紧凑性损失；

基于所述第二特征计算交叉熵作为描述性损失；

根据所述紧凑性损失和所述描述性损失计算误差损失；

基于所述误差损失采用反向传播优化算法，训练所述特征提取神经网络的参数。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc，也可以是便携计算机、智能移动终端或服务器等终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及训练程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的训练程序，并执行以下操作：

获取已标识为正样本的样本组对应的第一词向量序列；

获取已识别类别的样本组对应的第二词向量序列；

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征；

基于所述第一特征计算均方距离作为紧凑性损失；

基于所述第二特征计算交叉熵作为描述性损失；

根据所述紧凑性损失和所述描述性损失计算误差损失；

基于所述误差损失采用反向传播优化算法，训练所述特征提取神经网络的参数。