文本分类模型的训练方法、装置及可读存储介质与流程

文档序号:17130978发布日期:2019-03-16 01:12阅读:157来源:国知局
文本分类模型的训练方法、装置及可读存储介质与流程

本发明涉及文本分类技术领域,尤其涉及一种文本分类模型的训练方法、装置及计算机可读存储介质。



背景技术:

随着网络技术的快速发展,对于电子文本信息进行有效地组织和管理,并快速准确且全面地从中获取相关信息的要求越来越高。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。

文本分类是自然语言处理领域最基本的研究课题之一,随着深度学习的发展,其中的监督学习方法使得已知文本类别的分类任务更加容易、高效、准确。在此过程中,有充足的训练数据驱动端到端的学习过程并由非线性映射使得文本的语义可以被清晰地表征出来。然而,这种理想的分类情况需要两个前提:一、充足的训练数据;二、训练数据相应的标签。因此,分类的结果会被限制在这些已知类别内。

单分类问题则将待分类的样本类别从已知类别扩大到未知类别,其目的是从所有待分类样本中找到某一种特定类别的样本,而不考虑其他样本的类别。

在现有技术中,一般从原始正样本数据中,基于词的粒度,构造每个词的特征表示后组合成该文本的特征表示,再把这个文本的特征输入单分类器进行训练,使用训练好的单分类器对测试样本进行分类,其中,常用的分类器有单分类svm(one-classsupportvectormachine,ocsvm)。然而这种特征构造方法仅仅基于词的粒度,没有结合上下文的深层次语义信息,忽略了词与词之间的依赖关系,导致正样本集在特征空间中的分布并不能很好地与负样本区分开来,导致分类器的分类效果不佳。



技术实现要素:

本发明的主要目的在于提供一种文本分类模型的训练方法、装置及计算机可读存储介质,旨在解决实现提高文本分类器的分类效果。

为实现上述目的,本发明提供一种文本分类模型的训练方法,所述文本分类模型的训练方法包括以下步骤:

获取已标识为正样本的样本组对应的第一词向量序列;

获取已识别类别的样本组对应的第二词向量序列;

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征;

基于所述第一特征计算均方距离作为紧凑性损失;

基于所述第二特征计算交叉熵作为描述性损失;

根据所述紧凑性损失和所述描述性损失计算误差损失;

基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。

优选地,所述基于所述第一特征计算均方距离作为紧凑性损失的步骤包括:

从所述第一特征中确定一个目标特征;

计算所述目标特征之外的第一特征的均值;

计算所述目标特征与所述均值的差值;

返回执行所述从所述第一特征中确定一个目标特征的步骤,直至获得各个所述第一特征对应的差值,并根据所述差值计算均方距离作为所述紧凑性损失。

优选地,所述特征提取神经网络为卷积神经网络,所述通过特征提取神经网络提取所述第一词向量的第一特征和所述第二词向量的第二特征的步骤包括:

通过所述卷积神经网络对所述第一词向量和第二词向量进行卷积处理和池化处理,得到所述第一词向量和第二词向量在低维空间的特征表示;

将所述第一词向量和第二词向量在低维空间的特征表示输入全连接层进行处理,得到所述第一词向量的第一特征及所述第二词向量的第二特征。

优选地,所述基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数的步骤之后还包括:

获取所述已标识为正样本的样本组对应的第一特征的特征均值;

将所述特征均值作为单分类模型的特征空间的中心点。

优选地,所述将所述特征均值作为单分类模型特征空间的中心点的步骤之后,还包括:

获取测试样本,及所述测试样本对应的特征;

将所述测试样本对应的所述特征映射至所述特征空间;

计算所述测试样本对应的所述特征在所述特征空间中的映射点,与所述中心点的欧式距离;

根据所述欧式距离进行文本分类。

优选地,所述根据所述欧式距离进行文本分类的步骤包括:

判断所述欧式距离是否小于或等于预设距离阈值;

当所述欧式距离小于或等于所述预设距离阈值时,判定所述测试样本为正样本。

优选地,所述已标识为正样本的样本组的文本内容和所述已识别类别的样本组的文本内容相关联。

此外,为实现上述目的,本发明还提供一种文本分类模型的训练装置,其特征在于,所述文本分类模型的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练程序,所述训练程序被所述处理器执行时实现如上所述的文本分类模型的训练方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有训练程序,所述训练程序被处理器执行时实现如上所述的文本分类模型的训练方法的步骤。

本发明实施例提出的一种文本分类模型的训练方法、装置及计算机可读存储介质,先获取已标识为正样本的样本组对应的第一词向量序列,以及获取已识别类别的样本组对应的第二词向量序列,然后通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征,并基于所述第一特征计算均方距离作为紧凑性损失,基于所述第二特征计算交叉熵作为描述性损失,最后根据所述紧凑性损失和所述描述性损失计算误差损失,进而基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。由于本发明可以计算误差损失,并通过误差损失对特征提取神经网络进行反向优化,因此提高了分类器的分类效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明文本分类模型的训练方法第一实施例的流程示意图;

图3为本发明文本分类模型的训练方法第二实施例的流程示意图;

图4为本发明文本分类模型的训练方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:

获取已标识为正样本的样本组对应的第一词向量序列;

获取已识别类别的样本组对应的第二词向量序列;

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征;

基于所述第一特征计算均方距离作为紧凑性损失;

基于所述第二特征计算交叉熵作为描述性损失;

根据所述紧凑性损失和所述描述性损失计算误差损失;

基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。

本发明实施例提出的一种文本分类模型的训练方法、装置及计算机可读存储介质,先获取已标识为正样本的样本组对应的第一词向量序列,以及获取已识别类别的样本组对应的第二词向量序列,然后通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征,并基于所述第一特征计算均方距离作为紧凑性损失,基于所述第二特征计算交叉熵作为描述性损失,最后根据所述紧凑性损失和所述描述性损失计算误差损失,进而基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。由于本发明可以计算误差损失,并通过误差损失对特征提取神经网络进行反向优化,因此提高了分类器的分类效果。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是pc,也可以是便携计算机、智能移动终端或服务器等终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)、鼠标等,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及训练程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的训练程序,并执行以下操作:

获取已标识为正样本的样本组对应的第一词向量序列;

获取已识别类别的样本组对应的第二词向量序列;

通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征;

基于所述第一特征计算均方距离作为紧凑性损失;

基于所述第二特征计算交叉熵作为描述性损失;

根据所述紧凑性损失和所述描述性损失计算误差损失;

基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。

进一步地,处理器1001可以调用存储器1005中存储的训练程序,还执行以下操作:

从所述第一特征中确定一个目标特征;

计算所述目标特征之外的第一特征的均值;

计算所述目标特征与所述均值的差值;

返回执行所述从所述第一特征中确定一个目标特征的步骤,直至获得各个所述第一特征对应的差值,并根据所述差值计算均方距离作为所述紧凑性损失。

进一步地,处理器1001可以调用存储器1005中存储的训练程序,还执行以下操作:

通过所述卷积神经网络对所述第一词向量和第二词向量进行卷积处理和池化处理,得到所述第一词向量和第二词向量在低维空间的特征表示;

将所述第一词向量和第二词向量在低维空间的特征表示输入全连接层进行处理,得到所述第一词向量的第一特征及所述第二词向量的第二特征。

进一步地,处理器1001可以调用存储器1005中存储的训练程序,还执行以下操作:

获取所述已标识为正样本的样本组对应的第一特征的特征均值;

将所述特征均值作为单分类模型的特征空间的中心点。

进一步地,处理器1001可以调用存储器1005中存储的训练程序,还执行以下操作:

获取测试样本,及所述测试样本对应的特征;

将所述测试样本对应的所述特征映射至所述特征空间;

计算所述测试样本对应的所述特征在所述特征空间中的映射点,与所述中心点的欧式距离;

根据所述欧式距离进行文本分类。

进一步地,处理器1001可以调用存储器1005中存储的训练程序,还执行以下操作:

判断所述欧式距离是否小于或等于预设距离阈值;

当所述欧式距离小于或等于所述预设距离阈值时,判定所述测试样本为正样本。

参照图2,本发明文本分类模型的训练方法第一实施例,所述文本分类模型的训练方法包括:

步骤s10、获取已标识为正样本的样本组对应的第一词向量序列;

步骤s20、获取已识别类别的样本组对应的第二词向量序列;

在本实施例中根据本发明提出的方法训练文本分类模型,即根据训练数据优化所述文本分类模型的分类参数。

本实施例提出的文本分类模型具体适用场景可以是用于筛选食药监舆情信息。由于随着人们的生活质量不断提高,对食品和药品的要求随之提高。我国目前建立了较为完备的食品药品质量安全标准,但对于食品药品安全的新闻舆情的分析并不多。食品药品安全分析是食品药品安全管理的重要组成部分,其功能主要在于对食品药品安全风险的预防预测。影响食品药品安全的因素复杂多变,对于食品药品安全监管的难度系数也越来越大。要获取食药监舆情文本进行分析的第一步是从网上的国内传统媒体数字报和各大网站及移动客户端发布的内容中筛选出食药监舆情信息。在筛选食药监舆情信息时,需要先根据训练数据对文本分类模型进行训练。

在开始训练之前,需要先根据语料训练词向量。例如,可以获取50000条包含食药监舆情的中文新闻资讯数据,其中包括15000条标注为正样本的药监舆情文本数据(即已标识为正样本的样本)。获取50000条有标注的新闻分类的参考数据集(即已识别类别的样本),其中,所述新闻分类可以包括包含体育,财经,房产等10个类别的有标注新闻文档。使用上述数据组合成为语料,使用google的word2vec训练词向量。需要说明的是,由于训练词向量是不需要标注,只要根据上下文就可以训练,所以上述50000条包含食药监舆情的中文新闻资讯数据都可以用于训练词向量。

在获得预训练好的词向量模型后,将训练数据输入文本分类模型进行训练,其中,训练数据包括已标识为正样本的样本和已识别类别的样本。将训练数据根据预训练好的词向量转化为正样本对应的第一词向量序列和已识别类别的样本对应的第二词向量序列。

具体地,先将训练数据中的样本文本输入jieba(一种中文处理工具,可以对中文文本进行分词处理)进行处理,得到经过jieba分词后的中文单词序列w(w1,w2…wn),n表示输入的字符序列长度。

根据预先训练好的词向量模型,要把中文单词序列中的每个词投影到一个低维空间中,在这个低维空间中语意相近的词的距离都比较近。例如,“中国”和“广州”,“中国”和“计算机”两组词,前者在这个低维空间中的距离远小于后者之间的距离。得到词向量序列x(x1,x2…xn),x∈rn×d,d为词向量空间维度,该词向量序列作为下个步骤的特征提取神经网络的输入。

进一步地,经过jieba分词后的中文单词序列可以转换为单词对应的索引,在获得预训练好的词向量后,直接使用单词的索引查表即可获得该单词所对应的词向量。

需要说明的是,当扩大词向量模型的训练数据时,所述单词的可选项也越丰富,例如,当训练数据中包括英文文本及/或法文文本时,所述单词对应的可以为英文单词及或法文单词。因此,本实施例并不限定所述单词为中文单词及/或其它语种的单词。

步骤s30、通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征;

在本实施例中,由于要提取上下文的深层次语义信息和词与词之间的依赖关系,需要通过特征提取神经网络来提取文本的局部信息。优选地,特征提取神经网络可以是卷积神经网络(cnn),即将第一词向量序列输入卷积神经网络,经卷积操作后,获得第一词向量序列的特征,将第二词向量序列输入卷积神经网络,经卷积操作后,获得第二词向量序列的特征。

需要说明的是,所提取的第一特征和第二特征为训练文本的深度特征。在现有技术当中,基于词的粒度,构造每个词的特征表示后训练单分类器对测试样本进行分类,这种特征构造方法仅仅基于词的粒度,没有结合上下文的深层次语义信息,忽略了词与词之间的依赖关系,导致正样本集在特征空间中的分布并不能很好地与负样本区分开来,分类器的分类效果不佳。而本实施的方法中使用深度特征表示,替代了词向量等仅包含词的信息的特征表示,可以较好地改善分类效果。

具体地,可以根据以下步骤实现通过卷积神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征的步骤:

步骤s31、通过所述卷积神经网络对所述第一词向量和第二词向量进行卷积处理和池化处理,得到所述第一词向量和第二词向量在低维空间的特征表示;

具体地,将所述训练文本中已标识为正样本的样本组对应的第一词向量序列输入卷积神经网络进行处理,该卷积神经网络的卷积窗口大小设置为5、卷积核数量设置为200。第一词向量序列经过卷积神经网络的卷积处理后,将卷积处理结果进行池化操作,得到第一词向量在低维空间的特征表示。训练文本中已识别类别的样本组对应的也经过同样参数配置的卷积神经网络的卷积和池化处理得到第二词向量在低维空间的特征表示。

步骤s32、将所述第一词向量和第二词向量在低维空间的特征表示输入全连接层进行处理,得到所述第一词向量的第一特征及所述第二词向量的第二特征。

在本实施例中,将第一词向量和第二词向量在低维空间的特征表示c*输入全连接层,经过全连接层的处理后,得到第一词向量的第一特征及所述第二词向量的第二全局特f。

全连接层的处理中所用的激活函数可以为双曲正切函数tanh,处理公式为:

f=tanh(wfc*)

式中wf全连接层的处理参数。

步骤s40、基于所述第一特征计算均方距离作为紧凑性损失;

在本实施例中,在当前样本组中的文本为正样本时,可以根据第一特征计算紧凑性损失。

具体地,在计算紧凑性损失时,可以根据以下步骤进行:

步骤s41、从所述第一特征中确定一个目标特征;

步骤s42、计算所述目标特征之外的第一特征的均值;

步骤s43、计算所述目标特征与所述均值的差值;

步骤s44、返回执行所述从所述第一特征中确定一个目标特征的步骤,直至获得各个所述第一特征对应的差值,并根据所述差值计算均方距离作为所述紧凑性损失。

即在当前样本组为已表示为正样本的样本组时,可以根据当前样本组对应的第一特征进行计算,当所述样本组对应的第一特征为x={x1,x2,...,xn}∈rn×k,其中,n代表样本组对应的第一特征的数目,k为所述特征的维数。

对每一个特征,按照下面的步骤计算出对应的差值。

1、对第i个特征xi,先求出除第i个特征之外的其它特征的均值mi为:

2、接着计算出xi与mi的差值zi:

zi=xi-mi

最后计算紧凑性损失lc

步骤s50、基于所述第二特征计算交叉熵作为描述性损失;

在本实施例中,可以基于第二特征计算已识别类别的样本组对应的第二特征的描述性损失。具体地,本实施例中的文本分类模型还包括全连接层,已识别类别的样本组对应的第二特征经过全连接层的处理得到对样本的分类预测结果,基于此分类预测结果和该样本已识别的真实类别可计算交叉熵,计算公式如下:

其中,p表示已识别的真实类别,q表示分类预测结果。

需要说明的是,描述性评估的是第二特征描述不同类别的能力。

步骤s60、根据所述紧凑性损失和所述描述性损失计算误差损失。

在计算出紧凑性损失lc和描述性损失ld时,可以根据以下公式计算特征提取神经网络的误差损失l:

l=ld+λlc

其中,λ为预设系数。

需要说明的是,由于单分类问题不能找到负样本的分布情况,所以只能定义正样本而没有负样本。相比二分类和多分类等可以通过分类误差计算损失值,单分类仅有正样本,缺少损失计算方法而不能直接通过端到端的方式训练基于神经网络的文本分类模型。

在本实施例中,将高维样本数据映射到最适宜分类的特征空间,通过训练保证在新的特征空间中,类间距离最大化以及类内距离最小化。具体通过用已标识为正样本的样本数据计算紧凑性损失,使得类内距离最小化;通过已识别类别的样本数据计算描述性损失,使得基于神经网络的文本分类模型具有区分不同类别的能力和类间距离最大化。

同时,两个损失函数都优化一个共享的神经网络的所有神经元,促使多个在模型中运行的任务共同学习,即多个任务并行训练并共享不同任务已学到的特征表示,可以高效达到较优的分类效果。

步骤s70、基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。

在本实施例中,训练的目标就是最小化总体损失函数l,因此需要通过反向传播优化特征提取神经网络(包括卷积层和全连接层)的参数。首先利用损失函数对每个参数计算其偏导数,根据损失关于每个参数的偏导数(也就是梯度)决定每个参数对误差的影响,从而将误差反向传播至神经网络的参数。基于梯度下降策略,以总体损失函数l的负梯度方向对参数进行调整,最终使得模型的损失函数最小化。

本发明实施例提出的一种文本分类模型的训练方法、装置及计算机可读存储介质,先获取已标识为正样本的样本组对应的第一词向量序列,以及获取已识别类别的样本组对应的第二词向量序列,然后通过特征提取神经网络提取所述第一词向量序列的第一特征和所述第二词向量序列的第二特征,并基于所述第一特征计算均方距离作为紧凑性损失,基于所述第二特征计算交叉熵作为描述性损失,最后根据所述紧凑性损失和所述描述性损失计算误差损失,进而基于所述误差损失采用反向传播优化算法,训练所述特征提取神经网络的参数。由于本发明可以提取正样本和已识别类别的样本的深度特征,计算紧凑性误差损失和描述性误差损失,并通过两种误差损失的加权误差损失对特征提取神经网络采取反向传播算法进行优化,因此提高了文本分类器的分类效果。

进一步地,参照图3,本发明文本分类模型的训练方法第二实施例,基于上述第一实施例,所述步骤s70之后,还包括:

步骤s80、获取所述已标识为正样本的样本组对应的第一特征的特征均值;

步骤s90、将所述特征均值作为单分类模型的特征空间的中心点。

在本实施例中,文本分类模型还包括单分类模型。

具体地,n个正样本的采样经过特征提取网络后,获得n个对应的特征,将这些特征表示作为单分类模型的输入进行基于深度特征提取及单分类模型的联合学习,通过计算这n个特征表示的均值作为正样本映射到特征空间中的中心点c。这样,训练出了可以结合卷积神经网络进行分类的单分类模型。

在本实施例中,通过获取所述已标识为正样本的样本组对应的第一特征的特征均值,然后将所述特征均值作为单分类模型的特征空间的中心点,由于单分类模型的中心点由正样本确定,从而使得分类结果的质量提高,并且同时达到了训练单分类模型的目的。

进一步地,参照图4,本发明文本分类模型的训练方法第三实施例,基于上述第一至第二实施例,所述步骤s90之后,还包括:

步骤s100、获取测试样本,及所述测试样本对应的特征;

步骤s110、将所述测试样本对应的所述特征映射至所述特征空间;

步骤s120、计算所述测试样本对应的所述特征在所述特征空间中的映射点,与所述中心点的欧式距离;

步骤s130、根据所述欧式距离进行文本分类。

具体的,测试样本经过特征提取网络后,生成测试特征,进而将所述测试特征输入单分类模型,即将所述测试特征映射到单分类模型的特征空间,然后计算其映射点与所述中心点c的欧氏距离距离d。并根据所述欧氏距离距离d进行分类,其中,具体的分类过程可以包括以下步骤:

步骤s131、判断所述欧式距离是否小于或等于预设距离阈值;

步骤s132、当所述欧式距离小于或等于所述预设距离阈值时,判定所述测试样本为正样本。

具体地,即判断d是否大于阈值r得到分类结果:若d大于r,则预测该样本为负样本,若d小于大于r,则预测该样本为正样本。

在本实施例中,通过计算全局向量在特征空间中的映射点与单分类模型中心点的欧式距离,并根据所述欧式距离与阈值的大小关系进行分类,实现了目标文本的筛选和输入文本的分类。

此外,本发明实施例还提出一种文本分类模型的训练装置,所述文本分类模型的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的训练程序,所述训练程序被所述处理器执行时实现如上各个实施例所述的文本分类模型的训练方法的步骤。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有训练程序,所述训练程序被处理器执行时实现如上各个实施例所述的文本分类模型的训练方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能移动端,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1