一种文本自动分类方法与流程

文档序号:13513102阅读:428来源:国知局
一种文本自动分类方法与流程
本发明涉及文本分类领域,特别是指一种文本自动分类方法。
背景技术
:在网络信息中,文本作为主要的信息承载途径占据着重要地位。文本分类(textclassification,tc)也就是利用计算机对文本集或是其它的实体和物件按照一定的分类体系或标准进行自动分类标记。目前,深度学习已经成功应用于多种模式分类问题,使用基于深度学习的方法,可以更好得挖掘蕴含在文本中的复杂语义关系。但是,现有技术中,一般采用单一的方法对文本进行分类,特征提取能力较弱,对噪声数据的处理能力较差,使得分类结果准确性较低。技术实现要素:本发明要解决的技术问题是提供一种文本自动分类方法,以解决现有技术所存在的噪声处理能力差、特征提取能力弱的问题。为解决上述技术问题,本发明实施例提供一种文本自动分类方法,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用softmax回归算法进行自动分类。进一步地,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。进一步地,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。进一步地,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。进一步地,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记录在特征词表中,其中,所述特征词表包括文本、文本中的特征词与文本中每个特征词的权值之间的对应关系;根据得到的特征词表,将每个文本依次表示为特征向量的形式。进一步地,所述根据得到的特征词表,将每个文本依次表示为特征向量的形式包括:按照预设的规则,判断第一文本是否是短文本;若是,则根据短文本特征扩充算法,对所述第一文本进行特征扩充,并基于特征扩充结果,将所述第一文本表示为特征向量的形式;若不是,则根据得到的特征词表,直接将所述第一文本表示为特征向量的形式。进一步地,在根据得到的特征词表,将每个文本依次表示为特征向量的形式之后,所述方法还包括:对表示为向量特征形式的每个数值进行归一化处理。进一步地,所述降噪深度神经网络模型包括:位于所述降噪深度神经网络模型最底层的第一降噪自动编码器、位于所述第一降噪自动编码器上层的第二降噪自动编码器、位于所述第二降噪自动编码器上层的第一受限玻尔兹曼机、位于所述第一受限玻尔兹曼机上层的第二受限玻尔兹曼机。进一步地,所述第一降噪自动编码器和第二降噪自动编码器组成降噪模块,所述降噪模块用于对输入所述降噪深度神经网络模型的特征向量进行降噪处理;其中,所述第二降噪自动编码器所在层是所述降噪模块的输出层同时也是所述第一受限玻尔兹曼机的输入层;所述第二受限玻尔兹曼机是所述降噪深度神经网络模型的输出层,输出层的输出结果为所述待分类的文本的特征表示。进一步地,所述降噪深度神经网络模型的输入是一个固定维度的特征向量。本发明的上述技术方案的有益效果如下:上述方案中,通过采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用softmax回归算法进行自动分类。这样,基于具有强大的抗噪能力的降噪自动编码器和具有强大的特征提取能力的受限玻尔兹曼机构建的降噪深度神经网络模型提取的待分类的文本的特征,能够提高文本分类的准确性和抗噪能力。附图说明图1为本发明实施例提供的文本自动分类方法的流程示意图;图2为本发明实施例提供的将获取的待分类文本表示为特征向量的流程示意图;图3为本发明实施例提供的降噪深度神经网络模型的拓扑示意图;图4为本发明实施例提供的降噪深度神经网络模型的原理示意。具体实施方式为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本发明针对现有的噪声处理能力差、特征提取能力弱的问题,提供一种文本自动分类方法。如图1所示,本发明实施例提供的文本自动分类方法,包括:s101,获取待分类的文本;s102,采用降噪自动编码器(denoisingautoencoder,dae)和受限玻尔兹曼机(restrictedboltzmannmachine,rbm),构建降噪深度神经网络模型(denoisingdeepneuralnetwork,ddnn);s103,利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;s104,根据特征提取结果,利用softmax回归算法进行自动分类。本发明实施例所述的文本自动分类方法,通过采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用softmax回归算法进行自动分类。这样,基于具有强大的抗噪能力的降噪自动编码器和具有强大的特征提取能力的受限玻尔兹曼机构建的降噪深度神经网络模型提取的待分类的文本的特征,能够提高文本分类的准确性和抗噪能力。在前述文本自动分类方法的具体实施方式中,进一步地,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。如图2所示,本实施例中,剔除所述获取的待分类的文本中的噪声数据,主要是剔除一些无用的信息,例如,新闻文本中经常出现的类似作者、版号、日期之类的无用信息,网站论坛中出现的类似发信人、发信日期、发信站、来源等无用的信息,及正文中的各种标点符号及特殊字符等无用的信息。在前述文本自动分类方法的具体实施方式中,进一步地,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。本实施例中,中文文本不同于英文文本,英文单词和单词之间由空格分隔,中文只有句子和句子之间有标点符号分隔,因此为提取词特征,要对去除噪声数据的中文文本进行分词处理。如图2所示,本实施例中,可以采用经过二次开发的中科院的ictclas分词系统进行分词,该系统可以依据开发者选择的语言来提供服务。在前述文本自动分类方法的具体实施方式中,进一步地,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。如图2所示,本实施例中,对文本进行分词处理后,里面会包含许多无用的特征词(也称为:停用词),这些特征词没有区分和预测能力,例如,助词、冠词、连词、代词、介词等,因此,去掉这些无用的特征词,以降低特征词的维度。在前述文本自动分类方法的具体实施方式中,进一步地,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记录在特征词表中,其中,所述特征词表包括文本、文本中的特征词与文本中每个特征词的权值之间的对应关系;根据得到的特征词表,将每个文本依次表示为特征向量的形式。如图2所示,本实施例中,将去停用词后得到的特征词映射成为词表形式,计算特征词表中每个特征词的权值并记录在所述特征词表中。本实施例中,可以采用词频-逆文档频率(termfrequency–inversedocumentfrequency,tf-idf)算法计算特征词表中每个特征词的权值,所述tf-idf算法表示为:tf_idf=(tf/ni)*lg(n/df)(1)式(1)中,tf_idf表示权值,tf为文本中特定特征值的词频,ni为文本中特征词的总数,n为文本的总数,df是包含该特征词的文本数。根据得到的特征词表,将每个文本依次表示为特征向量的形式,如表1所示,表1是文本的特征向量空间模型表示,表1中,dm代表某单个文本,tj代表某特征词,wij代表特征词的权值。表1文本的特征向量空间模型表示t1...tj...tnd1w11...w1j...w1n..................diwi1...wij...win..................dmwm1...wmj...wmn如图2所示,在前述文本自动分类方法的具体实施方式中,进一步地,所述根据得到的特征词表,将每个文本依次表示为特征向量的形式包括:按照预设的规则,判断第一文本是否是短文本;若是,则根据短文本特征扩充算法,对所述第一文本进行特征扩充,并基于特征扩充结果,将所述第一文本表示为特征向量的形式;若不是,则根据得到的特征词表,直接将所述第一文本表示为特征向量的形式。本实施例中,可以根据文本的大小确定其是否为短文本,例如,若文本的大小小于预设的阈值,则所述文本为短文本。。本实施例中,假定文本的训练数据集为d={di},要基于此数据集构建分类算法,其中,di={tk},短的文本中tk的数目一般比较小。所述短文本特征扩充算法主要分为了两步:a1、首先,选择出对分类有高指示性的特征构建出所需的特征空间t,从而对原始的特征空间d进行了降维。构建特征空间t时,应该尽量让特征空间t里的特征分布在每一个短的文本中,即保证每个样本空间与构建的特征空间t有直接的相关性;为确保特征分布的均匀避免稀疏,所选择的特征应该被较多的短文本包含。综上来看,特征空间t的构建要重点考虑每个类别在文本数量上的差异以及特征和类别之间的关联程度,在各个类别中选择出对类别分类贡献度大的特征,用来表征相应的类。这一点可以用表征某特征tk在类中分布情况的特征类内离散度diic来进行衡量。式(2)中,m表示ci类中的文本总数,f(tij)表示特征tij在ci类中第j篇文本中出现的次数,表示特征tij在ci类所有的文本中tf-idf的平均值。特征tij的类内离散度diic越小,表明其在类内的分布越均匀,也就具有能更好的区分各个类别的能力。接下来,对每个类的diic进行从大到小的排序,根据比例提取前k个特征,最后合并所有类不重复的特征构成特征空间t。a2、然后,就是对任意di从特征空间t中选出和tk相似度较高的特征进行扩展。在构建的特征空间t的基础上,就可以对短文本特征进行扩展。原理是利用与短文本自身所包含的特征t具有最大相关度的特征对其进行扩展。计算特征相关度的常见方法主要是利用互信息,可以直观的反应特征与类别的直接相关性,但是有个缺点就是对稀疏数据带来的不准确性异常的敏感,可能会导致特征之间的互信息成为负值,给后期的处理应用造成了麻烦。本实施例中,采用一种基于互信息的改进版计算公式,一定程度上避免了低频词组成的二元互信息高于高频词组成的二元组的问题,并且弱化了数据的稀疏对特征间相关度的影响。式(3)中,r(ti,tj)表示特征ti、tj之间的相关度,p(ti,tj)表示在数据集中,特征ti和tj同时出现的概率,p(ti)表示特征ti在数据集中出现的概率,p(tj)表示特征tj在数据集中出现的概率。在前述文本自动分类方法的具体实施方式中,进一步地,在根据得到的特征词表,将每个文本依次表示为特征向量的形式之后,所述方法还包括:对表示为向量特征形式的每个数值进行归一化处理。如图2所示,本实施例中,因为输入数据在数量级上的差距,会导致输入的数据出现不兼容问题,所以需要将输入构建的降噪深度神经网络模型的向量特征数值进行归一化处理,具体的:按照式(4)对表示为向量特征形式的每个数值进行归一化处理:式(4)中,xi、vi分别表示归一化前、后的特征值,v表示归一化后的特征向量,xmin和xmax分别是输入降噪深度神经网络模型的向量特征中值的最小值和最大值。在前述文本自动分类方法的具体实施方式中,进一步地,所述降噪深度神经网络模型包括:位于所述降噪深度神经网络模型最底层的第一降噪自动编码器、位于所述第一降噪自动编码器上层的第二降噪自动编码器、位于所述第二降噪自动编码器上层的第一受限玻尔兹曼机、位于所述第一受限玻尔兹曼机上层的第二受限玻尔兹曼机。在前述文本自动分类方法的具体实施方式中,进一步地,所述第一降噪自动编码器和第二降噪自动编码器组成降噪模块,所述降噪模块用于对输入所述降噪深度神经网络模型的特征向量进行降噪处理;其中,所述第二降噪自动编码器所在层是所述降噪模块的输出层同时也是所述第一受限玻尔兹曼机的输入层;所述第二受限玻尔兹曼机是所述降噪深度神经网络模型的输出层,输出层的输出结果为所述待分类的文本的特征表示。在前述文本自动分类方法的具体实施方式中,进一步地,所述降噪深度神经网络模型的输入是一个固定维度的特征向量。本实施例中,通过使用复旦大学收集整理的中文文本语料集对本实施例所述的文本自动分类方法进行测试研究,该语料集中包括近万篇的语料,囊括了20个类别,有体育、政治、医药、艺术、军事、经济等,数据集中训练集和测试集分布如表2所示。表2数据集中训练集和测试集分布类别类别名训练集测试集c1计算机900300c2环境900300c3农业900300c4经济900300c5政治900300c6运动900300……………………本实施例中,所述降噪深度神经网络模型作为特征提取模块的主要子模块,所述降噪深度神经网络模型的构建主要采用降噪自动编码器(dae)和受限玻尔兹曼机(rbm)两大组件。综合考虑训练的复杂度和模型的效率之后,本实施例中,采用2层的降噪自动编码(dae)和2层的(受限玻尔兹曼机rbm),降噪深度神经网络模型模型的拓扑结构如图3所示,所述降噪深度神经网络模型包括:位于所述降噪深度神经网络模型最底层的第一降噪自动编码器(dae1)、位于所述第一降噪自动编码器上层的第二降噪自动编码器(dae2)、位于所述第二降噪自动编码器上层的第一受限玻尔兹曼机(rbm1)、位于所述第一受限玻尔兹曼机上层的第二受限玻尔兹曼机(rbm2)。本实施例中,所述第一降噪自动编码器(dae1)和第二降噪自动编码器(dae2)组成降噪模块,所述降噪模块用于对输入所述降噪深度神经网络模型的特征向量进行降噪处理;其中,所述第二降噪自动编码器(dae2)所在层是所述降噪模块的输出层同时也是所述第一受限玻尔兹曼机(rbm1)的输入层;所述第二受限玻尔兹曼机(rbm2)是所述降噪深度神经网络模型的输出层,输出层的输出结果为所述待分类的文本的特征表示。本实施例中,所述特征提取模块首先利用降噪模块对输入的原始特征向量进行降噪处理,所述降噪模块位于整个降噪深度神经网络模型的最底层,以便充分利用降噪自动编码器降噪的特性,通过降噪自动编码器的无监督学习能力对输入的原始特征向量进行重构,可以做到对输入信号的一个降噪处理,使得经过降噪自动编码器后进入网络的信号更加的纯净,减少了噪声数据对后续构建分类器所造成的影响。本实施例中,所述第一受限玻尔兹曼机和第二受限玻尔兹曼机具有强大的特征提取能力,所述第一受限玻尔兹曼机(rbm1)和第二受限玻尔兹曼机(rbm2)位于所述降噪深度神经网络模型的上层,可以学习出数据中复杂的规则,使得提取到的高层特征更加具有表征性;在经过rbm进一步的特征提取之后,将提取到的更具表征性的特征输入到最后的分类器中,以期得到最好的分类结果。在本实施例中,通过实验,选定合适的加噪比和学习率,提高特征提取模块的性能。在实施例中,降噪深度神经网络模型(ddnn)的运行过程如图4所示,降噪深度神经网络模型(ddnn)总共包含四层:dae1、dae2、rbm1和rbm2,v是可视层同时也是降噪深度神经网络模型(ddnn)的输入层,本实施例中,每篇文本都由固定维度的向量来表示,w1、w2、w3和w4分别表示的是各层之间的连接权重,h1、h2、h3和h4分别代表的是各个隐层,对应于dae1、dae2、rbm1和rbm2;对于所有的节点来说,同一层之间是没有节点连接的,但是每相连的两层之间节点和节点都是全连接的。本实施例中,降噪深度神经网络模型(ddnn)的输入是一个固定维度的向量,先由dae1和dae2两层组成的降噪模块进行训练,dae2层是降噪模块的输出层同时也是后续rbm1层的输入层,rbm2是降噪深度神经网络模型(ddnn)的输出层,代表了该文本的特征表示,和可视层进行对比,这一层为文本数据的高层特征表示,对后续的文本分类任务也都是基于这个高层特征进行计算的,可视层为文本数据的低层特征表示。本实施例中,识别分类模块采用softmax回归算法进行分类,其输入为降噪深度神经网络模型(ddnn)输出的高层特征。本实施例中,假设文本数据集中有来自k个类别的n个文本,训练集表示为{(x(1),y(1)),(x(2),y(2)),...,(x(n-1),y(n-1)),(x(n),y(n))},其中,x(i)代表第i个训练文本,y代表类别能够取多个不同的值,y(i)∈{1,2,...,k-1,k},softmax回归算法的主要目的在于对于给定的训练集x,需要能够计算出x属于标签类别的概率。假设函数如式(5):式(5)中,hθ(x(i))向量的每个分向量为文本x(i)属于不同类别的概率值,为使得所有的分向量的概率值和为1,需要将概率值做归一化的处理,θ1,θ2,...,θk-1,θk∈rn+1,rn+1指的是n+1维实数空间,这里的θ是一个n+1维的向量,就是softmax本身用到的参数,用来对样本每一维的属性进行加权,得到一个数上标t表示转置。softmax回归算法中用到的代价函数如式(6):式(6)中,1{}代表的是示性函数,当括号中的表达式取值为真时,该函数取值为1;反之,当括号中的表达式取值为假时,该函数的取值为0。θij表示的是softmax的第i个参数向量的第j维,是一个惩罚项。由于加号之前部分的原代价函数不是严格的凸函数,所以在后面加了一个权重衰减项,用于防止有多个最值的出现。当softmax回归模型参数λ>0,该代价函数会变成一个严格的凸函数,从而可以防止对训练样本过度拟合,最终得到全局的最优解。采用梯度下降法对代价函数进行求解极值,代价函数的梯度计算公式(7):在得到θ之后也就得到了之前假设的函数hθ(x)。从而可以根据函数hθ(x)计算出文本x所属于各个类别的概率值,概率值大的就是softmax回归算法预测出的最终分类。本实施例中,输入未加噪数据,将本发明中提出的文本自动分类方法与单一算法模型进行对比,得到的文本分类准确率如表3所示。表3不同算法下未加噪数据分类accuracy(%)输入加噪数据,将本发明中提出的文本自动分类方法与单一算法模型进行对比,得到的文本分类准确率如表4所示。表4不同算法加噪数据分类accuracy(%)表3和表4中,knn、bpnn、svm分别表示k最近邻、反向传播神经网络、支持向量机。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。以上所述是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1