基于混合自动编码器深度学习的文本分类方法及系统与流程

文档序号:13804818阅读:279来源:国知局
基于混合自动编码器深度学习的文本分类方法及系统与流程

本发明属于数据分类处理的技术领域,尤其是涉及一种基于混合自动编码器深度学习的文本分类方法及系统。



背景技术:

随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。然而,针对海量数据,特征高维性给文本分类带来诸多问题,无法满足人们对获取有用知识的需求。

深度学习,是一种无监督的特征学习和特征层次结构学习方法,无监督学习方法一般是通过重构原始输入数据来实现特征提取的特征学习方法,近几年来在机器学习领域比较热门。其本质是通过使用大量的训练数据以及构建出含多个隐藏层的网络结构模型,从而去学习更加抽象的高级特征。

在深度学习中,自动编码器是一种重要的训练模型,在机器学习的预测和识别领域成就显著,具有良好的特征学习能力,显著降低特征维度,已经有较多的研究学者做了关于自动编码器分类的实验。其中,ranzato等人使用一种稀疏性的约束方式对特征进行表达,通过数据的稀疏性来限制输入数据并只选取其中最关键的部分。benjio通过综合已经有的深度网络结构,提出了将自动编码器堆叠起来构造深度网络的方法。salah在对升维和降维添加了约束条件,最终提出了压缩自动编码器(cae)。

但是,目前随着数据量急剧增多,海量数据的特征高维性和稀疏性成为文本分类的两大难点,在使用分类算法时带来了两个问题:

一、在训练与分类时间上带来很大的开销;

二、过多的特征往往会导致人们常说的“维数灾难”问题,高维问题导致提取出来的特征不够准确,降低分类的准确度。

在文本分类中,传统的建模方法包括:堆叠、预训练、微调,已经相对比较落后单一,不能准确的提取出特征,在做实验研究时不能得到令人满意的训练结果。中国专利文献cn104866573a公开了一种文本分类的方法,在特征项提取中提出了针对传统的tfidf算法的不足,结合特征词权重对文本分类的实际影响,对传统tfidf算法公式进行修改,剔除干扰特征性在内间的影响,同时加入了类内离散度的概念,实现了文本分类精确度的要求。虽然提高文本分类的精确度,但是仍无法解决文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题。

综上所述,针对现有技术中的文本分类中存在的因海量数据的特征高维性和稀疏性造成的分类时间长、准确度低的问题,尚缺乏有效的解决方案。



技术实现要素:

针对现有技术中存在的不足,本发明提供了一种基于混合自动编码器深度学习的文本分类方法及系统,将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中提出一种混合自动编码器训练模型,该训练模型将收缩自动编码器鲁棒性的特征提取优点和srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。

本发明的第一目的是提供一种基于混合自动编码器深度学习的文本分类方法。

为了实现上述目的,本发明采用如下一种技术方案:

一种基于混合自动编码器深度学习的文本分类方法,该方法包括:

获取文本数据,进行预处理;

预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

将特征学习后的文本数据进行特征分类。

在本发明中,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成,将收缩自动编码器鲁棒性的特征提取优点和srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。

作为进一步的优选方案,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;

和/或直接获取带标签的文本数据集。

作为进一步的优选方案,在该方法中,所述预处理的具体步骤为:

提取带标签的文本数据集中的关键词;

将带标签的文本数据集进行分词,并去除停用词;

计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤。

作为进一步的优选方案,权重计算采用tfidf算法或改进后的tfidf算法。

在本发明中,改进的tfidf算法的精确度要高于传统的tfidf算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。

作为进一步的优选方案,所述混合自动编码器训练模型包括:输入层、第一隐含层、第二隐含层和输出层;

所述第一隐含层采用cae层,输入层与所述第一隐含层的cae层构成cae自动编码器网络,输入层为cae自动编码器网络的可视层,cae层为cae自动编码器网络的隐藏层;

所述第二隐含层采用srbm层,所述第一隐含层的cae层与所述第二隐含层的srbm层构成srbm网络,cae层为srbm网络的可视层,srbm层为srbm网络的隐藏层。

作为进一步的优选方案,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:

输入层获取预处理后的带标签的文本数据集;

根据接收输入层的数据,计算第一隐含层的重构误差,迭代训练第一隐含层,得到第一隐含层参数和第一特征向量;

将第一隐含层输出作为第二隐含层输入,计算第二隐含层的重构误差,迭代训练第二隐含层,得到第二隐含层参数和第二特征向量;

第二隐含层输出作为输出层输入,最终经由输出层输出。

作为进一步的优选方案,在迭代训练第一隐含层时,采用polyakaveraging进行隐含层参数的调整,直至第一隐含层的重构误差小于预先设置的第一重构误差阈值;

迭代训练第二隐含层时,采用polyakaveraging进行隐含层参数的调整,直至第二隐含层的重构误差小于预先设置的第一重构误差阈值;

作为进一步的优选方案,所述polyakaveraging为:

θk=θk-1+ηθk

其中,η为标量学习率,θ为隐含层参数,即训练网络的参数结合{w,a,b},w为混合网络模型权重矩阵,a为可视层的偏置矩阵,b为隐藏层的偏置矩阵,k为迭代次数,为θi在k次迭代下的平均值。

在本发明中,在迭代训练第一隐含层和第二隐含层时,使用polyakaveraging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且polyakaveraging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。

作为进一步的优选方案,

采用反向传播bp算法对所述混合自动编码器训练模型进行微调,直至所述混合自动编码器训练模型网络整体代价函数小于预先设置的第二重构误差阈值。

作为进一步的优选方案,将特征学习后的文本数据进行特征分类的具体步骤为:

将所述混合自动编码器训练模型的输出第二隐含层参数和原始带标签的文本数据集中的数据标签输入支持向量机svm分类器,并训练支持向量机svm分类器,进行文本分类。

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的,本发明采用如下一种技术方案:

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:

获取文本数据,进行预处理;

预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

将特征学习后的文本数据进行特征分类。

本发明的第三目的是提供一种终端设备。

为了实现上述目的,本发明采用如下一种技术方案:

一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:

获取文本数据,进行预处理;

预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

将特征学习后的文本数据进行特征分类。

本发明的有益效果:

1、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,将srbm加入到cae网络中,特征学习效果理想,实现了高维数据的降维作用,并且能够提取更加准确的特征,提高了分类精度,能够满足人们的需求,有着较好的实用性。

2、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成,将收缩自动编码器鲁棒性的特征提取优点和srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。

3、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,改进的tfidf算法的精确度要高于传统的tfidf算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。

4、本发明所述的一种基于混合自动编码器深度学习的文本分类方法及系统,在迭代训练第一隐含层和第二隐含层时,使用polyakaveraging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且polyakaveraging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明中的方法流程图;

图2为本发明中的混合自动编码器训练模型示意图;

图3是本发明中的隐含层模型示意图;

图4是本发明中的分类结果准确率示意图;

图5是本发明中的f1评估值示意图。

具体实施方式:

下面结合附图与实施例对本发明作进一步说明:

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1:

本实施例1的目的是提供一种基于混合自动编码器深度学习的文本分类方法。具体的是一种将稀疏受限玻尔兹曼机srbm和收缩自动编码器cae结合形成混合自动编码器训练模型的方法,将收缩自动编码器cae鲁棒性的特征提取优点以及稀疏受限玻尔兹曼机srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,使用无监督逐层贪婪学习算法对模型进行训练,更新参数时加入polyakaveraging加快参数收敛速度,反向传播bp算法对模型进行微调,最后通过支持向量机svm分类,实现了对分类数据分类精度的要求。

一种基于混合自动编码器深度学习的文本分类方法,如图1所示,

该方法包括:

步骤(1):获取文本数据,进行预处理;

在步骤(1)中,获取的文本数据为带标签的文本数据,将获取的文本数据形成带标签的文本数据集;

和/或直接获取带标签的文本数据集。

在本实施例中,选用搜狗新闻分类语料库,选取里面的汽车、文化、经济、教育、it和医疗六种新闻文本集,每类文本集有7990个文本,每个文本大小都不一样,都大于1kb,每类随机选取4000个文本训练,每类再随机选取2000个文本测试。

在步骤(1)中,预处理的具体步骤为:

步骤(1-1):提取带标签的文本数据集中的关键词;

步骤(1-2):将带标签的文本数据集进行分词,并去除停用词;

步骤(1-3):计算带标签的文本数据集中的各个关键词的权重,并将不重要的词语进行过滤。

其中,算带标签的文本数据集中的各个关键词的权重采用改进后的tfidf算法。改进的tfidf算法的精确度要高于传统的tfidf算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。

在本实施例中,混合自动编码器训练模型中第一隐含层和第二隐含层的学习率均设置为learning_rate=0.01,cae的压缩率contraction_level=0.1,cae层和srbm层的第一重构误差阈值设置为threshold1=0.2,反向传播bp算法调整参数时的第二重构误差阈值设置为threshold2=0.002,反向传播bp算法微调次数为300,输出神经元的个数为6,使用python实现。

如图2所示,混合自动编码器训练模型包括:输入层、第一隐含层、第二隐含层和输出层;

在本实施例中选择2个隐含层,既能体现文本提出的混合自动编码器模型,又能使网络的特征学习不那么复杂。

如图3所示,

所述第一隐含层采用cae层,输入层与所述第一隐含层的cae层构成cae自动编码器网络,输入层为cae自动编码器网络的可视层,cae层为cae自动编码器网络的隐藏层;

所述第二隐含层采用srbm层,所述第一隐含层的cae层与所述第二隐含层的srbm层构成srbm网络,cae层为srbm网络的可视层,srbm层为srbm网络的隐藏层。

收缩自动编码器cae是自编码器ae的一个变种,它的重构误差函数是在ae的重构误差上增添新的惩罚项——编码激活函数对于输入数据的雅克比矩阵(jacobianmatrix)的frobenius范数,在训练样本中惩罚项使特征空间映射是紧缩的,且能够鲁棒性的获取到中间特征,降低特征空间的维度;将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中,稀疏受限玻尔兹曼机srbm是在原来rbm求解对数似然函数上加上一种基于误差平方和的稀疏惩罚项来调节隐含层的稀疏性,将收缩自动编码器cae鲁棒性的特征提取优点和稀疏受限玻尔兹曼机srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力。

步骤(2):预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

在步骤(2)中,所述特征学习采用无监督逐层贪婪训练算法对所述混合自动编码器训练模型进行处理,特征学习的具体步骤为:

步骤(2-1):输入层获取预处理后的带标签的文本数据集;

步骤(2-2):根据接收输入层的数据,计算第一隐含层的重构误差ei(i为可视层第i个可视单元),迭代训练第一隐含层,进行隐含层参数的调整时加入polyakaveraging,直至第一隐含层的重构误差ei小于预先设置的第一重构误差阈值threshold1;得到第一隐含层参数θ1和第一特征向量h1;

步骤(2-3):将第一特征向量h1作为第二层隐含层srbm层的输入,计算第二隐含层的重构误差ei(i为可视层第i个可视单元),迭代训练第二隐含层,进行隐含层参数的调整时加入polyakaveraging,直至第二隐含层的重构误差ei小于预先设置的第一重构误差阈值threshold1;得到第二隐含层参数θ2和第二特征向量h2;

步骤(2-4):第二隐含层输出第二隐含层参数θ2作为输出层输入,最终经由输出层输出第二隐含层参数θ2。

polyakaveraging为:

θk=θk-1+ηθk

其中,η为标量学习率,θ为隐含层参数,即训练网络的参数结合{w,a,b},w为混合网络模型权重矩阵,a为可视层的偏置矩阵,b为隐藏层的偏置矩阵,k为迭代次数,为θi在k次迭代下的平均值。

在本发明中,在迭代训练第一隐含层和第二隐含层时,使用polyakaveraging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且polyakaveraging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。

步骤(2-5):采用反向传播bp算法对所述混合自动编码器训练模型进行微调,直至所述混合自动编码器训练模型网络整体代价函数小于预先设置的第二重构误差阈值threshold2。

步骤(3):将特征学习后的文本数据进行特征分类。

将特征学习后的文本数据进行特征分类的具体步骤为:

步骤(3-1):将所述混合自动编码器训练模型的输出第二隐含层参数和原始带标签的文本数据集中的数据标签输入支持向量机svm分类器;

步骤(3-2):训练支持向量机svm分类器,进行文本分类。

在本实施例中,为评价分类结果,验证本实施例提出的混合自动编码器训练模型良好的特征学习能力,采用f1评估值和准确率precision(p)来评价分类效果,r为召回率(recallrate),公式如下:

p=分类正确的分本数/实际分类的文本数×100%

r=分类正确的分本数/应有的文本数×100%

f1=2pr/(p+r)×100%。

对比例:

混合自动编码器训练模型中第一个隐含层为cae层,分别比较第二个隐含层为cae层和srbm层的节点数对分类准确率的影响,如图4所示,

随着srbm隐含层节点数的增加,分类准确率也在提高,隐含层个数在700左右时,测试文本数据分类的准确率达到最高,接近于92%,通过图4还可以看出混合模型的特征学习能力比单一的堆叠两层cae的特征学习能力要好。

比较两种不同的训练模型(堆叠两层cae网络和本实施例混合模型网络)训练文本并提取特征,比较在迭代次数为10、40和100时的网络训练收敛时间,如表1所示(单位:min):

表1

为加快网络的收敛时间,在两种不同的训练模型中分别加入polyakaveraging,并对比有无polyakaveraging时的收敛时间。由表1可以看出,本实施例提出的混合模型网络在收敛时长上比堆叠两层的cae要少,加入polyakaveraging算法加快了网络的收敛时间。

比较采用堆叠两层cae网络和本实施例提出的混合模型网络训练模型的f1评估值。经本实施例提出的混合模型训练之后,分类效果是最好的,f1评估值接近于95%,如图5所示。

由对比例可知,单一的将某一种自动编码器堆叠起来进行特征学习,往往不能达到预期的训练效果包括网络训练时间和参数收敛情况,本实施例将srbm加入到cae网络中,将不同的特征学习方式结合在一起,发挥两者的优势,尝试达到预期的学习效果。

实施例2:

本实施例2的目的是提供一种计算机可读存储介质。

为了实现上述目的,本发明采用如下一种技术方案:

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备设备的处理器加载并执行以下处理:

获取文本数据,进行预处理;

预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

将特征学习后的文本数据进行特征分类。

在本实施例中,计算机可读记录介质的例子包括磁存储介质(例如,rom,ram,usb,软盘,硬盘等)、光学记录介质(例如,cd-rom或dvd)、pc接口(例如,pci、pci-expres、wifi等)等。然而,本公开的各个方面不限于此。

实施例3:

本实施例3的目的是提供一种终端设备。

为了实现上述目的,本发明采用如下一种技术方案:

一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:

获取文本数据,进行预处理;

预处理后的文本数据基于混合自动编码器训练模型进行特征学习,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成;

将特征学习后的文本数据进行特征分类。

本发明的有益效果:

1、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,将srbm加入到cae网络中,特征学习效果理想,实现了高维数据的降维作用,并且能够提取更加准确的特征,提高了分类精度,能够满足人们的需求,有着较好的实用性。

2、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,所述混合自动编码器训练模型采用将稀疏受限玻尔兹曼机srbm加入到收缩自动编码器cae网络中形成,将收缩自动编码器鲁棒性的特征提取优点和srbm稀疏性的特征表示和使用对比散度快速学习优点结合,增强混合自动编码器的学习能力,并基于该模型进行特征学习,实现了对分类数据分类精度的要求。

3、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,改进的tfidf算法的精确度要高于传统的tfidf算法,而且具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强,易于推广。

4、本发明所述的种基于混合自动编码器深度学习的文本分类方法及系统,在迭代训练第一隐含层和第二隐含层时,使用polyakaveraging进行参数调整,有效加快参数收敛速度,且通过前后参数的平均化计算,有效消除相邻的两个参数之间因相差过大引起的波动现象;且polyakaveraging在进行参数调整时仅进行了两次简单的加法运算,不会影响所述混合自动编码器训练模型在训练时间上的开销。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1