一种多模型融合的短文本分类方法

文档序号:9708411阅读:782来源:国知局
一种多模型融合的短文本分类方法
【专利说明】一种多模型融合的短文本分类方法 【技术领域】
[0001] 本发明属于智能信息处理和计算机技术领域,具体涉及一种短文本分类方法。 【【背景技术】】
[0002] 随着互联网快速发展,各种网络应用深入到社会生活的方方面面。以微博、微信为 代表的各种社交应用,以及各种网络评论、反馈机制已经成为现代社会发布和获取信息的 重要渠道。在微博上,网民可以表达自己的心情、经历以及感悟,政府可以发布通告和各种 信息,人们也可以自由地表达对某些事的观点和见解等等。
[0003] 微博、微信、网络评论等数据都是字数有限的文本信息。这些数据都是典型的文本 短文,即短文本。通过对微博类短文本数据进行挖掘,可以获取社会关注热点、群众呼声和 意见反馈、突发事件传播、舆论倾向等等影响社会舆情的重要信息,可以为相关部门及时快 速地收集传递公民意见和建议。
[0004] 短文本挖掘的一个基本应用就是对短文本进行分类,根据文本内容对文本进行分 门别类地汇总。自然语言文本包含着复杂的信息。一篇文本往往可以对应多个分类目标。也 就是说,短文本分类是一个复杂的多标签分类问题。解决分类问题常用的方法包括朴素贝 叶斯分类、决策树分类、支持向量机分类、神经网络分类等等。但是这些单一分类方法的适 应性和分类效果在实践应用中还不能完全满足需求。 【
【发明内容】

[0005] 本发明的目的在于提供一种多模型融合的短文本分类方法,能够对短文本进行比 较准确的多标签分类。
[0006] 为了实现上述目的,本发明采用如下技术方案:
[0007] -种多模型融合的短文本分类方法,包括学习方法和分类方法两部分;
[0008] 1)、学习方法包括以下步骤:
[0009] (11)对短文本训练数据进行分词、过滤,得到单词集合;
[0010] (12)计算单词集合中每个单词的IDF值;
[0011] (13)每一个训练文本求取该文本内所有单词的TFIDF值,然后构建成文本向量,即 得到VSM文本向量;
[0012] (14)基于VSM文本向量进行文本聚类,并由聚类结果构建出本体树模型,然后在本 体树基础上构建出关键字重叠模型;基于VSM文本向量构建出朴素贝叶斯模型;基于VSM文 本向量构建出支持向量机模型;
[0013] 2)、分类方法包括以下步骤:
[0014] (21)对待分类文本进行分词、过滤;
[0015] (22)每一个待分类文本求取其所有单词的TFIDF值,然后构建成文本向量,即得到 VSM文本向量;
[0016] (23)应用学习方法所获得的本体树模型进行文本分类得到其分类结果;应用学习 方法所获得的关键字重叠模型进行文本分类得到其分类结果;应用学习方法所获得的朴素 贝叶斯模型进行文本分类得到其分类结果;应用学习方法所获得的支持向量机模型进行文 本分类得到其分类结果;
[0017] (24)对上述4种单一模型分类结果进行融合,得到最终分类结果。
[0018] 进一步的,学习方法第(11)步对文本进行分词、过滤具体包括以下步骤:
[0019] (111)对文本数据,用中文分词工具进行分词,将每一个句子分割成一系列单词及 其词性;
[0020] (112)对每个单词按照其词性进行过滤,滤除不需要的单词,共有两种过滤机制。 第一种过滤机制不需要的单词包括:停用词,长度为1的单词,纯数字以及以数字开头的单 词。保留的单词包括:名词、机构团体名、其它专名、名词性惯用语、名词性语素、动词、名动 词、趋向动词、形式动词、不及物动词(内动词)、动词性惯用语、动词性语素。第二种过滤机 制不需要的单词包括:代词、量词、介词、连词、助词、叹词、语气词、拟声词、标点符号;
[0021] (113)由所有文本数据过滤后的单词生成单词集合。
[0022] 进一步的,构建关键字重叠模型具体包括以下步骤:
[0023] (141)对同一类别的文本训练数据用TBC方法进行聚类;
[0024] (142)合并聚类结果中的小簇,合并后的簇心向量为被合并训练短文本向量的平 均值;
[0025] (143)重复(141)和(142),直到所有类别都完成;
[0026] (144)由聚类结果生成本体树模型;一个类别的聚类结果,对应着一个子树;在该 子树中,父节点是类别名称,下一层是簇标签节点,与聚类得到的簇一一对应,簇标签节点 由簇心向量前m(m默认值为50)个权重最大的词语及其权重组成,叶子节点则对应该簇中原 始的训练短文本;构建本体树的抽象根节点root,所有类别的子树作为root的子节点;得到 并保存本体树模型;
[0027] (145)由本体树生成关键字重叠模型;统计一个类别中所有簇标签中单词的出现 次数,并从大到小进行排序;按照下式计算类别c冲关键词k的局部权重W(Cl,tj):
[0028]
[0029] 其中,f(Ci,tj)表示关键词tj在类别Ci中的排位次序;类别Ci中出现最多的关键词 排位为〇,出现次多的关键词排位为1,依次类推;m表示类别(^的中不同单词的数目,b(b默 认值为0.2)为用户设置的系统参数;
[0030] 然后统计关键词k在所有类别中的次数,根据下式计算关键词h的全局权重w(tj)
[0031]
[0032] 其中,f(tj表示关键词k在多少个类别中出现过,N表示所有不同单词的数目;记 录每个关键词在每个类别中的局部权重,及其全局权重,保存为关键字重叠模型;
[0033] 构建朴素贝叶斯模型具体包括以下步骤:
[0034] (151)对于所有训练文本统计分别每个类别的出现概率P(Cl),其中Cl表示一个类 别;
[0035] (152)对单词集中的每一个单词,统计该单词在每个类别出现概率P(k I Cl),其中 Ci表不一个类别,tj表不一个单词;
[0036] (153)将上述类别和单词所对应的概率值保存到文件中,构成朴素贝叶斯模型;
[0037] 构建支持向量机模型具体包括以下步骤:
[0038] (161)把训练数据转换成支持向量机软件包1^131^11册#斤需数据格式;
[0039] (162)利用LibLinear训练支持向量机模型;
[0040] (163)将训练结果保存为支持向量机模型。
[0041 ]进一步的,TBC方法具体包括以下步骤:
[0042] (1411)取第一条数据单独为一个簇,并作为簇中心;
[0043] (1412)依次取后续数据并计算该数据与当前所有簇中心的余弦相似性;如果该相 似度大于给定阈值(默认值为0.09)则将该数据放入与其相似度最大的簇中,并调整该簇中 心;如果该相似度小于给定阈值则将该数据单独生成一个簇,并作为簇中心;
[0044] (1413)按照上述过程把所有数据处理完之后,再次遍历所有数据,依次取一条数 据,计算该数据与当前所有簇中心的余弦相似度,然后将该数据放入与其最相似的簇中;如 此处理完一遍所有数据并调整当前所有的簇中心;
[0045] (1414)如果簇中心有变化,则重复过程(1413)直至簇中心不再变化为止;当簇中 心不再变化时,聚类结束。
[0046] 进一步的,应用学习方法所获得的本体树模型进行文本分类得到其分类结果,具 体包括以下步骤:
[0047] (231)计算待分类文本向量与本体树中簇标签的余弦相似度;
[0048] (232)按照相似度从大到小进行排序;
[0049] (233)选择相似度最大的前k(k默认值为20)个簇标签;这些簇标签父节点所标记 类别即为待分类文本类别;
[0050] (234)相似度最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后 续者依次减1;
[0051] 应用学习方法所获得的关键字重叠模型进行文本分类得到其分类结果;具体包括 以下步骤:
[0052] (241)在关键词重叠模型中,按照下式计算待分类文本T属于类别(^的权重v(T, Ci):
[0053]
[0054] 其中,τ= [ti,t2,......,tn],表示待分类文本的VSM向量;w(ci,tj)表示关键词重叠 模型中关键词k对类别Cl的局部权重;w(tj表示关键词重叠模型中关键词k的全局权重; [0055] (242)重复(241),计算待分类文本对所有类别的权重;
[0056] (243)按照权重从大到小进行排序;
[0057] (244)选择权重最大的前k(k默认值为20)个类别,这些类别即为待分类文本类别;
[0058] (245)权重最大者所对应类别强度值记为20,次大者对应类别强度值减小1,后续 者依次减1;
[0059]应用学习方法所获得的朴素贝叶斯模型进行文本分类得到其分类结果;具体包括 以下步骤:
[0060] (251)按照下式计算待分类文本T属于类别(^的可能性Q(Cl |T);
[0061]
[0062] 如果类别Ci中不包含关键词t j (t j e T),则P(t j I Ci) = ε,ε是
[0063] (252)重复(251),计算待分类文本对所有类别的可能性;
[0064] (253)按照可能性从大到小进行排序;
[0065] (254)选择可能性最大的前k(k默认值为20)个类别;这些类别即为待分类
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1