基于多特征融合的微博文本数据分类方法

文档序号:8457339阅读:230来源:国知局
基于多特征融合的微博文本数据分类方法
【技术领域】
[0001] 本发明涉及计算机领域,尤其涉及一种基于多特征融合的微博文本数据分类方 法。
【背景技术】
[0002] 情感分析的目的是从文本中挖掘用户表达的观点以及情感极性。微博是一种新兴 的社交网络平台,它具有多样性、实时性、短文本等特点。对中文微博进行情感识别,在网络 舆情分析、信息过滤、用户兴趣发掘等领域都具有很好的应用前景。
[0003] 现有的情感分类技术有机器学习方法及语义方法两类。Pang等人使用机器学习方 法进行文本情感分类,比较了朴素贝叶斯、最大熵模型、和支持向量机方法的分类效果。此 外以词频、二值和否定词为特征集的研宄,在新闻评论中获得了较好的分类性能。语义方法 方面,Turney提出了 PMI-IR算法,其中短语的平均SO作为文本的情感倾向。朱嫣岚等提 出了基于HowNet的语义相似度和语义相关场的计算方法。
[0004] 目前,虽然国内外学者在情感分类方面已取得了一定的研宄成果,但现有研宄多 是针对领域的评论性文本,对中文微博的情感倾向性分析研宄仍然较少。另外,现有的文本 情感分析多是识别情感的褒贬极性,较少涉及多情感类别的分析。与传统文本相比,中文微 博具有长度短、情感层次丰富、文本表述不规范、存在大量网络新词汇等特点。因此,中文 微博情感识别方法与传统文本还存在较大差异。同时由于微博情感语词不能很好的分类提 取,对于用户在使用过程中造成了极大的困惑,降低了用户相关数据提取的效率。

【发明内容】

[0005] 本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于多 特征融合的微博文本数据分类方法。
[0006] 为了实现本发明的上述目的,本发明提供了一种基于多特征融合的微博文本数据 分类方法,其关键在于,包括:
[0007] 步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并 计算特征信息权重;
[0008] 步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算;
[0009] 步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完 毕的特征信息进行展示操作。
[0010] 所述的基于多特征融合的微博文本数据分类方法,优选的,所述步骤1包括:
[0011] 步骤1-1,确定情感特征词集,所述情感特征词集包括程度副词、否定副词集、表情 符号集、转折词集和感叹词集;
[0012] 步骤1-2,设置数据信息观察窗口 [-X,+X],对文中的任意情感词,分别观察其左、 右两边距离为X的词语数据,所述X为整数,如有程度副词或否定副词,则将其与当前词相 连形成短语;如不存在否定副词或程度副词,则将当前词形成短语,并收集得到特征W和类 别c ;
[0013] 步骤1-3,以词频作为获取特征信息得到特征信息权值为计算基础,通过公式, - _NxjAD-CBf_ 1 ' j {A + C)x{B + D)y.{A+B)y.{C + D) ·
[0014] 其中:A是特征w和类别c共现的次数,B是w出现但c不出现的次数,C是c出现 但w不出现的次数,D是w和c都不出现的次数,N是文档总数。
[0015] 所述的基于多特征融合的微博文本数据分类方法,优选的,所述步骤2包括:
[0016] 步骤2-1,通过先验概率和类别的条件概率来估计文档d对于类别Ci的后验概率, 以此实现文档的类别判断;
[0017] 步骤2-2,朴素贝叶斯多项式模型的算法描述如下:
[0018] 在训练文本集D和类别集合C上计算每个类别的先验概率P(Cj);
[0019] 计算特征项1^属于类别c」的条件概率P (t i I Cj);
[0020] 计算待测文本d属于类别h的后验概率,取后验概率最大的类别作为文本的类别 Cnb,后验概率的计算为:
【主权项】
1. 一种基于多特征融合的微博文本数据分类方法,其特征在于,包括: 步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算 特征信息权重; 步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算; 步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的 特征信息进行展示操作。
2. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法,其特征在于,所 述步骤1包括: 步骤1 -1,确定情感特征词集,所述情感特征词集包括程度副词、否定副词集、表情符号 集、转折词集和感叹词集; 步骤1-2,设置数据信息观察窗口 [-X,+X],对文中的任意情感词,分别观察其左、右 两边距离为X的词语数据,所述X为整数,如有程度副词或否定副词,则将其与当前词相连 形成短语;如不存在否定副词或程度副词,则将当前词形成短语,并收集得到特征w和类别 c; 步骤1-3,以词频作为获取特征信息得到特征信息权值为计算基础,通过公式,
其中:A是特征w和类别c共现的次数,B是w出现但c不出现的次数,C是c出现但w不出现的次数,D是w和c都不出现的次数,N是文档总数。
3. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法,其特征在于,所 述步骤2包括: 步骤2-1,通过先验概率和类别的条件概率来估计文档d对于类别Ci的后验概率,以此 实现文档的类别判断; 步骤2-2,朴素贝叶斯多项式模型的算法描述如下: 在训练文本集D和类别集合C上计算每个类别的先验概率P(Cj); 计算特征项&属于类别的条件概率P(ti| Cj); 计算待测文本d属于类别c^_的后验概率,取后验概率最大的类别作为文本的类别CNB, 后验概率的计算为:
其中,P(Cj)是类别的先验概率;&表示待测文本d的第i个特征项;P(ti|Cj)是&属 于类别h的条件概率;wt(tJ是文本d中特征项&的权值。
4. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法,其特征在于,所 述步骤2定义权值为:
其中,h是情感类别;T为情感类别空间,记为:T= {like,angry,disgust,sadness,h appiness,fear,surprise},S卩为T= {喜欢,生气,厌恶,悲伤,幸福,胆怯,惊讶},八是分 类器在类别ti上的分类正确率; 定义k(l彡k彡N)为样本组别;Si为样本规模,SiGs;s= {1000,1500,2000,2500};Dte,k)是样本规模为si时的第k组样本;样本的规模组别为GroupN(l彡GroupN彡|S|),其 中NS=ITS| ;对分类器Nf,为保证权值的稳定性,计算权值时,需要从训练集中选取多种规 模、多组别的样本进行计算, 权值计算步骤为: 步骤 2-11 初始化的步骤,令k= 1,GroupN= 1,Si=S[GroupN], 步骤2-12,用乂对D 分类,计算Nf在类别t中的正确率pt,将其作为Nf在类别t的 权值,由此得到乂在规模为s时的第k组权值向量,定义为: W(s,k)={PJ; 步骤2-13,如果k彡N,则令k=k+1 ;返回步骤2-12 ; 否则,执行步骤2-14; 步骤2-14,计算权值向量:
步骤 2-15,如果GropuNSNS,则令GroupN=GroupN+l;k= 1;s=TS[GroupN];返回 步骤2-12 ; 否则
将MvV作为Nf的权值向量。
5.根据权利要求4所述的基于多特征融合的微博文本数据分类方法,其特征在于,所 述步骤3包括: 步骤3-1,进行分类融合,对任意待测文本D,分类融合,设分类结果权值向量:特征项 结果为fresult= {0,0, 0, 0, 0, 0, 0}; 步骤3-2,提取D的情感特征如果D中不存在任何情感特征;则 将D分类为无情感特征类;返回步骤3-2 ; 步骤3-3,如果D中存在特征项f,用分类器乂对D进行分类;如果Nf的分类结果为type;则有
步骤3-4,重复执行步骤3-3,直到D的每一特征分类完成为止;计算fresult的最大 值;如果特征项结果fresult中有唯一的最大值fresult[type],将D分类为type;否则,将 D分类为none,其中,type指待分析的情感类别;none指无情感类别。
【专利摘要】本发明公开了一种基于多特征融合的微博文本数据分类方法,包括:步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算;步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高,从而实现数据的快速抓取,保证数据分类的准确性。
【IPC分类】G06F17-30
【公开号】CN104778240
【申请号】CN201510163263
【发明人】卢玲, 杨武, 刘恒洋
【申请人】重庆理工大学
【公开日】2015年7月15日
【申请日】2015年4月8日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1