基于多特征融合的微博文本数据分类方法

文档序号：8457339阅读：230来源：国知局

基于多特征融合的微博文本数据分类方法
【技术领域】
[0001] 本发明涉及计算机领域，尤其涉及一种基于多特征融合的微博文本数据分类方法。
【背景技术】
[0002] 情感分析的目的是从文本中挖掘用户表达的观点以及情感极性。微博是一种新兴的社交网络平台，它具有多样性、实时性、短文本等特点。对中文微博进行情感识别，在网络舆情分析、信息过滤、用户兴趣发掘等领域都具有很好的应用前景。
[0003] 现有的情感分类技术有机器学习方法及语义方法两类。Pang等人使用机器学习方法进行文本情感分类，比较了朴素贝叶斯、最大熵模型、和支持向量机方法的分类效果。此外以词频、二值和否定词为特征集的研宄，在新闻评论中获得了较好的分类性能。语义方法方面，Turney提出了 PMI-IR算法，其中短语的平均SO作为文本的情感倾向。朱嫣岚等提出了基于HowNet的语义相似度和语义相关场的计算方法。
[0004] 目前，虽然国内外学者在情感分类方面已取得了一定的研宄成果，但现有研宄多是针对领域的评论性文本，对中文微博的情感倾向性分析研宄仍然较少。另外，现有的文本情感分析多是识别情感的褒贬极性，较少涉及多情感类别的分析。与传统文本相比，中文微博具有长度短、情感层次丰富、文本表述不规范、存在大量网络新词汇等特点。因此，中文微博情感识别方法与传统文本还存在较大差异。同时由于微博情感语词不能很好的分类提取，对于用户在使用过程中造成了极大的困惑，降低了用户相关数据提取的效率。

【发明内容】

[0005] 本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于多特征融合的微博文本数据分类方法。
[0006] 为了实现本发明的上述目的，本发明提供了一种基于多特征融合的微博文本数据分类方法，其关键在于，包括：
[0007] 步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；
[0008] 步骤2,通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；
[0009] 步骤3,将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。
[0010] 所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤1包括：
[0011] 步骤1-1，确定情感特征词集，所述情感特征词集包括程度副词、否定副词集、表情符号集、转折词集和感叹词集；
[0012] 步骤1-2,设置数据信息观察窗口 [-X，+X]，对文中的任意情感词，分别观察其左、右两边距离为X的词语数据，所述X为整数，如有程度副词或否定副词，则将其与当前词相连形成短语；如不存在否定副词或程度副词，则将当前词形成短语，并收集得到特征W和类别c ;
[0013] 步骤1-3,以词频作为获取特征信息得到特征信息权值为计算基础，通过公式， - _NxjAD-CBf_ 1 ' j {A + C)x{B + D)y.{A+B)y.{C + D) ·
[0014] 其中：A是特征w和类别c共现的次数，B是w出现但c不出现的次数，C是c出现但w不出现的次数，D是w和c都不出现的次数，N是文档总数。
[0015] 所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤2包括：
[0016] 步骤2-1，通过先验概率和类别的条件概率来估计文档d对于类别Ci的后验概率，以此实现文档的类别判断；
[0017] 步骤2-2,朴素贝叶斯多项式模型的算法描述如下：
[0018] 在训练文本集D和类别集合C上计算每个类别的先验概率P(Cj);
[0019] 计算特征项1^属于类别c」的条件概率P (t i I Cj);
[0020] 计算待测文本d属于类别h的后验概率，取后验概率最大的类别作为文本的类别 Cnb，后验概率的计算为：
【主权项】
1. 一种基于多特征融合的微博文本数据分类方法，其特征在于，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2,通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；步骤3,将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。
2. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤1包括：步骤1 -1，确定情感特征词集，所述情感特征词集包括程度副词、否定副词集、表情符号集、转折词集和感叹词集；步骤1-2,设置数据信息观察窗口 [-X，+X]，对文中的任意情感词，分别观察其左、右两边距离为X的词语数据，所述X为整数，如有程度副词或否定副词，则将其与当前词相连形成短语；如不存在否定副词或程度副词，则将当前词形成短语，并收集得到特征w和类别 c；步骤1-3,以词频作为获取特征信息得到特征信息权值为计算基础，通过公式，
其中：A是特征w和类别c共现的次数，B是w出现但c不出现的次数，C是c出现但w不出现的次数，D是w和c都不出现的次数，N是文档总数。
3. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤2包括：步骤2-1，通过先验概率和类别的条件概率来估计文档d对于类别Ci的后验概率，以此实现文档的类别判断；步骤2-2,朴素贝叶斯多项式模型的算法描述如下：在训练文本集D和类别集合C上计算每个类别的先验概率P(Cj); 计算特征项&属于类别的条件概率P(ti| Cj); 计算待测文本d属于类别c^_的后验概率，取后验概率最大的类别作为文本的类别CNB，后验概率的计算为：
其中，P(Cj)是类别的先验概率；&表示待测文本d的第i个特征项；P(ti|Cj)是&属于类别h的条件概率;wt(tJ是文本d中特征项&的权值。
4. 根据权利要求1所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤2定义权值为：
其中，h是情感类别；T为情感类别空间，记为：T= {like,angry,disgust,sadness,h appiness,fear,surprise}，S卩为T= {喜欢，生气，厌恶，悲伤，幸福，胆怯，惊讶}，八是分类器在类别ti上的分类正确率；定义k(l彡k彡N)为样本组别；Si为样本规模，SiGs;s= {1000，1500,2000,2500};Dte，k)是样本规模为si时的第k组样本；样本的规模组别为GroupN(l彡GroupN彡|S|)，其中NS=ITS| ;对分类器Nf，为保证权值的稳定性，计算权值时，需要从训练集中选取多种规模、多组别的样本进行计算，权值计算步骤为：步骤 2-11 初始化的步骤，令k= 1，GroupN= 1，Si=S[GroupN]，步骤2-12,用乂对D 分类，计算Nf在类别t中的正确率pt，将其作为Nf在类别t的权值，由此得到乂在规模为s时的第k组权值向量，定义为： W(s,k)={PJ; 步骤2-13,如果k彡N，则令k=k+1 ;返回步骤2-12 ; 否则，执行步骤2-14; 步骤2-14,计算权值向量：
步骤 2-15,如果GropuNSNS，则令GroupN=GroupN+l;k= 1;s=TS[GroupN];返回步骤2-12 ; 否则
将MvV作为Nf的权值向量。
5.根据权利要求4所述的基于多特征融合的微博文本数据分类方法，其特征在于，所述步骤3包括：步骤3-1，进行分类融合，对任意待测文本D，分类融合，设分类结果权值向量：特征项结果为fresult= {0,0, 0, 0, 0, 0, 0}; 步骤3-2,提取D的情感特征如果D中不存在任何情感特征；则将D分类为无情感特征类；返回步骤3-2 ; 步骤3-3,如果D中存在特征项f，用分类器乂对D进行分类；如果Nf的分类结果为type;则有
步骤3-4,重复执行步骤3-3,直到D的每一特征分类完成为止；计算fresult的最大值；如果特征项结果fresult中有唯一的最大值fresult[type]，将D分类为type;否则，将 D分类为none，其中，type指待分析的情感类别；none指无情感类别。
【专利摘要】本发明公开了一种基于多特征融合的微博文本数据分类方法，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高，从而实现数据的快速抓取，保证数据分类的准确性。
【IPC分类】G06F17-30
【公开号】CN104778240
【申请号】CN201510163263
【发明人】卢玲, 杨武, 刘恒洋
【申请人】重庆理工大学
【公开日】2015年7月15日
【申请日】2015年4月8日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢玲;杨武;刘恒洋;
技术所有人：重庆理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。