一种基于文本情感倾向识别的舆情检测方法

文档序号:8412479阅读:245来源:国知局
一种基于文本情感倾向识别的舆情检测方法
【技术领域】
[0001] 本发明涉及一种基于文本的情感倾向识别的舆情检测方法,尤其涉及自然语言的 情感分析,属于自然语言分析领域和网络信息安全领域。
【背景技术】
[0002] 随着web2.0不断发展,尤其是博客、微博、论坛等自媒体产生了用户的参与、评 价、体验、以及用户一些不满的情绪,这部分信息随着时间的积累将迅速的膨胀,依靠人工 的方式难以收集判断并整理。此类研究逐渐成为一个研究热点,比如专利名称一种从互联 网海量信息中发现热点的方法,专利号:200910028939. 8 ;以及专利名称网络热点和舆情 的检测方法,专利号:200910308542.4的技术文献;该发明通过搜集指定时间范围内的网 络论坛和博客系统的文档、提取本征特征、进行褒贬倾向性分析等步骤,获知网名对热点事 件的舆情观点。
[0003] 2011年,佛蒙特大学计算实验室的项目Hedonometer在过去的五年中每天都会对 Twitter上面的千万条Tweet进行情感分析,并将其结果记录了下来。通过分析它会在人们 的Tweet中寻找一些反映正面情绪或者负面情绪的关键词。
[0004] 2012年5月29日,联合国"全球脉动"(Global Pulse)计划发布《大数据开发: 机遇与挑战》报告,阐述了大数据带来的机遇、主要挑战和大数据应用。Global Pulse计划 是希望利用"大数据"来促进全球经济发展,使用自然语言解密软件来对社交网站和文本消 息中的信息进行"情绪分析",帮助预测某个给定地区的失业率、支出削减或是疾病爆发等 现象。
[0005] 目前在自然语言分析领域,由于国外的语言结构与国内的语言结构有着本质上的 差异,中文与英文的语法结构存在很大的差异,汉语的博大精深,国外的一些分析技术很难 应用到中文领域,特别在语义的识别上存在着一些误差。目前国内的常用的计算文本中抽 取的关键词和种子词的相似度来对文本的情感倾向性进行判别(S0-PMI算法)、虽然在实现 上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定。基于 svm算法,前提是训练一套较好的分析模型需要较长的时间,从实际角度来讲对于新词的扩 展需要重新进行测试训练,会增加扩展的复杂度。本方法基于词性的统计以及情感强度的 计算,具有较好的识别性能及准确度,同时方便于对情感词典的扩展。

【发明内容】

[0006] 针对现有技术中存在的技术问题,本发明的目的在于提供一种基于文本情感倾向 识别的舆情检测方法,实现了对文本情感倾向的快速分析、统计、判定,进行舆情监控、信息 预测等多个领域。
[0007] 本发明的方法主要是通过对一段文字信息进行分词处理过滤,抽取情感特征词, 然后与情感词库进行匹配查找,得到的词条对应的情感强度、分类以及极性,得出一段文字 或一句话的情感倾向及程度。
[0008] 本发明的舆情检测方法流程图如附图所示,其步骤为:
[0009] 1)建立一个情感特征词库,用于存储基本的情感特征词语及其情感强度、类别、极 性等属性信息。其中(1,9)区间表示正面的情感强度,(_1,-9)区间表示负面情感强度,绝 对值越大,表示情感强度越大;
[0010] 2)对指定时间范围内或指定信息源中的每一待处理文本内容进行去杂处理,去除 文本内容中的干扰的杂质,例如url、email、数字、特殊符号、以及HTML标签。其中特殊字 符包括\r, \n, \t,HTML标签包括〈body〉、〈style〉、〈title〉、<br/>等带有尖括号闭合的标 签。
[0011] 3)分词处理,这里采用sews中文分词工具,将一段内容切分成若干个带有词性标 注的单词,例如:词性η表示名词,a表示形容词,V表示动词。
[0012] 4)根据分词到的结果进行过滤,排重处理。具体方法是:
[0013] a)过滤:为了提高词库的查询效率,通过sews分词得到的结果,按词性先过滤一 部分与情感特征词无关的词性,例如:人名、地名、机构、时间词、代词等。
[0014] b)排重:由于信息源是人为产生的,很可能有带有强烈的个人情感色彩,对情感 强度的判定会有一定干扰,以微博为例,例如汶川地震相关的评论,评论内容出现连续多个 [泪],这种情况将多个连续重复出现的单词计为1个单词。
[0015] 5)与情感特征词库进行匹配查找,抽取情感特征词以及对应的属性,得出对应的 分类、情感强度以及极性。
[0016] 6)根据情感强度以及极性的求和计算,可以反应出一段文字的情感倾向为正面或 是负面的
[0017] 7)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源 的舆情信息。
[0018] 进一步的,所述情感特征的词典为一个数组,每个词条属性包括:情感强度、分类、 极性。
[0019] 进一步的,所述情感词分类包括:乐、哀、惧、惊、恶、赞六类。
[0020] 进一步的,所取得情感强度的计算方法为E= Σ (tl, t2,…,tk) ;tk为每个情感特 征词的情感强度。
[0021] 进一步的,根据当前一段文字返回情感分类,其方法为:
[0022] a)通过sews分词工具得到一个分词后的结果数组,结果的属性包括(关键词、词 性、tf、idf、权重),通过去杂、排重、过滤以后,与情感词库做匹配查找,将匹配到的结果对 应的情感分类进行统计,每个分类统计出不同的情感分类以及所占有的比重,例如乐〉赞〉 哀 > 惧 > 恶 > 惊,那么作为比较高的分类乐最接近真实分类,由此可以分析出一段文字的情 感分类属性。
[0023] b)如果未能提取出情感特征词,说明此段文字情感倾向为中性,不具有明显的情 感倾向。与现有技术相比,本发明的积极效果为:本发明通过对一段文字的情感特征词抽取 和高效的过滤机制,降低了情感特征词匹配的时间复杂度,提高了运算效率。
【附图说明】
[0024] 附图为本发明的方法流程图。
【具体实施方式】
[0025] 下面对本发明的实施方式进行进一步的描述:
[0026] 1.情感词典的建立,操作方法:
[0027] 建立情感特征词典数组。本专利采用scwsl. 2. 2专用词库,按按词性进行提取,可 提取的词性为名词(n),动词(V),形容词(a),副词(d),成语(i),以及常用的网络词语进行 抽取和标注,其中正面的词汇用正整数数[1-9]表示,用负数[-1-9]表示负面词汇,数值 的绝对值越大,情感强度越强。
[0028] 2.情感词的分类
[0029] 目前常用的分类可以按情感色彩分类,分为乐、怒、哀、惧、惊,赞。也可以按情感极 性分类,分为正、负两级,正面表示积极的情绪,负面表示消极的情绪。
[0030] 表1 :情感特征词典结构
[0031]
【主权项】
1. 一种基于文本情感倾向识别的舆情检测方法,其步骤为: 1) 建立一情感特征词库,用于存储情感特征词语及其属性信息,所述属性信息包括:情 感强度、类别和极性; 2) 利用分词工具对指定时间范围内或指定信息源中的每一待处理文本内容进行分词, 并对分词结果进行过滤、排重处理; 3) 将处理后的分词与所述情感特征词库进行匹配,提取匹配的分词及其属性信息,得 到一匹配分词集合; 4) 根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向; 5) 根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆 情信息。
2. 如权利要求1所述的方法,其特征在于所述情感倾向包括该待处理文本内容的情感 类别、情感强调和极性。
3. 如权利要求2所述的方法,其特征在于对所述匹配分词集合中的分词按照分词的类 别进行统计,将分词数目最多的类别作为该待处理文本内容的情感类别;对所述匹配分词 集合中分词的情感强度进行求和,得到该待处理文本内容的情感强调;对所述匹配分词集 合中的分词按照分词的极性进行统计,将分词数目最多的极性作为该待处理文本内容的极 性。
4. 如权利要求3所述的方法,其特征在于所述情感类别包括乐、哀、惧、惊、恶、赞六类; 所述极性包括正面、负面;所述情感强度的取值区间为(1,9)。
5. 如权利要求1~4任一所述的方法,其特征在于步骤2)之前先对待处理文本内容进 行去杂处理,包括去除待处理文本内容中的urI、emai1、数字、特殊符号、以及html标签。
6. 如权利要求5所述的方法,其特征在于所述分词为具有词性标注的分词,根据词性 对分词结果进行过滤,从词性为名词的分词中识别出设定的与情感特征词无关的单词。
7. 如权利要求6所述的方法,其特征在于所述与情感特征词无关的单词包括:人名、地 名、机构、时间词和代词。
【专利摘要】本发明公开了一种基于文本情感倾向识别的舆情检测方法。本方法为:1)建立一情感特征词库,用于存储情感特征词语及其属性信息,所述属性信息包括:情感强度、类别和极性;2)利用分词工具将待处理文本内容进行分词,并对分词结果进行过滤、排重处理;3)将处理后的分词与所述情感特征词库进行匹配,提取匹配的分词及其属性信息,得到一匹配分词集合;4)根据所述匹配分词集合中的分词属性确定该待处理文本内容的情感倾向;5)根据所有待处理文件内容的情感倾向,确定该指定时间范围内或该指定信息源的舆情信息。与现有技术相比,本发明降低了情感特征词匹配的时间复杂度,提高了运算效率。
【IPC分类】G06F17-27, G06F17-30
【公开号】CN104731812
【申请号】CN201310717168
【发明人】苑志
【申请人】北京华易互动科技有限公司
【公开日】2015年6月24日
【申请日】2013年12月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1