微博中网络新词抽取方法和微博情感分析方法及系统的制作方法

文档序号:6516477阅读:238来源:国知局
微博中网络新词抽取方法和微博情感分析方法及系统的制作方法
【专利摘要】本发明公开了一种针对网络微博进行情感分析的方法,针对传统情感分析中所存在的对突发事件多元化情感表示不足问题,提出了基于多维向量的表示模型来进行情感分析的方法。结合临床心理学情感检测表抽取情感词初始化情感分析向量,其次利用基于大规模语料库和统计的方法自动发现微博中的网络新词,自动吸收能表达情感的网络新词与情感标识符,不断扩充情感向量,并建立情感向量的层次化结构;最后基于已有的向量模型,对微博文本进行多角度情感分析和时序分析。
【专利说明】微博中网络新词抽取方法和微博情感分析方法及系统
【技术领域】
[0001]本发明属于数据挖掘领域,尤其涉及针对微博数据的情感分析方法。
【背景技术】
[0002]随着互联网和通信技术的发展,以新闻报道为代表的长文本已经不再是人们获得信息源的唯一途径。《2010年中国互联网舆情分析报告》调查显示,2010年年度网络热点事件中关于“腾讯与360大战”话题,新浪微博的回复量达到260万条,“上海世博会”的相关评论也达到106万条,远远超过新闻报道、社区、论坛的数目。2011年7月23日温州动车事件,新浪微博相关评论达到282万,腾讯微博也有684万回复量。可见微博已经成为社会舆论传播的重要媒介之一,对微博进行情感分析,是掌握网民对突发事件的情感反馈的主要手段。
[0003]情感分析,又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理归纳和推理的过程。目前情感分析的主要研究点在于对文本的倾向性进行分析,即挖掘网络文本内容蕴含的各种情感、信念、态度、意见和情感等属性信息。目前国内外对于文本倾向性的研究从方法上可大致分为两类:基于统计的文本倾向性研究方法和基于语义规则的文本倾向性研究方法。
[0004]基于统计的文本倾向性研究方法的核心思想是首先人工标注一些文档的倾向性,并将这些已标注文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待分析文档进行分类,从而识别出该文档的倾向性。有研究者使用标准的机器学习技术对文本分类工作进行了研究,比较了朴素贝叶斯(NativeBayes)、最大熵(Maximum Entropy)及支持向量机(Support Vector Machines)方法在文本分类上的效果,并提出了将分类结果按照语义倾向性强度进行细分的方法。
[0005]基于语义规则的文本倾向性研究方法主要有两种。第一种是先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。有研究者对形容词作倾向性分析,利用词汇之间的连词训练生成词汇间的同义或反义倾向的连接图,然后用聚类的方法将词汇聚成褒义和贬义两类。也有研究者使用两个词汇“excellent”与“poor”作为基准词来判断其它词汇的语义倾向,通过PMI_IR(PointwiseMutual Information and Information Retrieval,逐点互信息和信息检索)方法,计算词语的情感倾向值,根据给定的阈值把词语划分为褒义和贬义两个类别。也有研究者直接使用已有的本体知识库判断词的倾向性,如使用英文的WordNet及中文的HowNet来计算待估词与已选定的基准词对的语义距离,进而判断待估词的倾向性。第二种基于语义的文本倾向性的研究方法是预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。
[0006]上述研究无论采用监督学习还是无监督学习的方法,其对文本的情感分析都可以抽象成一个三元分类问题,即将文本的情感分为积极、消极、中立(或者正面、负面、中立)。实际上,用户在同一文本中往往体现出多元化的情感,例如微博“此次汶川地震我深深被大自然的力量震惊了,深切同情遇难同胞,,实际上体现出了两种情感“震惊”与“同情”,传统文本的三元分类对这种多元化的情感表征存在严重不足。目前,许多研究人员已经意识到这个不足,例如有研究者针对博客采用向量的表示方法对多元化情感进行建模,但其研究是基于表情符号来构建向量,并未充分利用内容信息进行分析研究。

【发明内容】

[0007]针对上述问题,本发明提出了一种基于能够充分表征多元化情感的多维向量来对微博情感进行分析的方法。
[0008]本发明的目的是通过以下技术方案实现的:
[0009]一方面,本发明提供了一种微博情感分析方法,该方法包括
[0010]步骤1,确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成;
[0011]步骤2,对于待分析的每条博文M,建立该博文的情感向量Em = <xM1,XM2,-,XMi,-> ;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则Em中对应的第i个元素XMi取值为I,否则取值为O ;
[0012]步骤3,基于博文的情感向量来得到对事件的情感分布。
[0013]上述方法中,所述步骤I中所述情感向量E中的情感词可以是从临床心理学中的情感检测表中抽取出的能够表示情感的情感词。
[0014]上述方法中,所述步骤I中所述情感向量E中还可包括能表达情感的表情符号。
[0015]上述方法中,所述步骤I还可包括对微博数据流进行监测,定期从微博语料库中抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中。
[0016]上述方法中,所述从微博语料库中抽取网络新词可包括以下步骤:
[0017]步骤I)基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合;
[0018]步骤2)从候选词集合中删除词典中已有的词;
[0019]步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息;
[0020]步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集。
[0021]上述方法中,还可包括步骤5)分别对两个或更多个微博语料库执行步骤I)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新
ο
[0022]上述方法中,在所述步骤I)之前还可包括对微博语料库进行预处理的步骤,其包括:对于仅转发的博文,进行直接合并,只保留一个样本;对于转发并评论的博文,将转发内容去除,只保留评论内容;对于拷贝信息源,提取主要关键词,作为一条微博进行处理。
[0023]上述方法中,所述步骤2)还可包括从候选词集合中删除出现频率低于预定阈值的词。
[0024]上述方法中,所述步骤3可包括对与事件相关的所有博文的情感向量求和,以分析在该事件中公众的主流情感及在情感向量的各维度上的情感分布比例。[0025]上述方法中,还可包括基于情感向量E建立情感向量层次结构,所述情感向量层次结构包括顶层、中间层、底层和倾向性层,其中底层为由多个情感词构成情感向量E,中间层是底层情感词的聚类,并隶属于顶层类别,顶层分为基本情绪、复合情绪和其他情绪三类型,倾向性层为每个情感词的情感倾向,分为积极、消极、中立三类。
[0026]上述方法中,还可包括对于待分析的每条博文M,分别建立该博文的顶层情感向量、中间层情感向量、底层情感向量和倾向层情感向量的步骤,其中上层的情感向量可由下层的情感向量聚合而成。
[0027]上述方法中,所述步骤3还可包括将博文的情感向量按照时间粒度进行聚合,以得到情感随时间的变化趋势。
[0028]上述方法中,所述步骤3还可包括基于所建立的博文的情感向量,统计各个事件中属于各情感的博文占与该事件相关的所有博文的比例。
[0029]又一方面,本发明提供了一种微博情感分析系统,包括:
[0030]情感向量确定模块,用于确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成;
[0031]微博情感向量建立模块,用于对于待分析的每条博文M,建立该博文的情感向量Em=〈XM1,XM2,…,XMi,…〉;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则Em中对应的第i个元素XMi取值为1,否则取值为O ;
[0032]情感分析模块,用于基于博文的情感向量来得到对事件的情感分布。
[0033]其中,所述情感向量确`定模块还可用于对微博数据流进行监测,定期从微博语料库抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中。
[0034]一方面,本发明提供了一种基于微博语料库抽取网络新词的方法,所述方法包括:
[0035]步骤I)基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合;
[0036]步骤2)从候选词集合中删除词典中已有的词;
[0037]步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息;
[0038]步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集。
[0039]上述抽取网络新词的方法还可包括步骤5)分别对两个或更多个微博语料库执行步骤I)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新词。
[0040]上述抽取网络新词的方法中,在所述步骤I)之前还可包括对微博语料库进行预处理的步骤,其包括:对于仅转发的博文,进行直接合并,只保留一个样本;对于转发并评论的博文,将转发内容去除,只保留评论内容;对于拷贝信息源,提取主要关键词,作为一条微博进行处理。
[0041]上述抽取网络新词的方法,所述步骤2)还可包括从候选词集合中删除出现频率低于预定阈值的词。
[0042]又一方面,本发明提供了一种基于微博语料库抽取网络新词的设备,所述设备包括:[0043]用于基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合的装置;
[0044]用于从候选词集合中删除词典中已有的词的装置;
[0045]用于从候选词集合中选择出现频率高的前K个候选词并计算其互信息的装置;
[0046]用于从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集的装置。
[0047]该设备还可包括用于从两个或更多个微博语料库得到多个网络新词候选集中选择在多个网络新词候选集中共同出现的词作为网络新词的装置。
[0048]与现有技术相比,本发明的优点在于:
[0049]基于能够充分表征多元化情感的多维向量来对微博情感进行分析,能有效对多元化情感进行表示。采用与临床心理学相结合的方法构建情感向量,并对微博数据流进行检测,自动发现并吸收能表示情感的网络新词来更新情感向量,不仅具有一定的权威性,同时也可以保证情感向量的全面性。建立情感向量的层次化结构,避免了情感向量的稀疏性;同时基于情感向量的层次结构,可对微博进行的多层次分析,能从不同角度反应公众对突发事件的情感态度。
【专利附图】

【附图说明】
[0050]以下参照附图对本发明实施例作进一步说明,其中:
[0051]图1为根据本发明实施例的抽取网络新词的方法的流程图;
[0052]图2为根据本发明实施例的情感向量的层次化结构示意图;
[0053]图3为根据本发明实施例的三种典型情感在不同事件上的分布图;
[0054]图4为根据本发明实施例的情感向量时序分析图。
【具体实施方式】
[0055]为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0056]在本发明的一个实施例中,提供了一种基于多维情感向量对微博进行情感分析方法。在介绍该方法的【具体实施方式】之前,首先介绍下文中使用的微博情感向量的定义:对于每条博文M, M =〈Time, WordSet〉;其中Time (也可以简记为T)表示博文M的发表时间;WordSet 表不博文 M 的关键词集合,WordSet = (Keyfford1, Keyfford2,..., KeyffordJ ,Keyffordi (I≤ i≤ K)表示博文M经分词、去除停用词后的关键词;其中,K为大于O的整数,其指示博文M中所含关键词的个数。假设E为包含多个情感词的情感向量,E = <word1,word2,......,wordN>,其中Wordi (I≤i≤N)表示第i个情感形容词;N为大于O的整数,
其指示情感向量E中包含的情感形容词的个数。则相应地对于博文M, M的情感向量Em可以表示为:Em = <XM1;XM2,……,XMn> ;其中,如果E中第i个情感词属于该博文M的关键词集合,则Em中对应的第i个元素XMi取值为1,否则取值为0,即:
[0057]
【权利要求】
1.一种微博情感分析方法,所述方法包括: 步骤1,确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成; 步骤2,对于待分析的每条博文M,建立该博文的情感向量Em=…,XMi,…〉;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则Em中对应的第i个元素XMi取值为I,否则取值为O ; 步骤3,基于博文的情感向量来得到对事件的情感分布。
2.根据权利要求1所述的方法,所述步骤I中所述情感向量E中的情感词是从临床心理学中的情感检测表中抽取出的能够表示情感的情感词。
3.根据权利要求1或2所述的方法,所述步骤I中所述情感向量E中还包括能表达情感的表情符号。
4.根据权利要求1所述的方法,所述步骤I还包括对微博数据流进行监测,定期从微博语料库中抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中。
5.根据权利要求4所述的方法,所述从微博语料库中抽取网络新词包括以下步骤: 步骤I)基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合; 步骤2)从候选词集合中删除词典中已有的词; 步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息; 步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集。
6.根据权利要求5所述的方法,还包括步骤5)分别对两个或更多个微博语料库执行步骤I)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新词。
7.根据权利要求5或6所述的方法,在所述步骤I)之前还包括对微博语料库进行预处理的步骤,其包括:对于仅转发的博文,进行直接合并,只保留一个样本;对于转发并评论的博文,将转发内容去除,只保留评论内容;对于拷贝信息源,提取主要关键词,作为一条微博进行处理。
8.根据权利要求5或6所述的方法,所述步骤2)还包括从候选词集合中删除出现频率低于预定阈值的词。
9.根据权利要求1所述的方法,所述步骤3包括对与事件相关的所有博文的情感向量求和,以分析在该事件中公众的主流情感及在情感向量的各维度上的情感分布比例。
10.根据权利要求1所述的方法,还包括基于情感向量E建立情感向量层次结构,所述情感向量层次结构包括顶层、中间层、底层和倾向性层,其中底层为由多个情感词构成情感向量E,中间层是底层情感词的聚类,并隶属于顶层类别,顶层分为基本情绪、复合情绪和其他情绪三类型,倾向性层为每个情感词的情感倾向,分为积极、消极、中立三类。
11.根据权利要求10所述的方法,还包括对于待分析的每条博文M,分别建立该博文的顶层情感向量、中间层情感向量、底层情感向量和倾向层情感向量的步骤,其中上层的情感向量可由下层的情感向量聚合而成。
12.根据权利要求11所述的方法,所述步骤3还包括将博文的情感向量按照时间粒度进行聚合,以得到情感随时间的变化趋势。
13.根据权利要求11所述的方法,所述步骤3还包括基于所建立的博文的情感向量,统计各个事件中属于各情感的博文占与该事件相关的所有博文的比例。
14.一种微博情感分析系统,包括: 情感向量确定模块,用于确定情感向量E,所述情感向量E由多个能够表示情感的情感词构成; 微博情感向量建立模块,用于对于待分析的每条博文M,建立该博文的情感向量Em =<x?1,x?2,…,XMi,…〉;其中,如果情感向量E中第i个情感词属于该博文M的关键词集合,则Em中对应的第i个元素XMi取值为1,否则取值为O ; 情感分析模块,用于基于博文的情感向量来得到对事件的情感分布。
15.根据权利要求14所述的系统,所述情感向量确定模块,还用于对微博数据流进行监测,定期从微博语料库抽取网络新词,并从中选择能表示情感的网络新词添加到情感向量E中。
16.一种基于微博语料库抽取网络新词的方法,所述方法包括: 步骤I)基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合; 步骤2)从候选词集合中删除词典中已有的词; 步骤3)从候选词集合中选择出现频率高的前K个候选词并计算其互信息; 步骤4)从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集。
17.根据权利要求16所述的方法,还包括步骤5)分别对两个或更多个微博语料库执行步骤I)至4)以得到多个网络新词候选集,并选择在多个网络新词候选集中共同出现的词作为网络新词。
18.根据权利要求16或17所述的方法,在所述步骤I)之前还包括对微博语料库进行预处理的步骤,其包括:对于仅转发的博文,进行直接合并,只保留一个样本;对于转发并评论的博文,将转发内容去除,只保留评论内容;对于拷贝信息源,提取主要关键词,作为一条微博进行处理。
19.根据权利要求16或17所述的方法,所述步骤2)还包括从候选词集合中删除出现频率低于预定阈值的词。
20.一种基于微博语料库抽取网络新词的设备,所述设备包括: 用于基于N-gram将微博语料库中的每条博文切分成多个候选词,从而形成候选词集合的装置; 用于从候选词集合中删除词典中已有的词的装置; 用于从候选词集合中选择出现频率高的前K个候选词并计算其互信息的装置; 用于从所述K个候选词中选择其互信息大于互信息阈值的候选词来构成网络新词候选集的装置。
21.根据权利要求20所述的设备,还包括用于从两个或更多个微博语料库得到多个网络新词候选集中选择在多个网络新词候选集中共同出现的词作为网络新词的装置。
【文档编号】G06F17/30GK103559233SQ201310506561
【公开日】2014年2月5日 申请日期:2013年10月24日 优先权日:2012年10月29日
【发明者】张鲁民, 贾焰, 周斌, 韩毅 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1