一种基于情感分析在线检测微博热点事件的方法

文档序号:6510463阅读:759来源:国知局
一种基于情感分析在线检测微博热点事件的方法
【专利摘要】本发明公开一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
【专利说明】一种基于情感分析在线检测微博热点事件的方法
【技术领域】
[0001]本发明属于移动互联网【技术领域】,具体涉及一种基于情感分析在线检测微博热点事件的方法。
【背景技术】
[0002]互联网正逐步演变为无处不在的计算平台和信息传播平台,在线社交网站、微博、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类使用互联网的方式产生了深刻变革一由简单信息搜索和网页浏览转向网上社会关系的构建与维护以及基于社会关系的信息创造、交流和共享。
[0003]当前,社交网络应用正处在蓬勃发展期,Facebook上线8年来,已拥有超过10亿的用户,是第三大“人口国”,Twitter用户数也已超过5亿。根据各自官方网站的报告,截止2012年12月,新浪微博用户数已达到5亿,腾讯微博用户数已达到5.4亿。市场研究公司eMarketer于2012年3月发布的《世界社交网络使用:市场规模与增长预期报告》显示:2012年全球人口中的五分之一将使用社交网络,到2014年将达到四分之一,从用户增长规模等数据来看,中国的在线社交网站及微博的用户培养已进入成熟阶段。
[0004]研究在线微博领域数据流中热点事件,对于舆情监控与监管具有十分重要的意义,然而,因微博数据量大、产生速度快及数据噪声多,因而从海量数据中迅速在线检测出热点事件及突发事件难度较大:当前主要通过对信息流进行新话题的自动识别和已知话题的持续跟踪来发现微博数控流中讨论的热点事件,基于突发特征进行事件检测是挖掘数据流中热点事件的有效方法之一,其主要思想是首先抽取文档特征词,分析特征词随时间变化轨迹检测出突发特征词,然后将具有相同突发轨迹的特征词进行聚合,形成突发事件,所谓突发是指一段时间内包含一个词汇的文档数量明显高于其他时间段的情况,早在2002年Kleinberg教授提出了经典的Bursty挖掘算法,通过二元状态机模型对信息流进行建模,将特征词分为正常和突发两种状态。He在2007年基于TFIDF与Bursty相结合的特征建模方法,通过增加特征词的突发权重建立新的突发特征模型,取得了良好的效果。
[0005]然而,已有的方法多是对长文本的研究,应用于微博这类仅有140字的短文本有很大不足:首先,微博数据量大,检测突发特征需要花费大量时间,不适合在线处理;其次,微博中用户表达方式的多样化使得信息流中存在大量噪声,突发特征可能由不易被检测网络新词构成,增加了识别突发特征的难度。

【发明内容】

[0006]针对已有事件检测方法在海量在线微博文本数据流中效率低的问题,本发明提供一种基于情感分析在线检测微博热点事件的方法,它通过情感分析对在线微博文本进行情感抽取,采用改进的Kleinberg算法检测情感和情感文本的突发状态,并在突发期内通过近邻传播聚类算法抽取热点话题,使得只有少部分且有效的信息量比较大的文本参与事件挖掘,在精简数据量的同时过滤掉了大量数据噪声,从而能实现在线实时检测出微博热点事件。
[0007]本发明提供了一种基于情感分析在线检测微博热点事件的方法,其包括以下步骤:
[0008]步骤SOl:突发情感检测:通过情感抽取将时间窗口内的在线微博文本分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本;
[0009]具体地,步骤SOl包括以下分步骤:
[0010]步骤SOll:情感抽取:采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文本两类,且将情感文本根据情感模型按照不同的情感进行归类;
[0011]步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感;
[0012]步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改进的Kleinberg算法主要
包括以下步骤:首先采用公式
【权利要求】
1.一种基于情感分析在线检测微博热点事件的方法,其特征在于,其包括以下步骤: 步骤SOl:突发情感检测:通过情感抽取,将时间窗口内的在线微博文本分为情感文本和非情感文本,将情感文本按照不同的情感进行分类、归类及主流情感抽取,采用改进的Kleinberg算法检测主流情感的突发期及突发情感文本; 步骤S02:基于情感信息的事件抽取:对突发情感文本进行命名实体识别,将突发情感文本分成含有命名实体的情感文本和不含命名实体的情感文本,将含有命名实体的情感文本进行聚类以形成聚类事件,并将不同情感生成的聚类事件进行合并构建热点事件; 步骤S03:构建分离器进行离线回收:将步骤S02中的热点事件作为训练集合构造Bayes分类器,采用所述Bayes分类器对步骤SOl中的非情感文本及步骤S02中的不含命名实体的情感文本进行分类,满足一定相似度阈值条件的文本加入热点事件中。
2.如权利要求1所述的基于情感分析在线检测微博热点事件的方法,其特征在于,步骤SOl包括以下分步骤: 步骤SOll:情感抽取:采用具有层次结构的多元化情感模型对时间窗口内的在线微博文本进行情感抽取,将微博文本分为情感文本和非情感文本两类,且将情感文本根据情感模型按照不同的情感进行归类; 步骤S012:主流情感抽取:根据情感文本集合的数量及发表时间,对情感进行主成分分析,抽取时间窗口内的主流情感; 步骤S013:主流情感突发检测:采用改进的Kleinberg算法对主流情感进行突发状态检测,抽取主流情感的突发期及突发情感文本,其中,所述改进的Kleinberg算法主要包括.、gamma #D J以下步骤:首先采用公式
3.如权利要求1所述的基于情感分析在线检测微博热点事件的方法,其特征在于,步骤S02包括以下分步骤: 步骤S021:命名实体识别:对其突发期内的情感文本集进行命名实体识别,将突发期内的情感文本按照时间、地点及特殊名词进行命名,分成含有命名实体的情感文本和不含有命名实体的情感文本,且将含有命名实体的情感文本作为聚类文本集; 步骤S022:近邻传播聚类:对聚类文本集采用近邻传播聚类算法进行聚类,采用文本相似性时,对命名实体和一般词采用不同的权重进行度量,以使每种主流情感都形成聚类事件; 步骤S023:事件合并:将各主流情感的聚类结果采用突发时间和事件相似性相结合的双限定方式进行话题合并形成热点事件。
【文档编号】G06F17/30GK103500175SQ201310403005
【公开日】2014年1月8日 申请日期:2013年9月6日 优先权日:2013年8月13日
【发明者】张鲁民, 贾焰, 杨树强, 周斌, 韩伟红, 李爱平, 韩毅, 李莎莎, 裴少杰, 邓镭 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1