一种中文微博客的热点话题检测方法

文档序号:6536757阅读:140来源:国知局
一种中文微博客的热点话题检测方法
【专利摘要】本发明涉及一种中文微博客的热点话题检测方法,包括以下步骤:(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前k条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。该方法能够高效、准确地对中文微博客进行热点话题检测,检测速度快,准确度高,适用范围广,应用性强。
【专利说明】一种中文微博客的热点话题检测方法
【技术领域】
[0001]本发明涉及话题检测与跟踪【技术领域】,更具体地,涉及一种中文微博客的热点话题检测方法,能应用于热点话题的检测和热度排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
【背景技术】
[0002]话题检测与跟踪(TDT)任务始于1996年,一个话题包含了一系列事件或者活动,或者伴随的直接相关的事件和活动。一个TDT事件表示在特定时间和场合发生的事情,连同所有必要的先决条件和不可避免的后果。
[0003]话题检测与跟踪经过十多年的高速发展,已经有了一系列成熟的理论,其中包括隐马尔可夫模型、老化理论、时间序列分析、LDA等。
[0004]热点话题是在一个时间段内频繁出现的话题。一个话题经常出现表示它可能是热点话题,但是这不是唯一的条件。每件事都有它的生命周期:出生、发展、衰落、死亡。所以,时间也是一个评价条件。热点话题的基本特征:1)在大量的信息中频繁出现;2)热点话题是从当前网络用户发布的微博中抽取的,所以是实时的,必须保证热点话题的“热”。
[0005]热点话题是话题检测与跟踪研究在实际问题中的应用。常见的话题发现算法,如中心向量法、层次聚类法、K-means、Single-Pass聚类算法等,在普通文本的TDT任务中已经取得了较好的效果。利用聚类方法来实现话题发现的技术已经比较成熟,但是在处理海量的文本数据时,大多数文本聚类算法速度过低,时间和空间复杂度往往大于O(n2)。而且这些算法主要是针对传统媒介平台的新闻数据,微博中的信息多呈现短文本、口语化、即时性、冗余信息、互动性强等特性,其中情感词所占比重也比传统文本要大,故传统的TDT不适合直接应用于微博的热点发现。
[0006]在现有技术中,有将传统的文本分类方法应用在微博平台上进行热点信息筛选,针对可能成为热点信息的微博条目,有研究者提出可以针对一部分特别关心的信息进行检测。如果能设计一种切合当前热点事件的分类器,那么就可以实时监控事件的发展。但是热点事件和话题在其出现之前是未知的,所以问题就变为对一些特定的,敏感的话题的固定检测。比如有日本学者训练了一个分类器来判断用户发布的内容是不是属于和地震相关的报道。分类器针对特定的话题筛选可以有良好的效果,但是微博上文本内容分布范围广,话题千变万化,在发生之前无法认为预知,这使得设计一个完备的词典式分类器来对所有的信息进行分类变得几乎不可能,一般的分类器难以胜任这样的任务。
[0007]在现有技术中,有利用微博情感波动和相邻时段词集的差异性来识别热点话题,并取得较好效果,但其没有考虑微博多噪声特点以及热点话题引起的突发关键字。
[0008]在现有技术中,有从社会学的角度出发,考虑了微博的基本信息来进行热点话题检测。比如有工作再计算词的权重的时候考虑了用户权重、粉丝数、回复数、转发数。首先使用一个成熟的理论来对词生命周期进行建模,然后考虑了用户权重,通过pagerank来计算词的权重,最后使用无监督的学习算法发现爆炸性话题。[0009]因为短文本没有足够的单词出现信息,传统的聚类方法,比如词袋方法,受到了限制。为了解决这个问题,有工作把一个用户的推文当做一个文档。但是这样处理忽略了一个重要的事实:一条推文经常是和一个话题相关的。也有工作从用户的简介和文本中抽取出领域特征。其考虑了用户在推特上意图的分类标签和特征集合,比如平时的聊天,交流,分享,转发的信息。把tweets分成指定的的新闻、事件、观点、交易、私人信息类别。还有利用维基百科和WordNet整合短文本信息,用于短文本聚类。实验表明这种丰富文本特征的方法能很大地提高聚类精度,所以本发明中使用了类似的技术来丰富微博文本特征。
[0010]在现有技术中,有从建模角度出发,比如通过改进LDA的以适用于微博的Author-topic、Twitter-LDA模型等,可以有效用于微博话题建模,但是该类算法复杂度普通偏高,不利于从大规模微博数据集合中检测热点话题。
[0011]然而,现有的大部分中文微博热点话题检测方法没有充分考虑以下三个问题:1)微博客中存在大量的噪声信息;2)微博短文本造成信息缺失;3)海量微博数据带来的性能挑战。
[0012]微博经过这几年的快速发展,已经成为中国互联网的主流应用。庞大规模的用户也确保了其网络信息传播的核心作用。用户通过微博自由、便捷、即时地抒发自己的情感,已成为互联网上的时尚,同时也使得其成为热点话题产生和谈论的重要场所。由于微博具有自主性强,影响力大,信息传播便捷迅速等特点,从微博中检测出热点话题,可以帮助公众了解社会焦点,发现社会趋势,为市场研究和咨询行业等提供理论依据,也可以基于热点话题进行个性化的推荐服务、客户群偏好分析等,有很好的现实的应用价值和广阔的应用前景。因此,迫切需要一种高效准确的中文微博热点话题检测方法,该方法应该能够快速地发现微博中的热点话题,并对热点话题按照热度进行排序。

【发明内容】

[0013]本发明的目的在于提供一种中文微博客的热点话题检测方法,该方法检测速度快,准确度高,适用范围广,应用性强。
[0014]为实现上述目的,本发明的技术方案是:一种中文微博客的热点话题检测方法,包括以下步骤:
(1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤;
(2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前A条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量;
(3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。
[0015]进一步的,所述步骤(I)中,所述垃圾过滤规则为过滤掉包含有以下内容之一的微博:
a)特殊字符;
b)推广相关的特殊汉字;
c)网页链接“http://t.cn/” ;d)符号
【权利要求】
1.一种中文微博客的热点话题检测方法,其特征在于,包括以下步骤: (1)首先基于一定的垃圾过滤规则对垃圾微博进行过滤; (2)对分布在微博中的关键字进行初步聚合,得到初步表示话题的词集合;检索各条微博最相似的前A条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,得到各条微博特征丰富后的特征向量; (3)基于各条微博特征丰富后的特征向量,利用增量聚类方法对所有微博进行聚类,得到聚类的话题集合,然后通过一定的话题热度计算公式对聚类的话题集合进行话题热度计算,最终得到热点话题列表。
2.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于,所述步骤(I)中,所述垃圾过滤规则为过滤掉包含有以下内容之一的微博: a)特殊字符; b)推广相关的特殊汉字; c)网页链接“http://t.cn/” ; d)符号
3.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(2)中,按如下方法对关键字进行初步聚合: 采用如下的关键字相似度计算公式分别计算微博中所有关键字两两之间的相似度:


4.根据权利要求3所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(2)中,检索各条微博最相似的前A条微博,然后利用检索的结果和关键字初步聚合的结果来丰富各条微博特征,具体方法如下: 对于微博B,通过信息检索中的BM25检索模型检索得到与其最相似的前A条微博{B1;B2,......,BJ,然后将微博B表示为((W1MWw2J2XL ,),其中: &表示微博中的关键字,J‘=l,2,……,η ;η表示微博中所有关键字的个数;
5.根据权利要求1所述的一种中文微博客的热点话题检测方法,其特征在于:所述步骤(3)中,基于聚类的话题集合,将每个话题包含的微博按照时间窗口进行划分,得到《个时间窗口的微博集合:、BTU BT2,…,BT”…,BO,所述话题热度HT的计算公式为:
【文档编号】G06F17/30GK103745000SQ201410034402
【公开日】2014年4月23日 申请日期:2014年1月24日 优先权日:2014年1月24日
【发明者】陈国龙, 廖祥文, 郭德清, 郭文忠, 魏晶晶 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1