一种时间敏感和自适应的子话题在线检测方法及系统的制作方法

文档序号:9727369阅读:252来源:国知局
一种时间敏感和自适应的子话题在线检测方法及系统的制作方法
【技术领域】
[0001] 本发明属于信息技术领域,具体涉及一种时间敏感和自适应的子话题在线检测方 法及系统,可以应用于突发事件检测、子话题分析、舆情分析、社交媒体数据挖掘等领域。
【背景技术】
[0002] 微博是微型博客(Microblog)的简称。用户注册微博账号,就可以通过关注好友、 名人、机构等方式,使得不同的用户建立起网络关系。微博的消息流中充斥着各方各面的事 物,但不同的社会实体关注的内容却截然不同,例如产品公司关注相关产品在网络中实时 的口碑,知名人物关注自身在网民中的舆论形象与影响。因此基于社交网络针对特定目标 实体的在线子话题检测引起了公司、高校以及许多研究人员的高度关注。微博子话题检测 可以为用户节省浏览微博的时间,了解微博平台上的热门话题,理清话题发展脉络,还可以 让用户获得与重大事件有关的原始材料,因为这些材料的发布者通常都亲身经历了整个事 件,具有较高的真实性。因此,对微博进行在线子话题检测与分析技术的研究具有重大意 义。
[0003] 子话题检测旨在将目标文档流归入不同的类,当新的文档不属于历史的任何一个 类时建立一个新类,新类即代表新的子话题。目标文档流,可以是关于一个话题,一个事件 或者一个实体的报道。从本质上说,子话题分析是一种无指导增量式聚类研究方法。系统无 法预知有多少子话题,也并不知道什么时候建立新的子话题。子话题检测是对目标数据流 起着监控,跟踪,分析的作用。目前国外针对Twitter做的相关研究比国内的研究多,国内关 于微博的话题检测技术研究还处于起步阶段。而微博文本较短,表达偏口语化,将传统的方 法直接应用到微博上往往会出现计算量过大,检测率低等问题,这就需要研究适合微博特 点的热点新闻发现与跟踪方法。
[0004] 目前,在话题检测方面比较有代表性的研究有:Yiming Yang采用凝聚式聚类算法 与平均聚类算法相结合的策略(Yang Y.,Pierce T.,and Carbonell J.A Study on Retrospective and On-Line Event Detection!! J] · In Proceedings of the 21st ACM SIGIR. 1998),将近似于同一话题模型的相关事件综合在一起作为话题检测的结果。在线首 话题检测传统的方法是单次扫描聚类(Single-pass)方法,代表系统有CMU系统,速度较慢。 张阔等人用索引树方法(Zhang,Kuo,Juan Zi,and Li Gang Wu,New event detection based on indexing-tree and named entity,SIGIR'07:Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval,ACM,New York,NY,USA,pp· 215-222· 2007)提高速度和精度。Sasa Petrovic等人用局部敏感哈希算法,在不损失精度的情况下,大幅度提高了速度(S_:a§a Petrovic,Miles Osborne, and Victor Lavrenko. Streaming first story detection with application to Twitter.HLr10·2010·)〇
[0005] Daniela Pohl提出了一个能应用于社交媒体数据子话题检测的框架(D.Pohl, A.Bouchachia,and H.Hellwagner,"Automatic Sub-Event Detection in Emergency Management Using Social Media",in In First Inter.Workshop on Social Web for Disaster Management(SWDM), In conjunction with WWW'12,Lyon,France,2012·)。框架 由四个模块组成,分别是:数据流接口模块,事件检测模块,极性与标签模块,摘要模块。在 事件检测模块中,作者抽取出多媒体数据中的标题、描述、标签等元数据作为特征,采用自 组织神经网络特征映射作为聚类方法,将上述特征映射到桶中。每个桶内的数据代表一个 子话题。该方法的优点是相似的特征会被映射到相同的桶中,从而被聚到一起;缺点是无法 在线处理,无法处理信息随意性强的微博。
[0000] Dhekar Abhik沿用Daniela Pohl的框架,但在子话题检测模块提出一种新的检测 方法。该检测方法分为两步(Dhekar Abhik,Durga Toshniwal. "Sub-Event Detection During Natural Hazards Using Features of Social Media Data".Workshop on Social Web for Disaster Management(SffDM), In conjunction with Wffff'lS^io de Jane iro,Braz i 1,2013.)。第一步:令(Fi,F2,. . .,Fk)为所有媒体数据的特征,如时间、地点、 标题、内容等,对每个特征Fi都采用Single-pass聚类算法i得到聚类结果G。第二步:对上述 k个聚类结果(&,&,...,&)进行投票,每个类的权重为(W^Ws,...,Wk),最终得到聚类结果 (Si,&,...,&)。每个聚类结果SHf表一个子事件(子话题)。
[0007] 突发事件检测技术也可以应用于子话题分析系统中。突发事件检测主要思想是检 测文档流中的突发文档数量或者突发关键词,从而达到检测突发事件的目的。
[0008] 目前子话题分析主要应用于自然灾害的后续跟踪报道,紧急事件处理等。各种社 交媒体的数据都可以作为系统的数据源。
[0009] 上述系统存在如下问题:第一,不区分历史文档的权重和最新文档的权重。系统应 关注当前子话题,历史数据反映的是历史子话题,历史文档的权重应当随时间衰减。第二: 无法对子话题的内容和数量自适应的调整。上述系统的输出子话题数量偏多,即出现长尾 现象。应当对没有意义的长尾进行检测,及时进行子话题的合并或者删除。第三:基于突发 检测的系统只能得到突发事件,无法检测出热门事件(子话题),即无法检测出长时间大众 都关心的事件(热门子话题)。

【发明内容】

[0010] 本发明的目的是克服上述现有子话题分析技术存在的问题,提出一种时间敏感和 自适应的子话题在线检测方法及系统,该方案中历史文档权重随时间衰减,并且基于阈值 判断和长尾检测进行子话题数量和内容的动态更新。
[0011] 为实现上述目的,本发明采用的技术方案如下:
[0012] -种时间敏感和自适应的子话题在线检测方法,其步骤包括:
[0013] 1)对文档流中的每篇文档进行向量化表示;
[0014] 2)对向量化表示后的文档进行增量式聚类,若文档属于某个子话题,则将该文档 加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重;若文档不属 于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子 话题的中心权重;
[0015] 3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者 子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;
[0016] 4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输 出展示。
[0017] 进一步地,步骤2)通过计算文档与子话题的相似度,判断文档是否属于某个子话 题。
[0018] 进一步地,步骤2)所述随时间衰减的文档权重,是指历史文档的权重随时间衰减, 最新的文档具有最高的权重。
[0019] 进一步地,步骤2)根据随时间衰减的文档权重调整子话题的中心权重的方法是:
[0020] (i)文档权重更新:当文档权重低于设定的阈值时,即文档的时间距离当前时间很 远,是过时的历史子话题,从系统中删除该文档;
[0021] (ii)类中心更新:根据已经更新权重的文档,计算该类的权重及类中心。
[0022] -种时间敏感和自适应的子话
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1