微博环境下自适应话题追踪方法和装置制造方法

文档序号:6546895阅读:165来源:国知局
微博环境下自适应话题追踪方法和装置制造方法
【专利摘要】本发明提出了一种微博环境下自适应话题追踪方法和一种微博环境下自适应话题追踪装置,其中,微博环境下自适应话题追踪方法包括:预设训练集合;获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于训练集合的特征集合;根据特征集合训练生成话题追踪模型;使用话题追踪模型对话题相关的微博进行追踪并生成所述话题的子话题。本发明的技术方案,对相关微博进行追踪并将检测到的相关微博划分到不同的子话题,以及检测新子话题的生成,因此不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况。
【专利说明】微博环境下自适应话题追踪方法和装置
【技术领域】
[0001]本发明涉及计算机【技术领域】,具体而言,涉及微博环境下自适应话题追踪方法和微博环境下自适应话题追踪装置。
【背景技术】
[0002]近年来,随着移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。作为一种新兴的社交网络媒体,微博客(简称微博),正逐渐取代博客,成为人们分享、传播和获取信息的新平台,典型的代表有美国注明微博客Twitter和国内的新浪微博。
[0003]微博客是一种广播形式的博客,与传统新闻媒体以及博客相比,其内容更加短小精悍,通常只允许用户发表140个字符以内的内容。用户在所编辑的微博内容中不仅可以包含文本的内容,而且可以包含图片及视频的链接或其他网页形式的链接来补充说明所要发表的内容。与此同时,用户还可以在微博中使用#符号来表明微博所属的主题,使得相似的信息能更快、更好地聚集在一起,从而方便信息的有效获取。除此之外,用户还可以通过O符号和其他用户进行互动,使得信息在用户之间能更快地传递。相对于传统的博客,用户在微博中所使用的主题也更为宽泛和随意,可以是用户当前的状态,对特定话题的关注,甚至可以是简单的别人微博的转发。微博的实时性、易用性以及社会化的特性使得微博在互联网上得到用户的青睐。据数据统计,美国著名微博客Twitter,其每日更新的微博数超过了5亿条。而在中国国内,据CNNIC《第32次中国互联网发展状况调查报告》显示,截至2013年6月底,中国微博用户数量达到3.31亿。
[0004]作为一种互动性和传播性极强的社交网络,当一个事件发生时,微博会在极短的时间里产生海量的数据信息。在这种实时快速更新的宏大信息流中,用户想了解自己所感兴趣的事件的进展情况,希望系统能够对于话题的动态进行实时跟踪。而微博的实时性、社会化以及碎片化特征给微博环境下的话题追踪带来了巨大的挑战。其中最大的挑战之一就是随着时间而产生的话题漂移。话题漂移现象是指,随着事件的发展会产生事件的子话题,话题的相关内容变得越来越丰富,用户关注话题的不同方面。为了方便理解,在此举个拳击比赛的例子解释话题漂移现象。在比赛之前,用户关注的是选手的身体状况和竞技状态;t匕赛开始后,话题的重心可能会转移到比赛的发展情况,譬如说,某个选手和他的对手相比有比较大的优势,出现了某个黑马等等。比赛结束后,该事件的重心可能又变成了对获胜者的讨论等等。
[0005]有一些学者针对传统新闻媒体和博客环境下话题追踪的话题漂移问题做了很多研究,也提出了很多有效的方法,比如说Rocchio算法以及逻辑斯谪回归模型。但是微博的实时性导致微博数量随着新闻事件的发生呈现出爆炸性的增长,从而使得微博平台下实时信息更替地更频繁;同时,由于微博的长度限制,使得微博文本更加的碎片化,很难准确地获取微博的主题信息。总的来说,微博的实时性、社会化以及碎片化特征使得在微博环境下话题的漂移更频繁,更难以预料,更难以检测,给微博环境下的话题追踪来了巨大的挑战。由于微博的特殊性,因此传统的话题追踪的技术不适用于微博环境。
[0006]因此,如何解决微博环境下话题漂移的问题称为亟待解决的技术问题。

【发明内容】

[0007]基于上述【背景技术】出现的技术问题,本发明提供了一种自适应话题追踪技术,可应用于微博环境中,提解决话题漂移的问题,提高话题追踪的准确率。
[0008]根据本发明的一个方面,提供了一种微博环境下自适应话题追踪方法,包括:预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博,所述背景语料为在所述话题发生的时间戳之前发布的微博;获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于所述训练集合的特征集合;根据所述特征集合训练生成话题追踪模型;使用所述话题追踪模型对所述话题相关的微博进行追踪并生成所述话题的子话题。
[0009]对预先设置的训练集合进行特征提取,得到特征集合。在获取特征集合的过程中,有两种子话题表示模型:基于微博文本内容的子话题表示模型和结合微博文本内容和时间信息的子话题表示模型。其中,结合微博词汇信息和时间信息的子话题表示模型更适用于实时性高的话题的追踪任务。基于该特征集合的子话题检测模型不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况,从而解决微博环境下话题偏移的问题。
[0010]根据本发明的另一方面,还提供了一种微博环境下自适应话题追踪装置,包括:设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博,所述背景语料为在所述话题发生的时间戳之前发布的微博;特征集合获取单元,获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于所述训练集合的特征集合;话题追踪模型生成单元,根据所述特征集合训练生成话题追踪模型;追踪单元,使用所述话题追踪模型对所述话题相关的微博进行追踪并生成所述话题的子话题。
[0011]对预先设置的训练集合进行特征提取,得到特征集合。在获取特征集合的过程中,有两种子话题表示模型:基于微博文本内容的子话题表示模型和结合微博文本内容和时间信息的子话题表示模型。其中,结合微博词汇信息和时间信息的子话题表示模型更适用于实时性高的话题的追踪任务。基于该特征集合的子话题检测模型不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况,从而解决微博环境下话题偏移的问题。
【专利附图】

【附图说明】
[0012]图1示出了根据本发明的实施例的微博环境下自适应话题追踪方法的示意流程图;
[0013]图2示出了根据本发明的实施例的生成特征集合方法的流程图;
[0014]图3示出了根据本发明的实施例的微博环境下自适应话题追踪过程的示意图;
[0015]图4示出了根据本发明的实施例的更新子话题集合的示意图;
[0016]图5示出了根据本发明的实施例的提取扩展主题信息的流程图;[0017]图6示出了根据本发明的实施例的微博环境下自适应信息追踪装置的框图。【具体实施方式】
[0018]为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和【具体实施方式】对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0019]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
[0020]在具体阐述根据本发明的话题追踪方法之前,首先定义以下名词:
[0021]话题:每个事件都是一个话题,用若干个关键词表示,每个话题都有其发生时的时间戳。
[0022]触发微博:时间上最早讨论该话题的微博被称为触发微博。
[0023]背景语料:在话题发生的时间戳之前发布的微博集合被称为背景语料。
[0024]前景语料:在话题发生的时间戳之后发布的微博集合被称为前景语料。
[0025]训练集合:该集合包含了一个话题集合,同时对于每个话题,该训练集合还包含了标注了是否与该话题相关的微博集合。
[0026]子话题集合:每个话题都拥有一个子话题集合,该集合中的每个子话题都是跟该话题相关的微博的集合。
[0027]图1示出了根据本发明的实施例的微博环境下自适应话题追踪方法的示意流程图。
[0028]如图1所示,根据本发明的实施例的微博环境下自适应话题追踪方法,可以包括以下步骤:
[0029]步骤102,预设训练集合,其中,训练集合包括至少一个话题、前景语料和背景语料,前景语料为在话题发生的时间戳之后发布的微博,背景语料为在话题发生的时间戳之前发布的微博;步骤104,获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于训练集合的特征集合;步骤106,根据特征集合训练生成话题追踪模型;步骤108,使用话题追踪模型对话题相关的微博进行追踪并生成所述话题的子话题。
[0030]该方法中包含了一个子话题检测模块,该模块能够将检测到的相关微博划分到不同的子话题,并检测新话题的生成,其核心是一个增量式的聚类算法。同时,该子话题检测模块能够辅助微博话题追踪系统判断新到来的微博与话题的相关性。本发明提出了两类表达子话题的模型,一类是基于微博文本内容的子话题模型,另一类是考虑到时间上临近且相关的微博更能表达话题的侧重点,因此结合了微博的文本内容和时间信息来表示子话题模型。在话题追踪系统中加入子话题检测模块不仅能够提高微博话题追踪的准确率,其所检测到的带有时间戳的子话题还能反应出事件的发展情况,用户体验的效果也得到了提闻。
[0031]其中,获取话题的前景语料中每一条微博的文本特征和与话题的相关性特征,具体包括:
[0032]根据背景语料中每一条微博中的词建立索引;获取前景语料中每一条微博的内容信息,将内容信息添加至索引中;使用狄利克雷算法和索引进行计算,确定前景语料中的微博的文本内容和扩展主题信息分别与话题的相关度;计算前景语料中的微博与话题集合中的子话题之间的相关度;将所述微博的文本内容和扩展主题信息分别与所述话题的相关度、以及所述前景语料中的微博与已获取的子话题之间的相关度作为所述前景语料中的微博的文本特征;将在训练集合中预先标注的微博与话题的相关性作为相关性特征。
[0033]背景语料中每一条信息中的词获取过程包括:
[0034]提取背景语料中的微博的原始文本的短链接,根据短链接获取微博的扩展主题信息,将扩展主题信息特征至背景语料中,以及对背景语料中的内容和表示话题的关键词集合进行预处理,得到词的分布数据。
[0035]获取前景语料中每一条微博的内容信息,具体包括:
[0036]提取前景语料中的微博的原始文本的短链接,根据短链接获取微博的扩展主题信息,将所述扩展主题信息作为所述内容信息。
[0037]需说明的是,获取信息的扩展主题信息的方法包括:将微博的短链接还原成原始的长链接,从长链接中解析出网站关键字集合;将网站的网页代码中解析出标签的内容,将标签的内容分割成多个子字符串;将不包含网站关键字集合中任一关键字的子字符串作为微博的扩展主题信息。
[0038]信息追踪方法还包括将触发微博作为话题的第一个子话题添加进话题的子话题集合,其中,触发微博为与话题相关的且时间最早的微博;对所述子话题进行建模,得到子话题模型;计算前景语料中的微博与子话题集合中的每一子话题模型之间的相关度,判断最大的相关度值是否大于预设值;若最大的相关度值大于预设值,且所述微博与所述话题相关,则将微博加入对应于最大的相关度值的子话题的微博集合中,否则,使用微博的信息创建新的子话题,并将新的子话题加入话题的子话题集合中。
[0039]对子话题进行建模有两种建模方法:基于微博词汇信息的子话题表示模型和结合微博词汇信息和时间信息的子话题表示模型。其中,结合微博词汇信息和时间信息的子话题表示模型更适用于实时性高的话题的追踪任务。
[0040]采用梯度下降算法对特征集合进行训练,得到话题追踪模型,其中,使用话题追踪模型对话题相关的微博和子话题进行追踪包括:使用话题追踪模型计算出实时微博与话题的相关性;展现相关的实时微博,并更新子话题集合;提取子话题集合中每个子话题的关键词,展现提取的关键词。
[0041]本发明提出了一种基于子话题检测的在微博环境下进行自适应式话题追踪的方法,目的在于从海量的实时微博流中过滤出与话题相关的微博。在过滤与话题相关的微博的同时,可以处理话题漂移的情况,检测出该话题的子话题,并将该事件的发展脉络展现给用户,该方法是一个针对所有话题的统一性的方法,任何的话题的追踪需求都可以使用该方法。
[0042]根据本发明的另一实施例的话题追踪的方法主要包括以下几个步骤:
[0043]A、基于训练集合使用文本模型和反馈模型生成训练得到话题追踪系统的特征集合,其中,文本模型和反馈模型将在下文中被解释。
[0044]B、使用梯度下降算法训练得到话题追踪系统M。
[0045]C、使用生成的话题追踪系统过滤相关微博并检测子话题。[0046]B中所描述的话题追踪系统M是基于常用的逻辑斯谪回归(LogisticRegression)分类器的,可以用公式I来表示:
【权利要求】
1.一种微博环境下自适应话题追踪方法,其特征在于,包括: 预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博,所述背景语料为在所述话题发生的时间戳之前发布的微博; 获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于所述训练集合的特征集合; 根据所述特征集合训练生成话题追踪模型; 使用所述话题追踪模型对所述话题相关的微博进行追踪并生成所述话题的子话题。
2.根据权利要求1所述的微博环境下自适应话题追踪方法,其特征在于,所述获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,具体包括: 根据所述背景语料中每一条微博中的词建立索引; 获取所述前景语料中每一条微博的内容信息,将所述内容信息添加至所述索引中;使用狄利克雷算法和所述索引进行计算,确定所述前景语料中的微博的文本内容和扩展主题信息分别与所述话题的相关度; 计算所述前景语料中的微博与已获取的子话题之间的相关度; 将所述微博的文本内容和扩展主题信息分别与所述话题的相关度、以及所述前景语料中的微博与已获取的子话题之间的相关度作为所述前景语料中的微博的文本特征; 将所述训练集合中预先标注的微博与所述话题的相关性作为所述相关性特征。
3.根据权利要求2所述的微博环境下自适应话题追踪方法,其特征在于,所述背景语料中每一条微博中的词获取过程包括: 提取所述背景语料中的微博的原始文本的短链接,根据所述短链接获取所述微博的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题的关键词集合进行预处理,得到所述词的分布数据; 获取所述前景语料中每一条微博的内容信息,具体包括: 提取所述前景语料中的微博的原始文本的短链接,根据所述短链接获取所述微博的扩展主题信息,将所述扩展主题信息作为所述内容信息。
4.根据权利要求3所述的微博环境下自适应话题追踪方法,其特征在于,获取所述微博的扩展主题信息的方法包括: 将所述微博的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合; 将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串; 将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博的扩展主题信肩、O
5.根据权利要求2至4中任一项所述的微博环境下自适应话题追踪方法,其特征在于,还包括: 将触发微博作为所述话题的第一个子话题添加进所述话题的子话题集合,其中,所述触发微博为与所述话题相关的且时间最早的微博; 对所述子话题进行建模,得到子话题模型; 计算所述前景语料中的微博与所述子话题集合中的每一子话题模型之间的相关度,判断最大的相关度值是否大于预设值; 若所述最大的相关度值大于预设值且所述微博与所述话题相关,则将所述微博加入对应于所述最大的相关度值的子话题的微博集合中,否则,使用所述微博的信息创建新的子话题,并将所述新的子话题加入所述话题的子话题集合中。
6.根据权利要求5所述的微博环境下自适应话题追踪方法,其特征在于,采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型,其中,使用所述话题追踪模型对所述话题相关的微博和子话题进行追踪包括: 使用所述话题追踪模型计算出实时微博与所述话题的相关性; 根据所述实时微博与所述话题的相关性,展现与所述话题相关的实时微博,并更新所述子话题集合; 提取所述子话题集合中每个子话题的关键词,展现提取的关键词。
7.一种微博环境下自适应话题追踪装置,其特征在于,包括: 设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博,所述背景语料为在所述话题发生的时间戳之前发布的微博; 特征集合获取单元,获取所述话题的前景语料中每一条微博的文本特征和与话题的相关性特征,以得到有关于所述训练集合的特征集合; 话题追踪模型生成单元,根据所述特征集合训练生成话题追踪模型; 追踪单元,使用所述话题追踪模型对所述话题相关的微博进行追踪并生成所述话题的子话题。
8.根据权利要求7所述的微博环境下自适应话题追踪装置,其特征在于,所述特征集合获取单元包括: 索引建立单元,根据所述背景语料中每一条微博中的词建立倒排索引,以及获取所述前景语料中每一条微博的内容信息,将所述内容信息添加至所述索引中; 文本特征获取单元,使用狄利克雷算法和所述索引进行计算,确定所述前景语料中的微博的文本内容和扩展主题信息分别与所述话题的相关度,以及计算所述前景语料中的微博与已获取的子话题之间的相关度,将所述微博的文本内容和扩展主题信息分别与所述话题的相关度、以及所述前景语料中的微博与已获取的子话题之间的相关度作为所述前景语料中的微博的文本特征。 相关性特征获取单元,将在所述训练集合中预先标注的微博与所述话题的相关性作为所述相关性特征。
9.根据权利要求8所述的微博环境下自适应话题追踪装置,其特征在于,所述索引建立单元包括:分布数据获取单元,提取所述背景语料中的微博的原始文本的短链接,根据所述短链接获取所述微博的扩展主题信息,将所述扩展主题信息特征至所述背景语料中,以及对所述背景语料中的内容和表示所述话题的关键词集合进行预处理,得到所述词的分布数据;内容信息获取单元,提取所述前景语料中的微博的原始文本的短链接,根据所述短链接获取所述微博的扩展主题信息,将所述扩展主题信息作为所述内容信息。
10.根据权利要求9所述的微博环境下自适应话题追踪装置,其特征在于,所述内容信息获取单元还用于将所述微博的短链接还原成原始的长链接,从所述长链接中解析出网站关键字集合,将所述网站的网页代码中解析出标签的内容,将所述标签的内容分割成多个子字符串,将不包含所述网站关键字集合中任一关键字的子字符串作为所述微博的扩展主题息。
11.根据权利要求8至10中任一项所述的微博环境下自适应话题追踪装置,所述特征在于,所述追踪单元包括: 子话题建立单元,将触发微博作为所述话题的第一个子话题添加进所述话题的子话题集合,其中,所述触发微博为与所述话题相关的且时间最早的微博,以及对所述子话题进行建模,得到子话题模型,以及计算所述前景语料中的微博与所述子话题集合中的每一子话题模型之间的相关度,判断最大的相关度值是否大于预设值,若所述最大的相关度值大于预设值,并且所述微博与所述话题相关,则将所述微博加入对应于所述最大的相关度值的子话题的微博集合中,否则,使用所述微博的信息创建新的子话题,并将所述新的子话题加入所述话题的子话题集合中。
12.根据权利要求11所述的微博环境下自适应话题追踪装置,所述特征在于,所述话题追踪模型生成单元采用梯度下降算法对所述特征集合进行训练,得到所述话题追踪模型; 所述追踪单元还用 于使用所述话题追踪模型计算出实时微博与所述话题的相关性,以及根据所述实时微博与所述话题的相关性,展现与所述话题相关的实时微博,并更新所述子话题集合,以及提取所述子话题集合中每个子话题的关键词,展现提取的关键词。
【文档编号】G06F17/30GK103984731SQ201410211436
【公开日】2014年8月13日 申请日期:2014年5月19日 优先权日:2014年5月19日
【发明者】洪毅虹, 费跃, 杨建武 申请人:北京大学, 北大方正集团有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1