热点话题搜索系统及热点话题搜索方法

文档序号:6487750阅读:201来源:国知局
热点话题搜索系统及热点话题搜索方法
【专利摘要】本发明涉及热点话题搜索系统及热点话题搜索方法,其中热点话题搜索系统包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。本发明能够给用户展现新闻热点话题发展的全过程。
【专利说明】热点话题搜索系统及热点话题搜索方法
【技术领域】
[0001]本发明涉及互联网搜索【技术领域】,特别涉及热点话题搜索系统及热点话题搜索方法。
【背景技术】
[0002]随着互联网技术的蓬勃发展,使得信息传播的速度大幅度提高,而各行各业也因此深受互联网的影响,其中以新闻产业的感受最为深刻。热点话题为新闻媒体所关注的热点新闻,通常有一个发生、发展和结束的过程,热点话题一般会被媒体广泛报道,话题存在期间会出现很多描述话题客观事实以及对话题进行评论的新闻。新闻搜索站点满足用户的需求主要有两种:一种是接受检索与指定关键词最相关的新闻,另一种是主动推荐当前最热点的新闻给用户。用户一般情况下会优先想知道一些大型的新闻事件(即热点话题)。如果能自动识别出当前最热点的新闻话题,就可以推荐热点话题相关的新闻给用户,使得推荐的新闻更容易满足用户的需求。
[0003]但是,热点话题一般都是在不断发展变化中的,如何描述和识别出一个热点话题的变化也是一个非常困难的问题。如果不能识别出热点话题的变化,那么一个连续的话题就会被割裂成多个片段。如果只能将割裂开来的话题展现给用户,会使得用户对话题的了解不够完整,影响用户体验。所以,需要自动发现、追踪和监测新闻热点话题的发展变化。在用户检索指定关键词时,目前的发现、追踪热点话题的方法往往只能提供用户与关键词相关的新闻,例如只描述该事件的最近进展,不能有针对性的推荐与关键词相关的新闻热点话题给用户以给用户展现新闻热点话题发展的全过程,从而使得用户缺乏对新闻热点话题起因和之前发展脉络的了解,不能够满足用户的真实搜索需求。

【发明内容】

[0004]因此,本发明提供热点话题搜索系统及热点话题搜索方法,以克服现有互联网搜索技术存在的问题。
[0005]具体地,本发明实施例提出的一种热点话题搜索系统,包括:新闻热词挖掘模块、新闻搜索下载模块、以及热点话题产生及匹配模块;新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;新闻搜索下载模块,用于下载热门新闻的新闻文档;热点话题产生及匹配模块,用于根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
[0006]另外,本发明实施例提出的一种热点话题搜索方法,其包括下列步骤:定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组;下载热门新闻的新闻文档;以及根据热点词组确定与热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
[0007]由上述实施例可知,本发明通过使用话题跟踪算法,即两个热点词组对应新闻文档集合的相似度代表两个热点词组的相似度来解决热点词组相似度计算困难的问题,还通过使用检索词命中的新闻文档集合与热点话题对应新闻文档集合的相似度来表示检索词与热点话题相似度,还可以在不同时间段内选取代表新闻文档以及不同时间段内计算新闻文档热度,使得本发明增强了新闻搜索站点推荐新闻的精准度,还通过给用户推荐检索词相关的热点话题,增加了用户满意度。从而确保了本发明能够自动发现当前最热的热点话题、自动追踪热点话题的发展变化、自动推荐热点话题相关新闻、以及自动查找与检索关键词最匹配的热点话题等。
[0008]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
【专利附图】

【附图说明】
[0009]图1是本发明实施例提出的热点话题搜索系统的主要架构框图。
[0010]图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。
[0011]图3是本发明实施例提出的热点话题搜索方法的步骤流程图。
【具体实施方式】
[0012]为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的热点话题搜索系统及热点话题搜索方法其【具体实施方式】、结构、特征及功效,详细说明如后。
[0013]有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
[0014]图1是本发明实施例提出的热点话题搜索系统的主要架构框图。图2是热点话题的相关新闻及热点话题的相关新闻关注度随时间的变化曲线的示意图。请一并参阅图1及图2,热点话题搜索系统包括:新闻热词挖掘模块100、热点话题产生及匹配模块103、以及新闻搜索下载模块104。
[0015]此外,热点话题搜索系统还可以包括新热点查询词获取模块102、近期新闻文档获取模块106、热点话题代表文档选取及热度计算模块110、热点话题文档在线查询服务模块112以及资料库,以整合更多的功能。资料库可以包括热词库115、话题元数据库116、话题展示数据库117以及新闻文档相关话题对应关系库118。
[0016]更具体地,新闻热词挖掘模块100,用于定期获取新闻网站的热点新闻区域的热门新闻并提取热门新闻中的热点词组。
[0017]此外,新闻热词挖掘模块100,还用于将热点词组发送到热词库115中进行存储。
[0018]其中,新闻热词挖掘模块100可以每隔一定时间定向获取新闻网站的热点新闻区域,获得当前时间点上的热点新闻的锚文本或标题,对当前时间点上所有热点新闻的锚文本或标题进行统计,从而得到热点新闻的锚文本或标题中重复出现的词组,并将这些词组作为热点词组。
[0019]新热点查询词获取模块102,用于定期分析新闻搜索的用户日志以获取用户日志中出现的高频查询词,还用于将用户日志中出现的高频查询词发送到热词库115中进行存储。其中,新闻搜索的用户日志中保存了用户搜索新闻时所使用的历史关键词。
[0020]热点话题产生及匹配模块103,用于根据热点词组及/或高频查询词确定与热点词组及/或高频查询词对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与每个热点话题对应的新闻文档。
[0021]此外,热点话题产生及匹配模块103,还用于定期检查热词库115中的热点词组及/或高频查询词以及历史热点话题产生和匹配结果,判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生,还可以将热点话题及热点话题的热词(包括热点词组及/或高频查询词)发送到话题元数据库116中进行存储。其中话题元数据库116存储了热点话题与热点词组及/或高频查询词的对应关系。
[0022]热点话题产生及匹配模块103,采用话题跟踪算法确定与热点词组及/或高频查询词对应的每个热点话题及判断所有当前热点话题是否有新的热点词组及/或高频查询词加入及/或判断是否有新的热点话题产生。
[0023]热点话题产生及匹配模块103使用新闻网站的首页热点新闻区域的锚文本或标题作为话题跟踪算法的数据源。之所以选取这个作为数据源,而不是选取全量新闻网页作为数据源,主要有以下几点好处:1.减小数据规模,降低选取算法复杂程度,加快选取算法的运行速度。2.减少噪音干扰,由于新闻网站的首页热点新闻区域都是由新闻编辑手工维护的,所以不需要安排编辑对挖掘出来的话题进行人工检查。3.提高热点话题发现效果,降低话题发现和话题追踪算法的难度。因为在新闻网站的首页热点新闻区域出现的文字已经都是描述当前非常热点的事件了,所以不用担心发现出来的事件热度不够。并且可以认为所有足够热的事件一定会出现在某个大型网站的焦点区域中,不会对事件有遗漏。因此使得热点话题自动发现和挖掘算法的难度得到了有效的降低。
[0024]采用相关的热点词组及/或高频查询词的集合表示一个热点话题。热点话题产生及匹配模块103采用话题跟踪算法判断所有当前热点话题是否有新的热点词组及/或高频查询词加入以及判断是否有新的热点话题产生的具体方法如下:为了实现对新闻热点话题的追踪,热点话题产生及匹配模块103对当前时间点和上一时间点的所有热点词组及/或高频查询词进行统一处理。首先将两个时间点得到的所有热点词组及/或高频查询词进行聚类,得到一些热词的簇。对于每一个来自于当前时间点的热点词组及/或高频查询词,考察与该热点词组及/或高频查询词被聚在一个簇中的上一时间点的热点词组及/或高频查询词,如果与该热点词组及/或高频查询词被聚在同一个簇中的上一个时间点的热点词组及/或高频查询词之间的相似度高,则判断为被聚在同一个簇中的该热点词组及/或高频查询词与上一个时间点的热点词组及/或高频查询词大多来自于同一个上一时段的热点话题,则认为该热点词组及/或高频查询词是上一时段这个热点话题的延续。这样就完成了已发现热点话题的跟踪工作及得到了已有热点话题在当前时间点的热词的集合(包括热点词组及/或高频查询词)。最后,对于当前时间点的所有没有被归纳入上一时间点已有热点话题的热点词组及/或高频查询词,考察他们共同出现在同一个簇中的情况,如果某个簇中出现了多个没有被归纳入已有热点话题的热点词组及/或高频查询词,则将这个簇中的这些热点词组及/或高频查询词作为一个新发现的热点话题。其中,热点话题产生及匹配模块103在对热点词组及/或高频查询词进行聚类时,使用如下方法来表示两个热点词组及/或高频查询词之间的相似度:将一段时间内各个新闻网站发表的所有新闻的正文(即新闻文档的内容)进行处理,建立一个倒排索引,使用这两个热点词组及/或高频查询词分别检索这个倒排索引,分别得到包含这两个热点词组及/或高频查询词的新闻文档集合。使用新闻文档集合之间的相似度表示这两个热点词组及/或高频查询词之间的相似度。这里两个新闻文档集合之间的相似度使用Dice系数(S)公式来计算,SP:
【权利要求】
1.一种热点话题搜索系统,其特征在于,所述热点话题搜索系统包括: 新闻热词挖掘模块,用于定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组; 新闻搜索下载模块,用于下载所述热门新闻的新闻文档; 热点话题产生及匹配模块,用于根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。
2.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 近期新闻文档获取模块,对所述下载的新闻文档建立倒排索引以提供给客户端使用关键词检索所述新闻文档。
3.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 新热点查询词获取模块,用于定期分析新闻搜索的用户日志以获取所述用户日志中出现的高频查询词。
4.如权利要求1或3所述的热点话题搜索系统,其特征在于,还包括:热词库,保存所述高频查询词及所述热点词组。
5.如权利要求1所述的热点话题搜索系统,其特征在于,所述热点话题产生及匹配模块,还用于采用话题跟踪算法确定与热点词组对应的每个热点话题、判断所有当前热点话题是否有新的热点词组加入及/或判断是否有新的热点话题产生。
6.如权利要求1所述的热点话题搜索系统,其特征在于,还包括: 热点话题代表文档选取及热度计算模块,用于根据所述每个热点话题的热点词组,计算所述下载的新闻文档与所述每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息。
7.如权利要求6所述的热点话题搜索系统,其特征在于,所述热点话题代表文档选取及热度计算模块,还用于使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
8.如权利要求7所述的热点话题搜索系统,其特征在于,还包括话题展示数据库以及新闻文档相关话题对应关系数据库,所述话题展示数据库存储所述每个热点话题各时段相关新闻文档及/或每个热点话题各时段相关新闻文档数量及/或每个热点话题的代表新闻文档,所述新闻文档相关话题对应关系库存储所有关联到每个热点话题的新闻文档id及/或关联信息,所述热点话题搜索系统还包括热点话题文档在线查询服务模块,其用于接收客户端输入的热点话题查询关键词,根据所述查询关键词采用话题跟踪算法确定与查询关键词对应的热点话题,并从所述新闻文档相关话题对应关系库中获得所述热点话题对应的新闻文档以提供给客户端。
9.一种热点话题搜索方法,其特征在于,包括下列步骤:定期获取新闻网站的热点新闻区域的热门新闻并提取所述热门新闻中的热点词组; 下载所述热门新闻的新闻文档;以及 根据所述热点词组确定与所述热点词组对应的每个热点话题,并根据每个热点话题对应的热点词组从下载的新闻文档中检索出与所述每个热点话题对应的新闻文档。
10.如权利要求9所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤中,进一步包括步骤: 采用话题跟踪算法确定与热点词组对应的每个热点话题、判断所有当前热点话题是否有新的热词加入及/或判断是否有新的热点话题产生。
11.如权利要求9所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤后,进一步包括步骤: 根据所述每个热点话题的热点词组计算所述下载的新闻文档与所述每个热点话题之间的相关程度,并统计出每个热点话题各时段的相关新闻文档及/或每个热点话题各时段相关新闻文档的数量及/或每个热点话题的代表新闻文档及/或所有关联到每个热点话题的新闻文档id及/或关联信息;或 使用热点话题对应的每一个热点词组检索所有下载的新闻文档,得到所述热点话题对应的新闻文档集合,并统计所述新闻文档集合的文档总数得到所述热点话题的总体热度,并统计新闻文档集合中各新闻的发布时间,得到热点话题的总体时新度,综合热点话题的总体热度、总体时新度指标对所有热点话题进行排名,得到需要推荐的若干个热点话题,并按照新闻文档的发表时间将需要推荐的热点话题的新闻文档集合分成几段,每段选出排名最高的一篇新闻文档向用户进行推荐。
12.如权利要求11所述的热点话题搜索方法,其特征在于,在执行根据所述热点词组确定与所述热点词组对应的每个热点话题的步骤后,进一步包括步骤: 接收客户端输入的热点话题查询关键词,根据所述查询关键词采用话题跟踪算法确定与查询关键词对应的热点话题,并从所述新闻文档相关话题对应关系库中获得所述热点话题对应的新闻文档以提供给客户端;或 对所述下载的新闻文档建立倒排索引以提供给客户端使用关键词检索所述新闻文档。
【文档编号】G06F17/30GK103577501SQ201210284815
【公开日】2014年2月12日 申请日期:2012年8月10日 优先权日:2012年8月10日
【发明者】李峰, 林子敬, 陈锡彬, 王炫聪, 樊扬, 胡熠, 熊展志, 沈剑平, 李翔, 黄斌强 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1