一种监测展示互联网热点的方法

文档序号:6619081阅读:144来源:国知局
专利名称:一种监测展示互联网热点的方法
技术领域
本发明涉及互联网热点自动发现技术领域,尤其涉及一种监测展示互联网热点的 方法。
背景技术
在热点自动发现(meme Tracker)的技术领域中,meme是一种对流行文化基因的 隐喻,meme Tracker是指对互联网(潜在)流行趋势和热点的实时追踪和监测系统。互联网新闻的meme Tracker,可以追溯到Google News。随后在中国出现了同一 模式的百度新闻。简单的说,他们都是通过检测不同权威新闻源的文章重复度来获知哪些 新闻是重要的。互联网社会化媒体的meme Tracker,可以追溯到TechMeme。它是2005年出现的 监测博客和新闻媒体的网站。站方选择好要监控的信源,其中博客权重很高。它通过计算 博客、新闻之间的链接指向,以及语义关联,可以近乎实时地找到当前科技界讨论最热的话 题。由于事先选择的是优质的信息源,而且文章会按照复杂的公式计算权重,能做到相对重 要和优质的文章列在话题最前面,所以阅读质量非常高。随后,在Google Reader统治了 RSS阅读器领域之后,诞生了监控GoogleReader Shared Items的新兴网站RssMeme,它统计Google Reader用户分享的阅读,通过分享次 数统计,可以得到一个热文榜单。Twitter作为社会化媒体新锐力量大行其道后,很多网站开始追踪Twitter上的 推荐链接,其中最出色的是TweetMeme。这类memeTracker也是统计链接被不同的Twitter 用户推荐过的次数,并按照达到预置阈值上榜的时间排序,最新的热门链接排在最前面。基本上围绕着监测博客、RSS阅读、微博客等社会化媒体用户行为,相继诞生了为 数不少的meme Tracker网站,都从不同维度反映了互联网在流行什么热门资讯。在对社会化媒体的监控上,RssMeme的监控RSS分享模式,和TweetMeme的监控Twi iter分享模式,大致可以划分为“基于链接的传播监测和统计模式”,都是统计某一个单一 社会化媒体上被不同用户推荐或分享的链接,出现的次数越多,越说明值得阅读,是潜在的执占。这两种模式都可以对热门链接进行检测,根据链接中出现的域名关键词可以判断 所引用内容是文本、视频还是图像。然后检测热门链接的标题属于什么分类,如科技、娱乐、 社会等等。这样,便于分门别类地组织热点内容。“基于链接的传播监测和统计模式”缺点是,如果大热门事件出现,那么会短时间 内出现大量热门链接,其实都是讲同一件事的资讯,只不过作者或出处不同罢了。此模式无 法做到将不同热门链接合并到同一个话题下,该模式不知道核心话题是什么,无法像人类 一样理解热门链接的意义。此时,该模式只是加速了信息的快速流动和传播,揭示了热点的 流行趋势,但没有给出一个完整的解决方案。Google News和百度新闻的新闻聚合模式,克服了“基于链接的传播监测和统计模式”中的无法合并热门链接的缺点。它们可以通过检测不同新闻之间的内容重合度,或者不 同资讯之间的链接指向,能将某一个话题的资讯合并在一起。本新闻聚合模式,首先广泛收集新闻媒体的互联网信源,标记不同的权重度,做成 扫描列表。然后通过爬虫及时抓取最新的新闻。通过对最近一段时间的新闻文章计算文本 相似性,可以获知哪些文章之间相似度高于某一个预设阈值,那么说明这批文章是近似一 个话题,可以合并。可以通过信源的权威度,和相似文章的数目,来确定某一批文章所对应 的话题是热门话题,并按此排序。但是这种技术方案也存在以下缺点转载新闻次数多,或者多个报道之间存在话题关联,这个基于文本相似性的测量 维度,在没有其他测量维度的参考下,很容易给出一大堆枯燥乏味的官方新闻或通稿,并不 符合普通网民的阅读习惯,除非是人工干预计算结果。由于是基于新闻资讯的聚合,所以缺了很重要的一环社会化媒体,从而造成无法 及时发现和捕获潜在流行热点。网民中流行的大量热点,并不会很快在出现新闻媒体上,从 而造成此模式无法真正反映即时(Real Time)的互联网热点。

发明内容
本发明的目的在于提出一种监测展示互联网热点的方法,能够快速监测互联网最 新的热点,并有效地建立起热门关键词、热门链接、新闻、图片、视频等之间的关联,充分展 示互联网热点。为达此目的,本发明采用以下技术方案一种监测展示互联网热点的方法,包括以下步骤A、通过查询微博客搜索引擎入口和RSS阅读器,获得推荐链接信息,并计算推荐 链接的排名值,确定热门链接;B、监测搜索引擎上升最快的搜索热词,合并热词,通过热词搜索关联新闻,并计算 关联新闻的热度值,确定热门话题;C、通过对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相似 性计算,将热门链接和热门话题合并,获取互联网热点信息。步骤A进一步包括以下步骤Al、轮询微博客搜索引擎入口,找到推荐链接信息;A2、检查RSS阅读器中的RSS,获得推荐链接信息;A3、将获得的推荐链接、标题、资讯正文、时间和发布者存储到数据库;A4、每隔5分钟统计最近3天内发布的相同链接次数;A5、通过以下公式计算推荐链接的排名值,Rank = LoglO (χ) + (Ts) /45000,其中Rank是排名值,χ是最终投票数,Ts等于链接 指向的资讯发布时间与固定时间参数之间的差值;Α6、根据链接的排名值,确定热门链接。步骤Al中,如果推荐链接是缩短域名服务的链接,则请求第三方展开所述短域 名,获得原始推荐链接。步骤Α5中,最终投票数χ =微博客推荐次数(已计入微博客用户的权重
5值)X2+RSS阅读器用户推荐次数XI。步骤B进一步包括以下步骤Bi、查询搜索引擎上升最快的关键词榜单,获取热词及其对应的相关搜索词列 表;B2、通过计算获取的热词及其相关搜索词列表之间的相似性,将相似的热词合并 为一个话题;B3、针对每一个话题,利用热词在新闻搜索引擎和社会化媒体搜索引擎检索关联 新闻;B4、将热词、相关搜索词列表、话题和关联新闻存储到数据库;B5、通过以下公式计算话题热度,话题热度=(搜索到的新闻数目X搜索引擎的权重)+热词的当日搜索次数X 权重;B6、根据话题热度,确定热门话题。步骤C进一步包括以下步骤Cl、对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相似性计 算;C2、当相似性大于预先设定的阈值时,判断热门链接属于所述热门话题;C3、获取互联网热点信息。所述互联网热点信息包括热门话题、话题热度、热词、话题背景信息和热门链接。采用了本发明的技术方案,能够以最快速度侦测到真实有效的热门话题,以最快 速度寻找到热点关联的最有价值的资讯,以话题为中心,将不同来源的资讯聚合在一起,一 般来说,可以在十五分钟内,监测到热门链接,在半小时内,监测到潜在的热门话题,并建立 所有的资讯关联,而且这一切都是自动运行,无需人工干预。


图1是本发明具体实施方式
中监测展示互联网热点的流程图。
具体实施例方式下面结合附图并通过具体实施方式
来进一步说明本发明的技术方案。本发明技术方案的主要思想是通过多个测量维度,完整地给出互联网即时(Real Time)热点的发现和展示解决方案,将不同维度之间互为参考,加入自然语言处理技术,能 够捕获互联网即时热点,并将社会化媒体产生的内容围绕热点迅速组织起来,并将不同热 门链接、热门资讯相应地聚合到一起,从而将新闻媒体、社会化媒体,与互联网即时热点有 机地结合到一起,快速、有效和高质量。图1是本发明具体实施方式
中监测展示互联网热点的流程图。如图1所示,监测 展示互联网热点的流程包括以下步骤步骤101、利用爬虫,通过搜索关键字http来轮询以下两个主流微博客搜索引擎 入口 =Twitter和饭否,从中找到包含了推荐链接的信息。如果该推荐链接是缩短域名服务的链接,则请求第三方服务展开此短域名,获得原始推荐链接。步骤102、利用爬虫,通过检查以下RSS阅读器的每一个中文共享者的RSS,获知哪 些人推荐了哪些文章Google Reader Shared Items和鲜果共享。步骤103、将上面获取的推荐链接、标题、资讯正文、时间和发布者存储入数据库。步骤104、每隔5分钟统计最近3天内发布的相同链接次数。步骤105、计算链接的排名值Rank,用以下公式Rank = LoglO(χ) + (Ts)/45000,其中最终投票数χ =微博客推荐次数(已计入微博客用户的权重值)X2+RSS阅 读器用户推荐次数XI,Ts =热链指向的资讯发布时间_固定时间参数,固定时间参数,如2008-12-01 00:00:0045000指12. 5小时周期内的总秒数。步骤106、根据链接的排名值,确定热门链接。步骤107、利用爬虫,定时查询谷歌和百度的上升最快关键词榜单,获取热词以及 搜索引擎推荐的相关搜索词列表。步骤108、通过计算收集到的关键词和相关搜索词表之间的相似性,可以将不同热 词自动合并为一个话题。步骤109、对于每一个话题,用前面搜集到的热词,到不同的主流新闻搜索引擎和 社会化媒体搜索引擎搜索最近几个小时内发布的关联新闻,包括谷歌新闻搜索、百度新闻 搜索、Twitter搜索、FriendFeed搜索、谷歌图片搜索和百度图片搜索等。步骤110、把前面热词表、相关搜索词表、合并后的话题和关联新闻都存储入数据库。步骤111、通过以下公式测量出该话题的热度。话题热度=(搜索到的新闻数目X搜索引擎的权重)+热词的当日搜索次数X权重。步骤112、根据话题热度,确定热门话题。步骤113、对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相 似性计算。步骤114、当相似性大于预先设定的阈值时,从而说明这些热门链接属于某一个热 门话题。步骤115、获得并展示互联网热点信息,包括这样的一套数据热门话题、具有可 靠的话题热度、一系列热词(能充分反映网民们的关注点)、一系列新闻、视频、图片和资讯 (作为话题背景)和一系列热门链接。本具体实施方式
利用了以下测量维度交叉验证社会化媒体用户的推荐、不同社 会化媒体的权威性、不同社会化媒体用户的权威性、搜索引擎的关键词搜索频次和新闻资 讯的提及频次,来快速侦测最新的热点,并有效地建立起热门关键词、热门链接、新闻、图 片、视频等之间的关联,能够充分展现互联网热点。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
一种监测展示互联网热点的方法,其特征在于,包括以下步骤A、通过查询微博客搜索引擎入口和RSS阅读器,获得推荐链接信息,并计算推荐链接的排名值,确定热门链接;B、监测搜索引擎上升最快的搜索热词,合并热词,通过热词搜索关联新闻,并计算关联新闻的热度值,确定热门话题;C、通过对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相似性计算,将热门链接和热门话题合并,获取互联网热点信息。
2.根据权利要求1所述的一种监测展示互联网热点的方法,其特征在于,步骤A进一步 包括以下步骤Al、轮询微博客搜索引擎入口,找到推荐链接信息;A2、检查RSS阅读器中的RSS,获得推荐链接信息;A3、将获得的推荐链接、标题、资讯正文、时间和发布者存储到数据库;A4、每隔5分钟统计最近3天内发布的相同链接次数;A5、通过以下公式计算推荐链接的排名值,Rank = LoglO (χ) + (Ts) /45000,其中Rank是排名值,χ是最终投票数,Ts等于链接指向 的资讯发布时间与固定时间参数之间的差值; Α6、根据链接的排名值,确定热门链接。
3.根据权利要求2所述的一种监测展示互联网热点的方法,其特征在于,步骤Al中,如 果推荐链接是缩短域名服务的链接,则请求第三方展开所述短域名,获得原始推荐链接。
4.根据权利要求2所述的一种监测展示互联网热点的方法,其特征在于,步骤Α5中,最 终投票数χ =微博客推荐次数(已计入微博客用户的权重值)X2+RSS阅读器用户推荐次 数XI。
5.根据权利要求1所述的一种监测展示互联网热点的方法,其特征在于,步骤B进一步 包括以下步骤Bi、查询搜索引擎上升最快的关键词榜单,获取热词及其对应的相关搜索词列表; Β2、通过计算获取的热词及其相关搜索词列表之间的相似性,将相似的热词合并为一 个话题;Β3、针对每一个话题,利用热词在新闻搜索引擎和社会化媒体搜索引擎检索关联新闻;Β4、将热词、相关搜索词列表、话题和关联新闻存储到数据库; Β5、通过以下公式计算话题热度,话题热度=(搜索到的新闻数目X搜索引擎的权重)+热词的当日搜索次数X权重; Β6、根据话题热度,确定热门话题。
6.根据权利要求1所述的一种监测展示互联网热点的方法,其特征在于,步骤C进一步 包括以下步骤Cl、对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相似性计算; C2、当相似性大于预先设定的阈值时,判断热门链接属于所述热门话题; C3、获取互联网热点信息。
7.根据权利要求6所述的一种监测展示互联网热点的方法,其特征在于,所述互联网热点信息包括热门话题、话题热度、热词、话题背景信息和热门链接。
全文摘要
本发明公开了一种监测展示互联网热点的方法,通过查询微博客搜索引擎入口和RSS阅读器,获得推荐链接信息,并计算推荐链接的排名值,确定热门链接;监测搜索引擎上升最快的搜索热词,合并热词,通过热词搜索关联新闻,并计算关联新闻的热度值,确定热门话题;通过对热门链接的标题和正文与热门话题的热词及其搜索词表进行文本相似性计算,将热门链接和热门话题合并,获取互联网热点信息。采用了本发明的技术方案,能够快速监测互联网最新的热点,并有效地建立起热门关键词、热门链接、新闻、图片、视频等之间的关联,充分展示互联网热点。
文档编号G06F17/30GK101923544SQ200910086470
公开日2010年12月22日 申请日期2009年6月15日 优先权日2009年6月15日
发明者郑昀 申请人:北京百分通联传媒技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1