一种实时关联事件新闻推荐方法及系统与流程

文档序号:11950885阅读:1486来源:国知局
一种实时关联事件新闻推荐方法及系统与流程

本发明涉及数据挖掘和推荐系统,特别涉及利用数据挖掘进行实时关联事件新闻推荐的系统,具体是指一种实时关联事件新闻推荐方法及系统。



背景技术:

我们现在进入大数据时代,每天都会在互联网产生数以万计的数据。随着互联网的迅猛发展,各大新闻媒体开始通过互联网公布新闻。而人们也开始习惯于通过互联网浏览每日新闻。

但是,因为新闻网站数量庞大,所以会出现各个新闻网站报道的都是同一个新闻,而且因为通过互联网浏览新闻的人数众多,每个人所关注的重点不同,所以通过互联网进行浏览新闻,会花费很多时间在搜索自己所需要的新闻上,且每天都有大量的新闻要进行公布,所有一些连续事件的追踪报告之类的新闻会导致浏览人要去找几天前的新闻才知道事件的本末。这一系列都导致在互联网上浏览新闻的效率十分的低下。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种实时关联事件新闻推荐方法及系统,该方法可以使用户高效实时了解与某新闻相关的关联事件的整个经过,起源,现状等详情,并推送相关的新闻链接给用户。

本发明的目的是通过以下技术方案来实现的:一种实时关联事件新闻推荐方法,它包括如下步骤:

S1:爬取每日发生的新闻以及对应的微博及各大论坛上的评论,建立新闻库;

S2:对新闻库中数据进行深度挖掘,建立相应的事件模型,并保存在事件库中;

S3:对用户正在浏览的新闻数据进行爬取;

S4:把用户正在浏览的信息和事件库中的数据进行对比,匹配出此新闻的整个事件模型和相关的分析结果,并以直观方式推荐给用户。

所述的步骤S2中对数据进行深度挖掘并建立时间模型包括如下子步骤:

S21:对新闻库中数据进行处理,把不同新闻网站的关于同一事件的新闻进行整合,在深度挖掘的基础上,分析事件的起源,事件的脉络,并建立此事件的事件模型;

S22:在事件模型的基础上,再基于对各大论坛和微博的评论数据的实时处理,分析出民众对于此事件不同阶段的观点信息;

S23:将挖掘出的数据按不同类别存储到事件库。

所述的步骤S3中对用户正在浏览的新闻数据进行爬取主要爬取用户正在浏览的新闻的内容、标题及所发布的网站。

所述的步骤S4中将把用户所浏览的信息与事件模型进行匹配与分析主要包括如下步骤:

S41:在基于已爬取用户浏览新闻信息的基础上,设定一个时间窗口,查询事件库中在此时间范围内的所有事件;

S42:在找到的时间范围内的事件中,把新闻的信息和事件信息进行对比,通过文本相似性的方法匹配出跟此新闻相关的事件;

S43:根据事件库中的事件模型的分析结果把该新闻的整个事件模型和相关的分析结果推荐给用户。

所述的新闻的信息和事件信息进行对比涉及到关键词、人物及地点。

所述的深度挖掘包括如下子步骤:

A.根据时间戳对事件的起源进行判断;

B. 根据时间戳对事件脉络进行整理;

C. 根据论坛评论的情感分析对事件公众情感走势进行分析;

D. 根据民众对事件的关注度分析事件的热度和影响力。

一种实时关联事件新闻推荐系统,它包括:

数据爬取模块,该模块主要用于对各大新闻网站信息的以及相关论坛和微博评论的爬取;

新闻库,存储数据爬取模块爬取的各类新闻和评论;

事件分析模块,该模块主要用于对新闻库中的信息进行数据挖掘和事件建模;

事件库,保存事件分析模块生成的各类事件信息;

数据存储访问模块,该模块主要用于把数据爬取模块获取的数据存储到新闻库,将事件分析模块数据挖掘和事件建模得到的事件存储到事件库,并提供新闻库、事件库访问接口;

客户端模块,该模块主要用于把用户正在浏览的新闻和事件库中的数据进行对比,并且把用户浏览的新闻的数据分析结果展现给用户且进行相关新闻的推荐。

所述的事件分析模块实现对事件脉络析、事件起源、事件影响力以及群众对事件情感的分析。

本发明的有益效果是:本发明提供了一种实时关联事件新闻推荐方法及系统,能够实现人们在浏览新闻的时候更加详细了解事件发生的情况,并能推送相关的新闻给阅读者,避免他们在寻找相关新闻上再去浪费时间。解决了在如今大数据,每天新闻报道繁多的情况下,在浏览新闻时低效率的问题。也让人们能更好的了解新闻的真实情况,在一定程度上减轻谣言的传播。

附图说明

图1为本发明的方法流程图;

图2为系统模块示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

如图1所示,一种实时关联事件新闻推荐方法,它包括如下步骤:

S1:爬取每日发生的新闻以及对应的微博及各大论坛上的评论,建立新闻库;

S2:对新闻库中数据进行深度挖掘,建立相应的事件模型,并保存在事件库中;

S3:对用户正在浏览的新闻数据进行爬取;

S4:把用户正在浏览的信息和事件库中的数据进行对比,匹配出此新闻的整个事件模型和相关的分析结果,并以直观方式推荐给用户。

所述的步骤S2中对数据进行深度挖掘并建立时间模型包括如下子步骤:

S21:对新闻库中数据进行处理,把不同新闻网站的关于同一事件的新闻进行整合,在深度挖掘的基础上,分析事件的起源,事件的脉络,并建立此事件的事件模型;

S22:在事件模型的基础上,再基于对各大论坛和微博的评论数据的实时处理,分析出民众对于此事件不同阶段的观点信息;

S23:将挖掘出的数据按不同类别存储到事件库。

所述的步骤S3中对用户正在浏览的新闻数据进行爬取主要爬取用户正在浏览的新闻的内容、标题及所发布的网站。

所述的步骤S4中将把用户所浏览的信息与事件模型进行匹配与分析主要包括如下步骤:

S41:在基于已爬取用户浏览新闻信息的基础上,设定一个时间窗口,查询事件库中在此时间范围内的所有事件;

S42:在找到的时间范围内的事件中,把新闻的信息和事件信息进行对比,通过文本相似性的方法匹配出跟此新闻相关的事件;

S43:根据事件库中的事件模型的分析结果把该新闻的整个事件模型和相关的分析结果推荐给用户。

所述的新闻的信息和事件信息进行对比涉及到关键词、人物及地点。

所述的深度挖掘包括如下子步骤:

A.根据时间戳对事件的起源进行判断;

B. 根据时间戳对事件脉络进行整理;

C. 根据论坛评论的情感分析对事件公众情感走势进行分析;

D. 根据民众对事件的关注度分析事件的热度和影响力。

如图2所示,一种实时关联事件新闻推荐系统,它包括:

数据爬取模块,该模块主要用于对各大新闻网站信息的以及相关论坛和微博评论的爬取;

新闻库,存储数据爬取模块爬取的各类新闻和评论;

事件分析模块,该模块主要用于对新闻库中的信息进行数据挖掘和事件建模;

事件库,保存事件分析模块生成的各类事件信息;

数据存储访问模块,该模块主要用于把数据爬取模块获取的数据存储到新闻库,将事件分析模块数据挖掘和事件建模得到的事件存储到事件库,并提供新闻库、事件库访问接口;

客户端模块,该模块主要用于把用户正在浏览的新闻和事件库中的数据进行对比,并且把用户浏览的新闻的数据分析结果展现给用户且进行相关新闻的推荐。

所述的事件分析模块实现对事件脉络析、事件起源、事件影响力以及群众对事件情感的分析。

在一个实施例中,使用浏览器插件作为本发明的实施载体,主要流程如下:

步骤1、对于每日发生的新闻,以及对应的微博等各大论坛上的评论进行数据爬取,建立新闻库。主要网站包括:网易、腾讯、人民网、天涯、91等各大网站的新闻及相关评论的爬取。

步骤2、对从各大新闻和论坛平台所爬取的数据进行深度挖掘,建立相应的事件模型,并保存在事件库中。主要分为四个步骤:数据预处理,事件聚类,事件情感分析,事件影响力判断。其中,事件脉络会在事件聚类中基于事件发生的时间戳进行脉络刻画。然后把建模的事件模型和分析结果存入事件库。

步骤3、在用户端安装客户端模块,在本发明例中客户端模块是一个通用浏览器插件,配置好浏览器所用的插件后,通过该插件就可以实时爬取用户正在浏览的新闻,将抓取到的新闻与事件库中的数据进行对比,并且把用户浏览的新闻的数据分析结果展现给用户且进行相关新闻的推荐。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1