基于大数据的新闻智能选稿方法及系统与流程

文档序号:12748141阅读:997来源:国知局

本发明属于信息处理技术领域,具体的说,是涉及一种基于大数据的新闻智能选稿方法及系统。



背景技术:

现有技术中,有其他公司研发了一套“新闻转载系统”,其技术原理主要是通过采集和汇总目标网站的相关信息,进而提交给后续负责编辑、审核的工作平台,以实现新闻的转载。上述统主要依赖传统的关系型数据库进行数据处理与存储,并运用一些数据采集工具进行信息采集。该系统具备几方面的缺陷,一是在数据处理上依赖mysql等传统关系型数据库,当需要处理海量数据信息时,整套平台的数据处理能力、响应能力可能会出现瓶颈;二是实现的功能较为单一,仅能实现目标网站的信息采集与后台提交,缺少对热点新闻的挖掘方法;三是操作不友好,比如信息更新量大的目标网站,一天的内容生产量可能有上万条,如此大的信息量没有聚类或其他数据过滤机制,对于系统的操作人员而言意味着非常沉重的工作负担;四是不具备文本格式自动处理的能力,编辑人员需要手工进行文字、图片等内容的调整,工作效率难以得到保障。



技术实现要素:

为了改善上述问题,本发明的目的在于提供一种实现方便,并以大数据技术为基础,结合一些数据挖掘方法和爬虫技术的新闻智能选稿方法。

为了实现上述目的,本发明采用的技术方案如下:

一种新闻智能选稿方法,包括以下步骤:

(1)采集并收录目标网站的内容信息的步骤;

(2)数据清洗的步骤;

(3)文本及图片格式处理的步骤;

(4)进行标题与内容的分词处理的步骤;

(5)地域识别:对每条新闻内容的地域属性进行识别,并标注其地域归属;

(6)人名识别:对每条新闻内容进行人名识别;

(7)数据入库:将数据信息写入相应的数据库表中;

(8)热点计算:新闻热点计算与热点人物计算;

(9)根据步骤(8)的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;

(10)浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。

进一步的,在所述步骤(1)中利用多线程自动采集、收录目标网站的内容信息。

进一步的,所述步骤(2)中数据清洗包括:垃圾数据过滤和信息去重处理。

进一步的,所述步骤(3)中对文本及图片格式进行处理,主要包括:

(1)去噪:页面多余元素的去除;不需要的图片的去噪;

(2)保障数据的完整性:图片url信息的补全;多个页面的网页数据信息的获取及格式化处理;

(3)页面编码验证:通过返回的页面头部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删除相应数据,并重新采集对应的数据。

进一步的,所述步骤(4)采用stanford segmenter分词算法,进行标题与内容的分词处理。

进一步的,所述步骤(6)的具体方法如下:调用 Stanford CoreNLP 人名算法,并判断新闻内容是否进行过人名识别,如果已经进行过识别,则跳过人名识别环节,如果是一篇新的文章,则进行人名识别计算,并存储、更新分析结果。

进一步的,所述步骤(8)的具体方法如下:

(81)设定热点计算的时间范围;

(82)将满足条件的新闻内容加载到热点计算队列中;

(83)根据传播载体渠道权重、信息发布及时性、新闻相似度热点进行新闻计算;根据人名出现的频次进行热点人物计算。

进一步的,所述步骤(9)中,非当日数据同步到hadoop平台,当日数据则写入mysql数据库中。

进一步的,在所述步骤(10)中,需对推送给内容管理系统的新闻内容进行去噪处理,包括:

(101)根据不同的网站或格式给新闻内容中段落加上<p>标签,去除缩进;

(102)替换所有原有标签清除样式;

(103)获取一遍图片,根据图片大小,设定图片样式。

本发明还提供了实现所述的新闻智能选稿方法的系统,包括:

信息采集模块,采集并收录目标网站的内容信息;

数据清洗模块,对采集的内容信息进行数据清洗;

文本及图片格式处理模块,完成文本及图片格式的处理;

分词处理模块,进行标题与内容的分词处理;

地域识别模块,对每条新闻内容的地域属性进行识别,并标注其地域归属;

人名识别模块:对每条新闻内容进行人名识别;

数据入库模块:将数据信息写入相应的数据库表中;

热点计算模块:新闻热点计算与热点人物计算;

数据判断模块,根据热点计算模块的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;

推送模块,浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。

本发明与现有技术相比,具有以下优点及有益效果:

本发明是大数据技术在媒体领域的全新应用,它结合了大数据处理与数据挖掘技术,为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,其响应速度快、功能丰富、对新闻内容的聚类、去噪能力强,极大地提高了新闻编辑人员的工作效率。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。

实施例1

如图1所示,本实施例提供了一种基于大数据的新闻智能选稿方法,该方法结合了大数据处理与数据挖掘技术,实现对海量新闻内容的数据处理和热点挖掘,与现有技术相比,不仅数据处理能力强、响应迅速,而且为新闻编辑人员提供了海量新闻素材、实时新闻热点挖掘及快速发布功能,极大的提高了新闻编辑人员的工作效率。

为了使得本领域技术人员对本发明申请有更清晰的了解和认识,下面对本方法进行详细的说明:

一、数据的采集和收录

通过数据采集工具(主要包含javaee和webmagic技术),利用多线程自动采集、收录目标网站的内容信息。

二、数据清洗

通过数据清洗程序(该程序为现有程序),完成垃圾数据过滤,信息去重处理等工作。

三、文本及图片格式处理

对文本及图片格式进行处理,主要包括:

(1)去噪

<1>页面多余元素的去除(例如script 等标签);

<2>不需要的图片(像广告、网站logo、微信公众号二维码等)的去噪;

(2)保障数据的完整性

<1>图片url信息(主要是将图片的相对url替换成绝对url)的补全;

<2>多个页面的网页数据信息的获取及格式化处理;

(3)页面编码验证:通过返回的页面头部消息和页面的自带的编码格式,验证页面的数据是否为乱码,如果为乱码,则删除相应数据,并重新采集对应的数据。

四、分词处理

调用stanford segmenter(斯坦福分割)分词算法,进行标题与内容的分词处理;

五、地域识别

调用地域识别组件(该组件为Java编写的方法),对每条新闻内容的地域属性进行识别,并标注其地域归属;

六、人名识别

调用 Stanford CoreNLP 人名算法,并判断此内容是否进行过人名分析,如果已经进行过识别,则跳过人名识别环节,如果是一篇新的文章,则进行人名识别计算,并存储、更新分析结果;

七、数据入库

通过C3P0数据库连接池与数据库建立连接,将数据信息写入相应的数据库表中,完成数据入库;

八、热点计算

进行热点计算(包括热点新闻计算与热点人物计算)。在本实施例中,热点新闻计算组件当前的工作机制为每隔2分钟计算一次,程序运行一次大约需要1分钟。首先用户可设定热点计算的时间范围,将满足条件的新闻内容加载到热点计算队列中,并调用热点新闻与热点人物计算方法,热点新闻计算的数据模型包含传播载体渠道权重、信息发布及时性、新闻相似度等多个维度,而热点人物计算主要是根据人名出现的频次来判断的。根据不同的需求,本领域技术人员可以选择不同的热点计算机制。

九、历史数据判断

启动历史数据识别组件,非当日数据同步到hadoop平台(由于数据量越来越大,为了保障数据处理与查询的效能,因此新闻智能选稿系统选用了hadoop框架进行数据管理),当日数据则写入mysql数据库中。

十、新闻内容的推送

客户在web端可浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统(Cms,此为现有技术),由于CMS新闻格式的要求是<p>标签与<img>标签的组合,且图片宽度不大于600像素,因此需要进一步去噪处理,其主要包括:

(1)根据不同的网站(或格式)给新闻段落加上<p>标签,去除缩进等;

(2)替换所有原有标签清除样式;

(3)获取一遍图片,根据图片大小,设定图片样式。

本方法实现了对海量新闻内容的实时热度值计算,综合了传播载体渠道权重、新闻相似度等多个计算模型的输出结果,并结合大数据平台的计算能力,可提供即时的数据支撑服务。

本方法中所涉及到的计算方式/方法均为现有成熟的计算方式/方法。

实施例2

本实施例提供了一种新闻智能选稿系统,该系统包括以下部件:

信息采集模块,采集并收录目标网站的内容信息;

数据清洗模块,对采集的内容信息进行数据清洗;

文本及图片格式处理模块,完成文本及图片格式的处理;

分词处理模块,进行标题与内容的分词处理;

地域识别模块,对每条新闻内容的地域属性进行识别,并标注其地域归属;

人名识别模块:对每条新闻内容进行人名识别;

数据入库模块:将数据信息写入相应的数据库表中;

热点计算模块:新闻热点计算与热点人物计算;

数据判断模块,根据热点计算模块的计算结果判断是否为历史数据,并根据判断结果,将数据信息写入对应的数据库中;

推送模块,浏览、查询、调用数据信息,将符合条件的内容推送给内容管理系统,由内容管理系统发布。

通过上述系统实现了对海量新闻内容的实时热度值计算,综合了传播载体渠道权重、新闻相似度等多个计算模型的输出结果,并结合大数据平台的计算能力,可提供即时的数据支撑服务。

按照上述实施例,便可很好地实现本发明。值得说明的是,基于上述结构或方法设计的前提下,为解决同样的技术问题,即使在本发明上做出的一些无实质性的改动或润色,所采用的技术方案的实质仍然与本发明一样,故其也应当在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1