一种电子政务新闻自动采编方法与流程

文档序号:12124755阅读:336来源:国知局
一种电子政务新闻自动采编方法与流程

本发明涉及新闻采编领域,尤其涉及一种电子政务新闻自动采编方法。



背景技术:

电子政务新闻采编是现在电子政务管理的一部分,电子政务新闻采编的时效性、真实性、针对性、准确性直接影响相关电子政务的作用。现有的新闻发布主要是通过人工浏览、人工筛选、人工复制、人工编辑、人工发布,人工新闻发布都需要经过这些繁琐的流程,导致工作不仅枯燥无味,而且工作量大大增加,新闻编辑发布效率一直无法得到显著的提高。



技术实现要素:

本发明的目的是,提供一种电子政务新闻自动采编方法,可以将编辑的重复性劳动降至最低,提高编辑效率。

为实现上述目的,提供了一种电子政务新闻自动采编方法,该方法包括抓取步骤S1、提取步骤S2和偏好监测步骤S3,各步骤处理过程如下:

抓取步骤S1:抓取系统根据设定的抓取规则从互联网抓取所需新闻,并且将所抓取的新闻发送至大型分布式计算平台进行统计、分析归类,然后保存至全站数据库;

提取步骤S2:电子政务网站群根据实际需要从全站数据库提取所需类 别的新闻通过系统前端呈现;

偏好监测步骤S3:通过用户行为监测系统记录用户的浏览行为并根据所述浏览行为以设定的标准判定为用户的偏好,然后保存至数据存储系统服务器,并且定期推送用户偏好的新闻信息。

优选地,在偏好监测步骤S3中,数据存储系统服务器设有两个及以上数据存储单元,各数据存储单元中的每一条数据都有标签字段,并且数据存储系统服务器能将用户为新闻增加的标签设置为该新闻的标签字段,从而进行偏好处理和偏好新闻推送。

优选地,在抓取步骤S1中,抓取系统根据抓取规则配置单元配置的抓取规则,通过爬虫单元将收集到的网址放到网址库单元,然后,通过中央调度器单元依据调度规则从网址库单元抽取相应量的网址放入待抓取队列单元进行新闻抓取,并且将抓取的内容发送到大型分布式计算平台。

优选地,在抓取步骤S1中,大型分布式计算平台通过政务分析词库单元、图片BASE64转码单元、排版编码转换单元、文章标签提取单元和数据压缩单元的处理,对抓取系统发送的信息进行数据分析、转码、处理、提取、归类,并且发送到全站数据库储存供系统前端提取。

优选地,所述大型分布式计算平台通过离线处理与抓取系统和数据存储系统服务器进行数据传输,大型分布式计算平台将数据通过数据压缩单元压缩后发送给数据存储系统服务器分类,其中,大型分布式计算平台通过调用数据存储系统服务器的数据接口后,根据各个不同政府单位的类别,获取与单位内容相对应的新闻内容数据。

优选地,在提取步骤S2中,系统前端通过在线引擎与数据存储系统服务器和全站数据库通信连接。

本发明与现有技术相比,其有益效果在于:

本发明通过抓取步骤S1、提取步骤S2和偏好监测步骤S3对新闻进行抓取,分析归类,偏好推送,可以将编辑的重复性劳动降至最低,提高编辑效率。本发明并可对各类政府单位的新闻采编进行自动管理,以实现新闻采编的半/全自动化,同时,为各种系统提供数据接口,其他系统可通过数据接口获取到新闻数据。

附图说明

图1是本发明的工作原理框图;

图2是本发明的结构原理框图。

具体实施方式

下面结合实施例,对本发明作进一步的描述,但不构成对本发明的任何限制,任何在本发明权利要求范围所做的有限次的修改,仍在本发明的权利要求范围内。

如图1至图2所示,本发明提供了一种重型车智能诊断方法,该方法包括抓取步骤S1、提取步骤S2和偏好监测步骤S3,各步骤处理过程如下:

抓取步骤S1:抓取系统2根据设定的抓取规则从互联网1抓取所需新闻,并且将所抓取的新闻发送至大型分布式计算平台7进行统计、分析归类,然后保存至全站数据库8;

提取步骤S2:电子政务网站群根据实际需要从全站数据库8提取所需类别的新闻通过系统前端6呈现;

偏好监测步骤S3:通过用户行为监测系统记录用户的浏览行为并根据所述浏览行为以设定的标准判定为用户的偏好,然后保存至数据存储系统服务器,并且定期推送用户偏好的新闻信息。

在偏好监测步骤S3中,数据存储系统服务器4设有三个数据存储单元,各数据存储单元中的每一条数据都有标签字段,并且数据存储系统服务器4能将用户为新闻增加的标签设置为该新闻的标签字段,从而进行偏好处理和偏好新闻推送。

在本实施例中,用户通过B/S模式,即浏览器/服务器模式与抓取系统进行交互,各数据存储单元分别为国家政务新闻、省区政务新闻、政策新闻几个板块的新闻存储。

此外,数据存储系统服务器4还可设置为两个或五个或十个或二十个数据存储单元对新闻进行分类。

在抓取步骤S1中,抓取系统2根据抓取规则配置单元配置的抓取规则,通过爬虫单元将收集到的网址放到网址库单元,然后,通过中央调度器单元依据调度规则从网址库单元抽取相应量的网址放入待抓取队列单元进行新闻抓取,并且将抓取的内容发送到大型分布式计算平台。其中,抓取规则和调度规则为系统已经配置完成的。

在抓取步骤S1中,大型分布式计算平台7通过政务分析词库单元、图片BASE64转码单元、排版编码转换单元、文章标签提取单元和数据压缩单元的处理,对抓取系统发送的信息进行数据分析、转码、处理、提取、归类,并且发送到全站数据库8储存供系统前端6提取。

大型分布式计算平台7通过离线处理3与抓取系统2和数据存储系统服务器4进行数据传输,大型分布式计算平台7将数据通过数据压缩单元压缩 后发送给数据存储系统服务器4分类,其中,大型分布式计算平台7通过调用数据存储系统服务器4的数据接口后,根据各个不同政府单位的类别,获取与单位内容相对应的新闻内容数据。

在本实施例中,大型分布式计算平台7获取抓取系统2发送新闻内容后,读取原有数据并通过政务分析词库单元、图片BASE64转码单元、排版编码转换单元、文章标签提取单元进行各种分析计算,获得新闻内容的标签、类别、时间、来源等。

在提取步骤S2中,系统前端6通过在线引擎5与数据存储系统服务器4和全站数据库8通信连接。

在本实施例中,系统操作员将需要摘抄新闻网站URL,根据系统的配置规则录入抓取系统;然后,电子政务网站系统前端6调用系统的数据接口,当用户日常浏览电子政务网站系统时,电子政务网站将获取到的数据通过前端技术展现给用户浏览,从而实现电子政务新闻的自动采编发布。

在本实施例中,全站数据库8可设置于数据存储系统服务器4中。

以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1