适用于政府发布平台公示信息的归类方法与流程

文档序号:11286636阅读:969来源:国知局

本发明涉及一种信息的归类方法,尤其涉及一种适用于政府发布平台公示信息的归类方法。



背景技术:

对于企业的项目申报来说,往往需要通过关注相关的政府发布平台来获取政策导向,为企业的后续发展进行提前规划。但是,发布平台内容多样,如何来查找有用的相关信息,则需要企业采用人工方式,按照一定的周期进行人工检索、存储、分析、规划,非常耗时,也消耗人力资源。

同时,若采用简单方式直接全部下载发布平台的内容,再进行关键词匹配的话,会存在数据交互出现延迟,且设定关键词过于繁杂,还容易出现漏检。更为重要的是,下载的发布平台多样化,单一的下载数据会造成数据重复下载,影响处理效率。

有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于政府发布平台公示信息的归类方法,使其更具有产业上的利用价值。



技术实现要素:

为解决上述技术问题,本发明的目的是提供一种适用于政府发布平台公示信息的归类方法。

本发明的适用于政府发布平台公示信息的归类方法,其中:包括有相互通讯的数据采集层、存储层、分析层、发布层构成,其数据构建流程如下,步骤一,通过数据采集层从政府发布平台公示信息中进行数据采集。步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。步骤三,通过分析层进行数据分析。步骤四,发布层对分析层分析后的分析结果进行加密与展示。

进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤一中,数据采集层通过网络爬虫进行数据采集。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤一中,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集,在采集过程中,网络爬虫设有自检机制,对重复词条进行标注,为步骤三提供敏感词标签。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤一中,通过定时采集方式进行数据采集,所述定时周期为每周,或是为每个工作日,或是,通过实时采集方式进行数据采集。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤一中,政府发布平台公示信息包括科技类扶持项目、科技类认定项目、人才补贴项目、建设引导项目、工程技术研究项目、产学研互助项目,所述政府发布平台包括部委、省、市、区级政府机构的网站、网页、微博、微信。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤二中,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤三中,数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,通过参与条件、施行周期、评选截止日、递交截止日作为二次关键词,生成信息摘要。

更进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。

再进一步地,上述的适用于政府发布平台公示信息的归类方法,其中,所述步骤四中,分析结果传输到pc端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。

借由上述方案,本发明至少具有以下优点:

1、可对各类公示信息进行持续化的集中抓取,免人工进行操作。

2、设有独立的存储层,提升数据安全性。

3、可对采集的公示信息进行分析,实现数据二次归类,便于用户快速调阅读取。

4、发布介质多样化,可负责多种智能设备。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。

具体实施方式

下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

适用于政府发布平台公示信息的归类方法,其与众不同之处在于:包括有相互通讯的数据采集层、存储层、分析层、发布层构成,其数据构建流程如下。

首先,通过数据采集层从政府发布平台公示信息中进行数据采集。在此期间,为了实现免人工的快速、全方位的数据采集,可在数据采集层通过网络爬虫进行数据采集。实施期间,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集。同时,在采集过程中,网络爬虫设有自检机制,对重复词条进行标注,为后续的处理步骤提供敏感词标签。这样,对于词频出现较多的词组可设为敏感词,提高采集搜集效率。

在实际实施时,可通过定时采集方式进行数据采集,采用的定时周期为每周,或是为每个工作日。这样,可依据发布规律来进行采集,减少服务器负担。当然,为了有效扩大数据存储,亦可以通过实时采集方式进行数据采集。由此,一旦有新的公式信息发出,可被第一时间采集,通过后续处理后能第一时间发布。

为了便于用户及时了解当前的政策走向,便于为企业发展提供前瞻规划,本发明所针对的政府发布平台公示信息,主要包括科技类扶持项目、科技类认定项目、人才补贴项目、建设引导项目、工程技术研究项目、产学研互助项目,政府发布平台包括部委、省、市、区级政府机构的网站、网页、微博、微信。当然,考虑到发布平台的日新月异,也可以接纳其他方式,通过对应的数据采集端口对接即可。

之后,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。这样,可第一时间保存采集数据,避免出现丢失,不用二次重复采集。同时,为了提升存储格式的兼容性,满足多种数据的保存需要,本发明采用的存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。

接着,通过分析层进行数据分析。为了便于用户根据检索信息进行项目立项、申报与后期执行,采用的数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,通过参与条件、施行周期、评选截止日、递交截止日作为二次关键词,生成信息摘要。这样,可满足用户的内部快速搜索,第一时间获取想要的信息。

之后,为了进行最终的公式信息展示,可不用再次进入政府发布平台,而是直接在本地终端显示,发布层对分析层分析后的分析结果进行加密与展示。考虑到用户的阅读便利,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。这样,可以根据实际内容的不同,进行对应方式的展示,更为直观与简洁,让用户直接获取所需要的信息。考虑到实施的便捷性,为了适应目前较为普及的电脑与智能设备。这样,在实际操作时,可将分析结果传输到pc端,和/或是智能设备,进行阅读。并且,智能设备包括智能手机、平板电脑,当然也可以是其他可供数据读取显示的设备。

通过上述的文字表述可以看出,采用本发明后,拥有如下优点:

1、可对各类公示信息进行持续化的集中抓取,免人工进行操作。

2、设有独立的存储层,提升数据安全性。

3、可对采集的公示信息进行分析,实现数据二次归类,便于用户快速调阅读取。

4、发布介质多样化,可负责多种智能设备。

以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1