一种政务数据采集流程的实现方法与流程

文档序号:15589483发布日期:2018-10-02 18:46阅读:2470来源:国知局

本发明涉及数据采集共享技术领域,具体地说是一种政务数据采集流程的实现方法。



背景技术:

在信息系统建设的过程中,建立统一的数据共享平台,实现各部门之间数据统一的共享流转已经成为趋势。但是,出于对数据安全和数据质量方面的考虑,往往阻碍政府部门共享数据的决心和力度。



技术实现要素:

本发明的技术任务是解决现有技术的不足,切实保障政府数据共享过程中的安全性,消除数据提供部门对数据安全性和数据使用者对数据质量的顾虑,促进政府数据的共享开放,提供一种政务数据采集流程的实现方法。

本发明解决其技术问题所采用的技术方案是:

一种政务数据采集流程的实现方法,包括:

定义目录信息;

构建数据交换采集系统;

定义质量规则,对数据交换系统采集的数据进行校验,并出具质量检查报告;

构建数据质量的评估考核模型,对通过校验的数据进行评估考核,并出具数据质量绩效报告;

依托目录信息和质量规则,定义脱敏规则;

进行数据库对接和服务对接。

所涉及定义目录信息的具体内容包括:

根据政府部门的职能,定义相应的目录信息;

属于同一个政府部门的目录信息具有不同的身份识别信息;

属于不同政府部门的目录信息具有唯一的身份识别信息。

进一步的,每一条目录信息包括至少一个元数据构成。

构建数据交换采集系统的操作包括:

根据已经定义的目录信息梳理现有政府数据交换系统或etl工具,通过增量或全量的方式采集现有政府数据交换系统或etl工具的数据,并将采集后的数据存储至数据交换采集系统。

所涉及定义质量规则的操作过程包括:

根据至少一条目录信息所包含的元数据定义相应的检查规则;

将检查规则绑定于同一政府部门的其余目录信息,并对与检验规则相对应的元数据进行校验;

将校验合格的元数据发送至评估考核模型,记录校验不合格的元数据并根据记录结果出具质量检查报告。

所涉及检查规则包括数据完整性规则、数据唯一性规则、数据准确性规则、数据一致性规则和数据规范性规则。

所涉及评估考核模型按照月度、季度、年度的时长进行数据的评估考核,包括:

评估考核模块一,用于考核通过校验的数据所属的目录信息;

评估考核模块二,用于考核通过校验的数据是否符合所属目录信息的质量规则;

评估考核模块三,用于评估考核通过校验的数据更新速度是否及时。

所涉及定义脱敏规则包括:

根据质量规则,定义目录信息所包含元数据中不同字段的脱敏规则;

对目录信息中用于唯一识别身份信息的字段进行绑定规则;

根据脱敏规则,对目录信息所包含元数据进行脱敏,并将脱敏后的结果记录到脱敏数据库中。

所涉及脱敏规则包含加密/解密,屏蔽,替换,散列,排序,位移。

所涉及数据库对接就是将脱敏数据库中的数据借助etl工具直接交换到数据交换采集系统;所涉及服务对接就是将数据交换采集系统的数据直接发布成api服务,通过api完成政府各部门与数据交换采集系统的数据对接。

本发明的一种政务数据采集流程的实现方法与现有技术相比所产生的有益效果是:

本发明的实现方法采用通过定义目录信息、构建数据交换采集系统两个步骤完成了数据采集阶段的安全性保护,通过定义质量规则、构建数据质量的评估考核模型、依托目录信息和质量规则定义脱敏规则三个步骤完成了数据的安全保护和数据质量的考核,消除了数据提供者的顾虑,从而实现更大范围的数据共享,对政府信息化的建设具有重大意义。

附图说明

附图1是本发明的方法流程图;

附图2是本发明中步骤s30的流程图;

附图3是本发明中评估考核模型的结构框图;

附图4是本发明中步骤s50的流程图。

附图中各个标号表示:

1、评估考核模块一,2、评估考核模块二,3、评估考核模块三。

具体实施方式

下面结合附图1-4,对本发明的一种政务数据采集流程的实现方法作以下详细说明。

如附图1所示,本发明提供一种政务数据采集流程的实现方法,其结构包括:

s10:定义目录信息;

s20:构建数据交换采集系统;

s30:定义质量规则,对数据交换系统采集的数据进行校验,并出具质量检查报告;

s40:构建数据质量的评估考核模型,对通过校验的数据进行评估考核,并出具数据质量绩效报告;

s50:依托目录信息和质量规则,定义脱敏规则;

s60:进行数据库对接和服务对接。

在本实施例中,步骤s10定义目录信息的具体内容包括:

根据政府部门的职能,定义相应的目录信息;

属于同一个政府部门的目录信息具有不同的身份识别信息;

属于不同政府部门的目录信息具有唯一的身份识别信息。

步骤s10需要说明的是,每一条目录信息包括至少一个元数据构成。以政府的公安部门为例,居民在公安局的身份证信息包含姓名,性别,民族,身份证号码,出生日期,家庭住址等多个元数据,多个元数据组成了一条完整的信息,我们称之为目录信息,还可以具体定义为公安局目录信息。当然,我们还可以根据政府的其他部门,如医疗、交通、工商等,进行其他目录信息的定义。如果以个人进行说明的话,应该通过身份证信息采集与之相关所有政府部门的数据。而属于同一个政府部门的目录信息必须通过身份证信息这个元数据进行区别。

在本实施例中,步骤s20构建数据交换采集系统的操作具体包括:

根据已经定义的目录信息梳理现有政府数据交换系统或etl工具,通过增量或全量的方式采集现有政府数据交换系统或etl工具的数据,并将采集后的数据存储至数据交换采集系统。增量采集主要是依据数据库中表结构时间戳实现数据的增量采集;全量采集则是在每次采集都是一次性删除和插入。

在本实施例中,参考附图2,步骤s30定义质量规则的操作过程包括:

s31:根据至少一条目录信息所包含的元数据定义相应的检查规则,检查规则包括数据完整性规则、数据唯一性规则、数据准确性规则、数据一致性规则和数据规范性规则;

s32:将检查规则绑定于同一政府部门的其余目录信息,并对与检验规则相对应的元数据进行校验;

s33:将校验合格的元数据发送至评估考核模型,记录校验不合格的元数据并根据记录结果出具质量检查报告。

步骤s30以居民身份证信息为例定义质量规则时,需要首先定义身份证号码的数据完整性规则,借助正则表达式定义对身份证号码15位和18位长度的检查规则([0-9]{18}|[0-9]{17}x|[0-9]{15});然后,将上述身份证号码的完整性规则绑定至同一政府部门的目录信息中身份证信息这一元数据,进行身份证号码的规则检验;检验合格的,即所采集的信息符合质量规则,则传送至评估考核模型,检验不合格的,则对该元数据以及该元数据所属的目录信息进行记录,检验完成后,根据记录结果出具质量检查报告。

需要补充的是,检查规则除使用正则表达式外,还可支持js,python等脚本语言的编写。

在本实施例中,参考附图3,步骤s40的评估考核模型按照月度、季度、年度的时长进行数据的评估考核,包括:

评估考核模块一1,用于考核通过校验的数据所属的目录信息;

评估考核模块二2,用于考核通过校验的数据是否符合所属目录信息的质量规则;

评估考核模块三3,用于评估考核通过校验的数据更新速度是否及时。

在本实施例中,参考附图4,步骤s50的定义脱敏规则包括:

s51:根据质量规则,定义目录信息所包含元数据中不同字段的脱敏规则;

s52:对目录信息中用于唯一识别身份信息的字段进行绑定规则;

s53:根据脱敏规则,对目录信息所包含元数据进行脱敏,并将脱敏后的结果记录到脱敏数据库中。

所涉及脱敏规则包含加密/解密,屏蔽,替换,散列,排序,位移。

以身份证号码为例:因为身份证号码属于个人隐私,泄露身份证号码很容易对他人的信息安全造成威胁,所以在一些数据公示的时候,对身份证号码的脱敏显得尤为重要。实现对身份证号码的脱敏基本步骤为,1指定身份证号码的脱敏规则,比如将出生日期部分以*代替,这里我们可以借助python脚本,对15位和18位身份证号码分别编写规则;2.对目录信息中身份证号码字段绑定规则;3.脱敏,用程序将数据库中的数据分别去除,逐条进行脱敏,最终将结果记录到脱敏数据库中。

在本实施例中,步骤s60的数据库对接就是将脱敏数据库中的数据借助etl工具直接交换到数据交换采集系统;所涉及服务对接就是将数据交换采集系统的数据直接发布成api服务,通过api完成政府各部门与数据交换采集系统的数据对接。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明一种政务数据采集流程的实现方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1