一种数据质量检核方法、系统、设备及可读存储介质与流程

文档序号：20917830发布日期：2020-05-29 13:45阅读：391来源：国知局

本发明涉及数据库技术，尤其涉及一种数据质量检核方法、系统、设备及可读存储介质。

背景技术：

基于高校现有的数据质量检核，目前采用的技术方法是采用六大质量检核纬度，包括一致性、完整性、准确性、规范性、时效性、关联性等方面，去保障数据质量检核多角度达标。

在现有的高校共享数据中心架构中，数据统一由各个业务部门业务系统采集至数据中心前置节点，在此基础上将数据汇入共享数据中心，通过数据中心进行数据质量检核处理，从而提高学校业务数据质量。

但是，此种做法对数据质量保障仍有部分安全风险存在。在以往的经验中，数据的安全、可靠依赖于业务部门正确的生产、使用和维护数据。在这个过程中，存在着业务部门对数据误操作的风险，而系统并没有提供相应的数据安全保障机制，一旦出现大规模数据的误操作，将严重影响数据中心前置节点数据安全和可靠，进而严重影响共享数据中心整体数据质量。

另外，现有技术还存在以下缺点：

(1)无法对源数据进行质量监控。现有的技术方案是先形成数据标准，再进行数据质量检测，质量检核规则需严格符合数据标准，且质量规则也只适用于标准数据，无法对来源于业务系统的原生数据进行直接检测。

(2)数据入库规则不清晰，对数据入基础层、集市层的规则不清晰，导致无法保障入库的数据符合相应质量要求。数据入库规则无法量化，需要人工介入，无法做到自动入库。

(3)对更新数据缺乏质量验证，无法确保数据更新不出错。现有数据质量检核缺乏对更新后的数据进行检测，无法验证更新过程是否符合规范。

(4)数据问题责任不清晰，缺乏线上处理流程。数据进行转换、加工、清洗后，数据责任方不清晰，也无法对质量问题进行线上统一管理、跟进质量问题。

技术实现要素：

本发明所要解决的技术问题在于，提供一种数据质量检核方法、系统、设备及可读存储介质，可对数据分区的源数据或更新数据进行量化的质量检核，并对数据质量问题及时警报和跟进督促。

为了解决上述技术问题，本发明提供一种数据质量检核方法，包括：设置质量检核规则及数据权重规则；将质量检核规则与数据分区进行关联；判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果；根据质量检核规则及数据权重规则计算检核结果的质量权重值；判断质量权重值是否大于预设警报值，判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果。

作为上述方案的改进，设置质量检核规则及数据权重规则的步骤包括：对每个质量检核规则设置规则权重值；对数据权重规则中每个数据项设置对应的数据权重值。

作为上述方案的改进，根据质量检核规则及数据权重规则计算检核结果的质量权重值的步骤包括：判断检核结果中是否有数据项未通过任一质量检核规则的检核，判断为是，逐一计算数据项的质量权重值wq，并以所有数据项的质量权重值作为检核结果的质量权重值：

wq＝wlsum×wd

其中，wq为数据项的质量权重值，wlsum为数据项未通过的所有质量检核规则的规则权重值之和，wd为数据项的数据权重值；

判断为否，将质量权重值设为预设最小值，预设最小值小于预设警报值。

作为上述方案的改进，根据更新数据对数据分区进行更新处理的步骤包括：判断数据分区中更新数据对应的数据项是否为空，判断为是，在数据项中插入更新数据，判断为否，将数据项的数据值修改为更新数据。

一种数据质量检核系统，包括：规则设置模块，用于设置质量检核规则及数据权重规则；规则关联模块，用于将质量检核规则与数据分区进行关联；检核模块，用于判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果；权重计算模块，用于根据质量检核规则及数据权重规则计算检核结果的质量权重值；判断处理模块，用于判断质量权重值是否大于预设警报值，判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果。

作为上述方案的改进，规则设置模块包括：规则权重设置单元，用于对每个质量检核规则设置规则权重值；数据权重设置单元，用于对数据权重规则中每个数据项设置对应的数据权重值。

作为上述方案的改进，权重计算模块包括：检核结果判断单元，用于判断检核结果中是否有数据项未通过任一质量检核规则的检核，质量权重计算单元，用于判断为是，逐一计算数据项的质量权重值wq，并以所有数据项的质量权重值作为检核结果的质量权重值：

wq＝wlsum×wd

其中，wq为数据项的质量权重值，wlsum为数据项未通过的所有质量检核规则的规则权重值之和，wd为数据项的数据权重值；

最小值设置单元，用于判断为否，将质量权重值设为预设最小值，预设最小值小于预设警报值。

作为上述方案的改进，判断处理模块包括：空项判断单元，用于判断数据分区中更新数据对应的数据项是否为空，空项插入单元，用于判断为是，在数据项中插入更新数据，数项更新单元，用于判断为否，将数据项的数据值修改为更新数据。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述数据质量检核方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述数据质量检核方法的步骤。

实施本发明，具有如下有益效果：

本发明数据质量检核方法、系统、设备及可读存储介质，可对数据分区的源数据或更新数据进行量化的质量检核，并对数据质量问题及时警报和跟进督促。

具体来说，设置质量检核规则及数据权重规则并将质量检核规则与数据分区进行关联，从而对包括源数据在内的各种数据进行质量检核，提高数据库整体的数据质量。然后判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果，从而对更新过程中的数据进行质量检核，防止不符合规范的数据更新对数据质量的影响。然后根据质量检核规则及数据权重规则计算检核结果的质量权重值，从而得出一个衡量数据质量的量化指标，再判断质量权重值是否大于预设警报值，如果判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，从而对数据质量问题进行及时警报和跟进督促。如果判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果，从而将符合质量规范的数据更新到数据库。

附图说明

图1是本发明数据质量检核方法的总体流程图；

图2是本发明数据质量检核方法的设置质量检核规则及数据权重规则的流程图；

图3是本发明数据质量检核方法的根据质量检核规则及数据权重规则计算检核结果的质量权重值的流程图；

图4是本发明数据质量检核方法的根据更新数据对数据分区进行更新处理的流程图；

图5是本发明数据质量检核系统的结构示意图；

图6是本发明数据质量检核系统的规则设置模块的结构示意图；

图7是本发明数据质量检核系统的权重计算模块的结构示意图；

图8是本发明数据质量检核系统的判断处理模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。仅此声明，本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词，仅以本发明的附图为基准，其并不是对本发明的具体限定。

图1是本发明数据质量检核方法的总体流程图，包括：

s101、设置质量检核规则及数据权重规则。

s102、将质量检核规则与数据分区进行关联。

s103、判断数据分区是否有更新数据输入。

s104、判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果。

s105、根据质量检核规则及数据权重规则计算检核结果的质量权重值。

s106、判断质量权重值是否大于预设警报值。

s107、判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理。

s108、判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果。

设置质量检核规则及数据权重规则并将质量检核规则与数据分区进行关联，从而对包括源数据在内的各种数据进行质量检核，提高数据库整体的数据质量。然后判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果，从而对更新过程中的数据进行质量检核，防止不符合规范的数据更新对数据质量的影响。然后根据质量检核规则及数据权重规则计算检核结果的质量权重值，从而得出一个衡量数据质量的量化指标，再判断质量权重值是否大于预设警报值，如果判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，从而对数据质量问题进行及时警报和跟进督促。如果判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果，从而将符合质量规范的数据更新到数据库中。

需要说明的是，本发明数据质量检核方法基于以下数据架构进行数据质量检核的。业务系统作为数据提供方将自有数据，包括存储和加工的数据，实时传输到数据仓库中，数据仓库根据数据的加工程度分为三个数据分区：原始数据分区、基础数据分区及集市数据分区。

原始数据分区中的数据来源于数据提供方，数据采用1:1的采集方式，原样采集原样存储，并根据时间、业务规则对老旧数据进行老化处理，也即数据废弃。在采集原始数据时，可根据业务需求满足多种采集条件，配置多种采集策略。

基础数据分区中的数据是标准化的数据，具体基于现有数据标准，对原始数据分区中的原始数据进行转换、清洗等处理，形成标准化结构的数据。基础数据分区的数据来源于原始数据，在进行转换、清洗过程时，保留原有数据结构，并采用统一的数据标准，包括统一数据业务定义、统一业务统计口径、统一数据规范、统一数据格式等。基础数据分区对于原始数据中的问题数据进行检核处理，保障基础数据分区符合数据使用要求。另外，基础数据分区对存量数据、增量数据进行分类管理，并通过增存量数据进行比对，形成历史数据。

集市数据分区包括两大类数据：主题数据、专题数据。其中，主题数据是基于业务视角，对基础数据进行重新分类、关联集成等方式，形成业务主题的数据。专题数据是基于主题数据，根据业务报表需求、业务专题建设需求，集合多个主题重新分类梳理的数据。

图2是设置质量检核规则及数据权重规则的流程图，其包括：

s201、对每个质量检核规则设置规则权重值。

质量检核规则代表着对数据的具体质量要求。因此对不同类型的数据，有着不同要求，即有不同的质量检核规则，而且同一质量检核规则对于不同数据的重要性也会不同。因此，对不同类型的数据，需要对每个质量检核规则设置规则权重值，以对该质量检核规则的重要性进行量化描述。

需要说明的是，质量检核规则根据不同的业务需求有所不同，下面是集中常用的质量检核规则。

(1)逻辑检核：业务数据往往存在一定的逻辑、常识规范。该规则旨在对各层数据提供常识性、业务逻辑规范检查，对常见的数据缺陷、数据问题进行核查。比如值域检查，根据业务常识、业务逻辑，针对数据进行值域范围检查，如年龄小于150岁。又比如平衡性检查，针对同一个层级的数据，任意选定若干个表中若干个指标，选择其中某几个指标进行加减乘除四则运算，计算后的结果与某个指标的值是否符合某种关系，以此来判断数据是否存在平衡性质量问题。一个具体的平衡性检查规则是男生占比是60％，女生就一定是40％。

(2)空值检核：对数据进行空值检查，包括对单张实体表空值检测，也包括对多张实体表关联后进行空值检测。

(3)波动检核：针对业务数据进行波动性检测，检测异常波动，包括同比、环比波动率检测，以对波动较大的数据提供质量问题进行提醒。波动检查可以对单张实体表进行检测，也可以对多张实体表进行关联检查，同时检测对象应包括指标表达式。

(4)记录缺失检核：针对各个数据分区的数据，进行多表间数据记录完整性检查，以对数据在流转中各种原因造成的数据记录缺失，进行质量检测，保障各个层级、各数据表间数据记录完整性。

(5)数据集检核：针对各个数据分区的数据，进行两个数据集之间数据信息检测，检测方式包括实体表检测、sql语句关联检测，从而保障数据源、数据加工过程数据不存在失真、错误等问题。

(6)sql脚本检核：对于比较复杂的质量检测纬度进行sql脚本检查，包括关联性检查、一致性检测等质量纬度检测。

(7)规范检核：针对各数据分区的业务数据，进行数据规范性检查，主要包括数据字段的技术规范检查，如长度是否符合规范、数据类型是否符合规范、数据格式是否如何规范等。常见的规范类型包括身份证、手机号码、邮箱、网络地址、日期、字符、数值、长度范围等。

(8)及时性检核：针对各数据分区的实体数据表中数据实时性要求较高的数据，进行数据及时性检测。

(9)重复数据检核：针对各数据分区的实体数据表，进行数据记录重复性检测，包括重复数据评定的标准设置、选择比对的数据项等，从而对数据中心各个层级的数据提供重复检测机制，检测出来后进行过滤，避免数据繁冗。

(10)离群值检核：离群值(outlier)，也称逸出值，是指在数据中有一个或几个数值与其他数值相比差异较大。业务数据往往存在一定的规律和特征，大部分情况下，数据都应符合群体属性，但是也有可能部分数据出现离群情况，这时候有可能是正常数据出现的极端表现，也有可能是属于数据出现错误，包括业务系统源头输入错误，或者是数据加工过程出现错误。该规则通过几种常用的方法，检索判断离群值数据，如使用拉依达法、q检验法(狄克松法)、肖维特法、格鲁布斯法、t检验法、极差法等方法进行检核。

(11)引用完整性检核：业务数据中，部分数据字段取值引用于代码表，该部分数据应符合代码范围要求。针对各数据分区的数据，应对该部分数据进行代码引用规范检核，即引用完整性检核，以确定源数据内容是否在现行发布的标准代码中。

s202、对数据权重规则中每个数据项设置对应的数据权重值。

数据权重规则对不同数据的重要性进行量化衡量。比如身份证号码、姓名等数据项比起学校、班级等数据项，对标识学生更为重要，则需要对身份证号码、姓名等数据项设置更高的数据权重值，当这些数据项出现质量问题，需要更及时进行警报和督促修正。

图3是根据质量检核规则及数据权重规则计算检核结果的质量权重值的流程图，其包括：

s301、判断检核结果中是否有数据项未通过任一质量检核规则的检核。

s302、判断为是，逐一计算数据项的质量权重值wq，并以所有数据项的质量权重值作为检核结果的质量权重值：

wq＝wlsum×wd

其中，wq为数据项的质量权重值，wlsum为数据项未通过的所有质量检核规则的规则权重值之和，wd为数据项的数据权重值。

s303、判断为否，将质量权重值设为预设最小值，预设最小值小于预设警报值。

根据质量权重值及规则权重值计算质量权重值，能兼顾数据项的重要性和质量检核规则的重要性，从而衡量该数据项的特定数据质量问题进行量化描述，为后续的判断及控制提供了核心数据指标。

当所有数据项都分别通过了所有的质量检核规则，此时将质量权重值设为预设最小值，且预设最小值小于预设警报值，从而保证该质量权重值不会触发后续的当质量权重值大于预设警报值时有关的控制过程。

图4是根据更新数据对数据分区进行更新处理的流程图，其包括：

s401、判断数据分区中更新数据对应的数据项是否为空。

s402、判断为是，在数据项中插入更新数据。

当数据项为空的时候，应将更新数据作为原始数据插入到数据项中。

s403、判断为否，将数据项的数据值修改为更新数据。

当数据项不为空时，应将更新数据替换数据项中的旧数据，以完成数据更新过程。

相应地，本发明还公开了一种数据质量检核系统。

图5是本发明数据质量检核系统100的结构示意图，其包括：

规则设置模块1，用于设置质量检核规则及数据权重规则；

规则关联模块2，用于将质量检核规则与数据分区进行关联；

检核模块3，用于判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果；

权重计算模块4，用于根据质量检核规则及数据权重规则计算检核结果的质量权重值；

判断处理模块5，用于判断质量权重值是否大于预设警报值，判断为是，向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，判断为否，根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果。

规则设置模块1设置质量检核规则及数据权重规则后，规则关联模块2将质量检核规则与数据分区进行关联，从而对包括源数据在内的各种数据进行质量检核，提高数据库整体的数据质量。然后检核模块3判断数据分区是否有更新数据输入，判断为是，根据数据分区对应的质量检核规则对更新数据进行检核处理，生成检核结果，从而对更新过程中的数据进行质量检核，防止不符合规范的数据更新对数据质量的影响。然后权重计算模块4根据质量检核规则及数据权重规则计算检核结果的质量权重值，从而得出一个衡量数据质量的量化指标。判断处理模块5判断质量权重值是否大于预设警报值，如果判断为是，判断处理模块5向更新数据的数据提供方发出质量警报信息及检核结果，获取数据提供方的质量处理结果，根据质量处理结果进行二次警报处理，从而对数据质量问题进行及时警报和跟进督促。如果判断为否，判断处理模块5根据更新数据对数据分区进行更新处理，并向数据提供方发送检核结果，从而将符合质量规范的数据更新到数据库中。

图6是规则设置模块1的结构示意图，其包括：

规则权重设置单元11，用于对每个质量检核规则设置规则权重值；

质量检核规则代表着对数据的具体质量要求。因此对不同类型的数据，有着不同要求，即有不同的质量检核规则，而且同一质量检核规则对于不同数据的重要性也会不同。因此，对不同类型的数据，需要规则权重设置单元11对每个质量检核规则设置规则权重值，以对该质量检核规则的重要性进行量化描述。

需要说明的是，质量检核规则根据不同的业务需求有所不同，下面是集中常用的质量检核规则。

(2)空值检核：对数据进行空值检查，包括对单张实体表空值检测，也包括对多张实体表关联后进行空值检测。

(6)sql脚本检核：对于比较复杂的质量检测纬度进行sql脚本检查，包括关联性检查、一致性检测等质量纬度检测。

(8)及时性检核：针对各数据分区的实体数据表中数据实时性要求较高的数据，进行数据及时性检测。

数据权重设置单元12，用于对数据权重规则中每个数据项设置对应的数据权重值。

数据权重规则对不同数据的重要性进行量化衡量。比如身份证号码、姓名等数据项比起学校、班级等数据项，数据权重设置单元12对标识学生更为重要，则需要对身份证号码、姓名等数据项设置更高的数据权重值，当这些数据项出现质量问题，需要更及时进行警报和督促修正。

图7是权重计算模块4的结构示意图，其包括：

检核结果判断单元41，用于判断检核结果中是否有数据项未通过任一质量检核规则的检核；

质量权重计算单元42，用于判断为是，逐一计算数据项的质量权重值wq，并以所有数据项的质量权重值作为检核结果的质量权重值：

wq＝wlsum×wd

其中，wq为数据项的质量权重值，wlsum为数据项未通过的所有质量检核规则的规则权重值之和，wd为数据项的数据权重值。

最小值设置单元43，用于判断为否，将质量权重值设为预设最小值，预设最小值小于预设警报值。

质量权重计算单元42根据质量权重值及规则权重值计算质量权重值，能兼顾数据项的重要性和质量检核规则的重要性，从而衡量该数据项的特定数据质量问题进行量化描述，为后续的判断及控制提供了核心数据指标。

当所有数据项都分别通过了所有的质量检核规则，此时最小值设置单元43将质量权重值设为预设最小值，且预设最小值小于预设警报值，从而保证该质量权重值不会触发后续的当质量权重值大于预设警报值时有关的控制过程。

图8是判断处理模块5的结构示意图，其包括：

空项判断单元51，用于判断数据分区中更新数据对应的数据项是否为空，

空项插入单元52，用于判断为是，在数据项中插入更新数据；

当数据项为空的时候，空项插入单元52应将更新数据作为原始数据插入到数据项中。

数项更新单元53，用于判断为否，将数据项的数据值修改为更新数据。

当数据项不为空时，数项更新单元53应将更新数据替换数据项中的旧数据，以完成数据更新过程。

相应地，本发明还公开了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述数据质量检核方法的步骤。

相应地，本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述数据质量检核方法的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王新宇;张健博;刘栋梁;王晋民;卢国资
技术所有人：三盟科技股份有限公司
我是此专利的发明人

上一篇：一种干衣机的电机装配结构及干衣机的制作方法
上一篇：粗精加工一体设计的可转位车削刀片的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。