一种数据质量检测方法和装置与流程

文档序号:14135952阅读:152来源:国知局
一种数据质量检测方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种数据质量检测方法和装置。



背景技术:

在企业运营过程中,由于多地区、多产品、多业务、多系统的环境,导致数据存在诸多质量问题,主要包括:数据不一致、不完整、不统一等问题,由此导致管理者、业务人员和信息使用者的误解,导致数据利用出现错误,企业决策出现偏差。同时低劣数据质量往往造成开发出来的系统与用户预期大相径庭,并且导致运行维护成本过高,工作量过大,系统难以扩展。综上所述,数据质量的检测对于提高数据质量的至关重要的。

现有技术中,一般通过单一的规则对数据进行检测,例如,利用预先设置的格式规则检测目标数据的格式。

但是,现有的方法只能对数据进行格式等单一维度的检测。



技术实现要素:

本发明实施例提供了一种数据质量检测方法和装置,能够对数据进行多个维度的检测。

第一方面,本发明实施例提供了一种数据质量检测方法,预先设置至少两种数据标准,还包括:

获取待检测数据表;

在所述至少两种数据标准中确定至少两种目标数据标准;

针对每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;

根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。

优选地,

所述数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。

优选地,

所述数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。

优选地,

所述当前目标数据标准为约束规则;

所述约束规则包括:等于规则、截取自规则和合并自规则;

所述利用当前目标数据标准对所述待检测数据表进行数据质量检测,包括:

利用所述等于规则判断所述待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用所述截取自规则判断所述待检测数据表中的目标字段是否截取自所述第一标准字段,利用所述合并自规则判断所述待检测数据表中的目标字段是否为所述第一标准字段和预先设置的第二标准字段的组合。

第二方面,本发明实施例提供了一种数据质量检测装置,包括:

设置单元,用于设置至少两种数据标准;

确定单元,用于获取待检测数据表;在所述设置单元设置的所述至少两种数据标准中确定至少两种目标数据标准;

检测单元,用于针对所述确定单元确定的每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;

生成单元,用于根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。

优选地,

所述数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。

优选地,

所述数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。

优选地,

所述当前目标数据标准为约束规则;

所述约束规则包括:等于规则、截取自规则和合并自规则;

所述检测单元,用于利用所述等于规则判断所述待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用所述截取自规则判断所述待检测数据表中的目标字段是否截取自所述第一标准字段,利用所述合并自规则判断所述待检测数据表中的目标字段是否为所述第一标准字段和预先设置的第二标准字段的组合。

第三方面,本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一实施例所述的方法。

第四方面,本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;

所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一实施例所述的方法。

本发明实施例提供了一种数据质量检测方法和装置,其中,该方法能够利用多种数据标准对待检测数据表进行多个维度的检测,与现有技术中相比,该方法具有检测效率高、维护成本低、检测维度多样的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种数据质量检测方法的流程图;

图2是本发明另一个实施例提供的一种数据质量检测方法的流程图;

图3是本发明一个实施例提供的一种数据质量检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种数据质量检测方法,该方法可以包括以下步骤:

步骤101:设置至少两种数据标准;

步骤102:获取待检测数据表;

步骤103:在至少两种数据标准中确定至少两种目标数据标准;

步骤104:针对每一种目标数据标准,均执行:利用当前目标数据标准对待检测数据表进行数据质量检测;

步骤105:根据各个目标数据标准对应的检测结果,生成至少一个数据检测报告。

在图1所示的本发明实施例中,该方法能够利用多种数据标准对待检测数据表进行多个维度的检测,与现有技术中相比,该方法具有检测效率高、维护成本低、检测维度多样的优势。

其中,对待检测数据表的数据质量检测包含两个层面的内容,对数据表的检测和对数据表中各个字段数据的检测。

在本发明的一个实施例中,数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。

其中,字段标准、数据元标准、约束规则、数据字典、敏感字段、黑名单和白名单用于对数据表中各个字段数据的检测,数据表标准用于对数据表进行检测。在实际应用场景中,一个字段可以对应多种数据标准。

字段标准主要约束了数据的形态,如:数据是一个邮箱地址,中间应该包含“@”。数据字典约束了数据内容的范围不能超出字典范围。敏感字段包括敏感信息的枚举信息。黑名单、白名单中存储各个数据表中各个字段的检测信息,例如,身份证字段存在于多个数据表中,在10次数据质量检测过程中,都检测到该字段存在问题,则将该字段信息记录到黑名单中,如果只有1次检测到该字段存在问题,则将该字段信息记录到白名单中。

在本发明的一个实施例中,数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。

其中,一种检测结果可以对应多种数据监测报告。

在本发明的一个实施例中,为了满足技术人员对自定义规则的需求,当前目标数据标准为约束规则;

约束规则包括:等于规则、截取自规则和合并自规则;

利用当前目标数据标准对待检测数据表进行数据质量检测,包括:

利用等于规则判断待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用截取自规则判断待检测数据表中的目标字段是否截取自第一标准字段,利用合并自规则判断待检测数据表中的目标字段是否为第一标准字段和预先设置的第二标准字段的组合。

约束规则的运用可以是复合型的,如:目标数据有身份证件号字段,身份证件号的前14位是由地市代码截取前6位再与出生年月日合并组成,这就用到了截取自规则和合并自规则的组合。

如图2所示,本发明实施例以两种目标数据标准为例,对数据质量检测方法进行详细地说明,该方法包括:

步骤201:设置数据标准:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单。

步骤202:获取待检测数据表,待检测数据表包括两个字段:地址字段和邮箱字段。

步骤203:在数据标准中确定字段标准和约束规则,其中,约束规则包括:等于规则、截取自规则和合并自规则。

步骤204:利用字段标准对邮箱字段进行数据质量检测;

步骤205:利用等于规则判断地址字段是否与预先设置的第一标准字段相同。

步骤206:利用截取自规则判断地址字段是否截取自第一标准字段。

步骤207:利用合并自规则判断地址字段是否为第一标准字段和预先设置的第二标准字段的组合。

步骤208:根据字段标准和约束规则对应的检测结果,生成至少一个数据检测报告。

数据检测报告包括:完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。

如图3所示,本发明实施例提供了一种数据质量检测装置,包括:

设置单元301,用于设置至少两种数据标准;

确定单元302,用于获取待检测数据表;在设置单元301设置的至少两种数据标准中确定至少两种目标数据标准;

检测单元303,用于针对确定单元302确定的每一种目标数据标准,均执行:利用当前目标数据标准对待检测数据表进行数据质量检测;

生成单元304,用于根据各个目标数据标准对应的检测结果,生成至少一个数据检测报告。

在本发明的一个实施例中,数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。

在本发明的一个实施例中,数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。

在本发明的一个实施例中,当前目标数据标准为约束规则;

约束规则包括:等于规则、截取自规则和合并自规则;

检测单元,用于利用等于规则判断待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用截取自规则判断待检测数据表中的目标字段是否截取自第一标准字段,利用合并自规则判断待检测数据表中的目标字段是否为第一标准字段和预先设置的第二标准字段的组合。

本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行执行指令时,存储控制器执行上述任一实施例的方法。

本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;

存储器用于存储执行指令,处理器与存储器通过总线连接,当存储控制器运行时,处理器执行存储器存储的执行指令,以使存储控制器执行上述任一实施例的方法。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

综上,本发明各个实施例至少具有如下效果:

1、在本发明实施例中,该方法能够利用多种数据标准对待检测数据表进行多个维度的检测,与现有技术中相比,该方法具有检测效率高、维护成本低、检测维度多样的优势。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃····〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1