大数据离线数据质量检查方法及装置与流程

文档序号:22833480发布日期:2020-11-06 16:23阅读:192来源:国知局
大数据离线数据质量检查方法及装置与流程

本发明涉及大数据技术领域,尤其涉及一种大数据离线数据质量检查方法及装置。



背景技术:

为了保证数据仓库中数据的正确性和完整性,确保数据在抽取、传输、整合、加载、分析等各个环节不失真及准确表达,并为逐步修正和改善各业务系统中的数据质量、加强业务操作规范化管理等提供依据,数据质量检查是数据仓库建设中必不可少的重要组成部分。缺乏数据质量检查将造成用户对数据不认可、对数据缺少信任、增加构建数据仓库的难度等后果。

在数据仓库建设过程中,数据质量检查需要从源数据分析开始,自始至终全程贯彻落实,并要求得到数据仓库的全体开发人员、管理人员及相关业务人员的积极参与,使各方对数据质量有一个合理的预期和客观的评价,提高数据仓库的使用率和可信度,更好地为决策分析提供服务。



技术实现要素:

本发明的目的在于提供一种大数据离线数据质量检查方法及装置,对运行在hive数据仓库上面的数据进行质量检查,推动数据质量的提升。

为了实现上述目的,本发明的第一方面提供一种大数据离线数据质量检查方法,包括:

基于数据质量检查系统中预设的检查规则配置检查语句;

将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;

数据质量检查系统同步所述检测结果,同时向用户可视化展示。

优选地,数据质量检查系统中预设的检查规则包括:

数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种。

较佳地,基于数据质量检查系统中预设的检查规则配置检查语句的方法包括:

根据检测需求在数据质量检查系统中选择对应的检查规则,并配置检测参数;

基于所选的检查规则和配置的检测参数,自动生成sql检查语句。

进一步地,在步骤将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果之前还进行以下配置参数设置:

通过数据质量检查系统中的工作流配置模块,设置检查语句在大数据平台上的定时执行时间;

通过数据质量检查系统中的预定义参数配置模块,对检查语句中的检测参数做定期更新;

通过数据质量检查系统中的源系统配置模块,设置数据仓库中待查数据的归属系统并关联对应责任人;

通过数据质量检查系统中的告警原因配置模块,预设多种产生数据质量问题原因的分类。

优选地,将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果的方法包括:

通过大数据平台将检查语句和配置参数同步到配置表中,由大数据平台的程序脚本定时执行相应的检查语句对数据仓库的数据执行筛检;

利用大数据平台把检查结果中的合格数据记录到结果表中,把检查结果中的异常数据记录到异常表中。

较佳地,数据质量检查系统同步所述检测结果,同时向用户可视化展示的方法包括:

数据质量检查系统同步结果表和异常表,并根据数据质量问题原因的分类对异常表中的问题数据进行归类;

根据结果表和异常表进行指标计算分析,并将指标计算分析的结果以图表形式向用户展示,所述指标包括数据仓库中被检测数据的及时性指标和准确性指标。

进一步地,数据质量检查系统同步所述检测结果,同时向用户可视化展示之后还包括:

数据质量检查系统将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。

与现有技术相比,本发明提供的大数据离线数据质量检查方法具有以下有益效果:

考虑到现有大数据平台之上的数据仓库限制了底层数据直接被连接获取的权限,本发明采取构建数据质量检查系统的方案,通过调用大数据平台提供的相关组件功能实现数据交换,使得在数据质量检查系统配置完成的检查语句能够同步至大数据平台的配置表中,然后由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果,最后由数据质量检查系统同步检测结果,实现向用户的可视化展示。

可见,本发明方案检查语句的配置在数据质量检查系统中操作,检查语句的执行在大数据平台中运行,通过将检查语句的配置与运行分离设计,使得数据质量检测的适用场景更广阔、扩增性能也得到了提升,能够灵活对数据仓库中的离线数据进行大规模检测,推动了数据质量的提升,提高了数据的可用性。

本发明的第二方面提供一种大数据离线数据质量检查装置,应用于上述技术方案所述的大数据离线数据质量检查方法中,所述装置包括:

配置单元,基于数据质量检查系统中预设的检查规则配置检查语句;

检查执行单元,用于将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;

结果显示单元,利用数据质量检查系统同步所述检测结果,同时向用户可视化展示。

优选地,还包括:

告警提醒单元,用于将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。

与现有技术相比,本发明提供的大数据离线数据质量检查装置的有益效果与上述技术方案提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述大数据离线数据质量检查方法的步骤。

与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例一中大数据离线数据质量检查方法的流程示意图;

图2为本发明实施例一中数据质量检查系统的系统框架图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。

实施例一

请参阅图1,本实施例提供一种大数据离线数据质量检查方法,包括:

基于数据质量检查系统中预设的检查规则配置检查语句;将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;数据质量检查系统同步所述检测结果,同时向用户可视化展示。

考虑到现有大数据平台之上的数据仓库限制了底层数据直接被连接获取的权限,本实施例采取构建数据质量检查系统的方案,通过调用大数据平台提供的相关组件功能实现数据交换,使得在数据质量检查系统配置完成的检查语句能够同步至大数据平台的配置表中,然后由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果,最后由数据质量检查系统同步检测结果,实现向用户的可视化展示。

可见,本实施例方案检查语句的配置在数据质量检查系统中操作,检查语句的执行在大数据平台中运行,通过将检查语句的配置与运行分离设计,使得数据质量检测的适用场景更广阔、扩增性能也得到了提升,能够灵活对数据仓库中的离线数据进行大规模检测,推动了数据质量的提升,提高了数据的可用性。

上述实施例中数据质量检查系统中预设的检查规则包括:

数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种。

具体实施时,根据收集到的常见问题,按照数据特性将数据质量问题划分为四类,依次为及时性问题、完整性问题、准确性问题和一致性问题,每种数据特性都有一一对应的触发定义,且每种触发定义都对应至少一种检查规则,如下表所示:

数据质量检查系统针对每项检查规则都做了相应的场景描述和计算说明,供相关人员参考以快速、准确的配置出所需的检查语句,如下表所示:

进一步地,上述实施例中基于数据质量检查系统中预设的检查规则配置检查语句的方法包括:

根据检测需求在数据质量检查系统中选择对应的检查规则,并配置检测参数;基于所选的检查规则和配置的检测参数,自动生成sql检查语句。

具体实施时,数据质量检查系统中每一条检查实例都是依据上表中对应检查规则配置的,配置过程中还需要输入相应的检测参数,根据这些检测参数生成检测实例,在构造sql检查语句的过程中,需要明确检查通过和不通过的标准,例如在检查支付类型的离线数据中出现了值域为4的数据,那么通过该sql检查语句检查该数据时,返回的检查结果即为不通过,反之则检查结果为通过。其他规则检测实例的检查原理类似,本实施例对此不做赘述。

上述实施例中在步骤将检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果之前还进行以下配置参数设置:

通过数据质量检查系统中的工作流配置模块,设置检查语句在大数据平台上的定时执行时间;通过数据质量检查系统中的预定义参数配置模块,对检查语句中的检测参数做定期更新;通过数据质量检查系统中的源系统配置模块,设置数据仓库中待查数据的归属系统并关联对应责任人;通过数据质量检查系统中的告警原因配置模块,预设多种产生数据质量问题原因的分类。

具体实施时,请参阅图2,其中规则配置层的作用主要是定义相关的检查规则和一些配置项,通过源系统配置模块区分待检查的数据是由哪个归属系统产生,如理财系统、支付系统或者会员系统,定位数据质量问题的对应责任人。检查规则实例配置模块的作用是配置sql检查语句,通过不同的检查需求配置参数生成具体的检查实例,并根据检查实例对应生成sql检查语句。告警原因配置模块是为了分析产生数据质量问题的原因,总结常见的原因并进行原因分类,如平台问题导致的问题数据、源数据问题导致的问题数据、开发问题导致的问题数据等。工作流配置模块是为了和大数据平台中的任务对应起来,设置sql检查语句定时执行任务的时间。预定义参数配置模块是为了在生成sql检查语句的时候支持传入参数的处理,对检查语句中的检测参数做定期更新,如自动替换sql检查语句中的当天日期,以实现对当天产生数据的定期检查。其他通用配置模块主要用于实现设置初始化、权限控制等功能,本实施例对此不做赘述。

基础功能层是数据质量检查流程的主要实现,通过在大数据平台运行调度任务的方式定时执行检查脚本,检查脚本通过scala语言实现,逐条执行配置实例对应的sql检查语句,根据返回的结果值判断检查是否通过。

上述实施例中将检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果的方法包括:

通过大数据平台将检查语句和配置参数同步到配置表中,由大数据平台的程序脚本定时执行相应的检查语句对数据仓库的数据执行筛检;利用大数据平台把检查结果中的合格数据记录到结果表中,把检查结果中的异常数据记录到异常表中。

具体实施时,通过在大数据平台中定时执行检查程序脚本,逐条执行检查语句,根据检查语句的返回结果判断检查是否通过并记录到结果表和告警表中,执行检查程序脚本由scala编写,根据检测参数读取待检查的sql语句。

上述实施例中数据质量检查系统同步所述检测结果,同时向用户可视化展示的方法包括:

数据质量检查系统同步结果表和异常表,并根据数据质量问题原因的分类对异常表中的问题数据进行归类;根据结果表和异常表进行指标计算分析,并将指标计算分析的结果以图表形式向用户展示,所述指标包括数据仓库中被检测数据的及时性指标和准确性指标。

上述实施例中数据质量检查系统同步检测结果,同时向用户可视化展示之后还包括:

数据质量检查系统将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。

具体实施时,结果表和异常表同步回传数据质量检查系统,以便用户查询查看,另外,数据质量检查系统还可以就检查结果中出现质量问题的数据向相关责任人告警并记录告警状态,如未处理、已分派、已处理等,对于已分派但待处理告警的责任人,通过邮件或即时通讯进行提醒,在其登录数据质量检查系统后查询相关的告警信息,以使责任人分析原因并解决告警问题,同时还将分析结果记录保存,处理之后的告警问题作为知识库保存下来。通过对常见的数据质量问题进行了有效的分类,便于经验的积累和沉淀,有利于促进数据的质量提升。

另外,数据质量检查系统还会根据问题数据归属系统的不同进行分类汇总,计算出每天的数据及时性和准确性指标,这里的及时性是指通过数据及时性检查的告警实例数量占总的实例数量的比值,准确性是指除及时性检查规则之外的其他检查规则中,通过检查的告警实例数量占总的实例数据的比值,每天汇总上述数据信息,通过邮件发送给需要了解整体检查情况的责任人。通过告警通知,提升了问题数据处理的时效性,减少了问题数据的处理的成本。

示例性地,数据质量检查系统提供的检查规则实例表如下:

用户根据数据质量检查系统中提供的检查规则实例表,配置检测参数后得到的检查实例如下表所示:

基于上述检查实例生成sql检查语句,在大数据平台执行后反馈的告警表如下表所示:

实施例二

本实施例提供一种大数据离线数据质量检查装置,包括:

配置单元,基于数据质量检查系统中预设的检查规则配置检查语句;

检查执行单元,用于将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;

结果显示单元,利用数据质量检查系统同步所述检测结果,同时向用户可视化展示。

优选地,还包括:

告警提醒单元,用于将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。

与现有技术相比,本发明实施例提供的大数据离线数据质量检查装置的有益效果与上述实施例一提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述大数据离线数据质量检查方法的步骤。

与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。

本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:rom/ram、磁碟、光盘、存储卡等。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1