一种基于大数据血缘的数据质量追踪系统及方法与流程

文档序号:26589833发布日期:2021-09-10 20:33阅读:48来源:国知局

1.本发明涉及大数据技术领域,具体提供一种基于大数据血缘的数据质量追踪系统及方法。


背景技术:

2.互联网数据的爆炸增长,使得众多机构组织需要维护的数据量不断增大,传统的手工写sql筛选查找数据库数据的方式越来越乏力,落后的数据管理无法适应当前的大数据量,众多数据在数据库中得不到有效利用,抽取相关数据费时费力,目前存在的应用处理程序,大都需要自己整理好初始数据后才可以运行。
3.互联网的发展使得各类网络数据不断累积,不同业务所应用数据库存储技术也有所差别,在大数据技术普遍兴起的情况下,使用大数据技术将数据进行有效的管理是进行数据挖掘的基础。
4.数据的产生,转移,与处理等流程使得数据之间产生一种链路关系,这种关系描述了数据的依赖关系,我们称之为数据的血缘关系。
5.血缘关系提供了一种数据来源追溯功能,依靠互联网中各类的语法树解析器,我们可以通过解析数据库操作语句的语法树实现对各类数据库的血缘解析功能,将此功能应用在数据治理平台中,通过治理平台所进行每条数据表的产生与数据的转移,我们都可以为其生成血缘关系。
6.数据容量的扩大与来源的复杂使得数据的好坏不一,我们通常要对数据进行清洗处理,提取整合,对于处理后的数据我们需要使用一套评价系统来确认数据是否符合标准,这是数据质量检测平台产生的原因。数据质量平台所进行的一系列检测,例如单列检测,多列检测,逻辑性检测等检测表出现的问题之后,我们更希望找到问题的根源。


技术实现要素:

7.本发明的技术任务是针对上述存在的问题,提供一种能够将数据的来源与目标关系梳理清楚,使得数据质量检测效果更加有效的基于大数据血缘的数据质量追踪系统。
8.本发明进一步的技术任务是提供一种基于大数据血缘的数据质量追踪方法。
9.为实现上述目的,本发明提供了如下技术方案:
10.一种基于大数据血缘的数据质量追踪系统,包括血缘关系生成模块、血缘关系管理模块、数据质量检测模块、数据质量追踪模块,所述血缘关系生成模块分析字段粒度的血缘关系,血缘关系管理模块用于生成血缘关系完整链路图,数据质量检测模块用于判断数据表或字段的质量等级,数据质量追踪模块用于定位数据问题目标表或字段。
11.作为优选,所述血缘关系生成模块依托数据治理平台,依据数据治理平台的数据任务,分析字段粒度的血缘关系。
12.作为优选,所述血缘关系管理模块通过将不同治理任务的血缘关系整合,生成血缘关系完整链路图,形成从原始表到最终表的可追踪链路,用于血缘查询。
13.作为优选,所述数据质量追踪模块根据数据质量检测模块快的结果进行数据追踪,定位数据问题目标表或字段。
14.一种基于大数据血缘的数据质量追踪方法,包括以下步骤:
15.s1、建立血缘关系库:规范化管理数据源,分析血缘关系,并进行血缘关系的整合;
16.s2、追踪数据质量检测结果:在数据质量平台进行检测,并将检测结果进行追踪处理。
17.作为优选,规范化管理数据源将不同类型的数据源注册到管理系统中,将数据源作为唯一的数据来源。
18.作为优选,分析血缘关系为通过数据源管理中注册的数据源中所进行的清洗、提取和处理的有数据流动的操作,整合血缘关系即绘制血缘关系图。
19.作为优选,在数据质量平台进行检测时,使用数据质量检测模块,检测任务结果包含血缘关系查询所需的参数,数据质量检测先生成基本质量报告,在报告中对产生的问题的表或字段提供调用血缘关系查询接口。
20.作为优选,检测结果进行追踪处理时,在数据质量检测报告中,根据血缘关系追踪数据质量问题根源并查找对其他表的影响,提供在链路图中的标记功能,依据标记内容生成用于提升数据质量的处理流程。
21.其中,规范化管理各类数据源,需要将数据源管理作为一个单独的模块进行管理,将不同类型的数据源注册到管理系统中。平台需要将数据源管理模块包含的数据源作为唯一数据来源。
22.分析血缘关系对于通过数据源管理中注册的数据源中所进行的清洗,提取,处理等有数据流动的操作,都应建立起血缘关系。其中最常见的是sql语句,基于已存在的语法树分析工具,将sql语句元素进行分解,利用语法树的解析顺序,我们可以将字段依据表、视图、嵌套查询表的来源关系建立起单个sql的字段粒度的血缘关系。其中需要将嵌套查询与函数嵌套等内容充分考虑到,尽量避免血缘关系的错误,并应提供应对功能缺陷的血缘关系手动补充功能。
23.整合血缘关系,绘制血缘关系图。针对各单个任务的血缘关系,还应依据表与字段的标识,拼接出一张完整的链表图。血缘关系图应提供针对单表字段的来源与目标链路的查询,目的是为了追踪表或字段的问题来源与及时找到可能受影响的其他表或字段。血缘关系图应提供可视化链路图形,方便人员进行直观追踪。
24.在数据质量平台进行检测时,使用数据质量检测模块,检测任务结果包含血缘关系查询所需的参数,数据质量检测先生成基本质量报告,在报告中对产生的问题的表或字段提供调用血缘关系查询接口。
25.在基本的数据质量检测报告中,可以根据血缘关系追踪数据质量问题根源并查找可能对其他表的影响。在追踪过程中可提供在链路图中的标记功能,依据标记内容生成一份用于提升数据质量的处理流程。
26.与现有技术相比,本发明的基于大数据血缘的数据质量追踪系统及方法具有以下突出的有益效果:
具体实施方式
27.下面将结合实施例,对本发明的基于大数据血缘的数据质量追踪系统及方法作进一步详细说明。
28.实施例
29.本发明的基于大数据血缘的数据质量追踪系统,包括血缘关系生成模块、血缘关系管理模块、数据质量检测模块、数据质量追踪模块。
30.血缘关系生成模块托数据治理平台,依据治理平台的数据任务,分析字段粒度的血缘关系。
31.血缘关系管理模块通过将不同治理任务的血缘关系整合,生成血缘关系完整链路图,形成从原始表到最终表的多条可追踪链路,用于血缘查询。
32.数据质量检测模块用于判断数据表或字段的质量等级。
33.数据质量追踪模块根据数据质量检测模块快的结果进行数据追踪,定位数据问题目标表或字段。
34.本发明的基于大数据血缘的数据质量追踪方法,包括以下步骤:
35.s1、建立血缘关系库:规范化管理数据源,分析血缘关系,并进行血缘关系的整合。
36.规范化管理各类数据源,需要将数据源管理作为一个单独的模块进行管理,将不同类型的数据源注册到管理系统中。平台需要将数据源管理模块包含的数据源作为唯一数据来源。
37.分析血缘关系对于通过数据源管理中注册的数据源中所进行的清洗,提取,处理等有数据流动的操作,都应建立起血缘关系。其中最常见的是sql语句,基于已存在的语法树分析工具,将sql语句元素进行分解,利用语法树的解析顺序,我们可以将字段依据表、视图、嵌套查询表的来源关系建立起单个sql的字段粒度的血缘关系。其中需要将嵌套查询与函数嵌套等内容充分考虑到,尽量避免血缘关系的错误,并应提供应对功能缺陷的血缘关系手动补充功能。
38.整合血缘关系,绘制血缘关系图。针对各单个任务的血缘关系,还应依据表与字段的标识,拼接出一张完整的链表图。血缘关系图应提供针对单表字段的来源与目标链路的查询,目的是为了追踪表或字段的问题来源与及时找到可能受影响的其他表或字段。血缘关系图应提供可视化链路图形,方便人员进行直观追踪。
39.s2、追踪数据质量检测结果:在数据质量平台进行检测,并将检测结果进行追踪处理。
40.在数据质量平台进行检测时,使用数据质量检测模块,检测任务结果包含血缘关系查询所需的参数,数据质量检测先生成基本质量报告,在报告中对产生的问题的表或字段提供调用血缘关系查询接口。
41.在基本的数据质量检测报告中,可以根据血缘关系追踪数据质量问题根源并查找可能对其他表的影响。在追踪过程中可提供在链路图中的标记功能,依据标记内容生成一份用于提升数据质量的处理流程。
42.以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1