一种基于数据血缘技术的数据质量监控预警装置及方法与流程

文档序号:36720824发布日期:2024-01-16 12:23阅读:82来源:国知局
一种基于数据血缘技术的数据质量监控预警装置及方法与流程

本发明属于数据质量管理,具体涉及一种基于数据血缘技术的数据质量监控预警装置及方法。


背景技术:

1、数字经济时代,数据成为组织和企业的重要资产和竞争优势,数据被广泛应用于商业决策、创新、洞察和价值创造,数据质量直接决定和影响数据价值,是实现数据经济时代的基础。当前数据质量管理方案多与具体的数据质量管理工具绑定,管理多针对数据某一特定对象(如表、字段、数据库等)实现条目数、空值率、误值率等某一特定的指标进行管理。

2、当前这种方法对于不同的数据质量管理场景,首先存在全流程管理弊端,数据流转全流程经常需要跨多个平台,各平台管理各自的血缘关系及数据质量问题,由于跨平台血缘关系及指标聚合分析与质量管理能力存在着不足,现有跨平台数据质量溯源能力多需要在每个数据流转流程中进行定制化解析,在跨系统数据质量管理时由于缺少统一的标准进而多存在快速适配问题,存在通用性弊端,对于质量管理体系维护每次均需要点对点进行升级优化;其次当前的数据质量管理对聚焦在分析问题原因,对于通过数据血缘管理评估下游数据风险及影响少有涉及。

3、究其原因,是目前大部分方案中缺少一个可以跨平台管理数据血缘并进行数据质量聚合关联匹配,进而评估风险进行预警的通用技术方案,使得数据质量管理人员无法对跨系统的数据建立统一的数据血缘标准,无法对跨平台的数据血缘进行分析,无法通过统一的标准快速对跨系统的质量管理工具进行升级优化,无法对数据质量问题产生的影响进行有效的评估。

4、当前数据血缘大部分基于独立大数据平台通过sql语句解析在大数据平台内部建立血缘关系,该方案对于当前快速发展的不通过sql语句场景(简称no sql环境)以及跨数据平台的数据流转场景则不能支持,无法在数据跨平台流转全流程建立数据流转血缘关系;同样的目前支持跨平台数据质量管理的方案中多为通过分析系统之间点对点的数据配置信息进行链路解析,现有方案中均不支持建立全局的数据血缘关系,同时缺乏通用扩展性。在数据质量管理方面缺乏质量问题所产生跨平台风险预警能力。


技术实现思路

1、为达到上述目的, 本发明的技术方案如下:一种基于数据血缘技术的数据质量监控预警装置,装置通过数据质量标准协议进行原始数据的装载与管理信息的传递,通过支持数据质量标准协议的数据质量管理标准适配框架实现平台之间、平台内部各组件之间的管理对接。

2、作为本发明的一种改进,组件包括数据质量预警管理组件,数据质量预警管理组件负责根据全局数据血缘关系,评估质量告警源数据上下游关系、系统上下游关系,生成数据流转全流程告警信息,生成业务应用预警风险提示;数据质量监控管理组件,数据质量监控管理组件负责根据质量监控指标结果与告警配置信息,生成告警信息。

3、作为本发明的一种改进,组件还包括数据质量指标管理组件,数据质量指标管理组件负责获取质量监控指标配置信息,统计计算生成质量监控指标值;数据血缘关系管理组件;数据血缘关系管理组件,数据血缘关系管理组件负责根据明细数据跨平台流转过程中的血缘标记,生成跨平台之间、平台内部不同模块之间上下游数据存储对象之间的数据血缘关系。

4、作为本发明的一种改进,组件还包括数据流转管理组件,数据流转管理组件负责标记数据跨平台及平台内部流转过程中的数据存储对象信息;明细数据装载组件,明细数据装载组件负责装载数据流转过程中的明细数据。

5、作为本发明的一种改进,一种通过所述基于数据血缘技术的数据质量监控预警装置实现的告警方法,方法包括以下步骤:

6、步骤1)组建数据质量管理网络,包括标准适配框架初始化、数据流转各环节初始化以及数据质量监控初始化;

7、步骤2)建立数据血缘关系,包括记录上游数据源信息、记录下游数据源信息以及建立完整的血缘关系;

8、步骤3)通过装置实现数据质量管理,数据流转链路全流程的数据质量问题溯源、风险预警,包括数据质量指标统计计算、数据质量指标告警以及数据血缘追溯,数据质量风险预警。

9、作为本发明的一种改进,步骤1)中包括以下步骤:

10、步骤1.1)标准适配框架初始化步骤包括在数据流转网络环境中初始化标准适配框架;

11、步骤1.2)数据流转各环节初始化步骤包括在数据流转网络环境中初始化各加载了数据质量标准协议的数据质量管理外部工具与业务应用系统;

12、步骤1.3)数据质量监控初始化步骤包括数据质量管理外部工具通过数据质量指标管理组件初始化数据监控指标,通过数据质量监控管理组件初始化指标告警触发条件。

13、作为本发明的一种改进,步骤2)中包括以下步骤:

14、步骤2.1)记录上游数据源信息步骤包括读取数据时,记录源节点信息,该部分能力由标准质量协议中数据流转管理组件与明细数据装载组件定义,数据被读取后,支持标准质量协议的工具将明细数据装载至明细数据装载组件中,源节点信息则放置于数据流转管理组件中,信息被封装在标准质量协议后进行传输流转至下一节点;

15、步骤2.2)记录下游数据源信息包括在目标节点写入数据时,数据流转管理组件将目标节点信息同步至标准适配组件,完成数据流转点对点的记录持久化,数据在后续流转过程中,重复执行步骤2.1)与步骤2.2),完成数据流转全流程点对点记录;

16、步骤2.3)建立完整血缘关系包括数据血缘关系管理组件根据步骤2.1)与步骤2.2)中记录的数据点对点流转过程,建立数据血缘关系。

17、作为本发明的一种改进,步骤3)中数据质量指标统计计算步骤包括标准质量协议中的数据质量指标管理组件在数据流转过程中,根据定义的数据质量要求,对指标进行实时统计,统计结果实时传输给数据质量监控管理组件用于告警监控。

18、作为本发明的一种改进,步骤3)中数据质量指标告警步骤包括当数据质量监控管理组件监控到统计值到阈值,满足告警触发条件时,将告警信息发送至数据质量预警管理组件。

19、作为本发明的一种改进,步骤3)中数据血缘追溯及数据质量风险预警步骤包括数据质量预警管理组件根据告警对象信息,向数据血缘关系管理组件获取完整的数据血缘信息,形成完整的告警链路,同时模块通过告警信息与血缘管理,分析数据上下游对应的业务应用系统,生成业务风险预警信息,通过外部显示通知工具,完成问题溯源与风险预警自动报送的整个过程。

20、相对于现有技术,本发明的有益效果为:

21、1.本发明通过自定义的数据标准质量协议,实现了数据流转过程的血缘管理,建立数据质量指标之间的关联关系,进而提升数据流转全流程的告警能力、提升业务应用预警风险能力及问题准确定位能力,弥补了现有数据质量问题追溯难点;

22、2.通过自动化流程管理,减少人工干预,提升数据质量管理的准确性。本发明减少了现有聚合质量管理过程中人工手动配置的过程,基于数据血缘的自动建立机制减少了人工配制的工作量,提升的数据质量管理的准确性;

23、3.本发明通过标准化质量管理协议实现,具有适用场景多,通用性强的特点。通过本发明定义的协议进行数据质量管理,是适用于各种业务场景的数据质量管理通用方法,通过标准协议,屏蔽了外部组件技术对接的差异化,具有普遍的适用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1