数据质量监控的方法、装置、电子设备及介质与流程

文档序号:35697812发布日期:2023-10-11 21:09阅读:22来源:国知局
数据质量监控的方法、装置、电子设备及介质与流程

本公开涉及大数据和运维,尤其涉及一种数据质量监控的方法、装置、电子设备及介质。


背景技术:

1、随着各个应用系统的业务数据、客服数据和运维数据等呈爆炸式增长,大数据技术应运而生。大数据平台是基于分布式框架搭建的能够提供数据存储和分析服务的应用系统,能够对海量数据进行分析和处理,挖掘有价值的信息。在大数据平台进行数据分析之前,对数据质量进行校验是至关重要的一环,数据质量的好坏对于后续进行数据分析和数据挖掘具有较大的影响。

2、在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:由于大多数大数据平台的数据来源(也可以描述为数据生产系统)是不同的数据库甚至数据库的类型有差异,诸如:mysql(一种关系型数据库管理系统)、mongodb(一种基于分布式文件存储的数据库)、oracle(一种关系型数据库管理系统)、sql server(一种关系型数据库管理系统)等数据来源,通常需要将各个数据生产系统的数据统一接入至数据仓库,例如基于hive工具(hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供结构化查询语言sql查询功能)将源数据映射至hive表,然后对数据仓库中的数据进行质量校验。然而,这种方式无法实时发现数据源头产生的问题;有质量问题的数据进行入仓(表示进入数据仓库)的过程会导致存储资源的浪费,同时在数据仓库中发现存在质量问题后,进行应对处理的时机滞后,还需要耗费处理时间进行处理,也导致后续任务的延后;此外,针对两个数据生产系统的数据进行整合加工处理的场景,数据是否有质量问题是需要在数据仓库中同时导入两个数据生产系统的数据进行处理后才能得知的,同样也存在时机滞后的问题。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种数据质量监控的方法、装置、电子设备及介质。

2、第一方面,本公开的实施例提供了一种数据质量监控的方法。上述方法包括:获取针对异构源数据的监控配置信息;上述异构源数据包括至少两种不同的源数据;上述监控配置信息包括:上述异构源数据中待监控的数据表对象、针对上述数据表对象配置的跨表关联字段和针对上述跨表关联字段配置的监控规则;根据上述监控配置信息,生成与上述数据表对象对应的实时数据表,并生成用于执行上述监控规则的查询执行信息;基于上述查询执行信息,对上述实时数据表进行查询,得到针对上述跨表关联字段的监控结果。

3、根据本公开的实施例,根据上述监控配置信息,生成与上述数据表对象对应的实时数据表,并生成用于执行上述监控规则的查询执行信息,包括:根据上述数据表对象的对接信息,生成实时数据表,上述实时数据表为上述数据表对象的影子表且跟随上述数据表对象的数据变动;根据上述监控规则和上述异构源数据的类型,生成针对上述跨表关联字段的查询执行信息。

4、根据本公开的实施例,上述对接信息包括:上述数据表对象的对象标识、位置信息和数据访问信息;其中,根据上述数据表对象的对接信息,生成实时数据表,包括:根据上述位置信息和上述对象标识,构建实时数据表的数据接口,上述数据接口用于指向上述数据表对象的源数据并能抓取上述数据表对象的数据至上述实时数据表;根据上述数据访问信息,从上述源数据中获取上述数据表对象的数据更新状态;根据上述数据更新状态,更新上述实时数据表中的数据。或者,上述对接信息包括:上述数据表对象的数据接口信息和数据访问信息;其中,根据上述数据表对象的对接信息,生成实时数据表,包括:根据上述数据接口信息,构建用于访问上述数据表对象的数据接口;基于上述数据接口,将上述数据表对象的数据对接至实时数据表;根据上述数据访问信息,从上述源数据中获取上述数据表对象的数据更新状态;根据上述数据更新状态,更新上述实时数据表中的数据。

5、根据本公开的实施例,根据上述监控规则和上述异构源数据的类型,生成针对上述跨表关联字段的查询执行信息,包括:获取跨表关联字段所对应的至少一种目标源数据;确定与上述目标源数据的类型匹配的查询语法信息;根据上述查询语法信息,构建与上述跨表关联字段的监控规则对应的查询执行信息。

6、根据本公开的实施例,上述方法还包括:将上述监控结果存储至预先构建的监控结果存储表中;根据预先配置的异常触发条件,确定上述监控结果存储表的监控结果中是否存在异常;在监控结果存在异常的情况下,基于预先配置的处理策略进行处理。

7、第二方面,本公开的实施例提供了一种数据质量监控的方法。上述方法应用于质量监控服务端,上述方法包括:获取针对异构源数据的监控配置信息;上述异构源数据包括至少两种不同的源数据;上述监控配置信息包括:上述异构源数据中待监控的数据表对象、针对上述数据表对象配置的跨表关联字段和针对上述跨表关联字段配置的监控规则;根据上述监控配置信息,生成用于指示实时计算服务端执行的监控执行信息;上述监控执行信息包括:用于创建与上述监控源数据对象对应的实时数据表的创建信息、和用于执行上述监控规则的查询执行信息;基于上述监控执行信息,向实时计算服务端发起监控执行请求;接收上述实时计算服务端反馈的针对上述跨表关联字段的监控结果。

8、根据本公开的实施例,根据上述监控配置信息,生成用于指示实时计算服务端执行的监控执行信息,包括:根据上述数据表对象的对接信息,生成用于创建实时数据表的创建信息,上述实时数据表为上述数据表对象的影子表且跟随上述数据表对象的数据变动;根据上述监控规则和上述异构源数据的类型,生成针对上述跨表关联字段的查询执行信息。

9、根据本公开的实施例,上述质量监控服务端预先构建有监控结果存储表,上述质量监控服务端为上述实时计算服务端预先配置有针对上述监控结果存储表的写入权限;接收上述实时计算服务端反馈的针对上述跨表关联字段的监控结果,包括:在上述监控结果存储表中接收上述实时计算服务端写入的监控结果。

10、第三方面,本公开的实施例提供了一种数据质量监控的方法。上述方法应用于实时计算服务端,包括:接收质量监控服务端发送的监控执行请求,上述监控执行请求携带有监控执行信息;上述监控执行信息包括:用于创建与监控源数据对象对应的实时数据表的创建信息、和用于执行监控规则的查询执行信息;根据上述创建信息,创建实时数据表,上述实时数据表为上述数据表对象的影子表且跟随上述数据表对象的数据变动;基于上述查询执行信息,对上述实时数据表进行查询,得到针对上述跨表关联字段的监控结果;将上述监控结果反馈给上述质量监控服务端。

11、第四方面,本公开的实施例提供了一种数据质量监控的装置。上述装置包括:第一配置信息获取模块、实时监控和计算模块以及第一执行模块。上述第一配置信息获取模块用于获取针对异构源数据的监控配置信息;上述异构源数据包括至少两种不同的源数据;上述监控配置信息包括:上述异构源数据中待监控的数据表对象、针对上述数据表对象配置的跨表关联字段和针对上述跨表关联字段配置的监控规则。上述实时监控和计算模块用于根据上述监控配置信息,生成与上述数据表对象对应的实时数据表,并生成用于执行上述监控规则的查询执行信息。上述第一执行模块用于基于上述查询执行信息,对上述实时数据表进行查询,得到针对上述跨表关联字段的监控结果。

12、第五方面,本公开的实施例提供了一种数据质量监控的装置。上述装置与实时计算服务端通信连接,上述装置包括:第二配置信息获取模块、信息生成模块、监控指示模块和结果接收模块。上述第二配置信息获取模块用于获取针对异构源数据的监控配置信息;上述异构源数据包括至少两种不同的源数据;上述监控配置信息包括:上述异构源数据中待监控的数据表对象、针对上述数据表对象配置的跨表关联字段和针对上述跨表关联字段配置的监控规则。上述信息生成模块用于根据上述监控配置信息,生成用于指示实时计算服务端执行的监控执行信息;上述监控执行信息包括:用于创建与上述监控源数据对象对应的实时数据表的创建信息、和用于执行上述监控规则的查询执行信息。上述监控指示模块用于基于上述监控执行信息,向实时计算服务端发起监控执行请求。上述结果接收模块用于接收上述实时计算服务端反馈的针对上述跨表关联字段的监控结果。

13、第六方面,本公开的实施例提供了一种数据质量监控的装置。上述装置包括:监控执行请求接收模块、影子表创建模块、第二执行模块和结果反馈模块。上述监控执行请求接收模块用于接收质量监控服务端发送的监控执行请求,上述监控执行请求携带有监控执行信息;上述监控执行信息包括:用于创建与监控源数据对象对应的实时数据表的创建信息、和用于执行监控规则的查询执行信息。上述影子表创建模块用于根据上述创建信息,创建实时数据表,上述实时数据表为上述数据表对象的影子表且跟随上述数据表对象的数据变动。上述第二执行模块用于基于上述查询执行信息,对上述实时数据表进行查询,得到针对上述跨表关联字段的监控结果。上述结果反馈模块用于将上述监控结果反馈给上述质量监控服务端。

14、第七方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的数据质量监控的方法。

15、第八方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的数据质量监控的方法。

16、本公开实施例提供的上述技术方案至少具有如下优点的部分或全部:

17、通过针对异构源数据中待监控的数据表对象生成对应的实时数据表,该实时数据表的数据与数据表对象中的数据相同且跟随数据表对象中的数据变动,实现对异构源数据的数据变动的实时监控,同时能够支持针对上述跨表关联字段的监控规则的配置,利用生成的用于执行上述监控规则的查询执行信息来对实时数据表进行查询,能够满足对异构源数据中跨表关联字段的质量校验需求,在源数据产生的阶段、并在进入数据仓库之前就能够及时通过质量校验发现异构源数据中存在问题的关联字段,为后续进行问题处理提供足够的时间,相较于在源数据进入数据仓库后再进行质量校验而言,对数据质量进行校验的时机提前,使得发现问题的时机也提前,从而能够为处理问题预留出更多的时间,对于后续任务的滞后影响相对较小甚至可以通过提前处理而避免对后续任务的影响;同时还能够对异构源数据进行跨表关联字段的数据质量检测,包括对相同种类的多个源数据或不同种类的多个源数据进行关联检测,从源头上能够有效检测数据质量并为后续处理预留充足的时间,有助于提升大数据平台的运行效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1