本技术涉及数据处理,尤其涉及一种数据质量的校验方法及装置、电子设备、存储介质。
背景技术:
1、目前,监管机构对监管报送的数据质量进行严格的把控,其要求各银行机构的工作要符合“数字中国”的建设工作要求,并且还要开展east数据质量“提升工程”,以强化east数据治理,从而推动银行机构向数字化转型。因此对数据质量进行检核是尤为的重要。
2、在现有的技术中,主要根据数据库表以及校验文件对数据质量进行每日的检核,以实现对数据质量的严格管理。
3、由于每天只能按照固定的时间点对数据质量进行检核,无法支持实时地在线检核,因此当数据源头出现质量问题时,可能会导致未能及时地发现数据出现质量问题。
技术实现思路
1、基于上述现有技术的不足,本技术提供了一种数据质量的校验方法及装置、电子设备、存储介质,以解决现有技术无法及时地发现数据出现质量的问题。
2、为了实现上述目的,本技术提供了以下技术方案:
3、本技术第一方面提供了一种数据质量的校验方法,包括:
4、获取kafka日志集群以及检核要求;其中,所述kafka日志集群至少包括目标日志文件;
5、利用数据血缘关系分析,从上游系统中查找与所述目标日志文件对应的源头系统名、交易码以及报文域;
6、从预先配置的各个检核规则中确定出与所述检核要求相匹配的目标检核规则;
7、利用所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核;
8、若所述源头系统名、所述交易码以及所述报文域未通过检核,则输出所述源头系统名、所述交易码以及所述报文域。
9、可选地,在上述的数据质量的校验方法中,所述kafka日志集群的获取方法,包括:
10、接收上游系统发送的交易请求报文;
11、根据预设的交易处理逻辑,对所述交易请求报文进行处理,得到处理结果,并将所述处理报文组装成交易响应报文;
12、利用日志输出框架,将所述交易请求报文以及所述交易响应报文写入到日志文件中,得到目标日志文件;
13、通过调用流式报文sdk插件,将所述目标日志文件写入到大数据平台的kafka消息队列中,由所述大数据平台将kafka消息队列中的所述目标日志文件存储到kafka日志集群中。
14、可选地,在上述的数据质量的校验方法中,若所述目标检核规则为缺失检核规则,所述利用所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核,包括:
15、将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
16、利用所述缺失检核规则中的缺失检核字段,判断所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值是否为空值;
17、若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值均为空值,则确定所述源头系统名、所述交易码以及所述报文域未通过缺失检核;
18、若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值均为非空值,则确定所述源头系统名、所述交易码以及所述报文域通过缺失检核。
19、可选地,在上述的数据质量的校验方法中,若所述目标检核规则为规范检核规则,所述利用所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核,包括:
20、将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
21、利用所述规范检核规则中的规范字段,判断所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值是否满足预设的格式要求;
22、若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值不满足预设的格式要求,则确定所述源头系统名、所述交易码以及所述报文域未通过规范检核;
23、若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值满足预设的格式要求,则确定所述源头系统名、所述交易码以及所述报文域通过规范检核。
24、可选地,在上述的数据质量的校验方法中,若所述目标检核规则为表间关联检核规则,所述利用所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核,包括:
25、将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
26、从数据湖获取与所述检核要求对应的关联表;
27、利用所述表间关联检核规则中的关联字段,检测所述关联表中是否存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域是否满足所述检核要求;
28、若所述关联表中不存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域不满足所述检核要求,则确定所述源头系统名、所述交易码以及所述报文域未通过关联检核;
29、若所述关联表中存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域满足所述检核要求,则确定所述源头系统名、所述交易码以及所述报文域通过关联检核。
30、可选地,在上述的数据质量的校验方法中,所述根据所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核之后,还包括:
31、若所述源头系统名、所述交易码以及所述报文域通过检核,则反馈所述目标日志文件未存在质量问题的信息。
32、本技术第二方面提供了一种数据质量的校验装置,包括:
33、集群获取单元,用于获取kafka日志集群以及检核要求;其中,所述kafka日志集群至少包括目标日志文件;
34、查找单元,用于利用数据血缘关系分析,从上游系统中查找与所述目标日志文件对应的源头系统名、交易码以及报文域;
35、规则确定单元,用于从预先配置的各个检核规则中确定出与所述检核要求相匹配的目标检核规则;
36、检核单元,用于利用所述目标检核规则,对所述源头系统名、所述交易码以及所述报文域进行检核;
37、输出单元,用于若所述源头系统名、所述交易码以及所述报文域未通过检核,则输出所述源头系统名、所述交易码以及所述报文域。
38、可选地,在上述的数据质量的校验装置中,还包括:
39、接收单元,用于接收上游系统发送的交易请求报文;
40、处理单元,用于根据预设的交易处理逻辑,对所述交易请求报文进行处理,得到处理结果,并将所述处理报文组装成交易响应报文;
41、写入单元,用于利用日志输出框架,将所述交易请求报文以及所述交易响应报文写入到日志文件中,得到目标日志文件;
42、存储单元,用于通过调用流式报文sdk插件,将所述目标日志文件写入到大数据平台的kafka消息队列中,由所述大数据平台将kafka消息队列中的所述目标日志文件存储到kafka日志集群中。
43、可选地,在上述的数据质量的校验装置中,若所述目标检核规则为缺失检核规则,所述检核单元,包括:
44、第一添加单元,用于将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
45、第一判断单元,用于利用所述缺失检核规则中的缺失检核字段,判断所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值是否为空值;
46、第一确定单元,用于若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值均为空值,则确定所述源头系统名、所述交易码以及所述报文域未通过缺失检核;
47、第二确定单元,用于若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值均为非空值,则确定所述源头系统名、所述交易码以及所述报文域通过缺失检核。
48、可选地,在上述的数据质量的校验装置中,若所述目标检核规则为规范检核规则,所述检核单元,包括:
49、第二添加单元,用于将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
50、第二判断单元,用于利用所述规范检核规则中的规范字段,判断所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值是否满足预设的格式要求;
51、第三确定单元,用于若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值不满足预设的格式要求,则确定所述源头系统名、所述交易码以及所述报文域未通过规范检核;
52、第四确定单元,用于若所述kafka消息队列中所述源头系统名对应的字段值、所述交易码对应的字段值以及所述报文域对应的字段值满足预设的格式要求,则确定所述源头系统名、所述交易码以及所述报文域通过规范检核。
53、可选地,在上述的数据质量的校验装置中,若所述目标检核规则为表间关联检核规则,所述检核单元,包括:
54、第三添加单元,用于将所述源头系统名、所述交易码以及所述报文域添加至kafka消息队列中;
55、获取单元,用于从数据湖获取与所述检核要求对应的关联表;
56、检测单元,用于利用所述表间关联检核规则中的关联字段,检测所述关联表中是否存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域是否满足所述检核要求;
57、第五确定单元,用于若所述关联表中不存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域不满足所述检核要求,则确定所述源头系统名、所述交易码以及所述报文域未通过关联检核;
58、第六确定单元,用于若所述关联表中存在所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域,且所述kafka消息队列中所述源头系统名、所述交易码以及所述报文域满足所述检核要求,则确定所述源头系统名、所述交易码以及所述报文域通过关联检核。
59、可选地,在上述的数据质量的校验装置中,还包括:
60、反馈单元,用于若所述源头系统名、所述交易码以及所述报文域通过检核,则反馈所述目标日志文件未存在质量问题的信息。
61、本技术第三方面提供了一种电子设备,包括:
62、存储器和处理器;
63、其中,所述存储器用于存储程序;
64、所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的一种数据质量的校验方法。
65、本技术第四方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,具体用于实现如上述任意一项所述的一种数据质量的校验方法。
66、本技术提供的一种数据质量的校验方法,通过获取kafka日志集群以及检核要求,其中,kafka日志集群至少包括目标日志文件,其次利用数据血缘关系分析,从上游系统中查找与目标日志文件对应的源头系统名、交易码以及报文域,然后从预先配置的各个检核规则中确定出与检核要求相匹配的目标检核规则,最后利用目标检核规则,对源头系统名、交易码以及报文域进行检核,若源头系统名、交易码以及报文域未通过检核,则输出源头系统名、交易码以及报文域。从而通过对数据源头的数据进行质量检核,能够及时地发现源头的数据出现质量问题,进而能够有效地推动对数据进行整改的效率。