跨平台同步数据的数据质量检查方法、装置及存储介质与流程

文档序号:24640390发布日期:2021-04-09 20:53阅读:135来源:国知局
跨平台同步数据的数据质量检查方法、装置及存储介质与流程

本发明涉及数据检测技术领域,具体而言,涉及跨平台同步数据的数据质量检查方法、装置及存储介质。



背景技术:

随着互联网和云计算等的蓬勃发展,数据量呈爆发式增长,大数据环境下各种数据的来源和数据的类型丰富多样,使得在不同数据平台下的进行数据的采集同步时,存在很多的差异和不确定性。为了保证数据采集同步的一致性,需要对数据采集同步过程中的数据进行数据质量检查。

但是目前的数据质量检查方法常对单个平台的数据进行检查,用于对跨平台的同步数据进行数据质量检查时准确性较差。



技术实现要素:

本发明解决的问题是如何提高跨平台同步数据的数据质量检查的准确性。

为解决上述问题,本发明提供一种跨平台同步数据的数据质量检查方法、装置及存储介质。

第一方面,本发明提供了一种跨平台同步数据的数据质量检查方法,包括:

获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型;

根据所述第一数据源类型和所述第二数据源类型确定所述源数据平台和所述目标数据平台之间的平台映射关系;

根据所述平台映射关系进行数据同步,同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据,并根据所述平台映射关系将所述第一同步数据和所述第二同步数据转换成同一类型的数据,获得转换后的第一同步数据和转换后的第二同步数据;

根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查,输出检查结果。

可选地,所述数据检查项包括完整性检查项、数据准确性检查项、数据及时性检查项和数据一致性检查项中的至少一种。

可选地,所述同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据包括:

获取同步过程中的同步日志,根据所述同步日志设置抽样数据表;

根据所述抽样数据表在所述源数据平台中随机提取所述第一同步数据,并在所述目标数据平台中提取对应的所述第二同步数据,将所述第一同步数据和所述第二同步数据缓存至中间表。

可选地,所述根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查包括:

根据所述数据检查项配置sql语句,采用所述sql语句对所述转换后的第一同步数据和所述转换后的第二同步数据进行比对检查。

可选地,所述方法还包括:

当无法获取数据同步过程中所述源数据平台的所述第一同步数据时或同步结束后,读取所述同步日志中记录的同步日志数据;

将所述同步日志数据和所述第二同步数据转换成同一类型的数据,获得转换后的同步日志数据和转换后的第二同步数据;

根据所述数据检查项对所述转换后的同步日志数据和所述转换后的第二同步数据进行检查,输出检查结果。

可选地,所述输出检查结果之后还包括:

当所述检查结果显示有数据异常时,输出告警信号;

当所述检查结果无异常时,输出数据质量检查报告。

可选地,所述同步日志中包括数据表名、数据记录总数、主键字段、区分字段、分区字段值、同步开始时间、同步结束使劲按和同步状态标识中的至少一种;

所述抽样数据表包括数据表名、主键字段、主键值、抽样字段类型、抽样字段列中的至少一种。

第二方面,本发明提供了一种跨平台同步数据的数据质量检查装置,包括:

获取模块,用于获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型;

处理模块,用于根据所述第一数据源类型和所述第二数据源类型确定所述源数据平台和所述目标数据平台之间的平台映射关系;

同步模块,用于根据所述平台映射关系进行数据同步,同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据,并根据所述平台映射关系将所述第一同步数据和所述第二同步数据转换成同一类型的数据,获得转换后的第一同步数据和转换后的第二同步数据;

检查模块,用于根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查,输出检查结果。

第三方面,本发明提供了一种跨平台同步数据的数据质量检查装置,包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如上所述的跨平台同步数据的数据质量检查方法。

第四方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的跨平台同步数据的数据质量检查方法。

本发明的跨平台同步数据的数据质量检查方法、装置及存储介质的有益效果是:获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型,通过第一数据源类型和第二数据源类型确定两个数据平台之间的平台映射关系,便于源数据平台根据平台映射关系将数据同步至目标数据平台,例如将源数据平台的第一同步数据同步至目标数据平台,由于不同数据平台中数据类型的差别,得到目标数据平台的第二同步数据,获取同步过程中的第一同步数据和第二同步数据,根据平台映射关系将第一同步数据和第二同步数据转换为同一类型的数据,并采用预先确定的数据检查项对转换后的第一同步数据和转换后第二同步数据进行数据质量检查,确定同步过程中的数据质量,实现同步过程中对源数据平台的第一同步数据和目标数据平台的第二同步数据的数据质量检查。本发明的技术方案中,在数据同步过程中对同步的数据进行质量检查,能够及时发现异常数据,便于及时进行处理,并且提高了跨平台同步数据时数据质量检查的准确性。

附图说明

图1为本发明实施例的一种跨平台同步数据的数据质量检查方法的流程示意图;

图2为本发明实施例的数据采集同步的流程示意图;

图3为本发明另一实施例的一种跨平台同步数据的数据质量检查方法的流程示意图;

图4为本发明实施例的跨平台同步数据的数据质量检查装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

如图1至图3所示,本发明实施例提供的一种跨平台同步数据的数据质量检查方法,包括:

步骤s110,获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型。

具体地,可接入各种不同类型的数据平台,例如关系型数据平台和大数据平台等,第一数据源类型和第二数据源类型包括结构化数据、非结构化数据和半结构化数据。如图2所示,源数据平台的数据源类型可包括数据库类型,如结构化数据,文本类型,如json、xml等半结构化数据,文件类型,如非结构化数据。

步骤s120,根据所述第一数据源类型和所述第二数据源类型确定所述源数据平台和所述目标数据平台之间的平台映射关系。

具体地,例如源数据平台可为关系型数据平台oracle,目标数据平台可为大数据平台hive,当将oracle中的数据同步至hive中时,假如同步数据的类型转换为int->double,varchar->string,number->double,date->timestamp,根据转换前的数据类型和转换后的数据类型就可确定两个平台的平台间映射关系。如表一所示,为数据平台oracle、hive和kudu的常见数据源类型:

表一各数据平台的数据源类型

在确定源数据平台的第一数据源类型和目标数据平台的第二数据源类型之后,可在数据平台映射关系配置表中确定源数据平台和目标数据平台之间的平台映射关系,数据平台映射关系配置表中包括各种平台映射关系。

步骤s130,根据所述平台映射关系进行数据同步,同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据,并根据所述平台映射关系将所述第一同步数据和所述第二同步数据转换为同一类型的数据,获得转换厚度额第一同步数据和转换后的第二同步数据。

可选地,所述同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据包括:

获取同步过程中的同步日志,根据所述同步日志设置抽样数据表;

根据所述抽样数据表在所述源数据平台中随机提取所述第一同步数据,并在所述目标数据平台中提取对应的所述第二同步数据,将所述第一同步数据和所述第二同步数据缓存至中间表。

可选地,所述同步日志中包括数据表名、数据记录总数、主键字段、区分字段、分区字段值、同步开始时间、同步结束使劲按和同步状态标识中的至少一种;所述抽样数据表包括数据表名、主键字段、主键值、抽样字段类型、抽样字段列中的至少一种。

步骤s140,根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查,输出检查结果。

可选地,所述数据检查项包括完整性检查项、数据准确性检查项、数据及时性检查项和数据一致性检查项中的至少一种。

完整性检查项可包括数据元素完整性和数据记录完整性,数据准确性检查项可包括数据内容正确性、数据格式合规性、数据重复率、数据唯一性和脏数据出现率,数据及时性检查项可包括基于时间点的及时性、基于时间段的及时性和时序性,数据一致性检查项可包括相同数据一致性和关联数据一致性。

可选地,所述根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查包括:

根据所述数据检查项配置sql语句,采用所述sql语句对所述转换后的第一同步数据和所述转换后的第二同步数据进行比对检查。

可选地,还包括:

当无法获取数据同步过程中所述源数据平台的所述第一同步数据时或同步结束后,读取所述同步日志中记录的同步日志数据;

将所述同步日志数据和所述第二同步数据转换成同一类型的数据,获得转换后的同步日志数据和转换后的第二同步数据;

根据所述数据检查项对所述转换后的同步日志数据和所述转换后的第二同步数据进行检查,输出检查结果。

本可选的实施例中,在同步过程中通过对第一同步数据和第二同步数据进行比对检查,输出检查结果;在同步结束后或未获取到第一同步数据时,通过对同步日志中的同步日志数据与第二同步数据进行比对检查,输出检查结果,实现双重比对检查,能够大幅提高数据质量检查的精度,保证同步过程中的数据准确性。

可选地,所述输出检查结果之后还包括:

当所述检查结果显示有数据异常时,输出告警信号,对异常结果进行告警;

当所述检查结果无异常时,输出数据质量检查报告。

本可选的实施例中,当检查结果显示有数据异常时,输出告警信号提醒用户及时进行处理,保证数据质量;当检查结果无异常时,输出数据质量检查报告,将数据采集同步过程中的数据质量可视化,便于观察和分析。

可选地,跨平台同步日志匹配规则配置,在数据同步过程中,会生成相应的日志文件,也可获取日志文件中相应的日志记录,例如:recordreplicatorerror、invalidatevalue、cannotparse、sqlexception、authfailed、connectexception、illegalargumentexception、exitcode、queryfailed等异常记录,当检查到异常记录时,输出告警信号。

本实施例中,获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型,通过第一数据源类型和第二数据源类型确定两个数据平台之间的平台映射关系,便于源数据平台根据平台映射关系将数据同步至目标数据平台,例如将源数据平台的第一同步数据同步至目标数据平台,由于不同数据平台中数据类型的差别,得到目标数据平台的第二同步数据,获取同步过程中的第一同步数据和第二同步数据,根据平台映射关系将第一同步数据和第二同步数据转换为同一类型的数据,并采用预先确定的数据检查项对转换后的第一同步数据和转换后第二同步数据进行数据质量检查,确定同步过程中的数据质量,实现同步过程中对源数据平台的第一同步数据和目标数据平台的第二同步数据的数据质量检查。本发明的技术方案中,在数据同步过程中对同步的数据进行质量检查,能够及时发现异常数据,便于及时进行处理,并且提高了跨平台同步数据时数据质量检查的准确性。

如图4所示,本发明实施例提供的一种跨平台同步数据的数据质量检查装置,包括:

获取模块,用于获取源数据平台的第一数据源类型和目标数据平台的第二数据源类型;

处理模块,用于根据所述第一数据源类型和所述第二数据源类型确定所述源数据平台和所述目标数据平台之间的平台映射关系;

同步模块,用于根据所述平台映射关系进行数据同步,同步过程中获取所述源数据平台的第一同步数据和所述目标数据平台的第二同步数据,并根据所述平台映射关系将所述第一同步数据和所述第二同步数据转换成同一类型的数据,获得转换后的第一同步数据和转换后的第二同步数据;

检查模块,用于根据预先确定的数据检查项对所述转换后的第一同步数据和所述转换后的第二同步数据进行检查,输出检查结果。

本发明另一实施例提供的一种跨平台同步数据的数据质量检查装置包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的跨平台同步数据的数据质量检查方法。该装置可为计算机或服务器等。

本发明再一实施例提供的一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的跨平台同步数据的数据质量检查方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1