数据同步方法、装置、可读存储介质和电子设备与流程

文档序号:37384261发布日期:2024-03-22 10:36阅读:16来源:国知局
数据同步方法、装置、可读存储介质和电子设备与流程

本技术涉及数据同步领域,具体而言,涉及一种数据同步方法、数据同步装置、计算机可读存储介质和电子设备。


背景技术:

1、目前的银行、电商、运营商等拥有大量客户的业务系统中,往往需要将客户的业务数据以离线的方式同步给大数据平台。而这些系统每天产生的业务数据量巨大,且客户数据通常具有一定时效性,需要系统每天及时推送,但实际数据推送往往不够及时、稳定,一是受限于当前数据库、存储设备、传输带宽等硬性条件的限制;二是对于数据本身没能进行有效的筛选剔除,实际推送的数据中包含大量重复或无效数据,导致数据量堆积、离线同步效率大幅减慢。

2、因此,现有技术中提出一些筛选剔除方案,但是这些筛选剔除方案本身存在缺陷,导致虽然成功的筛选出有效数据,但筛选过程本身效率很低。


技术实现思路

1、本技术的主要目的在于提供一种数据同步方法、数据同步装置、计算机可读存储介质和电子设备,以至少解决现有技术中在将客户的业务数据同步至数据平台的过程中进行数据筛选的方案效率较低的问题。

2、为了实现上述目的,根据本技术的一个方面,提供了一种数据同步方法,包括:依次获取待同步数据库中各待同步数据表的属性,所述待同步数据表的属性包括多个维度,所述维度至少包括:数据应用维度、数据状态维度、数据查询效率维度、数据影响度维度和数据量维度,所述数据应用维度表征所述待同步数据表中数据的类型,所述数据状态维度表征所述待同步数据表中数据的变更状态,所述数据查询效率维度表征所述待同步数据表中数据的查询效率,所述数据影响度维度表征所述待同步数据表中数据对客户的影响度,所述数据量维度表征所述待同步数据表中数据的数据量大小;根据各所述待同步数据表的属性,确定各所述待同步数据表的目标同步方法,所述待同步数据表与所述目标同步方法一一对应;采用各所述待同步数据表对应的所述目标同步方法将各所述待同步数据表中的数据同步至大数据平台。

3、可选地,所述数据应用维度将数据表划分为业务表和参数表,所述数据状态维度将所述数据表划分为流水表和拉链表,所述数据查询效率维度将所述数据表划分为分区表和非分区表,所述数据影响度维度将所述数据表划分为数据可删除表和数据不可删除表,所述数据量维度将所述数据表划分为数据量大的表和数据量小的表,所述数据量小的表为数据量小于预设数据量的数据表,所述数据量大的表为所述数据量大于或者等于所述预设数据量的数据表。

4、可选地,根据各所述待同步数据表的属性,确定各所述待同步数据表的目标同步方法,包括:获取数据表分类模型,其中,所述数据表分类模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的:历史待同步数据表的属性与所述历史待同步数据表的属性对应的历史数据表类型;根据所述待同步数据表的属性和所述数据表分类模型,确定所述待同步数据表的类型;根据所述待同步数据表的类型,确定所述待同步数据表的目标同步方法。

5、可选地,根据所述待同步数据表的类型,确定所述待同步数据表的目标同步方法,包括:在所述待同步数据表为第一类数据表或者为第二类数据表的情况下,确定所述目标同步方法为全量同步法;其中,所述第一类数据表的属性为根据参数属性、拉链属性、非分区属性、可删除属性和数据量小属性确定的,所述第二类数据表的属性为根据业务属性、拉链属性、非分区属性、可删除属性和数据量小属性确定的,所述全量同步法为将所述待同步数据表中的全量数据同步至所述大数据平台的同步方法。

6、可选地,采用各所述待同步数据表对应的所述目标同步方法将各所述待同步数据表中的数据同步至大数据平台,包括:在所述待同步数据表为第三类数据表的情况下,根据分区键从所述待同步数据表中筛选出第一新增数据,所述第三类数据表的属性为根据业务属性、流水属性、非分区属性、可删除属性和数据量小属性确定的,所述分区键表征所述第一新增数据的新增时间,所述第一新增数据的新增时间晚于第一预设时间;将所述第一新增数据直接同步至所述大数据平台;在所述待同步数据表为第四类数据表的情况下,根据数据表技术字段从所述待同步数据表中筛选出第二新增数据,所述第四类数据表的属性为根据业务属性、拉链属性、非分区属性、不可删除属性和数据量大属性确定的,所述数据表技术字段表征所述第二新增数据的新增时间,所述第二新增数据的新增时间晚于第二预设时间;将所述第二新增数据直接同步至所述大数据平台。

7、可选地,采用各所述待同步数据表对应的所述目标同步方法将各所述待同步数据表中的数据同步至大数据平台,包括:在所述待同步数据表为第五类数据表的情况下,根据分区键从所述待同步数据表中筛选出第三新增数据,所述第五类数据表的属性为根据业务属性、流水属性、分区属性、不可删除属性和数据量小属性确定的,所述分区键表征所述第三新增数据的新增时间,所述第三新增数据的新增时间晚于第三预设时间;将所有类型为所述第五类数据表的所述待同步数据表中的所述第三新增数据合并,得到至少一个第一新增表,所述第一新增表的数量小于类型为所述第五类数据表的所述待同步数据表的数量;将所有的所述第一新增表中的数据同步至所述大数据平台;在所述待同步数据表为第六类数据表的情况下,根据数据表技术字段从所述待同步数据表中筛选出第四新增数据,所述第六类数据表的属性为根据业务属性、流水属性、非分区属性、不可删除属性和数据量小属性确定的,所述数据表技术字段表征所述第四新增数据的新增时间,所述第四新增数据的新增时间晚于第四预设时间;将所有类型为所述第六类数据表的所述待同步数据表中的所述第四新增数据合并,得到至少一个第二新增表,所述第二新增表的数量小于类型为所述第六类数据表的所述待同步数据表的数量;将所有的所述第二新增表中的数据同步至所述大数据平台;在所述待同步数据表为第七类数据表的情况下,根据数据表技术字段从所述待同步数据表中筛选出第五新增数据和/或第一变更数据,所述第七类数据表的属性为根据业务属性、拉链属性、非分区属性、不可删除属性和数据量小属性确定的,所述数据表技术字段表征所述第五新增数据的新增时间和/或所述第一变更数据的变更时间,所述第五新增数据的新增时间晚于第五预设时间,所述第一变更数据的变更时间晚于第六预设时间;将所有类型为所述第七类数据表的所述待同步数据表中的所述第五新增数据和/或所述第一变更数据合并,得到至少一个第三新增表,所述第三新增表的数量小于类型为所述第七类数据表的所述待同步数据表的数量;将所有的所述第三新增表中的数据同步至所述大数据平台。

8、可选地,采用各所述待同步数据表对应的所述目标同步方法将各所述待同步数据表中的数据同步至大数据平台,包括:在所述待同步数据表为第八类数据表的情况下,根据数据表技术字段从所述待同步数据表中筛选出第六新增数据和/或第二变更数据,所述第八类数据表的属性为根据业务属性、拉链属性、非分区属性、可删除属性和数据量大属性确定的,所述数据表技术字段表征所述第六新增数据的新增时间和/或所述第二变更数据的变更时间,所述第六新增数据的新增时间晚于第七预设时间,所述第二变更数据的变更时间晚于第八预设时间;新建删除记录表,将所述待同步数据表中删除的删除数据添加至所述删除记录表中,分别将所述第六新增数据、所述第二变更数据和所述删除记录表直接同步至所述大数据平台。

9、根据本技术的另一方面,提供了一种数据同步装置,包括:获取单元,用于依次获取待同步数据库中各待同步数据表的属性,所述待同步数据表的属性包括多个维度,所述维度至少包括:数据应用维度、数据状态维度、数据查询效率维度、数据影响度维度和数据量维度,所述数据应用维度表征所述待同步数据表中数据的类型,所述数据状态维度表征所述待同步数据表中数据的变更状态,所述数据查询效率维度表征所述待同步数据表中数据的查询效率,所述数据影响度维度表征所述待同步数据表中数据对客户的影响度,所述数据量维度表征所述待同步数据表中数据的数据量大小;确定单元,用于根据各所述待同步数据表的属性,确定各所述待同步数据表的目标同步方法,所述待同步数据表与所述目标同步方法一一对应;同步单元,用于采用各所述待同步数据表对应的所述目标同步方法将各所述待同步数据表中的数据同步至大数据平台。

10、根据本技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的数据同步方法。

11、根据本技术的另一方面,提供了一种电子设备,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的数据同步方法。

12、应用本技术的技术方案,上述数据同步方法,首先依次获取待同步数据库中各待同步数据表的属性,待同步数据表的属性包括多个维度,维度至少包括:数据应用维度、数据状态维度、数据查询效率维度、数据影响度维度和数据量维度,数据应用维度表征待同步数据表中数据的类型,数据状态维度表征待同步数据表中数据的变更状态,数据查询效率维度表征待同步数据表中数据的查询效率,数据影响度维度表征待同步数据表中数据对客户的影响度,数据量维度表征待同步数据表中数据的数据量大小;之后根据各待同步数据表的属性,确定各待同步数据表的目标同步方法,待同步数据表与目标同步方法一一对应;最后采用各待同步数据表对应的目标同步方法将各待同步数据表中的数据同步至大数据平台。该方法根据数据库表的自身业务属性,制定高效的筛选剔除方案,再执行筛选剔除操作,将重复数据与无效数据过滤,快速筛选出有效数据,最后根据实际有效数据量动态配置同步策略,将有效数据同步至大数据平台,解决了现有技术中在将客户的业务数据同步至数据平台的过程中进行数据筛选的方案效率较低的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1