同步参数动态调整方法、装置和设备与流程

文档序号:37186496发布日期:2024-03-01 12:50阅读:30来源:国知局
同步参数动态调整方法、装置和设备与流程

本发明涉及数据通信及大数据,尤其涉及一种同步参数动态调整方法、装置和设备。


背景技术:

1、在数据处理和分析场景中,实时数据同步和高可用性是一个重要的指标需求,该需求要求能够及时获取和处理来自不同数据源的数据,并确保数据的准确性和一致性。

2、数据变更捕获(change data capture,cdc)技术是指捕获数据库中数据变更的技术,是实现数据同步的一个关键技术。cdc技术通常分为基于查询的cdc和基于日志的cdc。

3、flink是一种分布式流处理框架,具有高吞吐、低延迟、高性能以及支持只执行一次(exactly-once)语义的特性,应用较为广泛。flink cdc(change data capture)是基于flink流处理框架的一种分布式数据同步解决方案,它允许在源端数据库中数据发生变化时捕获这些变化,并将变化实时传输到目标端进行处理和分析。这种实时的数据同步能力使得企业可以几乎实时地对数据进行处理和响应,从而提高业务决策的准确性和时效性。

4、flink cdc能够利用flink的并行计算能力和优化策略,实现在分布式集群上快速而有效地进行高性能和低延迟的数据同步。flink cdc的实时数据同步能力使得数据在源端和目标端之间可以保持近乎实时的同步,满足需要实时数据更新同步的应用场景的需求。此外,flink cdc能够提供灵活的数据处理能力,可以对主渠道的变化数据进行实时转换、过滤、聚合和计算等操作。这使得在数据同步过程中可以进行数据清洗、数据格式转换、数据合并等操作,满足不同的业务需求。

5、在进行数据同步时,通常在初始同步时进行全量抽取,以确保目标端系统与源端数据的完全一致,随后使用增量抽取来实现实时或定期的数据增量同步,以保持数据的实时性。

6、全量抽取(full load extraction)是指从数据源中获取所有数据的过程。在全量抽取中,会读取源端数据的全部内容,并将其复制到目标端系统进行同步。全量抽取通常在初始同步或定期同步时使用,用于确保目标端系统与源端数据保持一致。全量抽取可以将源端的完整数据集复制到目标端,无论数据是否发生变化。

7、增量抽取(incremental load extraction)是指仅从数据源中获取发生变化的数据的过程。在增量抽取中,会监测源端数据的变化,并仅复制变化的部分数据到目标端系统进行同步。增量抽取可以提高数据同步的效率,减少数据传输的量和时间。这种方式适用于源端数据频繁变动的情况,可以实现实时或近实时的数据同步。

8、目前,利用cdc技术实现数据同步的方案中,通常需要手动设置批量大小(batchsize)等配置参数,批量大小参数用于控制一次处理的数据量大小,可以是数据条数,也可以是数据实际的大小(单位kb、mb、gb等)。在批量处理模式下,数据会被按照一定的批量大小进行分组,然后批量进行同步处理。

9、批量大小等配置参数对数据同步效率有很大的影响。例如,较大的批量大小可以减少数据读取和写入的次数,从而减少了处理过程中的开销,提高数据处理效率,但也会增加内存和网络的负载。较小的批量大小可以降低处理延迟,但可能会导致频繁的数据读写操作。

10、目前采用cdc技术实现分布式数据同步的方案中,无法做到综合考虑实际需求、系统资源、数据特性和延迟要求等因素,动态优化批量大小等影响同步效率的配置参数,导致数据同步效率不高。


技术实现思路

1、有鉴于此,本发明提供一种同步参数动态调整方法、装置和设备,用于解决不能根据执行环境动态适配cdc同步作业任务同步参数的技术问题。

2、基于本发明实施例的一方面,本发明提供一种同步参数动态调整方法,该方法包括:

3、监控提交到分布式流处理框架集群中的数据变更捕获cdc同步作业任务,采集历史cdc同步作业任务的作业信息构建训练样本集,作业信息包括:两端端点信息、同步参数、同步节点资源信息及任务性能指标;

4、使用训练样本集训练回归预测模型,回归预测模型的输入特征值由除去批量大小的作业信息来构造,输出为批量大小的标签值;

5、在进行待调度cdc同步作业任务的调度前,根据当前时间之前指定时间范围内该待调度cdc同步作业的历史作业信息,计算预期数据吞吐量和预期数据处理时延;

6、使用该待调度cdc同步作业任务的作业信息中除数据吞吐量、数据处理时延及批量大小之外的其它作业信息,以及预期数据吞吐量和预期数据处理时延构造特征值,将特征值输入所述回归预测模型,将所述回归预测模型输出的批量大小作为所述待调度cdc同步作业任务的批量大小,调度执行所述待调度cdc同步作业任务。

7、进一步地,所述两端端点信息指cdc同步作业任务的数据源端和数据目的端的相关信息,包括:源端和目的端数据库类型、两端数据库宿主机ip地址、数据源表和数据目的表;

8、所述同步参数指为cdc同步作业任务配置的同步参数,包括:分片大小、并行度、批量大小;

9、所述同步节点资源信息指执行cdc同步作业任务的节点的资源使用信息,包括:执行节点的cpu、内存、网络带宽资源的使用量;

10、所述任务性能指标指能够反映执行cdc同步作业任务的节点执行cdc同步作业任务的性能指标,包括:数据处理时延、数据吞吐量、数据分布均衡程度、平均每条数据的大小。

11、进一步地,针对分布式流处理框架集群中不同的执行节点,分别采集各执行节点的历史cdc同步作业任务的作业信息,并分别构造各执行节点的训练样本集;

12、使用各执行节点的训练样本集训练各执行节点的回归预测模型;

13、在进行待调度cdc同步作业任务调度时,针对集群内每个执行节点分别计算预期数据吞吐量和预期数据处理时延并构造特征值;

14、分别使用执行节点各自的回归预测模型预测各执行节点的批量大小,并基于预测的批量大小调度执行所述待调度cdc同步作业任务。

15、进一步地,针对集群内每个执行节点分别计算预期数据吞吐量和预期数据处理时延的方法为:

16、筛选出当前时间之前指定时间范围内,该执行节点上该cdc同步作业任务的前n个最小的数据处理时延对应的作业信息记录;其中,n为大于1的正整数;

17、筛选出当前时间之前指定时间范围内,该执行节点上该cdc同步作业任务的前m个最大的数据吞吐量对应的作业信息记录;其中,m为大于1的正整数;

18、计算筛选出的作业信息记录中数据处理时延和数据吞吐量的平均值,基于标准差剔除异常值对应的作业信息记录;

19、针对集群内每个执行节点,将剔除异常值后剩余作业信息记录的数据处理时延和数据吞吐量的平均值确定为该执行节点的预期数据处理时延和预期数据吞吐量。

20、进一步地,所述方法还包括:

21、通过不断采集历史cdc同步作业任务的作业信息丰富训练样本集,通过增量训练的方式优化所述回归预测模型。

22、进一步地,所述回归预测模型为线性回归模型、多项式回归模型、岭回归模型、决策树回归模型、支持向量回归svr模型或lasso回归模型。

23、基于本发明实施例的另一方面,本发明还提供一种同步参数动态调整装置,本发明提供的装置可以以软件、硬件或软硬结合的方式实现。当以软件模块方式实现时,该软件模块的程序代码被加载到设备的存储介质中,由处理器读取存储介质中的程序代码并执行。该装置包括:

24、样本集构建模块,用于监控提交到分布式流处理框架集群中的数据变更捕获cdc同步作业任务,采集历史cdc同步作业任务的作业信息构建训练样本集,作业信息包括:两端端点信息、同步参数、同步节点资源信息及任务性能指标;

25、模型训练模块,用于使用训练样本集训练回归预测模型,回归预测模型的输入特征值由除去批量大小的作业信息来构造,输出为批量大小的标签值;

26、预期指标计算模块,用于在进行待调度cdc同步作业任务的调度前,根据当前时间之前指定时间范围内该待调度cdc同步作业的历史作业信息,计算预期数据吞吐量和预期数据处理时延;

27、调度模块,用于使用该待调度cdc同步作业任务的作业信息中除数据吞吐量、数据处理时延及批量大小之外的其它作业信息,以及预期数据吞吐量和预期数据处理时延构造特征值,将特征值输入所述回归预测模型,将所述回归预测模型输出的批量大小作为所述待调度cdc同步作业任务的批量大小,调度执行所述待调度cdc同步作业任务。

28、进一步地,所述样本集构建模块针对分布式流处理框架集群中不同的执行节点,分别采集各执行节点的历史cdc同步作业任务的作业信息,并分别构造各执行节点的训练样本集;

29、所述模型训练模块使用各执行节点的训练样本集训练各执行节点的回归预测模型;

30、所述预期指标计算模块在进行待调度cdc同步作业任务调度时,针对集群内每个执行节点分别计算预期数据吞吐量和预期数据处理时延并构造特征值;

31、所述调度模块分别使用执行节点各自的回归预测模型预测各执行节点的批量大小,并基于预测的批量大小调度执行所述待调度cdc同步作业任务。

32、通过本发明能否使批量大小这一同步参数更加适配实际业务场景,提高同步配置的智能化和同步的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1