本申请涉及数据处理,具体是一种用于分布式采集系统的数据同步方法。
背景技术:
1、数据同步是一种在多个数据源之间保持数据一致性的一种手段,广泛应用于各种计算机系统中。数据同步有以下几种常见的应用场景:一、计算机系统通过数据同步实现容灾备份,避免单点故障;二、计算机系统通过数据同步实现系统负载均衡,提高系统性能;三、多个系统之间通过数据同步的方式实现数据共享。其中,针对多个系统之间通过数据同步的方式实现数据共享的技术,一些现有技术采用高频读取的方式对采集到的数据进行扫描、解析,从而分析哪些数据是属于需要同步的数据,这种方式,势必需要高计算力的支持,这样,就会给处理器带来较大的负载压力和算力需求,并且,还可能在数据计算量较大时,错漏需要同步的数据,进而造成依赖于同步后数据进行进一步处理的后端出现数据错误的现象,为此,亟需一种可靠性高、能够充分释放运行压力、优化运行算力的数据同步方法来解决这一问题。
技术实现思路
1、本申请的目的在于提供一种用于分布式采集系统的数据同步方法,以高可靠性高、充分释放运行压力、优化运行算力的形式来维持分布式采集系统采集到的数据的同步。
2、为实现上述目的,本申请公开了以下技术方案:一种用于分布式采集系统的数据同步方法,该方法包括以下步骤:
3、同步数据库接受来自数据暂存节点中传输的数据并对数据进行数据同步存储的同时,同步器按照预设的巡检时间间隔δt自起始时间t0查询数据暂存节点中是否存在数据缓存,所述数据缓存由若干个分布式采集节点采集的数据序列构成;
4、若在时间节点t所述数据暂存节点存在数据缓存,所述同步器对所述数据序列进行遍历,并获取每个数据序列中的数据特征;其中,t=t0+∑δt,∑δt为在起始时间t0与时间节点t之间所述同步器的巡检用时;
5、所述同步器按照预设的数据同步规则,将所有数据序列中具有相同数据特征的数据进行提取,并发送至所述同步数据库中,所述同步数据库基于数据特征进行数据的快速同步存储。
6、一种实施方式中,该方法还包括:
7、预设巡检频率阈值;
8、当所述同步器的连续巡检次数达到该巡检频率阈值且每次巡检时所述数据暂存节点中均不存在数据缓存时,所述同步器按照巡检时间间隔δt’查询数据暂存节点中是否存在数据缓存,δt’<δt,此时,t=t0+n*δt+n*δt’,其中,n为按照巡检时间间隔δt的巡检次数,n为按照巡检时间间隔δt’的巡检次数。
9、一种实施方式中,当所述同步器将所述数据缓存节点中的数据序列均发送至所述同步数据库后,对所述巡检时间间隔δt’进行复位,使所述同步器按照巡检时间间隔δt查询数据暂存节点中是否存在数据缓存。
10、一种实施方式中,所述的预设巡检频率阈值,具体包括:
11、获取若干个所述同步器查询到所述数据暂存节点存在数据缓存的时间节点t;
12、计算标准巡检次数阈值nt0,其中,σ(t-t0)为获取到的所述的若干个所述同步器查询到所述数据暂存节点存在数据缓存的时间节点t的总和,为获取到的所述的若干个所述同步器查询到所述数据暂存节点存在数据缓存的时间节点t对应的巡检时间间隔的加权平均值;
13、得到至少一个巡检频率阈值nt,nt≤nt0。
14、一种实施方式中,所述巡检频率阈值包括阈值nt1、阈值nt2……阈值ntm。
15、一种实施方式中,在所述巡检频率阈值中,阈值ntm-1对应的巡检时间间隔小于阈值ntm对应的巡检时间间隔。
16、一种实施方式中,在所述巡检频率阈值中,ntm-1≤ntm。
17、一种实施方式中,所述数据特征包括:来源标识和时间戳。
18、一种实施方式中,所述的数据同步规则具体包括:以来源标识作为定位目标;
19、所述的将所有数据序列中具有相同数据特征的数据进行提取,具体包括:将所述数据序列中具有相同来源标识的数据进行提取。
20、有益效果:本申请的用于分布式采集系统的数据同步方法,同步数据库接受来自数据暂存节点中传输的数据并对数据进行数据同步存储的同时,同步器按照预设的巡检时间间隔进行数据查询,并在查询到数据暂存节点中存在数据缓存时执行相应的数据同步任务,优化了数据查询的频次,降低系统运行压力,辅助了同步数据库的数据同步。进一步地,通过巡检频率阈值的设置和优化,能够按照适配于系统数据传输规律的巡检时间间隔来控制同步器对数据暂存节点的数据查询,并且,通过过往的巡检用时来调整巡检频率阈值,实现了巡检频率阈值的优化,在充分释放运行压力的前提下,避免需要同步的数据的错漏,具有较高的可靠性。
1.一种用于分布式采集系统的数据同步方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的用于分布式采集系统的数据同步方法,其特征在于,该方法还包括:
3.根据权利要求2所述的用于分布式采集系统的数据同步方法,其特征在于,当所述同步器将所述数据缓存节点中的数据序列均发送至所述同步数据库后,对所述巡检时间间隔δt’进行复位,使所述同步器按照巡检时间间隔δt查询数据暂存节点中是否存在数据缓存。
4.根据权利要求2所述的用于分布式采集系统的数据同步方法,其特征在于,所述的预设巡检频率阈值,具体包括:
5.根据权利要求4所述的用于分布式采集系统的数据同步方法,其特征在于,所述巡检频率阈值包括阈值nt1、阈值nt2……阈值ntm。
6.根据权利要求5所述的用于分布式采集系统的数据同步方法,其特征在于,在所述巡检频率阈值中,阈值ntm-1对应的巡检时间间隔小于阈值ntm对应的巡检时间间隔。
7.根据权利要求6所述的用于分布式采集系统的数据同步方法,其特征在于,在所述巡检频率阈值中,ntm-1≤ntm。
8.根据权利要求1所述的用于分布式采集系统的数据同步方法,其特征在于,所述数据特征包括:来源标识和时间戳。
9.根据权利要求8所述的用于分布式采集系统的数据同步方法,其特征在于,所述的数据同步规则具体包括:以来源标识作为定位目标;