一种数据采集方法以及etl组件的制作方法

文档序号:10534980阅读:603来源:国知局
一种数据采集方法以及etl组件的制作方法
【专利摘要】本发明实施例公开了一种数据采集方法以及ETL组件,所述方法包括:数据采集周期到达时,确定本系统的当前系统时间;根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限;根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限;采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。应用本发明,可以避免漏掉采集数据,提高数据采集的完整性。
【专利说明】
一种数据采集方法以及ETL组件
技术领域
[0001]本发明实施例涉及数据采集技术领域,特别是涉及一种数据采集方法以及ETL组件。
【背景技术】
[0002]ETL(Extract1n-Transformat1n_Loading,数据抽取、转换和加载)组件是构建数据仓库中极其重要的一部分。其按照预先设计的规则,提供对不同数据源的数据进行抽取、转换、清洗的功能,集成和净化来自于多个不同系统的数据,最后将转换完的数据增量或全部载入目标数据库中。其从不同的异构数据源流得到统一的目标数据,作为联机分析处理、数据挖掘的基础。
[0003]目前,ETL组件对数据进行抽取的方式包括全量抽取方式和增量抽取方式。其中,增量抽取方式中包括:触发器方式、时间戳方式、全表删除方式。
[0004]以触发器方式抽取数据,需要在业务系统中要抽取的表上建立触发器,建立插入、修改、删除三个触发器,每当业务系统源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。
[0005]以时间戳方式抽取数据,则需要源表上具备时间戳字段,业务系统更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较当前的系统时间与时间戳字段的值来决定抽取哪些数据。
[0006]以全表删除方式抽取数据,则在每次抽取一个目标表的数据后,将该目标表数据进行删除;之后,业务系统重新创建并保存后续的数据。
[0007]以全量抽取方式抽取数据,则是对业务系统的整个数据表的数据进行抽取。
[0008]然而,以触发器方式、或者以全表删除方式,或者以全量抽取方式抽取数据会存在以下问题:当ETL组件抽取业务系统中数据量比较大的表中的数据时,会对ETL组件所在的数据采集系统的内存和1端口(输入输出端口)产生很大影响,导致内存和1端口占用过多,系统出现卡顿现象,从而严重影响数据采集的执行效率。
[0009]因此,目前ETL组件通常采用时间戳方式抽取数据。然而,本发明的发明人发现,以时间戳方式抽取数据也存在一些问题:目前基于互联网的关系数据的存储大多采用分布式数据库;分布式系统中的各业务系统,通常相互间具有时间差,或者各业务系统因网络不稳定导致记录数据的时间延后;这就使得,ETL组件以时间戳方式采集各业务系统的数据时,有些数据因网络延迟或时间差的原因而没被业务系统及时记录而被漏掉,导致采集的数据不完整。

【发明内容】

[0010]有鉴于此,本发明的目的在于提出一种数据采集方法以及ETL组件,用以在进行数据采集时尽量避免漏掉数据,提高数据采集的完整性。[0011 ]基于上述目的,本发明实施例提供的一种数据采集方法方法,包括:
[0012]数据采集周期到达时,确定本系统的当前系统时间;
[0013]根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限;
[0014]根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限;
[0015]采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0016]较佳地,所述延迟时长与所述第一采集时长相等。
[0017]较佳地,在所述数据采集周期到达后,还包括:
[0018]确定所述各业务系统中待采集的数据表为全量数据表或增量数据表。
[0019]较佳地,所述采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据具体为:
[0020]采集所述各业务系统的增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0021 ]较佳地,在所述数据采集周期到达后,还包括:
[0022]针对所述各业务系统中的全量数据表,进行一次跃进式的增量数据采集;
[0023]其中,在该次跃进式的增量数据采集过程中,确定所述全量数据表已采集的次数;
[0024]根据所述全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳;
[0025]根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳;
[0026]采集所述全量数据表中所述起始时间戳与终止时间戳所标示的时间范围内的数据。
[0027]较佳地,所述第二采集时长大于第一采集时长。
[0028]在本发明实施例的另一方面,还提供了一种ETL组件,包括:
[0029]系统时间确定模块,用于在数据采集周期到达时,确定本系统的当前系统时间并发送采集通知;
[0030]第一时间戳计算模块,用于接收到所述采集通知后,根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限;根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限;
[0031]第一数据采集模块,用于采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0032]进一步,所述ETL组件还包括:
[0033]数据表确定模块,用于确定出所述各业务系统中待采集的数据表为全量数据表或增量数据表。
[0034]较佳地,第一数据采集模块具体用于根据所述数据表确定模块的确定结果,采集所述各业务系统中的增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0035]进一步,所述ETL组件还包括:
[0036]第二时间戳计算模块,用于接收到所述采集通知后,针对所述数据表确定模块判断出的全量数据表,根据所述全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳;根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳;
[0037]第二数据采集模块,用于采集所述全量数据表中所述起始时间戳与终止时间戳所标示的时间范围内的数据。
[0038]本发明实施例的技术方案中,由于将当前系统时间延迟预设的延迟时长后作为时间戳上限,并依据此时间戳上限进行数据采集;避免了业务系统因时间差或网络延迟而没有及时记录当前时间下的数据而使得采集的数据丢失一部分当前时间的数据的情况;也就是说,当前时间记录的数据将延迟预设的延迟时长后才会被采集,从而提高数据采集的完整性。
[0039]进一步,针对现有的全量数据表采集方法容易出现系统卡顿、死机的现象,本发明实施例的技术方案中,对于全量数据表采用跃进式的增量数据采集方式,从而在一个数据采集周期中,仅采集起始时间戳与终止时间戳之间的数据,限制了采集的数据量,避免因需要采集的数据量过大,而过多占用内存、或1端口而出现系统卡顿、或死机的现象。
【附图说明】
[0040]图1为本发明实施例的ETL组件进行数据采集的方法流程图;
[0041]图2为本发明实施例的ETL组件针对增量数据表进行延迟式的增量数据采集的方法流程图;
[0042]图3为本发明实施例的ETL组件针对全量数据表进行一次跃进式的增量数据采集的方法流程图;
[0043]图4为本发明实施例的ETL组件内部结构框图。
【具体实施方式】
[0044]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0045]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0046]本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“親接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0047]需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一” “第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
[0048]本发明的发明人对现有技术进行分析发现,现有技术的ETL组件以时间戳方式进行增量数据采集时,通常根据本系统的当前系统时间,对各业务系统中相应时间戳的数据进行采集。比如,当前系统时间为8: OO,则采集各业务系统中7:59?8:00之间的数据。此时,由于各业务系统的时间差,可能有的业务系统的当前系统时间还未到8:00,或者由于网络原因延迟了 8:00的数据记录,那么ETL组件将无法获取到这些业务系统的8:00所记录的数据,导致数据采集的不完整。
[0049]由此,本发明的发明人考虑到,将采集数据的时间进行一定的延迟;例如,将8:00的记录数据延迟到8:01进行采集;也就是说,将当前系统时间减去一个延迟时长计算出一个采集数据的时间戳上限,进而再计算时间戳下限,所述时间戳上限与时间戳下限所标示的时间范围进行数据采集。例如,当前系统时间为8:01,则采集各业务系统中7:59?8:00之间的数据。此时,由于各业务系统8:00的记录数据已延迟到8:01进行采集;这样,虽然业务系统有时间差,但适当的延迟采集可以保证各业务系统均已记录到8:00的数据;同时,虽然有的业务系统因网络原因会延迟记录数据,而适当的延迟采集也可以尽量保证在8:01时,业务系统已记录了延迟到达的8:00的数据,从而尽量避免采集时漏掉数据,提高数据采集的完整性。
[0050]基于上述的分析,本发明的主要思路为采用延迟式的增量数据采集方案:ETL组件在数据采集周期到达时,确定本ETL组件所在系统的当前系统时间;根据确定的当前系统时间,以及预设的延迟时长计算出时间戳上限;根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限;进而,采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据;从而尽量避免采集时漏掉数据,提高数据采集的完整性。
[0051]下面结合附图详细说明本发明的技术方案。
[0052]基于上述的思路,本发明实施例提供的一种ETL组件的数据采集方法,具体流程如图1所示,包括如下步骤:
[0053 ]步骤S11: ETL组件在每次数据采集周期到达时,确定本ETL组件所在系统的当前系统时间。
[0054]具体地,安装有ETL组件的数据采集系统在每次数据采集周期到达时,确定本系统的当前系统时间。
[0055]步骤S102:ETL组件确定出各业务系统中待采集的数据表为全量数据表或增量数据表。
[0056]更优地,本发明的发明人还考虑到虽然目前各业务系统中大多数数据表均为增量数据表(或称增量同步数据表),但有时也存在全量数据表(或称全量同步数据表)的情况。对于增量数据表,本发明上述思路中所提到的延迟式的增量数据采集方法,则可以尽量避免采集时漏掉数据,提高数据采集的完整性;而对于全量数据表,目前通常的做法是进行全量数据采集,但进行全量数据采集时,则容易出现过多占用内存、1端口而导致系统卡顿、甚至死机的现象。
[0057]由此,本发明的技术方案中还提出了一种针对全量数据表进行增量数据采集的方法,即后续步骤S104所述的跃进式的增量数据采集方法,从而解决采集全量数据表时系统卡顿、甚至死机的现象。
[0058]因此,本步骤中,对各业务系统中的每个待采集的数据表,确定该数据表为全量数据表,还是增量数据表,以便于进一步决定针对该表是采取延迟式的增量数据采集方法,还是采取跃进式的增量数据采集方法。
[0059]事实上,可以预先针对各业务系统中待采集的数据表逐一判断其为全量数据表还是增量数据表,并进行记录;在本步骤中,可以根据预先的记录,确定每个待采集的数据表为全量数据表还是增量数据表。如何判断全量数据表,以及增量数据表为本领域技术人员所熟知,此次不再赘述。
[0060]步骤S103:ETL组件针对增量数据表进行延迟式的增量数据采集。
[0061]步骤S104:ETL组件针对全量数据表进行一次跃进式的增量数据采集。
[0062]上述步骤S103中提到的ETL组件针对增量数据表进行延迟式的增量数据采集的具体方法,流程如图2所示,包括如下步骤:
[0063]步骤S201:ETL组件根据当前系统时间,以及预设的延迟时长计算出时间戳上限。
[0064]本步骤中,ETL组件将当前系统时间减去预设的延迟时长,得到时间戳上限。例如,预设的延迟时长为I分钟,当前系统时间为8:01,则计算得到时间戳上限为8:00。
[0065]本领域技术人员可以根据经验或实际情况设置延迟时长;较佳地,可设置延迟时长等于或大于I分钟。
[0066]步骤S202:ETL组件根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限。
[0067]本步骤中,ETL组件将时间戳上限减去第一采集时长,计算得到时间戳下限。例如,计算的时间戳上限为8:00,预设的第一采集时长为I分钟,则计算出时间戳下限为7:59。
[0068]本领域技术人员可以根据经验或实际情况设置第一采集时长;
[0069]较佳地,可以设置第一采集时长等于上述的延迟时长,设置上述的延迟时长等于数据采集周期。
[0070]步骤S203:ETL组件采集各业务系统增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0071]本步骤中,ETL组件根据计算的时间戳上、下限,针对各业务系统中的每个增量数据表,采集该增量数据表中时间戳上限与时间戳下限所标示的时间范围内的数据。
[0072]本发明实施例的技术方案中,针对全量数据表中的数据并不是一次性地进行采集,而是进行多次的增量式采集,从而避免对内存、1端口过多占用。也就是说,则每次数据采集周期到达后,会对全量数据表进行一次增量式采集,直到该全量数据表的数据完全被米集。
[0073]上述步骤S104中提到的ETL组件针对全量数据表进行一次跃进式的增量数据采集的具体方法,流程如图3所示,包括如下步骤:
[0074]步骤S301:针对一个全量数据表,ETL组件在该次跃进式的增量数据采集过程中,确定该全量数据表已采集的次数。
[0075]本步骤中,ETL组件针对一个全量数据表在当前此次跃进式的增量数据采集过程中,首先确定之前针对该全量数据表已采集的次数。
[0076]事实上,ETL组件针对该全量数据表每进行一次跃进式的增量数据采集时,即可进行采集计数的累加;ETL组件根据记录的采集计数,确定之前针对该全量数据表进行跃进式的增量数据采集的次数。
[0077]步骤S302:ETL组件根据该全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳。
[0078]本步骤中,ETL组件根据如下公式I计算起始时间戳:
[0079]Tstart = Tmin+ff Xm (公式 I)
[0080]其中,Tstart表示起始时间戳,Tmin表示最小时间戳,W表示第二采集时长,m表示已采集的次数。
[0081 ]例如,全量数据表中的最小时间戳为2014年I月I日O时,第二采集时长为I小时,确定的已采集的次数为10,则根据上述的公式,可以计算出本次采集的起始时间戳为2014年I月I日10时。
[0082]本领域技术人员可以根据经验或实际情况设置第二采集时长;较佳地,第二采集时长可以大于上述的第一采集时长,比如,可以设置第二采集时长为30分钟或I小时。
[0083]步骤S303:ETL组件根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳。
[0084]本步骤中,ETL组件将起始时间戳与第二采集时长相加,得到终止时间戳。
[0085]例如,起始时间戳为2014年I月I日10时,第二采集时长为I小时,则计算出终止时间戳为2014年I月I日11时。
[0086]步骤S304:ETL组件采集该全量数据表中所述起始时间戳与终止时间戳所标示的时间范围内的数据。
[0087]本步骤中,ETL组件在本次数据采集周期中仅采集全量数据表中起始时间戳与终止时间戳所标示的时间范围内的数据。例如,在本次的跃进式的增量数据采集过程中,仅采集全量数据表中2014年I月I日10时至2014年I月I日11时记录的数据。这样,就限制了ETL组件在一次数据采集周期中采集的数据量,避免因为一定时间内需要采集大量的数据而占用过多内存和1端口导致系统的卡顿甚至死机。
[0088]本发明实施例的技术方案中,由于将当前系统时间延迟预设的延迟时长后作为时间戳上限,并依据此时间戳上限进行数据采集;避免了业务系统因时间差或网络延迟而没有及时记录当前时间下的数据而使得采集的数据丢失一部分当前时间的数据的情况;也就是说,当前时间记录的数据将延迟预设的延迟时长后才会被采集,从而提高数据采集的完整性。
[0089]进一步,针对现有的全量数据表采集方法容易出现系统卡顿、死机的现象,本发明实施例的技术方案中,对于全量数据表采用跃进式的增量数据采集方式,从而在一个数据采集周期中,仅采集起始时间戳与终止时间戳之间的数据,限制了采集的数据量,避免因需要采集的数据量过大,而过多占用内存、或1端口而出现系统卡顿、或死机的现象。
[0090]基于上述的方法,本发明实施例提供的一种ETL组件的内部结构,如图4所示,其数据采集装置中包括如下模块:系统时间确定模块401、第一时间戳计算模块402、第一数据采集丰旲块403。
[0091]其中,系统时间确定模块401用于在数据采集周期到达时,确定本系统的当前系统时间并发送采集通知;
[0092]第一时间戳计算模块402用于接收到所述采集通知后,根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限;根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限;较佳地,延迟时长与所述第一采集时长相等。
[0093]第一数据采集模块403用于根据第一时间戳计算模块402计算的时间戳,采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0094]更优地,本发明实施例的ETL组件中还可以包括:数据表确定模块404。
[0095]数据表确定模块404可以确定出所述各业务系统中待采集的数据表为全量数据表或增量数据表。
[0096]相应地,上述第一数据采集模块403具体用于根据数据表确定模块404的确定结果,采集所述各业务系统中的增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。
[0097]进一步,本发明实施例的ETL组件中还可以包括:第二时间戳计算模块405、第二数据采集模块406。
[0098]第二时间戳计算模块405用于接收到所述采集通知后,针对数据表确定模块404确定出的全量数据表,根据所述全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳;根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳;较佳地,第二采集时长大于上述的第一采集时长。
[0099]第二数据采集模块406用于根据第二时间戳计算模块405计算的起始、终止时间戳,采集所述全量数据表中起始时间戳与终止时间戳所标示的时间范围内的数据。
[0100]其中各模块对时间戳上、下限,或者起始、终止时间戳的具体计算可参照上述如图1-3所示的方法流程中的具体计算方法,此处不再赘述。
[0101]本发明实施例的技术方案中,由于将当前系统时间延迟预设的延迟时长后作为时间戳上限,并依据此时间戳上限进行数据采集;避免了业务系统因时间差或网络延迟而没有及时记录当前时间下的数据而使得采集的数据丢失一部分当前时间的数据的情况;也就是说,当前时间记录的数据将延迟预设的延迟时长后才会被采集,从而提高数据采集的完整性。
[0102]进一步,针对现有的全量数据表采集方法容易出现系统卡顿、死机的现象,本发明实施例的技术方案中,对于全量数据表采用跃进式的增量数据采集方式,从而在一个数据采集周期中,仅采集起始时间戳与终止时间戳之间的数据,限制了采集的数据量,避免因需要采集的数据量过大,而过多占用内存、或1端口而出现系统卡顿、或死机的现象。
[0103]本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、R0M(Read-0nly Memory,只读存储器)、RAM (Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPR0M(E1 ectricalIy ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
[0104]本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0105]本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0106]所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种数据采集方法,其特征在于,包括: 数据采集周期到达时,确定本系统的当前系统时间; 根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限; 根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限; 采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。2.根据权利要求1所述的方法,其特征在于,所述延迟时长与所述第一采集时长相等。3.根据权利要求1或2所述的方法,其特征在于,在所述数据采集周期到达后,还包括: 确定所述各业务系统中待采集的数据表为全量数据表或增量数据表。4.根据权利要求3所述的方法,其特征在于,所述采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据具体为: 采集所述各业务系统的增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。5.根据权利要求3所述的方法,其特征在于,在所述数据采集周期到达后,还包括: 针对所述各业务系统中的全量数据表,进行一次跃进式的增量数据采集; 其中,在该次跃进式的增量数据采集过程中,确定所述全量数据表已采集的次数; 根据所述全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳; 根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳; 采集所述全量数据表中所述起始时间戳与终止时间戳所标示的时间范围内的数据。6.根据权利要求5所述的方法,其特征在于,所述第二采集时长大于第一采集时长。7.一种ETL组件,其特征在于,包括: 系统时间确定模块,用于在数据采集周期到达时,确定本系统的当前系统时间并发送采集通知; 第一时间戳计算模块,用于接收到所述采集通知后,根据所述当前系统时间,以及预设的延迟时长计算出时间戳上限;根据计算出的时间戳上限,以及预设的第一采集时长计算时间戳下限; 第一数据采集模块,用于采集各业务系统中所述时间戳上限与时间戳下限所标示的时间范围内的数据。8.根据权利要求7所述的ETL组件,其特征在于,还包括: 数据表确定模块,用于确定出所述各业务系统中待采集的数据表为全量数据表或增量数据表。9.根据权利要求8所述的ETL组件,其特征在于, 第一数据采集模块具体用于根据所述数据表确定模块的确定结果,采集所述各业务系统中的增量数据表中所述时间戳上限与时间戳下限所标示的时间范围内的数据。10.根据权利要求8所述的ETL组件,其特征在于,还包括: 第二时间戳计算模块,用于接收到所述采集通知后,针对所述数据表确定模块判断出的全量数据表,根据所述全量数据表中的最小时间戳、预设的第二采集时长,以及确定的已采集的次数,计算起始时间戳;根据所述起始时间戳,以及所述第二采集时长,计算终止时间戳; 第二数据采集模块,用于采集所述全量数据表中所述起始时间戳与终止时间戳所标示的时间范围内的数据。
【文档编号】G06F17/30GK105893529SQ201610195446
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】杨佳浩, 刘永华, 鲍大磊
【申请人】乐视控股(北京)有限公司, 乐视云计算有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1