增量数据抽取装置和增量数据抽取方法

文档序号:6567240阅读:305来源:国知局
专利名称:增量数据抽取装置和增量数据抽取方法
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种增量数据抽取装置和一种增量数据抽取方法。
背景技术
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节,快速、准确、高效地找到业务系统中变化的数据并抽取到数据仓库中,是整个数据抽取中最能影响抽取效率的,进行抽取的各种场景包括抽取修改的财务凭证数据;抽取修改的业务单据;抽取新增的业务数据;找到删除的业务数据。
ERP等业务系统中很多表的数据量在千万行以上,每天需要抽取到数据仓库,每张表抽取的数据量每天也有几万到十几万,而且存在修改之前已经审核甚至记账的数据,要实现增量抽取,关键是如何准确快速的捕获变化的数据。优秀的增量抽取机制要求ETL能够将业务系统中的变化数据按一定的频率准确地捕获到,同时不能对业务系统造成太大的压力,影响现有业务。
在传统的方法中,虽然存在多种机制处理增量抽取,但这些方式都存在明显缺点, 如下表所示
权利要求
1.一种增量数据抽取装置,其特征在于,包括关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。
2.根据权利要求1所述的增量数据抽取装置,其特征在于,所述增量数据查找模块从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。
3.根据权利要求2所述的增量数据抽取装置,其特征在于,所述关键信息还包括所述数据的业务时间,所述增量数据查找模块还从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量, 以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。
4.根据权利要求1所述的增量数据抽取装置,其特征在于,所述增量数据抽取模块还为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。
5.根据权利要求1至4中任一项所述的增量数据抽取装置,其特征在于,所述增量数据查找模块还将所述增量数据的关键信息记录预设的增量数据表中;所述增量数据抽取模块根据所述增量数据表,来抽取所述增量数据。
6.一种增量数据抽取方法,其特征在于,包括步骤202,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;步骤204,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;步骤206,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。
7.根据权利要求6所述的增量数据抽取方法,其特征在于,所述步骤204具体包括从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。
8.根据权利要求7所述的增量数据抽取方法,其特征在于,所述关键信息还包括所述数据的业务时间,所述步骤204还包括从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。
9.根据权利要求6所述的增量数据抽取方法,其特征在于,所述步骤206还包括为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。
10.根据权利要求6至9中任一项所述的增量数据抽取方法,其特征在于,所述步骤 204还包括将所述增量数据的关键信息记录预设的增量数据表中;所述步骤206具体包括根据所述增量数据表,来抽取所述增量数据。
全文摘要
本发明提供一种增量数据抽取装置和一种增量数据抽取方法,其中,增量数据抽取装置包括关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块,根据所述增量数据的关键信息的标识,从业务数据库中抽取所述增量数据。通过本发明,利用时间戳可以有效地获取增量数据段的信息,进行有针对性的抽取,可以大幅提高抽取效率。
文档编号G06F17/30GK102521225SQ20111030331
公开日2012年6月27日 申请日期2011年9月29日 优先权日2011年9月29日
发明者姚健, 李进闯 申请人:用友软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1