用于将数据加载到时态数据仓库的方法和系统的制作方法

文档序号:6494810阅读:267来源:国知局
用于将数据加载到时态数据仓库的方法和系统的制作方法【专利摘要】披露的系统包括时态数据仓库和可操作从而在该系统上运行的平台无关的时态数据仓库加载应用程序。加载应用程序将源自进入数据的时间戳数据与集合运算符的关系代数一起使用,从而识别在进入数据和先前存储在数据仓库内的数据之间的净变化并将其排序。加载应用程序以对数据仓库正常操作相对小的干扰将已识别并排序的净变化加载到数据仓库。优化方案,包括但不限于将工作负载不同分区到并行流是经元数据可选择的。【专利说明】用于将数据加载到时态数据仓库的方法和系统【
技术领域
】[0001]本披露的领域一般涉及计算机数据仓库(CDW),并且更具体涉及用于时态规格化数据仓库的元数据驱动数据捕捉的方法和系统。【
背景技术
】[0002]存在不借助于顺序法的用单个通用设计的进入数据的快速加载和时间序列变化量的需要。顺序法一般不是用于初始化和与较高量进入数据事件一起使用的有效措施。另夕卜,具有无关于接口类型,有时减少检测在数据内的变动的密集预处理,和/或确保唯一有效时限以使得能够为每个目标表格产生候选行的加载设定的需要。最终,因为与数据存储关联的成本,所以具有识别所有类型的数据变动并避免在授权时间戳(有效时间)之后加载没有新内容的新数据行。这样的实践可以通过在时限内压缩连续重复行的数据帮助减少存储使用。[0003]当前,通常在大型外部应用服务器上运行的复杂定制数据加载程序是已在加载时态数据仓库的尝试中实施的解决方案。这样的程序通过主关键字串行处理并应用数据,这可以导致长运行时间和昂贵的、对目标表格相对干扰的更新。在一些实例中,为连续支持用户,两组目标表格使用并在加载完成时交换。然而在这样的系统中,通常已在数据库中的一些数据移除,与进入数据一起在应用服务器上外部处理并且重加载从而实现数据加载,这对网络和数据库进一步施压。其他已知现有解决方案也仅趋向于预期的解决方案而不是所有可能解决方案,在未预期情况(例如在主关键字内的有效时间连接点(timetie))下破坏、放弃加载或拒绝数据。[0004]其他已设想解决方案一般具有其他缺点。例如,由于开发成本,因此被硬编码从而接受特别类型进入数据并且提取目标模式(schemas)的设计是不希望的。进一步地,维护成本可以关于寻址主关键字或属性何时改变成接口的数据源、数据目标或方法。提取、变换和加载(ETL)工具用来在服务器上数据库之外执行工作是一个可能的解决方案,但低效并可以受网络流量影响。当使用在由数据仓库广泛使用的大规模并行处理(MPP)架构上使用外部的或每次一行的解决方案时,在已设想解决方案中效率损失是特别巨大的。同样,私有数据库工具需要专门知识并且不可移植到其他平台(例如OraclePL/SQL)。这些解决方案对于可以近实时提出的较大量数据是低效的,不可能非侵入加载并且为初始化或大量数据需要不同编码以实现可接受的性能。【
发明内容】[0005]在一个方面中,提供用于将进入数据集加载到时态数据仓库(temporaldatawarehouse)的系统。该系统包括存储装置和耦合到存储装置的处理器单元。存储装置包括时态数据仓库和进入数据集。处理器单元经编程将进入数据集划分为包括第一分区和第二分区的多个分区(partition)。多个分区中的每个分区包括多个数据记录。处理器也经编程将第一分区输入到预加载表、将第二分区输入到预加载表并将预加载表应用到时态数据仓库。[0006]在另一方面中,提供用于将进入数据集加载到时态数据仓库的方法。该方法包括由计算装置将数据记录划分为包括第一分区和第二分区的多个分区。第一分区和第二分区由计算装置输入到预加载表。预加载表由计算装置应用到时态数据仓库。[0007]在更另一方面中,提供计算机程序产品。计算机程序产品包括非暂时性计算机可读介质,其具有在其上实施的用于以净变化数据(netchangedata)加载到数据仓库的计算机可执行指令。当由至少一个处理器执行时,计算机可执行指令导致处理器将进入数据集划分为包括第一分区和第二分区的多个分区。多个分区中的每个分区包括多个数据记录。计算机可执行指令也导致将第一分区输入到预加载表、将第二分区输入到预加载表并将预加载表应用到数据仓库。【专利附图】【附图说明】[0008]图1是计算机系统的简化框图。[0009]图2是计算机网络的框图。[0010]图3是图解示范变动数据捕捉过程的流程图。[0011]图4是图解示范分区加载过程的流程图。[0012]图5是图解示范数据应用过程的流程图。[0013]图6是与在图4中示出的步骤100关联的数据流图。[0014]图7是与在图4中示出的步骤101关联的数据流图。[0015]图8是与在图4中示出的步骤102关联的数据流图。[0016]图9是与在图4中示出的步骤103关联的数据流图。[0017]图10是与在图4中示出的步骤104关联的数据流图。[0018]图11是与在图4中示出的步骤105关联的数据流图。[0019]图12是与在图4中示出的步骤106关联的数据流图。[0020]图13是与在图4中示出的步骤107关联的数据流图。[0021]图14是与在图4中示出的步骤108关联的数据流图。[0022]图15是与在图4中示出的步骤109关联的数据流图。[0023]图16是与在图4中示出的步骤110关联的数据流图。[0024]图17是与在图4中示出的步骤111关联的数据流图。[0025]图18是与在图4中示出的步骤112关联的数据流图。[0026]图19是与在图5中示出的应用步骤202关联的数据流图。[0027]图20是与在图5中示出的应用步骤203关联的数据流图。[0028]图21是与在图5中示出的应用步骤204关联的数据流图。[0029]图22是与在图5中示出的应用步骤205关联的数据流图。[0030]图23是与在图5中示出的应用步骤206关联的数据流图。[0031]图24是示范计算装置的框图。【具体实施方式】[0032]实施例在此关于变动数据捕捉(CDC)过程描述。如在此使用,“CDC”指代捕捉变动并将其应用到时态数据仓库的过程。到CDC过程的输入、进入数据集可以已变换从而匹配目标仓库的数据模型(例如规格化的、业务的或自然的关键字),但没有时态处理例如时间排序、时态规格化和/或解析时态碰撞。进入数据集可以已经加载到数据库系统,以使其可由⑶C过程直接访问。[0033]本披露可以在计算机码或机器可用指令的一般背景下描述,该计算机码或机器可用指令包括由计算机或其他机器例如个人数据助理或其他手持装置执行的计算机可执行指令例如程序模块。一般地,包括路线、程序、对象、部件、数据结构等的程序模块涉及执行特别任务或实施特别抽象数据类型的代码。本披露可以在各种系统配置中实践,包括手持装置、消费者电子设备、通用计算机、更专用的计算装置等。本披露也可以在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理装置执行。[0034]所描述系统可操作从而关于一组进入数据自身和现有数据仓库分析可以称为进入数据集的该组进入数据,使用关系代数集运算符与已存储在数据仓库内的数据比较将净变化数据识别并排序,并向数据仓库应用更新。进入数据集包括可以表现源数据库的快照的多个数据记录(例如在时间上某点的在数据库中所有数据记录)和/或已对源数据库执行的多个消息或事务(例如插入、更新和/或删除)。[0035]为实现这样的方法,对应于数据仓库的软件代码例如结构化查询语言(SQL)代码可以在这里描述的软件构建(例如编译)时、在软件部署时和/或在元数据(例如数据库结构)修订时生成。每当时间数据加载到数据仓库时,已生成代码可以然后由系统执行。在一些实施例中,已生成代码由将已存储代码存储在数据库中的一个或更多已存储规程(例如在数据库中存储并由其执行的功能代码)产生。在数据加载期间,检索已生成语句并对进入数据执行。[0036]将进入数据加载到数据仓库的过程的性能例如执行时间和/或计算资源利用可以使用一个或更多最优化选项来改善。计算资源利用可以无限制包括处理器利用、存储器利用和/或网络利用。最优化选项可以包括例如将进入数据分区和分离处理每个分区,在将数据应用到目标表格之前将进入数据输入到可变表(volatiletable),当进入数据不需要时从目标表格比较过滤历史,以及将数据时态地规格化的方法。[0037]在此描述的实施例涉及一般元数据驱动时态数据仓库加载设计,该设计包括产生数据加载代码的SQL代码生成器。当执行时,数据加载代码可以有效处理,并将任何量(初始加载、迁移、每日的、没小时的)与任何类型的源系统数据(拉动或推动,新或旧数据)加载到规格化时态数据仓库,基于在每个表格的主关键字中具有有效开始时间戳来识别净变化信息并将其排序到时态设计,并且仅使用set-SQL语句填充对应有效结束时间戳或等效时限,从而产生有效时限的等效。这样的过程有时共同称为变动数据捕捉(CDC)。[0038]已披露时态数据仓库加载设计通过关于一组进入数据自身并关于现有数据仓库分析该进入数据从而确定净变化数据来操作。适当有效时间排序(时态设计)然后分配并有效应用到新排序行,并且更新到仅使用ANSISQL在目标数据仓库中定义时限的结束时间戳。该过程预生成SQL语句(例如插入和时态更新),并且当加载数据时完全在数据仓库数据库内检索并执行SQL。[0039]在此描述实施例的示范技术效果可以无限制包括(a)将进入数据集划分成包括第一分区和第二分区的多个分区,其中该多个分区的每个分区包括多个数据记录;(b)基于哈希函数(hashfunction)和预定量的分区划分进入数据集;(c)将第一分区和第二分区循序或并行(例如同时)输入到预加载表;(d)将预加载表应用到时态数据仓库;(e)将分区输入到对应可变表(volatiletable);(f)从可变表复制分区到预加载表;(g)识别第一分区中的数据记录,该数据记录包括等于先前输入数据记录的非关键字段的除时间戳之外的多个字段;(h)当输入第一分区到预加载表时排除已识别记录;(i)基于检测到在时态数据仓库中的有效数据记录不与在进入数据集中的数据记录关联,执行有效数据记录的隐删除(implicitdelete);(j)确定与进入数据集中第一数据记录关联的最早源时间戳;(k)识别一主关键字组,该主关键字组表示与刚好在最早源时间戳之前的源时间戳关联的时态数据仓库中的数据记录,以及与在最早源时间戳之后的源时间戳关联的时态数据仓库中的一个或更多数据记录;以及(I)基于已识别组的主关键字输入第一和第二分区。[0040]实施例可以在下面关于特别应用来描述,例如存储关于材料清单(BOM)的信息和/或关于零件(例如机械设备零件)的信息的数据仓库。设想这样的实施例可应用于任何时态数据仓库。[0041]图1是包括服务器系统12和多个客户端子系统的示范系统10的简化框图,该多个客户端子系统也称为客户端系统14,连接到服务器系统12。如在下面更详细描述的计算机化建模和分组工具存储在服务器系统12中,并且可以由在客户端系统14(例如计算机)中的任何一个的请求者访问。如在图1中图解,客户端系统14是包括网络浏览器的计算机14,以使服务器系统12可使用互联网访问客户端系统14。客户端系统14通过包括网络例如局域网(LAN)或广域网(WAN)、拨号连接、电缆调制解调器和特殊高速ISDN线路的许多接口互连到互联网。客户端系统14可以是能够互连到互联网的任何装置,包括基于网络的电话、个人数字助理(PDA)或其他基于网络的可连接设备。数据库服务器16连接到含有关于各种事物的信息的数据库20,如在下面更详细描述。在一个实施例中,中心化数据库20存储在服务器系统12上,并且可以由在客户端系统14中的一个的潜在用户通过客户端系统14中的一个登录到服务器系统12上来访问。在可替换实施例中,数据库20远离服务器系统12存储并且可以是非中心化的。[0042]图2是系统22的示范实施例的扩展框图。系统22仅是合适计算环境的一个例子,并且不意图提出与本披露的使用或功能性的保护范围有关的任何限制。系统22不应解释为具有涉及在此图解部件中的任何一个或组合的任何依赖或需求。使用与在图1中使用相同的参考号在图2中识别等同于系统10的部件(在图1中示出)的在系统22中的部件。系统22包括服务器系统12和客户端系统I。服务器系统12进一步包括数据库服务器16、应用服务器24、网络服务器26、传真服务器28、目录服务器30和邮件服务器32。磁盘存储单元30(其包括数据库20)耦合到数据库服务器16和目录服务器30。服务器16、24、26、28、30和32在局域网(LAN)中耦合。另外,系统管理员的工作站38、用户工作站40和监控者的工作站42耦合到LAN36。可替换地,工作站38、40和42使用互联网链路耦合到LAN36,或通过内部网连接。在一些实施例中,数据服务器16耦合到其他装置例如目录服务器30不可访问的磁盘存储单元34。[0043]每个工作站38、40和42是具有网络浏览器的个人计算机。尽管在工作站执行的功能通常图解为在分别的工作站38、40和42执行,但这样的功能可以在耦合到LAN36的许多个人计算机中的一个执行。工作站38、40和42图解为仅与分离功能关联从而促进不同类型功能的理解,该不同类型功能可以由具有到LAN36的访问的个人执行。[0044]服务器系统12经配置使用互联网提供商(ISP)互联网连接48通信耦合到包括雇员44的各种个人,并耦合到第三方例如客户/承包商46。在示范实施例中的通信图解为使用互联网执行,然而,任何其他广域网(WAN)型通信可以在其他实施例中利用,即系统和过程不限于使用互联网实践。另外并且除WAN50之外,局域网36可以代替WAN50使用。[0045]在示范实施例中,具有工作站54的任何授权个人可以访问系统22。客户端系统中的至少一个包括位于远程位置的管理员工作站56。工作站54和56是具有网络浏览器的个人计算机。同样,工作站54和56经配置与服务器系统12通信。此外,传真服务器28与包括使用电话链路的工作站56的远程定位客户端系统通信。传真服务器28经配置也与其他客户端系统和/或工作站38、40和42通信。[0046]利用图1和图2的系统,在不中断用户查询的情况下经规划小批量运行实现高效率和相对非侵入的近实时加载。过程基于标准ANSISQL,因此其可应用于任何数据库平台,对数据库管理系统(DBMS)能力起杠杆作用,特别对于大规模并行处理(MPP)架构提供超线性的可扩展性,并且不需要在外部服务器上的数据处理(例如,SQL可以从任何地方调用)。在一个实施例中,通过将主关键字定义和表名称用作参数,数据仓库加载在运行时间完全元数据驱动。另一优点是模式变动不需要变动数据捕捉系统的重编译或重启,并且操作元数据可以在任何时间变动(例如,显式或隐式删除(implicitdelete)形式、分区的量和/或并行度的水平)。否则,任何接口类型可以适应于单个程序,并且在数据模型内的全部表格(有效时间包括在每个主关键字中)可以适应于单个程序。仅需要候选行作为输入(列+有效时间戳),若有任何事物变动,不需要该变动的识别作为到变动数据捕捉系统的输入。对于快照接口,不需要删除的识别。在有效时间上的联结可以用在数据集和多个调用内并跨该数据集和多个调用的极短排序时间在主关键字内破坏。追溯和/或历史更新通过更新进入和现有数据的时间排序来执行。[0047]因为现有解决方案有时定制成接口类型并通常为每个表格中每列完全硬编码,所以上面提到的改善在现有解决方案上实现。另外,时态排序的现有途径是同时单行的,并且不是经set-SQL的全体(例如使用关系代数集运算符)。因此这些解决方案不与变动数据捕捉系统一样超线性缩放。例如,在此描述的实施例可以在小于处理100行所需要时间10倍的时间中处理1,000行。在示范实施例中,在处理期间没有数据从数据库移除,并且变动数据捕捉系统的调用形式可以是外部的(例如Perl)或内部数据库规程。[0048]所描述实施例促进减小并潜在消除与识别变动(例如插入、更新、删除、重编和/或历史更新)和将变动应用到时态数据仓库关联的开发成本,该时态数据仓库经开始-结束有效时间戳定义的时限保留历史。有效且非常可缩放的设计被描述,用set-SQL对DBMS引擎和架构起杠杆作用,不同于使用低效游标(同时一行)、外部数据加载服务器并生成关联网络流量的现有解决方案。当使用包括但不限于最终用户锁定法和经SQL修饰符使用时态历史的各种查询方法,经为效率最大化的非常迅速的set-SQL应用事务(在DBMS内最小化工作负载并最大化吞吐量的最终阶段和目标的相同结构)加载时,最低侵入设计允许连续查询。[0049]如在此进一步描述,实施例可以至少部分实施为SQL生成器的序列,该SQL生成器产生并存储SQL语句以便通过查询数据库编目(例如对于列名称和基础数据类型信息)和主关键字元数据表来加载数据。预生成SQL可以在运行时间对进入数据执行。下面描述的步骤序列将候选行分析、准备并然后在单个有效事务中应用到目标数据库。这些步骤可以在带有访问的任何编程、描述或规程语言中实施,从而对数据库执行SQL发生器、取得导致的SQL语句,并且然后对数据库执行已取得状态。[0050]以下包括在此利用的某些术语和缩写词的定义。在线事务处理(OLTP)数据库是通常包括规格化数据库结构的基于事务的数据库。例如,与在所引用数据记录中的复制相反,在OLTP中的数据记录(例如在表格中的行)可以包括对另一数据记录(例如在另一表格中的行)的引用。进一步地,OLTP数据库可以强制引用完整性从而确保这样的引用有效(例如涉及现存数据记录和/或特别类型的数据记录)。[0051]主关键字(PK)是用于目标表(例如核心表、非核心表或派生层(derivedlayer))的如在数据建模工具中定义的完全主关键字。如在此使用,“非核心”表是在此表现为目标数据库层的规格化时态目标表。PK包括称为SOURCE_START_TS的源系统开始时间戳列(在数据库视图CDW_PK_C0LS_V中可得),其支持历史的保存。源时间戳表示在产生它的授权系统中行有效性时期的开始,并且在许多系统中可以称为产生或最后修改时间戳。在时态数据仓库中的有效时限可以表达为在此情况下包括SOURCE_START_TS并排除S0URCE_END_TS的表不时限的一对时间戳(例如,开始时间戳和结束时间戳)。[0052]PK_latest是排除通常是在线事务处理系统业务关键字(在数据库视图CDW_PK_C0LS_LATEST_V中可得)的SOURCE_START_TS的主关键字。[0053]W_table是进入数据集变换的目标。在示范实施例中,W_table包括带有省略的都表示时态时期的2对标准开始-结束时间戳,但带有存在并称为SRC_START_TS的源系统时间戳的非核心表的复制。当选项ALL_VT(在下面更详细描述)设定成Y时,W_table的易失复制可以使用。[0054]X_table是预加载表,加载到目标表的所有行的来源。X_table可以是目标表的复制,该复制带有存储分配动作(ETL指示符)的列和命名为src的代替来源的两个源时间戳的添加。[0055]目标是与带有唯一命名表格的单个数据库对应的一层计算机数据仓库,该表格表示数据仓库的范畴。非核心是目标的例子。其他潜在数据库表格层是核心(例如以第三范式或3NF完全整合)并被取得(例如预联合、聚合)。除以其他方式陈述之外,所有过程可以应用于这三层,其中所取得数据潜在源于非核心或核心表,但在调用该过程之前仍呈现为的输入。当选项ALL_VT(在下面更详细描述)设定成Y时,目标的易失复制可以使用。[0056]ALL_VT选项表示系统是否应使用易失工作表。当ALL_VT停用(例如设定成N)时,系统使用在分段数据库中的两个已生成工作表(例如W_table和X_table),该两个表格基于它们的目标副本。第三易失或非永久表格可以在这里描述的过程执行前用来加载W_table。除外部地用来变换数据集以便由⑶C过程使用的任何其他表格之外,对于每个目标表,可以具有内建到分段区域数据库的这些表格的多达三个脚本生成的变量。这些的易失复制在ALL_VT启用(例如设定成Y)时产生。这三个表格是不可以有数据库建模工具直接建模的另外表格。相反,除了在运行时间构建的可变表之外,它们可以由脚本在构建时间构建并且包括在目标构建脚本中。[0057]在示范实施例中,脚本如在图1中示出产生并命名每个表格。[0058]表I[0059]CDC共用表结构表定义Wjable:用于除显式删除、目源自建模工具的目标非核心/巳取得表定标右侧映射之外所有分段变形。义——除放弃SOURCE—END—TS、CDWSTART—TS、CDW_END_TS,将SOURCE_START_TS重命名为SRCSTARTTS+做出选择Xjable:所有目标数据的直接来源自建模工具的目标非核心/已取得表定源并从WJable或潜在外部过程义——除放弃CDW—STARTTS、加载。CDC的应用阶段仅从这CDW_END_TS,将SOURCE_START_TS里运行,添加或使用的ETL指重命名为SRC_START_TS+做出选择,将示符代码是1、O、U、DoCDCSOURCE_END_TS重命名为代码将进入数据从W_移动到SRCENDTS,将列ETL_INDICATORX—,除显式/级联删除之外(在CHAR(I)添加到表格的末端CDC调用之前完成)。CDW_PK_COLS_LATEST_V从建模工具主关键字加载,在(仅视图)DATA_LAYER上询问,通常仅使用目标,在ETL处理中取得CDW—PK—COLS—V(在基表上从建模工具主关键字加载,在的视图)DATA_LAYER上询问,通常仅使用目标,在ETL处理中取得[0060]ff_table是在调用⑶C系统之前用于除显式删除之外所有分段变形的目标表。X_table是所有目标数据的直接来源,并从W_table或在显式或隐式删除的情况下经潜在外部过程加载。CDC的应用阶段在X_table中添加或使用ETL指示符代码,例如这里在别处定义的1、O、U、D0在将数据从W_table移动到X_table,并且在控制对目标数据库的变动的最终应用之前在X_table内进一步更新时,与CDC系统关联的代码初始化或设定。[0061]在示范实施例中,当ALL_VT启用时,脚本产生并访问如在表2中示出的表格,其中TNAME对应于实际目标表名称。[0062]表2[0063]【权利要求】1.一种用于将进入数据集加载到时态数据仓库的系统(10),所述系统包含:存储装置(720),所述存储装置(720)包括时态数据仓库和进入数据集;以及处理器单元(710),所述处理器单元(710)耦合到所述存储装置并且经编程:将所述进入数据集划分为包括第一分区和第二分区的多个分区,其中所述多个分区中的每个分区包括多个数据记录;将所述第一分区输入到预加载表;将所述第二分区输入到所述预加载表;以及将所述预加载表应用到所述时态数据仓库。2.根据权利要求1所述的系统(10),其中所述处理器单元(710)经编程至少部分通过将哈希函数应用到与至少一个数据记录关联的主关键字以便产生对应于所述至少一个数据记录的哈希值,从而将所述进入数据集划分为所述多个分区。3.根据权利要求1所述的系统(10),其中所述处理器单元(710)经进一步编程在所述第一分区被预加载到所述表之后,将所述第二分区输入到所述预加载表。4.根据权利要求1所述的系统(10),其中所述处理器单元(710)经进一步编程在所述第一分区被输入到所述预加载表时,将所述第二分区输入到所述预加载表。5.根据权利要求4所述的系统(10),其中所述处理器单元(710)经编程基于确定并行输入的当前量小于并行输入的预定最大量,在所述第一分区被输入到所述预加载表时将所述第二分区输入到所述预加载表。6.根据权利要求1所述的系统(10),其中所述处理器单元(710)经编程至少部分通过以下措施输入所述第一分区和所述第二分区中的至少一个:所述分区的所述数据记录到对应于所述分区的可变表的输入;以及源自所述可变表的所述数据记录到所述预加载表的复制。7.根据权利要求1所述的系统(10),其中所述处理器单元(710)经进一步编程:在所述第一分区中识别包括除时间戳之外的多个字段的数据记录,所述多个字段等于先前输入的数据记录的多个非关键字段;在将所述第一分区输入到所述预加载表时,排除已识别的数据记录。8.根据权利要求1所述的系统(10),其中所述进入数据包括源自源数据库(20)的数据的快照,并且所述处理器单元(710)经进一步编程:检测在时态数据仓库中的有效数据记录不与在所述进入数据集中的数据记录关联;以及基于所述检测执行所述有效数据记录的隐式删除。9.根据权利要求8所述的系统(10),其中所述处理器单元(710)经进一步编程:确定与在所述进入数据集中的第一数据记录关联的最早源时间戳;以及识别表示以下内容的一主关键字组:与刚好在所述最早源时间戳之前的源时间戳关联的在所述时态数据仓库中的数据记录;以及与比最早源时间戳晚的源时间戳关联的在所述时态数据仓库中的一个或更多数据记录;以及基于已识别的主关键字组输入所述第一分区和所述第二分区。10.一种用于将多个数据记录加载到时态数据仓库的方法,所述方法包含:由计算装置(700)将所述数据记录划分为包括第一分区和第二分区的多个分区;由所述计算装置将所述第一分区输入到预加载表;由所述计算装置将所述第二分区输入到所述预加载表;以及由所述计算装置将所述预加载表应用到所述时态数据仓库。11.根据权利要求10所述的方法,其中所述第一分区和所述第二分区被并行输入。12.根据权利要求10所述的方法,进一步包含确定并行输入的当前量小于并行输入的预定最大量,其中基于所述确定将所述第一分区和所述第二分区并行输入。13.根据权利要求10所述的方法,进一步包含确定并行输入的当前量大于或等于并行输入的预定最大量,其中基于所述确定将所述第一分区和所述第二分区循序输入。14.根据权利要求10所述的方法,其中由所述计算装置(700)将所述数据划分为多个分区包含:将哈希函数应用到至少一个数据记录从而产生与所述至少一个数据记录关联的哈希值;以及基于分区的预定量将模运算符应用到所述哈希值,从而确定与所述至少一个数据记录对应并关联的分区数目。15.根据权利要求10所述的方法,进一步包含:在所述第一分区中识别包括除时间戳之外的多个字段的所述数据记录,所述多个字段等于先前输入数据记录的多个非关键字段;在将所述第一分区输入到所述预加载表时,排除已识别的数据记录。【文档编号】G06F17/30GK103460208SQ201280017308【公开日】2013年12月18日申请日期:2012年3月2日优先权日:2011年4月8日【发明者】I·A·约翰逊申请人:波音公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1