整合来自多个源的时间感知的数据的系统和方法

文档序号:8395919阅读:285来源:国知局
整合来自多个源的时间感知的数据的系统和方法
【技术领域】
[0001] 本发明总体上涉及数据整合和数据交换领域。更具体而言,本发明涉及整合来自 多个源的时间感知的数据的系统和方法。
【背景技术】
[0002] 随着可用数据,例如,监管(curated)数据库、企业数据以及因特网上公开可用数 据的数量和多样性,很少能够通过单个数据源完全包含并管理有关某一实体的信息。使来 自多个源的数据相组合或者使同一源随着时间的推移而报告的各种数据版本相组合对于 产生更加全面的理解往往具有很高的价值。例如,患者在其一生当中通常访问甚至经常同 时多个医疗专业人员/机构。尽管每一医疗机构为其患者保存医疗历史记录是很重要的, 但是使患者和医疗专业人员两者都能访问从由每个机构保存的历史导出的整合简档将具 有更高的价值。类似地,潜在的顾主将得益于使求职人员的简历与其他数据相组合,例如, 公开简档数据或者甚至先前的简历版本。
[0003] 这些示例表明数据的时间方面可能是至关重要的。例如,知道是否在同一时间段 内为用户开了具有不良相互作用的两种不同的药物是很重要的。类似地,如果不同的源报 告求职人员在同一时间段内就任多个职位,那么对于人力资源经理来说了解拥有头衔的顺 序,以推断该求职者是受到过提升、降职还是有可能提供了粉饰过的简历将是有用的。
[0004] 在整合时间感知的数据时将出现若干挑战,其中时间感知的数据是指包含诸如处 方日期的隐含时间特定的信息或者诸如实例的版本号的明确时间信息的数据。首先,与数 据相关的时间方面往往不精确。机构可以报告患者在具体的日期针对某种病症接受了治 疗。由这一信息,可以推断患者在他/她看病的当天必然已经患有了该病症,但是不知道患 者是否仍然患有该病症,或者在就诊之前或就诊之后其患有该病症多长时间。当与来自对 同一诊所或其他诊所的其他就诊信息相组合时,就有可能递增地建立起该患者的越来越精 确的医疗历史。
[0005] 其次,与常规数据整合一样,在将来自多个源的数据组合到一起时,相对于某 些指定的约束可能出现不一致性。跨越时间处理某些约束的需要更增加了复杂性(参 考C.S.Jensen等人的文章"Extendingexistingdependencytheorytotemporal databases, "IEEETrans.Knowl.DataEng. ,8(4): 563-582, 1996)。例如,尽管雇员在某时 可能真的只从顾主那里收到一个薪水包,但是如果他/她同时受雇于多个公司,那么该雇 员就可能同时收到多个薪水包。作为另一个示例,向美国证券交易委员会(SEC)提交的报 告或者公司新闻稿可能报告某位执行官在给定的某天拥有特定的头衔,但是它不会提供有 关最初拥有该头衔的时间或者在该报告或新闻稿公布之后是否仍然拥有该头衔的信息。另 一数据源(或者甚至在不同时间点上的同一数据源)可能报告所述执行官在晚于第一源报 告他/她的头衔的日期的某日受雇于所述公司。两个报告都给出不精确的信息。从该执行 官的雇佣历史能够推断出什么?应当假定他/她一直到与其职务相关的(较早)日期为止 都受雇于所述公司,还是应当支持第二源报告的(较晚)日期而忽视其值?
[0006] 在整合随着时间的推移来自多个源的有关同一实体的信息时,挑战在于,维持关 于该实体已知的各种事实的时间一致性,其中假定这样的事实是在不同的时间从不同的源 习知的,而且与这些事实相关的时间可能是不精确的。理想地,整合过程应当遵守模式约束 和跨越时间的功能相关性,并且具有幂等(idempotent)、可交换(cummutative)和可结合 (associative)特性,以确保实体的时间一致的简档,而不管习知的各个事实的顺序如何。
[0007] 当前的技术不提供这样的保证。例如,可以采用标准的双重时间(bi-temporal) 数据库来跟踪何时习知各个事实,但是其不能保证无论发生更新的顺序如何对各个事实的 最新理解都将是相同的。考虑下面的示例:
[0008]UPDATESTOCKHOLDINGSFORPORTIONOFBUSINESS_TIME
[0009] FROM' 08/23/2010'toCURRENTDATE
[0010] SETSHARES =141,
[0011] WHERENAME ='FreddyGold'
[0012] UPDATESTOCKHOLDINGSFORPORTIONOFBUSINESS_TIME
[0013] FROM' 08/20/2010'toCURRENTDATE
[0014]SETSHARES = 396043,
[0015] WHERENAME ='FreddyGold'
[0016] 如果按照这一顺序执行了更新,那么数据库将记录当前的理解是FreddyGold自 8/23起拥有396043股份的股票,但是如果使语句的顺序颠倒,那么数据库将记录当前的理 解是FreddyGold具有141份股份的股票,而这一事实自8/20起是正确的。尽管两个事实 可能处于不同的时间点上,但是仍然不清楚Freddy今天具有多少股份的股票。是第二更新 对第一更新的校正,还是只是不按次序抵达的事实?接下来将采用具体的示例探讨与一致 地整合时间感知的数据的问题相关的微妙之处和挑战。
[0017]启发性示例:图1示出了一个实际示例的简化形式,在该示例中,根据从若干源 提取的数据整合出有关FreddyGold的信息,所述源包括可通过EDGAR数据库(参见有关 EDGAR公共发行服务的SEC网站)获得的SEC提交的不同报告(表格10K和表格3/4/5)、 不同的简历版本、公司网站和可以电子方式获得的新闻文章。为简单起见,假定图1左侧所 示的每一行都表示单独的存档或版本,尽管一般而言存档或版本可能包含很多行数据。
[0018] 例如,图1中的"SEC存档"示出了从向SEC提交的7份报告获取的7个事实,它 们中的每者都指示了在2010年下半年FreddyGold持有的特定股票(0LP和BRT)的股份 数目。第一行是7/01提交的报告,其指示Freddy在7/01拥有396043份0LP股份。尽管 与该存档相关的日期只记录了已知该事实为真的日期,但是假定该存档中的数据一直到接 收到新的信息之前都为真是合理的,例如,新的信息来自第二行所示的报告,其指示Freddy 在8/25拥有13415份0LP股份。
[0019] 同时,从不同版本的公司网站和新闻文章中提取的数据包含关于Freddy的雇佣 历史的部分信息,而Freddy的不同版本的简历则给出了有关Freddy的教育和雇佣历史的 部分信息。怎样才能对给定的信息做出最佳调和,以构成时间一致的简档,从而能够了解他 的工作历史,或者他拥有多少0LP股份,例如,在8/24 ?接下来将解决对这一问题的解答。
[0020]SEC报告的第一检验指示假定Freddy在8/24拥有141份0LP股份应该是合理的, 因为第三份报告指示自8/23日起就是这种情况。但是,在较晚的日期8/30提交的第四报 告和第五报告指示Freddy在8/20日具有1322179份OLP股份,这一数字只是在8/26变为 了 396043份股份。那么,Freddy在8/24拥有141份股份还是1322179份股份?由于第四 存档和第五存档是在较晚的日期报告的(即,是"校正"较早信息的更近的信息),因而假定 Freddy在8/24拥有1322179份股份应该是是合理的。如果向有关其BRT股票持有的第六 存档和第七存档应用相同的逻辑,那么Freddy在7/14必然拥有1820份BRT股份。或者, 如果报告是简单地不按次序抵达的,那么Freddy在8/24拥有141份0LP股份,而在7/14 拥有〇份BRT股份。
[0021] 上文的论述带来了一些微妙之处,它们可能会在根据这一示例中隐含的约束下解 释和整合时间特定的信息时出现;Freddy在任何时间点上只能持有一个股份数量的具体 股票。因而,在出现矛盾时(即,当Freddy在某一时间点上持有一股票的至少两个不同的 可能股份数目时),必须解决冲突并根据Freddy的整合简档确定"正确"的股份数目。图 1的右侧示出了一种可能的解释。如下文将说明的,取决于如何对给定的日期加以解释,对 Freddy的股票持有的其他解释也是可能的。
[0022] 这一示例表明需要一种能够支持用于整合时间感知的数据的不同的策略的可扩 展框架。不论用于解析冲突信息的策略是什么,整合的结果(时间的模数语法表达)对整 合数据源的次序都是不可知的。
[0023] 下述讨论将描述用于数据整合和数据交换的已知现有技术。
[0024] 数据整合和数据交换尽管在过去的几十年当中数据整合和数据交换取得了巨大 的进步,但是用于数据整合和数据交换的现有的技术和系统对于时间都具有很大的不可知 性,因而不能将它们直接用于构建令人满意的随着时间推移的整合档案。实际上,假定将所 有提取出的数据都置于准备好进行整合的格式当中,还是不能采用现有技术的数据整合和 数据交换系统来自动导出对FreddyGold的纵贯简档的一致理解,例如,如图1的右侧和图 2B所示的内容。将需要不可忽视的扩展,尤其是利用特设(adhoc)功能来在已知约束下建 立各个数据源的时间一致视图。H.Zhu等人的文章"Effectivedataintegrationinthe presenceoftemporalsemanticconflicts, "Inti.Symp.onTemporalRepresentation andReasoning,TME,pp. 109-114, 2004提供了对跨越时间整合数据时必须解决的三种类 型的时间异类性的讨论,除此之外,在本领域中的现有技术当中一直都没有对跨越时间整 合和交换数据问题给出过系统并且彻底的解决。
[0025] 需要对能够用于跨越时间整合和交换数据的数据交换系统进行系统性扩展。数 据交换规范是一个三元组(S,T,2),其中,S是源模式,而T是目标模式,并且2是模式映 射集合,它们是两种模式的实例之间的关系的高级声明规范。在给定了S的源实例I的情 况下,数据交换的目标是具体化T的目标实例J,使得I和J一起满足2。数据交换系统 的一般架构由采取所述规范并将其编译成可执行代码的模块构成。可以将所述可执行代 码应用于I,以获得J(例如,参见L.Popa等人的文章"TranslatingWebData, "VLDB,pp 598-609,2002)。也可以通过相对于所述规范对I应用追赶(chase)过程而获得所述目标 实例。在数据交换框架内经常隐含的基本假定是将目标实例创建为由数据交换的结果获得 的事实的合并(union)。在所述交换之后,所有目标事实被合并以获得J,其中,根据集合合 并,将所有等同事实的集合融合为一个。当在目标当中存在功能依赖性(被建模为目标等 同性生成依赖性)的情况下出现矛盾事实
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1