研究数据仓储库系统与方法

文档序号:6433892阅读:194来源:国知局
专利名称:研究数据仓储库系统与方法
技术领域
本发明涉及一种科学信息的数据仓储库。具体说,本发明涉及一种供研究组使用的、用于自动获得并维护科学参考信息的数据仓储库系统和方法。
背景技术
现代科学研究,尤其是在生命科学领域里的研究,一般要涉及由庞大的多学科研究组使用大量外部参考数据的问题。在生命科学研究的情况下,这种外部参考数据可以包括诸如美国国立卫生研究所保存的人类基因组信息、瑞士蛋白质数据库内保存的蛋白质信息等,而能否及时、准确和完整地访问外部参考数据,可以意味着研究项目的成功或失败的差别。而且,即使对必要的数据的访问是可以利用的,但如果延误了对这种数据的访问则会造成研究的延误,从而导致增加经济开支和/或损失。
为此,许多研究组花费大量时间和力量来确保他们能及时访问必要的参考数据。不幸的是,访问外部数据库内的参考数据可能会是麻烦而低效的,不仅是因为通过公共网络传输数据所存在的困难和延时问题,而且也是因为外部数据很少是为一个特定的研究组以最佳方式编排或格式化的。而且在这种外部参考数据库内的数据模型和/或数据模式随着时间的推移而变化,所以要求研究组不断地保持对最新参考信息的访问。
还存在着其它一些问题。例如,研究人员通过公共数据网络查询外部参考数据会导致与研究有关的重大安全和知识产权问题。例如一个竞争研究组可能会“嗅出”一个公共网上的数据传输情况以研究第一研究组的数据查询情况,从而确定所述第一研究组的研究方法、研究方向和研究状况。这可能会导致在学术领先地位、知识产权以及其它商业或专业上的损失。
此外,研究组成员对外部参考数据的注解和/或更新也难以、甚至不可能为研究组的其他成员所利用,从而使研究组成员之间的必要合作变得困难。

发明内容
本发明的目的是提供一种新的数据仓储库系统和方法,以消除或减轻现有技术的至少一种缺点。
依据本发明的第一个方面,提供了一种用于向科学研究组提供来自外部源的参考数据的数据仓储库系统,所述数据仓储库系统包括一个联合数据访问机构,可对其操作以联合来自外部源的参考数据;一个内容管理引擎,可对其操作以从研究组接收一组数据检索策略并执行所述策略,以便与联合数据访问机构合作,按照这些策略检索参考数据;一个本地数据存储器,用于存储和管理由内容管理引擎所检索到的外部参考数据的副本,所述本地数据存储器还可操作以对研究组发出的数据查询进行响应,以从副本向研究组返回参考数据,并接收和维护由研究组用参考数据副本所创建的注解和/或更新。
在优选情况下,必要时外部参考数据可以通过数据网络从外部数据库检索,也可从物理媒体的拷贝检索。而且,也是在优选情况下,数据检索策略包括下面各项中的至少一项对感兴趣的外部数据库的指示;感兴趣的数据的类型;为进行更新和/或添加而检查外部数据库的时间间隔;被检索参考数据所需的存储属性。而且在优选情况下,当本地数据存储器上所存储的复制参考数据被新的参考数据取代时,本地数据存储器和内容管理引擎就在保持新参考数据的同时保持对原始复制参考数据及原始参考数据的注解和/或更新。
依据本发明的另一个方面,提供了一种用于向科学研究组提供来自外部源的参考数据的数据仓储方法,所述方法包括以下步骤(1)确定一组参考数据检索策略;(2)按确定的时间间隔执行参考数据检索策略以检索所需的参考数据;(3)在本地存储器上对检索到的所需参考数据进行联合、组织和存储;(4)对存储在本地存储器上的参考数据进行查询和访问;(5)从研究组接收对存储在本地存储器上的参考数据的注解和/或更新,并将所接收到的注解和/或更新存储到本地数据存储器上。
在优选情况下,所述方法还包括研究组不时地修正所述一组数据检索策略的步骤。而且在优选情况下,当步骤(2)对以前数据的更新进行检索时,步骤(3)还包括对以前检索到的数据及其更新进行维护和组织的步骤,而且任何对以前检索到的参考数据的注解和更新也与更新的数据存储在一起。
依据本发明的又一个方面,提供了一种产品,所述产品包括一个计算机可用的媒体,用于使计算机系统向科研组提供来自外部源的一个参考数据仓储库,所述产品具有用于使计算机系统接收一组确定的参考数据检索策略的计算机可读程序代码装置;用于使计算机系统按确定的时间间隔执行参考数据检索策略以检索需要的参考数据的计算机可读程序代码装置;用于使计算机系统在本地存储器上对检索到的所需参考数据进行联合、组织和存储的计算机可读程序代码装置;用于使计算机系统处理查询,以访问本地存储器上所存储的参考数据的计算机可读程序代码装置;用于使计算机系统接收对本地存储器上所存储的参考数据的注解和/或更新,并将所接收到的注解和/或更新存储到本地数据存储器上的计算机可读程序代码装置。
附图简要说明现在仅以举例说明的方式,参照附图对本发明的优选实施例加以说明,其中

图1显示了用现有技术向科研组提供参考数据的方法;图2显示了依据本发明向科研组提供参考数据的数据仓储库系统;图3显示了依据本发明的数据仓储方法流程图。
具体实施例方式
图1显示了用现有技术向科研组成员提供的一种访问外部数据的方法。在图中,按两种方式之一从外部数据库24向研究组20提供参考数据。根据数据库的情况,可以通过磁带、盒式磁盘等物理媒体,向研究组20提供数据拷贝,这在图中用数据库24与研究组20之间的虚线表示。另一种方式是通过数据网络32从外部数据库24向研究组20提供研究数据,所述数据网络可以是专用数据网络,或者是更常用的像因特网那样的公共数据网。
在图1的方法中,优选使用了可提供联合访问的机构36以访问数据库24。机构36可以是任何可以对不同的数据提供联合访问的合适的机构,例如IBM所推销的DB2数据库产品,还使用了研究应用程序40,使研究组20能够正确查询并接收数据库24的回应。
图1所示的现有技术方法存在几个问题。例如,如上所述,从研究组20对外部数据库的查询可通过公共网络,因此有可能被第三方看到,从而“嗅出”或分析在公共网络上发送的信息。然后第三方可能会确定研究组20所用的研究方法、研究状况以及/或其它有重大经济价值的保密信息,这些活动可能会使研究组20无法为其研究获得专利或其它保护。
另一个问题是,现有技术方法是烦琐而低效的,研究组20需要使用大量资源来保证定期获得所需信息,并将其再格式化成研究组20所需要的格式。而且研究组20的成员不能对参考数据创建注解和/或更新,因此研究组20的成员之间无法合作。此外,由于要通过负载大、服务用户数量多的繁忙数据网络32访问数据库,对远方数据库的访问可能很慢,因此,在完成访问之前会延误研究组20的研究工作。
相比之下,图2则显示了依据本发明一个实施例的数据仓储库系统。数据仓储库系统在图2中一般标记为100,包括一个与联合数据访问机构108接口的内容管理引擎104以及本地数据存储器112。联合数据访问机构108可以是任何合适的机构,例如IBM所推销的DB2产品那样可以对不同的数据提供联合访问的机构。
内容管理引擎104可以包括一个或多个计算引擎,例如运行IBMAIS和/或Linux的IBM p系列服务器,可对其操作以与合适的程序,例如IBM的DB2 Content Manager或其它提供一组如本文所述的等值功能的程序一起运行,检查和检索外部参考信息。
使用系统100的研究组116为内容管理引擎104确定外部参考数据检索策略,这些策略确定了感兴趣的外部数据库和感兴趣的其它数据源、感兴趣的信息类型、为进行更新和/或添加而进行外部参考信息检查的时间间隔以及信息的属性,例如外部信息是否在系统100内显式复制、这类信息的更新优先级等。
这些外部参考数据检索策略被研究组116优选使用XML(可扩展标记语言)定义,存储在内容管理引擎104中并由内容管理引擎104执行。内容管理引擎104通过联合数据访问机构108执行这些检索策略,以便从感兴趣的外部数据库120中检索所需的信息。如图所示,检索可以通过专用的或因特网那样的公共数据网124进行,并且(或者)可通过定期接收和访问盒式磁盘、磁带信息库或提供给研究组116的其它物理媒体的方法进行。
内容管理引擎104执行外部参考数据检索策略时,与本地数据存储器112互操作,以便对已经复制在本地数据存储器112内的信息进行更新,将新的信息复制到本地数据存储器112内,或将本地数据存储器112内过时的或有问题的信息删除或进行适当的标注。本地数据存储器112可以组合的方式包含诸如IBM公司的DB2数据库产品等任何合适的数据管理系统,以及诸如IBM公司的企业存储服务器等任何合适的数据存储装置或系统。
正如在此处的应用,术语“本地”并不是指地理位置而是指逻辑位置。具体而言,“本地”系指研究人员访问数据存储器无须通过公共网络在研究人员和数据存储器之间发送数据。尽管预计研究组116将通过专用数据网访问本地数据存储器112,但任何合适的访问方法,包括虚拟专用网络或其它在公共网络上传输的保密链接(如SSL,SSH会话,等),对于数据存储器来说,正如此处术语的含义,都被视作“本地”。
使用现有技术方法时,研究组成员要通过联合数据库或其它方式直接查询外部数据库,而本发明则不同,研究组116的成员通过一个或多个常规研究应用程序128来查询本地数据存储器112并与之互动。因此,研究组116的查询一般不通过数据网124,但被应用到本地数据库112。
而且,本地数据库112内存储的数据可以作为联合数据而存储,从而使查询更快地进行,因为以联合状态存储的数据可以为研究组116的利益和使用进行有效的优化。此外,将查询应用于本地数据库112的速度一般要比类似的查询通过数据网络124传输的速度快得多。
本发明另一个被认为很重要的优点是,研究组116具有对本地数据库112内的复制数据和联合数据进行注解、修改和添加的能力。利用一个或多个研究应用程序128,研究组116的成员可以对本地数据库112内的数据提供注解、进行修改和/或添加。当进行了这种注解、修改和添加后,即使从外部数据库120检索到了更新、修改和变化,内容管理引擎104也将原始数据和添加的信息保存在本地数据库112内。这样研究组116可创建并保持其自身的独立于外部数据库120内容的本地知识。
如果研究组116需要访问不处于本地存储器112内的数据,内容管理引擎104将确定如何以最佳的方法获得信息。内容管理引擎104可以通过联合数据访问机构108把包含所需信息的外部数据库120的适当部分复制到本地数据库112中。如果这种复制不能实时地进行,内容管理引擎104可以隐藏一个待处理查询,直至复制完成,并可通知研究组116的成员一旦复制完成就会对查询进行响应。
研究组116可以不时地对内容管理引擎104所执行的数据检索策略进行更新和/或修改,以便随着研究工作方向的转移而获得新门类的信息,在这些信息可利用时使用新的外部信息源,并在研究工作不再需要某些信息的时候停止检索这些外部信息。
图3是一幅流程图,说明了依据本发明的一个方面的数据仓储方式。如图所示,在步骤200,研究组116确定了一组外部参考数据检索策略。这些检索策略明确了所要检索的感兴趣数据;从其中检索数据的外部源;感兴趣的信息种类;检查外部参考信息以进行更新和/或添加的时间间隔;信息的属性,例如,外部信息是否在系统100内显式复制、这类信息的更新优先级等。检索策略将在为研究组116检索感兴趣的外部参考数据的方法内执行。这些检索策略可用不同的方式创建,但是在优选情况下用XML来定义,因为现有各种工具可以创建和使用XML。
在步骤204,内容管理引擎104和联合数据访问机构108执行确定的检索策略以检索感兴趣的参考数据。根据参考数据对于研究组116的重要程度、检索所需要的时间以及数据的数量,参考信息的检索可以实时地进行,或者以分批处理的方法进行。数据检索策略可以说明在一天中检索参考信息的优选时间,以改进检索过程。例如,对于特别繁忙的外部数据库120,可以进行夜间检索。
在步骤208,内容管理引擎104将检索到的信息副本或所述信息的联合图像存储到本地数据存储器112中,并进行存储合并。特别是,若以前的复制信息拷贝已经存在于本地数据存储器112中,内容管理引擎104将根据为所述信息确定的数据检索策略替代以前的信息,或在以前的信息上添加新的复制信息,同时保存研究组116在这两种情况下所做的任何注解或修改。此外,这种合并可包括将检索到的数据与其它检索到的数据一起或单独地按照适合于研究组116的研究工作的模式或结构重新组织。
按照检索策略中的定义,步骤204和208在必要时按适当的时间间隔重复,以便为研究组116使本地数据存储器112内的数据保持新鲜。
在步骤212,研究组116的一个或多个研究人员在从事研究的过程中访问存储在本地数据存储器112中的参考信息和/或注解等。这种访问可以通过任何适当的研究应用程序128进行,而且来自研究应用程序128的查询被应用于本地数据存储器112内的复制信息上,而且必要时,应用于未用本地数据存储器112复制的来自外部数据库120的联合信息。
在步骤216,研究组116的成员可对本地数据存储器112中的复制参考信息进行注解、修改和/或更新。如前面所述,即使所述参考信息的变化后来被内容管理引擎104所复制,研究组116所做的任何注解、修改或添加都与它们所应用的原始参考信息副本一起保存在本地数据存储器112内。研究组116根据需要按一定的时间间隔重复步骤212和216。
如步骤220所示,步骤212和216的另一个结果是对研究组116原先在步骤200所创建的检索策略的修正。随着研究组116推进研究工作和/或检查外部参考数据,研究组116可以识别新的感兴趣参考信息领域那些不再感兴趣的现有领域,研究组116可以在必要时修正和/或改进原先确定的外部数据检索策略,而该方法将重新开始并执行新的检索策略。
检索策略的修正或改进的部分内容可以是确定以前复制在本地数据存储器112内的数据是否还将保留在其中,或者如果复制数据(和任何注解等)不再是感兴趣的数据就可以安全地从本地数据存储器112中删除。预计基于研究的管理和/或审核的目的,研究组116在大部分情况下将把所有复制的信息保留在本地数据存储器112内,即便是这些复制信息对研究工作不再有用。
依据本发明的数据仓储库系统和方法比现有技术途径具有更多的优点。按照研究组确定的检索策略,科学研究组感兴趣的外部参考信息自动、连续地被检索并组织到本地数据存储器上。研究组为自己使用方便可以很容易地注解、修改和/或更新外部参考信息,而且研究组对外部信息的查询不通过公共网络,从而可减少对可能出现的安全问题的关注。
本发明的上述实施例只作为本发明的一些实例,因此本专业的技术人员在不违背所附权利要求书所定义的范围的前提下,可作出变更和修改。
权利要求
1.一种用于将来自外部源的参考数据提供给科学研究组的数据仓储库系统,所述数据仓储库系统包括一个联合数据访问机构,可对其操作以联合来自外部源的参考数据;一个内容管理引擎,可对其操作以从研究组接收一组数据检索策略并执行所述策略,以便与联合访问机构合作,按照所述检索策略检索参考数据;以及一个本地数据存储器,用于存储和管理由内容管理引擎检索到的外部参考数据的副本,所述本地数据存储器还可操作以对研究组发出的数据查询进行响应,以从副本向研究组返回参考数据,并接收和维护由研究组用参考数据副本所创建的注解和/或更新。
2.权利要求1的系统,其中外部参考数据通过数据网络从外部数据库检索。
3.权利要求1的系统,其中外部参考数据从内容管理引擎所访问的物理媒体的拷贝进行检索,所述内容管理引擎包括用于访问物理媒体的读取硬件。
4.权利要求1的系统,其中数据检索策略包括下列各项中的至少一项对感兴趣的外部数据库的指示;感兴趣数据的类型;为进行更新和/或添加而检查外部数据库的时间间隔;被检索参考数据所需的存储属性。
5.权利要求4的系统,其中所需的存储属性包括关于外部参考数据是否显式复制在本地数据存储器上的指示。
6.权利要求4的系统,其中所需的存储属性包括关于参考数据的更新优先级的指示。
7.权利要求1的系统,其中当本地数据存储器上所存储的复制参考数据被新的参考数据取代时,本地数据存储器和内容管理引擎就在保持新参考数据的同时,保持对原始复制参考数据及原始参考数据的注解和/或更新。
8.一种用于将来自外部源的参考据提供给科学研究组的数据仓储库方法,所述方法包括以下步骤(1)确定一组参考数据检索策略;(2)按确定的时间间隔,执行参考数据检索策略以检索所需的参考数据;(3)在本地存储器上对检索到的所需参考数据进行联合、组织和存储;(4)对存储在本地存储器上的参考数据进行查询和访问;(5)从研究组接收对存储在本地存储器上的参考数据的注解和/或更新,并将所接收到的注解和/或更新存储到本地数据存储器上。
9.权利要求8的方法,其中步骤(2)包括通过数据通信网络访问至少一个外部数据库的步骤。
10.权利要求9的方法,其中步骤(2)还包括从至少一个物理媒体访问数据的步骤。
11.权利要求8的方法,还包括不时地修改所述一组数据检索策略的步骤。
12.权利要求8的方法,其中当步骤(2)检索到对以前检索到的数据的更新时,步骤(3)还包括维护和组织以前检索到的数据及其更新的步骤,而且对以前检索到的参考数据的任何注解与更新也都与更新的数据一起存储。
13.权利要求8的方法,其中步骤(2)的确定的时间间隔对于不同的感兴趣的参考数据来说是不相同的。
14.一种产品,所述产品包括计算机可用的媒体,用于使一个计算系统提供一个从外部源到科学研究组的参考数据的数据仓储库,所述产品具有计算机可读程序代码装置,用于使计算机系统接收一组确定的参考数据检索策略;计算机可读程序代码装置,用于使计算机系统按确定的时间间隔执行参考数据检索策略以检索所需的参考数据;计算机可读程序代码装置,用于使计算机系统在本地数据存储器上对检索到的所需参考数据进行联合、组织和存储;计算机可读程序代码装置,用于使计算机系统处理查询,以访问本地数据存储器上所存储的参考数据;以及计算机可读程序代码装置,用于使计算机系统接收对本地数据存储器上所存储的参考数据的注解和/或更新,并将接收到的注解和/或更新存储到本地数据存储器上。
15.权利要求14的产品,还包括计算机可读程序代码装置,用于使计算机系统在对以前检索到的数据的更新进行检索时,在本地数据存储器上用更新的被检索数据维护和组织以前检索到的数据及其任何注解和更新。
16.一个包含代表计算机可读程序代码的数据信号的载波,用于使计算机系统提供一个从外部源到科学研究组的参考数据的数仓储库,所述产品具有计算机可读程序代码装置,用于使计算机系统接收一组确定的参考数据检索策略;计算机可读程序代码装置,用于使计算机系统按确定的时间间隔执行参考数据检索策略以检索所需的参考数据;计算机可读程序代码装置,用于使计算机系统在本地数据存储器上对检索到的所需参考数据进行联合、组织和存储;计算机可读程序代码装置,用于使计算机系统处理查询,以访问本地数据存储器上所存储的参考数据;计算机可读程序代码装置,用于使计算机系统接收对存储在本地数据存储器上的参考数据的注解和/或更新,并将接收到的注解和/或更新存储到本地数据存储器上。
17.一个包含代表权利要求16的计算机可读程序代码的计算机数据信号的载波,还包括计算机可读程序代码装置,用于使计算机系统在对以前检索到的数据的更新进行检索时,在本地数据存储器上用更新的被检索数据维护和组织以前检索到的数据及其任何注解和更新。
全文摘要
一种数据仓储库系统和方法,用于自动地向研究组提供外部参考数据并连续不断地为研究组检索和组织感兴趣的外部参考数据。研究组确定参考数据检索策略,所述策略按时间间隔执行以检索需要的信息,这些信息被存储在本地数据存储器上。研究组可以查询本地数据存储器而不必查询外部数据库,从而避免安全问题,而且研究组对所存储数据的注解和/或更新可以与数据一起存储在本地仓储库内从而使研究组成员之间可以进行合作并共享信息。
文档编号G06F17/30GK1612138SQ20041008606
公开日2005年5月4日 申请日期2004年10月20日 优先权日2003年10月31日
发明者O·K·比克 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1