用于生命科学发现、设计和开发的系统、方法和制造品的制作方法

文档序号:6435021阅读:127来源:国知局
专利名称:用于生命科学发现、设计和开发的系统、方法和制造品的制作方法
技术领域
本发明涉及从多学科研究获得结果的系统、方法和制造品。更具体地,本发明涉及用于指导、控制和管理生命科学领域的多学科研究以便以有效的方式实现所需的结果的系统、方法和制造品。
背景技术
现代生命科学研究,尤其是药物学研究,在一般的科学研究活动中是有一些特别的,因为它需要跨越许多学科进行应用、重复和研究,这种研究是同时在整个研究活动的常常是重复的许多步骤中进行的。仅举几个例子,现代药物学研究现在一般会涉及来自生物学、基因学、化学、临床医学和病理学等学科的研究者,研究过程一般是重复迭代的,来自一个学科比如生物学的结果被提供给另一个学科,后者处理这些结果,产生新的研究方向和对其它学科的需求,包括对生物学学科的需求。很清楚,这样的研究是费时又费力的。
不幸的是,在这样的现代生命科学研究中,到目前为止,各学科在很大程度上还都是互不连接的研究孤岛,在各学科之间很少沟通渠道。另外,即使在一个学科内部,在不同的地点有一个或者多个研究团队也并不少见,这样一些团队也会遭受各团队之间协作不足之苦。另外,在研究人员外部,不是对于研究团队,可能涉及研究的背景或者相关方面,必须实现与管理与这样的研究者的协作。
由于现代生命科学研究能够产生非常大量的数据,上述问题在许多学科被加剧了当所述数据在各学科和/或研究团队之间移动时,这些数据必须被转换、翻译、重新组织、分析或者进行别的处理。另外,存储、检索、移动和管理这样巨量的数据的物理要求也非常具有挑战性,妨碍了有效的研究,并且/或者增加了研究过程的时间延迟。
另外,在上述各研究领域的孤岛状态下,难以,或者甚至不可能,有效地管理和指导整个研究活动。同时,由于进行这样的研究所需的巨大成本和这样的研究所需的时间,越来越重要且有必要的是实现有效的管理和/或指导,以减少或者消除时间延迟。

发明内容
本发明的一个目的是提供一种新颖的系统、方法和制造品用于生命科学发现、设计和开发,可以避免或者缓解至少一个现有技术的上述缺点。
根据本发明的第一方面,提供了一种用于进行生命科学发现、设计或者开发的研究者的系统,包括虚拟存储设备,包括在线和邻线存储器,并具有预先定义以用于在在线和邻线存储器之间移动所存储的数据的策略;研究数据服务器,用于从研究者接收和管理试验数据以及研究数据和结果,并与所述虚拟存储设备一起工作以保持所述试验数据和研究数据与结果;参考数据存取服务器,用于接收和管理与研究有关的外部参考数据,并与所述虚拟存储设备一起工作以保持所述外部参考数据;计算资源,由研究者用于捕捉、处理和分析试验数据以获得结果;以及研究数据网络,其将所述虚拟存储设备、研究数据服务器、参考数据存取服务器以及计算资源连接起来,以允许在它们之间传输数据,该研究数据网络还包括安全管理服务,以对研究者对系统的访问进行验证和授权。
最好,该系统还包括连接到一个或者多个公共数据网络(例如因特网)以及所述研究数据网络的数据导入控制器,该数据导入控制器用于根据所述研究者定义的用于检索外部参考数据的一个或者多个策略,从研究数据网络外部的数据源检索外部参考数据。最好,所述计算资源包括高性能计算服务器,该服务器包括均质或者混合计算资源的聚合。最好,该系统还包括与所述研究数据网络以及一个或者多个实验室设备相连的实验室信息关系系统,该实验室信息管理系统从实验室设备接收试验数据,并将所述数据通过研究数据网络提供给所述研究数据服务器。
根据本发明的另一方面,提供了一种管理包括来自不同科学学科的多名研究者的研究项目的方法,包括下列步骤建立一组策略来定义与该研究项目相关的外部参考信息;根据所述策略按照预定的间隔检索外部参考信息;与存储在参考数据服务器中的参考数据进行比较来检查所检索到的信息,判断与参考数据服务器中已经存储的数据相比,所检索到的信息是否是冗余的或者是低质量的,将被判定为非冗余的并/或具有可接受的较好质量的检索到的数据保存到所述参考数据服务器中;在研究数据服务器中保存来自至少一个实验室设备的试验数据;以及,向研究者提供对参考数据服务器中存储的信息以及研究数据服务器中的试验数据的访问权。
根据本发明的又一方面,提供了一种在生命科学以及其它多学科研究活动中进行发现、设计和开发的研究的方法,包括下述步骤(i)组织一个研究者团队,该团队包括来自多个研究学科的研究者,并向这些研究者提供对研究数据网络的访问权;(ii)建立参考数据策略,为该团队中的每一位研究者定义对该研究者有用的参考数据类型,并建立试验数据策略,对该团队中的每一位研究者定义对该研究者有用的试验数据和结果的类型,并在研究数据网络上存储这些策略;(iii)按照预定的间隔从该研究数据网络外部的数据源检索由所述参考策略定义的外部参考数据;(iv)检查所检索到的参考数据,将研究数据网络上已经存储的参考数据考虑在内,判定所检索到的数据是否是冗余的,或者是否比该网络上已经存储的参考数据具有更好的质量,将所检索到的数据中被判定为非冗余或者比已经存储的参考数据质量更好的数据保存到所述研究数据网络上;(v)通过所述研究数据网络从实验室数据收集试验数据,并在研究数据网络上保存所收集的数据;(vi)根据对研究者定义的所述参考数据策略和试验数据策略,将新的参考数据和试验数据向研究者公开;以及(vii)在研究项目期间,按照一定的时间间隔重复步骤(iii)到(vi)。
根据本发明的再一方面,提供了一种制造品,其包括一种计算机可用的介质,用于使计算系统管理包括来自不同科学学科的多名研究者的研究活动,该制造品包括使所述计算机系统向这些研究者提供对研究数据网络的访问权的计算机可读程序代码装置;用于使计算机系统按照预定的间隔从该研究数据网络外部的数据源检索由参考策略定义的外部参考数据的计算机可读程序代码装置,所述参考策略由所述研究者在所述计算机上建立;使所述计算机系统检查所检索到的参考数据的计算机可读程序代码装置,该计算机可读程序代码装置并使所述计算机系统将研究数据网络上已经存储的参考数据考虑在内,判定所检索到的数据是否是冗余的,或者是否比该网络上已经存储的参考数据具有更好的质量,并将所检索到的参考数据中被判定为非冗余或者比已经存储的参考数据质量更好的数据保存到所述研究数据网络上;使所述计算机系统在研究数据服务器中保存来自所述至少一个实验室设备的试验数据的计算机可读程序代码装置;以及使所述计算机系统向研究者提供对所述参考数据服务器中所存储的信息以及所述研究数据服务器中的试验数据的访问权的计算机可读程序代码装置。
本发明提供了一种系统和方法,对于生命科学学科以及类似学科中的研究活动和项目,能够在研究者和学科之间以成本上经济、集中式管理和维护的方式提供自动化、数据管理和协作的方便。该系统提供了一种端到端信息技术解决方案,允许来自多个研究学科、地理上分散的多个地点的研究者协调它们的研究活动。为了满足研究者和管理机构的各种各样需求,自然提供了对海量试验和参考信息的管理,同时适当地维护被管理的信息的安全性。提供了计算资源和工具,并对之进行集中式维护,从而研究者能够有效地利用昂贵的计算资源。


下面通过举例的方式结合附图描述本发明的优选实施例。附图中图1是本发明的系统的框图;
图2a到2e图示了检索和处理外部数据和公开信息时图1的系统的各部件之间的控制和数据流;图3a到3d图示了从实验室设备收集试验数据时图1的系统的各部件之间的控制和数据流;图4a到4c图示了执行试验数据的数据拟合时图1的系统的各部件之间的控制和数据流;图5a到5e图示了执行试验数据的数据分析和/或结果生成时图1的系统的各部件之间的控制和数据流;图6a和6b图示了向内部研究者公开结果时图1的系统的各部件之间的控制和数据流;图7a到7b图示了向外部研究者或者外部地址公开结果时图1的系统的各部件之间的控制和数据流。
具体实施例方式
尽管下面的说明是以药物学研究作为本发明的应用和操作的一个例子,但是本发明不限于用在药物学研究中。相反,发明人相信本发明在生命科学领域以及相关的其它类似领域具有广泛的可应用性。尤其是,发明人相信,仅举几个例子,本发明可以有利地应用于药物、治疗、诊断、非药物治疗方案、预防剂等的研究。因此,下面的讨论限于药物学研究这一事实并不能视为对本发明的限制。
现代生命科学研究,比如高级药物发现和开发,可以被视为采集和“精炼”化学和生物学数据的一系列步骤,其中在每一个步骤都增加值。例如,在高级药物研究领域,进行这种研究的关键活动一般包括收集由实验室设备产生的“化验”数据;搜索、获取外部参考和研究材料;分析整理后的化验数据和外部参考资料;通过分析导出知识。这些任务一般都以循环的方式由研究团队中的每一个学科重复进行。
本发明的系统和方法辅助这些关键活动,在研究者和学科之间以成本经济、集中式管理和维护的方式提供自动化、数据管理和多学科协作的便利。
在图1中,工具本发明的系统由20总体上标识。系统20与外部研究者24、外部数据源比如外部参考数据28和外部公开数据32、内部研究者36以及实验室设备40通过接口相连。
如上所述,现代生命科学研究常常涉及与不是主要研究组织的成员的各种外部研究者24进行信息交换。这样的外部研究者的例子可以是政府资助的研究者,比如由美国国家卫生研究所资助的研究者、参加研究合同组织(Contract Research Organizations,CRO)的研究者等。尽管图1仅图示了一个外部研究者24的图标,但是本发明支持与位于不同地理位置和不同组织的多个外部研究者进行交互作用。
如上所述,访问和使用外部参考数据28和外部公开数据32常常是生命科学研究活动的重要部分。外部参考数据28可以包括基因序列和蛋白质数据库(公共的或者私人的)、临床数据等,外部公开数据32可以包括新近发现的基因或者蛋白质、新药目标比如新的化学个体或者新的分子个体、对疾病机理的新认识,等等。
内部研究者36是研究活动的主要推进者。同样,尽管图1只图示了内部研究者36的单个图标,但是本发明支持与多个内部研究者36的交互作用,内部研究者可以是研究活动所涉及的不同群体的一部分,并/或者可以位于不同的逻辑和/或地理位置。
实验室设备40可以包括任何对研究活动由于的设备。在生命科学领域,这样的设备可以包括但不限于基因定序器、质谱仪、结晶学成像设备、层析摄影设备,等等。许多这样的设备现在都是机器人性质的,可以直接与实验室信息管理系统(LIMS)44通过接口相连。这样的设备的一个例子是ABI DNA定序系统,它直接通过接口连接到LIMS44和实验室中的一台或者多台PC,这些计算机提供对设备的控制和/或协调。其它这样的设备需要手工操作或者由技术人员或者研究者检查它们的结果,但是这些结果仍然要提供给LIMS44进行化验分析。LIMS44在生命科学领域是公知的,可以对实验室定制,或者可以按照需要从市场上购买。
如图1所示,LIMS44通过研究数据网络48连接到设备40,该网络还连接系统20的其它部件。网络48没有特别的限制,只需要系统20的所有部件能够按照需要通信即可,所述通信最好有足够的速度,以便在网络连接的各节点之间的信息的传输能够有效地进行。网络48可以是,例如,吉位以太网链路和网络设备的均质网络,或者例如光纤、吉位以太网和ATM链路连同合适的桥、协议转换器等的异质网络。同样,网络48可以是私人的,可以是研究组织运营和维护的,或者可以包括按照需要由合适的防火墙隔离和/或保护的私人和公共网络的混合体、用于目录、安全和系统管理服务的域控制器以及加密/解密引擎。
系统20的一个重要部分是虚拟存储设备52。如上所述,生命科学研究会产生大量的数据(千兆兆字节或者艾字节)。处理如此大量数据的费用和/或实际困难可能是令人生畏而又昂贵的,无论是从时间还是从金钱的角度来说都是如此。系统20应用虚拟存储设备52来处理这些存储问题。虚拟存储设备52包括在线存储设备比如磁盘驱动器、固态驱动器等的集合以及各种邻线存储设备,比如自动磁带库(robotictape library)等,它们能在大约1分钟内检索到所请求的数据。
虚拟存储设备52应用一组测量来在在线和邻线存储子系统之间管理研究数据集合的存储。这样的策略可以应用各种战略,比如将老化数据从在线存储器向邻线存储器自动迁移,根据对数据确定的使用模式进行启发式迁移,等等。
由于虚拟存储设备52是虚拟的,可以按照需要通过增加更多的存储设备对其进行扩展,并且所需的数据是存储在在线存储器中还是存储在邻线存储器中对用户来说是看不见的,但是在存储在邻线存储器上的数据的情况下,用户可以感觉到存取的稍许延迟。预期对于当前的研究活动来说,虚拟存储设备52的可接收的配置应当至少具有几个太字节的在线存储器和几个千兆兆字节的邻线存储器。合适的虚拟存储设备52的一个例子可以是I一个或者多个IBM销售的企业存储服务器(Enterprise Storage Servers)以及一个或者多个IBM销售的LTOUltraScalable磁带库。
在系统20中,虚拟存储设备52存储与研究活动有关的所有研究数据,但是研究者可以保持较小的数据集合的本地拷贝。通过在系统20中应用虚拟存储设备52,可以保证研究数据的治疗、完整性、安全性、私密性和可获得性。
一个数据导入控制器56与一个网络检索引擎60一起工作,以在公共网络比如因特网68上检索和处理所需的外部数据。具体地,数据导入控制器56使用所述研究团队所建立的策略来使网络检索引擎60检索外部数据。网络检索引擎60处理来自数据导入控制器56的策略驱动的请求,通过合适的协议和/或数据格式转换器,在因特网68或者其它网络中自动检索预定的外部参考数据。用于网络检索引擎60的策略可以包括定期安排的对特定数据库的搜索、识别和检索先前检索到的数据更新版本、搜索因的数据源等。合适的网络检索引擎的例子可以是来自IBM的WebSphere软件平台或者由Apache Software Foundation发布并与IBM的WebSphere平台集成的Apache网络服务器。
网络检索引擎60能够使用任何合适的机制来检索所需的外部参考资料,比如用于文档传输的ftp,用于数据库检索的SQL查询,等等。在本发明的目前优选的实施例中,网络检索引擎60包括临时存储检索到的信息以由数据导入控制器56随后进行处理的本地存储器B2B(企业对企业)引擎64包括一个网络服务器,用于使外部研究者24可获得来自系统20的数据。合适的网络检索引擎的例子也可以是来自IBM的WebSphere软件平台或者由Apache SoftwareFoundation发布并与IBM的WebSphere平台集成的Apache服务器。如下所述,系统20包括安全管理服务,用来限制能够由外部用户24访问的数据。
如图1所示,网络检索引擎60和B2B引擎64都位于“禁止区”(″demilitarized zone″(DMZ))70中,由协议防火墙72和域防火墙76与网络48和公共网络比如因特网68隔离开。协议防火墙72作为第一层隔离防线,用于控制网络48和公共网络比如因特网之间的数据流的方向,根据源地址、目标地址和启用的端口过滤数据通信流。域防火墙76用作第二层隔离防线,在被信任的内部网络48和外部网络比如因特网68之间建立DMZ。协议防火墙72和域防火墙76以及其它建立DMZ的技术都是公知的,在此不进一步讨论。
类似地,系统20通过由协议防火墙80、网络服务器84和域防火墙88形成的内部DMZ连接内部研究者36。同样,合适的网络引擎的例子也可以是来自IBM的WebSphere软件平台或者由Apache SoftwareFoundation发布并与IBM的WebSphere平台集成的Apache服务器。
系统20还包括预处理服务器92,后者包括一个或者多个计算机系统。预处理服务器92对LIMS44提供的原始数据进行操作,将所述原始数据转换为对于研究的目的和背景来说在化学、生物学或者临床医学等方面有用和相关的数据。对于本领域的技术人员来说显而易见的是,取决于“分析化验”的性质和执行这种分析化验的设备,所述预处理可以包括数据过滤、数据标准化等。
由于许多研究活动可能需要大量的计算,系统20包括高性能计算服务器(HPCS)96。在目前优选的实施例中,HPCS96包括高性能计算群(computing cluster),比如高速处理器的Linux群,因为这允许在需要是通过从群中添加或者移除计算处理器来对可用的计算资源的两适当地调节。基因多序列排列和/或蛋白质折叠知识可能需要大量计算资源的研究活动的几个例子,HPCS96能够作为用于几个研究应用的后端处理资源。
在系统20中还提供一个后处理器100,以对HPCS96或者别处产生的结果进行操作,以将得到的数据转换为对于研究的目的和背景来说在化学、生物学等方面有用的形式。所述后处理可以包括数据聚类、标注、分类、图像显示等,可以由各种应用程序执行。
系统20还包括知识管理服务器(KMS)104和研究应用程序服务器(RAS)108。KMS104向研究者提供对相关生物学、化学和/或临床医学信息的访问权。KMS104提供的功能可以包括但不限于数据挖掘、特定查询(ad hoc query)、统计分析、报告生成、决策支持,等等。合适的知识管理服务器104可以包括IBM的用于评分、可视化、建模和挖掘的信息管理。
RAS108运行研究者所需的至少一定数量的应用程序和/或工具。这些应用程序和/或工具可以包括但不限于Blast,它是用于判断给定核酸或者蛋白质序列与数据库比如NCBI数据库中的成千上万种其它序列的相似性的搜索工具;多序列排列工具,用于辅助推导新蛋白质的功能,辅助回答其它生物学问题比如蛋白质的演化和/或种类史关系;基因表达应用程序,允许用点状分布的微族(spotted microarray)、高密度低聚核苷酸族(high density oligonucleotide array)、杂化(杂交)过滤(hybridization filtering)、基因表达数据的系列分析以及其它技术对基因表达数据进行交互式检索和分析;以及用于蛋白质结构和功能预测的应用程序,包括主序列排列、次级和三级结构预测方法、同源性建模以及结晶学衍射图案分析,等等。对于本领域普通技术人员来说显而易见的是,在系统20中可以应用许多其它的应用程序和/或工具,RAS108能够提供对这些工具的集中式维护和控制。
系统20还包括参考数据存取服务器112和研究数据服务器116,它们与虚拟存储设备52和数据导入控制器56一起工作。对于通过联合访问数据源对虚拟数据库进行的特定查询(ad hoc queries),参考数据存取服务器112允许研究者访问作为外部数据或者内部数据的参考数据。目前优选的用于在参考数据存取服务器112中实施这样的虚拟数据库系统的应用程序是IBM作为DB2产品品牌销售的DiscoveryLink中间件应用程序以及DB2通用数据库,但是本领域普通技术人员也能使用其它合适的技术和/或应用程序。DiscoveryLink允许用单个请求对多个数据源进行特定查询,并提供单一响应,而不管数据源的地理位置、类型、格式、模式、操作平台、网络协议等。外部参考数据(例如基因组、EST、蛋白质和/或临床数据库)可以通过复制统一到一个逻辑位置,以缓解通过缓慢的外部链路比如因特网68访问外部参考数据。
使用参考数据的本地拷贝与使用原始外部源相比有重大的优势,尽管必须作出规定以维护外部数据的流通时间(currency),并且在为本地拷贝提供存储共建时会发生费用,但是,通过如上所述的数据导入控制器56和虚拟存储设备52,这些问题在某种程度上被解决了。
研究数据服务器116允许各种研究应用程序访问统一的研究和/或试验数据。这样的统一数据的例子可以包括微族(微阵列,microarray)数据以及对基因表达数据的系列分析。合适的研究数据服务器116的例子包括IBM销售的企业存储系统(Enterprise StorageSystem)以及等级存储管理(Hierarchical Storage Management)解决方案。
除了上述节点、服务器和设备之外,系统20还包括几个共享的系统服务,包括目录管理,提供对登记实体(例如用户、应用程序、其它资源等)的命名服务;安全管理,提供保护资产和资源比如用户/实体标识的服务、确认/验证、访问控制、隐私保护以及安全审计功能;系统管理,与运行在被管理的设备/节点上的客户软件一起,提供管理服务,比如问题报警/报告、性能监视、软件散发、数据备份和恢复,等等;以及存储管理,与虚拟存储设备52一起,提供集成的、统一的和可靠的数据存储设备,用于参考数据存取、研究数据和试验数据。
下面描述系统20在典型的研究项目中的操作和使用的例子。
图2a到2e图示了系统20通过因特网68检索外部数据28和外部公开信息32的一个例子。在第一步,如图2a所示,根据研究团队使用系统20建立的数据检索策略,数据导入控制器56指令网络检索引擎60检索信息。
在图2b中,在外部的DM270中运行的网络检索引擎60从因特网上的预定网址,比如Genbank等,检索信息,并将检索到的信息存储到网络检索引擎60的临时本地存储器中。为了安全起见,会话的发起只针对向外的会话,数据流只通过协议防火墙72和域防火墙76向内流动。检索到的信息没有特别的限制,可以包括基因数据、蛋白质数据、文档、摘要、化学数据等等,既可以包括结构化数据(蛋白质数据库),也可以包括非结构化数据(学术论文/期刊)。如果检索到的信息和数据的性质需要,网络检索引擎60可以进行扫描看是否存在计算机病毒,并且/或者对检索到的信息和数据进行其它检查以确保安全性。
当数据已经被检索出来并放到临时存储器中时,网络检索引擎60向数据导入控制器56发送信息,如图2c所示。数据导入控制器56将数据打包为较小的相关数据集,然后将数据发送给参考数据存取服务器112进行质量检查,如图2d所示。
在参考数据存取服务器112上运行的过程将检索到的经过部分处理的数据与权威的、非冗余的数据集进行比较,并存储到虚拟存储设备52中。如果新收集到的数据已经在权威数据集中存在,就由参考数据存取服务器112执行质量检查,判断新收集到的数据是否优于现有数据。如果是,则用新收集到的数据替换虚拟存储设备52中的现有数据,相应更新参考数据存取服务器112管理的元数据。
如果新收集到的数据在权威数据集中没有存在过,则相应更新参考数据存取服务器112中保存的元数据,将所述新数据存储到虚拟存储设备52中,如图2e所示,以便,无论所述数据是独特的还是冗余的,允许研究者在将来在需要的时候重新访问所检索到的数据并/或对其加以确认。
图3a到3d图示了由系统20收集试验数据的一个例子。在图3a中,内部研究者36通过PC或者其它接口设备(未图示)与网络服务器84所提供的合适的网页交互作用,向LIMS44输入试验条件、样品以及其它相关信息。该会话是由系统20中的上述安全管理服务进行验证和授权的。
如图3b所示,从设备40将测量到的原始试验数据提供给LIMS44,LIMS44然后将试验数据与研究者36输入的数据适当地合并。合并后的数据然后由预处理服务器92加以预处理,以对数据进行过滤和标准化,获得有用的数据集,如图3c所示。
最后,过滤后的标准化的(normalized)数据集被放置到研究数据服务器116中,并存储在虚拟存储设备52中,如图3d所示。在这里,数据最初被存储在在线存储器中,根据研究团队对虚拟存储设备52定义的存储测量,最后要移动到邻线存储器。
研究项目中的重要活动之一是将试验数据与参考数据进行比较,解释试验数据以获得结果,然后将这些结果连同试验数据存储起来。
图4a、4b和4c图示了用系统20进行数据拟合的一个例子。为了这里举例说明的目的,假设通过异步接口/服务进行数据拟合,因为数据拟合可能在计算上很复杂,一般作为一个批处理被执行而不用用户干预。但是,重要的是要注意到,系统20不限于这样的批处理,系统20能够支持研究者36的交互式数据拟合和/或检查,比如通过数据可视化工具,等等。
在图4a中,参考数据存取服务器112向RAS108提供来自虚拟存储设备52的参考数据,所述参考数据用来解释和分析试验数据。研究数据服务器116从虚拟存储设备52将已经经过适当预处理的试验数据提供给RAS108。
接下来,在图4b中,RAS108利用HPCS96的计算服务执行高速模式匹配和识别或者其它的技术比如统计分析等,以确定对试验数据的最佳解释。最后,如图4c所示,通过研究数据服务器116,所获得的结果被存储到虚拟存储设备52中。
研究中的另一个重要活动是数据的分析和结果的生成。图5a到图5e图示了使用系统20的这种活动的一个例子。在图5a中,内部研究者36利用网络服务器84提供的网络浏览器界面,与RAS108交互。如果研究者36判定对数据集的进一步分析是有价值的,则通过研究数据服务器116,从虚拟存储设备52将要分析的数据集提供个RAS108,如图5b所示。RAS108利用HCPS96,使用研究者通过网络浏览器所选择的分析工具,处理所检索到的数据集,如图5c所示。
如果希望,或者入托需要,研究者36可以使RAS108对任何结果通过后处理器100和HPCS96进行后处理,如图5d所示。处理后的数据,比如结论、研究者的标注等,然后通过研究数据服务器116与原始数据集一起存储到虚拟存储设备52中,如图5e所示。
研究活动中的另一个重要功能是公开研究信息和结果。在系统20中,公开包括研究团队内的内部研究者36之间的内部公开,以及内部研究者36和外部研究者24和/或外部数据库之间的外部公开。
在这里所使用的术语“公开”包括使信息可被获得以在以后进行浏览的活动,这包括将研究结果放到可以从外部访问的数据库中、在期刊上发表科学文章,等等,以及将结果“推向”以前订购过结果或者对结果以别的方式表达过兴趣的研究者、研究机构等等。
内部公开可以是同步的,当结果或者其它信息一旦产生内部研究者36就能访问所述结果或者其它信息,而外部公开可以是同步的(比如外部研究者24通过知识管理服务器104访问结果)或者是异步的(比如外部研究者24访问外部数据库所保有的公开数据的外部拷贝)。
图6a、6b、7a和7b图示了用系统20公开研究结果和其它信息的例子。图6a图示了对内部研究者36的公开,其中,研究者36使用网络浏览器通过网络服务器84访问一个网络浏览器,以与知识管理服务器104连接。KMS 104可以访问虚拟存储设备52和整个系统20中的所有联合信息和结果,所述联合信息和结果被合适的索引。当内部研究者36开始其与KMS104的交互作用时,安全管理服务验证内部研究者访问内部研究者36所请求的结果和/或任何研究应用程序。图6b图示了将被请求的结果提供给内部研究者36。
在图7a中,图示了异步“推出”结果的一个例子。在这个例子中,外部研究者24或者其它外部数据用户,比如公共或者商业数据库,在过去已经表达过对研究结果的兴趣,并且这种兴趣已经经过了上述安全管理服务的验证和许可。这样,当KMS104通过研究数据服务器116判定要推向外部研究者24或者外部数据库的结果和信息在虚拟存储设备52中可用时,KMS104就将所述结果和信息打包并通过B2B服务器64发送给适当的外部目的地。
在图7b中,外部研究者24很象内部研究者那样通过B2B服务器64同步地与KMS104连接。在这种情况下,上述安全管理服务不断地验证所述外部研究者24,确保所述研究者有权访问所请求的信息。KMS104通过研究数据服务器116从虚拟存储设备52检索出适当请求的信息,将其通过B2B服务器64提供给所述外部研究者24。
这样可以看到,本发明提供了一种系统和方法,能够在研究者和学科之间以成本上经济、集中式管理和维护的方式提供自动化、数据管理和通信的方便。提供了一种端到端信息技术技术系统,允许来自多个研究学科、地理上分散的多个地点的研究者协调它们的研究活动。为了满足各种研究者和各种管理需求,自然提供了对海量试验和参考信息的管理,同时适当地维护被管理的信息的安全性。
本发明的上述实施例是作为本发明的例子,本领域的普通技术人员可以对它们进行改变和修改而不超出本发明的由权利要求所限定的范围。
权利要求
1.一种用于进行生命科学发现、设计或者开发的研究者的系统,包括虚拟存储设备,包括在线和邻线存储器,并具有预先定义以用于在在线和邻线存储器之间移动所存储的数据的策略;研究数据服务器,用于从研究者接收和管理试验数据以及研究数据和结果,并与所述虚拟存储设备一起工作以保持所述试验数据和研究数据与结果;参考数据存取服务器,用于接收和管理与研究有关的外部参考数据,并与所述虚拟存储设备一起工作以保持所述外部参考数据;计算资源,由研究者用于捕捉、处理和分析试验数据以获得结果;以及研究数据网络,其将所述虚拟存储设备、研究数据服务器、参考数据存取服务器以及计算资源连接起来,以允许在它们之间传输数据,该研究数据网络还包括安全管理服务,以对研究者对系统的访问进行验证和授权。
2.如权利要求1所述的系统,还包括连接到所述研究数据网络的数据导入控制器,用于根据所述研究者定义的用于检索外部参考数据的一个或者多个策略,从研究数据网络外部的数据源检索外部参考数据。
3.如权利要求2所述的系统,其中,所述数据导入控制器还用来处理所检索到的参考数据,判断所检索到的参考数据在考虑所述虚拟存储设备中已经存储的参考数据的情况下是否是低质量的或者冗余的,仅将检索到的非冗余的、较好质量的参考数据存储到所述虚拟存储设备中。
4.如权利要求1所述的系统,其中,所述计算资源包括高性能计算服务器,该服务器包括计算资源的聚合。
5.如权利要求4所述的系统,其中,所述计算结果还包括后处理器,该后处理器用来将试验数据转换为与研究的目的和背景有关的有用的形式。
6.如权利要求1所述的系统,还包括与所述研究数据网络以及一个或者多个实验室设备相连的实验室信息关系系统,该实验室信息管理系统从实验室设备接收试验数据,并将所述数据通过研究数据网络提供给所述研究数据服务器。
7.如权利要求6所述的系统,还包括与所述研究数据网络相连的预处理服务器,所述实验室信息管理服务器将来自所述实验室设备的试验数据提供给所述预处理服务器,或者将试验数据转换为对研究有用并相关的数据,所述预处理服务器将转换后的数据通过研究数据网络提供给研究数据服务器。
8.如权利要求1所述的系统,还包括连接到所述研究数据网络的知识管理服务器,用来根据研究者作出的查询,识别并向研究者提供来自研究数据服务器和参考数据存取服务器的参考数据和/或试验数据和结果。
9.如权利要求8所述的系统,其中,研究者能够创建策略来定义研究者感兴趣的领域,所述知识管理服务器还用来根据所述定义的策略,识别并向所述研究者提供感兴趣的参考数据和试验数据和结果。
10.如权利要求1所述的系统,还包括连接到研究数据网络的研究应用程序服务器,该研究应用程序服务器提供研究者所需的至少一个软件应用程序和/或工具,所述至少一个应用程序和/或工具根据来自研究者的指令对存储在所述虚拟存储设备中的数据进行操作。
11.一种管理包括来自不同科学学科的多名研究者的研究项目的方法,包括下列步骤建立一组策略来定义与该研究项目相关的外部参考信息;根据所述策略按照预定的间隔检索外部参考信息;与存储在参考数据服务器中的参考数据进行比较来检查所检索到的信息,判断与参考数据服务器中已经存储的数据相比,所检索到的信息是否是冗余的或者是低质量的,将被判定为非冗余的并/或具有可接受的较好质量的检索到的数据保存到所述参考数据服务器中;在研究数据服务器中保存来自至少一个实验室设备的试验数据;以及向研究者提供对参考数据服务器中存储的信息以及研究数据服务器中的试验数据的访问权。
12.如权利要求11所述的方法,还包括下述步骤研究者对虚拟存储设备定义一组数据存储策略,该虚拟存储设备包括在线和离线存储能力,以存储参考数据服务器和研究数据服务器的数据;根据所述数据存储策略在在线存储能力和邻线存储能力之间移动所存储的数据。
13.如权利要求11所述的方法,还包括下述步骤预处理来自所述至少一个实验室设备的试验数据,并在所述研究数据服务器中存储经过预处理的试验数据。
14.如权利要求11所述的方法,还包括通过以下步骤向研究者公开信息的步骤使研究者对知识管理服务器标识其感兴趣的信息,所述知识管理服务器检查所述参考数据服务器和研究数据服务器的内容以标识出研究者所感兴趣的信息,知识管理服务器使得所述标识出来的信息能够被所述研究者获得。
15.如权利要求11所述的方法,还包括下述步骤在提供访问权之前,对访问所存储的试验数据和所存储的参考数据的每一位研究者验证真实性和权限。
16.一种在生命科学以及其它多学科研究活动中进行发现、设计和开发的研究的方法,包括下述步骤(i)组织一个研究者团队,该团队包括来自多个研究学科的研究者,并向这些研究者提供对研究数据网络的访问权;(ii)建立参考数据策略,为该团队中的每一位研究者定义对该研究者有用的参考数据类型,并建立试验数据策略,对该团队中的每一位研究者定义对该研究者有用的试验数据和结果的类型,并在研究数据网络上存储这些策略;(iii)按照预定的间隔从该研究数据网络外部的数据源检索由所述参考策略定义的外部参考数据;(iv)检查所检索到的参考数据,将研究数据网络上已经存储的参考数据考虑在内,判定所检索到的数据是否是冗余的,或者是否比该网络上已经存储的参考数据具有更好的质量,将所检索到的数据中被判定为非冗余或者比已经存储的参考数据质量更好的数据保存到所述研究数据网络上;(v)通过所述研究数据网络从实验室数据收集试验数据,并在研究数据网络上保存所收集的数据;(vi)根据对研究者定义的所述参考数据策略和试验数据策略,将新的参考数据和试验数据向研究者公开;以及(vii)在研究项目期间,按照一定的时间间隔重复步骤(iii)到(vi)。
17.如权利要求16所述的方法,其中,所有参考数据和所有试验数据被保存在研究数据网络上的虚拟存储设备中,所述虚拟存储设备包括在线和邻线数据存储能力,所述研究团队具有预定的存储策略,所述虚拟存储设备执行该存储策略以在在线存储器和邻线存储器之间移动所存储的数据。
18.如权利要求16所述的方法,还包括下述步骤至少一个研究者处理所公开的试验数据,获得试验结果,或者被存储到研究数据网络上,所存储的试验结果根据研究者的试验数据策略也随后在步骤(vi)中向研究者公开。
19.一种制造品,其包括一种计算机可用的介质,用于使计算系统管理包括来自不同科学学科的多名研究者的研究活动,该制造品包括使所述计算机系统向这些研究者提供对研究数据网络的访问权的计算机可读程序代码装置;用于使计算机系统按照预定的间隔从该研究数据网络外部的数据源检索由参考策略定义的外部参考数据的计算机可读程序代码装置,所述参考策略由所述研究者在所述计算机上建立;使所述计算机系统检查所检索到的参考数据的计算机可读程序代码装置,该计算机可读程序代码装置并使所述计算机系统将研究数据网络上已经存储的参考数据考虑在内,判定所检索到的数据是否是冗余的,或者是否比该网络上已经存储的参考数据具有更好的质量,并将所检索到的参考数据中被判定为非冗余或者比已经存储的参考数据质量更好的数据保存到所述研究数据网络上;使所述计算机系统在研究数据服务器中保存来自所述至少一个实验室设备的试验数据的计算机可读程序代码装置;以及使所述计算机系统向研究者提供对所述参考数据服务器中所存储的信息以及所述研究数据服务器中的试验数据的访问权的计算机可读程序代码装置。
20.如权利要求19所述的制造品,还包括用于使所述计算机系统对包括在线和邻线数据存储能力的虚拟存储设备实施一组数据存储策略的计算机可读程序代码装置,以根据所述数据存储策略在在线存储能力和邻线存储能力之间移动所存储的数据。
21.一种承载计算机数据信号的载波,所述计算机数据信号代表用于使计算系统管理包括来自不同科学学科的多名研究者的研究活动的计算机可读程序代码,该制造品包括使所述计算机系统向这些研究者提供对研究数据网络的访问权的计算机可读程序代码装置;用于使计算机系统按照预定的间隔从该研究数据网络外部的数据源检索由参考策略定义的外部参考数据的计算机可读程序代码装置,所述参考策略由所述研究者在所述计算机上建立;使所述计算机系统检查所检索到的参考数据的计算机可读程序代码装置,该计算机可读程序代码装置并使所述计算机系统将研究数据网络上已经存储的参考数据考虑在内,判定所检索到的数据是否是冗余的,或者是否比该网络上已经存储的参考数据具有更好的质量,并将所检索到的参考数据中被判定为非冗余或者比已经存储的参考数据质量更好的数据保存到所述研究数据网络上;使所述计算机系统在研究数据服务器中保存来自所述至少一个实验室设备的试验数据的计算机可读程序代码装置;以及使所述计算机系统向研究者提供对所述参考数据服务器中所存储的信息以及所述研究数据服务器中的试验数据的访问权的计算机可读程序代码装置。
22.一种承载计算机数据信号的载波,所述计算机数据信号代表权利要求21所述的计算机可读程序代码,还包括用于使所述计算机系统对包括在线和邻线数据存储能力的虚拟存储设备实施一组数据存储策略的计算机可读程序代码装置,以根据所述数据存储策略在在线存储能力和邻线存储能力之间移动所存储的数据。
全文摘要
本发明涉及用于生命科学发现、设计和开发的系统、方法和制造品。提供了一种系统和方法,对于生命科学学科以及类似学科中的研究活动和项目,能够在研究者和学科之间以成本上经济、集中式管理和维护的方式提供自动化、数据管理和协作的方便。该系统和方法提供了一种端到端信息技术系统,允许来自多个研究学科、地理上分散的多个地点的研究者协调它们的研究活动。为了满足研究者和管理机构的各种各样需求,自然提供了对海量试验和参考信息的管理,同时适当地维护被管理的信息的安全性。
文档编号G06F19/28GK1627286SQ200410088188
公开日2005年6月15日 申请日期2004年10月14日 优先权日2003年10月31日
发明者奥克·基·比克, 卡尔·斯蒂芬·艾维格 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1