用于将数据源的数据链接到目标数据库的方法和模块的制作方法

文档序号:6595719阅读:277来源:国知局

专利名称::用于将数据源的数据链接到目标数据库的方法和模块的制作方法
技术领域
:本发明涉及一种用于将数据源的数据链接到目标(target)数据库的方法。更具体而言,本发明涉及一种用于将医学数据集成到数据库的方法。
背景技术
:医学研究中常常使用临床试验来研究新的药物、医学设备和其他医学产品以及其对于人类的影响。新的研究频繁地被发布并且实施的临床试验的数目在增加。例如,美国国立卫生研究院的研究登记在2006年包含大约23500件临床研究,该研究登记是用于临床研究的最常使用的公共数据库之一。2008年1月,登记的试验已经超过原来的两倍,达到来自153个国家的几乎50000件研究。特别地,制药业和医学设备制造商推动着越来越多的研究的实施。随着数据量的这种增加趋势,需要快速、高时效且精确的研究计划与实施,并且结果分析是必不可少的。具体而言,在临床试验期间收集的数据对于控制和执行试验的组织而言是很有价值的。因此,在遵守国家和国际规则的同时精心收集、处理和存储数据是临床研究管理中的主要任务。医学
技术领域
的公司关注于新型医学设备的开发,这对多种疾病的诊断、治疗、预防和监测的发展和改进做出了贡献。为此,实施临床试验及初步预试验。在试验期间,借助于所开发的设备以问卷、病例报表等获取各种形式的感兴趣数据。随后,处理并统计分析收集到的数据以评估新型设备的质量和适用性。此外,把所获取的数据与疾病进展及患者健康状况之间的相关性作为目标。可以将该结果与当前医学实践中使用的设备的数据进行比较,或者对该结果进行分析以获得对特定疾病进展的新的认识。管理临床试验的一种方式是使用本体(ontology)。根据HiomasGruber的ATranslationApproachtoPortableOntologySpecification,KnowledgeAcquisition5:199-220,1993,本体是一种形式化的、对共享概念体系的明确说明。其以一种机器可读和语义的方式描述感兴趣领域,从而使得能够表达领域的概念、领域之间的关系及约束,以得到更大团体中的多数对其的认可。本体被用在人工智能、知识工程及语义网中,并且针对包括生物医学或物理学的各种领域对本体进行研发。在数据集成领域中建模和使用本体提供了若干益处。本体在高度抽象的水平上描述领域。本体的优势特别地在于建立一致和形式化的词汇表的可能性,该词汇表不仅能够用于限定数据库中存储的数据的结构及意思,还能够被重新用于与基于该词汇表的应用互操作以及建立所述应用。为了使试验数据在一个中心点处可访问以进行统计分析或者为提交到相应的机构做准备,理想地需要将其集成到单个数据库中。能够根据不同的方面区分数据集成中的方法。一个方面是数据源集成的表现形式。能够以术语按需集成对其进行描述,其中,仅当用户或者系统查询数据源的构架时才集成数据源。之后从每个数据源独立地采集所请求的数据,并且此后集成为单一结果。另一方面,预先的集成将来自数据源的数据复制、整合并集成到单个数据库中,此后能够查询该数据库。Geisler,S等人的"Ontology-basedsystemforclinicaltrialdatamanagement,,,IEEEBeneluxEMBSSymposium,Dec.6-7,2007描述了用于临床试验数据集成管理的基于本体的系统。参考本体作为生成临床试验数据库以及将来自各种数据源的数据集成到该数据库中的基础。然而,由于在定义数据源的本体表示时参考本体必须是已知的,因此这种系统受到低灵活性的限制。此外,由于在某些情况下仅对数据源的少量数据感兴趣,因此可能执行不必要的工作。在这种情况下,针对所有数据源定义本体是没有效率的,因为本体还必须表示数据源到目标数据库的映射。因此编辑这种复杂的本体对于用户而言是不现实的。因此,一种用于组合数据源的数据以达到提高的灵活性和时效的经改进的方法将是有利的。
发明内容因此,本发明优选试图单独地或者以任意组合的方式缓解、减轻或者消除一个或多个以上指出的本领域中的不足和缺陷,并通过提供根据所附专利权利要求主张的方法、模块和计算机程序产品至少解决上述问题。根据一些实施例的一个目的在于提供促成改善的数据链接和集成的方法。根据一些实施例的另一目的在于提供用于将数据源的数据动态地集成到目标数据库的方法。根据一些实施例的想法在于提供参考本体的选定概念及其属性与各种数据源本体之间的基于本体的映射,以便于预先的数据集成。根据一方面,提供了一种方法。所述方法包括访问包括与参考本体的第一概念或属性相关联的至少一个表格的目标数据库;针对包括数据集的数据源定义数据源本体,所述数据源本体包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同;以及创建所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。这里,术语“表格”应该被广义地解释为覆盖用于表示信息技术和数据库建模领域中的关系的所有等同物。所述方法可以针对诸如临床试验的医学数据集成的若干不同应用而实施。此外,所述方法可以针对例如在以下应用中使用的任何本体集而实现能源供应、金融应用、商业应用以及其中使用来自不同传感器/设备的数据的不同类型的研究项目。根据一方面,提供了一种模块。所述模块包括第一单元,其用于访问包括与参考本体的第一概念或属性相关联的至少一个表格的目标数据库;第二单元,其用于针对包括数据集的数据源定义数据源本体,所述数据源本体包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同;以及第三单元,其用于创建所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。参考附图,通过对本发明的实施例的以下描述,本发明能够实现的这些和其他方面、特征以及优势将变得显而易见并且得以阐明,在附图中图1是示意性示出根据实施例的方法的流程图;图2是示意性示出根据实施例的方法的流程图;图3是示意性示出根据实施例的方法的方框图;以及图4是示意性示出根据实施例的模块的方框图。具体实施例方式参考附图,下文将更为详细地描述本发明的若干实施例,以便本领域技术人员能够实现本发明。然而,本发明可以具体化为许多不同的形式而不应被解释为限于本文所述的实施例。更确切地说,提供这些实施例以使本公开是全面且完整的,并且将充分地将本发明的范围传递给本领域技术人员。实施例不对发明构成限制,本发明仅受专利权利要求的限制。此外,附图中图示说明的具体实施例的详细描述中所使用的术语并非旨在限制本发明。以下描述聚焦于适用于集成数据的方法的本发明的实施例。参考图1,所述方法包括访问110包括与参考本体101的第一概念或属性相关联的至少一个表格的目标数据库107。另外,所述方法包括针对包括数据集的数据源102定义120数据源本体104,所述数据源本体104包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同。所述方法还包括创建140所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。在图1所示的实施例中,所述方法包括将所述链接存储150到数据集成模块中(未示出)。所述方法还包括通过利用所述链接将所述数据存储160到所述目标数据库107的相应表格中。在实施例中,由参考本体101的选定的第一组概念和属性定义目标数据库107。在另一实施例中,提供了方法100以根据另一模式集成至少一个数据源的数据。如图2所示,方法100包括访问110由参考本体101定义的目标数据库107。还提供了用户界面(未示出),用于根据数据源102定义120数据源本体104。这是通过将数据源102的关系模式表示转换为本体104而实现的。提供用户界面是有利的,因为用户能够容易地调节或创建数据源的本体表示。在此之后,形成元(meta)表示以链接132数据源的本体表示104和数据源的关系表示102。在数据源本体104相对于参考本体101之间创建若干链接140期间,建立142本体101、104的属性对。创建140链接的步骤包括组合用于确定从数据源中提取的数据的查询、创建数据集成模块以及将所述链接存储150到数据集成模块中。通过运行数据集成模块,即通过提供165对目标数据库的每个表格的查询、检索来自一个数据源的数据以及将所检索的数据存储到目标数据库107中来执行将数据集成到目标数据库107中。在此之后,形成元表示以链接170数据目标的选定概念和属性的本体表示101与数据目标的关系表示107。利用不同的词汇表由独立的本体描述数据源102和数据目标107。根据两个本体的概念或属性之间链接,组合了数据集成模块,即从数据源提取数据并且将其载入到数据目标中的过程。在实施例中,元表示链接数据源102及数据目标107的关系与本体表示101、104。在这种实施例中,假定能够以关系的方式查询数据源102。因此,数据源102可以是关系数据库或者Excel工作薄。在实施例中,按以下方式执行数据目标表格与数据源列的链接。对于目标数据库107中的每个链接的表格,数据源102中与数据库表格的列相链接的列被添加到列表中。该列表用于组合对数据源102的查询,所述查询从数据源102的列检索所有数据。之后通过运行针对数据源102的相应查询来填充目标数据库107的每个表格。如果映射的数据源属性被链接到数据源表格中的外键列(foreignkeycolumn),必须进行所述表格和参考表格之间相应连接。因此,用户必须选择额外的属性以能够通过其而确立所述连接。当两个或更多个数据目标表格的列映射到目标表格时,也可以自动插入连接。如果表示外键列的数据目标属性被映射时,通过使用表示数据目标列的额外的、用户定义的属性连接目标表格和参考表格而在参考表格中查找对应ID。在实施例中,临床试验数据管理本体(CTDMO)被用作参考本体101并作为描述数据目标数据库107的基础。针对每个数据源102,实施不同的本体104。然而,在一些实施例中,CTDMO以及数据源本体104遵循相同的建模规则。可以用OWLLite语言对本体建模。将不表示关系的属性建模为本体中的数据特性,并且必须具有指定的数据类型。概念之间的关系必须在本体中建模为对象属性。1η的关系由功能对象属性表示。必须在关系的η侧概念处定义对象属性。将11的关系建模为功能及逆功能对象属性,并被分配到关系的η侧的概念。将ηm的关系建模为没有约束的对象属性。能够将该属性分配给一侧或另一侧。针对对象属性中的每个,必须定义参考概念。在实施例中,提供用户界面用于辅助用户创建数据源本体104、105。在实施例中,用户能够通过提供数据源本体104和从CTDMO101中选择的特定概念之间的若干链接来创建新的数据集成模块,例如SQLkrver集成服务包以及额外的信肩、ο在实施例中,数据集成模块是定义了除其他以外的文件、数据库及数据处理从而将来自不同源102的数据集成为一个目标107的描述。为了创建数据集成模块,用户以视觉方式将数据源本体102概念的属性链接到所选择的CTDMO概念的属性。在针对新的模块提供一些额外信息之后,网络服务基于映射和额外信息自动创建包。这里,额外信息可以包括对以下操作的安排数据集成模块的运行、文件处理(当数据源是文件类型时),例如从远端位置复制并删除文件、文件归档。图3示出了实施方法100的实施例的架构200。架构200是基于作为参考本体201的CTDM0。然而,可以使用遵循相同建模规则的任何其他本体。可以借助于本体编辑器211针对每个新的临床研究对CTDMO201进行扩展。由数据源本体202描述数据源207、208、209,并由CTDMO201或者其部分定义目标数据库M0。用户221在用户界面230上从参考本体201中选择概念,以创建针对临床研究数据库MO的关系模式。将参考本体201的选择与数据源本体202之间的映射转换到数据集成模块。包括在网络服务器252中的网络服务253处理数据库模式以及数据集成模块观0的生成,并最优地将其存储在数据库或者文件系统中。这是借助于数据库服务器2M实现的,所述数据库服务器2M包括处理数据集成模块观0的数据集成设施270。根据两个本体的概念与属性之间的映射,可以组合数据集成模块,即从数据源207、208、209提取数据并将其载入到数据目标240的过程。这里,由独立的本体201、202描述数据源207、208、209和数据目标240两者。元表示260链接数据源207、208、209与数据目标240的关系和本体表示。假定能够以关系的方式表示数据源207、208、209中的每一个。网络服务器252和数据库服务器2M包括在应用服务器250内。然而,网络服务器252及数据库服务器245也可以安装在两个独立的服务器上。在根据图4的实施例中,提供了模块40。所述模块包括第一单元41,其用于访问包括与参考本体101的第一概念或属性相关联的至少一个表格的目标数据库107。所述模块还包括第二单元42,其用于针对包括数据集的数据源102定义数据源本体104的数据源本体,所述数据源本体104包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同。此外,所述模块包括第三单元43,其用于创建所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。在实施例中,模块还包括用于创建数据集成模块以及将所述链接存储到数据集成模块的单元44。所述模块可以还包括用于将所述数据存储到目标数据库107的相应表格中的单元45。在实施例中,单元45被配置为运行所创建的数据集成模块。因此,从数据源102中提取数据并且将其载入到目标数据库107中。在实施例中,用于创建链接的第三单元43连接到用户界面,以将数据源本体104的概念或属性手动链接到参考本体101的一个概念或属性。在实施例中,提供了一种计算机程序产品。所述计算机程序存储在计算机可读介质中,包括软件代码,当在数据处理装置上运行时,所述软件代码实现执行根据一些实施例的方法100的步骤。本发明可以以包括硬件、软件、固件或其任意组合的任何适当形式实现。然而,优选地,本发现实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。可以以任何适当形式在物理上、功能上和逻辑上实现本发明实施例的元件和部件。实际上,可以在单一单元、多个单元或作为其他功能单元的一部分实现所述功能。因此,本发明可以在单一单元中实现,或者可以在物理上及功能上分布在不同单元和处理器之间。应当认识的是,可以将上述实施例进行组合而不脱离所附专利权利要求所限定的范围。尽管以上已经参考特定实施例描述了本发明,但并非旨在将本发明限于本文所述的特定形式。更确切地说,本发明仅受权利要求的限制,并且除以上具体实施例以外的其他实施例在这些所附权利要求的范围内是同样可能的。在权利要求中,术语“包括”不排除存在其他元件或步骤。此外,尽管是单独列出,但是可以通过例如单个单元或处理器实现多个装置、元件或方法步骤。另外,尽管单个特征可以包括在不同权利要求中,但是将他们进行组合可能是有利的,并且包含在不同权利要求中不意味着特征的组合是不可行的和/或不利的。另外,单数指代不排除多个。术语“一”、“一个”、“第一”、“第二”等不排除多个。权利要求中的附图标记仅作为阐明示例而提供,并非解释为以任何方式限制权利要求的范围。权利要求1.一种方法,包括访问(110)包括与参考本体(101)的第一概念或属性相关联的至少一个表格的目标数据库(107);针对包括数据集的数据源(10定义(120)数据源本体(104),所述数据源本体(104)包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同;以及创建(140)所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。2.根据权利要求1所述的方法,还包括通过利用所述链接将所述数据存储(160)到所述目标数据库(107)的相应表格中。3.根据权利要求1所述的方法,还包括将所述链接存储(150)到数据集成模块(观0)中。4.根据权利要求1所述的方法,其中,创建(140)所述链接还包括组合查询,所述查询针对所述第一概念或属性以及与所述第二概念或属性的所述链接。5.根据权利要求1所述的方法,其中,所述目标数据库(107)是关系数据库。6.根据权利要求1所述的方法,其中,定义(120)所述数据源本体还包括提供用于将所述数据源(102)的关系模式表示转换为本体(104)的用户界面030)。7.根据权利要求1所述的方法,还包括链接(13所述目标数据库的本体表示(101)与所述目标数据库的关系表示(107),以及链接(13所述数据源的本体表示(104)与所述数据源的关系表示(102)。8.根据权利要求7所述的方法,其中,链接所述本体表示(101、104)与所述关系表示(107,102)还包括借助于元表示记录关系。9.根据权利要求1所述的方法,其中,所述数据源(10包括临床试验的医学数据。10.一种存储在计算机可读介质上的计算机程序产品,包括当在数据处理装置上运行时适于执行根据权利要求1所述的方法的步骤的软件代码。11.一种模块(40),包括:第一单元(41),其用于访问包括与参考本体(101)的第一概念或属性相关联的至少一个表格的目标数据库(107);第二单元(42),其用于针对包括数据集的数据源(10定义数据源本体,所述数据源本体(104)包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同;以及第三单元(43),其用于创建所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。12.根据权利要求11所述的模块,还包括第四单元(45),其用于通过利用所述链接将所述数据存储到所述目标数据库(107)的相应表格中。13.根据权利要求11所述的模块,还包括第五模块(44),其用于将所述链接存储到数据集成模块Q80)中。14.根据权利要求11所述模块,其中,将用于创建链接的所述第三单元连接到用户界面O30),以将所述数据源本体(104)的所述第二概念或属性链接到所述参考本体(101)的所述第一概念或属性。全文摘要提供了一种方法。所述方法包括访问(110)包括与参考本体(101)的第一概念或属性相关联的至少一个表格的目标数据库(107);针对包括数据集的数据源(102)定义(120)数据源本体(104),所述数据源本体(104)包括第二概念或属性,其中,所述第二概念或属性与所述第一概念或属性不同;以及创建(140)所述第二概念或属性与所述第一概念或属性之间的链接,所述链接定义与所述第二概念或属性相关联的所述数据集的数据和所述目标数据库的哪个表格相关。文档编号G06F17/30GK102246160SQ200980149370公开日2011年11月16日申请日期2009年12月7日优先权日2008年12月12日发明者A·布劳尔斯,A·施迈因克,C·J·奎克索,S·盖斯勒申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1