按需语义数据仓库的制作方法_2

文档序号:8287878阅读:来源:国知局
用会聚服务以查询数据并对其进行变换来解析其URI时按需构造的。
[0061]实体表示被叙述为RDF 并例如使用 N-Triples、Turtle、Notat1n3 (N3)或 RDF/XML格式串行化。
[0062]在一个实施例中,使用实体图表SPARQL端点的使用者可以发布作为数据图表的实体图表上的SPARQL查询以查询特定数据。
[0063]例如,可以针对作为PATIENT的实体创建实体图表。实体图表可包含病人的姓、名、检查等和获得所需数据所需要的数据源。实体图表还具有将用RDF来描述实体PATIENT的方式的模板。
[0064]在本发明的一个实施例中,首先创建使用本体论来表示的域图表,其形成域本体论。
[0065]此域图表限制可能的域查询,指定实体表示并给出映射规则的范围。
[0066]一旦定义了域图表,则可以识别并整合数据源,其将提供用于域图表的数据(的一部分)。此整合通过使数据管理器将映射规则从用DDO表示的数据写入到用DO表示的数据的来完成。
[0067]在图2和图3中分别地图示出语义数据仓库中的在开发时间和在运行时间两者的临床数据形式化和分析的过程。
[0068]开发时间:
在开发时间,创建包含启用该过程的所有所需资源的‘形式库’。
[0069]在步骤I中,在本示例中从来自2个医院的2个不同临床信息系统(两者具有不同的数据库)选择可适用数据源。两者都包含关于相同病人但被不同地存储的数据,因此不能使用SQL在‘操作’非正式层级以自动化方式在其之间在语义上共享数据。出于此原因,必须将数据的语义转换成启用数据整合的形式化。
[0070]为了启用其数据的语义整合,两个数据资源都应优选地提供数据源SPARQL端点,其使得能够使用用数据源特定数据定义本体论(DDO)表示的查询来查询数据。用RDF/S和OffL来声明DD0。这以“本地”形式语义提供实际数据形式化。
[0071]在步骤2中,针对每个SPARQL端点,用对应DDO的形式元素和由占位符指定的要应用的所需过滤条件来叙述一系列数据SPARQL查询(DSQ)模板。这些查询将取回用于填充实体图表的数据。DDO和DSQ存在于“本地形式世界”中。
[0072]在步骤3中,创建或重新使用域本体论(D0)。其包含从DDO的本地形式语义解耦的任何种类的域知识(临床和非临床)的“全局”形式语义。DO也是以RDF/S和OWL声明的。
[0073]步骤4包括针对数据源中的每个创建用N3书写的转换规则。此类规则的前提主要包含用DDO形式化表示的本地语义。结论包含用DO形式化表示的全局语义。这些规则提供了用于通过将本地形式语义转换成全局形式语义来将数据进一步形式化、即“全局化”的非常强大且灵活的手段。
[0074]针对此全局化,可以使用除特定转换规则之外的其它资源:实例映射文件、一般转换规则以及嵌入件。
[0075]创建或重新使用实例映射文件。例如在数据库中,数值代码或文本或两者的混合表示临床数据。在DDO形式化中存在‘纯文字(plain literals)’。其需要额外的限制以使得其语义是显式的,因此作为形式实例,其被指派数据类型。这样,可以在此类映射中将其映射到DO类。例如,在临床信息系统的数据库中,分别地用UniProt分类代码和ATC代码来表示用于细菌和药物的临床术语。这些代码的形式数据类型实例被链接到对应的DO类。
[0076]嵌入件是用混合程序说明性语言序言或纯说明性语言表示的且被推理器用来执行所有种类的推断和计算,例如从时间表示中提取时区或将一个时间表示转换成另一个。还用本体论来叙述用以表示它们的形式元素。示例是例如性质math: sum从其调用嵌入件以添加2个数的‘数学’本体论。
[0077]与一步形式化相比,两步形式化、即实际形式化和全局化的优点是可缩放性和更大的表达性。转换规则连同数据源映射和实例映射确保由于上述语义的解耦而引起的可缩放性。如果数据源仅改变一例如编码系统的替换一DD0,则必须使数据源映射和实例映射适于操作语义而不是所有其它DDO也被转换到的D0。解耦在一步方法中还允许DO比本体论更具表达性,因为允许语义间隙较大。为了使得DDO语义为完全显式的,需要此较高的表达性,意味着更多的类和性质以表达在DDO中仍为隐式的额外知识。这导致不同数据源的语义的更好统一和DO中的域知识的更稳定表达。该表达性被输出N3规则的结论的EYE推理器使用。
[0078]在步骤5中,创建或重新使用N3规则来对形式数据进行分析/综合,即以通过在规则的前提中叙述的所有种类的计算从现有的事实推断新事实。例如,考虑年龄、性别和可能的单位转换,针对实验室测量值范围来计算体重指数或检查病人实验室结果。
[0079]在步骤6中,定义N3查询以使用DO来投射(构造)实体图表表示。
[0080]可以通过应用开发步骤2和4,通过开发新的插件来向语义数据仓库添加附加数据源。接下来,应在数据仓库中部署所得到的插件。语义数据仓库软件本身不需要被改变。
[0081]运行时间:
在步骤I中,数据使用者选择发布实体图表上的SPARQL查询(步骤Ia)或取回完整的实体图表(步骤lb)。
[0082]在步骤Ia中,数据使用者说明命名实体图表的URL作为SPARQL查询的数据图表并将其发送到实体图表SPARQL服务以用于执行。
[0083]在步骤Ib中,数据使用者说明命名实体图表的URL。
[0084]在步骤2中,实体图表SPARQL服务或数据使用者解析命名实体图表的URL以取决于在步骤I中进行的选择来取回实体图表表示。
[0085]在步骤3中,针对命名实体图表URL登记的实体图表服务基于模板而生成DSQ并填充用于所识别数据源中的每个的所需占位符并调用会聚服务。
[0086]在步骤4中,会聚服务用对应的DSQ来调用数据源SPARQL端点中的每个。
[0087]在步骤5中,会聚服务取回这些DDO表示数据集合并使用转换N3规则以及实例映射文件、一般转换规则和嵌入件将其转换成采用DO语义的整合“全局”形式数据。
[0088]还可以由推理器来断言DO而不仅仅是参考。这样做来获得例如某个药物的子类和类的实例一例如在类的实例的列举中一以及代码与类的匹配,例如用于实验室测试。
[0089]在步骤6中,分析已转换数据并用在实体图表服务中登记的分析N3规则进行综入口 O
[0090]在步骤7中,执行N3投射查询以由实体图表服务来生成实体图表表示。
[0091]在步骤8 (可选)中,使用实体图表SPARQL服务来查询实体图表表示。
[0092]在步骤9中,将来自步骤7或来自步骤8的结果集合返回给数据使用者。
【主权项】
1.一种用于创建语义数据仓库的系统,其包括用于向连接的数据源执行查询、将来自源的数据转换成域语义并将已转换数据聚合的会聚服务,其特征在于 一所述会聚服务被需要的实体图表服务调用一定义语义实体图表表示、所需查询和要查询的数据源,以及一对来自所述数据源的实体图表数据进行变换并使得所述语义实体图表表示中的已变换数据可用。
2.根据权利要求1所述的系统,其中,借助于命名实体图表来提供所述实体图表表示。
3.根据权利要求2所述的系统,其中,用URL来表示所述命名实体图表。
4.根据权利要求3所述的系统,其中,使用发现图表来找到命名实体图表的URL。
5.根据权利要求3所述的系统,其中,可以解析命名实体图表的所述URL以取回实体图表。
6.根据权利要求3所述的系统,其中,将命名实体图表的所述URL用作实体图表SPARQL服务中的数据图表。
7.根据权利要求2所述的系统,其中,对所述命名实体图表进行划分。
8.根据权利要求7所述的系统,其中,定义命名实体图表,其在需要时将命名实体图表的所述划分重组。
【专利摘要】一种用于创建语义数据仓库的系统,其包括用于向连接的数据源执行查询、将来自源的数据转换成域语义并将已转换数据聚合的会聚服务,其特征在于—所述会聚服务被需要的实体图表服务调用—定义语义实体表示、所需的查询和要查询的数据源,以及—在所述语义实体表示中投射所得到的数据并使得其可用。
【IPC分类】G06F17-30
【公开号】CN104603781
【申请号】CN201380045887
【发明人】K.德普拉伊特雷, G.梅斯, D.科拉尔特
【申请人】爱克发医疗保健公司
【公开日】2015年5月6日
【申请日】2013年9月3日
【公告号】EP2704029A1, US20150205886, WO2014033316A1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1