按需语义数据仓库的制作方法

文档序号:8287878阅读:340来源:国知局
按需语义数据仓库的制作方法
【技术领域】
[0001]本发明涉及数据仓储,更具体地涉及临床或医院环境中的数据仓储。
【背景技术】
[0002]近年来,已存在从用于管理目的的医院信息系统朝向更专用临床信息系统的过渡以支持临床工作流(workflow)和决策制定。
[0003]临床数据不仅被存储在医院中,而且在一般实践、私人专家实践及其它保健环境处,例如针对老年人的家中。将必须创建许多新数据源以改善数据质量或提供特定信息。
[0004]随着病人及其临床数据成为保健系统的中心且经济情况变得更加重要,必须连接不同的数据源,不仅是在单个病人层级,而且在群体层级,以执行例如流行病研宄以支持决策制定。
[0005]一个信息系统中的数据存储与另一系统的存储模型相差很大。该数据库具有非常可变的图式,即其数据的意义或语义相差很大。
[0006]例如,在名为ORBIS的Agfa HealthCare的临床信息管理系统中,除命名‘自然人’之外还存在命名‘病人’。另一临床信息系统不一定进行此区别。
[0007]为了有效地连接这些系统,必须由通过其语义在尽可能大的规模的统一来将其数据整合而使得其可共同操作(interoperable)。
[0008]为了在计算机上使不同种类的数据语义统一,其必须是清楚的且形式的(formal)。
[0009]这通过用全局形式语言表达数据来实现,其中语义是清楚的,即由限制语义的解释并消除多义性的模型理论(基于一阶逻辑和集合理论(数学))指定。
[0010]环球网集团(W3C)通过在2001年发起语义网来为实现这一点做准备。
[0011 ] 语义网技术包括全局形式语言以表达形式数据及其它资源,诸如用以捕捉临床和非临床领域知识的本体论(ontology)以及被推理器(reasoner)用来转换语义并对形式数据进行分析/综合的规则。
[0012]已经开发了对临床数据进行形式化和进行形式分析的方法。
[0013]作为对决策制定的支持,已开发了数据仓库。数据仓库是从各种其它数据库提取的数据的储存库。数据仓库识别所提取数据并使得重新组织的数据可用于商业智能应用。
[0014]在开放环境中应用数据仓储,这意味着诸如请求数据的商业智能应用之类的应用需要识别要查询的数据源。
[0015]考虑请求可能需要来自多种数据源的数据的事实,存在对这些数据源的优化识别的需要。

【发明内容】

[0016]本发明提供了一种用于创建数据仓库的系统,包括用于向连接的数据源执行查询、将来自源的数据转换成域语义并将已转换数据聚合的会聚服务,其特征在于一所述会聚服务被实体图表服务调用,其在需要时定义语义实体表示、所需查询和要查询的数据源,并在所述实体表示中投射所得到的数据且使得其可用。
[0017]在本发明的上下文中,会聚服务是被设计成支持通过环球网的可共同操作交互的软件系统。
[0018]会聚服务被实体图表服务调用。
[0019]会聚服务执行将在数据源中可用的用数据定义本体论(DDO)表示的数据转换到实体图表所使用的用域本体论(DO)所表示的数据并将所得到的数据聚合。
[0020]转换服务将形式说明规则用于转换过程。
[0021]为了能够从每个具有不同本地语义的不同数据源为用户提供统一数据视图,使用实体图表服务,其在需要时通过指定哪些数据需要从所识别数据源取回、调用会聚服务以从不同的数据源取回数据并将数据从本地语义转换成域本体论以及将结果投射到定义实体表示的模型来产生实体图表。
[0022]在RDF (资源描述框架)中说明了实体表示。
[0023]所述实体表示在本发明中由用URL表示的命名实体图表提供。
[0024]实体图表是基于使用情况在需要时构造的。
[0025]这些实体图表是具有来自不同数据源的数据的统一的特定可配置实体表示。
[0026]实体图表包括主题(实体)和针对此主题的与被某个配置认为相关的其它主题的所有相关关系。
[0027]可使用也是实体图表的发现图表来找到命名实体图表的URL。发现图表描述命名实体图表的特性。关于这些特性的查询允许用户找到命名实体图表的对应URL。
[0028]可将实体图表用作实体图表SPARQL端点中的数据图表以提供对关于命名实体图表的查询的答复。
[0029]实体图表SPARQL端点可提供高速缓存功能以将实体表示的生成高速缓存。
[0030]可通过解析命名实体图表的URL来取回实体图表的形式表示。
[0031]可以针对目标数据使用者数据图式和配置的实体图表中的每个来定义特定ETL(提取-变换-加载)过程。
[0032]数据仓库在需要时暴露域实体图表。
[0033]可以通过允许开发附加独立插件(plug-1n)以使新实体图表暴露而在开发时对数据仓库进行缩放。不需要修改(adapt)用于现有实体图表的插件。
[0034]本发明的数据仓库与现有技术数据仓库之前的主要差别是本发明的数据仓库使用形式语义网络技术机制来在域之间、更具体地在数据源的域与数据仓库的域之间进行转换。使用形式说明规则来说明转换过程。
[0035]此外,按需服务以时间刚刚好为基础来从数据源取回所需数据。这与其中经由被规划成根据预定义时间表运行的提取-变换-加载程序来填充数据仓库的现有技术大不相同。
[0036]此外,其允许用所述插件来进行递增的扩展。
[0037]本发明的有利之处在于仅在运行时间且在需要数据时获取所需的数据。
[0038]为了能够在合理的存储器约束内处理巨大的实体图表,可将实体图表划分成从而适合托管机器的存储器,即按比例放大到单个系统上。
[0039]为了能够在合理的计算时间约束内处理巨大的实体图表,可将实体图表划分成从而执行并行处理,即跨多个系统超出尺寸范围(scale out)ο
[0040]然后可以定义虚拟实体图表,其在需要时将已划分实体图表重组成单个实体图表。
[0041]在一个实施例中,将每个已划分实体图表的结果连续地流出以重组成单个实体图表。
[0042]根据以下描述和附图,本发明的更多的优点和实施例将变得显而易见。
[0043]可以将本发明实施为适于执行在本描述中阐述的步骤的计算机程序产品。
[0044]可以将适于执行在本描述中阐述的步骤的计算机可执行程序代码存储在计算机可读介质上。
【附图说明】
[0045]图1示出了根据本发明的数据仓库的概念图,
图2图示出语义数据仓库的开发时间方面,
图3图示出语义数据仓库的运行时间方面。
【具体实施方式】
[0046]在图1中示出了根据本发明的数据仓库且其主要由会聚服务和实体图表服务组成,后者被布置成能够调用会聚服务。会聚服务通过SPARQL端点而连接到多个数据库,使得能够经由SPARQL语言来查询知识数据库。
[0047]可以由类似于商业智能工具或i2b2应用或其它查询应用之类的数据使用者来查询数据仓库。
[0048]替换地,数据仓库允许在不指定查询的情况下取回完全实体表示。
[0049]会聚服务负责:
一多个域的配置,即用于数据源中的每个的所需DDO至DO映射文件、数据源位置及其相应的所需访问证书。
[0050]一在对应数据源的SPARQL端点上调用被参考的DDO查询。
[0051]一加载用于指定域的所需DDO至DO转换规则。
[0052]—使用加载DDO至DO转换规则针对每个源将DDO数据转换成D0。
[0053]一将来自指定数据源的已转换结果聚合。
[0054]一返回已聚合和已转换数据集。
[0055]在特定实施例中,将会聚服务实施为被暴露为网络服务的SPARQL端点。
[0056]会聚服务使用转换规则来执行DDO至DO映射。
[0057]转换服务在本领域中是已知的。然而,为了能够在开放环境中操作,调用者(caller)将需要指定所需源以对可以导致提取(abstract1n)违背的查询求解。为了解决此问题,在本发明中引入了实体图表和实体图表服务的概念。
[0058]实体是DO概念,其为图表的主要主题,即其为图表的中心且此主题被连接到其它主题。实体图表包括主题、性质和对象。判定哪些主题、性质和对象被认为是相关的以在图表中提到是实体图表的设计师的责任。
[0059]在本发明中,实体图表为命名实体图表,即实体被指派URI。当解析URI时,因为其实际上是HTTP URL,所以使用者可以取回整个实体图表。
[0060]命名图表是在通过调
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1