从语义数据的信息提取的制作方法

文档序号:9693243阅读:514来源:国知局
从语义数据的信息提取的制作方法
【专利说明】从语义数据的信息提取
【背景技术】
[0001] 除非在本文中另外表明,否则本部分中所述的方法对于本申请中的权利要求来说 不是现有技术并且不由于包括在本部分中而被承认是现有技术。
[0002] 大量语义数据可从计算机访问。例如,大量语义数据在万维网(WWW)上是可获得 的。由于巨大量的语义数据,从语义数据提取信息(例如,通过使用计算机等)可能是困难 的。

【发明内容】

[0003] 本文中描述了用于从万维网上的语义数据提取信息的各种说明性方法。示例方法 可包括:至少部分基于与语义数据对应的本体的多个声明来从该本体产生多个断言;至少 部分基于信息表示语言的语法来确定信息候选;并且至少部分基于所述多个断言来验证信 息候选。
[0004] 本公开还描述了具有存储在其中的指令的各种示例机器可读非暂态介质,运些指 令当被一个或多个处理器执行时操作地使得语义数据处理模块实现:至少部分基于术语集 合(Tbox)分类和断言集合(Abox)采样来从与语义数据对应的本体产生多个断言;至少部分 基于信息表示语言的语法来确定信息候选;并且至少部分基于所述多个断言来验证信息候 选。
[0005] 本公开另外描述了示例系统。示例系统可包括处理器和通信地禪合到处理器的语 义数据处理模块,该语义数据处理模块被配置为:至少部分基于术语集合(Tbox)分类和断 言集合(Abox)采样来从与语义数据对应的本体产生多个断言;至少部分基于信息表示语言 的语法来确定信息候选;并且至少部分基于所述多个断言来验证信息候选。
[0006] 前述概要仅仅是说明性的,而并不意图W任何方式是限制性的。除了说明性的方 面,上述实施例和特征、另外的方面、实施例和特征将通过参考附图和下面的详细描述而变 得显而易见。
【附图说明】
[0007] 主题在本说明书的结论部分中被具体地指出和清楚地要求保护。通过结合附图进 行的W下描述和所附权利要求,本公开的前述和其它特征将变得更充分地显而易见。理解, 运些附图仅仅描绘了根据本公开的几个实施例,因此,不应被认为是限制其范围,将通过使 用附图来更具体地、更详细地描述本公开。
[000引在附图中:
[0009] 图1说明被配置为从WWW上的语义数据提取信息的系统的框图;
[0010] 图2是用于从WWW上的语义数据提取信息的示例方法的流程图;
[0011] 图3说明示例计算机程序产品;W及
[0012] 图4说明示例计算装置的框图,所有附图都是依照本文所述的至少一些实施例来 安排的。
【具体实施方式】
[0013] W下描述阐述了各种示例、连同特定细节W提供要求保护的主题的透彻理解。本 领域技术人员将理解,要求保护的主题可在没有本文中公开的特定细节中的一些或多个的 情况下被实施。此外,在一些情况下,未对公知的方法、过程、系统、部件和/或电路进行详细 描述,W便避免不必要地模糊要求保护的主题。
[0014] 在W下详细描述中,对附图进行参考,所述附图形成详细描述的一部分。除非上下 文另外指示,否则在附图中,相似的符号通常标识相似的部件。在详细描述、附图和权利要 求中描述的说明性实施例并不意味着是限制性的。在不脱离本文所提供的主题的精神或范 围的情况下,可W利用其它实施例,W及可W进行其它改变。将易于理解的是,如在本文中 一般地描述的和在图中示出的那样,本公开的各方面可广泛多样的不同配置被布置、 替代、组合和设计,所有运些都被明确地构想,并且构成本公开的一部分。
[0015] 本公开尤其是针对与从语义数据提取信息相关的方法、装置、系统和计算机可读 介质进行描写的。
[0016] 大量语义数量是可获得的(例如,在WWW上、在LAN上、在数据中屯、中、在服务器上 等)。可获得的语义数据可对应于各种不同的对象(例如,科学、历史、体育、经济、社会、技术 等)。由于大量可获得的语义数据,从语义数据提取信息(例如,模式、统计、推论、可能有用 的事实等)可能是困难的。例如,与癌症相关的大量语义数据在WWW上是可获得的。从语义数 据提取信息(例如,癌症的可能原因等)可能是困难的。
[0017] 另外,用于从存储在数据库中的数据提取信息的一些技术可能不适用于从语义数 据提取信息。更具体地说,因为存储在数据库中的数据可能具有不同于语义数据的格式(例 如,基于关系的VS基于图表的,等等),所W用于从存储在数据库中的数据提取信息的技术 可能不适用于从语义数据提取信息。
[0018] 一般地,语义数据可至少部分基于术语集合(Tbox)分类和断言集合(Abox)采样被 组织。一般地,TBox分类可定义语义数据内的概念和/或角色之间的关系。ABox采样可通过 使用TBox定义的概念和角色来描述关于一个或多个实体的信息。作为示例,语义数据可对 应于住院的患者。运样的语义数据可具有描述概念"住院患者"的TBox分类。语义数据还可 具有描述任何数量的作为"住院患者"的实体(例如,人、动物等)的ABox采样。
[0019] 可提供本文中所述的用于从语义数据提取信息的各种实施例。在一些示例中,可 通过如下操作来从语义数据提取信息,即,从语义数据产生断言,从语义数据确定信息候 选,并且使用产生的断言来对确定的信息候选应用验证过程。本文中呈现的一些示例可描 述从在WWW上可获得的语义数据提取信息。然而,运并非意图限制。例如,可从在数据中屯、 中、在LAN上、在服务器上等可获得的语义数据提取信息。
[0020] 在一些示例中,禪合到互联网的计算装置可被配置为既从在WWW上可获得的语义 数据产生断言、又从该语义数据确定信息候选。该计算装置可被进一步配置为至少部分基 于产生的断言来验证确定的信息候选。
[0021] 计算装置可至少部分基于TBox分类和/或ABox采样来从与语义数据对应的本体产 生多个断言。在一些实施例中,计算装置可通过将在ABox采样中引用的实体分配给来自 TBox分类的概念和/或角色(例如,基于概念层次树和/或基于角色层次树)来产生断言。可 替换地和/或另外地,计算装置可通过标识ABox采样中的模式(例如,被ABox采样中的大多 数断言使用的模式或诸如此类的模式)来产生断言。
[0022] 计算装置可至少部分基于"简单性规则"来确定信息候选。例如,信息候选可被限 制为特定长度。在一些示例中,长度可基于信息表示语言的语法。计算装置可至少部分基于 "新颖性规则"来确定信息候选。例如,信息候选可被要求是"新的"(例如,TBox尚未描述的、 诸如此类)。
[0023] 计算装置可至少部分基于产生的断言来验证确定的信息候选。在一些实施例中, 计算装置可至少部分基于"多数决定规则"来验证信息候选。例如,计算装置可确定满足大 多数或产生的断言的信息候选。
[0024] 图1说明根据本文中所述的至少一些实施例布置的、被配置为从WWW上的语义数据 提取信息的示例系统100。如所描绘的,系统100可包括被配置为从WWW上的语义数据提取信 息的计算装置110。一般地,计算装置110可被配置为从WWW上的一些语义数据产生断言并确 定信息候选。例如,计算装置110可被配置为从在WWW上可获得的与癌症的一个或多个原因 相关的一些语义数据产生断言并确定信息候选。计算装置110可进一步被配置为至少部分 基于产生的断言来验证确定的信息候选。下面将在讨论图1和图2的同时W及在本文中的其 它地方提供计算装置110从语义数据产生断言的更多细节和示例。
[0025] 如该图中所描绘的,计算装置110可经由连接140访问在WWW 130上可获得的语义 数据120。在一些实施例中,计算装置110可访问如本文中所述的足W供计算装置110产生断 言并确定信息候选的一定量的语义数据120。计算装置110可W是可连接到互联网的任何类 型的计算装置。例如,计算装置110可W是膝上型计算机、台式计算机、服务器、虚拟机、云计 算系统、分布式计算系统等。连接140可W是与互联网的任何类型的连接。例如,连接140可 W是有线连接、无线连接、蜂窝数据连接等。
[00%]语义数据120可W是使用TBox分类122和ABox采样124来描述实体和运些实体与概 念和/或角色的关系的任何本体。TBox分类122可包括描述概念层次(例如,概念之间的关 系)和/或角色层次(例如,角色之间的关系)的句子。ABox采样124可包括陈述一个或多个实 体属于层次中的哪里的句子(例如,实体和概念之间的关系)。
[0027] TBox分类和ABox采样促进或允许确定近似的ABox,因为完整ABox的计算(所有隐 式断言的派生)可能是困难的,尤其是对于非常大的语义数据集合。另一方面,更隐式的断 言允许或关连更精确的ABox采样,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1