由计算机使用的从自然语言文本开发本体的方法

文档序号:6612351阅读:137来源:国知局
专利名称:由计算机使用的从自然语言文本开发本体的方法
技术领域
本发明一般涉及本体。更具体地涉及一种计算机使用的、用于从自然 语言的文本开发本体的方法。
背景技术
在本说明书中,以下术语除非特别指出都以所指明的意义被使用一 "本体"本体是组织成图的被组织起来的结构化集合,所述图的 关系例如可以是语义关系或组合和继承关系(在对象的意义上)。本体的 目的是对给定领域中的知识集合进行建模。-"OWL"是一种Web本体语言,设计用于必须不仅向用户呈现信 息而且还处理其内容的应用。OWL是基于RDF (资源描述框架)语法的 XML "方言",是指用于描述元数据和用于该元数据的特定自动处理的图 模型。OWL提供用于定义结构化Web本体的方法。由于补充词汇和格式 化语义,OWL语言向机器提供比通常例如使用XML更大的解释Web内 容的能力。OWL由提供递增的表达性的三种子语言组成OWL Lite (或 OWL ) 、 OWL DL和OWL Full。 OWL誦S (其中S代表"语义")是面 向"语义"的,其至今仅作为建议存在,并且还未被标准化。-"Web服务"是指互联网上可经由标准接口访问的应用,它可以独 立于所使用的操作系统和编程语言使用例如基于XML的通信协议与应用 或其它Web服务动态交互。同样,在其接口级,Web服务包括基于输入 数据或"输入M"提供结果的处理操作。为使用Web服务,其操作中的 一个4皮调用,并被提供以期望的输入数据,以及恢复输出结果。-"UML"(统一建模语言)是指一种用于借助于对象建才莫的符号
(而非语言),其用于在其开发期间确定和呈现对象系统的部件,以及在适当的情况下生成其文档。UML当前是OMG标准。它通过合并Jim Rumbaugh、 Grady Booch和Ivar Jacobson的工作而产生,并且已通过众 多方式发展。- "语义Web"是指用于发布、咨询以及最重要的对格式化知识的处 理进行自动化的万维网的扩展,这意味着,由语义Web处理的文档包含将 被自动处理的格式化信息,而不是自然语言的文本。-"XML"(可扩展标记语言)SGML语言的演进,它特别被HTML 文档设计者用于为个人化数据结构而定义自己的标记。现代电信技术,特别是互联网,使用户能够快速访问多种服务。在该 领域中,语义Web正在全面扩展,特别当涉及用于使用语义方法、借助于 现有服务开发服务的应用时。在这点上,越来越多Web服务配备了本体或 更一般的语义描述。在本文中,发明人自己已设定了找到以下问题的解决方案的目的自 动产生自然语言文本的语义描述(例如经由语义图,或换句话说本体)。 该文本可以例如对应于以自然语言书写的用户查询。具有这样的查询的语 义描述例如将有助于对对应于该查询的Web服务的搜索。目前,不存在所述问题的任何自动解决方案。已知一种手动解决方案, 该方案在于使用例如Prot6g6或MindManager的语义工具或者甚至例如 Rational Rose、 Softteam Objecteering、 IBM-Rational XDE或Microsoft UML Visio的UML建模工具"手动"建立语义描述。实际上,凭借其特 定构造,UML可以覆盖语义描述所需的所有概念单元继承、聚合或关 联关系、属性、版型、基本数据和标记值、约束等。然而,这样的解决方案并不令人满意,主要因为它是完全手动的。因 此,它实现起来冗长并且易于出错。此外,该解决方案是主观的结果取 决于用户。该解决方案的结果是所获得的描述中缺乏一致性。因此需要一种用于从文本数据自动(即通过计算机)产生对应于该文 本的自然语言文本的语义描述的解决方案
发明内容
为此,本发明提出了一种计算机使用的、用于开发自然语言文本的本体的方法,该方法包括以下步骤 -从所述文本接收文本数据;-经由对所接收的数据的语法分析,从所述文本中提取语法和有意义 的词;-对所述有意义的词中的至少一些的每一个借助于至少一个电子词 典搜索该词的定义,提取该定义的语法和有意义的词,并且,基于该定义 的语法和有意义的词创建该定义的基本词汇图;以及-根据所述文本的语法合并所创建的基本词汇图中的至少两个,以便 创建所述文本的至少 一个语义图。本发明的方法的优选实施例具有以下特征中的一个或更多-本发明的方法进一步包括在所述合并步骤之前,基于已提取的所述 文本的语法和有意义的词提取所述文本的有意义的词之间的关系的步骤, 其中,所述合并步骤基于所述文本的有意义的词之间的这些关系;-所述提取第一步骤进一步包括经由对所述文本的语法结构的语法分 析的提取,所述结构包括一个或更多语法组;并且,所述合并步骤进一步 基于所述提取的语法组,以便对于所述一个或更多提取的语法组的每个创 建至少一个语义图;-本发明的方法进一步包括对于所述文本的每一个有意义的词,借助 于所述至少一个词典搜索该词的同义词和那些同义词的定义的步骤,并且, 所述合并步骤进一步才艮据所述同义词的定义来实现;-本发明的方法进一步包括在所述合并步骤之前,对于每个有意义 的词,根据该有意义的词及其同义词的定义,对所找到的同义词分类的步 骤;并且,所述合并步骤进一步根据所述同义词的分类的结果来实现;-本发明的方法进一步包括消除未^接到已创建的所述至少一个语义 图的部件的步骤;-除所述文本数据接收步骤之外的所述步骤的每个在该文本数据接收步骤之后"在进行中"(on the fly)被实现;一所述至少一个语义图用例如OWL或RDF的基于XML的语言来格式化;-所述文本数据对应于服务查询的文本。本发明还提出了一种用于搜索Web服务的方法,包括以下步骤接收 通过本发明的用于开发本体的方法创建的所述至少一个语义图,以及根据 已接收的所述至少一个语义图搜索Web服务。本发明还涉及一种计算机程序和一种电子数据处理系统,所述电子数 据处理系统包括适于执行根据本发明的方法的步骤的代码装置。


通过阅读下面仅作为示例给出并且参考示例和附图的对本发明的实施 例的详细描述,本发明的其它特征和优点将变得显而易见,附图示出 -图1:示出本发明的方法的一个实施例步骤和部件的流程图; -图2:示出对于自然语言的用户查询的文本实现的语法分析的表格; -图3:从由图2表中示出的语法分析提取的有意义的词中获取的基 本词汇图集合;以及-图4:在合并基本词汇图和消除未链接到该图的部件的步骤之后获 得的图3的图。
具体实施方式
本发明的基本想法是使用一方面由语法分析器产生的信息以及另一 方面诸如同义词和定义的在一个或更多词典中找到的单元,直接从文本的 文本数据开发本体(即语义描述)。更详细地,本发明的方法包括接收所 述文本的文本数据的第一步骤。然后经由对所接收的数据的语法分析从其 中提取出语法和有意义的词。然后使用电子词典来搜索每个有意义的词的 定义,并且从其中提取出语法和有意义的词。然后基于该定义的语法和有 意义的词创建该定义的基本词汇图。然后合并对应于所述文本的有意义的
词的基本词汇图。该合并根据初始文本的语法来实现,以便创建所述文本 的至少一个语义图。本发明提供的解决方案是系统的,并且由此弥补了链 接到自然语言文本的本体的"手动"开发的缺点。该过程优选地在"集成"电子数据处理工具中实现,所述"集成"电 子数据处理工具例如是包括多个耦合的软件模块的助理或应用,所述模块 的每一个被分配了给定任务。图1示出了说明本发明的方法的一个实施例的步骤和部件的流程图。参考该图,首先接收对应于自然语言文本的文本数据IO。例如,该文 本是用户从PC、个人数字助理或移动电话(例如通过SMS)发送的查询 的文本。在步骤S100中,经由对接收的数据10的语法分析,从文本中提取出 语法(图1中未表示出)和有意义的词20。所述语法分析包括独立于意义 (其涉及语义;这将在随后描述)的对所述文本中的词的格式函数(formal function)的分析。该步骤可以借助于语法分析器来实现。这样的工具是 商业上可用的。该步骤在图2中示例,该图示出了将对于自然语言的文本10实现的典 型语法分析的各个方面分组的表格。所述查询包括文本"I want to obtain a French translation of CNN news (我想获得CNN新闻的法语翻译)"。在 该分析之后,仅有意义的词被保留,即"我(I)"、"想(want)"、"法 语(French),,、"翻译(translation)"等。这些被放置在所狄从左 边开始的第一列中。例如"一个(a)"、"那个(the)"的冠词和连接 词祐放弃。在下一列中,描述所述有意义的词的特征(人称代词、动词等)。 最后两列突出了所述有意义的词之间的关系。例如,"我"是(动词)"想" 的主语。再次参考图1,该方法进一步包括搜索每个提取的有意义的词M (M 是指处理文本的有意义的词)的定义40的步骤S200。该步骤必需典型地 为词汇词典的电子词典30,其中,从所述电子词典中提取出所述定义。语法和有意义的词m然后被从该定义中提取出,所述语法和有意义的
词m是该定义的概念40的基础。有必要区分出现在有意义的词M的定义 中的有意义的词m与该词M本身。从所述定义中提取语法和有意义的词 使所述定义的概念40客观化。如果需要,将还实现定义之间的意义比较, 这将使得在初始文本的有意义的词M之间建立关系。该步骤的结果是初始 文本的第一语义限定(valorization)。在步骤S300中,基本词汇图50针对每个定义即针对最初文本的每个 有意义的词M、基于每个定义的语法和有意义的词m被创建。然而,很 一般地链接到所述查询的意义的某些词(例如图2示例中的"我"和"想") 优选地,M弃。更一般地,除了诸如"我想"、"我希望"、"我需要" 等的描述查询的特征的表述之外,所有"有意义的"词被保留实词、动 词、形容词。由此,基本图针对所保留的每个词M被构造,但该图典型包 括该词M的定义的有意义的词m。在一定程度上,该"基本"图因此代 表词M的"微本体(micro - ontology)"。该方法优选地进一步包括搜索初始文本的每个有意义的词M的同义 词45以及搜索所述同义词的定义的步骤。同义词搜索可以例如采取对来自 有意义的词M的定义的词的同义词的系统搜索的形式。为此,该搜索可以 使用与定义的词典30分离的词典35。然而,可以使用结合了词的定义和 同义词的同 一数据库。同义词的定义典型地通过与初始文本的有意义的词 M相同的方式被客》见化。另外,词的同义词优选根据该词和其同义词各自的定义被分类。根据 分类的结果,仅"主要"同义词典型地被保留。"主要"同义词例如是指 定义的概念极大程度上与基准有意义的词的相同的那些。由此,基本图可以包括基准有意义的词M的同义词。图3示出了从借助于上文中描述的语法分析提取的有意义的词M (见 图2表)中获得的基本词汇图。参考该图,基本图由词"法语"、"翻译"、 "CNN"和"新闻"表示。主语和动词在该阶段已祐放弃,其分析已揭示 了用户的查询的意义。由此,初始文本的有意义的词的仅一部分可以实际 是基本图创建的对象。
这些图示出了源于定义提取的关系。在该图中,由实线包围的词是初 始文本的有意义的词。点线指示对象意义上的继承关系(或者换句话说,类到子类的关系)。例如,"法语"继承自"语言",而"CNN"继承自 "专有名词"。虚线指示同义词,而点划线指定另一种类型的关系,例如 "文本(Text)"通过"用……书写"类型的关系链接到"源"或"目标"。此外,"源"和"目标"可以通过意味着"源"和"目标"必须不同的约束来标记。这可以借助于简单外部标签而获得。然而,没有任何这样得标签被系统地生成,这取决于所使用的定义的丰富性。在该阶段,至今只存在构成许多"微本体"的基本图。该文本的最终本体由合并所述"微本体"产生,接下这将再次参考图l进行描述。本发明的方法进一步包括合并所创建的基本词汇图50的至少两个的 步骤S400,即,系统地搜索基本图对的合并体(merger)。在适当的情况下,所述合并根据所述文本的语法和提取(借助于语法 分析)的有意义的词来实现,以《更创建初始文本的至少一个语义图60。该 语义图对向(subtend)所要求的本体。如上文中陈述的,语法分析揭示了初始文本的语法和有意义的词,并 且由此揭露了该文本的有意义的词之间的关系的存在。由此,换句话说, 所述合并至少基于所揭露的初始文本的有意义的词之间的关系的存在而被 实现。然而,应当指出,所述合并步骤可以明确基于所述关系,即,可以考 虑除仅其存在性的事实之外的所述关系的意义。例如这意味着,所合并的 图的部件(即作为概念的词)可以更容易地定向。语法分析(步骤S100)优选地进一步包括从初始文本中对语法结构并 且尤其是一个或更多语法组的提取("语法组"是指通过名称补语("CNN 新闻(CNN News )")、属性、别称("法语翻译(French translation )") 等类型的简单语法关系连结的短语的词的子集。在前述例子中,这些组为- "我想(Iwant),,(组l);-"法语翻译(French translation ),,(组2); 一 "CNN新闻(CNNNews)"(组3)。这些合并体(步骤S400 )被然后基于所提取的语法组尝试创建针对所 述语法组的每个的至少一个语义图60。然后获得每组至少一个词汇图。这 更大优势在于,语法组一般反映相关概念,其宾语是补充的或连接的。提 取的语法接口可以进一步包括链接到短语、命题等的信息。特别地,语法 组之间的这些链接可以用于错开所述合并体的逸艮。由此,关于语法结构 的信息有助于构造所述合并体。类似地,同义词及其定义的出现可以在这样的程度上影响所述合并体 它们突出了来自不同词汇图的词之间的关系。那些关系然后有助于构造那 些图之间的合并体。在一个实施例中,所述合并体同时考虑查询的语法结构和不同基本词 汇图之间的(语义上)相邻术语的值,以非常简单的方法来实现。在涉及 到语法结构的情况下,这里具体是指所述语法组的结构。在涉及(语义上) 相邻术语的值的情况下,"相邻"的程度取决于它们之间可以存在的关系 (即链接了来自不同基本词汇图的词的关系)。应当指出,这里的基本图 是用组成给定语法组的词构成的那些。在上文描述的示例中,对于组1 "法 语翻译",此处同时考虑其语法结构(通过名称-别称关系链接到一起的 两个词)和来自两个基本词汇图的术语之间的现有关系,其中,来自两个 基本词汇图的术语例如是"法语"侧的"语言"和在"翻译"侧链接到"文 本"的"语言"(见图3)。应当指出,上文中描述的所述步骤(S100-S400)的一些由于算法性能 可以被交错。例如,在接收查询之后,从该文本中提取语法和有意义的词 20、搜索其定义和分析所述定义(S200)的步骤可以是部分伴随的。类似 地, 一旦对词的搜索已结束,则在不等待对所述词的每个的分析结束的情 况下,对应的基本图的构造可以开始。按照同样的想法, 一旦两个图可用, 则可以实现合并体搜索。因此不必要一个接一个地实现这些步骤。此外,在一个实施例中,例如响应于用户查询IO,在文本数据接收步 骤之后,所述步骤S100-S400可以"在进行中"(以及可能交错地)被实 现。这特别提供了对发自用户的查询的满足。用户典型地格式化其查询,并且然后生成该查询的本体(即包括至少一个语义图60),并且搜索对应 的Web服务。该方法优选包括消除未链接到已创建的语义图60的部件的步骤S500。 这消除了没用的图部分,并且因此最终简化处理。因此获得最终的语义图 70。返回前一示例并且参考图4,特别地,关于"法语"和"翻译"的图 已被合并是显而易见的。可以记起来,来自图l的表格示出了 "法语"和 "翻译"之间的语法关系的存在。初始文本的语法和有意义的词因此包括 之后合并关于词"法语"和"翻译"的图所必需的单元。更准确地说,一 方面词"法语"与"翻译"之间("法语"是"翻译"的别称)、以及另 一方面"翻译"、"文本"与"目标语言"之间(后者是具有语义本质的) 的特定关系已经使得经由词/概念"语言"依附到"翻译"的语义分支能够 在"法语"与"目标语言"之间被实现。在这点上,应当指出,下面"翻 译"的定义已被用于该例中"不同于其已被书写所用的(源语言)的语 言(目标语言)的文本版本"。类似地,实现关于"新闻"和"CNN"的概念之间的合并体是可能的。 例如"互联网论坛"或"首字母缩写词"的未链接的术语也已被消除。 还要指出,词或概念之间的关系的存在并非必要地导致合并体。例如, 尽管"新闻"与"翻译"之间的关系存在,但图4中出现的两个图未被链 接。在这点上,不(在语义上)追求过度放宽每个概念以便合并其全部可 能是有利的。这将导致太目标化、太个性化的单一最终图。极少存在对应 于太目标化的查询的Web服务。因此,最好以发现多个Web服务为目标, 所述多个Web服务的每一个都对应于从该查询获得的一个图。这明显取决 于最终目标在其它应用中,合并最多的图可能就是所述目标。最终图的 粒度级别可以根据经验调整和纠正。在前述例子中,"新闻"与"翻译" 之间(在最初查询中)的关系可能已被发现,但优选不创建该链接,该链
接将使最终的图太个性化。最后获得的语义图70可以例如用诸如OWL或RDF的基于XML的 语言简单格式化。上文中描述的方法因此产生了相关的和系统的语义描述。当然,显而易见,如果初始查询IO被很好地格式化并且很清楚,则该 方法运行得更好。特别地,它可以有利地采用主语-动词-补语的形式, 并且在适合的情况下用清晰的实词补语使其优美。
权利要求
1.一种由计算机使用的、用于开发自然语言文本(10)的本体(70)的方法,该方法包括以下步骤-从所述文本(10)接收文本数据;-经由对接收的数据的语法分析(S100)从所述文本中提取语法和有意义的词(20);-对于所述文本的所述有意义的词(20)中的至少一些的每一个借助于至少一个电子词典(30、35)搜索(S200)该词(20)的定义(40),提取所述定义的语法和有意义的词,并且基于所述定义的语法和有意义的词创建(S300)所述定义的基本词汇图(50);以及-根据所述文本的语法,合并(S400)已创建的所述基本词汇图(50)的至少两个,以便创建所述文本的至少一个语义图(60)。
2. 根据权利要求1的方法,进一步包括在所述合并步骤(S400)之 前,基于已提取的所述文本的语法和有意义的词,提取所述文本的有意义 的词之间的关系的步骤,所述合并步骤基于所述文本的有意义的词之间的 所述关系。
3. 根据权利要求l的方法,其中-所述提取第一步骤进一步包括经由对所述文本的语法结构的语法分 析(S100)的提取,所述结构包括一个或更多语法组;以及-所述合并步骤(S400)进一步基于提取的语法组,以便对于所述一 个或更多提取的语法组的每一个创建至少一个语义图(60)。
4. 根据权利要求l的方法,进一步包括对于所述文本的每个有意义 的词,借助于所述至少一个词典(35)搜索该词的同义词(45)及所述同 义词的定义的步骤;以及-所述合并步骤(S400)进一步根据所述同义词的定义来实现。
5. 根据权利要求4的方法,进一步包括在所述合并步骤之前的步骤 -对于每个有意义的词,根据该有意义的词及其同义词的定义对找到的同义词分类; 并且其中所述合并步骤进一 步根据所述同义词分类的结果来实现。
6. 根据权利要求l的方法,进一步包括步骤(S500): -消除未链接到已创建的所述至少一个语义图(60)的部件。
7. 根据权利要求l的方法,其中,除所述文本数据的接收步骤之外的 所述步骤(S100-S400 )的每一个在所述文本数据的接收步骤之后"在进行 中"被实现。
8. 根据权利要求1到7中任一项的方法,其中,所述至少一个语义图 (70 )被用诸如OWL或RDF的基于XML的语言格式化。
9. 根据权利要求1的方法,其中,所述文^t据对应于服务查询(10 ) 的文本。
10. —种搜索Web服务的方法,包括以下步骤-接收通过根据权利要求9的方法创建的所述至少一个语义图(60);以及-根据已接收的所述至少一个语义图搜索Web服务。
11. 一种计算机程序产品,适于执行根据权利要求1到10中任一项的 方法的步骤。
12. —种电子数据处理系统,包括适于执行根据权利要求1到10中任 一项的方法的步骤的代码装置。
全文摘要
本发明涉及一种计算机使用的、开发自然语言文本(10)的本体(70)的方法,包括以下步骤从文本(10)接收文本数据;经由对接收的数据的语法分析(S100)从文本中提取语法和有意义的词(20);对于文本的有意义的词(20)中的至少一些的每一个借助至少一个电子词典(30、35)搜索(S200)该词(20)的定义(40),提取该定义的语法和有意义的词,并基于该定义的语法和有意义的词创建(S300)该定义的基本词汇图(50);以及根据文本的语法合并(S400)创建的基本词汇图(50)中的至少两个,以便创建文本的至少一个语义图(60)。本发明还涉及计算机程序产品和电子数据处理系统,所述电子数据处理系统包括适于实现本发明方法的步骤的代码装置。
文档编号G06F17/27GK101149732SQ20071015406
公开日2008年3月26日 申请日期2007年9月13日 优先权日2006年9月19日
发明者P·拉尔韦 申请人:阿尔卡特朗讯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1