一种基于语义本体的案例表示方法

文档序号:6419374阅读:722来源:国知局
专利名称:一种基于语义本体的案例表示方法
技术领域
本发明涉及案例的表示方法,尤其是涉及一种基于语义本体的案例表示方法。
背景技术
传统的基于关键字的表示方法不能真正表达文本的语义信息,而且主观性很强, 关键字标注工作量大。后来的基于词频的文本表示方法虽然部分强调术语的主要性,但是 不能完全反映该术语在一篇文档中的重要性。由于本体能够描述概念的内涵及概念与概念 之间的语义关系,并具有良好的概念层次结构和对逻辑推理的支持,因此在信息检索领域, 特别是在基于语义和知识的检索中得到了广泛的应用。本体是共享概念模型的明确的形式 化规范说明,是概念化的精细描述,亦可以将本体看作是知识的集合,概念是现象的抽象模 型。现有的各种本体无论其在表达上采用的究竟是何种语言,在结构上都具有相似性,大多 数本体描述的都是个体(实例)、类(概念)、属性以及关系。个体(实例)即基础的、底层 的对象,也即实例;类是集合(sets)、概念、对象类型或者说事物的种类,本发明称之为概 念;属性是对象(和类)所可能具有的属性、特征、特性、特点和参数,利用属性可以描述一 个概念,也即概念可以用属性来表达;关系则指类与个体之间的彼此关联所可能具有的方 式,最典型的关系即父子关系。本体可以分为三种,领域本体(domain ontology)所建模的是某个特定领域,或者 现实世界的一部分,它所表达的是那些适合于该领域的那些术语的特殊含义;上层本体是 指一种由那些在各种各样的领域本体之中都普遍适用的共同对象所构成的模型,目前,存 在着几部现成可用的标准化上层本体,包括都柏林核心、WordNet ;表示本体则指将具体的 一个集合用领域本体表示出来,并构建成一棵表示本体树出来,如将一篇文档按照某个领 域本体的标准构建成一棵本体树,这棵本体树就称之为该文档的表示本体。随着那些依赖于领域本体的系统的扩展,它们往往需要将不同的领域本体合并成 一部更为通用的表达形式。对于本体设计者来说,这就提出了一项富有挑战性的难题。在 同一领域内,由于文化背景、受教育程度以及意识形态的不同所造成的,对于该领域感知 (perceptions)情况的不同,或者因为所采用的表达语言的不同,还可能出现不同的本体。当前,对于那些并非依据同一部基础本体所编制的本体的合并工作,在很大程度 上还是一种手工过程,因而既耗费时间又成本高昂。那些利用同一部基础本体所提供的一 套基本元素来规定领域本体元素之含义的领域本体,则可以实现自动化的合并。目前,存在 着多项针对本体合并方面的通用技术方法的研究工作,但这个方面的研究在很大程度上依 然还处于理论层面。用于编纂本体的软件编辑器称为“本体编辑器(ontology editor) 有时又称为“本体论编辑器”。Protege就是其中之一,本发明所手动创建的本体就是使用 Prot6g6工具来生成的。而本发明所使用的本体包括领域本体和表示本体,其中领域本体可 以是各种领域的。包括营销、医药、卫生、环保等等。在后面的具体实施方法中本发明将以 营销领域本体为例子阐述如何创建领域本体和如何进行表示本体的构建。

发明内容
本发明的目的就是为了克服上述现有方法存在的缺陷而提供一种能最大程度地 减少语义缺失问题并较好的支持案例语义相似度计算的基于语义本体的案例表示方法。本发明的目的可以通过以下技术方案来实现一种基于语义本体的案例表示方法,其特征在于,使用本体的四元组这种结构化 的形式来表达非结构化的案例,支持案例的形式化推理和检索,支持案例的相似度计算以 及案例库的自动构建,该方法包括以下步骤1)构造基于案例所属领域的知识本体,该知识本体包括概念集、属性集、实例集与 关系集;2)根据构造的知识本体对给定的案例进行分词,并得到一个概念集;3)对所述的概念集的属性进行解析并扩展,得到基于概念集的属性集;4)从领域本体的扩展概念集中的隐藏概念得出与概念集相关的关系集;5)案例通过概念集、属性集、实例集、关系集的语义表示;6)通过案例之间的相似度计算方法来建立案例表示模型。所述的步骤1)的构造知识本体包括以下步骤11)在领域本体创建的初始阶段,列举出所有概念,不考虑所列举概念之间的意思 是否重叠与这些概念以何种方式表达,所述的方式包括类、属性与实例;12)步骤11)中已产生领域中大量的概念,按照一定的逻辑规则对这些概念进行 分组,形成不同的工作领域,在同一工作领域的概念,对其中的每一个概念的重要性进行评 估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,得到领域本体的框架结 构;13)设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。所述的步骤6)中的相似度计算方法如下Sim(Dl,D2)表示案例文档Dl和案例文档D2的相似度,计算方法如下Sim(D1, D2) = wlSim(ei, ej)+w2Sim(pi, pj)+w3Sim(ri, rj)+w4Sim(Ii, Ij);其中wl、w2、w3和w4是权重,Sim(ei,ej)表示概念相似度,Sim (pi,pj)表示属 性的相似度,Sim(ri,rj)表示关系的相似度,Sim(Ii,Ij)表示实例相似度,而Sim(ei,ej) 计算方法如下Sim (pi, pj)、Sim(ri, r j)、Sim(Ii,Ij)与 Sim(ei,ej)计算方法相同,仅把公式 (1)中的(ei,ej)分别换成(pi,pj)、(ri,rj)、(Ii,Ij)即可。
权利要求
1.一种基于语义本体的案例表示方法,其特征在于,使用本体的四元组这种结构化的 形式来表达非结构化的案例,支持案例的形式化推理和检索,支持案例的相似度计算以及 案例库的自动构建,该方法包括以下步骤1)构造基于案例所属领域的知识本体,该知识本体包括概念集、属性集、实例集与关系集;2)根据构造的知识本体对给定的案例进行分词,并得到一个概念集;3)对所述的概念集的属性进行解析并扩展,得到基于概念集的属性集;4)从领域本体的扩展概念集中的隐藏概念得出与概念集相关的关系集;5)案例通过概念集、属性集、实例集、关系集的语义表示;6)通过案例之间的相似度计算方法来建立案例表示模型。
2.根据权利要求1所述的一种用基于语义本体的案例表示方法,其特征在于,所述的 步骤1)的构造知识本体包括以下步骤11)在领域本体创建的初始阶段,列举出所有概念,不考虑所列举概念之间的意思是否 重叠与这些概念以何种方式表达,所述的方式包括类、属性与实例;12)步骤11)中已产生领域中大量的概念,按照一定的逻辑规则对这些概念进行分组, 形成不同的工作领域,在同一工作领域的概念,对其中的每一个概念的重要性进行评估,选 出关键性术语,摒弃那些不必要或者超出领域范围的概念,得到领域本体的框架结构;13)设计元本体,重用已有的本体,定义领域中概念及概念之间的关系。
3.根据权利要求1所述的一种用基于语义本体的案例表示方法,其特征在于,所述的 步骤6)中的相似度计算方法如下Sim(Dl, D2)表示案例文档Dl和案例文档D2的相似度,计算方法如下 Sim(Dl, D2) = wlSim(ei, ej) +w2Sim(pi, pj) +w3Sim(ri, rj) +w4Sim(Ii, Ij); 其中wl、w2、w3和w4是权重,Sim(ei,ej)表示概念相似度,Sim (pi, ρ j)表示属性的相 似度,Sim(ri,rj)表示关系的相似度,Sim(Ii,I j)表示实例相似度,而Sim (ei,ej)计算方Sim (pi, ρ j), Sim (ri, r j), Sim (Ii, Ij)与 Sim(ei,ej)计算方法相同,仅把公式(1)中 的(ei,ej)分别换成(pi,pj)、(ri, rj)、(Ii,Ij)即可。
4.根据权利要求1所述的一种用基于语义本体的案例表示方法,其特征在于,所述的 概念集是案例文档中关键的领域知识术语的集合。
5.根据权利要求1所述的一种基于语义本体的案例表示方法,其特征在于,所述的属 性集是以描述概念的特征的一系列参数的集合。
6.根据权利要求1所述的一种基于语义本体的案例表示方法,其特征在于,所述的实 例集是概念的具体对象的集合。
7.根据权利要求1所述的一种基于语义本体的案例表示方法,其特征在于,所述的关法如下系集是概念之间的语义关系的集合。
8.根据权利要求1或5所述的一种基于语义本体的案例表示方法,其特征在于,所述的 属性集包括domain定义域和range值域,所述的domain为使用同一个参数的概念的集合, range为指用以描述domain中概念的且被属性修饰的概念的集合。
9.根据权利要求3所述的一种基于语义本体的案例表示方法,其特征在于,所述的wl =w2 = w3 = w4 = 0. 25。
全文摘要
本发明涉及一种基于语义本体的案例表示方法,该方法包括以下步骤1)构造基于案例所属领域的知识本体,该知识本体包括概念集、属性集、实例集与关系集;2)根据构造的知识本体对给定的案例进行分词,并得到一个概念集;3)对所述的概念集的属性进行解析并扩展,得到基于概念集的属性集;4)从领域本体的扩展概念集中的隐藏概念得出与概念集相关的关系集;5)案例通过概念集、属性集、实例集、关系集的语义表示;6)通过案例之间的相似度计算方法来建立案例表示模型。与现有技术相比,本发明具有能够极大程度地减少语义缺失问题,减少概念歧义的产生,能较好地支持案例语义相似度的计算等优点。
文档编号G06F17/30GK102141993SQ201010104649
公开日2011年8月3日 申请日期2010年2月2日 优先权日2010年2月2日
发明者向阳, 孙继鹏, 张波, 张蕴婧, 王光亮, 王栋, 陈千 申请人:同济大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1