一种本体概念映射方法

文档序号:6469186阅读:228来源:国知局
专利名称:一种本体概念映射方法
技术领域
本发明属于本体映射技术领域,特别是涉及一种基于虚拟路径的本体概念映射方法。
背景技术
本体作为一种语义和知识层面上的概念共享模型,自提出以来就引起数据整合、
P2P系统、电子商务、语义Web服务、社会网络(Social Networks)等应用领域科研人员的广
泛关注,并得到了有效的研究与应用,提出了一系列基于本体的领域问题解决方法。 本体映射(Ontology M即ping)是发现不同本体之间实体元素(包括本体的类、属
性或者个体)映射关系的关键技术,已被国内外学者普遍认为是解决计算机系统语义异构
问题的有效手段之一。本体映射中映射元素是四元组〈mlD,Nil,Nj2,R〉,i = l...h;j = 1. . k ;其中mID
是独一无二的标示符,Nil表示第一个图形的第i个结点,Nj2表示第二个图形的j个结点, h是第一个图形结点的数量,k是第二个图形结点的数量,R表示其中结点的相似关系。映 射就是通过一定的方法找出这种映射关系的过程。 目前国内外有很多研究者都在研究本体映射技术,P. Shvaiko等人对本体映 射操作的定义是输入两个本体,每个本体都由具体的实体Entity(包含类Class、属性 properties、关系Relationships)等构成,最后的输出结果决定了这些实体之间的关系 (等于、包含等关系)。 E. Rahm提出了本体映射方法分类。将模式/本体映射方法分为独立映射方法和混 合映射方法两类,独立映射方法指一种可以单独进行本体映射的方法,混合映射方法中用 到了二种以上的独立映射方法。独立映射方法包含基于模式的方法和基于实例的方法。基 于模式的方法是目前研究比较多的一种方法,它包含元素层次的方法和结构层次的方法。
基于模式的映射方法模式映射方法仅考虑模式结构信息(如XML Schema, ontology)等模式结构中概念、属性、关系等的语义相似性,而不考虑实例数据的相似性。模 式映射方法是目前被广泛研究的方法,根据映射的粒度可以将模式映射划分为元素层次的 映射方法和结构层次的映射方法。 基于实例的映射方法实例映射方法考虑模式元素的实际内容或实际含义,模式 可以通过实例数据手动或者自动的建立。例如可以从一个XML文档实例中提取出基于图形 的XML Schema。 基于模式的映射方法大部分都可以适用于基于实例的映射方法,但是目前在实例
的映射方法中,比较适用的是基于机器学习的方法。基于模式的映射方法主要包括以下四 种( — )元素层次的映射方法元素层次的映射方法是指从实体本身来考虑某个实 体之间的映射,而不考虑实体周围的其他元素或者关系。也就是将元素从元素所处的虚拟 中割裂出来单独考虑。
( 二 )结构层次的映射方法结构层次的映射方法不仅从实体本身来考虑某个实 体之间的映射,而将实体所处的结构综合考虑,即将元素和元素的属性、属性值等元素所处 的结构中与元素相关的要素进行综合考虑。(三)基于语言学的映射方法语言层次的映射方法从实体的文本名称或者对实 体的文本描述来考虑实体之间映射关系。语言层次的映射方法适用于本体(模式)元素层 次的映射,目前运用比较广泛的基于语言学的映射方法主要包括基于关键字词频的统计方 法,基于向量空间模型(VSM)的统计方法,基于编辑距离(Edit Distance)的方法。
(四)基于约束的映射方法基于约束的方法从实体的类型或者线索来取得实体 之间的映射关系,它既适用于元素层次的映射,也适用于结构层次的映射。它根据本体(模 式)实体的数据类型、值域、关系类型、实体的势等约束条件来计算相似性(Similarity)。 基于约束的方法很少独立使用, 一般都是配合其他方法一起使用。 与本体映射方法分类相应,本体映射系统可以分为几大类基于模式(Schema)的 映射系统,基于实例(Instance)的映射系统,基于混合模式的映射系统。
Cupid是德国莱比锡大学(University of Leipzig)的Erhard Rahm和美国华 盛顿大学(University of Washington)的Jayant Madhavan提出的一种模式映射方法。 该方法将映射问题看成是计算两个模式元素的相似系数(SimilarityCoefficient),系 数的取值范围在[O,l]之间,然后通过相似系数来推导元素的映射关系。该方法将模式 映射分成两个步骤,分别计算元素的独立语义性和元素的结构语义性。第一步,计算元素 的独立相似系数,Cupid采用的方法是基于语言学的映射方法(Linguistic Match),借用 术语词典来映射独立元素的名称、数据类型和所属领域等信息。语言学的映射方法通过 表征化(normalization)、归类(Categorization)等手段对独立元素进行映射,计算出 元素的语言层次的相似系数lsim(linguistic similarity coefficients)。第二步,计 算元素的结构相似系数,根据元素所处的模式结构来推导元素的相似系数。将元素所处 的模式结构看成是树状图形,然后根据以下三个原则来推导元素的结构层次的相似系数 ssim(structural similarity)。 COMA (Combination of MAtching algorithms)是由德国莱比锡大学Hong-Hai Do 和Erhard Rahm提出的一种组合多种映射方式的混合型模式映射系统,和Cupid采用独立 映射方法不同的是,Coma系统采用的是混合映射方法,通过灵活地组合不同的映射方式及 其结果来推导最终的模式映射结果。Coma映射系统将待比较的模式转化成带有根节点的 有向无环图(Rooted Directed AcyclicGr即hs),映射操作将输入两个模式,然后决定两个 模式中元素的语义映射关系。Coma主要利用模式信息,如元素和结构属性,来重用以前的 映射结果,在映射过程的不同阶段Coma应用了不同的组合策略,并选择合适的映射算法和 映射系统,这可显著地提高映射效率。它由简单映射器(Simple Matchers)、混合映射器 (Hybird Matchers)禾口复杂重用映射器(Complex Reuse oriented Matchers)组成。其中 简单映射器主要分析元素名称的词义和语义相似系数。词义相似系数通过计算元素名称的 前缀名、后缀名(Affix) 、 ngram、编辑距离(Edit Distance)、发音(Soundex)这4个近似 字符串映射器(A卯roximate String Matcher)来获得。语义相似系数通过专业字典中元 素的关系来获取,包括元素的同、异义以及数据类型等方面。混合映射器支持2种元素层次 混合和3种结构层次混合方法,2种元素层次混合方法包括名称(Name)和元素名称类型(NameType) ,3种结构层次混合方法包括名称路径、子结点和叶子结点。复杂重用映射器利 用术语辞典的思想,将术语辞典中可重用的同义、异义元素的范围进行扩展,储存映射结构 中通过简单映射器和混合映射器获取的映射关系,以便其他的映射器进行重用。Coma++是 对Coma系统的扩展和改进,它支持模式和本体的映射,并使用图形界面的方法让用户来选 择合适的映射策略和映射结果,通过用户的反馈来对映射的结果进行修改。
SF是由斯坦福大学(Stanford Univeristy)的Sergey Melnik和德国莱比锡大学 Erhard Rahm于2002年提出的一种映射多种数据源的通用结构层次,可以广泛适用于多个 应用领域。SF的基本思想是如果模式结构中两个相邻元素是相似的,那么可以推断这两个 元素也是相似的。该方法将整个映射过程分成4步首先通过函数SQL2Gr即h (Schema)将模 式结构转化成有向标记图(labeledgraph),然后通过名称映射函数StringMatch (graphl, gr即h2)对有向图结构中的元素进行映射,得出元素之间的初始化相似系数initialM即。 第三步,通过洪泛算法SFjoin(graphl, graph2, initialMap)对初始化相似系数进行迭代, 直到它达到某个收敛值,作为元素之间结构相似系数SFresult。最后,它用选择阈值函数 SelectThreshold(SFresult)来选择出符合条件的相似值。 Falcon_A0(Finding, aligning and learning ontologies, ultimately for c即turingknowledge via ontology-driven approaches)是由东南大学瞿裕忠教授禾口 胡伟博士等人开发的基于模式的本体对齐工具,它分别通过语言特性(LM0)和结构特 性(GM0)两个途径来研究本体的相似性,这两个方法都是比较本体中元素的映射关系。 LMO(Lingusitic Matching for Ontology)通过计算两个实体的编辑距离来计算元素的名 称相似系数SS,然后通过向量空间模型(Vector Space Model)统计分析方法来得到两个文 档的余弦相似系数DS,最后根据SS和DS的系数得到最终的语言层次相似系数。GMO(Graph Matching for Ontologies)将本体用双向图形表示,并将其中的实体用三元组(主语、断 言、谓语)的形式表示,然后比较三元组的相似性。在对三元组进行比较时,使用邻接矩阵 建模,通过对矩阵的计算来比较结构相似性。GM0和LM0互相独立,相似性比较的对象都是 整个本体。LM0作为GM0的外部实体,对GM0的结果有一定的约束作用,例如当LM0很低的 时候,最后的结果以GMO的结果为准。 H-Match是由意大利米兰大学Silvana Castano, Alfio Ferrara等人提出的面 向分布式本体的动态映射方法,它以两个本体作为输入,并输出两个本体中具有语义相 似性的元素对。相似性的分析是通过计算概念的
之间的语义相近系数(Semantic Affinity)。它是在模式映射方法Artemis的基础上,借鉴了基于WordNet词义系统的方法 来计算概念的语言层次相似性(Linguistic Affinity),然后在语言层次概念相似性的基 础上,给出了四个层次的结构相似性,分别是表面层次(Surface)、浅层次(Shallow),深层 次(De印),极深层次(Intensive) , H-Match称之为语境相似性(Contextual Affinity)。 这四个层次的相似性的语义程度是逐渐加强的,其中表面层次只考虑概念的语言层次相似 性;浅层次在概念层次的基础上,加入概念的属性;深层次在浅层次的基础上加入语义联 系;极深层次在深层次的基础上,加入概念的属性值。H-Match还根据用户的需求来制定 映射策略,选择本体映射的层次、语境相似性和语言相似性的加权系数、以及映射限制等参 数。它可以适用于0WL(0WL Lite、0WL DL和OWL Full)三种语言描述的本体映射。
S-Match是由意大利特兰托大学Fausto Giunchiglia、 Pavel Shvaiko等人提出的模式语义映射系统,它和Cupid、Coma等模式映射系统采用的方法有很大的区别。Cupid、 Coma等系统将模式映射分为元素层次映射和结构层次映射,并且映射的结构用[O,l]之间 的相似系数表示。而S-Match采用概念标签映射、概念语义映射两个步骤来推导概念的语 义联系,映射的结果用语义关系符(属于^,包含2,不相交上等)来表示。因此,S-Match被 称为真正意义上的语义映射系统。S-Match将输入的本体表示成树状图形结构,然后将概念 的映射分成概念的标签(Label)映射和概念映射。其中概念的标签映射采用语言层次的映 射方法,并借用已有的语言层次映射器来计算概念标签的词义联系,并使用数据库来储存 这些结果。S-Match的独创性在于概念的语义映射(Node Matching),它将树结点的语义用 形式化模型表示,把树结点映射问题转化为命题正确问题。因此概念A和概念B的语义关 系存在与否取决于公式(axioms) — rel (contextA, contextB)是否正确,S-Match通过将 概念的语义关系比较转化为形式化公式的验证问题。对于公式的验证,S-Match使用标准 的SAT(Propositional Satisfiability, SAT)解析器来进行判断。 GLUE是比较典型的基于实例的映射系统,它由美国华盛顿大学AnHaiDoan,Jayant Madhavan等人提出,是一种利用机器学习技术来发现本体映射关系的算法。给定两个本体, 对其中一个本体的任意元素,Glue可以在另一本体中找到与之相映射的元素。Glue的另一 个关键技术是使用多策略学习(MultipleLearning Strategies),每一个学习策略针对某 一类型的本体数据实例或者模式信息。对元素A和元素B的相似性计算,Glue采用联合概 率分布的方法来计算(区别于其他模式映射系统)。Glue系统由三个主要模块组成,分别 是概率估计模块、相似性估计模块和释放标注模块(Relaxation Labeler Module)。概率估 计模块中输入两个本体的元素以及它们实例,然后运用机器学习技术,利用多个基础学习 机(base learner)和元学习机(Meta-learner)来计算联合概率分布。然后将概念分布结 果输入相似性估计模块,该模块通过用户的参与,计算元素的相似性,并将相似性结果输出 到相似性矩阵存储。释放标注模块从相似性矩阵中提取元素相似性值,与领域知识和相关 规则进行映射,从中找出最符合领域知识和规则需求的相似系数,并作为Glue系统的最终 结果输出。 基于集合的模式映射系统(Corpus based schema matching)是由美国华盛顿大 学Jayant Madhavan禾口微软研究院(Microsoft Research)的Philip A. Bernstein等人提 出的扩展模式映射系统,它的目标是解决模式映射系统缺少足够实例信息的缺陷。该方法 利用模式所处的外部文本集合的信息来加强模式映射的结果。模式的外部文本集合包含了 模式的多种表现形式,因此可以在集合中找到模式概念和属性的其他显示,并将这些加强 信息增加到模式中。另外,还可以从不同模式但具有相似实例信息的模式结构中通过学习 机(Learner)进行学习,从而推导出隐藏的模式映射关系。 基于集合的模式映射系统在实例学习方法上借鉴了 Cupid和Glue等系统的 映射方法,采用多策略学习机制,使用名称学习机(Name Learner)、文本学习机(Text Learner)、数据实例学习机(Data Instance Learner)、上下文语境学习机(Context Learner)、元学习机(Meta Learner)对模式实例信息进行归类,并在此基础上给出模式的 增加元素模型,然后通过增加元素模型来进行模式映射。这种结合实例和模式映射的方法, 可以利用实例映射来发现隐性相似元素,增加模式相似信息,以达到更高的映射召回率。
上述本体映射方法主要侧重于概念本身,以及概念的实例信息来对本体元素的语义相似性进行求取,并没有充分挖掘本体结构中概念的相邻元素及其语义联系。由于本体 是概念以及概念关系的体现,因此概念的相邻元素及其语义联系对概念的语义影响是不可 忽略的。

发明内容
本发明目的在于针对现有技术的不足,提出一种基于虚拟路径的本体映射方法,
克服了现有本体映射方法只考虑概念语义相似性,忽略概念相邻元素及其语义联系,利用
本体语义程度低的缺陷。 本发明的技术方案包括以下步骤, 步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具 有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱 元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素_前驱元素与目 标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关 系_后驱元素; 步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性 比较; 步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟 路径的图形语义相似性; 步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
而且,步骤三的具体实施方式
为,将虚拟路径中各独立要素分为三组,第一组为前 驱元素_前驱元素与目标元素之间的属性或者语义关系,第二组为目标元素,第三组为目 标元素与后驱元素之间的属性或者语义关系_后驱元素;按分组将各独立要素的概念语义 相似性加权综合为两个目标元素虚拟路径的图形语义相似性。 而且,当对前驱元素、目标元素或后驱元素进行概念语义相似性比较时,采用基于 语言的方法和基于字符串的方法相结合的元素比较方法实现,具体实现方式如下,
首先采用基于语言的方法,即去除待比较的2个元素el和e2的元素名称中的冗 余信息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符比较;如 果一致,即元素名称的语义相似性为1 ;如果不相似,再借助外部信息源计算两个元素el和 e2的概念语义相似性,计算公式如下S/辟l, e2) = ~~^-, 其中,sp表示元素el和e2之间最短路径的长度,皿m表示元素el和e2之间最短
路径的方向改变次数,Cb^表示四种关系的语义相似度基数,如果两个元素是相等关系,那
么Cb_ = 4C ;两个元素是包含与属于关系,那么Cb_ = 3C ;如果两个元素是部分与整体关
系,那么= 2C,如果两个元素是不相交关系,那么Cb_ = C ;C = 1. 0 ; 当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的
属性或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为元素,按上述独
立要素比较方法实现。 由上述本发明提供的技术方案可以看出,该方法从元素相邻元素及其语义联系的要素出发,将元素的前驱元素、语义联系、元素的后驱元素组成元素的虚拟路径;针对元素 的虚拟路径,在分别考察前驱元素,属性,元素本身以及后驱元素独立语义相似性的基础 上,进行组合加权,得到虚拟路径的元素语义相似性,从而实现了基于虚拟路径的本体映 射。该方法的优点是考虑元素的相邻元素及其语义联系等要素对元素语义的影响,将元素 的语义考察范围确定为元素的虚拟路径,与现有的分析元素本体结构的语义相似度侧重于 某个要素比较,该方法考察范围更为全面,克服了现有本体映射方法只考虑概念语义相似 性,利用本体语义程度低的缺陷,提高了本体映射的质量和性能,该方法在计算机中运行的
时间开销小,满足本体映射的性能要求。同时,该方法提高了本体映射的查全率,查准率以 及F-measure等各项质量评价指标,在逻辑上满足本体映射的需求。


图1为本发明的流程图; 图2为概念语义相似性比较示意图; 图3为本发明的图形语义相似性比较示意图; 图4为本发明实施例示意图。
具体实施例方式
以下结合附图对本发明技术方案进行详细描述。按以下步骤实现本体概念映射。 具体实施时,可以采用计算机手段实现。为了方便描述起见,图中将前驱元素与目标元素之 间的属性或者语义关系、目标元素与后驱元素之间的属性或者语义关系简化标注为属性。
步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具 有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱 元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素_前驱元素与目 标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关 系_后驱元素; 如附图3中所示,h和lV为待比较的两个目标元素。其中h的前驱元素为lv 后驱元素为lV构成的虚拟路径用(a)部分的树状结构表示;其中IV的前驱元素为b/ , 后驱元素为IV ,构成的虚拟路径用(b)部分的树状结构表示。 步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性 比较; 本发明提供了独创的独立要素比较方法,以便高效准确地获取概念语义相似性比 较结果无论是前驱元素、目标元素或后驱元素,都以元素为单位进行比较,将待比较的元 素标记为el和e2。首先采用基于语言的方法,即去除待比较的2个元素el和e2的元素名 称中的冗余信息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符 比较;如果一致,即元素名称的语义相似性为1 ;如果不相似,再借助外部信息源计算两个 元素el和e2的概念语义相似性,计算公式如下<formula>formula see original document page 8</formula> 其中,sp表示元素el和e2之间最短路径的长度,皿m表示元素el和e2之间最短路径的方向改变次数,Cb^表示四种关系的语义相似度基数,如果两个元素是相等关系,那 么Cb_ = 4C ;两个元素是包含与属于关系,那么Cb_ = 3C ;如果两个元素是部分与整体关
系,那么= 2C,如果两个元素是不相交关系,那么Cb_ = C ;C = 1. 0。其中比较特殊的 是相等关系和不相交关系,当两个元素相同时,Cbase = 4, sp = 0,誦=O,所以SimE(el, e2) = 1.0。当两个元素不相交时,Cbase = l,sp和皿m都远大于1,所示SimE(el,e2) = 0。
参见附图2,其中(a)部分表示的元素A和^之间是部分或整体关系,元素NCA表 示两个元素的最近共同祖先元素。可以得出,Cbase = 2, sp = 2,皿m = l,所以元素ai和a2 的概念语义相似度SimE(^,a2) =2/(2+2+1) =0.4。图2 (b)表示的元素a/和a 之间 关系属于Strong(包含或属于关系),因此,Cbase = 3, sp = 1,皿m = 0,由此得出元素a/ 和a 的概念语义相似度SimE(a/ ,a2' ) = 3/(3+1+0) = 0. 75。 当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的 属性或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为一个元素,按上 述独立要素比较方法实现即可。附图3中的虚拟路径中独立要素均按照独立要素比较方法 分别比较后,得到前驱元素的概念语义相似性SimE ^'),前驱元素与目标元素之间属 性的概念语义相似性SimE (P (b》,P ')),目标元素的概念语义相似性SimE (b2, b2'), 目标元素与后驱元素之间属性的概念语义相似性SimE(P(b2) , P(b2')),以及后驱元素的 概念语义相似性SimE (b3, b3')。 本发明所提供独立要素比较方法是对现有Hirst & St-Onge语义相似度比较方法 的改进。Hirst & St-Onge语义相似度比较方法中sp和皿m都是作为差数出现,而在本发 明所提供方案中作为分母出现。这种方法的优点是可以处理不相交关系中sp为无穷大,以 及相同关系中,sp = 0的特殊情况。另外,本发明提供的计算公式是经过标准化处理的,语 义相似度值域在[O,l]之间,能够节约计算机系统运行开销。而Hirst & St-Onge语义相 似度比较方法中是以权重Weight的值作为相似度的值,不符合语义相似度在[O,l]区间的 特点。 步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素的图 形语义相似性; 考虑到元素与属性之间具有不可分割的意义,本发明提出综合虚拟路径内各独立 要素的概念语义相似性的方案为首先对虚拟路径内各独立要素进行分组,第一组为前驱 元素_前驱元素与目标元素之间的属性或者语义关系,第二组为目标元素,第三组为目标 元素与后驱元素之间的属性或者语义关系_后驱元素;按分组将各独立要素的概念语义相 似性加权综合为两个目标元素虚拟路径的图形语义相似性。然后按组加权综合,其中第一 组根据SimE0vb/ )和SimE(P(b》,P(b/ ))求得表示该组元素以及元素属性或语义关
系的相似关系的组合语义相似性SimEP(b/re, b2'Me);第三组根据SimE (P (b2) , P (b2 '))
和SimE0vlV )求得该组的元素属性或语义关系以及元素的相似关系的组合语义相似性 SimPE(b2nrart,b2' nrart)。虚拟路径的图形语义相似性可视为这三组的语义相似性加权之禾口, 因此元素h和lV的虚拟路径的图形语义相似性 SimC(b2,b2' ) = Wp*SimEP(b2pre, b2 ' pre)+We*SimE (b2, b2 ' )+Wn*SimPE (b2next, b z next)其中SimEP(b2pre, b2 ' pre) = SimE (b一P (b》,'氺P(t^ ' )) 二SimE(b"V )氺SimE(P(b》,P(V )), SimPE(b2next, b2 ' next) = SimE (P (b2) *b3, P (b2 ' )*b3 ' ) =SimE(P(b2), P(V ))*SimE(b3, b3')。 Wp表示前驱元素及其属性的语义相似性分配的权重比例,We表示元素的独立语 义相似性分配的权重比例,Wn表示属性与后驱元素的语义相似性分配的权重比例。这三个 权重之和为1,即Wp+We+Wn = 1。 步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
取得虚拟路径的图形语义相似性比较结果S后,即可根据结果推导两个目标元素 之间的映射关系。本发明采用国际上广泛采用的映射关系分类方法,将映射关系类型分为 相等关系、类属关系、部分整体关系、不相交关系;如果语义相似性比较结果S = l,则两个 元素为相等关系;如果0. 8《S < l,则两个元素为类属关系;如果0. 5《S < 0. 8,则两个 元素为部分整体关系;如果S < 0. 5,则两个元素为不相交关系。 具体实施时,会出现一个目标元素有数个后驱元素等多种情况。为了便于实施,本 发明提供了实施例以供参考,参见附图4:以q和c/为目标元素,附图4中(a)部分的树状 结构中还有元素Cl和q,但以目标元素c4构成的虚拟路径只包括c4的前驱元素q,后驱元 素Cs和Ce;同样,(a)部分的树状结构中,以目标元素c/构成的虚拟路径只包括c4'的前 驱元素(V ,后驱元素(V和(V 。附图4中给后驱元素C5和Ce分别分配了权重W工和W2, 后驱元素cs'和cV分配了权重W/和W 。套用SimPE(b2加xt,V next) =SimE(P(b2)*b3, P(b2' )*b3' ) = SimE(P(b2),P(b2' ))*SimE(b3,b3')计算时,本发明实施例采用两个权 重平均值(W工和W/ )/2以及(W^W^ )/2作为两个后驱元素路径的权重,求取后驱元素相
关元素属性或语义关系以及元素的相似关系过程如下
S/mi^(C:', C4 ,') = ^V^CC^ *户(C4 ), C5,『2 * P(C4 ), C6 ), '*户(C4 ), C5 ',『2 '* P(q '), C6 '))
=、1山S/附(尸(C4)斥4 '))*S,'W(C5,C5 '),2"K(C4),尸(q ')) * 5/附(& , ^ ')
权利要求
一种本体概念映射方法,其特征在于包括以下步骤,步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟路径的图形语义相似性;步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
2. 根据权利要求1所述的本体概念映射方法,其特征在于步骤三的具体实施方式
为, 将虚拟路径中各独立要素分为三组,第一组为前驱元素_前驱元素与目标元素之间的属性 或者语义关系,第二组为目标元素,第三组为目标元素与后驱元素之间的属性或者语义关 系_后驱元素;按分组将各独立要素的概念语义相似性加权综合为两个目标元素虚拟路径 的图形语义相似性。
3. 根据权利要求1或2所述的本体概念映射方法,其特征在于当对前驱元素、目标元 素或后驱元素进行概念语义相似性比较时,采用基于语言的方法和基于字符串的方法相结 合的独立要素比较方法实现,具体实现方式如下,首先采用基于语言的方法,即去除待比较的2个元素el和e2的元素名称中的冗余信 息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符比较;如果一 致,即元素名称的语义相似性为1 ;如果不相似,再借助外部信息源计算两个元素el和e2 的概念语义相似性,计算公式如下S滅(d,e2) =-^-,其中,sp表示元素el和e2之间最短路径的长度,皿m表示元素el和e2之间最短路 径的方向改变次数,Cb^表示四种关系的语义相似度基数,如果两个元素是相等关系,那么 Cbase = 4C ;两个元素是包含与属于关系,那么Cb_ = 3C ;如果两个元素是部分与整体关系, 那么Cb_ = 2C,如果两个元素是不相交关系,那么Cb_ = C ;C = 1. 0 ;当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的属性 或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为元素,按上述独立要 素比较方法实现。
全文摘要
一种本体概念映射方法,包括以下步骤将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟路径的图形语义相似性;根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。本发明提供的本体概念映射方法侧重于概念的相邻元素及其语义联系,考察范围更为全面,提高了本体映射的质量和性能。
文档编号G06F17/30GK101739414SQ20081019785
公开日2010年6月16日 申请日期2008年11月25日 优先权日2008年11月25日
发明者刘三女牙, 刘清堂, 杨宗凯, 汪虹, 赵刚, 黄涛 申请人:华中师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1