一种多策略组合的本体或实例匹配方法

文档序号:6563892阅读:348来源:国知局
专利名称:一种多策略组合的本体或实例匹配方法
技术领域
本发明涉及语义万维网技术领域,特别涉及一种多策略组合的本体或实例匹配方法。
背景技术
语义万维网是当前万维网的扩展,信息的语义在其中被准确定义,从而使机算计能够理解数据的语义信息,使得其对信息的处理更加智能化。万维网之父Tim Berners-Lee 提出了在万维网上发布和链接结构化数据的基本准则(1)使用URI (统一资源定位符)命名所有事物;( 使用HTTP (超文本传输协议)URI ;C3)在URI指向的位置用标准格式提供有用信息;(4)建立指向其他URI的链接。通过这些准则发布的数据被称为链接数据。由于万维网上数据由不同机构发布,导致了数据模式层和实例层的异构性。本体匹配和实例匹配是分别解决链接数据模式层和实例层异构问题的关键技术。本体匹配的目的是发现不同的模式之间相互等价的元素(概念、属性),实例匹配的目的则是发现不同数据集中指代同一事物的URI。目前国内外已有很多本体匹配方面的研究,大部分研究集中在如何利用多种本体信息计算元素之间的相似度,从而得到本体间等价的元素。已有的本体匹配策略包括基于实体名称的方法、基于本体结构的方法、基于本体实例的方法和基于外部知识库的方法等。为了获得满意的匹配结果,一种有效的方法是组合多个匹配策略的结果。现有的组合方法都是基于相似度操作的方法,先将各个策略得到相似度进行聚合,然后根据聚合的相似度决定匹配结果。常用的相似度聚合方法包括平均值法、最大值法、最小值和加权平均值法等。但是,最近有研究表明,这些组合方法得到的结果高度依赖于所选用的匹配策略,最终所得匹配结果的准确度无法保证。目前实例匹配方法大多借助本体匹配的相关技术,同样存在如何更好的组合多个匹配策略的问题。

发明内容
(一 )要解决的技术问题本发明要解决的技术问题是如何提供一种多策略组合的本体或实例匹配方法, 以便更好的解决链接数据模式层和实例层的异构问题。( 二 )技术方案为解决上述技术问题,本发明提供一种多策略组合的本体或实例匹配方法,其包括步骤A 对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;B 根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。优选地,所述步骤A包括步骤
5
Al 对于两个本体元素或两个实例元素的集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到对应的多个相似度矩阵;A2:从所述多个相似度矩阵中,分别抽取相似度大于等于第一阈值的一组匹配结果,得到所述多组匹配结果;A3 对所述多组匹配结果中的每个匹配结果进行投票,得到每个匹配结果的得票数;A4 查找所述多组匹配结果中互相冲突的匹配结果,在所述互相冲突的匹配结果中,保留得票数最多的匹配结果,删除其余的匹配结果;A5 重复执行所述步骤A4,直至剩余的匹配结果中没有互相冲突的匹配结果,将最终剩余的匹配结果作为所述初始匹配结果。优选地,所述步骤A2具体包括A21 设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集;A22 查找所述相似度矩阵中的最大相似度Hiij ;A23 判断Hiij是否大于等于第一阈值ο 1,如果是,将Hiij对应的匹配结果并入所述集合R后执行A24,否则,执行A26 ;A24 删除所述相似度矩阵中第i行和第j列的所有相似度;A25:判断所述相似度矩阵是否为空矩阵,如果是,执行A26,否则,执行所述步骤 A22 ;A26 将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果;A27 重复执行所述步骤A21至A26,直至得到对应所述多个相似度矩阵的所述多组匹配结果。优选地,所述步骤Al中,对于本体元素,所述不同文本信息包括名称信息、描述信息和实例信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种;对于实例元素,所述不同文本信息包括名称信息、描述信息和属性信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。优选地,所述基于名称的匹配策略通过计算本体元素或者实例元素的名称间的编辑距离得到元素间的相似度,元素ei、%间的相似度1 >1; e2)的计算公式如下Mname (e1 e2) = S6(IabeKe1), label(e2)),其中,IabeKe1)为元素ej々名称,label (e2)为元素%的名称,S6(IabeKe1), IabeKe2))表示label (e》所对应的字符串与label (e2)所对应的字符串之间的编辑距离, 并且Se (label (θι),label (e2))的计算公式如下
IWI
权利要求
1.一种多策略组合的本体或实例匹配方法,其特征在于,包括步骤A 对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票, 根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;B 根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。
2.如权利要求1所述的方法,其特征在于,所述步骤A包括步骤Al 对于两个本体元素或两个实例元素的集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到对应的多个相似度矩阵;A2 从所述多个相似度矩阵中,分别抽取相似度大于等于第一阈值的一组匹配结果,得到所述多组匹配结果;A3 对所述多组匹配结果中的每个匹配结果进行投票,得到每个匹配结果的得票数; A4 查找所述多组匹配结果中互相冲突的匹配结果,在所述互相冲突的匹配结果中,保留得票数最多的匹配结果,删除其余的匹配结果;A5:重复执行所述步骤A4,直至剩余的匹配结果中没有互相冲突的匹配结果,将最终剩余的匹配结果作为所述初始匹配结果。
3.如权利要求2所述的方法,其特征在于,所述步骤A2具体包括A21 设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集; A22 查找所述相似度矩阵中的最大相似度Hiij ;A23 判断Hiij是否大于等于第一阈值ο 1,如果是,将Hiij对应的匹配结果并入所述集合 R后执行A24,否则,执行A26 ;A24 删除所述相似度矩阵中第i行和第j列的所有相似度;A25 判断所述相似度矩阵是否为空矩阵,如果是,执行A26,否则,执行所述步骤A22 ; A26 将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果; A27 重复执行所述步骤A21至A26,直至得到对应所述多个相似度矩阵的所述多组匹配结果。
4.如权利要求2所述的方法,其特征在于,所述步骤Al中,对于本体元素,所述不同文本信息包括名称信息、描述信息和实例信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种;对于实例元素,所述不同文本信息包括名称信息、描述信息和属性信息中的至少两种;所述多个匹配策略与所述不同文本信息对应,其包括基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。
5.如权利要求4所述的方法,其特征在于,所述基于名称的匹配策略通过计算本体元素或者实例元素的名称间的编辑距离得到元素间的相似度,元素eph间的相似度Mnanre (e1; e2)的计算公式如下Mname (e1; e2) = Se (label (e^ , label (e2)),其中,IabeKe1)为元素e:的名称,label (e2)为元素%的名称,S6(IabeKe1), IabeKe2))表示label (e》所对应的字符串与label (e2)所对应的字符串之间的编辑距离,并且Se (label (e1),label (e2))的计算公式如下
6.如权利要求4所述的方法,其特征在干,所述基于描述的匹配策略通过计算向量空 间模型下本体元素或者实例元素的描述信息之间的余玄夹角得到元素11111111间的相似 度,元素も、e2间的基于描述信息的相似度Mmeta(も,e2)的计算公式如下
7.如权利要求4所述的方法,其特征在干,所述基于实例的匹配策略通过计算向量空 间模型下本体元素实例信息之间的余玄夹角得到元素间的相似度,元素ei、e2间基于实例 信息的相似度Minst (e” e2)的计算公式如下
8.如权利要求4所述的方法,其特征在干,所述基于属性的匹配策略通过计算向量空 间模型下实例元素属性值之间的余玄夹角得到元素间的相似度,元素e” e2间基于属性的 相似度MaM(ei,e2)的计算公式如下
9.如权利要求1所述的方法,其特征在于,所述步骤B具体包括步骤Bl 根据所述初始匹配结果,将第一本体元素或者实例元素集合E1中未匹配元素构成集合^ ,第二本体元素或者实例元素集合氏中未匹配元素构成集合& ,所述初始匹配结果构成集合R ;B2 对于每一个候选匹配结果<e,e' >,ee ;^ ,e'e ,计算e和e ‘之间的相似度 sim(e,e‘);B3 判断所述相似度sim(e,e')是否大于等于第二阈值σ 2,如果是,将所述候选匹配结果<e,e' >并入集合R;B4 重复步骤Bi、B2、B3,直至达到预先设定的最大重复次数k。
10.如权利要求9所述的方法,其特征在于,所述e和e'之间的相似度sim(e,e')的计算公式如下
全文摘要
本发明公开了一种多策略组合的本体或实例匹配方法,涉及语义万维网领域。所述方法包括步骤对于两个本体元素或两个实例元素集合,基于本体元素或实例元素的不同文本信息执行多个匹配策略,得到多组匹配结果,对所述多组匹配结果中的每个匹配结果进行投票,根据投票结果对所述多组匹配结果进行过滤,得到初始匹配结果;根据所述初始匹配结果,以及本体元素或者实例元素之间的链接关系,获得新匹配结果,所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。所述方法提高了最终匹配结果的准确度,有利于更好的解决链接数据模式层和实例层的异构问题。
文档编号G06F17/30GK102306177SQ20111024726
公开日2012年1月4日 申请日期2011年8月25日 优先权日2011年8月25日
发明者侯磊, 唐杰, 张啸, 李涓子, 王志春, 赵越 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1