一种用于本体匹配的本体词法分析方法

文档序号:6567169阅读:191来源:国知局
专利名称:一种用于本体匹配的本体词法分析方法
技术领域
本发明涉及一种用于本体匹配的本体词法分析方法,属于计算机技术领域,特别是属于本体技术领域。
背景技术
本体(ontology)是共享概念模型的明确的形式化规范说明,使得计算机对知识能够共享、重用、互操作,并在语义ffeb,知识数据工程,电子商务等领域中广泛应用。由于不同背景的知识工程师构造和维护相似或相同域的本体,导致了本体之间的异构,这阻碍了知识的共享、重用、互操作,本体匹配(ontology matching)是解决该问题主要方法之一。本体匹配是指发现相似或相同域中不同本体中相同类型实体(entity)之间的匹配关系,实体包括概念(cone印ts)、属性(properties)、个体(individuals)。目前,本体匹配系统多是利用实体标签和评论中单词的单个词义和本体中实体间的结构,计算实体间的相似性,从而得出匹配关系。由于这些本体匹配系统没有有效利用本体的词法信息,较少关注实体中的单词词义的扩展,单词词义的组合方式,特殊含义单词的处理等对匹配结果的影响,导致这些本体匹配系统的实际匹配结果并不好。因此如何有效分析和利用本体的词法信息成为本体应用过程中一个急需要解决的技术难题。

发明内容
有鉴于此,本发明的目的是发明一种有效的本体词法信息分析方法,能直接用于本体匹配操作之中。为了达到上述目的,本发明提出了一种用于本体匹配的本体词法分析方法,所述方法包括下列操作步骤(1)将待匹配的两个本体分别定为源本体和目标本体;(2)将源本体和目标本体中所有实体标签里的字符串以及评论里的字符串切为单词;(3)根据源本体的上下文找到源本体中单词的合适词义,根据目标本体的上下文找到目标本体中单词的合适词义;(4)对源本体和目标本体中单词的合适词义进行扩展;(5)构建词义关系本体;(6)根据源本体和目标本体中实体的标签和评论中的单词的合适词义及该词义扩展构建所述源本体和目标本体中的实体的词法信息。所述步骤2的具体操作内容是将源本体和目标本体中实体标签和评论里的字符串分解成单词,并处理单词的复数、过去时、现在时等情况。所述步骤3的具体操作内容是首先获得本体中每个单词在词网WordNet中的所有词义,检查任何两个来自不同单词的词义在词网WordNet里的关系,如果它们被词网WordNet里的任何关系相连接,将这两个相连接的单词词义放到对应单词的相关词义集合里,并记录各单词词义被选进对应单词的相关词义集合的次数,这说明在目前本体的上下文,单词的相关词义集合里的任何词义都有可能是这个单词的合适词义;在得到单词的相关词义集合后,在这个集合中选取最有最大词义值的词义作为该单词的合适词义;词义值计算方法如下
CV(SynsetA)=WC(SynsetA)x9+FS(SynsetA)其中CV(SynsetA)表示单词的相关词义集合里词义SynsetA的词义值; WC(SynsetA)是词义SynsetA被选进相关词义集合的次数;FS (SynsetA)是词义SynsetA在词网WordNet中的频率分数,φ是一个表示权重值的实数。所述步骤4的具体操作内容是将步骤3所得到的单词的合适词义扩展到一组词义,这组词义中的每个元素都和该单词的合适词义在词网WordNet中有特殊的关系,即形容词起源pertainym关系、畐Ij词起源derived_from_adj关系、诱导derivationally关系或相关related关系;单词的合适词义和扩展词义构成单词的可用词义集合。单词的扩展词义支持了实体间的潜在关系,这有助于在现存的上下文包括单词的所有可能的词义,并提高本体匹配过程的覆盖率。所述步骤5的操作包括如下操作步骤(501)建造词义关系本体,所述的词义关系本体是指不包含任何概念、属性和个体的本体;(502)得到源本体中单词的列表,即源本体单词列表WLS,该列表中的单词包含其可用词义集合;(503)得到目标本体中单词的列表,即目标本体单词列表mx该列表中的单词包含其可用词义集合;(504)取源本体单词列表WLS中的单词,即源单词WS,并为源单词WS定义空的信息词义集合ISS ;(505)取源单词WS的可用词义集合中的词义,即源词义SS ;(506)取目标本体单词列表W^T中的单词,即目标单词WT,并为WT定义空的信息词义集合ISS ;(507)取目标单词WT的可用词义集合中的词义,即目标词义ST;(508)查询源词义SS与目标词义ST在词网WordNet中的关系,如关系存在则建立相应公理并插入词义关系本体,否则转到步骤509 ;如果源词义SS未出现在源单词WS的信息词义集合ISS中,则添加源词义SS到源单词WS的信息词义集合ISS ;如目标词义ST未出现在目标单词WT的信息词义集合ISS中,则添加目标词义ST到目标单词WT的信息词义集合ISS中;(509)转到步骤507直到遍历完目标单词WT的可用词义集合中的词义;(510)转到步骤506直到遍历完目标本体单词列表W^T中的单词;(511)转到步骤505直到遍历完源单词WS的可用词义集合中的词义;(512)转到步骤504直到遍历完源本体单词列表W^S中的单词。所述的步骤508中建立公理的具体方法是首先定义源词义SS和目标词义ST为词义关系本体中的概念;然后根据词网WordNet关系和类公理之间的六条转化规则定义源词义SS和目标词义ST之间的类公理。所述的六条转化规则具体是上位词关系Hypemym-父类公理SupClassAxiom转化规则、下位词关系Hyponym-子类公理 SubClassAxiom转化规则、整体部分关系Holonym-父类公理SupClassAxiom转化规则、反义关系Antonym-不相交公理DisjointClassAxiom转化规则、近义关系Similarto-相等公理 EquivalentClassAxiom转化规则、同级关系 Coordinate-不相交公理 Dis jointClassAxiom 转化规则。所述步骤6中源本体和目标本体中的实体的词法信息的构建操作具体包括以下步骤(611)得到本体中的实体列表EL,该实体列表EL中的实体包含其标签里的单词和其评论里的单词;(612)取实体列表EL中的一个实体EntityA,然后根据该实体EntityA标签里的单词和评论里的单词,按照下式定义实体EntityA的单词组合方式W(EntityA),
W(EntityA) = je卜=La(EntityA) UCj1(Co(EntityA))^j上式中,La(EntityA)表示来自实体EntityA的标签里除停词之外的所有单词的集合;Co (EntityA)表示来自实体EntityA的评论里除停词之外的所有单词的集合,该集合的大小用η表示;Cj1 (Co (EntityA))表示一个集合,该集合中的每个元素是在Co(EntityA) 的η个元素中选i个得到的,其中i是一个大于等于O且小于等于η的整数;符号I1J表示将两个集合合并为一个集合;符号 表示形成一个新的集合,该集合的每个元素包含 La(EntityA)的所有元素和Σ〖UCj1 (Co(EntityA))中某个元素中的所有元素,并且删掉重复的单词;这样W(EntityA)中的每个元素包括实体EntityA标签里的所有单词和评论里的若干个单词;所述的停词(stop words)是指在本体上下文中没有任何意义的单词;(613)按照下式定义实体EntityA的词法信息表示C (EntityA),
权利要求
1.一种用于本体匹配的本体词法分析方法,其特征在于所述方法包括下列操作步骤(1)将待匹配的两个本体分别定为源本体和目标本体;(2)将源本体和目标本体中所有实体标签里的字符串以及评论里的字符串切为单词;(3)根据源本体的上下文找到源本体中单词的合适词义,根据目标本体的上下文找到目标本体中单词的合适词义;(4)对源本体和目标本体中单词的合适词义进行扩展;(5)构建词义关系本体;(6)根据源本体和目标本体中实体的标签和评论中的单词的合适词义及该词义扩展构建所述源本体和目标本体中的实体的词法信息。
2.根据权利要求1所述的一种用于本体匹配的本体词法分析方法,其特征在于所述步骤2的具体操作内容是将源本体和目标本体中实体标签和评论里的字符串分解成单词,并处理单词的复数、过去时、现在时等情况。
3.根据权利要求1所述的一种用于本体匹配的本体词法分析方法,其特征在于所述步骤3的具体操作内容是首先获得本体中每个单词在词网WordNet中的所有词义,检查任何两个来自不同单词的词义在词网WordNet里的关系,如果它们被词网WordNet里的任何关系相连接,将这两个相连接的单词词义放到对应单词的相关词义集合里,并记录各单词词义被选进对应单词的相关词义集合的次数,这说明在目前本体的上下文,单词的相关词义集合里的任何词义都有可能是这个单词的合适词义;在得到单词的相关词义集合后,在这个集合中选取最有最大词义值的词义作为该单词的合适词义;词义值计算方法如下CV(SynsetA)=WC(SynsetA)xcp+FS(SynsetA)其中CV(SynsetA)表示单词的相关词义集合里词义SynsetA的词义值;WC(SynsetA) 是词义SynsetA被选进相关词义集合的次数;FS (SynsetA)是词义SynsetA在词网WordNet 中的频率分数,φ是一个表示权重值的实数。
4.根据权利要求1所述的一种用于本体匹配的本体词法分析方法,其特征在于所述步骤4的具体操作内容是将步骤3所得到的单词的合适词义扩展到一组词义,这组词义中的每个元素都和该单词的合适词义在词网WordNet中有特殊的关系,即形容词起源pertainym关系、畐Ij词起源derived_from_adj关系、诱导derivationally关系或相关 related关系;单词的合适词义和扩展词义构成单词的可用词义集合;单词的扩展词义支持了实体间的潜在关系,这有助于在现存的上下文包括单词的所有可能的词义,并提高本体匹配过程的覆盖率。
5.根据权利要求1所述的一种用于本体匹配的本体词法分析方法,其特征在于所述步骤5的操作包括如下操作步骤(501)建造词义关系本体,所述的词义关系本体是指不包含任何概念、属性和个体的本体;(502)得到源本体中单词的列表,即源本体单词列表WLS,该列表中的单词包含其可用词义集合;(503)得到目标本体中单词的列表,即目标本体单词列表WX该列表中的单词包含其可用词义集合;(504)取源本体单词列表WLS中的单词,即源单词WS,并为源单词WS定义空的信息词义集合ISS ;(505)取源单词WS的可用词义集合中的词义,即源词义SS;(506)取目标本体单词列表W^T中的单词,即目标单词WT,并为WT定义空的信息词义集合ISS ;(507)取目标单词WT的可用词义集合中的词义,即目标词义ST;(508)查询源词义SS与目标词义ST在词网WordNet中的关系,如关系存在则建立相应公理并插入词义关系本体,否则转到步骤509 ;如果源词义SS未出现在源单词WS的信息词义集合ISS中,则添加源词义SS到源单词WS的信息词义集合ISS ;如目标词义ST未出现在目标单词WT的信息词义集合ISS中,则添加目标词义ST到目标单词WT的信息词义集合 ISS 中;(509)转到步骤507直到遍历完目标单词WT的可用词义集合中的词义;(510)转到步骤506直到遍历完目标本体单词列表^^中的单词;(511)转到步骤505直到遍历完源单词WS的可用词义集合中的词义;(512)转到步骤504直到遍历完源本体单词列表WLS中的单词;所述的步骤508中建立公理的具体方法是首先定义源词义SS和目标词义ST为词义关系本体中的概念;然后根据词网WordNet关系和类公理之间的六条转化规则定义源词义 SS和目标词义ST之间的类公理;所述的六条转化规则具体是上位词关系Hypemym-父类公理SupClassAxiom转化规则、下位词关系Hyponym-子类公理SubClassAxiom转化规则、 整体部分关系Holonym-父类公理SupClassAxiom转化规则、反义关系Antonym-不相交公理 DisjointClassAxiom 转化规则、近义关系 Similarto-相等公理 EquivalentClassAxiom 转化规则、同级关系Coordinate-不相交公理DisjointClassAxiom转化规则。
6.根据权利要求1所述的一种用于本体匹配的本体词法分析方法,其特征在于所述步骤6中源本体和目标本体中的实体的词法信息的构建操作具体包括以下步骤(611)得到本体中的实体列表EL,该实体列表EL中的实体包含其标签里的单词和其评论里的单词;(612)取实体列表EL中的一个实体EntityA,然后根据该实体EntityA标签里的单词和评论里的单词,按照下式定义实体EntityA的单词组合方式W(EntityA),上式中,La (EntityA)表示来自实体EntityA的标签里除停词之外的所有单词的集合; Co(EntityA)表示来自实体EntityA的评论里除停词之外的所有单词的集合,该集合的大小用η表示;Cj1 (Co (EntityA))表示一个集合,该集合中的每个元素是在Co (EntityA)的η 个元素中选i个得到的,其中i是一个大于等于O且小于等于η的整数;符号y表示将两个集合合并为一个集合;符号 表示形成一个新的集合,该集合的每个元素包含La(EntityA) 的所有元素和Si1WCj1 (Co(EntityA))中某个元素中的所有元素,并且删掉重复的单词;这样W(EntityA)中的每个元素包括实体EntityA标签里的所有单词和评论里的若干个单词; 所述的停词(stop words)是指在本体上下文中没有任何意义的单词; (613)按照下式定义实体EntityA的词法信息表示C (EntityA),
全文摘要
一种用于本体匹配的本体词法分析方法,包括以下操作步骤(1)将待匹配的两个本体分别定为源本体和目标本体;(2)将源本体和目标本体中所有实体标签里的字符串以及评论里的字符串切为单词;(3)根据源本体的上下文找到源本体中单词的合适词义,根据目标本体的上下文找到目标本体中单词的合适词义;(4)对源本体和目标本体中单词的合适词义进行扩展;(5)构建词义关系本体;(6)根据源本体和目标本体中实体的标签和评论中的单词的合适词义及该词义扩展构建所述源本体和目标本体中的实体的词法信息。本发明方法有助于发现潜在的实体匹配,提高了本体匹配的覆盖率和准确率。
文档编号G06F17/27GK102508827SQ20111029091
公开日2012年6月20日 申请日期2011年9月29日 优先权日2011年9月29日
发明者刘秀磊, 廖建新, 张乐剑, 张磊, 徐童, 朱晓民, 李炜, 樊利民, 沈奇威, 王敬宇, 王晶, 王纯, 程莉 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1