一种构建领域本体的方法

文档序号:6397200阅读:595来源:国知局
专利名称:一种构建领域本体的方法
技术领域
本发明涉及信息系统建模领域,尤其涉及一种构建领域本体(DomainOntology) 的方法。
背景技术
本体(Ontology)是用于描述一个领域的术语集合,其组织结构是层次结构化的, 可以作为一个知识库的骨架和基础。一般认为本体就是Gruber提出的“本体是概念模型的 明确的规范说明”。本体是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能在语义和 知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、信息处理、数字 图书馆、自然语言理解、语义Web等领域之中。典型的应用有(1)基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。(2)基于本体的数据集成、机器学习等。(3)领域本体的应用。比如,在生物信息学中已建成的GeneOntology,尽管只包括 了 part-of等简单的关系,但是对生物信息学界已经有巨大的影响。(4)语义 Web 服务。(5)在线元数据管理和自动信息发布。本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解, 确定领域内共同认可的词汇,并从不同层次的形式化模式上给出了这些词汇(术语)和词 汇间相互关系的明确定义。Perez等人用分类法组织了本体,并归纳出本体的五个基本构成元素(建模元 语),即①类(Classes)或概念(Concepts);②关系(Relations);③函数(Functions); ④公理(Axioms);⑤实例(Instances)。从语义上讲,基本的关系共有4种,如表1所示表1基本的关系种类
关系名关系描述part-of表达概念之间部分与整体的关系。kind-of表达概念之间的继承关系,类似于面向对象中的 父类与子类之间的关系。给出两个概念C和D, 记C' = {x|x是C的实例},D' ={x|x是D的实 例},如果对任意的χ属于D',χ都属于C',则称 C为D的父概念,D为C的子概念
权利要求
1.一种构建领域本体的方法,包括下列步骤1)选取种子领域术语,建立领域本体,并设定所述种子领域术语的信息具化度;2)根据所述种子领域术语抽取领域术语,并根据所述种子领域术语的信息具化度计算 所述领域术语的信息具化度;3)将所述领域术语按照其信息具化度排列,计算当前领域术语和领域本体中任一领域 术语的相似度;4)根据所述信息具化度和所述相似度选择所述当前领域术语的可能的关联术语;5)在语料库中验证所述当前领域术语与其可能的关联术语之间可能存在的关系模式 的可信度,如果可信,则将所述当前领域术语加入所述领域本体,否则,删除所述当前领域 术语;6)重复所述步骤;3)、4)和幻,直到所有领域术语均已经加入所述领域本体或被删除。
2.根据权利要求1所述的方法,其特征在于,所述步骤幻后还包括领域集中的步骤。
3.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信 息具化度spec (c)
4.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信 息具化度spec (c)
5.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算所述领域术语的信 息具化度spec (c)
6.根据权利要求1或2所述的方法,其特征在于,利用如下公式计算当前领域术语和领 域本体中任一领域术语的相似度SIM(ti; tj) = SIMdtJti, tj)+SIMin (ti; tj),其中,SIMdoc (t^tj)表示当前领域术语、和领域本体中任一领域术语、的文档相似度, SIMin (ti; tj)表示、和tj的内部相似度,
7.根据权利要求1或2所述的方法,其特征在于,所述步骤4)进一步包括下列步骤(1)在领域本体中选择与所述当前领域术语相似度大于阈值的领域术语;(2)从所选择的领域术语中选择信息具化度小于/大于所述当前领域术语的领域术语 作为候选上/下位术语;(3)从所述候选上/下位术语中选择信息具化度最高/最低的领域术语作为所述当前 领域术语的可能的上/下位术语。
8.根据权利要求7所述的方法,其特征在于,所述步骤(1)还包括从所选择的领域术语 中,再选择出与所述当前领域术语相似度最高的m个领域术语,其中m为正整数。
9.根据权利要求1或2所述的方法,其特征在于,所述验证进一步包括下列步骤 根据所述当前领域术语与其可能的同义/上下位术语构建验证术语对; 将所述验证术语对表示为符合可能的同义/上下位关系模式的表达式;在领域语料库中选取存在所述验证术语对的句子作为模式上下文,判断所述模式上下 文中所述当前领域术语与其可能的同义/上下位术语之间的关系的可信度。
全文摘要
本发明提供一种构建领域本体的方法,包括步骤1)选取种子领域术语,建立领域本体,并设定种子领域术语的信息具化度;2)根据种子领域术语抽取领域术语,并根据种子领域术语的信息具化度计算领域术语的信息具化度;3)将领域术语按照其信息具化度排列,计算当前领域术语和领域本体中任一领域术语的相似度;4)根据信息具化度和相似度选择当前领域术语的可能的关联术语;5)在语料库中验证当前领域术语与其可能的关联术语之间可能存在的关系模式的可信度,如果可信,则将当前领域术语加入领域本体,否则,删除当前领域术语;6)重复步骤3)、4)和5),直到所有领域术语均已经加入领域本体或被删除。由此,更加准确有效地建立领域本体。
文档编号G06F17/30GK102117281SQ200910243990
公开日2011年7月6日 申请日期2009年12月30日 优先权日2009年12月30日
发明者焦希泉, 赵琦, 高建忠, 黄毓瑜 申请人:北京亿维讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1