基于突发事件本体的语义查询扩展算法的制作方法

文档序号:6365135阅读:182来源:国知局
专利名称:基于突发事件本体的语义查询扩展算法的制作方法
技术领域
本发明属于查询扩展算法,具体为基于突发事件本体的语义查询扩展算法法。该方法对已有的方 法进行了改进,不仅能扩展出和查询词有上下位关系、同义关系等语义关系的词语,还能扩展出和查询词有突发事件领域特定语义关系的词语,能够根据概念相似度大小设置扩展哪些概念,避免了扩展结果发生同质化,并且能够使最后的查询结果按相似度有序排列。
背景技术
在信息检索领域中,用户输入的查询往往与文档中的目标词不相匹配,导致信息检索系统无法返回符合用户查询请求的结果集。如何对用户查询词进行处理以提高信息检索的准确率,是ー个开放的问题。查询扩展是其中一种可行的解决方法,其基本思想是在原始查询词的基础上加入与用户查询词相关联的词,以组成新的更长、更准确的查询词,可以在一定程度上弥补用户查询信息不足的缺陷。基于本体进行查询扩展的思想最早是由Voorhees在1994年提出的,主要是借助本体中明确形式化的概念定义,利用本体中的同义词和特定的子类关系来进行查询扩展。在此之后,基于本体进行查询扩展的研究不断深入,近年来已成为ー个研究热点。本体因其可以明确地、形式化地表达概念的含义以及概念之间的语义关系,成为提供语义信息的“语义词典”。目前,语义查询扩展的研究方法主要是把原始查询映射到概念,根据本体中概念间的各种关系,利用一定的技术,提取出查询语义及其语义关联词,从而得到比原查询更长的新查询词。许多方法是将查询映射到本体中的概念,或者说,它们所使用的本体(例如HowNet、WordNet)更像是简单树形结构的词表,并没有属性和实例概念,能表达的也主要是上下位关系、同义关系,因而这样的本体并不能扩展出很多语义关联词。大部分的算法找出了查询扩展词,并添加进查询词中,组成比原查询更长的查询,也就是默认查询扩展词与原查询词的权重相同,有可能导致“主题偏移”。因此查询词与查询扩展词的权重不应该相同,否则会影响最后的查询結果。为了解决这些问题,本发明提出了ー种基于突发事件本体和概念相似度计算模型的语义查询扩展算法。

发明内容
本发明的目的在于提供ー种基于突发事件本体和概念相似度计算模型的语义查询扩展算法,以扩展出更多有效的查询词,进而提高信息检索的查准率与查全率。首先建立了突发事件领域本体模型,然后建立概念相似度计算模型,最后给出了算法的实现步骤。I.突发事件领域本体模型建立的突发事件领域本体模型包括事件层、过程层、行动层和决策层。在图中,描述性的知识定义在事件层,指定突发事件的类别及其相互之间的关系;过程性知识主要定义在过程层,描述了突发事件涉及到的一系列状态,前态经过一系列过程转入终态;行动层主要定义处置突发事件所采取的行动知识,并引入角色和行动条件的概念;决策层主要定义突发事件问题、应急预案等知识。突发事件领域本体包括类、属性、关系和实例4个元素。2.概念相似度计算模型综合考虑概念之间的语义距离、层次因素、上位概念重合度的概念相似度计算模型如下
权利要求
1.基于突发事件本体的语义查询扩展算法,其特征在于,首先从本体论的角度出发,设计了一个基于本体的多层突发事件领域知识模型,定义了突发事件领域概念间存在的语义关系。然后通过对影响概念相似度大小的因素进行分析,建立了一种综合考虑概念之间的语义距离、层次因素、上位概念重合度的概念相似度计算模型。为了保证对突发事件领域词汇的分词准确性,本发明还基于突发事件领域本体对所使用的分词词库进行了扩展。最后设计了基于突发事件本体和概念相似度模型实现语义查询扩展的流程。
2.根据权利要求I所述的方法,其特征在于,设计了一个基于本体的多层突发事件领域知识模型,定义了突发事件领域概念间存在的语义关系,突发事件本体模型分为4层事件层、过程层、行动层和决策层。描述性的知识定义在事件层,指定突发事件的类别及其相互之间的关系;过程性知识主要定义在过程层,描述了突发事件涉及到的一系列状态,前态经过一系列过程转入终态;行动层主要定义处置突发事件所采取的行动知识,并引入角色和行动条件的概念;决策层主要定义突发事件问题、应急预案等知识。突发事件领域本体包括类、属性、关系和实例4个元素。突发事件领域概念之间存在的语义关系包括分类关系(is_a)、时间关系(is_before)、并发关系(synchronize)、因果关系(cause)、f禹合关系(coupling)、需求关系(need)、条件关系(context_of)、顺序关系(precede、follow)、依据关系(basedon)、参考关系(refe_for)、针对关系(aimed_at)。
3.根据权利要求I所述的方法,其特征在于,建立了一种综合考虑概念之间的语义距离、层次因素、上位概念重合度的概念相似度计算模型
4.根据权利要求I所述的方法,其特征在于,基于突发事件领域本体对所使用的分词词库进行了扩展,将本体库中存储的概念都添加到了分词词库中,这样当用户输入句子时,能够提取出更准确的关键词。
5.根据权利要求I所述的方法,其特征在于,设计了基于突发事件本体和概念相似度模型实现语义查询扩展的流程若用户输入采用的是自然语言模式,首先需要进行分词处理,提取出关键词,然后进行本体匹配。若与本体中的类概念匹配成功,则扩展该类概念的同义词、上下位概念、实例概念以及有cause、is before、need等特定语义关系的词语,并应用概念相似度计算公式计算出扩展的概念与类概念之间的相似度;若与本体中的实例概念匹配成功,则扩展该实例概念的属性概念、所属类概念等,然后应用实例相似度计算公式计算出扩展的实例与实例之间的相似度。最后将与输入关键词的相似度达到给定阈值的概念一同作为新的查询关键词进行查询。
全文摘要
本发明提出了一种基于突发事件本体的语义查询扩展算法。首先从本体论的角度出发,设计了一个多层的突发事件本体模型,定义了突发事件领域概念间存在的语义关系,从而能够扩展出语义相关的概念。然后通过对影响概念相似度大小的因素进行分析,建立了一种综合考虑概念之间的语义距离、层次因素、上位概念重合度的概念相似度计算模型,更加全面地量化了本体网络中概念节点之间的相似度,能够根据相似度大小设置扩展哪些概念,避免了扩展结果同质化,并且能够使最后的查询结果按相似度有序排列。为了保证对突发事件领域词汇的分词准确性,本发明还基于突发事件领域本体对所使用的分词词库进行了扩展。
文档编号G06F17/30GK102663122SQ20121011825
公开日2012年9月12日 申请日期2012年4月20日 优先权日2012年4月20日
发明者杜军平, 杨月华 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1