一种基于Ontology的语义检索方法

文档序号:6509065阅读:342来源:国知局
一种基于Ontology的语义检索方法
【专利摘要】本发明公开了一种基于Ontology的语义检索方法。首先,构建本体库,完成本体规则的建立。用户输入检索关键字,在本体支持下,通过概念相似度计算得到相似度的大小。然后,根据设定的阈值,把相似度的值高于阈值的概念添加到原始的检索关键字集合中,扩展为新的概念集。把新的概念集作为源输入词到本体库中进行检索。最后把检索到的结果返回给用户。本发明在本体推理技术的支持下,通过对本体中属性的应用实现了实例的准确查找,使信息检索的查全率、查准率比现有技术都有所提高。本发明将关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
【专利说明】—种基于Ontology的语义检索方法
【技术领域】
[0001]本发明属于自然语言处理和机器智能的交叉领域,就是借助Ontology (本体)技术,把目前信息检索技术从关键字匹配方式提高到计算机可理解的语义检索方式,把这项技术应用到旅游信息检索上,实现了智能化的旅游检索服务。
技术背景
[0002]随着Internet和移动通信技术的迅猛发展,Web已成为全球的信息源,如何快速、准确地从浩瀚的信息资源中寻找自己所需的信息,成为困扰用户的一个难题。传统的信息检索提供给用户的检索方式是以用户输入的关键词进行匹配的检索方式,但是大多数的情况下这种简单的关键词匹配很难理解用户真正的检索目的,因此导致目前这种信息检索方式的精确度不高。
[0003]国外的一些专家已经在本体方面进行了实践性的操作,例如Ontoseek黄页系统,是一个基于内容检索的系统,该系统集成了产品树型结构和在线黄页。它把具有表示形式化能力的系统与本体内容匹配机制结合起来,并把本体库与数据库词典整合在一起,提供用户一个可以通过输入自然语言,然后转化为领域本体中的词汇,实现语义层面的检索系统。从Ontoseek黄页系统中可得知,其中的概念词汇和词汇之间的关系是不受任何约束的,所以词汇之间关系图也许是不起任何作用的,因此会发生检索到的结果不是用户所需的。目前的旅游黄页服务系统,如“携程网”、“途牛网”,在检索上对用户输入的关键词信息只是进行了字词的简单匹配,不能在语义上理解用户输入的信息,也就不能很好地检索出用户真正需要的信息。因此,必须将信息检索方式从现有的基于关键词匹配级别提升到基于知识理解级别、基于语义级别来对信息进行组织和表达,从而设计一种可以理解用户语义的信息检索模型。

【发明内容】

[0004]针对现有技术中存在的上述问题,本发明提出了一种基于Ontology的语义检索方法,目的是实现计算机对用户输入内容的理解,实现语义层面的检索。
[0005]为实现上述目的,本发明采用的技术方案是:首先,构建本体库,完成本体规则的建立。用户输入的检索关键字,在本体的支持下,通过概念相似度计算得到相似度的大小。然后根据设定的阈值,把相似度的值高于阈值的概念添加到原始的检索关键字集合中,扩展为新的概念集。把新的概念集作为源输入词到本体库中进行检索。最后把检索到的结果返回给用户。
[0006]—种基于Ontology的语义检索方法,包括以下步骤:
[0007]步骤一,借助本体开发工具完成本体库的构建,通过人工方式,分析旅游领域的概念或核心词汇。构建的本体库形成树型的数据结构。
[0008]步骤二,根据领域概念之间的关系,利用Jena规则语法格式,完成本体规则库的建立。[0009]步骤三,用户输入检索词汇或者语句,分词搜索引擎进行分词处理。
[0010]步骤四,根据概念相似度的计算进行语义检索扩展,形成新的概念集合。
[0011]步骤五,用新的集合作为原始词,进行检索,并在本体规则的支持下,对本体进行推理,检索出本体库中隐含的信息。
[0012]步骤六,检索到的结果按相似度大小进行排序。
[0013]步骤七,将检索结果返回给用户。
[0014]与现有技术相比,本发明具有以下优点:
[0015](I)本发明在本体推理技术的支持下,通过对本体中属性的应用实现了实例的准确查找,使信息检索的查全率、查准率比现有技术都有所提高。
[0016](2)本发明所述方法将关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
【专利附图】

【附图说明】
[0017]图1为本发明所涉及的方法流程图;
[0018]图2为本发明实施例公交检索结果;
[0019]图3为本发明实施例酒店检索结果;
[0020]图4为本发明实施例景点检索结果。
【具体实施方式】
[0021]下面结合附图和实施例对本发明做进一步说明。
[0022]本发明的需要的软件环境:Windows操作系统,Myeclipse开发工具,WEB服务器:Tomcat,数据库:Mysql, Spring+Struts+Hibernate 框架。
[0023]本发明所述方法流程图如图1所示,包括以下步骤:
[0024]步骤一,借助本体开发工具Prot6g6完成本体库的构建,通过人工方式,分析旅游领域的概念或核心词汇。构建的本体库形成树型的数据结构。
[0025]步骤二,根据领域概念之间的关系,例如:公交和车站之间的关系,可以用“经过”或者“到达”这样的属性建立联系,利用Jena规则语法格式,完成本体规则库的建立。
[0026]步骤三,用户输入检索请求:用户通过检索界面输入检索请求,提交给后台处理程序。
[0027]用户界面是利用Jsp和Jquery技术实现的,点击检索按钮触发OnclickO事件,通过javascript功能函数把页面输入的关键词传给后台代码。
[0028]步骤四,语义检索扩展:
[0029](I)把用户输入的关键词进行分词处理,形成初始化的集合,其中借助了开源工具Lucene0
[0030](2)扩展出整个本体库中与初始化集合中的词语语义相同或相似的领域概念,形成新的概念集合。
[0031 ] (3)计算本体概念相似度。
[0032]概念距离的计算公式为:
[0033]Distance (a, b) = N [a, Ancestor (a, b) ] +N [b, Ancestor (a, b)]
【权利要求】
1.一种基于Ontology的语义检索方法,其特征在于将信息检索从传统的关键词检索提高到语义检索,包括以下步骤: 步骤一,借助本体开发工具完成本体库的构建,通过人工方式,分析旅游领域的概念或核心词汇; 步骤二,根据领域概念之间的关系,利用Jena规则语法格式,完成本体规则库的建立; 步骤三,用户输入检索词汇或者语句,分词搜索引擎进行分词处理; 步骤四,根据概念相似度的计算进行语义检索扩展,形成新的概念集合; 步骤五,用新的集合作为原始词,进行检索,并在本体规则的支持下,对本体进行推理,检索出本体库中隐含的信息; 步骤六,检索到的结果按相似度大小进行排序; 步骤七,将检索结果返回给用户。
2.根据权利要求1所述的一种基于Ontology的语义检索方法,其特征在于步骤四进行语义检索扩展的方法还包括以下步骤: (1)把用户输入的关键词进行分词处理,形成初始化的集合; (2)扩展出整个本体库中与初始化集合中的词语语义相同或相似的领域概念,形成新的概念集合; (3)计算本体概念相似度; 概念距离的计算公式为:
【文档编号】G06F17/30GK103440314SQ201310378833
【公开日】2013年12月11日 申请日期:2013年8月27日 优先权日:2013年8月27日
【发明者】沈琦, 张猛, 汤艳, 宋清明 申请人:北京工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1