一种面向领域数据的语义检索方法

文档序号:6627079阅读:315来源:国知局
一种面向领域数据的语义检索方法
【专利摘要】本发明公开了一种面向领域数据的语义检索方法,利用本体来描述某个领域的语义信息,使得计算机更准确得理解用户查询内容,进而实现语义层面的检索,在分析现有技术的基础上,结合语义网本体的结构特点,提出了一种面向领域数据的语义索引模型,模型根据关键词在本体中的位置推断关键词与不同实例之间的语义相关度,将相关度权重写入关键词对应的实例倒排列表,降低了语义检索时相似度计算的复杂度,提高了检索的效率。本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
【专利说明】一种面向领域数据的语义检索方法

【技术领域】
[0001] 本发明涉及一种智能检索方法,具体是一种面向领域数据的语义检索方法。

【背景技术】
[0002] 互联网是当今最主要的网络信息集散地,汇聚了海量信息,同时信息数量还在以 惊人的速度增长,信息检索技术作为一种便捷的信息查看方式在信息获取的过程中占据着 越来越重要的位置。传统的搜索引擎大多使用的是基于关键词匹配的方式,缺乏必要的语 义信息,不能很好地理解用户需求,常常得到大量不相关的信息,为了突破这些限制,大量 的研究工作开始转向搜索领域的语义化,即语义网和网络搜索两个领域最热的研究方向之 〇
[0003] 当前实用化的信息检索系统在信息的语义解释上有一定局限性,计算机无法通过 几个关键字完全理解用户的需求。首先是由于不同的用户对同一个概念的表示方法不同, 也就是没有统一的信息表示规范,其次是因为同一个关键字在不同的上下文表示不同的概 念,即存在一词多义的情况。造成这些局限的最主要问题是不能很好地处理概念、标识之间 的各种联系和推理关系。
[0004] 语义检索利用语义技术将信息检索的过程从关键词匹配提升到语义概念(或知 识)匹配的层面。本体是一种重要的知识表示方式,它描述了概念的内涵以及不同概念之间 的关系,具有良好的概念层次结构,同时还提供对逻辑推理的支持,很多研究人员尝试将本 体技术应用到基于知识的检索中。在语义检索应用中,本体技术主要用于不同的应用系统 之间的信息理解、使用和分享,基于本体的语义标注技术能够在现实互联网中的网络文档 和各个领域的本体模型之间建立关联,给原本没有语义概念的信息赋予语义的内涵,建立 语义数据库。将语义数据库应用到信息检索领域中能够避免关键词匹配技术的不足,提升 信息检索的效率。
[0005] 近年来,国外针对语义信息检索的研究比较活跃,相当一部分研究是利用本体技 术提高特定领域的信息检索效果。其中比较知名的语义检索系统有 :SH0E、SW〇〇gle、C〇rese 等。
[0006] SHOE是最早对网络资源进行语义查询的语义检索系统,它的主要组成部分有网页 标注工具、网页抓取器、信息查询工具、推理机等。Swoogle是一个针对互联网上的语义网 文档、术语以及数据的搜索引擎。它可以像Google-样在互联网上爬行,收集各类Meta信 息,并将信息存入信息库中,之后在此基础上创建索引实现信息检索。Corese系统是一个基 于本体的语义搜索引擎。在查询的过程中使用基于RDF(S)的查询语言对使用相同标准标 注过的网络资源进行搜索。该系统的相似度算法的设计主要是依据推理规则以及语义网中 实体之间的语义距离,例如概念之间、属性之间、概念与属性之间等。从这个意义上讲,该系 统更容易检索到那些在概念和语义关系上接近用户查询的资源。
[0007] 国内对语义网的研究更多停留在理论层面,将语义网和本体技术应用于信息检索 领域的研究起步较晚,借鉴国外经验较多,成熟的应用较少。虽然取得了一些研究进展,但 与国外尤其是发达国家相比还是有一定的差距,主要还是因为我国缺少相关的政府组织或 强有力的民间组织来推动语义网的研究,也缺少从战略层面对互联网的规划和设计,但是 人工智能、信息管理等多领域的学者专家一直在对语义网、本体技术、语义检索等方面进行 着研究探索,并取得了一定成果。


【发明内容】

[0008] 本发明的目的在于提供一种把当前的信息检索技术从关键字匹配方式提高到计 算机可理解的语义检索方式的面向领域数据的语义检索方法,以解决上述【背景技术】中提出 的问题。
[0009] 为实现上述目的,本发明提供如下技术方案: 一种面向领域数据的语义检索方法,包括以下步骤:(1)借助本体管理工具完成本体 概念库的构建,利用语义标注工具进行标注得到实例数据集;(2)根据本体概念、实例、属 性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集,构建语义数据索 引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理;(4)利用本体概 念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5)用新的单词集 合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集合按照相关度 权值大小进行排序;(7)将检索结果返回给用户。
[0010] 作为本发明进一步的方案:所述构建语义数据索引的步骤包括:(1)对实例数据 集中的所有实例以及实例对应的资源进行编号;(2)遍历实例数据集中所有实例,访问实 例所属的概念、包含的属性以及相关的概念和实例,查表得到与实例相关的所有实体的相 关度权值,将实例编号和权重存入实体名称对应的倒排列表;(3)遍历所有的实体名称,对 每个实体名称进行分词处理;(4)合并每个单词对应的倒排列表,得到语义索引。
[0011] 作为本发明进一步的方案:所述的利用本体概念连通图进行语义扩展的算法包括 如下步骤:(1)输入语义实例数据索引库,输出本体概念连通图,顶点为概念,边的权重为 概念之间的关联程度;(3)初始化本体概念连通图CM;(4)访问语义实例数据库,获取具有 概念的文档集合D;(5)对于每一个具有概念的文档集合Di中所出现的任意两个概念和 Ck,取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合Di中的频数f; (6) 如果概念&和概念Ck在本体概念图中是连通的并且权重不为0,就将频数f?累加权重; (7) 如果Cj和Ck不连通,则在图中连通Cj和Ck,并为其赋值为f ; (8)对图中所有边的频数 f取最大值作为分母进行归一化处理,得到连通概念&和Ck的边权重%, k ; 作为本发明进一步的方案:所述的利用上下文分析进行语义扩展的算法包括如下步 骤:(1)输入单词序列q2、…、qn,输出每个单词的扩展概念;(2)使用简单查询方式获 得每个单词序列 qi的相关文档集合Di ; (3)统计文档集合Di中出现的本体概念,对每个概 念出现次数进行统计;(4)统计每篇文档集合Di中出现单词序列qi的次数;(5)综合考虑 概念以及单词序列1出现的频率,取前K个概念作为 qi的扩展概念;(6)对K个概念一并 提取其属性描述作为扩展向量内容,初始化每个单词序列1的候选概念列表。
[0012] 作为本发明再进一步的方案:所述的对用户输入的查询语句进行语义检索的步 骤包括:(1)预处理用户输入的查询语句,消除无效字符,利用分词工具对用户输入查询语 句进行分词处理;(2)利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩 展,得到扩展后的单词集合;(3)依次查找扩展后的单词集中每个单词对应的实例倒排列 表,整合所有的倒排列表,得到用户查询对应的实例列表;(4)根据实例对应的相关度权 重,对实例列表进行排序,得到用户查询对应的最终倒排列表。
[0013]与现有技术相比,本发明的有益效果是: 本发明在本体技术的支持下,通过对本体中属性关系的应用实现了实例的准确查找, 使信息检索的查准率比现有技术有所提高;本发明所述方法将检索从关键字简单匹配的语 法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了 检索的智能化。

【专利附图】

【附图说明】
[0014] 图1为本发明中一个本体实例的结构示意图。
[0015] 图2为本发明中以事件为主题的本体结构示意图。
[0016] 图3为本发明中创建语义索引的流程图。
[0017]图4为本发明中通过索引查询数据的流程图。
[0018]图5为本发明中本体概念连通图。
[0019]图6为本发明中用户查询扩展的流程图。

【具体实施方式】
[0020] 下面结合【具体实施方式】对本专利的技术方案作进一步详细地说明。
[0021] 请参阅图1-6,一种面向领域数据的语义检索方法,包括以下步骤:(1)借助本体 管理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集,图1中张 三所属的概念是学生,雁塔区所属的概念是地区,对象属性表示与其他实例之间的关系,张 三家住在雁塔区,那么"张三"就是该人的实例名称,"家住在"是对象属性,而"雁塔区"是 对应于该实例的对象属性的值,数据属性表明实例具有的字面量、数字等属性值,张三的体 重为60kg,"体重为"就是张三对应的数据属性,60kg就是该数据属性对应的值;(2)根据本 体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集, 构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理; (4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5) 用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集 合按照相关度权值大小进行排序;(7)将检索结果返回给用户。
[0022] 构建语义数据索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的 资源进行编号;(2)遍历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相 关的概念和实例,查表得到与实例相关的所有实体的相关度权值,将实例编号和权重存入 实体名称对应的倒排列表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4) 合并每个单词对应的倒排列表,得到语义索引。
[0023] 利用本体概念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据 索引库,输出本体概念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化 本体概念连通图CM ; (4)访问语义实例数据库,获取具有概念的文档集合D ; (5)对于每一 个具有概念的文档集合Di中所出现的任意两个概念Cj和Ck,取两个概念中出现频率较小 的概念作为这两个概念同时出现在文档集合Di中的频数f ; (6)如果概念&和概念Ck在本 体概念图中是连通的并且权重不为〇,就将频数f累加权重;(7)如果Cj和Ck不连通,则在 图中连通&和C k,并为其赋值为f ; (8)对图中所有边的频数f取最大值作为分母进行归一 化处理,得到连通概念q和Ck的边权重%, k ; 利用上下文分析进行语义扩展的算法包括如下步骤:(1)输入单词序列qi、q2、…、q n, 输出每个单词的扩展概念;(2)使用简单查询方式获得每个单词序列qi的相关文档集合Di ; (3)统计文档集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档 集合Di中出现单词序列qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K 个概念作为1的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始 化每个单词序列 qi的候选概念列表。
[0024] 对用户输入的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语 句,消除无效字符,利用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连 通图和上下文分析对用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次 查找扩展后的单词集中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查 询对应的实例列表;(4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询 对应的最终倒排列表。
[0025] 请参阅图2,本发明实施例中,一种面向领域数据的语义检索方法,包括以下步 骤: (1)创建一个以事件为主题的本体结构,进行语义标注得到本体实例集,图中带圆圈的 图标都是"事件"领域的概念,带菱形的图标都是从文件标注得到的实例数据,例如"军事事 件"是"事件"的子概念,"东海舰队举行大规模海上演练"是"军事事件"的实例。
[0026] (2)对本体实例集中的所有的实例进行编号,如表1所示。
[0027] 表1-本体实例集中的所有实例编号列表

【权利要求】
1. 一种面向领域数据的语义检索方法,其特征在于,包括以下步骤:(1)借助本体管 理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集;(2)根据本 体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集, 构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理; (4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5) 用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集 合按照相关度权值大小进行排序;(7)将检索结果返回给用户。
2. 根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述构建语义数据 索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的资源进行编号;(2)遍 历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相关的概念和实例,查表 得到与实例相关的所有实体的相关度权值,将实例编号和权重存入实体名称对应的倒排列 表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4)合并每个单词对应的倒 排列表,得到语义索引。
3. 根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的利用本体概 念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据索引库,输出本体概 念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化本体概念连通图CM ; (4)访问语义实例数据库,获取具有概念的文档集合D ; (5)对于每一个具有概念的文档集 合Di中所出现的任意两个概念和Ck,取两个概念中出现频率较小的概念作为这两个概 念同时出现在文档集合Di中的频数f ; (6)如果概念&和概念Ck在本体概念图中是连通的 并且权重不为0,就将频数f累加权重;(7)如果&和C k不连通,则在图中连通&和Ck,并 为其赋值为f ; (8)对图中所有边的频数f取最大值作为分母进行归一化处理,得到连通概 念Cj和Ck的边权重Wj, k。
4. 根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的利用上下文 分析进行语义扩展的算法包括如下步骤:(1)输入单词序列 qi、q2、…、qn,输出每个单词的 扩展概念;(2)使用简单查询方式获得每个单词序列 qi的相关文档集合Di ; (3)统计文档 集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档集合Di中出 现单词序列 qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K个概念作为 1的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始化每个单词序 列Qi的候选概念列表。
5. 根据权利1所述的面向领域数据的语义检索方法,其特征在于,所述的对用户输入 的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语句,消除无效字符,利 用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连通图和上下文分析对 用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次查找扩展后的单词集 中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查询对应的实例列表; (4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询对应的最终倒排列 表。
【文档编号】G06F17/27GK104239513SQ201410471778
【公开日】2014年12月24日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】宋胜利, 高海昌, 覃桂敏, 褚华 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1