一种基于语义的水利领域信息检索系统及方法

文档序号:6373636阅读:160来源:国知局
专利名称:一种基于语义的水利领域信息检索系统及方法
技术领域
本发明涉及一种基于语义的水利领域信息检索系统及方法,属于智能信息检索领域。
背景技术
传统的水利领域信息搜索引擎对数据集中的关键词建立索引,当用户向搜索引擎提交关键词查询请求时,搜索引擎通过关键词匹配方式在数据库中检索用户查询请求的数据集,将结果反馈给用户。这种搜索引擎对查询的处理局限于词的表面形式,使得传统的Web搜索引擎存在着“忠实表达”问题、“表达差异”问题、“词汇孤岛”问题等方面的缺陷,降低了用户在检索结果方面的查全率和查准率。

如何在水利领域信息资源中找到有价值的信息,并从中提取出知识内的内容已经成为目前信息检索和知识管理等研究领域的重要课题。目前水利信息资源还没有提供计算机可以理解的语义信息,计算机还不能自动地识别,只能供用户直接阅读和处理,限制了计算机在水利信息检索领域的自动分析和智能化处理的能力,直接制约了水利信息化的发展进程和水利行业社会服务能力。

发明内容
发明目的针对现有技术中存在的问题,本发明提供一种基于语义的水利领域信息检索系统及方法,将语义搜索技术引入水利领域,以提高对水利领域信息查全率和查准率。本发明的思路是利用水利主题爬虫抓取互联网上的水利主题信息,并采用FRDF进行描述,基于Lucene构建索引,通过构建Jena模糊推理机结合水利领域本体和知网语义本体进行水利领域语义扩展和通用语义扩展,并通过定义语义相似度阈值和选择方法防止“语义飘移”,保证检索的查全率和查准率。技术方案一种基于语义的水利领域信息检索系统,包括如下模块信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块,用于从获取用户查询请求进行查询处理,并按语义相关度排序返回给用户。所述信息获取与处理模块,包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库;其中水利主题爬虫利用水利主题词库过滤非水利主题网页;水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述(FRDF)的形式存储到水利主题资源库;LUcene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引以加快检索速度。所述语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元;其中水利本体库用于存储水利领域本体及其词汇的相似度;知网本体库用于存储知网本体词汇及子网词汇相似度;所述水利本体库中的水利本体是模糊本体;所述词汇相似度均由语义词汇相似度计算单元计算。所述语义查询处理模块,包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元;其中查询请求处理单元,用于获取用户的查询请求,并进行分词处理形成查询词集合;模糊语义推理单元,用于结合水利领域本体和知网本体进行语义扩展,形成语义扩展查询词集合;所述Lucene检索单元,用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源,形成语义检索结果集合;所述检索结果排序单元,按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序,按照降序将查询结果返回用户。一种基于语义的水利领域信息检索方法,包含如下步骤步骤S-I:根据水利主题词库对互联网上的水利主题资源进行抽取,具体包含如下步骤步骤S-1-1 :初始化需要抓取的URL种子队列; 步骤S-1-2 :判断URL种子队列是中的URL是否为空,若为非空,转向步骤S_l_3,否则,转向步骤S-2;步骤S-1-3 :从队列中取出一个URL种子,从互联网下载对应的网页信息,若下载成功则转向步骤S-1-4,否则,转向步骤S-1-2 ;步骤S-1-4:判断下载网页是否与主题相关,若相关,则转入步骤S-1-5;否则,转向步骤S-1-6 ;S-1-5 :采用FRDF对网页进行描述,并将描述信息存入水利主题资源库;S-1-6 :判断网页中是否新URL,若有,抽取网页中的URL,并将其加入URL种子队列,转向步骤S-1-2,若无,直接转向步骤S-1-2。S-2 :利用FRDF对抽取的信息资源进行规范化描述,形成水利主题资源库并构建倒排索引;S-3 :获取用户的查询请求,并进行分词处理,形成查询词集合;S-4 :进行语义扩展处理形成语义扩展词集合,并计算扩展词语查询词间的语义相似度,具体包括如下步骤S-4-1 :判断查询词集合中的查询词是否有未处理的查询词,若有,则转向步骤S-4-2,否则,转向步骤S-5 ;步骤S-4-2 :从查询词集合中取出一个未处理的查询词,判断其是否为水利本体库中的词汇,若是,则转向步骤S-4-3,否则转向步骤S-4-4 ;步骤S-4-3 :结合水利领域本体进行水利领域语义扩展,具体包含如下步骤步骤S-4-3-1 :利用模糊推理单元推理出与该查询词具有相关关系的领域词汇集合;步骤S-4-3-2 :判断领域相关词汇集合是否还有未处理的相关领域词汇,若有转向步骤S-4-3-3,否则,转向步骤S-4-1 步骤S-4-3-3 :判断该相关领域词汇与查询词的相似度是否存储水利领域本体库中,若否,在则转向步骤S-4-3-4,否则,转向步骤S-4-3-5 ;步骤S-4-3-4 :利用语义词汇相似度计算单元计算相关度,并存入水利领域本体库;
步骤S-4-3-5 :判断语义相似度是否大于阈值0. 05,若大于,则将该领域词汇加入语义扩展词汇集合,否则,转向步骤S-4-3-2 ;步骤S-4-4 :结合知网语义本体进行通用语义扩展,并将扩展的通用语义词汇加入扩展词汇集合;S-5 :根据查询词集合与语义扩展词集合在索引库中进行查询,并对查询结果进行排名,将查询结果返回用户。所述步骤S-1-4中,网页信息T的水利主题相关度Cor(T)的计算方法如下
norm (T)('or(7〕= [ Hashiwordi)! norm(7') (i) I=O其中norm⑴为网页文本内容T进行最大分词后词汇(Wordi)集合的大小。hash (word,) = (1-0. 3)/n为根据词汇的主题相关值,n为水利主题词表中主题词的等级,若Wordi不在索引中,则值为0 ;若Cor(T)大于阈值(0. 05)则相关,否则不相关。所述步骤S-4-3-4水利领域本体词汇间相似度定义如表I所示,其中P为整体相似度。表I
相关关系含义权值
superClassOf 上位关系07* P
subClassOf下位关系08* P
use使用关系10*13
replace代替关系10* P
note注释关系10* P
brother兄弟关系(通过推理)09* P
sametype相同类型关系(通过推理)10* P所述步骤S-4-4知网本体词汇间相似度计算过程中,义原语义相似度为0. 5时的义原语义距离为I. 6 ;概率语义相似度的调节因子分别取0. 5,0. 2,0. 17和 0. 13。本发明采用上述技术方案,具有以下有益效果采用领域本体对背景知识进行表示,对网页内容进行面向主题的采集,对采集的主题网页进行索引,并对用户输入的检索语句进行专业知识语义扩展和通用词扩展,解决水利信息检索过程中缺乏语义的问题。


图I为本发明实施例的基于语义的水利领域信息检索系统功能模块图;图2为本发明实施例的模糊推理机的推理机制;
图3为本发明实施例的基于语义的水利领域信息检索方法的流程图;图4为本发明实施例的基于水利领域本体词汇相似度的语义扩展流程图。
具体实施例方式下面结合具体实施例,进一步阐 明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图I所示,基于语义的水利领域信息检索系统由信息获取与存储模块、语义本体模块和语义查询处理模块组成。语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元。本体是智能信息检索系统的信息组织框架,查询扩展和查询结果排序都需要以本体作为依据。本体在建立完成之后并不是一层不变的,而是根据领域研究的不断深入而不断改进的;在建立基本的领域本体之后,领域工程师还可以根据需要要对其进行维护。语义词汇相似度计算单元用以计算词汇间的相似度,本发明定义的语义关系如表I所示。知网语义相似度计算,本发明改进知网语义两种相似性度量,义原语义和概念对
语义相似度。其中义原语义相似度定义为
aSimipl ,P2) = -~(2)
d + a其中P1和p2表示两个义原(Primitive), d是P1和p2在义原层次体系结构中的路径长度,是一个正整数。a是一个可调节参数,即语义相似度为0. 5时的义原语义的距离值,本发明取值1.6概念对相似度整体相似度定义为Sim (S1, S2) = ^ !Sim1 (S1, S2) + ^ 2Sim2(S1, S2) + ^ 3Sim3(S1, S2) + ^ 4Sim4(S1, S2) (3)其中,是P i ( I < i < 4)是可调节因子,且有丨+ 2+ 3+ 4=1, P P 2> P 3> 3 4,本发明中 ^ !=0. 5, ^2=O. 2, 33=0.17,^4=O. 130信息资源库是信息检索系统的基础设施之一,在信息检索时,首先要确保信息库中存在足够多的可供检索信息,同时还要确保这些信息是对检索有用的。本发明利用水利主题词指导水利主题爬虫对水利信息资源的获取,具体处理过程如算法I所示,可以有效地过滤广告网站、无关链接、与主题不相关或弱相关的网页,防止主题漂移。算法I水利主题爬虫处理流程
Algorithm Sort(URL)丨*输入腿 待处理的URL
输出 经过排序的符合水利.U题的候选URL集合*/
BEGIN:
权利要求
1.一种基于语义的水利领域信息检索系统,其特征在于,包括如下模块信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块,用于从获取用户查询请求进行查询处理,并按语义相关度排序返回给用户; 所述信息获取与处理模块,包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库;其中水利主题爬虫单元利用水利主题词库过滤非水利主题网页;水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述的形式存储到水利主题资源库;LuCene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引; 所述语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元;其中水利本体库用于存储水利领域本体及其词汇的相似度;知网本体库用于存储知网本体词汇及子网词汇相似度;所述水利本体库中的水利领域本体是模糊本体;所述词汇相似度均由语义词汇相似度计算单元计算; 所述语义查询处理模块,包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元;其中查询请求处理单元,用于获取用户的查询请求,并进行分词处理形成查询词集合;模糊语义推理单元,用于结合水利领域本体和知网本体进行语义扩展,形成语义扩展查询词集合;所述Lucene检索单元,用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源,形成语义检索结果集合;所述检索结果排序单元,按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序,按照降序将查询结果返回用户。
2.一种基于语义的水利领域信息检索方法,其特征在于,包含如下步骤 S-I :根据水利主题词库对互联网上的水利主题资源进行抽取; S-2 :利用FRDF对抽取的信息资源进行规范化描述,形成水利主题资源库并构建倒排索引; S-3 :获取用户的查询请求,并进行分词处理,形成查询词集合; S-4 :进行语义扩展处理形成语义扩展词集合,并计算扩展词语查询词间的语义相似度; S-5 :根据查询词集合与语义扩展词集合在索引库中进行查询,并对查询结果进行排名,将查询结果返回用户。
3.如权利要求书2所述的基于语义的水利领域信息检索方法,其特征在于所述步骤S-I具体包含如下实施步骤 步骤S-1-1 :初始化需要抓取的URL种子队列; 步骤S-1-2 :判断URL种子队列是中的URL是否为空,若为非空,转向步骤S-1-3,否则,结束抽取; 步骤S-1-3 :从队列中取出一个URL种子,从互联网下载对应的网页信息,若下载成功则转向步骤S-1-4,否则,转向步骤S-1-2 ; 步骤S-1-4:判断下载网页是否与主题相关,若相关,则转入步骤S-1-5;否则,转向步骤 S-1-6 ; S-1-5 :采用FRDF对下载网页进行描述,并将描述信息存入水利主题资源库;S-1-6 :判断下载网页中是否新URL,若有,抽取网页中的URL,并将其加入URL种子队列,转向步骤S-1-2,若无,直接转向步骤S-1-2。
4.如权利要求书2所述基于语义的水利领域信息检索方法,其特征在于所述步骤S-4具体包含如下实施步骤 S-4-1 :判断查询词集合中的查询词是否有未处理的查询词,若有,则转向步骤S-4-2,否则,转向步骤S-4-5 ; 步骤S-4-2 :从查询词集合中取出一个未处理的查询词,判断其是否为水利本体库中的词汇,若是,则转向步骤S-4-3,否则转向步骤S-4-4 ; 步骤S-4-3 :结合水利领域本体进行水利领域语义扩展,具体包含如下步骤 步骤S-4-3-1 :利用模糊推理单元推理出与该查询词具有相关关系的领域词汇集合;步骤S-4-3-2 :判断领域相关词汇集合是否还有未处理的相关领域词汇,若有转向步骤S-4-3-3,否则,转向步骤S-4-1 步骤S-4-3-3 :判断该相关领域词汇与查询词的相似度是否存储水利领域本体库中,若否,在则转向步骤S-4-3-4,否则,转向步骤S-4-3-5 ; 步骤S-4-3-4 :利用语义词汇相似度计算单元计算相关度,并存入水利领域本体库;步骤S-4-3-5 :判断语义相似度是否大于阈值0. 05,若大于,则将该领域词汇加入语义扩展词汇集合,否则,转向步骤S-4-3-2 ; 步骤S-4-4 :结合知网语义本体进行通用语义扩展,并将扩展的通用语义词汇加入扩展词汇集合; 步骤S-4-5 :结束。
5.如权利要求书4所述的基于语义的水利领域信息检索方法,其特征在于步骤S-4-3-4水利领域本体词汇间相似度定义为a*P,其中P为整体相似度,取0. 9,a是取值为正小数的系数。
6.如权利要求书4所述的基于语义的水利领域信息检索方法,其特征在于步骤S-4-4知网本体词汇间相似度计算过程中,义原语义相似度为0. 5时的义原语义距离为I. 6 ;概率语义相似度的调节因子P i、P 2、P 3、P 4分别取0. 5,0. 2,0. 17和0. 13。
全文摘要
本发明公开一种基于语义的水利领域信息检索系统及方法。系统包括如下模块信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块。方法利用模糊资源描述框架对领域信息进行描述,采用Lucene对水利信息资源构建索引;以水利公文主题词表为基础构建出利领域本体,通过Jena推理机结合水利本体对水利专业词汇进行语义扩展,以Hownet为基础实现对通用词汇进行语义扩展;利用改进的知网语义词汇相似度计算方法计算扩展词汇与检索词的相关度。本发明对检索词进行语义扩展,提高了信息的查全率和查准率。
文档编号G06F17/30GK102799677SQ20121025388
公开日2012年11月28日 申请日期2012年7月20日 优先权日2012年7月20日
发明者冯钧, 唐志贤, 卞一路, 徐黎明, 付言章, 盛震宇, 任锋, 王祥忠, 朱忠华, 朱祖会, 史涯晴, 胥世民 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1