一种利用语义信息检索文档的方法

文档序号:6535806阅读:369来源:国知局
一种利用语义信息检索文档的方法
【专利摘要】本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索【技术领域】。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
【专利说明】—种利用语义信息检索文档的方法
【技术领域】
[0001 ] 本发明专利涉及一种利用语义信息检索文档的方法,属于计算机信息检索【技术领域】。【背景技术】
[0002]在因特网和企业内部网络中,积累了大量的知识文档,如何从海量的数据中快速、准确的获取用户真正需要的信息成为新的挑战。利用信息抽取技术从文档中提取出来的语义信息为用户精确查询提供了基础。
[0003]近年来描述语义信息的本体被逐渐的重视并且大量的创建,为语义检索提供了基础。将半结构化或者是无结构化的文档利用本体转化成高度结构化的内容,可以显著提高检索的准确率,使得用户检索更加高效。本体是抽象概念的具体描述,是语义的信息形式化表达。目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类(例如Google、百度)进行检索的。结果往往会返回大量无关的内容,使得用户将大量的时间耗费在排除无关信息上。
[0004]现在已有的语义信息的检索系统有自然语言接口的Aqualog系统,它采用用户交互来辅助系统消除自然语言查询过程中产生的歧义;类似的自然语言接口的查询系统还有Querix、Bernstein等。这些系统由于使用了自然语言作为查询条件,一方面增加系统交互的灵活性,用户可以更少约束、更加准确地表达自己的需要,但是另一方面却增加了交互的难度和系统设计的复杂性。SemRank则是一种关键词接口的语义检索系统,它利用本体实体的统计信息对结果进行排序,但 它更加关注检索结构化本体,而不是大量已经存在的非结构化的网页和文档信息。

【发明内容】

[0005]本发明的目的是为解决现在信息检索方法无法准确找到用户所需内容的问题,提出一种利用语义信息进行文档检索的方法。
[0006]为实现上述目的,本发明所采用的技术方案如下:
[0007]步骤一、建立领域本体:令E为本体实体集合,E = {e!, e2,..., en}, η是本体实体总数,为正整数,ej为本体实体,1 ≤ i≤n,每个本体实体都是本体的子概念或实例;为每一个本体实体指定label f目息和label彳目息对应的语目语种L = (11, 12,, 11I,下标1为正整数,本体实例对应不同语种的不同label信息表示为Iabelij, i ≤η且为正整数,j ≤1也为正整数,其含义为ei对应在Ij的label信息,η和1分别为领域本体的本体实体总数和本体label信息的不同语言类别数;
[0008]步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T = It1, t2,...,tm},其中m为正整数,和词汇tk (1≤k≤m)的词频Ck (1≤k≤m);对于每一个词汇tk执行如下操作:
[0009]1)确定该词汇的语种Ik ;
[0010]2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在Iu下的label信息与词汇tv的相似度Skuv,因每个词汇对应的语言种类是确定的,所以每次匹配label信息时,只会匹配到一种语言的label信息,故使用Skv表不ek与词汇tv的相似度度量,如果相似度大于某一设定的闕值α,0 < α ( I,则认为词汇与本体相似;
[0011]3)在本体图中标记本体,并累积命中次数efik = efik+ck.Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为0,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体;
[0012]4)利用累积命中次数efik,计算出关系强度Wik,最后将该映射关系以及关系强度存入数据库中:
[0013]
【权利要求】
1.一种利用语义信息检索文档的方法,其特征在于: 步骤一、建立领域本体:令E为本体实体集合,E = {θι, e2,..., en},η是本体实体总数,为正整数,ej为本体实体,η,每个本体实体都是本体的子概念或实例;为每一个本体实体指定label fg息和label fg息对应的语目语种L= U1, I2,…,IJ,下标I为正整数,本体实例对应不同语种的不同label信息表示为Iabelij, i ( η且为正整数,j < I也为正整数,其含义为ei对应在Ij的label信息,η和I分别为领域本体的本体实体总数和本体label信息的不同语言类别数; 步骤二、为文档建立映射关系:将系统输入的文档Di解析文字部分Texti通过分词工具对文档进行分词处理;统计出文档中出现的不同词汇T = It1, t2,...,tm},其中m为正整数,和词汇tk (I≤k≤m)的词频Ck (I≤k≤m);对于每一个词汇tk执行如下操作: 1)确定该词汇的语种Ik; 2)找到领域本体中所有本体实体E,如果其拥有与词汇tk相同语种的label信息,便比较本体实体ek对应在Iu下的label信息与词汇tv的相似度Skuv,因每个词汇对应的语言种类是确定的,所以每次匹配label信息时,只会匹配到一种语言的label信息,故使用Skv表示ek与词汇tv的相似度度量,如果相似度大于某一设定的闕值α,0< α <1,则认为词汇与本体相似; 3)在本体图中标记本体,并累积命中次数efik= efik+ck.Skv,其中efik表示本体实体ek在文档Di中的命中次数,初始值为O,查找本体图中的稠密标记区域,并认为该稠密区域的标记本体即为映射本体; 4)利用累积命中次数efik,计算出关系强度wik,最后将该映射关系以及关系强度存入数据库中:
【文档编号】G06F17/30GK103744984SQ201410018112
【公开日】2014年4月23日 申请日期:2014年1月15日 优先权日:2014年1月15日
【发明者】李侃, 黄河燕, 史树敏, 冯冲, 栾勇, 安韶华 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1