一种基于语义索引的检索方法

文档序号:6585402阅读:348来源:国知局
专利名称:一种基于语义索引的检索方法
技术领域
本发明涉及数据检索领域,更具体地,涉及一种基于语义索引的数据检索方法。
背景技术
基于计算机系统的文档搜索处理器(即搜索引擎)已广泛地用于对互联网上的文 档执行关键词搜索。用关键词在网络上进行搜索,固然会给用户提供很大帮助,具备较高的价值,但该 方法本身也存在着一个先天的不足,以至于在很大程度上影响着这种价值的发挥。具体地 说,由于网络上的可用信息是海量的,而关键词搜索仅仅依据关键词匹配就将所得到的结 果提交给了用户,以至于产生了大量的下载信息,这其中的绝大多数是与用户所想要的信 息无关的或不重要的。基于关键词检索方法所存在的问题在科学技术领域也广泛地存在。随着越来越多 的研究机构、大学、图书馆、专利部门以及其他可供网络访问的技术和科学信息的增加,该 问题显得尤为严峻。科研人员被太多的报章、专利以及关于他们所感兴趣的主题的一般性 信息所淹没。与之形成巨大的反差的是,在实际查询中,用户所需要的仅仅是和某一特定请求 相关的若干篇文章。面对上述查准率较低的情况,用户在检查检索结果以确定其与用户查 询的相关性时目前只有两个选择——一种选择是读取摘要,另一种是浏览全文以确定是否 保存或打印出该检索到的文章。而实际上,由于很多摘要并不全面,所以其常常不能反映出 用户真正感兴趣的特定主题或以不全面的方式论述该主题。因此,浏览摘要可能几乎没有 价值。而浏览全文则需要用户花费过多的时间。目前已有多种尝试,试图提高搜索的查准率,但这些方法仅仅依赖于基于关键词 的变化或所谓短语理解的各种技术进行的关键词或短语搜索,其仍然需要用户耗费太多的 精力和时间来确定真正需要的文档。

发明内容
本发明的目的在于提供一种查准率较高的基于语义索引的检索方法。为实现上述目的,根据本发明的一个方面,提供了一种基于语义索引的检索方法, 包括下列步骤10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文 档进行提取并筛选所获得。在上述方法中,所述筛选进一步包括下列步骤100)采用动宾结构实例匹配进行所述候选动宾结构的筛选。在上述方法中,所述筛选进一步包括下列步骤101)采用动宾结构语义匹配进行所述候选动宾结构的筛选。
在上述方法中,所述步骤101)中所说动宾结构语义匹配进一步包括下列步骤将待筛选的动宾结构表示为具体动词Wl和具体名词W2 ;利用搭配知识词典的动宾搭配实例,选取能够和所述具体名词W2搭配的动词概 念 VC2 ;利用语义限制词典的动词概念关系,获得所述具体动词Wl的动词概念VCl ;将所述动词概念VCl和所述动词概念VC2相匹配。在上述方法中,所述提取进一步包括下列步骤分词和词性标注;进行动词短语、名词短语的句法分析。在上述方法中,所述步骤10)后还包括11)将所述合法动宾结构进行同义扩展,生成查询表达式;所述步骤20)还包括201)匹配所述查询表达式和所述文档的动宾结构。在上述方法中,所述步骤201)后还包括步骤202)对于所述文档的动宾结构与所述合法动宾结构相同的情况,则所述文档在检 索结果中居前,对于所述文档的动宾结构与所述查询表达式相同的情况,则所述文档在所 述检索结果中居后。在上述方法中,对于所述合法动宾结构为多个的情况,所述步骤202)中居后的文 档根据下述规则排序对于所述合法动宾结构的查询表达式的个数最少的,将所述居后的文档居于所述 检索结果中的最后。本发明的技术效果在于根据本发明的检索方法,对用户输入的问句进行预处理后 执行问题识别,更精确地理解问句,提高了检索的查准率;进一步地,还可以对识别的问题 进行查询扩展,从而提高检索的查全率。


图1是根据本发明优选实施例的基于语义索引的检索方法的流程图;图2是根据本发明优选实施例的提取候选动宾结构并进行筛选的流程图;图3是根据本发明优选实施例的动宾结构语义匹配的流程图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明实施例的基于语义索引的检索方法进一步详细说明。应当理解,此处所描述的具体实施 例仅仅用以解释本发明,并不用于限定本发明。根据本发明的优选实施例,该方法开始于与用户希望获取的文档概念相关的自然 语言文本的用户请求,例如一个自然语言问句。解析该用户请求,以识别和存储用户请求中 的动词及其宾语所构成的候选动宾结构对用户请求进行中文分词、词性标记;一旦该请 求中的所有词都被标记,则执行语义分析,在一个示例中,该语义分析包括识别用户请求中 的动词短语,然后识别用户请求中的名词短语。对此候选动宾结构进行筛选,获得合法动宾结构。采用该合法动宾结构及其同义扩展作为查询表达式来搜索。对文档集合也提取动宾 结构并据此建立文档语义索引,通过将查询表达式与文档语义索引进行匹配,并对匹配成 功的文档加以排序,使得只有满足查询表达式的少量文档返回给用户。图1示出了根据本发明的优选实施例的检索方法的流程图,如其所示,本发明的 检索方法包括下列步骤步骤10,首先提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构,也即 问题识别,该合法动宾结构有效表示了用户请求的意图。图2示出了该步骤10的详细流程, 该过程将在后面详细描述。步骤11,将上述步骤10所提取的用户请求的合法动宾结构进行同义扩展,生成查 询表达式。同义扩展可以利用同义动宾结构数据库,该数据库集中了同义的动宾结构的实 例,例如“加热(动词)一水(宾语)”的同义组合可以是“提高(动词)一水温(宾语)”等, 该数据库中的每一条记录均按照动作-宾语格式存储,具有相同含义的动宾结构被赋以相 同的标识符(ID)。将所提取的动宾结构与该数据库中记录进行匹配,若数据库中存在与之 相同的记录,则依据该记录的ID执行同义扩展。由此,生成代表用户请求的查询表达式。步骤12,与对用户请求提取动宾结构类似,对文档集合中的文档进行动宾结构提 取和筛选。步骤13,存储步骤12所提取的动宾结构作为文档语义索引。步骤14,匹配用户请求的合法动宾结构和步骤11所生成的查询表达式二者与文 档语义索引,获取匹配成功的文档构成匹配文档集合。步骤15,对步骤14获得的匹配文档集合中的匹配文档执行结果排序。更具体地, 若匹配文档的语义索引与用户请求的动宾结构完全相同,则该匹配文档排序居前,若匹配 文档的语义索引与步骤11所生成的查询表达式相同,则该匹配文档排序靠后。更优选地, 对于可能出现的用户请求的合法动宾结构不唯一的情况,按照其查询表达式的个数对靠后 的文档加以排序,即设若用户请求为S,经提取得到动宾结构A和B,动宾结构A经过同义 扩展,得到Na篇文档,而动宾结构B经过同义扩展,得到Nb篇文档,若Nb > Na,则排序时将 Nb篇文档置于Na篇文档前。图2示出了根据本发明优选实施例的提取候选动宾结构并进行筛选的流程图。下 面将根据图2详细描述该过程步骤20,对用户请求执行分词和词性标注,即词法分析,将用户请求切分成若干词 语构成的词串,并对各个词语标示词性。分词和词性标注属于常用技术,例如可以采用正向 最大匹配分词算法进行分词,采用863词性标注集进行词性标注,此处不详细说明。例如, 用户请求为“如何去除食用油中的游离脂肪酸? ”,经过词法分析得到如下分析结果如何/r去除/V食用油/n中/nd的/u游离/V脂肪酸/n ? /wp表1给出863词性标注集及含义,说明了上述分析结果中的词性标注标识及其含 义。表1 863词性标注集及含义
标识含义示例标识含义示例
权利要求
1.一种基于语义索引的检索方法,包括下列步骤10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文档进 行提取并筛选所获得。
2.根据权利要求1所述的方法,其特征在于,所述筛选进一步包括下列步骤100)采用动宾结构实例匹配进行所述候选动宾结构的筛选。
3.根据权利要求1所述的方法,其特征在于,所述筛选进一步包括下列步骤101)采用动宾结构语义匹配进行所述候选动宾结构的筛选。
4.根据权利要求2所述的方法,其特征在于,所述步骤100)后包括下列步骤101)采用动宾结构语义匹配进行未通过所述步骤100)筛选的候选动宾结构的筛选。
5.根据权利要求3或4所述的方法,其特征在于,所述步骤101)中所说动宾结构语义 匹配进一步包括下列步骤将待筛选的动宾结构表示为具体动词Wl和具体名词W2 ;利用搭配知识词典的动宾搭配实例,选取能够和所述具体名词W2搭配的动词概念VC2 ;利用语义限制词典的动词概念关系,获得所述具体动词Wl的动词概念VCl ; 将所述动词概念VCl和所述动词概念VC2相匹配。
6.根据权利要求1所述的方法,其特征在于,所述提取进一步包括下列步骤 分词和词性标注;进行动词短语、名词短语的句法分析。
7.根据权利要求1所述的方法,其特征在于,所述步骤10)后还包括11)将所述合法动宾结构进行同义扩展,生成查询表达式; 所述步骤20)还包括201)匹配所述查询表达式和所述文档的动宾结构。
8.根据权利要求7所述的方法,其特征在于,所述步骤201)后还包括步骤202)对于所述文档的动宾结构与所述合法动宾结构相同的情况,则所述文档在检索结 果中居前,对于所述文档的动宾结构与所述查询表达式相同的情况,则所述文档在所述检 索结果中居后。
9.根据权利要求8所述的方法,其特征在于,对于所述合法动宾结构为多个的情况,所 述步骤202)中居后的文档根据下述规则排序对于所述合法动宾结构的查询表达式的个数最少的,将所述居后的文档居于所述检索 结果中的最后。
全文摘要
本发明提供一种基于语义索引的检索方法,包括下列步骤10)提取用户请求的候选动宾结构并进行筛选,获得合法动宾结构;20)匹配所述合法动宾结构和文档的动宾结构,其中所述文档的动宾结构是对文档进行提取并筛选所获得。上述检索方法,更精确地理解了用户的目的,有效提高了检索的查准率。
文档编号G06F17/30GK102117285SQ20091024399
公开日2011年7月6日 申请日期2009年12月30日 优先权日2009年12月30日
发明者王永刚, 范祝满, 赵琦, 高建忠 申请人:安世亚太科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1