一种模糊检索的方法及装置的制作方法

文档序号:6341414阅读:177来源:国知局
专利名称:一种模糊检索的方法及装置的制作方法
技术领域
本发明涉及检索技术,特别涉及一种模糊检索的方法及装置。
背景技术
目前,检索技术已经得到了广泛的使用,逐渐成为生活、工作中不可或缺的一部分。在全文检索系统的使用过程中,经常遇到以词组、短句等方式提交的检索请求,这些检索请求会被划分为多个分词,然后在索引中进行检索,以查找同时包含这些分词的检索词, 以及检索词在文档中的位置关系满足要求的文档,这样的检索请求被称为短语检索。短语检索分为两类,精确短语检索和间隔短语检索。所谓精确短语检索,是要求检索词之间的位置关系与原始检索请求中一致,包括相互之间的顺序一致,以及位置差一致; 而所谓间隔短语检索,则是在精确短语检索基础上放松对位置差的要求,只要求相互之间的顺序一致,而位置差可以大于原始检索请求中的位置差。间隔短语检索的命中结果集合包含了精确短语检索的命中结果集合。然而,现有的这两种短语检索方式都存在一个相同的缺陷,即要求命中文档中要包含全部的检索词,从而实现完整地匹配。在检索较短的短语时,上述两种短语检索方式均可以得到相应的命中结果,然而,在检索较长短语时,采用上述两种短语检索方式就会存在以下问题相关文档中可能仅命中了部分检索词,而其他部分的检索词存在一定差异,那么该文档将被认为不相关而被排除,这样,便降低了短语检索的查全率。

发明内容
本发明实施例提供一种模糊检索的方法及装置,用于提高短语检索的查全率。本发明实施例提供的具体技术方案如下一种模糊检索的方法,包括对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及 K的取值,获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。一种用于模糊检索的装置,包括划分单元,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;第一处理单元,用于获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;用于确定预设的单位文档包含检索分词数目门限值K,并根据获得的各检索分词以及K的取值,获取包含不同检索分词数目大于等于K的候选文档;
第二处理单元,用于分别针对获得的各候选文档进行检索分词位置匹配检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。本发明实施例中,提供了一种模糊检索方法,允许目标文档只包含部分检索分词, 相较于用户输入的检索关键词划分得到的检索分词,目标文档中最终包含的检索分词之间保持顺序的一致,而位置差可以不局限于原始用户检索请求中包含的各检索分词的位置差,这样可以选中更多的与检索请求相关的目标文档,从而提高了检索查全率。


图1为本发明实施例中检索装置功能结构示意图;图2为本发明实施例中模糊检索流程示意流程图;图3为本发明实施例中模糊检索流程中DocID匹配流程示意图;图4为本发明实施例中模糊检索流程中位置匹配流程示意图。
具体实施例方式本发明实施例中,为了提高短语检索时的查全率,设计了一种模糊检索的方法,即将用户输入的检索关键词进行分词划分后,针对得到的各检索分词,只要某文档包含的检索分词数量超过预设的门限值K,且位置关系满足要求,就视该文档为目标文档,算作一次命中,这样,可以有效提高检索查全率。下面结合附图对本发明优选的实施方式进行详细说明。参阅图1所示,本发明实施例中,用于进行模糊短语检索的装置(以下称为检索装置)包括划分单元10、第一处理单元11和第二处理单元12,其中,划分单元10,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;第一处理单元11,用于获取包含不相同的检索分词的数目大于等于K的候选文档;此操作称为DocID匹配操作,具体实现方式在后续流程中进行详细介绍。第二处理单元12,用于分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档;此操作称为位置匹配操作,具体实现方式在后续流程中进行详细介绍。如图1所示,上述第二处理单元12中进一步包括计算单元13,用于计算各目标文档的命中指数以及相关度,具体实现方式在后续流程中进行详细介绍。参阅图2所示,本发明实施例中,模糊检索的总体流程如下步骤200 对用户输入的检索关键词进行分词划分,确定该检索关键词包含的各检索分词。实际应用中,可以采用分词算法将用户输入的检索关键词划分为若干检索分词。 进一步地,在获得若干检索分词的同时,还需要确定各检索分词之间的位置关系,所谓位置关系包含分词顺序以及分词位置差两种,分词位置差以相对于检索关键词开头字符的字数
来表不。例如,用户输入的检索关键词为“国际青年旅行社”,将其进行分词划分后,得到的各检索分词分别为“国际”、“青年”、“旅行社”,各检索分词的分词顺序为“国际”-> “青年”-> “旅行社”,各检索分词的分词位置差(以“国际”为开头字符)分别为“0”、“2”和 “4”。步骤210 确定检索分词数目门限值K。本实施例中,确定K的取值时,可以采用但不限于以下方式采用公式K = max (min (Ν*Ρ,Μ),2),计算获得K的取值,其中,P为预设的模糊检索需要命中的检索分词数目占检索分词总数目的比例,M为预设的最小命中数目,N为检索分词总数目。例如,P取值为0.5,M取值为5,N取值为3,那么,采用上述公式计算获得K的取值为2,即最终检索到的文档中,每个文档最少需要包括2个检索分词。步骤220 根据获得的各检索分词以及K的取值,获取包含不相同的检索分词的数目大于等于K的候选文档。步骤230 将获得的每一个候选文档的进行检索分词之间的位置匹配,简称位置匹配,将符合位置匹配条件的候选文档确定为目标文档。本实施例中,在执行步骤220和步骤230时,可以在步骤220中每获得一个候选文档,便执行步骤230进行位置匹配操作以确定是否为目标文档,也可以在步骤220中筛选出所有候选文档后,再执行步骤230进行位置匹配操作以确定各候选文档是否为目标文档, 以下实施例中,以前一种情况为例进行说明。本实施例中,参阅图3所示,在执行步骤220时,包含以下步骤步骤2200 根据获得的各检索分词,分别检索得到包含相应检索分词的候选文档
集合 ο本实施例中,使用候选文档ID (即DocID)来标识各候选文档,DocID是全局统一编号的,由于候选文档中可以包含一个或多个检索分词,因此,各检索分词对应的候选文档集合中有可能包含重复的DocID。例如,参阅表1所示,上述实施例中提到的检索分词中,“国际”对应的候选文档集合1内包含的DocID为1、2、3、4、5 ;“青年”对应的候选文档集合2中包含的DocID为3、 4、5、6 ;“旅行社”对应的候选文档集合3中包含的DocID为2、3、4、5、6、7、8、9、10。表 权利要求
1.一种模糊检索的方法,其特征在于,包括对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;获取包含不相同的检索分词的数目大于等于检索分词数目门限值K的候选文档;分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。
2.如权利要求1所述的方法,其特征在于,K= maX (min(N*P,M),2),其中,P为预设的模糊检索需要命中的检索分词数目占检索分词总数目的比例,M为预设的最小命中数目,N 为检索分词总数目。
3.如权利要求1或2所述的方法,其特征在于,获取包含不相同的检索分词的数目大于等于K的候选文档,包括针对获得的每一个检索分词,分别检索得到包含相应检索分词的候选文档集合;将在有效的各候选文档集合中依次分别读取的候选文档标识DocID进行匹配操作,其中,在每一次匹配过程中,将当前从有效的各候选文档集合中读取的最小DocID的数目L与 K进行比较,若L < K,则确定匹配失败;若L > K,确定匹配成功,并将所述最小DocID对应的文档记为候选文档。
4.如权利要求3所述的方法,其特征在于,在任意一轮匹配操作中,确定匹配失败时, 将当前从各候选文档集合中读取的DocID进行升序排列,获取第K个DocID,在当前读取的各DocID中,将取值小于所述第K个DocID的DocID,在其归属的候选文档集合中向后读取, 直到获得大于等于所述第K个DocID的DocID,或者读取完全部DocID,将取值大于等于所述第K个DocID的DocID保持不变,并进入下一轮匹配操作;在任意一轮匹配操作中,确定匹配成功时,在当前从各候选文档集合中读取的DocID 中,将取值最小的DocID,在其归属的候选文档集合中向后读取一位DocID,将取值非最小的DocID保持不变,并进入下一轮匹配操作。
5.如权利要求4所述的方法,其特征在于,任意一个候选文档集合中包含的DocID读取完毕时,将该候选文档集合标记为无效项,并在确定当前有效的候选文档集合数目Y小于K 时,结束DocID匹配流程。
6.如权利要求3所述的方法,其特征在于,所述分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档,包括每获得一个候选文档,便针对该候选文档执行位置匹配。
7.如权利要求6所述的方法,其特征在于,针对任意一个候选文档执行位置匹配时,包括确定候选文档中包含的L个检索分词;基于所述候选文档,分别确定所述L个检索分词对应的位置信息集合,将在有效的各位置信息集合中依次分别读取的位置信息进行匹配操作;其中,在每一次匹配过程中,将当前从有效的各位置信息集合中读取的位置信息进行任意组合,筛选得到目标匹配序列,所述目标匹配序列为各种组合中长度最长且距离最短的序列,以及将目标匹配序列包含的检索分词数目M与K进行比较,若M彡K,则确定匹配成功,记当前候选文档为目标文档,若M < K,则确定匹配失败。
8.如权利要求7所述的方法,其特征在于,在每一次执行位置匹配操作之前,重新设定各检索分词之间的位置关系,以及基于重新设定的各检索分词之间的位置关系对各位置信息集合中包含的位置信息进行修正。
9.如权利要求7所述的方法,其特征在于,任意一个位置信息集合中包含的位置信息读取完毕时,将该位置信息集合标记为无效项,确定当前有效的位置信息集合数目J小于当前目标匹配序列长度C,或者确定J小于K时,退出位置匹配流程。
10.如权利要求7所述的方法,其特征在于,针对任意一个目标文档,在从各次位置匹配过程得到的目标匹配序列中,筛选出长度最大且距离最小的匹配序列作为最优匹配序列,采用公式 C+-计算该目标文档的命中指数,其中,C为最优匹配序列的
11.如权利要求10所述的方法,其特征在于,确定在各次DocID匹配过程得到的目标文档及相应的命中指数,并基于各目标文档的命中指数,采用公Skore = (Freq+Norm)*Field. Boost分别计算各目标文档的相关度,以及将各目标文档按照其相关度从大到小的顺序排列并呈现给用户,其中,Norm为目标文档长度相关的数据项,与目标文档长度成反比,Field. Boost是预设的用于表征检索对象的重要程度的参量。
12.一种用于模糊检索的装置,其特征在于,包括划分单元,用于对用户输入的检索关键词进行分词划分,确定所述检索关键词中包含的各检索分词;第一处理单元,用于获取包含不相同的检索分词的数目大于等于检索分词数目门限值 K的候选文档;第二处理单元,用于分别针对获得的各候选文档进行检索分词之间的位置匹配,将符合位置匹配条件的候选文档确定为目标文档。
13.如权利要求12所述的装置,其特征在于,所述第一处理单元获取包含不相同的检索分词的数目大于等于K的候选文档,包括针对根据获得的每一个检索分词,分别检索得到包含相应检索分词的候选文档集合;将在有效的各候选文档集合中依次分别读取的候选文档标识DocID进行匹配操作,其中,在每一次匹配过程中,将当前从有效的各候选文档集合中读取的最小DocID的数目L与 K进行比较,若L < K,则确定匹配失败;若L > K,确定匹配成功,并将所述最小DocID对应的文档记为候选文档。
14.如权利要求13所述的装置,其特征在于,在任意一轮匹配操作中,所述第一处理单元确定匹配失败时,将当前从各候选文档集合中读取的DocID进行升序排列,获取第K个DocID,在当前读取的各DocID中,将取值小于所述第K个DocID 的DocID,在其归属的候选文档集合中向后读取,直到获得大于等于所述第K个DocID的 DocID,或者读取完全部DocID,将取值大于等于所述第K个DocID的DocID保持不变,并进入下一轮匹配操作;在任意一轮匹配操作中,所述第一处理单元确定匹配成功时,在当前从各候选文档集合中读取的DocID中,将取值最小的DocID,在其归属的候选文档集合中向后读取一位 DocID,将取值非最小的DocID保持不变,并进入下一轮匹配操作。
15.如权利要求13所述的装置,其特征在于,所述第二处理单元针对任意一个候选文档执行位置匹配时,包括确定候选文档中包含的L个检索分词;基于所述候选文档,分别确定所述L个检索分词对应的位置信息集合,将在有效的各位置信息集合中依次分别读取的位置信息进行匹配操作;其中,在每一次匹配过程中,将当前从有效的各位置信息集合中读取的位置信息进行任意组合,筛选得到目标匹配序列,所述目标匹配序列为各种组合中长度最长且距离最短的序列,以及将目标匹配序列包含的检索分词数目M与K进行比较,若M彡K,则确定匹配成功,记当前候选文档为目标文档,若M < K,则确定匹配失败。
全文摘要
本发明公开了一种模糊检索的方法,允许目标文档只包含部分检索分词,相较于用户输入的检索关键词划分得到的检索分词,目标文档中最终包含的检索分词之间保持顺序的一致,而位置差可以不局限于原始用户检索请求中包含的各检索分词的位置差,这样,最终的模糊检索的命中结果集合中包含精确检索的命中结果集合和间隔检索的命中结果集合。从而可以选中更多的与检索请求相关的目标文档,提高了检索查全率。
文档编号G06F17/30GK102541960SQ20101062423
公开日2012年7月4日 申请日期2010年12月31日 优先权日2010年12月31日
发明者徐剑波, 童征宇, 闫进兵 申请人:北京方正阿帕比技术有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1