文档检索方法和装置的制作方法

文档序号:6341248阅读:150来源:国知局
专利名称:文档检索方法和装置的制作方法
技术领域
本发明涉及计算机信息处理领域,尤其涉及ー种文档检索方法和装置。
背景技术
全文检索是指全文检索系统通过扫描文档中的每ー个词,对每ー个词建立ー个索引项,指明该词在文档中出现的次数和位置,当用户提交检索请求吋,全文检索系统就根据事先建立的索引文件进行查找,将查找的结果按照某种排序方式返回给用户的检索方式。 实际应用中,全文检索系统处理的一个文档可能包含多个字段,如标题、作者、正文等。具体的,在用户提交检索请求后,全文检索系统分析确定检索请求中的检索关键词包含的检索分词,检索分词是指对检索关键词进行字符划分后形成的分词,具体如何将检索关键词进行字符划分,根据不同的算法具有不同的划分方式,例如,可以将检索关键词中的每个字符划分为ー个检索分词,也可以将检索关键词中的每两个字符划分为ー个检索分词,等等;然后,在索引文件中查找包含所有检索分词的文档,并将该文档的信息作为检索结果提供给用户。在短语检索即检索关键词中包含多个检索分词的情况下,在查找包含所有检索分词的文档后,还需要进ー步对该文档中的多个检索分词的位置关系进行匹配, 以确定该多个检索分词的位置关系是否与检索请求中包含的多个检索分词的位置关系ー 致,若匹配一致,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索結果。例如,检索关键词中包含的检索分词包括“分词”和“规则”,并且这两个检索分词的位置关系为相邻,即这两个检索分词之间不包含其它字符,在查找到包含“分词”和“规则” 的文档后,对该文档中“分词”和“规则”的位置关系进行匹配,若该文档中“分词”和“规则” 相邻,即该文档中包含“分词规则”,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索結果。在查找得到多个检索结果后,需要将多个检索结果按照一定规则进行排序,最后按照排序顺序将多个检索结果提供给用户。对于各种全文检索系统,检索结果的排序是否符合用户的需求是评价其优劣的关键因素。目前,全文检索系统普遍使用向量空间模型对检索结果进行排序,具体的,该模型根据词频(Team Frequency,TF) /倒排文档频率Qnvert Document Frequency, IDF),计算检索分词在文档中的量化权重值,根据计算得到的每个文档的量化权重值对各文档进行排序。TF是指ー个检索分词在文档中出现的频率,它描述该检索分词在ー篇特定文档中的重要性;IDF是倒排文档频率,它描述的是检索分词在所有文档中出现的频率,即该检索分词的普遍重要性,如“我”,“什么”这些词几乎在所有的文档中都会出现,所以这些词即使在ー篇特定的文档中出现的频率很高,也不是很重要。总的来说就是,ー篇特定文档的优先级,与检索分词的TF成正比,与IDF成反比。在实现本发明的过程中,发明人发现现有技术中存在以下技术问题现有的检索方式中,只能检索到包含所有检索分词并且检索分词的位置关系与检索关键词中包含的检索分词的位置关系一致的文档,如何检索到检索分词在设定位置出现的文档,目前还没有具体的实现方案。

发明内容
本发明实施例提供ー种文档检索方法和装置,用于解决无法检索到检索分词在设定位置出现的文档的问题。ー种文档检索方法,该方法包括接收包含检索关键词的检索请求;确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;将查找到的文档的信息作为检索结果返回。ー种文档检索装置,该装置包括请求接收单元,用于接收包含检索关键词的检索请求;条件分析単元,用于确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;文档查找単元,用于查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;结果返回単元,用于将查找到的文档的信息作为检索结果返回。本方案中,接收到包含检索关键词的检索请求后,确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件,查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,并将查找到的文档的信息作为检索结果返回。可见,采用本发明能够检索到检索分词的位置满足ー 定条件的文档,也即能够检索到检索分词在一定位置出现的文档,进而使得检索结果更加精确,更好的满足用户需求。


图1为本发明实施例提供的方法流程示意图;图2为本发明实施例提供的另一方法流程示意图;图3为本发明实施例提供的文档检索装置结构示意图;图4为本发明实施例提供的另一文档检索装置结构示意图。
具体实施例方式为了能够检索到检索分词在设定位置出现的文档,本发明实施例提供ー种文档检索方法,本方法中,在接收到检索请求后,需要确定检索请求中的检索关键词所包含的ー个或多个检索分词(即特定检索分词)在目标文档中所处的位置需要满足的条件,然后查找包含确定的全部检索分词并且特定检索分词所在的位置满足该条件的文档,最后将查找到的文档的信息作为检索结果返回。參见图1,本发明实施例提供的文档检索方法,具体包括以下步骤步骤10 接收包含检索关键词的检索请求;
这里,检索关键词是指外界(例如用户)输入的用于检索的关键词;步骤11 确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;步骤12 查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;步骤13 将查找到的文档的信息作为检索结果返回。步骤11中,在所述特定检索分词包括检索关键词所包含的第一个检索分词时,确定该第一个检索分词在目标文档中所处的位置需要满足的条件,其具体实现可以如下根据检索关键词的格式,确定检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系,将该第一位置关系作为检索关键词所包含的第一个检索分词在目标文档中所处的位置需要满足的条件。具体的,上述确定第一位置关系的具体实现可以如下首先,确定在检索关键词中第一个检索分词之前是否具有通配符;在确定为是吋, 根据预先设定的通配符类型与距离值范围的对应关系,确定第一个检索分词之前的通配符对应的位置距离值,并确定所述第一位置关系为在目标文档中所述第一个检索分词与目标文档的起始字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第一位置关系为第一个检索分词位于目标文档的起始位置。当然,上述根据检索关键词的格式确定第一位置关系的实现并不局限于上述通配符的方式,任何其他根据检索关键词的格式确定第一位置关系的方式均在本发明的保护范围内。步骤11中,在所述特定检索分词包括检索关键词所包含的最后ー个检索分词时, 确定该最后ー个检索分词在目标文档中所处的位置需要满足的条件,其具体实现可以如下根据检索关键词的格式,确定检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位置关系,将该第二位置关系作为检索关键词所包含的最后ー个检索分词在目标文档中所处的位置需要满足的条件。具体的,上述确定第二位置关系的具体实现可以如下确定在检索关键词中最后ー个检索分词之后是否具有通配符;在确定为是吋,根据预先设定的通配符类型与位置距离值的对应关系,确定最后一个检索分词之后的通配符对应的距离值范围,并确定所述第二位置关系为在目标文档中所述最后一个检索分词与目标文档的结尾字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第二位置关系为最后ー个检索分词位于目标文档的结束位置。当然,上述根据检索关键词的格式确定第二位置关系的实现并不局限于上述通配符的方式,任何其他根据检索关键词的格式确定第二位置关系的方式均在本发明的保护范围内。举例说明,在所述通配符为星号吋,所述距离值范围为不小于0的整数;在所述通配符为问号吋,所述问号对应的距离值范围为0或1。在步骤10中接收包含检索关键词的检索请求之前,可以针对一个或多个文档建立索引文件,该索引文件中包含各文档所包含的检索分词以及该检索分词在对应文档中的位置信息;相应的,步骤12的具体实现可以分为如下三种情况第一种,对应于特定检索分词包括检索关键词中的第一个检索分词的情況,具体如下首先,根据所述索引文件确定包含检索关键词中的全部检索分词的文档;然后,从所述索引文件中读取检索关键词中的第一个检索分词在该文档中的位置信息,根据该位置信息确定该第一个检索分词在该文档中的位置与该文档的起始位置是否满足所述第一位置关系;若是,则将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,否则,不将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档。第二种,对应于特定检索分词包括检索关键词中的最后ー个检索分词的情況,具体如下首先,根据所述索引文件确定包含检索关键词中的全部检索分词的文档;然后,从所述索引文件中读取所述检索关键词中的最后ー个检索分词在该文档中的位置信息,根据该位置信息确定该最后ー个检索分词在该文档中的位置与该文档的起始位置是否满足所述第二位置关系;若是,则将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,否则,不将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档。第三种,对应于特定检索分词包括检索关键词中的第一个和最后一个检索分词的情況,具体如下首先,根据所述索引文件确定包含检索关键词中的全部检索分词的文档;然后,从所述索引文件中读取检索关键词中的第一个检索分词和最后一个检索分词在该文档中的位置信息,根据读取到的位置信息确定该第一个检索分词在该文档中的位置与该文档的起始位置是否满足所述第一位置关系,以及该最后ー个检索分词在该文档中的位置与该文档的结束位置是否满足所述第二位置关系;若是,则将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,否则,不将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档。当然,特定检索分词除了可以包括检索关键词中的第一个和最后ー个检索分词外,也可以包括检索关键词中的任何其他检索分词,在这种情况下,步骤11中确定该特定检索分词在目标文档中所处的位置需要满足的条件的具体实现可以如下根据检索关键词的格式,确定该特定检索分词在目标文档中的位置与目标文档的起始位置和/或结束位置所需要满足的位置关系,将该位置关系作为该特定检索分词在目标文档中所处的位置需要满足的条件。相应的,步骤12的具体实现可以如下首先,根据索引文件确定包含检索关键词中的全部检索分词的文档;然后,从索引文件中读取该特定检索分词在该文档中的位置信息,根据该位置信息确定该特定检索分词在该文档中的位置与该文档的起始位置和/或结束位置是否满足相应的位置关系;若是,则将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档,否则,不将该文档确定为查找到的包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档。较佳的,在步骤12与步骤13之间,该方法进ー步包括
确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系是否一致;相应的,步骤13中,在确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系一致吋,将查找到的文档的信息作为检索结果返回。较佳的,在步骤12与步骤13之间,可以根据检索关键词所包含的检索分词在查找到的各文档中的位置和查找到的各文档的数据长度,对查找到的各文档进行排序;相应的, 步骤13中,按照对查找到的各文档进行排序的排序結果,将查找到的各文档作为检索结果返回。上述根据所述检索关键词所包含的检索分词在查找到的各文档中的位置和查找到的各文档的数据长度,对查找到的各文档进行排序,其具体实现可以如下首先,根据预先设定的文档相关度值计算公式,分别计算查找到的各文档的相关度值;所述文档相关度值计算公式满足以下条件所述检索关键词所包含的检索分词在文档中的位置越靠前,根据该文档相关度值计算公式计算得到的相关度值越大,文档的数据长度越小,根据该文档相关度值计算公式计算得到的相关度值越大;然后,按照计算得到的各文档的相关度值的大小順序,将各文档进行排序。所述文档相关度值计算公式可以包括
权利要求
1.ー种文档检索方法,其特征在于,该方法包括 接收包含检索关键词的检索请求;确定所述检索关键词所包含的检索分词,并确定该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档; 将查找到的文档的信息作为检索结果返回。
2.如权利要求1所述的方法,其特征在干,在所述特定检索分词包括所述检索关键词所包含的第一个检索分词时,所述确定该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件包括根据所述检索关键词的格式,确定所述检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系;所述查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档包括查找包含确定的检索分词并且所述第一个检索分词满足所述第一位置关系的文档。
3.如权利要求1所述的方法,其特征在干,在所述特定检索分词包括所述检索关键词所包含的最后ー个检索分词时,所述确定该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件包括根据所述检索关键词的格式,确定所述检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位置关系;所述查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档包括查找包含确定的检索分词并且所述最后一个检索分词满足所述第二位置关系的文档。
4.如权利要求1所述的方法,其特征在干,在所述特定检索分词包括所述检索关键词所包含的第一个检索分词和最后一个检索分词时,所述确定该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件包括根据所述检索关键词的格式,确定所述检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系,以及所述检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位J大尔;所述查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档包括查找包含确定的检索分词并且所述第一个检索分词满足所述第一位置关系、以及所述最后ー个检索分词满足所述第二位置关系的文档。
5.如权利要求2或4所述的方法,其特征在干,所述根据所述检索关键词的格式,确定所述检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系包括确定在所述检索关键词中第一个检索分词之前是否具有通配符; 在确定为是时,根据预先设定的通配符类型与距离值范围的对应关系,确定所述通配符对应的位置距离值,并确定所述第一位置关系为在目标文档中所述第一个检索分词与目标文档的起始字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第一位置关系为第一个检索分词位于目标文档的起始位置。
6.如权利要求3或4所述的方法,其特征在干,所述根据所述检索关键词的格式,确定所述检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位置关系包括确定在所述检索关键词中最后ー个检索分词之后是否具有通配符;在确定为是时,根据预先设定的通配符类型与位置距离值的对应关系,确定所述通配符对应的距离值范围,并确定所述第二位置关系为在目标文档中所述最后ー个检索分词与目标文档的结尾字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第二位置关系为最后ー个检索分词位于目标文档的结束位置。
7.如权利要求1所述的方法,其特征在干,在查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档之后、并且将查找到的文档的信息作为检索结果返回之前,该方法进ー步包括确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系是否一致;所述将查找到的文档的信息作为检索结果返回包括在确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系一致吋,将查找到的文档的信息作为检索结果返回。
8.如权利要求1所述的方法,其特征在干,在查找到包含确定的检索分词并且检索分词所在的位置满足所述条件的文档之后,并且将查找到的文档的信息作为检索结果返回之前,该方法进ー步包括根据所述检索关键词所包含的检索分词在查找到的各文档中的位置和查找到的各文档的数据长度,对查找到的各文档进行排序;所述将查找到的文档的信息作为检索结果返回包括按照对查找到的各文档进行排序的排序結果,将查找到的各文档作为检索结果返回。
9.如权利要求8所述的方法,其特征在干,所述根据所述检索关键词所包含的检索分词在查找到的各文档中的位置和查找到的各文档的数据长度,对查找到的各文档进行排序包括根据预先设定的文档相关度值计算公式,分别计算查找到的各文档的相关度值;所述文档相关度值计算公式满足以下条件所述检索关键词所包含的检索分词在文档中的位置越靠前,根据该文档相关度值计算公式计算得到的相关度值越大,文档的数据长度越小,根据该文档相关度值计算公式计算得到的相关度值越大;按照计算得到的各文档的相关度值的大小順序,将各文档进行排序。
10.如权利要求9所述的方法,其特征在干,所述文档相关度值计算公式为
11.ー种文档检索装置,其特征在于,该装置包括 请求接收单元,用于接收包含检索关键词的检索请求;条件分析単元,用于确定所述检索关键词所包含的检索分词以及该检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件;文档查找単元,用于查找包含确定的全部检索分词并且特定检索分词所在的位置满足所述条件的文档;结果返回単元,用于将查找到的文档的信息作为检索结果返回。
12.如权利要求11所述的装置,其特征在干,所述条件分析単元用于在所述特定检索分词包括所述检索关键词所包含的第一个检索分词时,根据所述检索关键词的格式,确定所述检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系; 所述文档查找单元用于查找包含确定的检索分词并且所述第一个检索分词满足所述第一位置关系的文档。
13.如权利要求11所述的装置,其特征在干,所述条件分析単元用于在所述特定检索分词包括所述检索关键词所包含的最后ー个检索分词时,根据所述检索关键词的格式,确定所述检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位置关系; 所述文档查找单元用于查找包含确定的检索分词并且所述最后一个检索分词满足所述第二位置关系的文档。
14.如权利要求11所述的装置,其特征在干,所述条件分析単元用于根据所述检索关键词的格式,确定所述检索关键词所包含的第一个检索分词在目标文档中的位置与目标文档的起始位置所需要满足的第一位置关系,以及所述检索关键词所包含的最后ー个检索分词在目标文档中的位置与目标文档的结束位置所需要满足的第二位 ゼ大糸;所述文档查找单元用于查找包含确定的检索分词并且所述第一个检索分词满足所述第一位置关系、以及所述最后ー个检索分词满足所述第二位置关系的文档。
15.如权利要求12或14所述的装置,其特征在干,所述条件分析単元用于 确定在所述检索关键词中第一个检索分词之前是否具有通配符;在确定为是时,根据预先设定的通配符类型与距离值范围的对应关系,确定所述通配符对应的位置距离值,并确定所述第一位置关系为在目标文档中所述第一个检索分词与目标文档的起始字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第一位置关系为第一个检索分词位于目标文档的起始位置。
16.如权利要求13或14所述的装置,其特征在干,所述条件分析単元用于 确定在所述检索关键词中最后ー个检索分词之后是否具有通配符;在确定为是时,根据预先设定的通配符类型与位置距离值的对应关系,确定所述通配符对应的距离值范围,并确定所述第二位置关系为在目标文档中所述最后ー个检索分词与目标文档的结尾字符之间的距离值在所述距离值范围内;在确定为否时,确定所述第二位置关系为最后ー个检索分词位于目标文档的结束位置。
17.如权利要求11所述的装置,其特征在干,所述文档查找单元还用于确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系是否一致; 所述结果返回単元用于在确定所述检索关键词所包含的各检索分词在查找到的文档中的位置关系与在所述检索关键词中的位置关系一致吋,将查找到的文档的信息作为检索结果返回。
18.如权利要求11所述的装置,其特征在于,该装置还包括结果排序単元,用于根据所述检索关键词所包含的检索分词在查找到的各文档中的位置和查找到的各文档的数据长度,对查找到的各文档进行排序; 所述结果返回単元用于按照对查找到的各文档进行排序的排序結果,将查找到的各文档作为检索结果返回。
19.如权利要求18所述的装置,其特征在干,所述结果排序单元用于根据预先设定的文档相关度值计算公式,分别计算查找到的各文档的相关度值;所述文档相关度值计算公式满足以下条件所述检索关键词所包含的检索分词在文档中的位置越靠前,根据该文档相关度值计算公式计算得到的相关度值越大,文档的数据长度越小,根据该文档相关度值计算公式计算得到的相关度值越大;按照计算得到的各文档的相关度值的大小順序,将各文档进行排序。
20.如权利要求19所述的装置,其特征在干,所述文档相关度值计算公式为
全文摘要
本发明实施例公开了一种文档检索方法和装置,涉及计算机信息处理领域,用于解决无法检索到检索分词在设定位置出现的文档的问题。本发明中,接收到包含检索关键词的检索请求后,确定所述检索关键词所包含的检索分词及检索分词中的特定检索分词在目标文档中所处的位置需要满足的条件,查找包含确定的检索分词并且特定检索分词所在的位置满足所述条件的文档,对查找到的文档进行排序,并按照排序结果将查找到的文档的信息作为检索结果返回。可见,采用本发明,能够检索到检索分词在一定位置出现的文档。
文档编号G06F17/30GK102567421SQ201010621839
公开日2012年7月11日 申请日期2010年12月27日 优先权日2010年12月27日
发明者徐剑波, 童征宇 申请人:北京方正阿帕比技术有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1