一种分层过滤文档的方法及装置的制造方法

文档序号:9579381阅读:246来源:国知局
一种分层过滤文档的方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息搜索技术领域,具体而言,涉及一种分层过滤文档的方法及装置。
【背景技术】
[0002]日常生活中,用户经常利用关键词在搜索引擎中搜索需要的内容,搜索引擎需要根据关键词从海量的文档中搜索出相关文档,以使用户从相关文档中读取其需要的内容。
[0003]目前,搜索引擎搜索文档时,首先利用具有一定数量特征的相关性算法计算海量的文档中每个文档与关键词的相关度,即该文档的质量值,过滤掉质量值低于本次过滤阈值的文档。然后增加相关性算法的特征并对剩余文档的质量值进行计算,继续过滤质量值低于本次过滤阈值的文档。如此按照上述方式多次计算文档的质量值并过滤质量值低于过滤阈值的文档,直到过滤出的文档的数量到达预期数量,将最终剩余的文档确定为搜索出的相关文档。
[0004]在实现本发明的过程中,发明人发现,当搜索的文档数量非常大时,每次过滤后剩余的文档数量仍然非常多,每次都需花费很长时间来计算大量文档的质量值,总体的时间花费很多,导致搜索效率很低,搜索响应时间很长。

【发明内容】

[0005]有鉴于此,本发明实施例的目的在于提供一种分层过滤文档的方法及装置,实现了对文档的分层过滤,缩短了搜索响应时间,提高了搜索效率。
[0006]第一方面,本发明实施例提供了一种分层过滤文档的方法,所述方法包括:
[0007]根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;
[0008]按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档的质量值;
[0009]根据所述第一文档列表中的每个文档的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;
[0010]根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。
[0011]结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:
[0012]根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量;
[0013]按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合;
[0014]分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。
[0015]结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述分别从每个所述文档子集合中选取出所述第二数量的文档,包括:
[0016]分别从每个所述文档子集合的前部选取出第二数量的文档;或者,
[0017]以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者,
[0018]以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。
[0019]结合第一方面,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括:
[0020]根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔;
[0021]按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。
[0022]结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤,包括:
[0023]判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值,如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档,如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。
[0024]结合第一方面,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤之后,还包括:
[0025]根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文档集合作为新的文档集合,通过下一文档过滤层对所述新的文档集合进行过滤。
[0026]第二方面,本发明实施例提供了一种分层过滤文档的装置,所述装置包括:
[0027]选取模块,用于根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序;
[0028]计算模块,用于按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档的质量值;
[0029]排序模块,用于根据所述第一文档列表中的每个文档的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表;
[0030]过滤模块,用于根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。
[0031]结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述选取模块包括:
[0032]第一确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量;
[0033]划分单元,用于按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合;
[0034]第一选取单元,用于分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。
[0035]结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述第一选取单元包括:
[0036]第一选取子单元,用于分别从每个所述文档子集合的前部选取出第二数量的文档;或者,
[0037]第二选取子单元,用于以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者,
[0038]第三选取子单元,用于以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。
[0039]结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述选取模块包括:
[0040]第二确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔;
[0041]第二选取单元,用于按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。
[0042]结合第二方面,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述过滤模块包括:
[0043]过滤单元,用于判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值,如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档,如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。
[0044]结合第二方面,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述装置还包括:
[0045]停止判断模块,用于根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文档集合作为新的文档集合,通过下一文档过滤层对所述新的文档集合进行过滤。
[0046]在本发明实施例提供的方法及装置中,根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档组成第一文档列表,按照当前文档过滤层的相关性计算方式分别计算第一文档列表中每个文档的质量值,根据第一文档列表中的每个文档的质量值,对第一文档列表中的文档进行重新排序得到第二文档列表,根据第一文档列表和第二文档列表的一致性程度,对当前文档过滤层的待过滤文档集合进行过滤。由于对当前文档过滤层的待过滤文档集合进行了过滤,大大降低了下一文档过滤层需要处理的文档的数量,每一层都可以按照本方案对本层的待过滤文档集合进行过滤,实现了对文档的分层过滤,缩短了搜索响应时
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1