一种分层过滤文档的方法及装置的制造方法_5

文档序号:9579381阅读:来源:国知局
层过滤装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的装置、模块和单元的具体工作过程,均可以参考上述方法实施例中的对应过程。
[0127]在本申请所提供的几个实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0128]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0129]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0130]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0131]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
【主权项】
1.一种分层过滤文档的方法,其特征在于,所述方法包括: 根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表;其中,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序; 按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档在当前文档过滤层的质量值; 根据所述第一文档列表中的每个文档在当前文档过滤层的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表; 根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。2.根据权利要求1所述的方法,其特征在于,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括: 根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量; 按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合; 分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。3.根据权利要求2所述的方法,其特征在于,所述分别从每个所述文档子集合中选取出所述第二数量的文档,包括: 分别从每个所述文档子集合的前部选取出第二数量的文档;或者, 以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者, 以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。4.根据权利要求1所述的方法,其特征在于,所述根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,包括: 根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔; 按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤,包括: 判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值; 如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档; 如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤之后,还包括: 根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文档集合作为新的文档集合,通过下一文档过滤层对所述新的文档集合进行过滤。7.一种分层过滤文档的装置,其特征在于,所述装置包括: 选取模块,用于根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的所述文档在所述待过滤文档集合中的先后顺序,将选取出的所述文档组成第一文档列表,所述待过滤文档集合中的文档按照其在上一文档过滤层的质量值进行排序; 计算模块,用于按照当前文档过滤层的相关性计算方式,分别计算所述第一文档列表中每个文档的质量值; 排序模块,用于根据所述第一文档列表中的每个文档的质量值,对所述第一文档列表中的文档进行重新排序,得到第二文档列表; 过滤模块,用于根据所述第一文档列表和所述第二文档列表的一致性程度,对当前文档过滤层的所述待过滤文档集合进行过滤。8.根据权利要求7所述的装置,其特征在于,所述选取模块包括: 第一确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定所述待过滤文档集合所需划分的文档子集合的第一数量,及从每个所述文档子集合中所需选取的文档的第二数量; 划分单元,用于按照文档的先后顺序将所述待过滤文档集合划分为所述第一数量的文档子集合; 第一选取单元,用于分别从每个所述文档子集合中选取出所述第二数量的文档,以得到多个文档。9.根据权利要求8所述的装置,其特征在于,所述第一选取单元包括: 第一选取子单元,用于分别从每个所述文档子集合的前部选取出第二数量的文档;或者, 第二选取子单元,用于以预定间隔分别从每个所述文档子集合中选取出第二数量的文档;或者, 第三选取子单元,用于以随机选取的方式分别从每个所述文档子集合中选取出第二数量的文档。10.根据权利要求7所述的装置,其特征在于,所述选取模块包括: 第二确定单元,用于根据当前文档过滤层的待过滤文档集合包括的文档的数量,确定文档的采样间隔; 第二选取单元,用于按照所述文档的采样间隔从所述待过滤文档集合中选取文档,以得到多个文档。11.根据权利要求7所述的装置,其特征在于,所述过滤模块包括: 过滤单元,用于判断所述第一文档列表和所述第二文档列表的一致性程度是否大于预设一致性阈值,如果是,则过滤掉当前文档过滤层的所述待过滤文档集合中满足预设过滤条件的文档,如果否,则按照所述当前文档过滤层的相关性计算方式计算所述待过滤文档集合中每个文档的质量值,根据计算的质量值,对所述待过滤文档集合中的文档重新排序,从排序后的所述待过滤文档集合中过滤掉满足所述预设过滤条件的文档。12.根据权利要求7所述的装置,其特征在于,所述装置还包括: 停止判断模块,用于根据所述当前文档过滤层的层数或过滤后的所述待过滤文档集合中的文档数量,判断是否达到预设的过滤停止条件,若达到,则将过滤后的所述待过滤文档集合中的文档确定为搜索结果,若未达到,则将过滤后的所述待过滤文档集合作为新的文档集合,通过下一文档过滤层对所述新的文档集合进行过滤。
【专利摘要】本发明提供一种分层过滤文档的方法及装置。该方法包括:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档,按照选取出的文档在待过滤文档集合中的先后顺序,将选取出的文档组成第一文档列表;按照当前文档过滤层的相关性计算方式,分别计算第一文档列表中每个文档的质量值;根据第一文档列表中的每个文档的质量值,对第一文档列表中的文档进行重新排序,得到第二文档列表;根据第一文档列表和第二文档列表的一致性程度,对当前文档过滤层的待过滤文档集合进行过滤。本发明对当前文档过滤层的待过滤文档集合进行过滤,大大降低下一文档过滤层需要处理的文档的数量,实现对文档的分层过滤,缩短搜索响应时间,提高搜索效率。
【IPC分类】G06F17/30
【公开号】CN105335493
【申请号】CN201510688807
【发明人】李洋, 万明成, 曾洪雷
【申请人】广州神马移动信息科技有限公司
【公开日】2016年2月17日
【申请日】2015年10月21日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1