一种分层过滤文档的方法及装置的制造方法_2

文档序号：9579381阅读：来源：国知局

间，提高了搜索效率。
[0047]为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
【附图说明】
[0048]为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0049]图1A示出了本发明实施例1所提供的一种分层过滤的方法流程图；
[0050]图1B示出了本发明实施例1所提供的一种选取文档的流程示意图；
[0051]图2示出了本发明实施例2所提供的一种分层过滤装置的结构示意图。
【具体实施方式】
[0052]下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0053]在本发明所属的搜索技术领域中，由于互联网中文档的数量非常巨大，所以搜索引擎根据用户提供的关键词会搜索出大量的相关文档，但这大量的相关文档中有相当一部分文档与关键词的相关性很低，且也有很多文档自身的文档质量很差，若将这部分文档发送给用户，则用户查看这部分文档的可能性很低，而且传输这部分文档需要浪费大量的数据流量。为了节省数据流量以及提高最终传输给用户的文档的参考性及文档质量，需要先对搜索出的文档进行过滤。
[0054]在构思本发明过滤文档的方案时，考虑到相关技术中当搜索出的文档数量非常大时，根据文档的质量值进行多次过滤，每次过滤后剩余的文档数量仍然非常多，每次仍需花费很长时间来计算大量文档的质量值，导致搜索效率很低，搜索响应时间很长。基于此，本发明实施例提供了一种分层过滤文档的方法及装置。下面通过实施例进行描述。
[0055]实施例1
[0056]本发明实施例提供的一种分层过滤文档的方法。本实施例中，预先设置了从上到下的多个文档过滤层，每一文档过滤层都预设了相关性计算方式，每一层的相关性计算方式所采用的特征数量和算法复杂度均可以不同。文档过滤层越往下，可以采用复杂度更高的算法和更多的特征，以提高计算精度。
[0057]各个文档过滤层在过滤文档时，第一层过滤文档的方式与现有的文档过滤方式相同，即根据每个文档的质量值过滤掉符合预设过滤条件的的文档，将剩余的文档传递到第二层继续进行过滤。其中，预设过滤条件可以为将质量值低于预设质量阈值的文档均过滤掉，也可以是保留预定数量的质量值最高的文档并将其它文档过滤掉。对于第一层以外的其余过滤层，都通过本发明实施例提供的方法来过滤当前文档过滤层的待过滤文档集合，并将当前文档过滤层过滤后得到的文档集合作为下一文档过滤层需要过滤的文档集合，直至过滤出的文档集合已符合要求，如文档集合的数量已达到预期的数量；或者文档集合已被最后一层进行了过滤为止。
[0058]参见图1A所示为本发明实施例提供的分层过滤文档的方法的流程图，具体包括以下步骤:
[0059]步骤101:根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档，按照选取出的文档在待过滤文档集合中的先后顺序，将选取出的文档组成第一文档列表;
[0060]上述当前文档过滤层的待过滤文档集合为上一文档过滤层过滤后剩余的文档组成的文档集合。该待过滤文档集合中的文档是按照其在上一文档过滤层的质量值进行排序的。即在上一文档过滤层的过滤过程中，按照上一文档过滤层的相关性计算方式计算了该待过滤文档集合中每个文档的质量值，并按照质量值的预设顺序对该待过滤文档集合中的文档进行了排序。该预设顺序可以为按照质量值从大到小的顺序或者按照质量值从小到大的顺序。
[0061]上述相关性计算方式为根据一定数量的特征采用预设算法来计算文档的质量值，在本发明实施例中每一层都配置有对应的相关性计算方式。预设算法可以为BM25算法等相关性评分算法。质量值可以表示文档质量的好坏，质量值越高，文档质量越好，质量值越低，文档质量越差。相关性计算方式所采用的特征可以为文档的长度、关键词在文档中出现的次数或频率等特征。
[0062]在本发明实施例中，预设采样策略中可以包括从当前文档过滤层的待过滤文档集合中选取文档的数量以及选取方式。选取方式可以为随机选取、从待过滤文档集合的前部选取或按照预定间隔选取等。选取文档的数量与当前文档过滤层的待过滤文档集合中的文档的数量有关，预设采样策略中可以包括预先设置的选取比例。在选取文档时可以根据待过滤文档集合包括的文档的数量以及该选取比例，来确定选取文档的数量。
[0063]本发明实施例中，可以直接根据预设采样策略从当前文档过滤层的待过滤文档集合中选取多个文档，并按照选取出的文档在待过滤文档集合中的先后顺序，将选取出的文档组成第一文档列表。如此得到的第一文档列表中文档的排序方式与待过滤文档集合中文档的排序方式一致，且第一文档列表中的文档都是按照其在上一文档过滤层的质量值进行排序的，所以第一文档列表中文档排序的可靠性与待过滤文档集合中文档排序的可靠性非常相近，可以通过第一文档列表来代表待过滤文档集合，由于第一文档列表中文档的数量远小于待过滤文档集合中文档的数量，所以利用第一文档列表来代替待过滤文档集合进行后续处理，能够大大降低计算量，简化处理过程，提高过滤效率。
[0064]为了便于理解上述选取文档并组成第一文档列表的操作，下面举例进行说明。例如，假设预设采样策略中包括的预设选取比例为20%及选取方式为按照预定间隔10进行选取，当前文档过滤层的待过滤文档集合中文档的数量为5000，则从当前文档过滤层的待过滤文档集合包括的5000个文档中，每间隔10个文档选取一个文档，一共选取出500个文档，根据这500个文档在待过滤文档集合中的先后顺序，将这500个文档组成第一文档列表。
[0065]由于从待过滤文档集合中采样选取文档时，选取的越均匀，得到的第一文档列表对待过滤文档集合的代表性就越强。因此为了从待过滤文档集合中均匀地选取文档，上述选取文档的操作之前，还可以先将待过滤文档集合均匀地划分为多个文档子集合，然后再分别从每个文档子集合中选取文档。划分文档子集合的数量与当前文档过滤层的待过滤文档集合中的文档的数量有关，预设采样策略中还可以包括预先设置的划分规则、从文档子集合中选取文档的数量及选取方式。预设的划分规则可以为划分的文档子集合中文档的数量为固定数值，或者，预设的划分规则可以为待过滤文档集合中文档的数量大于预设阈值时划分为第一预设个数个文档子集合，否则划分为第二预设个数个文档子集合。预设的划分规则还可以为其它规则，在实际中可以根据具体需求进行设置。
[0066]如图1B所示，上述先划分文档子集合再选取文档的操作具体可以通过如下步骤S1-S4的操作来实现，具体包括:
[0067]S1:根据当前文档过滤层的待过滤文档集合包括的文档的数量以及预设采样策略中包括的预设的划分规则，确定待过滤文档集合所需划分的文档子集合的第一数量；
[0068]S2:根据预设采样策略确定从每个文档子集合中所需选取的文档的第二数量；
[0069]S3:按照文档的先后顺序将待过滤文档集合划分为第一数量的文档子集合；
[0070]S4:分别从每个文档子集合中选取出第二数量的文档，以得到多个文档。
[0071]上述分别从每个文档子集合中选取出第二数量的文档的操作可以包括多种选取方式，具体包括:
[0072]分别从每个文档子集合的前部选取出第二数量的文档；或者，以预定间隔分别从每个文档子集合中选取出第二数量的文档；或者，以随机选取的方式分别从每个文档子集合中选取出第二数量的文档。
[0073]直接从文档子集合的前部选取文档，可以快速地从每个文档子集合中选取出第二数量的文档，缩短从待过滤文档集合中选取文档的时间。以预定间隔进行选取或以随机选取的方式进行选取，能够从每个文档子集合中均匀地选取文档，使最终组成的第一文档列表能更好地代表待过滤文档集合。
[0074]为了便于理解上述先划分文档子集合再选取文档的方式，下面举例进行说明。例如，假设预设采样策略中包括的预设的划分规则为划分的文档子集合中文档的数量为200，从文档子集合中选取文档的数量为20个以及选取方式为随机选取，当前文档过滤层的待过滤文档集合中文档的数量为5000。则根据当前文档过滤层的待过滤文档集合中文档的数量5000及预设的划分规则中预设的文档子集合中文档的数量为200，确定所需划分的文档子集合的数量为25个。分别从划分出的这25个文档子集合中随机选取出20个文档，则一共选取出500个文档，根据这500个文档在待过滤文档集合中的先后顺序，将这500个文档组成第一文档列表。
[0075]在本发明实施例中，在通过间隔采

完整全部详细技术资料下载

当前第2页1 2 3 4 5