一种长查询词的搜索方法和装置的制造方法

文档序号:8395985阅读:267来源:国知局
一种长查询词的搜索方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网搜索技术领域,具体涉及一种长查询词的搜索方法和装置。
【背景技术】
[0002]在一些实际的搜索场景中,用户会输入较长的句子作为查询词,称为长查询词。
[0003]现有技术中针对这种长查询词搜索采用求并的方法来实现模糊匹配。即根据长查询词中包含的各关键分别进行查询,然后对查询结果进行合并。但这种方法在实际使用中性能非常差。因为假定一个长查询词包含N个关键词,每个关键词平均召回L个文档,则求并会返回N*L个文档,召回文档的数量非常大,导致计算量较多,同时搜索结果给出的匹配效果也并不好。
[0004]图1示出了现有的求并方法的搜索结果示意图。如图1所示,召回的文档与原长查询词的匹配效果非常差。
[0005]可见,亟需一种真对长查询词的有效搜索解决方案。

【发明内容】

[0006]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种长查询词搜索方法和装置。
[0007]依据本发明的一个方面,提供了一种长查询词的搜索方法,该方法包括:
[0008]获取输入的长查询词;
[0009]提取所述长查询词中包含的N个关键词办为自然数;
[0010]召回命中所述N个关键词中的至少M个关键词的文档;M小于或等于N;
[0011]根据所召回的文档生成搜索结果。
[0012]可选地,所述召回命中所述N个关键词中的至少M个关键词的文档包括:
[0013]对于所述N个关键词中的每个关键词,按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;
[0014]如果各当前文档中不存在命中所述N个关键词中的至少M个关键词的文档,则将所述N个关键词对应的N个当前文档的编号按从小到大的顺序排序,将排序后的第M个编号赋值给Dm ;
[0015]过滤掉编号小于Dm的文档,从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;
[0016]将查找到的命中所述N个关键词中的至少M个关键词的文档召回。
[0017]可选地,所述召回命中所述N个关键词中的至少M个关键词的文档包括:
[0018]对于所述N个关键词中的每个关键词,按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;
[0019]如果各当前文档中存在命中所述N个关键词中的至少M个关键词的文档,将命中所述N个关键词中的至少M个关键词的文档召回,并将该文档的编号赋值给Dm ;
[0020]过滤掉编号小于或等于Dm的文档,从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;
[0021 ] 将查找到的命中所述N个关键词中的至少M个关键词的文档召回。
[0022]可选地,该方法进一步包括:
[0023]如果各当前文档中存在命中所述N个关键词中的至少M个关键词的两个以上文档,则将该两个以上的文档召回,并将两个以上文档中的编号最大的文档编号赋值给Dm。
[0024]可选地,所述从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档包括:
[0025]对所述N个关键词中的每个关键词,从剩余文档中按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;
[0026]判断各当前文档中是否存在命中所述N个关键词中的至少M个关键词的文档;
[0027]如果判断为是,将命中所述N个关键词中的至少M个关键词的文档召回,并将该文档的编号赋值给Dm ;过滤掉编号小于或等于Dm的文档,再从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;
[0028]如果判断为否,则将所述N个关键词对应的N个当前文档的编号按从小到大的顺序排序,将排序后的第M个编号赋值给Dm ;过滤掉编号小于Dm的文档,再从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档。
[0029]依据本发明的另一个方面,提供了一种长查询词的搜索装置,其中,该装置包括:
[0030]获取单元,适于获取输入的长查询词;
[0031]提取单元,适于提取所述长查询词中包含的N个关键词;N为自然数;
[0032]召回单元,适于召回命中所述N个关键词中的至少M个关键词的文档;M小于或等于N;
[0033]生成单元,适于根据所召回的文档生成搜索结果。
[0034]可选地,所述召回单元,适于对于所述N个关键词中的每个关键词,按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;如果各当前文档中不存在命中所述N个关键词中的至少M个关键词的文档,则将所述N个关键词对应的N个当前文档的编号按从小到大的顺序排序,将排序后的第M个编号赋值给Dm ;过滤掉编号小于Dm的文档,从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;将查找到的命中所述N个关键词中的至少M个关键词的文档召回。
[0035]可选地,所述召回单元,适于对于所述N个关键词中的每个关键词,按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;如果各当前文档中存在命中所述N个关键词中的至少M个关键词的文档,将命中所述N个关键词中的至少M个关键词的文档召回,并将该文档的编号赋值给Dm ;过滤掉编号小于或等于Dm的文档,从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;将查找到的命中所述N个关键词中的至少M个关键词的文档召回。
[0036]可选地,所述召回单元,进一步适于在各当前文档中存在命中所述N个关键词中的至少M个关键词的两个以上文档时,将该两个以上的文档召回,并将两个以上文档中的编号最大的文档编号赋值给Dm。
[0037]可选地,所述召回单元,适于对所述N个关键词中的每个关键词,从剩余文档中按照文档编号从小到大的顺序查找出该关键词命中的一个文档作为该关键词对应的当前文档;判断各当前文档中是否存在命中所述N个关键词中的至少M个关键词的文档;如果判断为是,将命中所述N个关键词中的至少M个关键词的文档召回,并将该文档的编号赋值给Dm ;过滤掉编号小于或等于Dm的文档,再从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;如果判断为否,则将所述N个关键词对应的N个当前文档的编号按从小到大的顺序排序,将排序后的第M个编号赋值给Dm ;过滤掉编号小于Dm的文档,再从剩余的文档中查找命中所述N个关键词中的至少M个关键词的文档;如此重复上述步骤,直至查找完待搜索的所有文档。
[0038]根据本发明的这种获取输入的长查询词,提取所述长查询词中包含的N个关键词,召回命中所述N个关键词中的至少M个关键词的文档,M小于或等于N,根据所召回的文档生成搜索结果的技术方案,由于只召回命中所述N个关键词中的至少M个关键词的文档,因此文档的召回量大大降低,并且每个召回的文档都命中所述N个关键词中的至少M个关键词,因此与原长查询词的匹配程度也大大提高。
[0039]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0040]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1