一种实现倒排链快速归并的方法和装置的制造方法_3

文档序号:9471459阅读:来源:国知局
大粒度分词方法得到的语义单元是“中华人民共和国”、“建立”、“时间”,可以建立分别包含“中华”、“人民”、“共和国”、“建立”、“时间”和“中华人民共和国”的多条倒排链,这样包含“中华人民共和国”的倒排链的长度最小,根据本发明的从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并,可以将包含“中华人民共和国”的倒排链和包含“建立”的倒排链以及包含“时间”的倒排链进行归并处理,需要归并的倒排链数量少,加快了归并速度,减少了查询所需的时间。
[0055]上述描述的各种实施例或优选实施例可以进行任意组合,以减少遍历的次数,减少查询所需的时间,提高查询时的搜索效率和准确率,从而提高搜索引擎的整体性能。
[0056]图2是本发明的实现倒排链快速归并的装置的结构示意图。
[0057]如图2所示,所述实现倒排链快速归并的装置,其包括:
[0058]倒排索引建立单元,用于预先建立倒排索引并记录该倒排索引中的各条倒排链的长度;
[0059]查询单元,用于通过所述倒排索引查询到与至少一个关键词对应的多条倒排链;
[0060]排序单元,用于按照长度从小到大的顺序对所述多条倒排链进行排序;
[0061]归并单元,用于从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。
[0062]在一个优选实施例中,所述倒排索引建立单元还用于建立分别包含检索单元和语义单元的多条倒排链。所述检索单元为通过小粒度分词方法获得的关键词;所述语义单元为通过大粒度分词方法获得的关键词。
[0063]图3是本发明的实现倒排链快速归并的装置的一个优选实施例的结构示意图。如图3所示,所述实现倒排链快速归并的装置还包括优先排序装置,用于将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置。所述文档的多维特征包括文档的点击量、文档质量和文档的作者。
[0064]所述描述实现倒排链快速归并的装置的各种实施例或优选实施例可以进行任意组合,以减少遍历的次数,减少查询所需的时间,提高查询时的搜索效率和准确率,从而提高搜索引擎的整体性能。
[0065]所述实现倒排链快速归并的装置的实施例中各个单元的具体功能和交互方式可参见上述对方法步骤相对应的实施例的记载,在此不再赘述。
[0066]综上所述,本发明实施例提供的实现倒排链快速归并的装置,其有益效果是:优先对链短的倒排链进行归并,进行比较和遍历的次数少;另外在建立倒排索引过程中优先使用多粒度分词的方法建立分别包含检索单元和语义单元的多条倒排链,这样既可以提升搜索结果的召回率,又减少了需要归并的倒排链的数量和长度,减少了遍历的次数;另外在建立倒排索引的过程中还包括将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置,这样可以在召回预设数量的排在倒排链靠近链头位置的文档后提前结束归并。这些措施减少了查询所需的时间,提高了查询时的搜索效率和准确率,从而提高搜索引擎的整体性能。
[0067]本发明实施例所提供的实现倒排链快速归并的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0068]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0069]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0070]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1.一种实现倒排链快速归并的方法,其包括: 预先建立倒排索引并记录该倒排索引中的各条倒排链的长度; 通过所述倒排索引查询到与至少一个关键词对应的多条倒排链; 按照长度从小到大的顺序对所述多条倒排链进行排序; 从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。2.根据权利要求1所述的方法,其特征在于,在建立倒排索引的过程中还包括建立分别包含检索单元和语义单元的多条倒排链。3.根据权利要求2所述的方法,其特征在于,所述检索单元为通过小粒度分词方法获得的关键词。4.根据权利要求2所述的方法,其特征在于,所述语义单元为通过大粒度分词方法获得的关键词。5.根据权利要求1或2所述的方法,其特征在于,在建立倒排索引的过程中,还包括将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置。6.根据权利要求5所述的方法,其特征在于,所述文档的多维特征包括文档的点击量、文档质量和文档的作者。7.根据权利要求1所述的方法,其特征在于,还包括:所述关键词是通过采用多粒度分词方法对给定文本进行分词产生的。8.根据权利要求1所述的方法,其特征在于,还包括:采用插入排序法、冒泡排序法或者选择排序法来按照长度从小到大的顺序对所述多条倒排链进行排序。9.根据权利要求5所述的方法,其特征在于,还包括:在对所述排序后的多条倒排链进行顺序归并时采用截断方法来进行,具体过程是:召回预设数量的排在倒排链靠近链头位置的文档后提前结束归并。10.一种实现倒排链快速归并的装置,其包括: 倒排索引建立单元,用于预先建立倒排索引并记录该倒排索引中的各条倒排链的长度; 查询单元,用于通过所述倒排索引查询到与至少一个关键词对应的多条倒排链; 排序单元,用于按照长度从小到大的顺序对所述多条倒排链进行排序; 归并单元,用于从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。11.根据权利要求10所述的装置,其特征在于,所述倒排索引建立单元还用于建立分别包含检索单元和语义单元的多条倒排链。12.根据权利要求11所述的方法,其特征在于,所述检索单元为通过小粒度分词方法获得的关键词。13.根据权利要求11所述的方法,其特征在于,所述语义单元为通过大粒度分词方法获得的关键词。14.根据权利要求10所述的装置,其特征在于,还包括:优先排序单元,用于将倒排链所记录的文档按照多维特征进行排序,确保优质文档排在倒排链靠近链头的位置。15.根据权利要求14所述的方法,其特征在于,所述文档的多维特征包括文档的点击量、文档质量和文档的作者。
【专利摘要】本发明提供了一种实现倒排链快速归并的方法和装置。所述方法包括:预先建立倒排索引并记录该倒排索引中的各条倒排链的长度;通过所述倒排索引查询到与至少一个关键词对应的多条倒排链;按照长度从小到大的顺序对所述多条倒排链进行排序;从长度最小的倒排链开始对所述排序后的多条倒排链进行顺序归并。本发明提供的技术方案的有益效果是:由于先归并长度小的倒排链,这减少了比较和遍历的次数,进而加快了归并速度,减少了查询所需的时间,提高了查询时的搜索效率和准确率,从而提高搜索引擎的整体性能。
【IPC分类】G06F17/30
【公开号】CN105224624
【申请号】CN201510611489
【发明人】王刚, 万明成, 曾洪雷
【申请人】广州神马移动信息科技有限公司
【公开日】2016年1月6日
【申请日】2015年9月22日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1