倒排索引求交方法

文档序号:6423736阅读:804来源:国知局
专利名称:倒排索引求交方法
技术领域
本发明属于倒排索引技术领域,特别涉及倒排索引求交的方法。
背景技术
搜索引擎中使用最广泛的数据结构是倒排索引,它由字典和倒排列表两部分组 成。其中字典为关键词和倒排列表之间建立一一对应关系,而倒排列表由一系列称为张贴 的基本单元组成。每个张贴由包含相应关键词的网页的文档标识符(称为docID)、频率和位 置等信息组成。在本发明中,我们假设每个倒排列表仅由一系列docID组成。参阅

图1,示出了现有搜索引擎的处理流程,具体步骤如下所述
步骤S101、获取用户查询请求。搜索引擎不断接收用户查询请求,然后对查询 进行分词,得到与其对应的关键词。步骤S102、对查询请求对应的倒排列表进行求交。通过倒排索引中的字典 找到查询的关键词对应的倒排列表,并且对它们进行求交。步骤S103、将求交结果按某种方式返回给用户。二分搜索、插值搜索以及基于跳表的搜索,是步骤S102中最常用的搜索 方法。在整个处理流程中S102占用时间较多,是我们优化的主要对象。

发明内容
本发明的目的是针对现有的倒排索引求交方法占用时间较多的不足,提供一种新 型的基于线性回归的倒排索引求交方法。本发明提供的倒排索引求交方法,包括 第1、离线预处理
对每个倒排列表作),
以docID的索引2为横坐标、值乃为纵坐标作二维散点图,其中〗=1,2,…,| ㈨I, I印;)|
表示■!⑷包含的docID个数且一㈨, 为非负整数,基于最小二乘法生成一条线
性回归直线
权利要求
1. 一种倒排索引求交方法,其特征在于,包括 第1、离线预处理对每个倒排列表作),以docID的索引力横坐标、值Λ为纵坐标作二维散点图,其中
全文摘要
一种倒排索引求交方法。该方法包括预处理,对每个倒排列表,以docID的索引为横坐标、值为纵坐标作二维散点图,基于最小二乘法生成一条线性回归直线,使得图中所有点到该直线的竖直离差的平方和最小,求出左安全搜索距离、右安全搜索距离,保存所求出的线性回归信息。倒排索引求交,根据已保存的倒排列表的线性回归信息,确定要找的docID在该倒排列表中的安全搜索范围,然后在此范围内采用已有的某种搜索方法进行搜索。本发明的倒排索引求交方法可以缩小搜索范围,减少搜索时间,缩短搜索引擎的响应时间,提高用户体验。
文档编号G06F17/30GK102136011SQ20111011816
公开日2011年7月27日 申请日期2011年5月9日 优先权日2011年5月9日
发明者刘晓光, 吴迪, 张帆, 敖耐勇, 王刚 申请人:南开大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1