数据存储以及读取方法、装置、搜索方法、引擎及系统的制作方法

文档序号:6485690阅读:190来源:国知局
数据存储以及读取方法、装置、搜索方法、引擎及系统的制作方法
【专利摘要】本发明揭示了一种数据存储以及读取方法、装置、搜索方法、引擎及系统。该数据存储方法可包括:在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储;建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。本发明可在不影响查询结果质量的基础上,减低对倒排数据库的读盘次数,从而提高搜索引擎的整体性能,并能大大缩短查询响应时间。
【专利说明】数据存储以及读取方法、装置、搜索方法、引擎及系统
【技术领域】
[0001]本发明涉及到数据库读取技术,特别涉及到一种倒排数据库的数据存储以及读取方法、装置、搜索方法、引擎及系统。
【背景技术】
[0002]倒排数据库是搜索引擎中用来保存信息的数据库,通过倒排数据库,能很快的找到满足用户查询的结果页面。
[0003]现有的技术方案中,搜索引擎是根据用户输入的查询词(比如词“A”),从倒排数据库依次按照存储地址的顺序读取该查询词所匹配词条的所有记录(文档集合A),进行相关度计算,再取排序前列N个(Top (N))结果返回给用户。参照表1:
[0004]
【权利要求】
1.一种倒排数据库的数据存储方法,其特征在于,包括: 在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储; 建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。
2.根据权利要求1所述的倒排数据库的数据存储方法,其特征在于,所述方法还包括: 在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。
3.根据权利要求2所述的倒排数据库的数据存储方法,其特征在于,所述方法还包括: 将新增文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。
4.一种倒排数据库的数据存储装置,其特征在于,包括: 排序存储模块,用于在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储; 内存快表模块,用于建立内存快表,保存所述文档集合在倒排数据库中的最后偏移。
5.根据权利要求4所述的倒排数据库的数据存储装置,其特征在于,所述装置还包括: 新增文档模块,用于在存储文档集合的存储空间的尾部创建存储新增文档的新增文档区间。
6.根据权利要求5所述的倒排数据库的数据存储装置,其特征在于,所述装置还包括: 偏移修改模块,用于将新增`文档按时间由先至后的顺序存储至新增文档区间,并在增加新增文档后,修改内存快表中的最后偏移。
7.一种倒排数据库的搜索方法,其特征在于,包括: 获取搜索关键字; 根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录; 判断读取的记录是否与关键字匹配; 读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
8.一种倒排数据库的搜索引擎,其特征在于,包括: 关键字获取模块,用于获取搜索关键字; 偏移读取模块,用于根据所述关键字所匹配词条在内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录; 记录匹配模块,用于判断读取的记录是否与关键字匹配; 记录判断模块,用于读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
9.一种倒排数据库的读取方法,其特征在于,包括: 根据内存快表中保存的最后偏移倒序读取倒排数据库中文档集合的记录; 判断读取的记录是否与所需要读取的内容匹配; 读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
10.一种倒排数据库的读取装置,其特征在于,包括:偏移读取模块,用于根据内存快表中保存的最后偏移读取倒排数据库中文档集合的记录; 记录匹配模块,用于判断读取的记录是否与所需要读取的内容匹配; 记录判断模块,用于读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
11.一种倒排数据库系统,其特征在于,包括: 排序存储模块,用于在倒排数据库中,按时间由先至后的顺序对与词条对应的文档集合的记录进行排序,并按照排序的顺序依次进行存储; 内存快表模块,用于建立内存快表,保存所述文档集合在倒排数据库中的最后偏移;偏移读取模块,用于根据内存快表中保存的 最后偏移倒序读取倒排数据库中文档集合的记录; 记录匹配模块,用于判断读取的记录是否与所需要读取的内容匹配; 记录判断模块,用于读取匹配成功的记录,判断匹配成功的记录数量是否达到预设值,并在达到预设值时终止记录读取。
【文档编号】G06F17/30GK103455504SQ201210176784
【公开日】2013年12月18日 申请日期:2012年5月31日 优先权日:2012年5月31日
【发明者】谢朴锐 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1