一种基于重复数据删除架构的倒排索引表示方法及系统与流程

文档序号:11950366阅读:来源:国知局
技术总结
一种基于重复数据删除架构的倒排索引表示方法及系统,适用于搜索引擎和社区网络数据处理。包括:1.遍历倒排索引中的倒排列表,识别并记录不同倒排列表间重复出现的序列模式。2.计算所述各序列模式的长度,并根据长短进行相应操作。依据序列模式的字典序,为所述各序列模式分配模式序号。3.根据所述序列模式对倒排索引进行归约,分别存储序列模式和归约后的倒排列表。4.差值处理:对序列模式中相邻文档序号进行差值计算。模式序号被表示为二元组,记录模式序号和相邻模式序号的位置偏移量。本发明能有效删除倒排索引中的重复数据,减少文档序号数目,提高倒排索引的压缩率,同时缩短搜索引擎的查询响应时间,提高用户体验。

技术研发人员:刘晓光;张曌华;梁津;李天龙;童健聪;黄海兵;王刚
受保护的技术使用者:南开大学
文档号码:201610464499
技术研发日:2016.06.21
技术公布日:2016.12.07

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1