一种数据存储方法及装置的制造方法_5

文档序号:8473010阅读:来源:国知局
页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区; 在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
2.根据权利要求1所述的方法,其特征在于,所述更新存储区包括数据存储区和对应的索引存储区,在所述数据存储区存储所述本次更新后的字段数据,在所述索引存储区存储所述字段数据的索引信息。
3.根据权利要求2所述的方法,其特征在于,所述在所述索引存储区存储所述字段数据的索引信息包括: 在所述索引存储区存储所述字段数据对应的网页标识,以及所述字段数据在所述数据存储区中的存储位置信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 新增加网页索引表,在所述网页索引表中存储本次更新对应的网页标识,以及所述网页标识在所述索引存储区中的存储位置信息。
5.根据权利要求4所述的方法,其特征在于,所述在所述网页索引表中存储本次更新对应的网页标识包括: 在所述网页索引表中设置2N个索引子表,为每一个索引字表设置对应的N位二进制表值,N为预设大于等于I的整数; 获取所述网页的标识对应的二进制数值,根据所述二进制数值的前N位将所述网页标识存储到对应表值的索引子表中。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括: 预设若干字段存储区,分别为每一个字段存储区指定对应的一个或多个字段。
7.根据权利要求6所述的方法,其特征在于,所述分别为每一个字段区指定对应的一个或多个字段包括: 统计网页摘要包含的各字段的更新频率,根据所述更新频率分别为每一个字段存储区指定对应的一个或多个字段。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括: 判断是否有待删除的网页,如果有,在新增加的更新存储区中设置所述待删除的网页的有效时间; 当达到所述有效时间后,将所述待删除的网页在各次更新时存储的字段数据和对应的索引信息标记为无效。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述方法还包括: 将历史更新存储区中与所述更新字段对应的历史字段数据和对应的历史索引信息标记为无效。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括: 合并所述字段存储区包含的若干更新存储区,在合并后的新更新存储区中删除标记为无效的字段数据和索引信息。
11.根据权利要求10所述的方法,其特征在于,所述合并所述字段存储区包含的若干更新存储区包括: 在所述字段存储区中选择若干待合并的更新存储区; 分别计算所述待合并的更新存储区包含的有效字段数据的数量之和; 如果所述数量之和小于第一预设阈值,则合并所述待合并的更新存储区。
12.根据权利要求11所述的方法,其特征在于,所述从所述字段存储区中选择若干待合并的更新存储区包括: 分别计算每一个更新存储区包含的有效字段数据数量; 从所述字段存储区中选择所述有效字段数据数量最少的若干更新存储区作为所述待合并的更新存储区。
13.根据权利要求11所述的方法,其特征在于,所述从所述字段存储区中选择若干待合并的更新存储区包括: 分别计算所述更新存储区包含的有效字段数据数量与所述更新存储区包含的总字段数据数量的比值; 在所述字段存储区中选择所述比值最低的若干更新存储区作为所述待合并的更新存储区。
14.一种数据存储装置,所述数据包括网页摘要和所述网页摘要的索引信息,其特征在于,所述装置包括: 确定单元,用于在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区; 第一存储单元,用于在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
15.根据权利要求14所述的装置,其特征在于,所述更新存储区包括数据存储区和对应的索引存储区; 所述第一存储单元包括:数据存储子单元和索引存储子单元; 所述数据存储子单元,具体用于在所述数据存储区存储所述本次更新后的字段数据; 所述索引存储子单元,用于在所述索引存储区存储所述字段数据的索引信息。
16.根据权利要求15所述的装置,其特征在于,所述索引存储单元用于在所述索引存储区存储所述字段数据对应的网页标识,以及所述字段数据在所述数据存储区中的存储位置信息。
17.根据权利要求16所述的装置,其特征在于,所述装置还包括: 第二存储单元,用于新增加网页索引表,并在所述网页索引表中存储本次更新对应的网页标识,以及所述网页标识在所述索引存储区中的存储位置信息。
18.根据权利要求17所述的装置,其特征在于,所述第二存储单元包括: 设置子单元,用于在所述网页索引表中设置2N个索引子表,为每一个索引字表设置对应的N位二进制表值,N为预设大于等于I的整数; 网页存储子单元,用于获取所述网页的标识对应的二进制数值,根据所述二进制数值的前N位将所述网页标识存储到对应表值的索引子表中。
19.根据权利要求14至18任意一项所述的装置,其特征在于,所述装置还包括: 设置单元,用于预设若干字段存储区,分别为每一个字段存储区指定对应的一个或多个字段。
20.根据权利要求19所述的装置,其特征在于,所述设置单元具体用于: 统计网页摘要包含的各字段的更新频率,根据所述更新频率分别为每一个字段存储区指定对应的一个或多个字段。
21.根据权利要求19所述的装置,其特征在于,所述装置还包括: 判断设置单元,用于判断是否有待删除的网页,如果有,在新增加的更新存储区中设置所述待删除的网页的有效时间; 第一标记单元,用于当达到所述有效时间后,将所述待删除的网页在各次更新时存储的字段数据和对应的索引信息标记为无效。
22.根据权利要求14至21任意一项所述的装置,其特征在于,所述装置还包括: 第二标记单元,用于将历史更新存储区中与所述更新字段对应的历史字段数据和对应的历史索引信息标记为无效。
23.根据权利要求22所述的装置,其特征在于,所述装置还包括: 合并单元,用于合并所述字段存储区包含的若干更新存储区; 删除单元,用于在合并后的新更新存储区中将所述第一标记单元和第二标记单元标记为无效的字段数据和索引信息删除。
24.根据权利要求23所述的装置,其特征在于,所述合并单元包括: 第一选择子单元,用于在所述字段存储区中选择若干待合并的更新存储区; 第一计算子单元,用于分别计算所述待合并的更新存储区包含的有效字段数据的数量之和; 第一合并子单元,用于如果所述数量之和小于第一预设阈值,则合并所述待合并的更新存储区。
25.根据权利要求24所述的装置,其特征在于,所述第一选择子单元包括: 第二计算子单元,用于分别计算每一个更新存储区包含的有效字段数据数量; 第二选择子单元,用于从所述字段存储区中选择所述有效字段数据数量最少的若干更新存储区作为所述待合并的更新存储区。
26.根据权利要求24所述的装置,其特征在于,所述第一选择子单元包括: 第三计算子单元,用于分别计算所述更新存储区包含的有效字段数据数量与所述更新存储区包含的总字段数据数量的比值; 第三选择子单元,用于在所述字段存储区中选择所述比值最低的若干更新存储区作为所述待合并的更新存储区。
【专利摘要】本发明公开了一种数据存储方法及装置,所述数据包括网页摘要和所述网页摘要的索引信息,所述方法包括:在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。该技术方案在对网页摘要存储时,只需对其中的更新字段和对应的索引信息进行增量更新,而无需对所有字段的数据进行增量更新,因此大大降低了单次更新时存储的数据量,从而避免了新增的数据量过大,以及由此导致的全量更新的发生,节约了时间及存储空间的开销,提高了存储效率。
【IPC分类】G06F17-30
【公开号】CN104794177
【申请号】CN201510155130
【发明人】蔡迥航, 李前令
【申请人】广州神马移动信息科技有限公司
【公开日】2015年7月22日
【申请日】2015年4月2日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1