一种数据存储方法及装置的制造方法_4

文档序号:8473010阅读:来源:国知局
具体包括如下子步骤:
[0141]所述从所述字段存储区中选择若干待合并的更新存储区。
[0142]分别计算所述更新存储区包含的有效字段数据数量与所述更新存储区包含的总字段数据数量的比值。
[0143]在所述字段存储区中选择所述比值最低的若干更新存储区作为所述待合并的更新存储区。
[0144]在选择待合并的更新存储区时,可有针对性的选择有效字段数据的数量最少的若干更新存储区,或选择有效字段数据的比例最少的若干更新存储区,这样选择出来的待合并的更新存储区更有可能符合上述步骤2083的合并条件,更节约时间和空间开销。
[0145]上述技术方案提供数据存储方法的实施例,在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0146]该技术方案在对网页摘要存储时,只需对其中的更新字段和对应的索引信息进行增量更新,而无需对所有字段的数据进行增量更新,因此大大降低了单次更新时存储的数据量,从而避免了新增的数据量过大,以及由此导致的全量更新的发生,节约了时间及存储空间的开销,提尚了存储效率。
[0147]与本发明一种数据存储方法提供的实施例相对应,本发明还提供了一种数据存储装置的实施例,如图5所示为本发明提供的一种数据存储装置的一个实施例的结构示意图,所述装置包括:
[0148]确定单元501,用于在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;
[0149]第一存储单元502,用于在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0150]可选的,所述更新存储区包括数据存储区和对应的索引存储区;
[0151]所述第一存储单元502包括:数据存储子单元5021和索引存储子单元5022 ;
[0152]所述数据存储子单元5021,具体用于在所述数据存储区存储所述本次更新后的字段数据;
[0153]所述索引存储子单元5022,具体用于在所述索引存储区存储所述字段数据的索引信息。
[0154]可选的,所述索引存储单元5022用于在所述索引存储区存储所述字段数据对应的网页标识,以及所述字段数据在所述数据存储区中的存储位置信息。
[0155]如图6所示,为本发明提供的一种数据存储装置的另一个实施例的结构示意图,所述装置还包括:
[0156]第二存储单元503,用于新增加网页索引表,并在所述网页索引表中存储本次更新对应的网页标识,以及所述网页标识在所述索引存储区中的存储位置信息。
[0157]可选的,所述第二存储单元503包括:
[0158]设置子单元5031,用于在所述网页索引表中设置2N个索引子表,为每一个索引字表设置对应的N位二进制表值,N为预设大于等于I的整数;
[0159]网页存储子单元5032,用于获取所述网页的标识对应的二进制数值,根据所述二进制数值的前N位将所述网页标识存储到对应表值的索引子表中。
[0160]如图7所示,为本发明一种数据存储装置提供的另一个实施例的结构示意图,所述装置还包括:
[0161]设置单元504,用于预设若干字段存储区,分别为每一个字段存储区指定对应的一个一个或多个字段。
[0162]可选的,所述设置单元504具体用于:
[0163]统计网页摘要包含的各字段的更新频率,根据所述更新频率分别为每一个字段存储区指定对应的一个或多个字段。
[0164]可选的,如图7所示,所述装置还包括:
[0165]判断设置单元505,用于判断是否有待删除的网页,如果有,在新增加的更新存储区中设置所述待删除的网页的有效时间;
[0166]第一标记单元506,用于当达到所述有效时间后,将所述待删除的网页在各次更新时存储的字段数据和对应的索引信息标记为无效。
[0167]可选的,如图7所示,所述装置还包括:
[0168]第二标记单元507,用于将历史更新存储区中与所述更新字段对应的历史字段数据和对应的历史索引信息标记为无效。
[0169]如图8所示,为本发明一种数据存储装置提供的另一个实施例的结构示意图,所述装置还包括:
[0170]合并单元508,用于合并所述字段存储区包含的若干更新存储区;
[0171]删除单元509,用于在合并后的新更新存储区中将所述第一标记单元和第二标记单元标记为无效的字段数据和索引信息删除。
[0172]如图9所示,为本发明提供的一种数据存储装置的合并单元508的一个实施例的结构示意图,所述合并单元508包括:
[0173]第一选择子单元5081,用于在所述字段存储区中选择若干待合并的更新存储区;
[0174]第一计算子单元5082,用于分别计算所述待合并的更新存储区包含的有效字段数据的数量之和;
[0175]第一合并子单元5083,用于如果所述数量之和小于第一预设阈值,则合并所述待合并的更新存储区。
[0176]可选的,所述第一选择子单元5081包括:
[0177]第二计算子单元50811,用于分别计算每一个更新存储区包含的有效字段数据数量;
[0178]第二选择子单元50812,用于从所述字段存储区中选择所述有效字段数据数量最少的若干更新存储区作为所述待合并的更新存储区。
[0179]可选的,所述第一选择子单元5081也可以包括:
[0180]第三计算子单元(图中未示出),用于分别计算所述更新存储区包含的有效字段数据数量与所述更新存储区包含的总字段数据数量的比值;
[0181]第三选择子单元(图中未示出),用于在所述字段存储区中选择所述比值最低的若干更新存储区作为所述待合并的更新存储区。
[0182]本发明提供的数据存储装置的实施例,技术方案本质与上述数据存储方法的实施例相同,因此未做具体解释描述,相关之处可参见上述数据存储方法的实施例的对应部分。
[0183]上述技术方案提供的数据存储装置的实施例,在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0184]该实施例在对网页摘要存储时,只需对其中的更新字段和对应的索引信息进行增量更新,而无需对所有字段的数据进行增量更新,因此大大降低了单次更新时存储的数据量,从而避免了新增的数据量过大,以及由此导致的全量更新的发生,节约了时间及存储空间的开销,提尚了存储效率。
[0185]本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件的方式来实现,通用硬件包括通用集成电路、通用CPU、通用存储器、通用元器件等,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0186]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0187]以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种数据存储方法,所述数据包括网页摘要和所述网页摘要的索引信息,其特征在于,所述方法包括: 在网
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1