一种数据存储方法及装置的制造方法_2

文档序号:8473010阅读:来源:国知局
059]第一标记单元,用于当达到所述有效时间后,将所述待删除的网页在各次更新时存储的字段数据和对应的索引信息标记为无效。
[0060]可选的,所述装置还包括:
[0061]第二标记单元,用于将历史更新存储区中与所述更新字段对应的历史字段数据和对应的历史索引信息标记为无效。
[0062]可选的,所述装置还包括:
[0063]合并单元,用于合并所述字段存储区包含的若干更新存储区;
[0064]删除单元,用于在合并后的新更新存储区中将所述第一标记单元和第二标记单元标记为无效的字段数据和索引信息删除。
[0065]可选的,所述合并单元包括:
[0066]第一选择子单元,用于在所述字段存储区中选择若干待合并的更新存储区;
[0067]第一计算子单元,用于分别计算所述待合并的更新存储区包含的有效字段数据的数量之和;
[0068]第一合并子单元,用于如果所述数量之和小于第一预设阈值,则合并所述待合并的更新存储区。
[0069]可选的,所述第一选择子单元包括:
[0070]第二计算子单元,用于分别计算每一个更新存储区包含的有效字段数据数量;
[0071]第二选择子单元,用于从所述字段存储区中选择所述有效字段数据数量最少的若干更新存储区作为所述待合并的更新存储区。
[0072]可选的,所述第一选择子单元包括:
[0073]第三计算子单元,用于分别计算所述更新存储区包含的有效字段数据数量与所述更新存储区包含的总字段数据数量的比值;
[0074]第三选择子单元,用于在所述字段存储区中选择所述比值最低的若干更新存储区作为所述待合并的更新存储区。
[0075]上述技术方案提供数据存储方法及装置,在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0076]该技术方案在对网页摘要存储时,只需对其中的更新字段和对应的索引信息进行增量更新,而无需对所有字段的数据进行增量更新,因此大大降低了单次更新时存储的数据量,从而避免了新增的数据量过大,以及由此导致的全量更新的发生,节约了时间及存储空间的开销,提高了存储效率。
【附图说明】
[0077]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0078]图1为本发明提供的一种数据存储方法的一个实施例的流程示意图;
[0079]图2为本发明提供的一种数据存储方法的另一个实施例的流程示意图;
[0080]图3所示为本发明提供的一种数据存储方法对应的数据存储结构示意图;
[0081]图4为本发明提供的一种数据存储方法的另一个实施例的流程示意图;
[0082]图5为本发明提供的一种数据存储装置的一个实施例的结构示意图;
[0083]图6为本发明提供的一种数据存储装置的另一个实施例的结构示意图;
[0084]图7为本发明提供的一种数据存储装置的另一个实施例的结构示意图;
[0085]图8为本发明提供的一种数据存储装置的另一个实施例的结构示意图;
[0086]图9为本发明提供的一种数据存储装置的合并单元的一个实施例的结构示意图。
【具体实施方式】
[0087]首先对本发明数据存储方法提供的实施例进行说明,参见图1,为本发明数据存储方法提供的一个实施例的流程示意图,本实施例包括如下步骤:
[0088]步骤101:在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区。
[0089]参考【背景技术】的相关描述可知,网页摘要通常包含作者、关键词、正文、标题、创建时间、更新时间、网页点击量等多个字段。一般来说,当网页更新时其包含的各个字段并非全部都更新,例如作者、创建时间等字段更新的可能性非常小,而网页点击量、访问者等字段更新的可能性则较大,因此需确定网页摘要中存在更新的字段。对于新创建的网页和待删除的网页,可认为其网页摘要包含的所有字段都是更新字段。
[0090]步骤102:在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0091]每个字段存储区都包含若干更新存储区,各个更新存储区均为在每一次更新网页摘要时,在发生更新的字段所对应的字段存储区中新增的更新存储区。
[0092]所述索引信息即为从网页到该网页摘要字段数据的正排索引信息,在搜索时,先利用倒排索引检索到与搜索关键词相关的若干目标网页,再根据正排索引信息获得各个目标网页的摘要字段数据。
[0093]在实际应用中,可预设网页摘要的更新存储周期,例如可设为一天,则在每天的预设更新时刻,统计对前一天内所有出现更新的网页,对当中发生更新的摘要字段及其对应的索引信息进行存储。
[0094]上述实施例的技术方案提供数据存储方法及装置,在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区;在所述字段存储区新增加更新存储区,在所述更新存储区存储所述更新字段在本次更新后的字段数据和所述字段数据的索引信息。
[0095]该实施例在对网页摘要存储时,只需对其中的更新字段和对应的索引信息进行增量更新,而无需对所有字段的数据进行增量更新,因此大大降低了单次更新时存储的数据量,从而避免了新增的数据量过大,以及由此导致的全量更新的发生,节约了时间及存储空间的开销,提尚了存储效率。
[0096]可选的,在本发明的其他实施例中,可预先设立若干字段存储区,分别为每一个字段存储区指定对应的一个或多个字段。
[0097]优选的,预先统计网页摘要包含的各字段的更新频率,根据所述更新频率分别为每一个字段存储区指定对应的一个或多个字段,可以将更新频率相同或相近的字段划分在同一个字段存储区中,这样当网页摘要有更新时,只在有更新的字段所在的字段存储区中新增加更新存储区即可。
[0098]例如,可根据各字段的更新频率将其划分为稳定存储区、不易变存储区、易变存储区三个字段存储区。其中,稳定存储区对应作者、关键词、创建时间等较稳定字段,不易变存储区对应正文、标题等较不容易改变的字段,而易变存储区对应更新时间、网页点击量等较容易发生改变的字段。
[0099]本领域技术人员也可以根据经验,或者是在实际运行中的统计数据,对各字段自行划分至不同的字段存储区,以获得较高的更新和存储效率。该划分方式可以是固定的,也可以以一定时间周期内的统计数据,周期性的动态调整。
[0100]在本发明数据存储方法的另一个实施例中,可将所述更新存储区具体划分为数据存储区和对应的索引存储区两部分,在所述数据存储区存储所述本次更新后的字段数据,在所述索引存储区存储所述字段数据的索引信息。
[0101]所述索引信息可具体包括所述字段数据对应的网页标识,以及所述字段数据在所述数据存储区中的存储位置信息。由于每次更新的网页数量一般都比较大,因此在数据存储区中存储的字段数据的条数也较多,在获取某一条字段数据时,可从对应的索引存储区中读取所述字段数据的索引信息,进而在所述数据存储区中定位该条字段数据。
[0102]如图2所示为本发明数据存储方法的另一个实施例的流程示意图,所述实施例包括如下步骤201至步骤204:
[0103]步骤201:在网页摘要更新时,确定所述网页摘要中的更新字段,以及所述更新字段对应的字段存储区。
[0104]步骤202:在所述字段存储区新增加更新存储区,所述更新存储区包括数据存储区和对应的索引存储区。
[0105]步骤203:在所述数据存储区存储所述本次更新后的字段数据,在所述索引存储区存储所述字段数据对应的网页标识,以及所述字段数据在所述数据存储区中的存储位置信息。
[0106]步骤204:新增加网页索引表,在所述网页索引表中存储本次更新对应的网页标识,以及所述网页标识在所述索引存储区中的存储位置信息。
[0107
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1