一种数据库更新方法及装置的制造方法_2

文档序号:9708336阅读:来源:国知局
br>[0055]第一索引标识设置模块,用于在启动所述待更新数据库对应的更新程序之后,将本地存储的Value_SID_L设置为:Value_SID_D_值,Value_SID_Dnax为所述待更新数据库中存储的所述待更新数据库中已存储的数据记录对应的索引标识的最大值;
[0056]第二索引标识设置模块,用于在所述第一索引标识设置模块设置本地存储的索引标识之后,将Value_SID_D_更新为:当前Value_SID_D_+预设的第四阈值;
[0057]第一索引标识更新模块,用于在所述第一索引标识计算子模块或所述第二索引标识计算子模块计算得到所述目标网页对应的索引标识之后,将Value_SID_L值更新为所述目标网页对应的索引标识;
[0058]索引标识判断模块,用于判断所述目标网页对应的索引标识是否大于Value_SID_
Dmax ?
[0059]第二索引标识更新模块,用于在所述索引标识判断模块的判断结果为是的情况下,则将Value_SID_D_更新为:当前Value_SID_D_+预设的第四阈值;
[0060]第三索引标识更新模块,用于在结束所述待更新数据库对应的更新程序之后,将Value_SID_Dnax 更新为:Value_SID_Dnax = Value_SID_L。
[0061]可选的,所述数据库更新装置还包括:
[0062]索引标识发送模块,用于在所述索引标识生成模块生成索引标识之后,向网络爬虫模块或者非所述待更新数据库发送所生成的索引标识。
[0063]由以上可见,本发明实施例提供的方案中,在获得目标网页的网页参数后,判断待更新的数据库中与目标网站对应的数据表中是否存在目标网页对应的数据记录,不存在时,生成目标网页对应的索引标识,并在目标网站对应的数据表中增加该目标网页对应的数据记录。与现有技术相比,本发明实施例提供的方案中将各个网页对应的数据记录存储在多个数据表中,而非一个数据表中,因此,在判断待更新数据库中是否存在目标网页对应的数据记录时,只在目标网页对应的数据表中判断即可,而无需在待更新数据库所包含的全部信息中判断,因此,能够提高更新数据库的速度。
【附图说明】
[0064]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0065]图1为本发明实施例提供的数据库更新方法的第一种流程示意图;
[0066]图2为本发明实施例提供的数据库更新方法的第二种流程示意图;
[0067]图3为本发明实施例提供的数据库更新方法的第三种流程示意图;
[0068]图4为本发明实施例提供的数据库更新方法的第四种流程示意图;
[0069]图5为本发明实施例提供的数据库更新装置的第一种结构示意图;
[0070]图6为本发明实施例提供的数据库更新装置的第二种结构示意图;
[0071]图7为本发明实施例提供的数据库更新装置的第三种结构示意图;
[0072]图8为本发明实施例提供的数据库更新装置的第四种结构示意图。
【具体实施方式】
[0073]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0074]图1为本发明实施例提供的数据库更新方法的第一种流程示意图,该方法包括:
[0075]S101:获得目标网页的网页参数。
[0076]实际应用中,搜索引擎为了能够向用户提供丰富的搜索服务,一般由网络爬虫模块获得目标网页的相关信息,并根据所获得的信息更新相应的数据库,其中,网络爬虫模块所获得的信息中至少包括目标网页的网址信息。
[0077]网络爬虫模块获得目标网页的相关信息后,搜索引擎可根据所获得的信息获得目标网页的网页参数,其中,上述网页参数中可以包括:目标网页对应的目标网站的标识和目标网页在目标网站中的标识。
[0078]本领域内的技术人员可以理解的是,根据目标网页的网址信息可以得到目标网页对应的目标网站的标识。
[0079]进一步的,目标网页在目标网站中的标识可以是目标网页的网址,也可以是目标网页的网址去除目标网站标识之后的信息。
[0080]例如:网络爬虫获得的目标网页的网址为:http://item.jd.com/1184892, html,则根据该网址可知目标网页对应的目标网站的标识为:http://item.jd.com,去除目标网站标识之后的信息为:1184892。
[0081]S102:根据目标网页对应的目标网站的标识,在待更新数据库中确定与目标网站对应的数据表。
[0082]由于随着网络爬虫模块获得的网页信息越来越多,待更新数据库中存储网页信息的数据表中存储的数据也就越来越多。另外,更新数据库时需先判断待更新数据库中是否存在网络爬虫模块所获得的信息对应的目标网页的相关信息,因此,随着待更新数据库中存储网页信息的数据表中存储的数据越来越多,判断是否存在目标网页的相关信息的速度越来越慢,为提高更新数据库的效率,可以将数据库中的信息按照一定规则存储在不同的数据表中,例如,来自一个或者多个网站的网页存储在一个数据表中等等。
[0083]鉴于上述情况,本实施例中,待更新数据库中所包含数据表的数量> 1。
[0084]另外,实际应用中,为进一步提高更新数据库的效率,待更新数据库中所包含的每个数据表可分别与一个网站的标识相对应。
[0085]一种具体的应用中,待更新数据库还可以作为分布式文件系统中的一个文件存储于分布式文件系统中。
[0086]其中,分布式文件系统,是指文件系统管理的物理存储资源不一定直接连接在本地存储设备上,而是可以通过计算机网络与网络端存储设备相连,进而将文件存储在各个存储节点中,其中,网络端的一台存储设备可以称之为一个存储节点。
[0087]在本发明的一个具体实施例中,根据目标网页对应的目标网站的标识,在待更新数据库中确定与目标网站对应的数据表失败的情况下,可在待更新数据库中创建目标网站对应的数据表。成功创建目标网站对应的数据表之后,执行生成目标网页对应的索引标识(S104)的步骤。
[0088]S103:根据目标网页在目标网站中的标识,判断目标网站对应的数据表中是否存在目标网页对应的数据记录,若不存在,执行S104,否则,执行S106。
[0089]其中,数据记录中可以包括:目标网页在目标网站中的标识和目标网页对应的索引标识,当然,本申请中并不限定数据记录中所包括的信息。
[0090]在用户根据搜索引擎提供的搜索结果浏览网页时,搜索引擎可根据用户要浏览的网页对应的索引标识向浏览器提供该网页的网址信息。
[0091]例如:用户通过搜索引擎搜索“网络爬虫”时,该搜索引擎可向用户提供多条与“网络爬虫”相关的网页摘要信息,其中,网页摘要信息中包含网页对应的索引标识,但是该索弓丨标识可向用户展示,也可以不向用户展示;当用户点击某一网页摘要信息时,网络引擎获得该网页对应的索引标识,并根据所获得的索引标识在相应的数据库中进行检索,获得该网页的网址信息,最后将该网页的网址信息发送给浏览器,使得浏览器根据该网页的网址信息向用户展示网页。
[0092]上述只是目标网页对应的索引标识的一种具体应用场景,本申请并不对此进行限定。
[0093]S104:生成目标网页对应的索引标识。
[0094]S105:在目标网站对应的数据表中增加目标网页对应的数据记录。
[0095]优选的,本发明的一种具体实现方式中,在生成目标网页对应的索引标识之后,还可以包括:向网络爬虫模块或者非待更新数据库发送所生成的索引标识。
[0096]实际应用中,用于向用户提供网页的网址信息的数据库可以与待更新数据库是同一个数据库,也可以不是同一个数据库,当不是同一个数据库时,生成目标网页对应的索引标识后,可
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1