一种数据库更新方法及装置的制造方法

文档序号:9708336阅读:164来源:国知局
一种数据库更新方法及装置的制造方法
【技术领域】
[0001]本发明涉及软件技术领域,特别涉及一种数据库更新方法及装置。
【背景技术】
[0002]随着互联网技术的快速发展,互联网上的信息越来越丰富,因此,越来越多的用户通过搜索引擎搜索所需要的信息。
[0003]各个搜索引擎一般通过网络爬虫获得目标网页的网页信息,并将所获得的网页信息更新至相应的数据库中,以为用户提供更全面的搜索信息。其中,网络爬虫,是指能够按照一定的规则,自动抓取网络信息的程序或者脚本。
[0004]现有技术中,搜索引擎在相应数据库中更新蜘蛛程序获得的目标网页的网页信息时,一般先根据目标网页的网址信息等判断数据库中是否存在与该目标网页相对应的数据记录,若不存在,在已存储的最后一条数据记录之后增加目标网页对应的数据记录,其中,各条数据记录一般存储在数据库的一个数据表中。
[0005]当数据库中信息较少时,应用上述方式能够快速实现数据库更新,然而,随着蜘蛛程序所获得网页的网页信息越来越多,数据库所包含的数据记录也越来越多,因此,每次更新数据库时,判断数据库中是否存在某一网页对应的数据记录需要的时间越来越长,进而每次更新数据库的速度变慢。

【发明内容】

[0006]本发明实施例公开了一种数据库更新方法及装置,以提高更新数据库的速度。
[0007]为达到上述目的,本发明实施例公开了一种数据库更新方法,所述方法包括:
[0008]获得目标网页的网页参数,其中,所述网页参数中包括:所述目标网页对应的目标网站的标识和所述目标网页在所述目标网站中的标识;
[0009]根据所述目标网页对应的目标网站的标识,在待更新数据库中确定与所述目标网站对应的数据表,其中,所述待更新数据库中所包含数据表的数量>1;
[0010]根据所述目标网页在所述目标网站中的标识,判断所述目标网站对应的数据表中是否存在所述目标网页对应的数据记录,其中,所述数据记录中包括:所述目标网页在所述目标网站中的标识和所述目标网页对应的索引标识;
[0011]若不存在,生成所述目标网页对应的索引标识;在所述目标网站对应的数据表中增加所述目标网页对应的数据记录。
[0012]可选的,在所述生成所述目标网页对应的索引标识之前,还包括:
[0013]将索引标识生成标记位设置为锁定状态,其中,当所述索引标识生成标记位为锁定状态时,表示当前只能计算所述目标网页对应的索引标识;
[0014]根据所述目标网页在所述目标网站中的标识,判断所述目标网站对应的数据表中是否存在所述目标网页对应的数据记录;
[0015]若不存在,则执行所述生成所述目标网页对应的索引标识的步骤;
[0016]在所述生成所述目标网页对应的索引标识之后,还包括:
[0017]将索引标识生成标记位设置为解锁状态,其中,当所述索引标识生成标记位为解锁状态时,表示能够开始计算除了所述目标网页之外的其他网页对应的索引标识。
[0018]可选的,所述生成所述目标网页对应的索引标识,包括:
[0019]获得所述待更新数据库中已存储的数据记录对应的索引标识的最大值Value_SIDmax ;
[0020]计算Value_SIDmax除以预设的第一阈值的余数R ;
[0021]判断余数R是否小于预设的第二阈值;
[0022]若为是,则计算得所述目标网页对应的索引标识=R+预设的第二阈值;
[0023]否则,计算得所述目标网页对应的索引标识=R+预设的第三阈值。
[0024]可选的,所述获得所述待更新数据库中已存储的数据记录对应的索引标识的最大值 Value_SID_,包括:
[0025]根据本地存储的索引标识值Value_SID_L,获得所述待更新数据库中已存储的数据记录对应的索引标识的最大值Value_SID_ ;
[0026]其中,在启动所述待更新数据库对应的更新程序之后,将本地存储的Value_SID_L设置为:Value_SID_D_值,Value_SID_Dnax为所述待更新数据库中存储的所述待更新数据库中已存储的数据记录对应的索引标识的最大值;
[0027]在所述将本地存储的Value_SID_L设置为:Value_SID_D_值之后,还包括:
[0028]将Value_SID_D_更新为:当前Value_SID_D_+预设的第四阈值;
[0029]在计算得到所述目标网页对应的索引标识之后,还包括:
[0030]将Value_SID_L值更新为所述目标网页对应的索引标识;
[0031]判断所述目标网页对应的索引标识是否大于Value_SID_D_ ;
[0032]若为是,则将Value_SID_D_更新为:当前Value_SID_D_+预设的第四阈值;
[0033]在结束所述待更新数据库对应的更新程序之后,还包括:
[0034]将Value_SID_Dnax 更新为:Value_SID_Dnax = Value_SID_L。
[0035]可选的,在所述生成所述目标网页对应的索引标识之后,还包括:
[0036]向网络爬虫模块或者非所述待更新数据库发送所生成的索引标识。
[0037]为达到上述目的,本发明实施例公开了一种数据库更新装置,所述装置包括:
[0038]网页参数获得模块,用于获得目标网页的网页参数,其中,所述网页参数中包括:所述目标网页对应的目标网站的标识和所述目标网页在所述目标网站中的标识;
[0039]数据表确定模块,用于根据所述目标网页对应的目标网站的标识,在待更新数据库中确定与所述目标网站对应的数据表,其中,所述待更新数据库中所包含数据表的数量> 1 ;
[0040]第一数据记录判断模块,用于根据所述目标网页在所述目标网站中的标识,判断所述目标网站对应的数据表中是否存在所述目标网页对应的数据记录,其中,所述数据记录中包括:所述目标网页在所述目标网站中的标识和所述目标网页对应的索引标识;
[0041]索引标识生成模块,用于在所述第一数据记录判断模块的判断结果为否的情况下,生成所述目标网页对应的索引标识;
[0042]数据记录增加模块,用于在所述索引标识生成模块生成索引标识后,在所述目标网站对应的数据表中增加所述目标网页对应的数据记录。
[0043]可选的,所述数据库更新装置还包括:
[0044]锁定状态设置模块,用于将索引标识生成标记位设置为锁定状态,其中,当所述索引标识生成标记位为锁定状态时,表示当前只能计算所述目标网页对应的索引标识;
[0045]第二数据记录判断模块,用于根据所述目标网页在所述目标网站中的标识,判断所述目标网站对应的数据表中是否存在所述目标网页对应的数据记录,若不存在,则触发所述索引标识生成模块生成索引标识;
[0046]解锁状态设置模块,用于在所述索引标识生成模块生成索引标识后,将索引标识生成标记位设置为解锁状态,其中,当所述索引标识生成标记位为解锁状态时,表示能够开始计算除了所述目标网页之外的其他网页对应的索引标识。
[0047]可选的,所述索引标识生成模块,包括:
[0048]索引标识最大值获得子模块,用于获得所述待更新数据库中已存储的数据记录对应的索引标识的最大值Value_SID_ ;
[0049]余数计算子模块,用于计算Value_SID_除以预设的第一阈值的余数R ;
[0050]余数判断子模块,用于判断余数R是否小于预设的第二阈值;
[0051]第一索引标识计算子模块,用于在所述余数判断子模块的判断结果为是的情况下,计算得所述目标网页对应的索引标识=R+预设的第二阈值;
[0052]第二索引标识计算子模块,用于在所述余数判断子模块的判断结果为否的情况下,计算得所述目标网页对应的索引标识=R+预设的第三阈值。
[0053]可选的,所述索引标识最大值获得子模块,具体用于根据本地存储的索引标识值Value_SID_L,获得所述待更新数据库中已存储的数据记录对应的索引标识的最大值Value_SIDnax ;
[0054]所述数据库更新装置还包括:<
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1