抓取目标图片的方法及装置的制造方法

文档序号:9687554阅读:218来源:国知局
抓取目标图片的方法及装置的制造方法
【技术领域】
[0001]本发明涉及网络技术领域,尤其涉及一种抓取目标图片的方法及装置。
【背景技术】
[0002]随着互联网技术的发展,人们已经习惯于通过互联网获取想要查找的信息,这些信息不仅包括文本信息,还包括图片,图片信息为用户直观地描述了用户所关注对象的特征,这在一些平台类型的网站十分常见。例如,电子商务平台不仅通过文字,还通过图片对商品进行描述,从而使用户在浏览文本信息与图片信息后做出进一步的决策。为了满足用户浏览到图片信息的需求,网页内容提供方需要提供相应的图片。网页内容提供方可以在本地网站服务器存储图片信息,也可以从其他站点资源抓取图片存储至本地服务器,再向用户展示相应的图片信息。在实际应用中,通过从其他站点资源抓取图片是网页内容提供方向用户提供展示图片的一种常用手段。
[0003]但是,目前从其他站点资源抓取图片的现有技术存在系统资源浪费的问题,这主要表现为网络资源和存储资源的浪费。

【发明内容】

[0004]本发明解决的技术问题是在从其他站点资源抓取图片时,节省抓取图片的系统资源。
[0005]为解决上述问题,本发明提供一种抓取目标图片的方法,包括:
[0006]当用户在客户端打开图片显示页访问本地目标图片时,若根据所述目标图片的加载链接包含的本地图片路径无法加载所述目标图片,则获取错误资源参数;
[0007]参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址;其中,所述图片源地址表存储了所述错误资源参数以及对应的所述目标图片的源地址;
[0008]根据所述目标图片的源地址从目标站点服务器下载所述目标图片,并按所述本地图片路径存储当前下载的目标图片。
[0009]可选地,所述获取错误资源参数,包括:
[0010]配置所述目标图片的http404错误页信息以获取所述错误资源参数。
[0011 ]可选地,所述图片源地址表通过以下方式获得:
[0012]从目标站点服务器返回的页面信息中提取所述目标图片的源地址;
[0013]预设所述目标图片的本地图片路径;
[0014]建立所述错误资源参数,以及所述错误资源参数与所述目标图片的源地址的对应关系,形成所述图片源地址表。
[0015]可选地,所述错误资源参数包括所述目标图片的标识码。
[0016]可选地,所述参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址,包括:
[0017]根据所述目标图片的标识码从所述图片源地址表中查找对应的所述目标图片的源地址。
[0018]本发明实施例还提供一种抓取目标图片的装置,包括:
[0019]错误资源参数获取单元,适于当用户在客户端打开图片显示页访问本地目标图片时,若根据所述目标图片的加载链接包含的本地图片路径无法加载所述目标图片,则获取错误资源参数;
[0020]源地址获取单元,适于参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址;其中,所述图片源地址表存储了所述错误资源参数以及对应的所述目标图片的源地址;
[0021 ]目标图片下载单元,适于根据所述目标图片的源地址从目标站点服务器下载所述目标图片,并按所述本地图片路径存储当前下载的目标图片。
[0022]可选地,所述错误资源参数获取单元,适于当用户在客户端打开图片显示页访问本地目标图片时,若根据所述目标图片的加载链接包含的本地图片路径无法加载所述目标图片,配置所述目标图片的http 404错误页信息以获取错误资源参数。
[0023]可选地,所述图片源地址表通过以下单元获得:
[0024]源地址解析单元,适于从目标站点服务器返回的页面信息中提取所述目标图片的源地址;
[0025]图片路径预设单元,适于预设所述目标图片的本地图片路径;
[0026]所述图片源地址表形成单元,适于建立所述错误资源参数,以及所述错误资源参数与所述目标图片的源地址的对应关系,形成所述图片源地址表。
[0027]可选地,所述错误资源参数包括所述目标图片的标识码。
[0028]可选地,所述源地址获取单元,适于根据所述目标图片的标识码从所述图片源地址表中查找对应的所述目标图片的源地址。
[0029]与现有技术相比,本发明实施例的技术方案具有以下有益效果:
[0030]本发明实施例的技术方案通过在用户访问目标图片时,如果根据图片加载链接中包含的图片路径加载图片失败,则获取错误资源参数,参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址,其中,所述错误资源参数与所述目标图片的源地址存在对应关系并存储于图片源地址表中,再根据所述源地址从目标站点服务器下载所述目标图片。由于本技术方案是在用户访问目标图片时才通过已获取的源地址从目标站点服务器下载所述目标图片,避免了不必要的抓取下载和重复抓取下载,从而可以节省网络资源和存储资源。
【附图说明】
[0031]图1是本发明实施例中的一种抓取目标图片的方法的流程图;
[0032]图2是一种使用本发明实施例中的抓取目标图片的方法向客户端加载目标图片的流程图;
[0033]图3是本发明实施例中的一种抓取目标图片的装置的结构示意图。
【具体实施方式】
[0034]如【背景技术】所言,目前从其他站点资源抓取图片的现有技术存在系统资源浪费的问题,这主要表现为网络资源和存储资源的浪费。
[0035]本申请的发明人经研究发现,一方面,在先抓取图片后又抓取文本信息,或仅需要抓取图片时,往往存在图片不必要抓取以及图片被重复抓取的问题。例如,系统抓取1000张商品图片,但仅仅有较小比例的商品图片被用户点击浏览,这样其余没有被抓取的图片实际上是没有必要抓取的,从而使得1000张图片中大部分图片的抓取浪费了资源,同时,系统抓取的1000张商品图片中还存在图片被重复抓取的情况。另一方面,如果先抓取信息后抓取图片时可以避免图片被重复抓取,但仍然存在上述图片不必要抓取的问题。
[0036]本发明实施例的技术方案通过在用户访问目标图片时,若根据图片加载链接中包含的图片路径加载图片失败,则获取错误资源参数,参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址,其中,所述错误资源参数及与之对应的所述目标图片的源地址存储于图片源地址表中,再根据所述源地址从目标站点服务器下载所述目标图片,从而避免不必要的抓取和重复抓取,进而能节省资源。
[0037]为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0038]图1是本发明实施例中的一种抓取目标图片的方法的流程图。参照图1,所述抓取目标图片的方法包括以下步骤:
[0039]步骤S101:当用户在客户端打开图片显示页访问本地目标图片时,若根据所述目标图片的加载链接包含的本地图片路径无法加载所述目标图片,则获取错误资源参数。
[0040]一般来说,为了能让客户端打开的某个页面显示图片,需在本地数据库中存储该图片,该图片的加载链接中包含了该图片的存储路径信息。
[0041]在具体实施中,访问目标图片是指打开的某个页面需要加载所述目标图片,图片的加载链接中包含了所述目标图片的本地图片路径,此时如果按照所述本地图片路径加载图片出错,说明在所述路径下不存在所述目标图片,则配置加载出错的所述目标图片的错误页信息以获取错误资源参数。
[0042]在具体实施中,所述获取错误资源参数可
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1