抓取目标图片的方法及装置的制造方法_2

文档序号:9687554阅读:来源:国知局
以是通过配置加载出错的所述目标图片的http(超文本传输协议,Hyper Text Transfer Protocol)404错误页信息来传递所述错误资源参数来获取。
[0043]所述错误资源参数一般包含了错误资源的路径信息,在具体实施中,可以在所述错误资源参数中加入其它信息如标识码。
[0044]步骤S102:参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址;其中,所述图片源地址表存储了所述错误资源参数以及对应的所述目标图片的源地址。
[0045]在具体实施中,所述目标图片的源地址为本站点之外的其他站点提供所述目标图片的地址。
[0046]具体实施中,所述图片源地址表存储了所述错误资源参数与所述目标图片的源地址,及两者的对应关系。因此通过步骤S101获得的所述错误资源参数可以在本步骤中获得所述目标图片的源地址。
[0047]具体实施中,所述图片源地址表可以通过以下方式获得:
[0048]从目标站点服务器返回的页面信息中提取所述目标图片的源地址;
[0049]建立所述错误资源参数,以及所述错误资源参数与所述目标图片的源地址的对应关系,形成所述图片源地址表。
[0050]具体实施中,所述从目标站点服务器返回的页面信息为基于客户端请求而反馈的网页内容对应的信息,其可以是html(Hyper Text Markup Language,超文本标记语言)文档中的信息。
[0051]具体地,可以在提取所述目标图片的源地址的同时,为所述目标图片设置本地图片路径,当加载图片出错时所述错误资源参数包含了错误资源路径即所述本地图片路径,此时可以通过在所述本地图片路径信息后增加目标图片的标识码以建立所述错误资源参数,并建立所述错误资源参数与所述目标图片的源地址的对应关系,以形成所述图片源地址表。
[0052]具体实施中,所述图片源地址表也可以是事先采取其他方式获得的包括错误资源参数与图片源地址,及其对应关系的表,以供配置404页面获得所述错误资源参数后,可以通过所述错误资源参数查询到所述图片源地址。
[0053]步骤S103:根据所述目标图片的源地址从目标站点服务器下载所述目标图片,并按所述本地图片路径存储当前下载的目标图片。
[0054]在具体实施中,根据所述目标图片的源地址从目标站点服务器下载所述目标图片,并按所述本地图片路径存储当前下载的目标图片,从而可以在用户再次访问该目标图片时,从本地加载所述目标图片,而不再需要从其他站点资源再次抓取该目标图片。
[0055]为使得本发明实施的技术方案更加清晰,下面以从其他站点服务器抓取房源图片为实例进行说明。
[0056]假设本站点资源为一个房屋交易平台,需要向用户提供关于特定房源的文字说明以及对应房屋图片,当用户打开介绍房源的页面时无疑需加载文字说明以及对应的房屋图片,在此以抓取其中一张目标图片1为例。
[0057]在本例中,所述图片源地址表中的一条信息可以通过以下方式获得:
[0058]通过爬虫从一房源平台的目标站点服务器返回的html页面信息中提取到所述目标图片1的源地址为:
[0059]"http: //a.pi cl.a jkimg.com/display/an juke/9 378ee-%E6 %99%AE%E6%
97%8C%E5%9C%B0%E4%BA%A7/d36193alba2a4860fe4dl70el48e9986-600x450.jpg";
[0060]为建立所述错误资源参数,在抓取所述目标图片1的源地址的同时为所述目标图片1预设本地图片路径为:72015/10/27/111.jpg”,并设置所述目标图片1的标识码为100,从而建立所述错误资源参数中所述标识码与所述目标图片1的源地址间的对应关系。
[0061]所述目标图片1的访问链接包含了上述预设的本地图片路径,例如当用户以访问链接"http://image.zamplus.com/2015/10/27/111_400_600.jpg?id = 100"访问该目标图片1时,若根据其中的本地图片路径“/2015/10/27/111.jpg”查找不到所述目标图片1,则配置所述目标图片的http 404错误页信息,后台请求了/404.php?url = 〃http://img/2015/10/27/111.jpg?id = 100”,从而获得所述错误资源参数中的目标图片1的标识码100。
[0062]获得所述标识码100后,根据所述图片源地址表中的标识码与所述目标图片1的源地址间的对应关系,得到所述目标图片1的源地址为:
[0063]"http: //a.pi cl.a jkimg.com/display/an juke/9 378ee-%E6 %99%AE%E6%97%8C%E5%9C%B0%E4%BA%A7/d36193alba2a4860fe4dl70el48e9986-600x450.jpg”。
[0064]接下来根据所述目标图片1的源地址从目标站点服务器下载所述目标图片1,并按所述本地图片路径“/2015/10/27/111.jpg”存储当前下载的目标图片1。
[0065]现有技术中,在抓取源地址的同时抓取所述目标图片,并未考虑用户实际访问图片的需要,而实际应用场景下用户访问的图片在预抓取的图片中仅占较小的比例,因此较大比例的图片实际并无必要预抓取,这造成了网络资源和存储资源的浪费。
[0066]相比之下,本发明实施例采用的技术方案在用户访问目标图片失败时获得所述目标图片的源地址,再通过已获取的源地址从目标站点服务器下载所述目标图片,因此本发明实施例采用的技术方案避免了图片的不必要抓取和重复抓取,从而节省了网络资源和存储资源。
[0067]图2是一种使用本发明实施例中的抓取目标图片的方法向客户端加载目标图片的流程图。参照图2所示,使用本发明实施例中的抓取目标图片的方法向客户端加载目标图片的流程如下:
[0068]步骤S201:用户在客户端打开图片显示页访问本地目标图片;
[0069]步骤S202:判断根据所述目标图片的加载链接包含的本地图片路径查找目标图片是否成功;如果判断结果为是,则执行步骤S209,否则执行步骤S203;
[0070]步骤S203:配置所述目标图片的http 404错误页信息以获取错误资源参数;
[0071]步骤S204:参照所述错误资源参数从图片源地址表中获得所述目标图片的源地址;其中,所述图片源地址表存储了所述错误资源参数以及对应的所述目标图片的源地址;
[0072]步骤S205:根据所述目标图片的源地址从目标站点服务器下载所述目标图片,并按所述本地图片路径存储当前下载的目标图片;
[0073]步骤S206:判断图片下载是否成功,如果判断结果为是则执行步骤S208,否则执行步骤S207;
[0074]步骤S207:根据当前页面位置加载替代图片于客户端的目标图片显示页;
[0075]步骤S208:处理当前下载的所述目标图片;
[0076]步骤S209:加载所述目标图片至客户端的目标图片显示页。
[0077]在本发明实施例中,用户根据访问链接包含的本地图片路径如果成功查找到所述目标图片,则加载所述目标图片至客户端的目标图片显示页,不再重复抓取。否则可以通过图1中实施例所述的步骤从目标站点进行目标图片的抓取,在此不再赘述。
[0078]在具体实施中,如果从目标站点下载目标图片失败,则需要根据当前页面位置加载替代图片于客
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1