搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法_4

文档序号:9818305阅读:来源:国知局
区域中。
[0155]在步骤I中,接收前端服务器发送的搜索结果的页面数据并将缩略图返回运行特定应用的前端服务器,使用的是阿里巴巴集团事件驱动网络库实现。
[0156]在步骤2中,通过将得到的缩略图缓存到预设的图片缓存区域中,可以使用户再次访问该缩略图时,加快用户的访问速度,提高用户体验。
[0157]相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤I至步骤4:
[0158](I)获取预设清理图片时长内被访问过的图片链接哈希值;
[0159](2)将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内过滤图片列表中未被访问过的图片链接哈希值;
[0160](3)通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
[0161]在步骤I中,后台服务器从预设的访问日志中获取预设清理图片时长内被访问过的图片链接哈希值。
[0162]步骤2包括以下步骤2a至步骤2b:
[0163](2a)获取过滤图片列表中记录的目标图片和对应图片链接哈希值的对应关系;
[0164](2b)将获取到的图片链接哈希值与目标图片和对应图片链接哈希值的对应关系中记录的图片链接哈希值进行对比,得到预设清理图片时长内过滤图片列表中未被访问过的图片链接哈希值。
[0?05]在步骤3中,可以采用映射规约(map-reduce)的方式并行对清理图片时长内未被访问过的图片进行删除操作,包括以下步骤3a至步骤3d:
[0166](3a)按照指定的哈希值范围和多个并发作业线程的对应关系,启动多个并发作业线程,每个并发作业线程读取过滤图片列表内对应哈希值范围内的图片;
[0167](3b)启动多个并发作业实例,从日志系统中读取清理图片时长内的访问日志,按照映射规约(map-reduce)方式,输出对应哈希值范围的过滤图片列表;
[0168](3c)按照哈希值指定范围,启动多个并发作业线程,对过滤图片列表和访问日志中记录的图片链接哈希值进行并行差集计算;
[0169](3d)按照哈希值指定范围,启动多个并发作业线程,对存储服务器中存储的清理图片时长内未被访问过的图片并行执行删除操作。
[0170]综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
[0171]实施例2
[0172]参见图2,本实施例提供了一种搜索结果页面的图片适应性处理的装置,用于执行上述实施例1提供的搜索结果页面图片适应性处理的方法,包括:
[0173]数据获取模块200,用于获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的。
[0174]目标图片确定模块202,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;
[0175]抓取模块204,用于根据目标图片的链接信息,抓取目标图片;
[0176]缩略裁剪模块206,用于根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
[0177]相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源,为了节省服务器的存储资源,目标图片确定模块202,包括:
[0178]图片信息提取单元,用于从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息;
[0179]确定单元,用于确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
[0180]图片过滤单元,用于将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
[0181]综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
[0182]相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,该装置还包括:
[0183]私钥确定单元,用于根据链接信息中携带的公钥,确定与公钥对应的私钥;
[0184]加密单元,用于通过确定的私钥对链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;
[0185]执行单元,用于当生成的签名验证信息与目标图片携带的数字签名相一致时,触发抓取模块抓取目标图片。
[0186]综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
[0187]相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,抓取模块204,包括:
[0188]第一判断单元,用于根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作;
[0189]抓取单元,用于当第一判断单元得到的判断结果为否时,则通过网络爬虫抓取目标图片。
[0190]综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
[0191]相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,抓取模块204,还包括:
[0192]第二判断单元,用于当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度;
[0193]代理获取单元,用于当第二判断单元得到的判断结果为是时,当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
[0194]重抓单元,用于利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取。
[0195]综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
[0196]相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,该装置还包括:
[0197]负载信息获取模块,用于当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;
[0198]存储服务器确定模块,用于根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;
[0199]存储模块,用于将抓取到的目标图片发送到负载最小的存储服务器进行存储。
[0200]综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
[0201]后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,负载信息获取模块,包括:
[0202]图片获取单元,用于获取网络爬虫抓取到的目标图片;
[0203]计算单元,用于对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;
[0204]存储单元,用于生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
[0205]通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能降低了服务器资源的使用。
[0206]相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,该装置还包括:
[0207]图片哈希值获取模块,用于获取预设
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1