搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法_5

文档序号:9818305阅读:来源:国知局
清理图片时长内被访问过的图片链接哈希值;
[0208]对比模块,用于将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
[0209]未访问图片删除模块,用于通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
[0210]综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
[0211]综上所述,本实施例提供的搜索结果页面的图片适应性处理的装置,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
[0212]实施例3
[0213]参见图3,本发明实施例提供了一种服务器,该服务器用于执行上述的搜索结果页面的图片适应性处理的方法,服务器包括:处理器300和接收器302;
[0214]接收器,用于接收搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
[0215]处理器,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;根据目标图片的链接信息,抓取目标图片;根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
[0216]相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源,为了节省服务器的存储资源,处理器300具体用于:
[0217]从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息;确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
[0218]综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
[0219]相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,处理器300还具体用于:
[0220]根据链接信息中携带的公钥,确定与公钥对应的私钥;通过确定的私钥对链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;当生成的签名验证信息与目标图片携带的数字签名相一致时,触发抓取模块抓取目标图片。
[0221]综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
[0222]相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,处理器300还具体用于:
[0223]根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作;如果否,则通过网络爬虫抓取目标图片。
[0224]综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
[0225]相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,处理器300还具体用于:
[0226]当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度;如果是,当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取。
[0227]综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
[0228]相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,处理器300还具体用于:
[0229]当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;将抓取到的目标图片发送到负载最小的存储服务器进行存储。
[0230]综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
[0231]后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,处理器300还具体用于:
[0232]获取网络爬虫抓取到的目标图片;对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
[0233]通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能降低了服务器资源的使用。
[0234]相关技术中,随着存储服务器集群中存储的目标图片越来越多,有些历史目标图片在很长时间内都没有被使用过,但仍然会占用大量的存储资源,为了提高存储资源的使用效率,处理器300还具体用于:
[0235]获取预设清理图片时长内被访问过的图片链接哈希值;将获取到的图片链接哈希值与过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;通过目标图片和对应图片链接哈希值的对应关系和未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
[0236]综上所述,定期获取访问日志中记录的图片链接哈希值,并根据获取到的图片链接哈希值确定出图片清理图片时长内未被访问过的图片,并对确定出的图片进行删除操作,从而定期清除不使用的图片,减少不必要的存储资源的浪费,提高存储资源的使用效率。
[0237]综上所述,本实施例提供的服务器,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
[0238]本发明实施例所提供的进行搜索结果页面的图片适应性处理的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0239]所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0240]在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0241]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1