搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法_3

文档序号:9818305阅读:来源:国知局
用历史上其他搜索结果的筛选的图片信息进行交叉过滤,保留下来没有被其他搜索结果选中的图片作为搜索结果的缩略图。所以,在步骤3中,将预设的过滤图片列表中未记录的待抓取图片确定为目标图片包括以下步骤3a至步骤3b:
[0107](3a)通过布隆过滤器算法,从预设的过滤图片列表中确定出未记录的待抓取图片;
[0108](3b)将过滤图片列表中未记录的待抓取图片确定为目标图片。
[0109]综上所述,在进行图片抓取之前,先从网页中提取图片的链接信息,然后根据图片的链接信息携带的图片尺寸信息和图片在搜索结果页面的位置信息,确定符合抓取要求的图片,最后通过布隆过滤器算法进行图片查重操作,将过滤图片列表中记录的图片过滤掉,并从通过查重操作后留下的图片中选择任意一张作为目标图片,从而在图片抓取之前,对图片进行过滤,只对符合过滤要求的图片进行抓取,从而节约了存储资源。
[0110]相关技术中,网络爬虫在进行图片抓取时,会消耗一定的服务器资源,当服务器同时接收到海量的搜索结果页面时,可能由于系统资源紧张而处理不过来,而且,网络爬虫在进行图片抓取时,可能会遭受网络黑客的攻击,所以,为了降低服务器进行图片抓取的处理量,同时提高网络爬虫进行图片抓取时的安全性,在根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息之后,该方法还包括以下步骤I至步骤3:
[0111](I)根据链接信息中携带的公钥,确定与公钥对应的私钥;
[0112](2)通过确定的私钥对的链接信息中携带的目标图片的地址信息进行加密操作,生成签名验证信息;
[0113](3)当生成的签名验证信息与目标图片携带的数字签名相一致时,执行抓取目标图片步骤。
[0114]以上实例中,在步骤I中目标图片的链接信息还包括:特定应用的数字签名和后台服务器向特定应用发送的公钥。
[0115]目标图片携带的数字签名的生成过程如下:特定应用在获取到用户触发的搜索行为后,会先通过搜索引擎得到搜索结果,然后对得到的搜索结果的网页进行处理,处理过程包括:在得到的搜索结果的网页上设置每张图片对应的数字签名,并将服务器预先分配的公钥设置在搜索结果的页面数据中,然后将处理后的搜索结果页面发送给后台服务器,使得后台服务器进行搜索结果的网页数据中目标图片的筛选和抓取。
[0116]搜索结果的网页上设置的每张图片对应的数字签名,是运行特定应用的前端服务器根据后台服务器分配的与公钥配对的私钥对搜索结果的网页中每张图片的地址信息进行加密后得到的。
[0117]综上所述,根据与目标图片的链接信息中携带的公钥对应的私钥,生成签名验证信息,并根据生成的签名验证信息对目标图片的数字签名进行验证,只有在验证通过时,才会通过网络爬虫抓取目标图片,从而可以大大降低网络爬虫抓取图片的数量,并且同时可以保证网络爬虫抓取图片时的安全性。
[0118]相关技术中,如果服务器在一段时间内收到多个针对同一个图片链接的抓取请求时,会根据抓取请求反复对该图片链接进行抓取,所以会在短时间内增加系统资源的消耗,所以,为了避免在短时间内对同一图片链接进行反复抓取,根据目标图片的链接信息,抓取目标图片,包括以下步骤I至步骤3:
[0119](I)根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的目标图片已经进行了抓取操作,如果是则执行步骤2,如果否则执行步骤3;
[0120](2)不执行目标图片的抓取操作;
[0121](3)通过网络爬虫抓取目标图片。
[0122]在上述步骤中,后台服务器会将需要网络爬虫抓取的目标图片的地址信息存储在预设的链接消息中间件中,使得网络爬虫根据链接消息中间件中记录的目标图片的地址信息顺序,逐一进行目标图片的抓取,并在开始某一目标图片抓取时,记录该目标图片的最近一次的抓取时间和已抓取次数。
[0123]所以步骤I包括以下步骤Ia至步骤Ic:
[0124](Ia)获取链接消息中间件中记录的目标图片的地址信息;
[0125](Ib)查询链接消息中间件中记录的目标图片的地址信息中是否具有当前待抓取的目标图片的链接信息中携带的地址信息,如果具有则执行步骤lc,如果否则执行步骤2;
[0126](Ic)判断距离上次抓取该目标图片的时间长度是否达到预设抓取时间长度,如果是则执行步骤2,如果否则执行步骤3。
[0127]综上所述,在进行图片获取之前,先判断在预设抓取时间长度内是否有相同的目标图片已经通过网络爬虫进行了抓取,如果是,则不执行本次的抓取请求,从而减少了网络爬虫的抓取次数,避免了在短时间内对同一图片链接进行反复抓取造成系统资源消耗较大的缺陷。
[0128]在抓取目标图片后,判断目标图片是否抓取成功,如果抓取失败,则执行下述的对抓取失败的目标图片进行重复抓取的流程,如果抓取成功,则执行下述的目标图片存储的流程。
[0129]相关技术中,在网络爬虫根据某个图片的图片地址抓取不到相应的目标图片时,服务器会反复请求网络爬虫通过图片地址抓取目标图片,从而会增大服务器的系统开销,进一步降低服务器的处理效率,所以,为了保证服务器的处理效率,根据目标图片的链接信息,抓取目标图片,包括以下步骤I至步骤4:
[0130](I)当目标图片抓取失败时,判断距离最近一次抓取目标图片的时长是否达到预设时间长度,如果是至则执行步骤2,如果否则执行步骤4;
[0131](2)当抓取失败的目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
[0132](3)利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片进行重新抓取;
[0133](4)不执行对抓取失败的目标图片进行重新抓取的操作。
[0134]在步骤3中,后台服务器控制网络爬虫通过代理标识对应的代理服务器或者代理进程,对抓取失败的目标图片的地址信息进行访问,以对抓取失败的目标图片进行重新抓取。
[0135]综上所述,只有在距离最近一次抓取失败的目标图片的时长达到预设时间长度时,才会对抓取失败的目标图片进行重新抓取,而不会反复请求网络爬虫通过图片地址抓取目标图片,进一步避免了增大服务器的系统开销,保证了服务器的处理效率,而且,通过代理服务器或者代理进程对抓取失败的目标图片进行重新抓取,可以提高抓取图片的成功率。
[0136]相关技术中,在通过网络爬虫获取到目标图片后,会随机将获取的目标图片存储到存储服务器集群中的任意服务器中,所以会造成存储服务器集群中各个存储服务器中存储的目标图片不均衡,所以,为了尽可能使存储服务器集群中各个存储服务器中存储数据尽可能均衡,在根据目标图片的链接信息,抓取目标图片之后,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤I至步骤3:
[0137](I)当通过网络爬虫抓取到目标图片时,获取当前各个存储服务器的负载信息;
[0138](2)根据各个存储服务器的负载信息,从各个存储服务器中确定出负载最小的存储服务器;
[0139](3)将抓取到的目标图片发送到负载最小的存储服务器进行存储。
[0140]负载信息,包括:存储服务器当前的存储空间使用百分比以及中央处理器、内存等系统资源当前使用百分比。存储服务器会实时收集自身的资源使用情况,并发送给后台服务器,后台服务器在接收到存储服务器发送的资源使用情况后,会将各个存储服务器发送的资源使用情况记录在预设的负载信息列表中。
[0141]在步骤I中,后台服务器从负载信息列表中获取当前各个存储服务器的负载信息。
[0142]可选地,服务器也可以在不自行接收存储服务器发送的资源使用情况下,在得到当前存储服务器的负载信息时,可以在抓取目标图片之前,通过对得到的目标图片的地址信息进行哈希计算后得到的哈希值进行负载信息计算,得出负载信息,从而能够提前预知到各个服务器的负载情况。
[0143]步骤2包括以下步骤2a至2b:
[0144](2a)根据各个存储服务器的负载信息中记录的存储空间使用百分比,确定出存储空间使用百分比最小的存储服务器,作为负载最小的存储服务器;
[0145](2b)当有至少两个存储服务器的存储空间使用百分比最小且相同时,从该至少两个存储服务器中确定系统资源当前使用百分比最小的存储服务器,作为负载最小的存储服务器。
[0146]综上所述,通过根据当前存储服务器集群中各个存储服务器的负载信息,确定出各个存储服务器中负载最小的存储服务器,并将将抓取到的目标图片存储到负载最小的存储服务器中,从而保证了存储服务器集群中各个存储服务器中存储数据尽可能均衡,避免负载不均衡情况的出现。
[0147]后台服务器为了对存储服务器中存储的图片进行管理,所以需要对存储的图片的信息进行统计和记录,所以,当通过网络爬虫抓取到目标图片时,获取当前存储服务器集群中各个存储服务器的负载信息,包括以下步骤I至步骤3:
[0148](I)获取网络爬虫抓取到的目标图片;
[0149](2)对抓取到的目标图片的图片地址进行哈希计算,得到图片链接哈希值;
[0150](3)生成目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
[0151]通过以上描述可以看出,对抓取到目标图片的图片地址进行哈希计算,并生成目标图片和对应图片链接哈希值的对应关系存储在过滤图片列表中,可以通过服务器可以对存储服务器集群中各个存储服务器存储的目标图片进行管理的同时,尽可能减少图片对服务器资源的占用,提高服务器资源的使用效率。
[0152]在得到缩略图之后,本实例提出的搜索结果页面的图片适应性处理的方法还包括以下步骤I至步骤2:
[0153](I)将得到的缩略图返回运行特定应用的前端服务器,使得特定应用将缩约图和搜索结果页面展示给用户,并将缩略图对应图片的图片链接哈希值记录到预设的访问日志中,表示该图片链接哈希值对应的缩略图被用户访问过;
[0154](2)将得到的缩略图缓存到预设的图片缓存
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1