搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法

文档序号:9818305阅读:168来源:国知局
搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法
【技术领域】
[0001]本发明涉及数据处理领域,具体而言,涉及一种搜索结果页面的图片适应性处理的方法、装置和服务器。
【背景技术】
[0002]目前,在用户通过搜索引擎搜索信息时,为了提升用户的搜索体验,增加用户点击率,搜索引擎在向用户返回搜索结果的同时会将与搜索结果相关的图片一并展示出来,这样可以让用户通过图片直接、快速地确定最想得到的搜索结果。
[0003]相关技术中,为了将搜索结果和相应图片一并展示出来,会通过人工预先根据需要展示给用户的网页中的图片尺寸设置网页爬虫可以抓取的图片尺寸,使得网页爬虫抓取对应图片尺寸的图片,并在抓取到图片后,使得搜索引擎根据得到的各搜索结果权重和规则进行各搜索结果和相应图片的展示。
[0004]在通过网页爬虫抓取图片时,图片的抓取策略比较单一,只能对预设尺寸的图片进行抓取,降低了图片的抓取效率,并在不同应用上展示搜索结果和相应图片时,只能以相同的图片尺寸进行图片展示,不能抓取适应不同应用的图片展示尺寸的图片并进行展示,降低了图片在不同应用上的展示效果。

【发明内容】

[0005]有鉴于此,本发明实施例的目的在于提供一种搜索结果页面的图片适应性处理的方法、装置和服务器,可以抓取适应不同应用的图片展示尺寸的图片并进行展示,提高了图片在在不同应用上的展示效果。
[0006]第一方面,本发明实施例提供了一种搜索结果页面的图片适应性处理的方法,包括:
[0007]获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
[0008]根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;
[0009]根据所述目标图片的链接信息,抓取所述目标图片;
[0010]根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
[0011]结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述搜索结果对应的目标图片,包括:
[0012]从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
[0013]确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
[0014]将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
[0015]结合第一方面和第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,在根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息之后,所述方法还包括:
[0016]根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
[0017]通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
[0018]当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,执行抓取所述目标图片步骤。
[0019]结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,根据目标图片的链接信息,抓取所述目标图片,包括:
[0020]根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
[0021 ] 如果否,则通过网络爬虫抓取所述目标图片。
[0022]结合第一方面和第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,根据目标图片的链接信息,抓取所述目标图片,包括:
[0023]当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
[0024]如果是,则当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
[0025]利用网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
[0026]结合第一方面,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,在根据目标图片的链接信息,抓取所述目标图片之后,所述方法还包括:
[0027]当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
[0028]根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
[0029]将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
[0030]结合第一方面的第五种可能的实现方式,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,当通过网络爬虫抓取到目标图片时,获取当前存储服务器集群中各个存储服务器的负载信息,包括:
[0031 ]获取所述网络爬虫抓取到的所述目标图片;
[0032]对抓取到的所述目标图片的图片地址进行哈希计算,得到图片链接哈希值;
[0033]生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
[0034]结合第一方面和第一方面的第六种可能的实现方式,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述方法还包括:
[0035]获取预设清理图片时长内被访问过的图片链接哈希值;
[0036]将获取到的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
[0037]通过所述目标图片和对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
[0038]第二方面,本发明实施例提供了一种搜索结果页面的图片适应性处理的装置,包括:
[0039]数据获取模块,用于获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
[0040]目标图片确定模块,用于根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息;
[0041 ]抓取模块,用于根据目标图片的链接信息,抓取所述目标图片;
[0042]缩略裁剪模块,用于根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
[0043]结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述目标图片确定模块,包括:
[0044]图片信息提取单元,用于从所述搜索结果的页面数据中提取各个图片的尺寸信息和所述图片在搜索结果页面的位置信息;
[0045]确定单元,用于确定所述图片尺寸信息符合预设尺寸范围且所述图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片;
[0046]图片过滤单元,用于将预设的过滤图片列表中未记录的所述待抓取图片确定为目标图片。
[0047]结合第二方面和第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述装置还包括:
[0048]私钥确定单元,用于根据所述链接信息中携带的公钥,确定与所述公钥对应的私钥;
[0049]加密单元,用于通过确定的所述私钥对所述链接信息中携带的所述目标图片的地址信息进行加密操作,生成签名验证信息;
[0050]执行单元,用于当生成的所述签名验证信息与所述目标图片携带的数字签名相一致时,触发抓取模块抓取所述目标图片。
[0051]结合第二方面,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述抓取模块,包括:
[0052]第一判断单元,用于根据目标图片的链接信息中携带的地址信息,判断在预设抓取时间长度内是否有相同的所述目标图片已经进行了抓取操作;
[0053]抓取单元,用于当第一判断单元得到的判断结果为否时,则通过网络爬虫抓取所述目标图片。
[0054]结合第二方面和第二方面的第三种可能的实现方式,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述抓取模块,还包括:
[0055]第二判断单元,用于当所述目标图片抓取失败时,判断距离最近一次抓取所述目标图片的时长是否达到预设时间长度;
[0056]代理获取单元,用于当第二判断单元得到的判断结果为是时,当抓取失败的所述目标图片的重复抓取次数未达到预设阈值时,从预设的代理标识列表中获取代理标识,代理标识用于指示代理服务器或者代理进程;
[0057]重抓单元,用于利用所述网络爬虫,通过获取到的代理标识对应的代理服务器或者代理进程,对抓取失败的所述目标图片进行重新抓取。
[0058]结合第二方面和第二方面,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述装置还包括:
[0059]负载信息获取模块,用于当通过网络爬虫抓取到所述目标图片时,获取当前各个存储服务器的负载信息;
[0060]存储服务器确定模块,用于根据所述各个存储服务器的负载信息,从所述各个存储服务器中确定出负载最小的存储服务器;
[0061 ]存储模块,用于将抓取到的所述目标图片发送到所述负载最小的存储服务器进行存储。
[0062]结合第二方面的第五种可能的实现方式,本发明实施例提供了上述第二方面的第六种可能的实现方式,其中,所述负载信息获取模块,包括:
[0063]图片获取单元,用于获取所述网络爬虫抓取到的所述目标图片;
[0064]计算单元,用于对抓取到的所述目标图片的图片地址进行哈希计
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1