搜索结果页面的图片适应性处理的方法、装置和服务器的制造方法_2

文档序号:9818305阅读:来源:国知局
算,得到图片链接哈希值;
[0065]存储单元,用于生成所述目标图片和对应图片链接哈希值的对应关系,并将生成的目标图片和对应图片链接哈希值的对应关系存储到过滤图片列表中。
[0066]结合第二方面和第二方面的第六种可能的实现方式,本发明实施例提供了上述第二方面的第七种可能的实现方式,其中,所述装置还包括:
[0067]图片哈希值获取模块,用于获取预设清理图片时长内被访问过的图片链接哈希值;
[0068]对比模块,用于将获取到的图片链接哈希值与所述过滤图片列表中记录的图片链接哈希值进行对比,得到预设清理图片时长内未被访问过的图片链接哈希值;
[0069]未访问图片删除模块,用于通过所述目标图片和对应图片链接哈希值的对应关系和所述未被访问过的图片链接哈希值,查找出预设清理图片时长内未被访问过的图片链接哈希值对应的图片进行删除。
[0070]第三方面,本发明实施例提供一种服务器,所述服务器包括:处理器和接收器;
[0071]所述接收器,用于接收搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的;
[0072]所述处理器,用于根据预设的抓取规则,从所述搜索结果的页面数据中确定与所述特定应用对应的目标图片,并获取所述目标图片的链接信息;根据所述目标图片的链接信息,抓取所述目标图片;根据所述目标图片的链接信息中记录的所述目标图片的缩略尺寸和图片剪裁方式,对所述目标图片进行缩略剪裁操作,得到与所述特定应用的页面显示相适应的缩略图。
[0073]本发明实施例提供的搜索结果页面的图片适应性处理的方法、装置和服务器,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
[0074]为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
【附图说明】
[0075]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0076]图1示出了本发明实施例1所提供的一种搜索结果页面的图片适应性处理的方法的流程图;
[0077]图2示出了本发明实施例2所提供的一种搜索结果页面的图片适应性处理的装置的结构示意图;
[0078]图3示出了本发明实施例3所提供的一种服务器的结构示意图。
【具体实施方式】
[0079]发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0080]考虑到相关技术中在通过网页爬虫抓取图片时,图片的抓取策略比较单一,只能对预设尺寸的图片进行抓取,降低了图片的抓取效率,并在不同应用上展示搜索结果和相应图片时,只能以相同的图片尺寸进行图片展示,不能抓取适应不同应用的图片展示尺寸的图片并进行展示,降低了图片在不同应用上的展示效果。基于此,本发明实施例提供了一种搜索结果页面的图片适应性处理的方法、装置和服务器,下面通过实施例进行描述。
[0081 ] 实施例1
[0082]本实施例提供了一种搜索结果页面的图片适应性处理的方法。本实施例的执行主体是后台服务器,特定应用安装在前端服务器上,当用户通过特定应用的搜索界面发起搜索请求后,前端服务器在得到搜索结果后,会将搜索结果的页面数据发送到后台服务器,由后台服务器根据搜索结果的页面数据进行图片抓取,并对抓取到的图片进行剪裁,得到与特定应用相适应的缩略图。
[0083]参见图1,本实施例提供了一种搜索结果页面的图片适应性处理的方法,包括以下步骤:
[0084]步骤100、获取搜索结果的页面数据,所述搜索结果的页面数据是根据用户在特定应用发出的搜索请求所获取的。
[0085]其中,特定应用,是指新闻、视频或者百科等设置有搜索引擎的应用,使得用户在使用这些特定应用时,可以通过这些特定应用设置的搜索引擎搜索用户自身比较感兴趣的内容。
[0086]搜索结果是前端服务器获取到用户通过特定应用的搜索引擎发出的搜索请求后,根据搜索请求查询到的搜索内容;通常情况下,搜索结果会以网页的形式表现出来。
[0087]此外,后台服务器除了通过相应的前端服务器获取搜索结果之外,还可以接收其他第三方服务器发送的搜索结果,或者由后台服务器自身直接搜索以获取搜索结果,这几种方式都可以使后台服务器得到根据用户在特定应用发出的搜索请求所获取的相应搜索结果的页面数据。
[0088]搜索结果的页面数据,包括但不限于:搜索结果的页面中所显示出来的文字、引用的网页的地址信息和引用的图片的地址信息、尺寸信息以及图片在搜索结果页面的位置信息。
[0089]后台服务器通过预设的接口接收不同特定应用的前端服务器发送的搜索结果的页面数据。
[0090]步骤102、根据预设的抓取规则,从搜索结果的页面数据中确定与特定应用对应的目标图片,并获取目标图片的链接信息。
[0091]其中,目标图片,就是对搜索结果的页面数据中显示的多张图片中通过设定的抓取规则筛选后,得到的可以直接表达出搜索结果内容的图片。目标图片的链接信息,至少包括目标图片的地址信息。
[0092]步骤104、根据目标图片的链接信息,抓取目标图片。
[0093]步骤106、根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式,对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图。
[0094]在步骤106中,对目标图片的缩略裁剪操作,包括:对图片进行缩略操作和剪裁操作。缩略操作是按照目标图片的链接信息中记录的目标图片的缩略尺寸将尺寸较大的目标图片缩略到指定的尺寸的操作,支持按长高比例缩略目标图片、按指定长度缩略目标图片、按指定高度缩略目标图片、按指定长度和高度等缩略方式;裁剪操作是按照目标图片的链接信息中记录的图片剪裁策略,对目标图片进行剪裁得到缩略图的操作,支持从左上角到右下角对目标图片进行剪裁的操作、从左下角到右上角对目标图片进行剪裁的操作、对目标图片进行中间裁剪等方案。
[0095]缩略和裁剪的操作根据用户所使用的该特定应用而确定,可以包括由不同的缩略操作和裁剪的操作组合形成,后台服务器根据特定应用指定的缩略和裁剪方式,对目标图片进行缩略和剪裁操作,得到与特定应用的页面显示相适应的缩略图。
[0096]综上所述,本实施例提供的搜索结果页面的图片适应性处理的方法,从接收到的搜索结果的页面数据中确定与特定应用对应的目标图片,并在抓取到目标图片后,根据目标图片的链接信息中记录的目标图片的缩略尺寸和图片剪裁方式对目标图片进行缩略剪裁操作,得到与特定应用的页面显示相适应的缩略图,与现有技术中只能抓取预设尺寸的图片的过程相比,可以抓取不同尺寸的图片,提高了图片的抓取效率;而且,可以在抓取到图片后根据不同应用的图片展示尺寸对图片进行处理得到图片的缩略图,提高了图片在不同应用上的展示效果。
[0097]相关技术中,不论图片是否与用户的搜索行为相关,网络爬虫均会直接根据设定的图片尺寸在网络上抓取符合图片尺寸的图片并存储到服务器中,这大大浪费了服务器的存储资源。为了节省服务器的存储资源,本发明实施例根据预设的抓取规则,从搜索结果的页面数据中确定与搜索结果对应的目标图片,其包括以下步骤I至步骤3:
[0098](I)从搜索结果的页面数据中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息。
[0099](2)确定图片尺寸信息符合预设尺寸范围且图片在搜索结果页面的位置信息在预设网页位置的图片为待抓取图片。
[0100](3)将预设的过滤图片列表中未记录的待抓取图片确定为目标图片。
[0101]预设网页位置,是指搜索结果的页面上的预设网页区域,是网页中显示正文部分的区域,在该预设网页区域内出现的图片说明是处于网页的正文部分的图片,而大部分网页中出现的广告图片、推广图片一般只会出现在搜索结果的页面两侧的非正文区域,所以通过选取处于网页的正文部分的图片作为待抓取图片,可以将搜索结果的页面中的广告图片、推广图片过滤掉,提高所选取的图片对搜索结果表达的准确性。
[0102]过滤图片列表预先设定在后台服务器中,存储有后台服务器获取到的所有目标图片与图片链接哈希值的对应关系。其中,图片链接哈希值是由目标图片的地址信息经过哈希计算后得到的,用于唯一标识被后台服务器处理过的图片。
[0103]在步骤I中,为了把搜索结果的页面数据中的一些明显代表不了搜索结果内容的图片过滤掉,比如包括标题图标、网站图标、按钮图标等图片。由于标题图标、网站图标、按钮图标等图片的尺寸只能在预定的尺寸内,而且也都会设定在网页的特定位置上,所以后台服务器从搜索结果的页面数据的文本信息中提取各个图片的尺寸信息和图片在搜索结果页面的位置信息,来对搜索结果的页面数据中标题图标、网站图标、按钮图标等图片进行过滤。
[0104]在步骤2中,根据提取的各个图片的尺寸信息和图片在搜索结果页面的位置信息,在过滤掉标题图标、网站图标、按钮图标等的图片中选取处于网页的正文部分、大小适合常规显示以及长宽比率协调的图片,作为待抓取图片。
[0105]通过获取到的图片尺寸信息与设定的大小适合常规显示以及长宽比率协调的图片尺寸进行对比,确定获取到的图片尺寸是否符合要求,从而对获取到的图片进行过滤。
[0106]由于一个图片链接仅能代表一个搜索结果,使
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1