一种实现图像搜索排序的方法和装置制造方法

文档序号:6546532阅读:190来源:国知局
一种实现图像搜索排序的方法和装置制造方法
【专利摘要】本发明公开了一种实现图像搜索排序的方法和装置;其中,所述方法包括:创建多个源图像对应的图像族;计算每个图像族的引用权值;根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数。采用本发明的方法和装置,可以获得更为优质准确的排序结果,并使图像排序结果存在引用次数上的优先级顺序,大大改善了搜索的准确性,并有效提高了搜索效率。
【专利说明】一种实现图像搜索排序的方法和装置
【技术领域】
[0001]本发明涉及图像数据处理的【技术领域】,具体涉及一种实现图像搜索排序的方法和
装直。
【背景技术】
[0002]随着互联网和多媒体技术的飞速发展,互联网上的资源也日益丰富,从网络上获取资源也变得越来越容易;搜索引擎即是一种在网络上应用的软件系统,其能以一定的方式在网络上实现信息的搜索和发现,并在对搜索到的信息进行处理后显示出搜索结果。
[0003]而目前,随着搜索引擎技术的日益成熟,能够提供给用户的搜索结果已经不再只是根据用户输入命令搜索到的文本信息搜索结果,还可以根据用户需求对网络图片进行搜索,并将搜索出的图片结果呈献给用户。
[0004]然而,在目前现有技术的图片搜索方案中,呈献给用户的搜索结果往往没有任何规律,而只是将所有可能相关的图片简单罗列,其图片的搜索结果中并没有任何优先级顺序,这就会使输出的图片搜索结果显示无序状态,进而大大降低了搜索的准确性,从而影响了搜索效率。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实现图像搜索排序的方法和相应的一种实现图像搜索排序的装置。
[0006]依据本发明的一个方面,提供了一种实现图像搜索排序的方法,包括:创建多个源图像对应的图像族;计算每个图像族的引用权值;根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数。
[0007]可选的,所述创建多个源图像对应的图像族包括:从资源站点抓取所述源图像对应的网页;通过解析所述网页页面获取所述源图像对应的多张图像;获取所述源图像对应的多张图像间的传播关系;利用所述多张图像间的传播关系建立多个图像族。
[0008]可选的,所述获取所述源图像对应的多张图像间的传播关系包括:通过所述网页页面解析获取网页统一资源定位符URL和多张图像URL的对应关系;如果多个网页URL与同一图像URL对应,则确定包含该图像的多个网页与所述图像为转载关系。
[0009]可选的,所述获取所述源图像对应的多张图像间的传播关系包括:计算通过解析网页页面获取的多张图像的信息摘要MD5值;如果多张图像的MD5值相同,则确定所述MD5相同的多张图像之间为复制关系。
[0010]可选的,所述获取所述源图像对应的多张图像间的传播关系包括:计算通过解析网页页面获取的多张图像的MD5值;如果多张图像的MD5值不同,则通过近似拷贝方式确定所述MD5值不同的多张图像间是否为修改关系。
[0011]可选的,所述计算每个图像族的引用权值包括:预设所述资源站点及不同传播关系的权值;利用同一图像族中所述资源站点及所述不同传播关系权值计算该图像族的引用权值。
[0012]根据本发明的另一方面,提供了一种实现图像搜索排序的装置,包括:创建单元,适于创建多个源图像对应的图像族;计算单元,适于计算每个图像族的引用权值;排序单元,适于根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数。
[0013]可选的,所述创建单元包括:抓取模块,适于从资源站点抓取所述源图像对应的网页;解析模块,适于通过解析所述抓取模块抓取的网页页面获取所述源图像对应的多张图像;获取模块,适于获取所述源图像对应的多张图像间的传播关系;建族模块,适于利用所述多张图像间的传播关系建立多个图像族。
[0014]可选的,所述获取模块还包括:第一处理模块,适于通过接收所述解析模块的解析结果,并根据所述解析结果获取网页统一资源定位符URL和图像URL的对应关系;第一比较模块,适于比较所述多个网页URL与多张图像URL的对应关系,并当所述多个网页URL与同一图像URL对应时,确定包含该图像的多个网页与所述图像为转载关系。
[0015]可选的,所述获取模块还包括:第二处理模块,适于计算所述解析模块解析出的多张图像的信息摘要MD5值;第二比较模块,适于比较所述多张图像的MD5值,并当多张图像的MD5值相同时,确定所述MD5相同的多张图像之间为复制关系。
[0016]可选的,所述获取模块还包括:第三处理模块,适于计算所述解析模块解析出的多张图像的信息摘要MD5值;第三比较模块,适于比较所述多张图像的MD5值,并当多张图像的MD5值不同时,通过近似拷贝方式确定所述MD5值不同的多张图像间是否为修改关系。
[0017]可选的,所述计算单元包括:设置模块,适于预设所述抓取模块抓取网页的资源站点及获取模块获取到的所述不同传播关系的权值;比配模块,适于利用同一图像族中所述资源站点及所述不同传播关系权值计算该图像族的引用权值。
[0018]本发明实施例通过创建多个源图像对应的图像族,并计算每个图像族的引用权值,然后再根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数,可以获得更为优质准确的排序结果,并使图像排序结果存在引用次数上的优先级顺序,大大改善了搜索的准确性,并有效提高了搜索效率。
[0019]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0020]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0021]图1示出了根据本发明一个实施例的一种实现图像搜索排序的方法步骤流程图;
[0022]图2示出了根据本发明一个实施例的另一种实现图像搜索排序的方法步骤流程图;
[0023]图3示出了根据本发明一个实施例的一种实现图像搜索排序的装置结构框图。【具体实施方式】[0024]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0025]参照图1,示出了根据本发明一个实施例的一种实现图像搜索排序的方法实施例1的步骤流程图,具体可以包括如下步骤:
[0026]步骤110:创建多个源图像对应的图像族;
[0027]需要说明的是,相同图像族就是指从人的视觉上看是一致的图像,这些图像是由一源图像修改而来的图像,由于图像族中的多个图像是由一源图像修改而来,因此一个图像族中的各图像应具有相同的源图像;基于此,在本实施例中提出可以通过步骤Slll:从资源站点抓取所述源图像对应的网页,通过解析所述网页页面获取所述源图像对应的多张图像;由于同一图像族中各图像来源于同一源图像,因此在获取到多张图像后,可以通过步骤S112:获取所述源图像对应的多张图像间的传播关系,并利用所述多张图像间的传播关系建立多个图像族。
[0028]当然,本领域普通技术人员很容易了解还可以通过其他方式来创建图像族,本实施例在此不再赘述。
[0029]值得注意的是,在本实施例中获取所述源图像对应的多张图像间的传播关系主要包括:转载、复制和修改,但并不局限于此,还可以有其他传播关系,本实例在此不再赘述;具体的,本实施例通过以下方式来获取所述传播关系:
[0030]A、从资源站点抓取所述源图像对应的网页后,通过对所述网页页面进行解析来获取网页URL和多张图像URL的对应关系;其中,如果多个网页URL与同一图像URL对应,则确定包含该图像的多个网页与所述图像为转载关系;或,
[0031]B、从资源站点抓取所述源图像对应的网页后,通过解析网页页面获取多张图像,计算所述多张图像的信息摘要MD5值,其中,如果多张图像的MD5值相同,则确定所述MD5相同的多张图像之间为复制关系;否则,判断多张图像之间是否为同一近似拷贝,如果是,则确定所述MD5值不同的多张图像间为修改关系。
[0032]步骤120:计算每个图像族的引用权值;
[0033]在实际应用中,不同的传播关系的价值是不同的,例如上述三种传播关系之间的价值大小可以为:修改 > 复制 > 转载;其中,修改需要耗费的工作量是大于简单的保存的,同样保存图片然后提供图片服务的代价是大于转载行为的;因此,此种代价意味着每张图像的价值不同,也就是每种传播关系的基础权值;而与此同时,经过分析可知,不同站点引用的图像的价值也是不同的,访问量大的站点其引用的图像价值较大,因此本实施例中设定了站点权值参数;具体的,本实施例提出通过以下方式计算每个图像族的引用权值,包括但不限于:
[0034]预设所述资源站点及不同传播关系的权值;其中,如果传播关系中包含转载、复制和修改,则三者之间的权值关系为修改 > 复制 > 转载,即设置所述传播关系中修改关系权值、复制关系权值及转载关系权值的大小依次递减;此处例举一种公式计算所述图像族的引用权值如下;
【权利要求】
1.一种实现图像搜索排序的方法,包括: 创建多个源图像对应的图像族; 计算每个图像族的引用权值; 根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数。
2.如权利要求1所述的方法,其特征在于,所述创建多个源图像对应的图像族包括: 从资源站点抓取所述源图像对应的网页; 通过解析所述网页页面获取所述源图像对应的多张图像; 获取所述源图像对应的多张图像间的传播关系; 利用所述多张图像间的传播关系建立多个图像族。
3.如权利要求1-2任一项所述的方法,其特征在于,所述获取所述源图像对应的多张图像间的传播关系包括: 通过所述网页页面解析获取网页统一资源定位符URL和多张图像URL的对应关系;如果多个网页URL与同一图像URL对应,则确定包含该图像的多个网页与所述图像为转载关系。
4.如权利要求1-3任一项所述的方法,其特征在于,所述获取所述源图像对应的多张图像间的传播关系包括 : 计算通过解析网页页面获取的多张图像的信息摘要MD5值; 如果多张图像的MD5值相同,则确定所述MD5相同的多张图像之间为复制关系。
5.如权利要求1-4任一项所述的方法,其特征在于,所述获取所述源图像对应的多张图像间的传播关系包括: 计算通过解析网页页面获取的多张图像的MD5值; 如果多张图像的MD5值不同,则通过近似拷贝方式确定所述MD5值不同的多张图像间是否为修改关系。
6.如权利要求1-5任一项所述的方法,其特征在于,所述计算每个图像族的引用权值包括: 预设所述资源站点及不同传播关系的权值; 利用同一图像族中所述资源站点及所述不同传播关系权值计算该图像族的引用权值。
7.一种实现图像搜索排序的装置,包括: 创建单元,适于创建多个源图像对应的图像族; 计算单元,适于计算每个图像族的引用权值; 排序单元,适于根据所述各图像族的引用权值的大小作为搜索查询反馈的搜索结果排序的参数。
8.如权利要求7所述的装置,其特征在于,所述创建单元包括: 抓取模块,适于从资源站点抓取所述源图像对应的网页; 解析模块,适于通过解析所述抓取模块抓取的网页页面获取所述源图像对应的多张图像; 获取模块,适于获取所述源图像对应的多张图像间的传播关系; 建族模块,适于利用所述多张图像间的传播关系建立多个图像族。
9.如权利要求7-8任一项所述的装置,其特征在于,所述获取模块还包括:第一处理模块,适于通过接收所述解析模块的解析结果,并根据所述解析结果获取网页统一资源定位符URL和图像URL的对应关系; 第一比较模块,适于比较所述多个网页URL与多张图像URL的对应关系,并当所述多个网页URL与同一图像URL对应时,确定包含该图像的多个网页与所述图像为转载关系。
10.如权利要求7-9任一项所述的装置,其特征在于,所述获取模块还包括: 第二处理模块,适于计算所述解析模块解析出的多张图像的信息摘要MD5值; 第二比较 模块,适于比较所述多张图像的MD5值,并当多张图像的MD5值相同时,确定所述MD5相同的多张图像之间为复制关系。
【文档编号】G06F17/30GK103995857SQ201410203700
【公开日】2014年8月20日 申请日期:2014年5月14日 优先权日:2014年5月14日
【发明者】陶哲 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1