搜索成套图像的方法和设备的制作方法

文档序号:6401142阅读:115来源:国知局
专利名称:搜索成套图像的方法和设备的制作方法
技术领域
本发明涉及图像搜索领域,更具体地讲,涉及一种搜索成套图像的方法和设备。
背景技术
图像的表意性要远好于文本,图像可以帮助人们更迅速、更直观的获取信息。随着信息社会的发展,人们对于网络的依存度越来越高,对于在网络上进行图像获取的需求也越来越大。在现有技术条件下,用户通常需要输入文本关键字来进行图像的搜索,搜索出来的结果通常都是离散的。然而,随着人们对于网络信息需要的增加以及信息分享的增强,网络上的图像很多作为套图集而成套地出现。例如,网络上的很多关于新闻事件、教程(例如,菜谱、软件使用教程等)、游记、写真等的图像都是成套出现的。此外,这些图集可能被别的网站转载、引用,在转载、引用时可能由于某些原因转得不完整,久而久之一套原本精心编辑的图集可能会变成一张张单独的图像,散落在互联网上,很多用户看到的只是其中的一两张,不连贯也不完整。因此,当用户拥有成套图像之一时,可能希望看到整套图像或者具有类似图像的整套图像。此外,网站也倾向于当用户在浏览某个图像时,将相应地套图提供给用户。此外,当用户在浏览某个套图集时,可能希望浏览相关联的其他套图集。因此,需要一种搜索成套图像的技术,以能够向用户提供套图集。

发明内容
本发明提供一种搜索成套图像的方法和设备,其能够根据输入的图像搜索出与该图像相关的套图集。本发明的一方面提供一种搜索成套图像的方法,包括:接收第一图像;获取第一图像的套图集关联信息;根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。可选地,获取第一图像的套图集关联信息的步骤包括:从预先获得的多个套图集中确定第一图像所在的套图集;获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。可选地,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤:根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类;根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。可选地,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤:根据预先获得的多个套图集的关键词来确定套图集之间的关联性;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。可选地,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,仅获取具有与第一图像形成连通的图像的套图集的信息。可选地,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,仅获取在确定的套图集之中的至少具有所述至少一个关键词之一的套图集的信息。可选地,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词,其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。可选地,所述方法还包括:从获取的至少一个套图集中筛选套图集的步骤:根据图像浏览历史记录,获取先前浏览的图像的关键词;根据浏览频率对从获取的关键词进行排序;从高到低选取预定数量的关键词;从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。可选地,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,根据套图集的质量对套图集进行排序。可选地,通过下述步骤预先获得多个套图集:抓取预定数量的网页;获取所述网页的至少一级深度的链接指向的第二图像;从第二图像之中选择面积大于预定阈值的第三图像;根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。可选地,获取所述网页的至少一级深度的链接指向的第二图像的步骤包括:获取所述网页中的图像作为第二图像;当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第二图像。可选地,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。可选地,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。面积波动率可表示为S,其中,S= (Imax-1min)/lave,Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。可选地,所述方法还包括:确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。根据本发明另一方面,提供一种搜索成套图像的设备,包括:接收单元,接收第一图像;信息获取单元,获取第一图像的套图集关联信息;套图集获取单元,根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。可选地,关联信息获取单元包括:套图集确定单元,从预先获得的多个套图集中确定第一图像所在的套图集;关联信息获取单元,获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。可选地,关联信息获取单元包括:聚类单元,根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类;第一关联性确定单元,根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通;第一关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。可选地,关联信息获取单元包括:第二关联性确定单元,根据预先获得的多个套图集的关键词来确定套图集之间的关联性;第二关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。可选地,当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,第一关联性提取单元仅获取具有与第一图像形成连通的图像的套图集的信息。可选地,当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,第二关联性提取单元仅获取在确定的套图集之中的具有所述至少一个关键词之一的套图集的信息。可选地,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词,其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。可选地,所述设备还包括:筛选单元,用于从获取的至少一个套图集中筛选套图集,所述筛选单元包括:历史关键词获取单元,根据图像浏览历史记录,获取先前浏览的图像的关键词;排序单兀,根据浏览频率对从获取的关键词进行排序;关键词选取单兀,从闻到低选取预定数量的关键词;套图集选择单元,从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。可选地,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,套图集获取单元根据套图集的质量对套图集进行排序。可选地,所述设备还包括:套图集搜索单元,用于预先获得多个套图集,其中,套图集搜索单元包括:网页抓取单元,抓取预定数量的网页;链接图像获取单元,获取所述网页的至少一级深度的链接指向的第二图像;第一图像筛选单元,从第二图像之中选择面积大于预定阈值的第三图像;分组单元,根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。
可选地,链接图像获取单元获取所述网页中的图像作为第二图像,当所述网页的至少一级深度的链接中存在表示翻页的链接时,链接图像获取单元获取表示翻页的链接所指向的网页中的图像作为第二图像。可选地,套图集搜索单元还包括第二图像筛选单元,从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。可选地,套图集搜索单元还包括第三图像筛选单元,从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。面积波动率可表示为S,其中,S= (Imax-1min)/lave,Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。可选地,所述设备或套图集搜索单元还包括:质量确定单元,确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。根据本发明的搜索成套图像的方法和设备,可以根据输入的图像来搜索与输入的图像相关联的成套图像。此外,当用户在使用图像浏览器或者网络浏览器浏览图像时,图像浏览器或者网络浏览器可以利用本发明的方法/或设备,根据用户当前浏览的图像向用户提供与该图像相关联的成套图像。此外,当用户在某个网站浏览图像时,该网站也可以利用本发明的方法/或设备,根据用户当前浏览的图像向用户提供与该图像相关联的成套图像。


通过下面结合附图进行的详细描述,本发明的上述和其它目的、特点和优点将会变得更加清楚,其中:图1示出根据本发明的搜索成套图像的方法的流程图。图2示出根据本发明的实施例的确定与第一图像所在的套图集存在关联的套图集的方法的流程图。图3示出根据本发明的另一实施例的确定与第一图像所在的套图集存在关联的套图集的方法的流程图。图4示出根据本发明的实施例的从获取的套图集中进一步筛选套图集的方法的流程图。图5示出根据本发明的实施例的获得多个套图集的方法的流程图。图6示出根据本发明的示例性实施例的搜索成套图像的设备的框图。图7示出根据本发明的实施例的信息获取单元的框图。图8示出根据本发明的实施例的关联信息获取单元的框图。图9示出根据本发明的另一实施例的关联信息获取单元的框图。图10示出根据本发明的实施例的筛选单元的框图。图11示出根据本发明的实施例的套图集搜索单元的框图。
具体实施例方式下面,将参照附图详细描述本发明的实施例。图1示出根据本发明的搜索成套图像的方法的流程图。如图1所示,在步骤101,接收用于搜索成套图像的图像(以下,称为,第一图像)。例如,可以由希望进行搜索成套图像的用户输入第一图像,或者用户当前正在浏览的图像(例如,独立的单张图像或当前浏览的套图集中的一张图像)也可以作为第一图像,从而可以通过本发明的搜索成套图像的方法自动为用户提供与当前浏览的图像相关的套图集。这里,一套成套图像称为套图集。应该理解,第一图像可以是网页上的图像或者本地的图像。或者说,第一图像可以是通过网络浏览器浏览的网络上的图像或者通过图像浏览器浏览的本地的图像。在步骤102,获取第一图像的套图集关联信息。套图关联信息表示与第一图像相关的套图集的信息。例如,套图集的信息可以是套图集中的图像的地址信息。在获取第一图像的套图集关联信息时,可首先从预先获得的多个套图集中确定第一图像所在的套图集。例如,可以通过第一图像的地址、属性信息或者图像对比分析等来确定第一图像所在的套图集。预先获得的多个套图集可以是预先从网络(例如,互联网)上抓取的套图集,并且可被存储在一个数据库中。此外,还可预先获取并存储不同的套图集之间的关联情况。或者,也可实时地获取不同的套图集之间的关联情况。随后,可获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。优选地,在用户正在浏览第一图像所在的套图集时,可获取确定的关联的套图集的信息,而不使用确定的第一图像所在的套图集的信息来再次提供第一图像所在的套图集。这可通过浏览历史记录和第一图像所在的网页的内容来确定。在步骤103,根据套图集关联信息获取至少一个套图集,从而搜索到与第一图像相关的套图集。应该理解,与第一图像相关的套图集中可以包括与第一图像完全相同的图像或者不包括与第一图像完全相同的图像。图2示出根据本发明的实施例的确定与第一图像所在的套图集存在关联的套图集的方法的流程图。可预先执行图2所示的方法或者在执行步骤102时执行图2所示的方法。在步骤201,根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类,这样相似的图像被聚为一类。可利用现有图像相似度算法通过提取图像特征来对图像进行聚类,对此将不再详述。在步骤202,根据聚类结果确定套图集之间的关联性。具体地说,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联。在本发明中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通。一个套图集中每个类所属的各个图像与另一套图集中相同类所属的各个图像分别形成连通。换句话说,任意两个套图集之间通过属于相同类的图像进行连通。例如,第一个套图集中具有2个属于第一类的图像,第二个套图集中具有I个属于第一类的图像,则可以形成2个连通。此外,如果第一个套图集中具有2个属于第二类的图像,第二个套图集中具有2个属于第二类的图像,则进一步形成4个连通。如果第一个套图集和第二个套图集之间没有另外的属于同一类的图像,则总共存在6个连通。在步骤203,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。由于在步骤202对多个套图集两两进行确定关联性,从而可以得到任意一个套图集所关联的所有套图集。优选地,在步骤102确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息的情况下,当在步骤203中获取的套图集之中存在具有与第一图像形成连通的图像的套图集时,可仅获取具有与第一图像形成连通的图像的套图集的信息,从而可仅提供具有与第一图像形成连通的图像的套图集作为搜索结果。图3示出根据本发明的另一实施例的确定与第一图像所在的套图集存在关联的套图集的方法的流程图。可预先执行图3所示的方法或者在执行步骤102时执行图3所示的方法。在步骤301,根据预先获得的多个套图集的关键词来确定套图集之间的关联性。具体地说,当任意两个套图集的关键词的重合数量大于预定阈值时,确定所述两个套图集存在关联。换句话说,两个套图集通过彼此之间重合的关键词相关联。此外,还可确定两个套图集之间重合的每个关键词(以下,称为关联关键词)属于这两个套图集中的哪些个套图集。一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通。一个套图集中每个关联关键词所属的各个图像与另一套图集中相同关联关键词所属的各个图像分别形成连通。例如,第一个套图集中具有2图像具有第一连通关键词,第二个套图集中具有I个图像具有第一连通关键词,则可以形成2个连通。此外,如果第一个套图集中具有2个图像具有第二连通关键词,第二个套图集中具有2个图像具有第二连通关键词,则进一步形成4个连通。如果第一个套图集和第二个套图集之间没有另外的连通关键词,则总共存在6个连通。在另一实施例中,当任意两个套图集的关键词的重合数量大于预定阈值时,并且当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联。在另一实施例中,仅当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联。可预先通过套图集中的图像的关键词来获得套图集的关键词。具体地说,在抓取套图集时,针对套图集中的每个图像的描述文本(例如,可以从图像所在的网页获得图像的描述文本)进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词。对于任意一个套图集,将在所述套图集的各个图像的关键词之中出现总次数排名靠前的预定数量的关键词作为该套图集的关键词。在步骤302,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。优选地,在步骤102确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息的情况下,当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,仅获取在步骤302中获取的套图集之中的至少具有所述至少一个关键词之一的套图集的信息,从而可仅提供至少具有所述至少一个关键词之一的套图集作为搜索结果。应该理解,可以通过图2和图3中的至少一个所示的方法来确定与第一图像所在的套图集存在关联的套图集。此外,图2的步骤201-202和/或图3的步骤301可形成单独的套图集关联性确定设备。返回图1,优选地,当在步骤103获取了多个套图集时,可进一步从获取的套图集中进一步筛选套图集;或者可根据图像的质量对套图集排序,根据排序设置套图集的搜索结果优先级。图4示出根据本发明的实施例的从获取的套图集中进一步筛选套图集的方法的流程图。在步骤401,根据图像浏览历史记录,获取先前浏览的图像的关键词。在步骤402,根据图像的浏览频率,对从获取的关键词进行排序。例如,如果一个关键词所属的图像(一个或多个)被浏览的次数之和越大,则该关键词的排序越高。在步骤403,根据排序从高到低选取预定数量的关键词。在步骤404,从在步骤103获取的套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。优选地,当在步骤404选择出多个套图集时,可根据套图集的质量对选择出的套图集进行排序。图5示出根据本发明的实施例的获得多个套图集的方法的流程图。在步骤501,抓取预定数量的网页。例如,通过对存储有从网络上抓取的网页的网页库中的网页进行一些筛选,或者收录一些特定网页,来获得预定数量的网页。在步骤502,针对每个网页,获取该网页的至少一级深度的链接指向的图像(以下,称为第二图像)。例如,网页的第一级深度的链接表示该网页上的链接,网页的第二级链接表示该网页上的链接指向的网页上的链接,以此类推。优选地,获取所述网页中的图像作为第二图像。此外,当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第二图像。可通过链接的描述文字(例如,上一页、下一页)等来确定该链接是否表示翻页。在步骤503,从第二图像之中选择面积(S卩,分辨率)大于预定阈值的图像(以下,称为第三图像)。这样,可以滤掉不重要的小图、边角图等。在步骤504,根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少
一个套图集。通常,成套图像的网址的大部分内容是相同的,仅在于编号的不同(例如,网址的最后一个层次分隔符“/”之前的内容相同,而之后的内容不同),因此可以将网址的构成特征相似的第三图像分为一组,作为一个套图集。在步骤505,从在步骤504获得的套图集之中剔除伪套图集。在一个实施例中,根据套图集的面积波动率来判断伪套图集。具体地说,保留面积波动率小于预定阈值的套图集,而丢弃作为伪套图集的面积波动率大于等于预定阈值的套图集。
面积波动率可被表示为S,S= (Imax-1min) /lave,(I)Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。步骤505是可选地,也可以不执行步骤505。此外,还可进一步结合或单独根据套图集中的图像的数量来判断伪套图集。此时,保留图像数量大于预定阈值的套图集,而丢弃作为伪套图集的图像数量小于等于预定阈值的套图集。在另一实施例中,图5所示的方法还可包括根据图像特征确定在步骤504或505获取的套图集的质量,对套图集的质量进行排序,并进一步优选质量高的套图集。可选择质量排序最靠前的一个或多个套图集。在本发明中,可根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。套图集的质量与上述因素的量值成正比。在一个示例中,可通过下面的等式(2)来表示套图集的质量f:
权利要求
1.一种搜索成套图像的方法,包括: 接收第一图像; 获取第一图像的套图集关联信息; 根据套图集关联信息获取至少一个套图集, 其中,套图关联信息表示与第一图像相关的套图集的信息。
2.根据权利要求1所述的方法,其中,获取第一图像的套图集关联信息的步骤包括: 从预先获得的多个套图集中确定第一图像所在的套图集; 获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。
3.根据权利要求2所述的方法,其中,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行下述步骤: 根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类; 根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通; 根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。
4.根据权利要求2或3所述的方法,其中,确定与第一图像所在的套图集存在关联的套图集的步骤包括预先或实时执行 下述步骤: 根据预先获得的多个套图集的关键词来确定套图集之间的关联性;根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集,其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套图集之间重合的关键词。
5.根据权利要求3所述的方法,其中,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,仅获取具有与第一图像形成连通的图像的套图集的信息。
6.根据权利要求4所述的方法,其中,获取与第一图像所在的套图集存在关联的套图集的步骤包括:当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,仅获取在确定的套图集之中的至少具有所述至少一个关键词之一的套图集的信肩、O
7.根据权利要求4所述的方法,其中,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词, 其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。
8.根据权利要求1所述的方法,还包括:从获取的至少一个套图集中筛选套图集的步骤: 根据图像浏览历史记录,获取先前浏览的图像的关键词;根据浏览频率对从获取的关键词进行排序; 从高到低选取预定数量的关键词; 从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。
9.根据权利要求8所述的方法,其中,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,根据套图集的质量对套图集进行排序。
10.根据权利要求2所述的方法,其中,通过下述步骤预先获得多个套图集: 抓取预定数量的网页; 获取所述网页的至少一级深度的链接指向的第二图像; 从第二图像之中选择面积大于预定阈值的第三图像; 根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。
11.根据权利要求10所述的方法,其中,获取所述网页的至少一级深度的链接指向的第二图像的步骤包括: 获取所述网页中的图像作为第二图像; 当所述网页的至少一级深度的链接中存在表示翻页的链接时,获取表示翻页的链接所指向的网页中的图像作为第二图像。
12.根据权利要求10所述的方法,其中,预先获得多个套图集的步骤还包括: 从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。
13.根据权利要求10或12所述的方法,预先获得多个套图集的步骤还包括:从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。
14.根据权利要求12所述的方法,其中,面积波动率表示为S, 其中,S = (Imax-1min)/lave, Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。
15.根据权利要求10所述的方法,还包括:确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。
16.一种搜索成套图像的设备,包括: 接收单元,接收第一图像; 信息获取单元,获取第一图像的套图集关联信息; 套图集获取单元,根据套图集关联信息获取至少一个套图集, 其中,套图关联信息表示与第一图像相关的套图集的信息。
17.根据权利要求16所述的设备,其中,关联信息获取单元包括: 套图集确定单元,从预先获得的多个套图集中确定第一图像所在的套图集; 关联信息获取单元,获取确定的第一图像所在的套图集的信息和/或确定与第一图像所在的套图集存在关联的套图集以获取所述关联的套图集的信息。
18.根据权利要求17所述的设备, 其中,关联信息获取单元包括: 聚类单元,根据图像特征基于图像相似度对预先获得的多个套图集中的图像进行聚类; 第一关联性确定单元,根据聚类结果确定套图集之间的关联性,其中,当任意两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中属于一个类的一个图像与另一套图集中属于所述一个类的一个图像形成一个连通; 第一关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集。
19.根据权利要求16或18所述的设备,其中,关联信息获取单元包括: 第二关联性确定单元,根据预先获得的多个套图集的关键词来确定套图集之间的关联性; 第二关联性提取单元,根据确定的套图集之间的关联性,获取与第一图像所在的套图集存在关联的套图集, 其中,当任意两个套图集的关键词的重合数量大于预定阈值时和/或当两个套图集之间的连通的数量大于预定阈值时,确定所述两个套图集存在关联,其中,一个套图集中具有一个关联关键词的一个图像与另一套图集中具有该关联关键词的一个图像形成一个连通,关联关键词表示两个套 图集之间重合的关键词。
20.根据权利要求18所述的设备,其中,当在确定的套图集之中存在具有与第一图像形成连通的图像的套图集时,第一关联性提取单元仅获取具有与第一图像形成连通的图像的套图集的信息。
21.根据权利要求19所述的设备,其中,当第一图像的关键词中的至少一个关键词作为第一图像所在的套图集的关键词时,第二关联性提取单元仅获取在确定的套图集之中的具有所述至少一个关键词之一的套图集的信息。
22.根据权利要求19所述的设备,其中,针对预先获得的多个套图集中的每个套图集中的每个图像的描述文本进行切词,从切出的词中选择在预定的词表中存在的词,以获得每个图像的关键词, 其中,对于任意一个套图集,将在所述套图集的图像的关键词之中出现次数排名靠前的预定数量的关键词作为该套图集的关键词。
23.根据权利要求16所述的设备,还包括:筛选单元,用于从获取的至少一个套图集中筛选套图集,所述筛选单元包括: 历史关键词获取单元,根据图像浏览历史记录,获取先前浏览的图像的关键词; 排序单元,根据浏览频率对从获取的关键词进行排序; 关键词选取单元,从高到低选取预定数量的关键词; 套图集选择单元,从获取的至少一个套图集中选择具有所述预定数量的关键词之中最多关键词的套图集。
24.根据权利要求23所述的设备,其中,当存在多个具有所述预定数量的关键词之中最多关键词的套图集时,套图集获取单元根据套图集的质量对套图集进行排序。
25.根据权利要求17所述的设备,还包括:套图集搜索单元,用于预先获得多个套图集,其中,套图集搜索单元包括: 网页抓取单元,抓取预定数量的网页; 链接图像获取单元,获取所述网页的至少一级深度的链接指向的第二图像;第一图像筛选单元,从第二图像之中选择面积大于预定阈值的第三图像; 分组单元,根据第三图像的网址的构成特征,对第三图像进行分组,以获得至少一个套图集。
26.根据权利要求25所述的设备,其中,链接图像获取单元获取所述网页中的图像作为第二图像, 当所述网页的至少一级深度的链接中存在表示翻页的链接时,链接图像获取单元获取表示翻页的链接所指向的网页中的图像作为第二图像。
27.根据权利要求26所述的设备,其中,套图集搜索单元还包括第二图像筛选单元,从获得的至少一个套图集中选择面积波动率小于预定阈值的套图集。
28.根据权利要求25或27所述的设备,其中,套图集搜索单元还包括第三图像筛选单元,从获得的至少一个套图集中选择图像数量大于预定阈值的套图集。
29.根据权利要求27所述的设备,其中,面积波动率表示为S, 其中,S = (Imax-1min)/lave, Imax表示套图集中的面积最大的图像的面积,Imin表示套图集中面积最小的图像的面积,Iave表示套图集中的图像的面积的均值。
30.根据权利要求16或25所述的设备,其中,所述设备或套图集搜索单元还包括:质量确定单元,确定获得的至少一个套图集的质量,其中,根据下述因素中的至少一个因素确定套图集的质量:套图集中的图像的质量、套图集中的图像的面积、套图集中的图像的数量、套图集中的图像的关键词与套图集的关键词的匹配程度、套图集中的图像在互联网上的引用数。
全文摘要
一种搜索成套图像的方法和设备。所述方法包括接收第一图像;获取第一图像的套图集关联信息;根据套图集关联信息获取至少一个套图集,其中,套图关联信息表示与第一图像相关的套图集的信息。根据本发明可以根据输入的图像来搜索与输入的图像相关联的成套图像。
文档编号G06F17/30GK103177110SQ20131010519
公开日2013年6月26日 申请日期2013年3月28日 优先权日2013年3月28日
发明者郭荣锋, 陶哲, 丁锐, 宁贵文 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1