判断图像主体显著性及训练其分类器的方法和系统的制作方法

文档序号：6490657阅读：131来源：国知局

判断图像主体显著性及训练其分类器的方法和系统的制作方法
【专利摘要】本申请公开了一种训练用于判断图像主体显著性的分类器的方法和系统、用于判断图像主体显著性的方法及系统以及利用视觉特征来搜索图像的方法，训练用于判断图像主体显著性的分类器的方法包括如下步骤：获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数；在多个尺度下对所述正样本和所述负样本进行视觉特征提取，所述视觉特征包括视觉显著度；以及利用所提取的视觉特征训练用于判断图像主体显著性的分类器。本申请可以快速准确地判断图像的主体是否具有显著性，从而利于图像的审核筛选、检索等。
【专利说明】判断图像主体显著性及训练其分类器的方法和系统
【技术领域】
[0001]本申请涉及图像内容分析及搜索领域，尤其涉及一种训练用于判断图像主体显著性的分类器的方法和系统、用于判断图像主体显著性的方法和系统、以及利用视觉特征来搜索图像的方法。
【背景技术】
[0002]随着信息技术的发展，人们的需求从简单的文本信息发展到了图像信息。鉴于人们对图像数据查询需求的日益增长，为了满足用户基于海量图像信息的检索需要，提升基于图像的互联网应用的使用体验，基于内容分析的图像检索技术成为当前图像检索的主流方向。在图像检索、主动视觉等图像信息处理任务中，需要在没有任何先验信息的情况下，建立对图像内容的描述与分析，由于没有明确的分析目的，传统的方法大都会对每幅图像均进行全面的处理。然而并不是所有图像都有全面分析的价值。对于一幅图像来说，重点表现的主体区域最能表现图像内容，含有的信息量也最大；而一幅图像中与主体无关的区域以及那些没有明确主体信息、内容散乱分布的图像则通常与用户需求相关性小得多。因此，对每幅图像均进行全面处理的方法不但增加了分析过程的复杂性，而且带来了不必要的计算浪费。
[0003]此外，对于目前网站上所使用的传统的只基于关键词的商品检索方式，返回的商品图像往往不能很好地满足用户的检索需要。例如，在检索时，如果多个物品杂乱分布的图片、只显示商品细节的图片以及分辨不清所要展示的目标商品的图片排在返回列表的前列，则用户往往需要更多的额外操作(如点击进入商品页面或更多的翻页次数)才能找到心仪的商品，继而达成最终的购买目的。这种情况产生的结果是，原本的潜在消费者极有可能因为糟糕的图片搜索体验而放弃本次购买。
[0004]另外，电子商务网站的卖家往往要上传大量图片用于商品展示，这些图片往往是潜在买家获取商品信息最主要的渠道，甚至很大程度上决定用户的最终购买行为，因此要求图片中所要展示的商品主体清晰、突出、易于辨认。然而，当前海量上传图片的审核完全是由人工完成的，存在效率低、耗时长、依赖于审核人的主观评价的缺点。
[0005]而且，对于一幅图像来说，用户只对图像中的部分区域感兴趣，这部分感兴趣的区域代表了用户的查询意图，而多数剩余的不感兴趣区域则与用户查询意图无关。主体所在区域是图像中最能引起用户兴趣、最能表现图像内容的区域，这些区域含有的信息量也最大，因而，包含显著性主体的图像研究价值往往更大。事实上，显著区域的选择是非常主观的，由于用户任务和知识背景的不同，对于同一幅图像，不同的用户可能会选择不同的区域作为显著区域。如果人工标记某幅图像是否属于主体视觉显著性强的图像，会耗费大量时间与人工成本，而且对人的主观判断依赖性强。

【发明内容】

[0006]针对上述现有技术存在的缺陷，本申请的目的是提供一种能快速并有效地审核图像是否具有主体显著性的判断图像主体显著性的方法和系统、训练用于判断图像主体显著性的方法和系统。
[0007]本申请的另一目的是提供一种用于判断图像主体显著性的方法和系统及训练用于判断图像主体显著性的方法和系统，其能改善商品搜索的用户体验，并提高用户的搜索满意度。
[0008]本申请的再一目的是提供一种能提高搜索效率的利用视觉特征来搜索图像的方法。
[0009]为了实现上述目的，本申请提供一种训练用于判断图像主体显著性的方法，包括如下步骤:a.获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数；b.在多个尺度下对所述正样本和所述负样本进行视觉特征提取，所述视觉特征包括视觉显著度；以及c.利用所提取的视觉特征训练用于判断图像主体显著性的分类器。
[0010]本申请还提供一种判断图像主体显著性的方法，包括如下步骤:a.获取待判断是否具有主体显著性的图像；b.在多个尺度下对所获取的图像进行视觉特征提取，所述视觉特征包括视觉显著度；以及c.利用所提取的视觉特征判断所获取的图像是否为主体显著性图像。
[0011]本申请还提供一种训练用于判断图像主体显著性的分类器的系统，包括:样本获取模块，获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数；视觉特征提取模块，在多个尺度下对所述正样本和所述负样本进行视觉特征提取，所述视觉特征包括视觉显著度；以及分类器训练模块，利用所提取的视觉特征训练用于判断图像主体显著性的分类器。
[0012]本申请还提供一种判断图像主体显著性的系统，包括:获取图像模块，获取待判断是否具有主体显著性的图像；视觉特征提取模块，在多个尺度下对所获取的图像进行视觉特征提取，所述视觉特征包括视觉显著度；以及判断模块，利用所提取的视觉特征判断所获取的图像是否为主体显著性图像。
[0013]本申请还提供一种利用视觉特征来搜索图像的方法，包括如下步骤:a.对输入图像和待搜索图像进行视觉特征提取，所述视觉特征包括视觉显著度；b.将所提取的输入图像的视觉特征与所提取的待搜索图像的视觉特征进行匹配，以从所述待搜索图像中搜索出所述输入图像。
[0014]本申请包括如下所述的多个优点。当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
[0015]本申请能够快速且准确地判断图像的主体是否具有显著性。当将本申请应用于上传图像的自动审核时，不但能快速向图像上传者反馈其上传图片是否能与用户的检索需求相匹配、更易于商品的展示，节省时间与人工成本，而且评价更加客观、标准清晰明了。当将本申请应用于图像检索结果的重排序时，对符合用户期望的主体明确的商品展示图像给予更高的分数，可以提升这些图像在返回结果中的排序位置，继而改善商品搜索的用户体验，提高用户的搜索满意度。而且，本申请利用视觉特征来搜索图像的方法对输入图像和待搜索的图像仅进行主体显著性部分的特征提取和匹配，使得特征匹配的数据量减少，因此可以提高搜索的效率。[0016]通过以下参照附图对本申请实施例的说明，本申请的上述以及其它目的、特征和优点将更加明显。
【专利附图】

【附图说明】
[0017]图1为示出训练用于判断图像主体显著性的分类器的方法的流程图；
[0018]图2为示出判断图像主体显著性的方法的流程图；
[0019]图3为示出训练用于判断图像主体显著性的分类器的系统的方块图；
[0020]图4为示出判断图像主体显著性的系统的方块图；及
[0021]图5为示出利用视觉特征来搜索图像的方法的流程图。
【具体实施方式】
[0022]下面将结合附图详细描述本申请的具体实施例。应当注意，在此描述的实施例只用于举例说明，并不用于限制本申请。
[0023]此外，还应注意的是，本申请中所提及的“图像主体”、“图像的主体”是指一幅图像中重点呈现的内容，而“图像主体显著性”、“主体显著性”、“图像主体的显著性”是图像中重要的视觉特征，体现了人眼对图像的某些区域的重视程度，表示图像的主体比图像中的其他部分更能引起观察者的注意，即，若图像的主体比图像中的其他部分更能引起观察者的注意，则该图像的主体具有视觉显著性，这种图像被称为(视觉)主体显著性图像，简称显著性图像；反之，若图像的主体并不比图像中的其他部分更能引起观察者的注意，则该图像的主体不具有视觉显著性，这种图像被称为(视觉)主体非显著性图像，简称非显著性图像。
[0024]实施例一
[0025]在进行图像主体显著性判断之前，需要先训练用于判断图像主体显著性的分类器。在本申请中，分类器可以是支持向量机(Support Vector Machine, SVM,其是一种广泛应用于统计分类和回归分析中的监督学习的方法)分类器、Adaboost分类器等，但本申请的保护范围并不限于此。
[0026]本申请所提出的判断图像主体显著性的方法并不关注显著性物体位于图像中的具体位置，而是聚焦于从图像群中区分出包含显著性主体的图像和不包含显著性主体的视觉效果比较杂乱的图像。这是一种与图像内容、先验知识无关的过程，其通过提取图像的视觉显著度、颜色、边缘、纹理等视觉特征，使用支持向量机训练一个普遍适用的图像主体显著性的分类模型，并且可以给出表征图像主体显著程度的分数。
[0027]为了描述简便，下面将以SVM分类器为例来说明训练分类器的过程，具体如图1所
/Jn o
[0028]首先，在步骤SlOO中，获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数。在此，A和B的比例大致为1:10，例如A可以为500，B可以为5000。当然，正样本和负样本的数量和比例也可以根据实际需要进行调整。
[0029]在一实例中，可以在离线状态下，根据网站商品关键词的检索频率，从商品图像库中取出检索频率高的检索关键词的多张图像(被取出的图像的总张数大于等于A+B张)，然后以人工或机器等的方式根据图像主体是否具有显著性而将这些图像标记为主体显著性图像(在SVM训练中的类别标记符为+1)和主体非显著性图像(在SVM训练中的类别标记符为-1)，接着从标记后的图像中选择A张类别标记符为+1的主体显著性图像作为正样本,并选择B张类别标记符为-1的主体非显著性图像作为负样本。
[0030]之后，在步骤SllO中，在多个尺度下对正样本和负样本进行视觉特征提取，所提取的视觉特征包括视觉显著度(Visual Saliency, VS)0优选地，所提取的视觉特征还可以包括颜色特征、边缘特征、纹理特征中的至少一个。更为优选地，视觉特征包括视觉显著度、颜色特征、边缘特征、纹理特征这四者。
[0031]在一实例中，可以使用高斯金字塔分解将正样本和负样本划分为多个尺度。上述多个尺度例如可以是三个尺度，在此前提下，图像的三个尺度例如可以分别是图像的原始尺度、缩小50%的尺度以及放大50%的尺度。当然，尺度个数的选择以及每个尺度下图像的具体大小可以根据实际需要进行调整，而不以此例举的实例为限。
[0032]在多个尺度(而非单个尺度)下进行视觉特征提取有两个原因:I)在判别图像主体显著性的一些应用场景下，例如图像检索的重排序，用户通常根据检索结果的缩略图而非原图像来判断该图像是否符合要求，因此不仅需要在图像的原始尺寸下进行后续的特征提取，也要关注图像的缩小尺寸的缩略图；2)图像信息在多尺度下会表达得更加丰富和精确。
[0033]此外，通过对大量显著性图像的观察发现:显著性图像的主体通常位于图片的中心区域，而主体不论是在颜色、纹理还有边缘等特征方面都与背景反差较大，因此将图片划分为中心、周围区域，对这两个区域分别提取特征是有利的。因此，在本申请的实施例中，在步骤SllO中对正样本和负样本进行视觉特征提取之前，可以先将正样本和负样本进行划分以分为中心区域和周围区域这两个区域，然后在多个尺度下对正样本和负样本的这两个区域分别进行视觉特征提取。在此，中心区域是指从图像的中心位置起向外扩展占图像总面积达1%的区域(M取一个经验阈值，例如50)，周围区域指图像中除了中心区域以外的区域。
[0034]以下以一个样本(可以是正样本也可以是负样本)为例，描述在单个尺度下对该样本的两个区域(中心区域和周围区域)进行视觉显著度提取、颜色特征提取、边缘特征提取、纹理特征提取的具体过程。请注意，为了便于描述，在此仅给出在单个尺度下对样本的两个区域提取视觉特征，但本领域的技术人员可以理解的是，下述提取过程同样适用于在其他尺度下对样本进行视觉特征提取。
[0035]1.视觉显著度提取
[0036]在本申请的实施例中，使用Itti提出的视觉显著度中的强度显著图和颜色显著图来获得视觉显著度(VS)向量。
[0037]下面先分别对强度显著图和颜色显著图的获取进行具体描述。
[0038](I)强度显著图
[0039]首先将样本转换为RGB图像，转换方法可以利用现有的转换技术，在此不再赘述。然后将转换后的RGB图像的r、g、b三个通道提取出来，并利用下式I计算强度以得到强度图1。
[0040]I= (r+g+b) /3式 I
[0041]之后，对强度图1创建强度高斯金字塔，将得到的金字塔的中心层与周围层的大小统一固定为某一层金字塔的大小，然后将中心层和周围层的强度进行点对点的相减(即，跨尺度的相减，该操作用符号?表示)来计算强度显著图。[0042]在一实例中，可以将强度图1分解成9层高斯金字塔，将金字塔的第2、3、4层作为中心层，将其余层作为周围层，即，中心层的尺度c G {2，3，4}，而周围层的尺度s=c+d，其中dG {3，4}。然后，可以通过对不同尺度图像进行插值放大或缩小，将中心层和周围层的大小统一固定为第4层金字塔的大小。之后,根据下面的式2将统一在同一层的中心层和周围层的每一像素的强度进行点对点的相减，从而得到强度显著图1 (C，S)，该强度显著图的大小与第四层金字塔的大小相等，若将每一个显著图作为一个特征向量，则9层金字塔下可以得到6个特征向量，每一个特征向量的维数与第四层金字塔的像素数目相等。
[0043]I (c, s) = | I (c) O I(S) I式 2
[0044](2)颜色显著图
[0045]首先将样本转换为RGB图像，转换方法可以利用现有的转换技术，在此不再赘述。然后将转换后的RGB图像的r、g、b三个通道提取出来以构造用于生成颜色显著图的四个新通道R、G、B和Y。这四个新通道分别利用下面的式3-6计算得来。
[0046]R=r- (g+b) /2式 3
[0047]G=g- (r+b) /2式 4
[0048]B=b- (r+g) /2式 5
[0049]Y= (r+g)/2-1 r_g I/2_b 式 6
[0050]然后，利用上述生成的R、G、B和Y根据下面的式7和8分别计算RG(c，s)和BY(c，s)作为颜色显著图。
[0051 ] RG (c, s) = I (R (c) -G (c)) 0 (G (s) -R (S)) | 式 7
[0052]BY (c, s) = I (B (c) -Y (c)) ? (Y (s) -B (S)) | 式 8
[0053]最后，利用上述得到的强度显著图和颜色显著图得到视觉显著度。
[0054]2.颜色特征提取
[0055]由于Lab空间更接近人类的视觉感知的均匀性，因而在本申请的实施例中，通过在Lab空间计算图像的颜色矩(一阶矩和二阶矩)，从而获得颜色特征向量。在Lab空间中，L通道表示亮度，a、b通道分别表征了红/绿、黄/蓝的视觉对比。
[0056]在一实例中，样本图像具有i个颜色通道(I ( i ( 3)，包括L通道、a通道和b通道，样本图像的总像素数为N，则样本图像的第i个颜色通道的第j个像素用Pu表示，在此前提下，样本图像的第i个颜色通道的一阶矩和二阶矩分别用下式9和10表示:
[0057]
【权利要求】
1.一种训练用于判断图像主体显著性的分类器的方法，其特征在于，包括如下步骤: a.获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数； b.在多个尺度下对所述正样本和所述负样本进行视觉特征提取，所述视觉特征包括视觉显著度；以及 c.利用所提取的视觉特征训练用于判断图像主体显著性的分类器。
2.根据权利要求1所述的方法，其特征在于，步骤b还包括:将所述正样本和所述负样本均划分为中心区域和周围区域，然后对所述正样本和所述负样本的中心区域和周围区域分别进行视觉特征提取。
3.根据权利要求2所述的方法，其特征在于，所述视觉特征还包括颜色特征、边缘特征、纹理特征中的至少一个。
4.根据权利要求1所述的方法，其特征在于，步骤b中提取视觉显著度的步骤包括:分别为所述正样本和负样本计算强度显著图和颜色显著图，然后利用所计算的强度显著图和颜色显著图得到视觉显著度。
5.根据权利要求3所述的方法，其特征在于，步骤b中提取颜色特征的步骤包括:在Lab空间计算所述正样本和负样本的一阶矩和二阶矩，并使用所述正样本和负样本的中心区域和周围区域在L通道的一阶矩的差、在L通道的二阶矩的差、在a通道的一阶矩的差、在a通道的二阶矩的差、在b通道的一阶矩的差以及在b通道的二阶矩的差来得到颜色特征向量。
6.根据权利要求3所述的方法，其特征在于，步骤b中提取边缘特征的步骤包括:使用sobel边缘算子计算所述正样本和负样本中每个像素的梯度幅值和梯度方向以获得边缘特征向量。``
7.根据权利要求3所述的方法，其特征在于，步骤b中提取纹理特征的步骤包括:利用统一 LBP纹理描述子分别提取所述正样本和负样本的中心区域以及周围区域的统一 LBP，从而得到所述正样本和负样本的纹理特征向量。
8.根据权利要求1所述的方法，其特征在于，步骤b包括利用高斯金字塔分解在三个尺度下对所述正样本和所述负样本进行视觉特征提取。
9.根据权利要求3所述的方法，其特征在于，步骤c包括采用径向基核函数支持向量机SVM分别训练所提取的各视觉特征以得到置信值，并使用下式计算所述正样本和负样本的图像显著度的分数:
10.一种判断图像主体显著性的方法，其特征在于，包括如下步骤: a.获取待判断是否具有主体显著性的图像； b.在多个尺度下对所获取的图像进行视觉特征提取，所述视觉特征包括视觉显著度；以及 C.利用所提取的视觉特征判断所获取的图像是否为主体显著性图像。
11.根据权利要求10所述的方法，其特征在于，步骤b还包括:将所获取的图像划分为中心区域和周围区域，然后对所获取的图像的中心区域和周围区域分别进行视觉特征提取。
12.根据权利要求11所述的方法，其特征在于，所述视觉特征还包括颜色特征、边缘特征、纹理特征中的至少一个。
13.根据权利要求10所述的方法，其特征在于，步骤b中提取视觉显著度的步骤包括:分别为所获取的图像计算强度显著图和颜色显著图，然后利用所计算的强度显著图和颜色显著图得到视觉显著度。
14.根据权利要求12所述的方法，其特征在于，步骤b中提取颜色特征的步骤包括:在Lab空间计算所获取的图像的一阶矩和二阶矩，并使用所获取的图像的中心区域和周围区域在L通道的一阶矩的差、在L通道的二阶矩的差、在a通道的一阶矩的差、在a通道的二阶矩的差、在b通道的一阶矩的差以及在b通道的二阶矩的差来得到颜色特征向量。
15.根据权利要求12所述的方法，其特征在于，步骤b中提取边缘特征的步骤包括:使用sobel边缘算子计算所获取的图像中每个像素的梯度幅值和梯度方向以获得边缘特征向量。
16.根据权利要求12 所述的方法，其特征在于，步骤b中提取纹理特征的步骤包括:利用统一 LBP纹理描述子分别提取所获取的图像的中心区域以及周围区域的统一 LBP，从而得到所获取的图像的纹理特征向量。
17.根据权利要求12所述的方法，其特征在于，步骤b包括利用高斯金字塔分解在三个尺度下对所获取的图像进行视觉特征提取。
18.根据权利要求12所述的方法，其特征在于，步骤c包括利用用于判断图像主体显著性的分类器使用下式计算所获取的图像的图像显著度的分数，并根据计算得到的分数来判断所获取的图像是否为主体显著性图像:
19.一种训练用于判断图像主体显著性的分类器的系统，其特征在于，包括: 样本获取模块，获取A张主体显著性图像作为正样本，以及B张主体非显著性图像作为负样本，其中A和B为正整数；视觉特征提取模块，在多个尺度下对所述正样本和所述负样本进行视觉特征提取，所述视觉特征包括视觉显著度；以及分类器训练模块，利用所提取的视觉特征训练用于判断图像主体显著性的分类器。
20.一种判断图像主体显著性的系统，其特征在于，包括: 获取图像模块，获取待判断是否具有主体显著性的图像；视觉特征提取模块，在多个尺度下对所获取的图像进行视觉特征提取，所述视觉特征包括视觉显著度；以及判断模块，利用所提取的视觉特征判断所获取的图像是否为主体显著性图像。
21.一种利用视觉特征来搜索图像的方法，其特征在于，包括如下步骤: a.对输入图像和待搜索图像进行视觉特征提取，所述视觉特征包括视觉显著度； b.将所提取的输入图像的视觉特征与所提取的待搜索图像的视觉特征进行匹配，以从所述待搜索图像中搜索出所述输入图像。
22.根据权利要求21所述的方法，其特征在于，步骤a还包括:将所述输入图像和所述待搜索图像均划分为中心区域和周围区域，然后对所述输入图像和所述待搜索图像的中心区域和周围区域分别进行视觉特征提取。
23.根据权利要求22所述的方法，其特征在于，所述视觉特征还包括颜色特征、边缘特征、纹理特征中的至少一个。
24.根据权利要求21所述的方法，其特征在于，步骤a中提取视觉显著度的步骤包括:分别为所述输入图像和所述待搜索图像计算强度显著图和颜色显著图，然后利用所计算的强度显著图和颜色显著图得到视觉显著度。
25.根据权利要求23所述的方法，其特征在于，步骤a中提取颜色特征的步骤包括:在Lab空间计算所述输入图像和所述待搜索图像的一阶矩和二阶矩，并使用所述输入图像和所述待搜索图像的中心区域和周围区域在L通道的一阶矩的差、在L通道的二阶矩的差、在a通道的一阶矩的差、在a通道的二阶矩的差、在b通道的一阶矩的差以及在b通道的二阶矩的差来得到颜色特征向量。
26.根据权利要求23所述的方法，其特征在于，步骤a中提取边缘特征的步骤包括:使用sobel边缘算子计算所述输入图像和所述待搜索图像中每个像素的梯度幅值和梯度方向以获得边缘特征向量。
27.根据权利要求23所述的方法，其特征在于，步骤a中提取纹理特征的步骤包括:利用统一 LBP纹理描述子分别提取所述输入图像和所述待搜索图像的中心区域以及周围区域的统一 LBP，从而得到所述输入图像和所述待搜索图像的纹理特征向量。
28.根据权利要求21所述的方法，其特征在于，步骤a包括利用高斯金字塔分解在三个尺度下对所述输入图像和所述待搜索图像进行视觉特征提取。
【文档编号】G06K9/66GK103793717SQ201210433786
【公开日】2014年5月14日申请日期:2012年11月2日优先权日:2012年11月2日
【发明者】邓宇, 薛晖申请人:阿里巴巴集团控股有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓宇;薛晖
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：具有双层电路板的智能家庭终端的制作方法
上一篇：电脑的自动节能方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。