一种基于多视角多特征的图像印象性预测方法与流程

文档序号:15145411发布日期:2018-08-10 20:23阅读:659来源:国知局

本发明属于图像处理技术领域,特别涉及到一种基于多视角多特征对图像印象性进行预测的方法。



背景技术:

图像属性属于计算机视觉领域中语义相关的问题,是一个具有挑战性的任务。高级图像属性,如记忆性、知名度、兴趣度等,可以更好地帮助人类图片的理解。使许多需要判断或筛选具有创造性的作品的应用从中受益。因此,对图像属性的理解和判断也收到了越来越多的研究者的关注。

传统的图像属性,一般基于反复多次的人工交互得到正确的标注信息。比如2011年发表于cvpr(8)的论文“whatmakesanimagememorable?”,提出记忆性,该论文设计了记忆性标注系统,将标注图片分为目标图像和填充图像两部分,标注过程中,系统记录标注者每次对目标图像的标注信息,得到最终的标注结果。而填充图像在标注过程中仅作为出现一次的参与者,不能获得有效的标注。总得来说,这类标注的获取过程具有较长的时间消耗性且图片需求量较大。另外,基于互联网的点赞数或转发数获取标注的属性,如2014年发表于www(10)的论文“whatmakesanimagepopular?”提出的知名度与2015年发表于cvpr(11)的论文“understandingimagevirality”中提出的传播度,在时间消耗的基础上,可能受到名人效应的影响。譬如,同一图片在知名博主发布的数据中计算得到的标注,与普通账户发布的数据计算得到的标注可能产生较大的出入。现存的图像属性,虽然已在模拟高级人类认知信息中取得了较小的效果,但仍存在较大的局限性,时间消耗与人类行为给标注信息的获取带来了困难和偏差。

另外,在对图像属性进行建模的过程中,传统工作考虑了大量物体认知层面的信息,底层特征如纹理,颜色,场景,中层语义特征如物体数量,物体位置等。考虑到单一的手工特征往往不能很好的拟合高层的图像感知信息。在图像属性预测领域的工作中,对多种特征进行结合可以同时考虑多种细节信息,从而完善对高层感知信息的建模。在这种情况下,2017年发表于aaai(7)的论文“fredholmmultiplekernellearningforsemi-superviseddomainadaptation”中提出了多核学习方法来整合长度不等的多种特征。相比较直接串联多种特征,多核学习算法避免了较高维特征代表的信息在整合特征中产生更大的影响。我们的方法在尝试串联的基础上,将多种特征组合作为多核学习算法的输入,选取最佳的参数组合。另外,2010年发表于acmmm(10)的论文“affectiveimageclassificationusingfeaturesinspiredbypsychologyandarttheory”提出了情感分析在图片理解中的重要性。在具有创造性的人类工作中,对图像的理解不仅仅局限于对物体的认知,还应考虑情感层面上的语义信息。相较于传统的图像属性分析方法中,我们进一步添加了情感因素的考虑。随着深度网络在视觉领域中的广泛运用,我们进一步分析了深度特征下的图像属性理解。

上述领域的一些最新成果激发了我们的灵感,也为我们开发基于多视角多特征对图像印象性进行预测的方法提供了坚实的技术基础。



技术实现要素:

本发明需要解决的技术问题是输入一张任意大小的图片,系统可以自动判断出图像印象性的分类结果。

为了实现本发明的目的,我们依靠以下技术方案来实现:

a.用户输入任意一张图片,通过设计好特征提取器高效提取图片相关的多种特征。

b.该方法根据对属性的主要线索进行分析,建立印象性线索到高度相关的特征之间的映射,通过串联特征和多核学习的方法整合多种特征。

c.为了提取更高层的特征信息,我们采用在大型数据集imagenet上预训练的深度网络结构进行图片特征提取,该特征将保留图片中深层的物体特征。为了能够更好的建模情感的深层信息,我们在大型情感数据集上微调深度网络模型,从而使得提取出的特征保留了深层的情感信息。提取出的深层特征将被同样送入b中的多核学习算法框架中得到最终的分类结果。

本发明的有益效果为:本发明提出了一种特殊的图像属性,印象性。通过对该属性进行分析,找到可以捕获印象性相关信息的可度量特征,并通过多核学习的方法完成不同特征的整合,达到预测印象性的目的。在图像认知领域,相对于纹理,颜色,物体等视觉层面的度量,印象性的提出对图像的分析与高级人类感知结合,将会更好地促进对图像的处理。有效的形象性的判断,有助于图片的推荐,提高广告效应等多种应用。

附图说明

图1为结合心理学及视觉领域的工作,分析得到的图像印象性有关的主要线索。

图2为从线索到特征的主要映射关系。

具体实施方式

下面结合附图,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

本发明为一种基于多视角多特征对图像印象性进行预测的方法,图1展示了多角度下图像印象性的呈现形式。图2展示了多角度下不同属性特征与印象性的关联,从而提出根据整合捕获不同信息的特征达到预测图像印象性的目的,下面详述过程:

a.本发明提出了一种特殊的图像属性-印象性,并给出了印象性的定义:图像印象性,即图片在短时间内对人类认知所产生的影响。真实标签以0-1来代表低-高的印象性。图像印象性与多种线索相关:

前景-图像前景与背景的区分程度;

美学-图片质量的满意程度;

对比度-图像分辨率;

唤起度-图像的正负情感极性;

场景-图片的开放性;

稀有度-图片的罕见性;

结合图1,我们给出了印象性较高与较低图片在不同线索对比下的示意图。可以看出,该六种线索与印象性具有较高的相关性。因此,我们可以通过建模六种不同的线索,来达到最终预测印象性的目的。

b.沿用经典的图像属性的建模策略,我们利用特征融合的方法对各个线索提取特征。如图2所示,我们总结了各个线索与多层次的图像特征之间的对应关系,通过多核学习算法达到建模各个线索的目的。

对输入的待预测图像,底层特征包含纹理,颜色,场景和梯度,分别对应lbp特征,gch特征或lch特征,gist特征,以及基于词袋编码的hog或sift特征。中层特征包含物体和情感语义,通过大规模物体或情感数据集上训练得到的检测器,提取到包含物体或情感信息的特征表达。高层特征提取通过深度网络实现。imagenet上预训练的caffe网络有助于挖掘物体的深度特征表达。我们采用大型情感数据集对caffe网络进行微调,达到提取图像情感的深度特征的目的。

c.深度特征的提取,采用了19层的vgg网络模型。为了能够提取深度的情感信息,我们在大型的情感数据集上微调网络后,进行情感特征的提取。

根据上一步得到的低-中-高层特征,针对多种特征信息的考虑,涉及特征融合。不同维度的多种特征同时作为输入,通过高斯核或多项式核,将不同维度的特征映射到同等维度的高位空间,将整合后的特征送入分类器,计算分类损失,迭代优化不同特征在整合中所占的权重。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1