一种基于多领域知识驱动的图像美学质量评价方法与流程

文档序号:22967808发布日期:2020-11-19 21:42阅读:229来源:国知局
一种基于多领域知识驱动的图像美学质量评价方法与流程

本发明涉及图像处理以及计算机视觉领域,特别是一种基于多领域知识驱动的图像美学质量评价方法。



背景技术:

由于视觉美学是一个主观的属性,往往会涉及情感和个人品味,受到摄影规则、图像内容和图像风格等影响,这使得自动评估图像美学质量是一项非常主观的任务。在美学质量评价引入深度学习模型后,可以学习到更有效的美学特征,为了能进一步提高性能,学者们开始借助各种与美学息息相关的领域的专业知识来辅助评价美感,mai等引入了语义分类信息作为网络分支辅佐美学评价,总结出7种对图像美感影响最大的场景;lu等人认识到图像中的不同的主体类别对人们吸引力不同,进而显著影响到图像的吸引力;kucer等人考虑到图像传递出的喜怒哀乐等情感因素也会影响到图像美感。但是,绝大多数工作都忽略了图像风格对图像美学的影响。实际上不论是照片或者是艺术品,hsv(humanvisualsystem,人眼视觉系统)可以通过图像内容与风格之间复杂的相互作用,创造出独特的视觉体验。对于相同的图像内容,不同的图像风格会造成截然不同的视觉美感体验和判断。由于训练深度网络需要大的数据集,仅仅提取美学数据集里有提供风格标签的图像的风格特征是不够的,因此需要设计算法来克服美学评估的需要和图像风格标签不足之间的矛盾。为了获得更多美学相关知识领域的特征,接着抽取此前工作已经证明有效的语义特征和情感特征。对于多领域特征的融合,传统的方法是使用点积、合并、自定义全连接层等方式,但是,由于获取到的多领域特征对美感的贡献不是均等的,根据特征重要性对特征进行进一步处理是需要考虑的。



技术实现要素:

有鉴于此,本发明的目的是提供一种基于多领域知识驱动的图像美学质量评价方法,能显著提高美学质量预测精度。

本发明采用以下方案实现:一种基于多领域知识驱动的图像美学质量评价方法,包括以下步骤:

步骤s1:设计一个密集连接网络作为主干网络,提取图像的美学特征;所述密集连接网络包括单卷积层、密集连接模块和分类模块;

步骤s2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;

步骤s3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;

步骤s4:使用梯度提升算法xgboost,对提取到的特征进行特征筛选与融合,分别训练svm分类模型和svr回归模型来预测图像的美学质量。

进一步地,所述步骤s1具体包括以下步骤:

步骤s11:对图像进行预处理,先缩放到256*256,然后随机裁剪成224*224;设计一个单卷积层,单卷积层由7×7卷积、bn批归一化、relu修正线性单元和3×3最大池化层组成;将裁减后的图像输入到单卷积层,将单卷积层的输出作为密集连接模块的输入;

步骤s12:设计一个分类模块作用于密集连接模块产生的特征;分类模块的输入是密集连接模块的输出,经过一个7*7平均池化层进行特征压缩,得到2208维的特征向量;将池化后的输出通过一个线性变换层和softmax层输出分类结果,其中,分类数与美学质量评价数据集ava给定的美学评分取值的个数一致,分类结果表示的是密集连接网络预测的评分分布,该预测评分分布为向量,向量中第i个数值代表美学评分第i个取值对应的概率;

步骤s13:设计一个美学评分分布损失,在美学质量评价数据集ava上学习密集连接网络的最优参数;训练使用的优化算法是sgd,动量momentum设置为0.9,每次迭代的批量设置为32,初始学习率设置为0.01,每15轮降低到原来的10%;美学评分分布损失使用基于累计分布函数的损失函数ljs,公式如下:

其中,mp(i)和ml(i)分别是密集连接网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…10,z是评分取值的个数,即10;

使用上述主干网络和美学评分分布损失训练完成后,提取分类模块中的平均池化层得到的2208维特征作为图像的美学特征。

进一步地,步骤s11中所述密集连接模块的具体内容为:

密集连接模块网络包含3个密集模块和3个压缩层,每个密集模块的输出作为压缩层的输入,压缩层的输出传给下一个密集模块;每个密集模块都有3组密集卷积层,每组密集卷积层之间,利用密集跳跃结构将各组连接在一起,对于第i组,前面第i-1组,...,第1组输出的特征图hi-1,...,h1,都被作为输入,同时第i组输出的特征图hi也都被后面的网络层作为输入,这也就强化了特征的传播和特征重用,最大化信息流动,缓解了梯度消失的问题;密集模块中的第i组特征图hi公式如下:

f0代表密集模块接受的输入,对于第一个密集模块,f0是单卷积层的输出,对于第二/第三个密集模块,f0分别是第一个和第二个压缩层的输出,下标i代表密集模块网络中的第i组密集卷积层,代表按照通道拼接特征操作,wi,bi分别为第i组密集卷积层中卷积核的权重和偏置;每组密集卷积层由1×1卷积、bn批归一化、relu修正线性单元和3×3卷积组成;然后,密集模块的输出作为压缩层的输入,压缩层由1×1卷积和2×2平均池化层组成,用来压缩通道数并且降低特征图的尺寸。

进一步地,所述步骤s2具体包括以下步骤:

步骤s21:将风格学习任务建立为1个k路分类问题;首先,初始化1个基本网络fbase,该网络采用主干网络,将步骤s12中的分类数设为k,并且复制一个具有相同结构和参数的目标网络ftarget,训练时向基本网络和目标网络输入有标签的图像和无标签的图像;在每步训练中,让基本网络和目标网络共同评估1个批量样本;基本网络使用交叉熵分类损失lclass和一致性损失lcons来优化,学习基本网络的的最优参数;交叉熵分类损失lclass用于计算基本网络中的有标签图像的损失,一致性损失lcons衡量基本网络和目标网络对所有图像的预测结果的差异;网络对图像h的损失计算公式如下:

loss=ch*lclass(fbase(h;θb),yh)+β

*lcons(fbase(h;θb),ftarget(h;θt))

其中,h是训练批量样本中的图像,能够选择是有标签的或者无标签的;θb和θt分别是基本网络fbase和目标网络ftarget的参数,β是权重,实际设为10;fbase(h;θb)是基本网络的输出,yh是风格标签,ftarget(h;θt)是目标网络的输出;ch用于判定图像h是否有风格标签,如果图像h有风格标签,ch为1,否则为ch为0,即只有带有风格标签yh的图像h才会计算交叉熵损失lclass;lclass(fbase(h;θb),yh)是基本网络的输出fbase(h;θb)和风格标签yh之间的交叉熵分类损失;对于图像h,交叉熵损失lclass的公式如下:

lclass=∑yhlog(fbase(h;θb))

lcons(fbase(h;θb),ftarget(h;θt))是基本网络输出fbase(h;θb)和目标网络输出ftarget(h;θt)之间的一致性损失,用均方误差计算;对于图像h,均方误差损失的公式如下:

lcons=(fbase(h;θb)-ftarget(h;θt))2

使用美学质量评价数据集ava进行训练,基本网络fbase使用sgd算法优化参数;基本网络fbase的参数作为目标网络ftarget的预训练参数,目标网络ftarget的参数θt按照平均移动策略更新,更新公式如下:

是基本网络fbase第k步训练更新后的参数,是目标网络ftarget当前的参数,α用于改变权重,α依据公式如下:

其中,ema_decay=0.999,global_step指的是全局迭代次数,α变化趋势为从0到0.999;

步骤s22:目标网络ftarget训练完成后,使用目标网络ftarget中的分类模块中的平均池化层得到2208维特征,提取该特征作为图像的风格特征。

进一步地,所述步骤s3具体包括以下步骤:

步骤s31:先在包含365种场景的场景语义分类数据集places365上,使用主干网络,将步骤s12中的分类数设为365,预测365种语义的概率,训练得到场景语义分类预训练模型;然后在美学数据集chukq上微调场景语义分类预训练模型,美学数据集chukq提供了7个和图像美感相关的场景语义标签:人像、植物、建筑、风景、静景,动物和夜景,将场景语义分类预训练模型中的分类模块的分类数设为7,预测7种语义的概率,训练得到场景语义分类模型;然后在美学数据集ava上使用训练好的场景语义分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的语义特征;

步骤s32:情感分类数据集里包含23308张图像,涵盖了8种情感包括愤怒、愉悦、严肃、满意、厌恶、兴奋、害怕和悲伤;使用主干网络,将步骤s12中的分类数设为8,预测8种情感的概率,训练得到情感分类模型;然后在美学数据集ava上使用训练好的情感分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的情感特征。

进一步地,所述步骤s4具体包括以下步骤:

步骤s41:对美学、风格、语义、情感特征分别使用梯度提升算法xgboost,得到各个特征的特征重要性,依据这个特征重要性进行特征筛选,分别对各个特征进行降维;对4个降维后的特征向量进行拼接,对拼接后的向量再次使用梯度提升算法,依据特征重要性筛选特征,得到最终的维度为425的融合特征;

步骤s42:使用步骤s41得到的融合特征,采用svr模型完成美学回归预测任务的训练和测试,采用svm模型完成美学分类预测任务的训练和测试。

进一步地,所述步骤s42的具体内容为:

数据集ava中的每张图像的美学标签是一个10维的向量,分别代表该图像美学评分取值为1-10分的人数分布;将数据集提供的对应i分的人数分布mi,i∈{1,2,...,10},计算成概率分布pi,公式如下:

然后再加权求和,得到了每张图像的美学评分s,这个评分作为回归任务的标签,使用svr作为回归预测模型;加权求和得到美学评分的公式如下:

其中,pi是样本取值为i分的概率,i是取值;

美学分类是一个二分类任务,以5分作为临界点,低于5分的图像标注为不具备美感,大于等于5分的标注为具备美感,使用svm分类模型作为分类预测模型,美学分类标签t公式如下:

对于新输入的待预测图像,首先使用步骤s1至s3提取美学、风格、语义、情感特征,然后使用步骤s41得到融合特征,最后使用步骤s42训练好的svm分类模型和svr回归模型分别预测该图像的美学分类和美学评分。

与现有技术相比,本发明具有以下有益效果:

本发明的目标在于解决单一网络模型对图像美学信息特征抽象能力较差的问题。由于影响图像美感的因素众多,单一网络学习到的特征表示难以充分表示美感特征,因此需要针对图像美感特点来设计学习多领域特征的网络结构,进而提升模型对图像美感更全面的特征提取能力。考虑到以前的图像美学质量评价算法总忽略图像风格等因素对图像美学质量评价的影响,本发明综合考虑图像美学质量与风格、语义和情感等多领域特征的显著联系,对图像的美学特征信息有更强的表示能力,结合适当的特征筛选与融合,能显著提高图像美学质量评估性能。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的密集连接主干网络结构图,其中,图2(a)为密集连接网络,图2(b)为压缩层,图2(c)为单卷积层,图2(d)为密集卷积层。

图3为本发明实施例的半监督风格特征学习框架。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供一种基于多领域知识驱动的图像美学质量评价方法,包括以下步骤:

步骤s1:设计一个密集连接网络作为主干网络,提取图像的美学特征;所述密集连接网络包括单卷积层、密集连接模块和分类模块;

步骤s2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;

步骤s3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;

步骤s4:使用梯度提升算法xgboost,对提取到的特征进行特征筛选与融合,分别训练svm分类模型和svr回归模型来预测图像的美学质量。

如图2所示,在本实施例中,所述步骤s1具体包括以下步骤:

步骤s11:对图像进行预处理,先缩放到256*256,然后随机裁剪成224*224。设计一个单卷积层,单卷积层由7×7卷积、bn批归一化、relu修正线性单元和3×3最大池化层组成;将裁减后的图像输入到单卷积层,将单卷积层的输出作为密集连接模块的输入;

步骤s12:设计一个分类模块作用于密集连接模块产生的特征;分类模块的输入是密集连接模块的输出,经过一个7*7平均池化层进行特征压缩,得到2208维的特征向量;将池化后的输出通过一个线性变换层和softmax层输出分类结果,其中,分类数与美学质量评价数据集ava给定的美学评分取值的个数一致,分类结果表示的是密集连接网络预测的评分分布,该预测评分分布为向量,向量中第i个数值代表美学评分第i个取值对应的概率;

步骤s13:设计一个美学评分分布损失,在美学质量评价数据集ava上学习密集连接网络的最优参数;训练使用的优化算法是sgd,动量momentum设置为0.9,每次迭代的批量设置为32,初始学习率设置为0.01,每15轮降低到原来的10%;美学评分分布损失使用基于累计分布函数的损失函数ljs,公式如下:

其中,mp(i)和ml(i)分别是密集连接网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…10,z是评分取值的个数,即10;

使用上述主干网络和美学评分分布损失训练完成后,提取分类模块中的平均池化层得到的2208维特征作为图像的美学特征。

在本实施例中,步骤s11中所述密集连接模块的具体内容为:

密集连接模块网络包含3个密集模块和3个压缩层,每个密集模块的输出作为压缩层的输入,压缩层的输出传给下一个密集模块;每个密集模块都有3组密集卷积层,每组密集卷积层之间,利用密集跳跃结构将各组连接在一起,对于第i组,前面第i-1组,...,第1组输出的特征图hi-1,...,h1,都被作为输入,同时第i组输出的特征图hi也都被后面的网络层作为输入,这也就强化了特征的传播和特征重用,最大化信息流动,缓解了梯度消失的问题;密集模块中的第i组特征图hi公式如下:

f0代表密集模块接受的输入,对于第一个密集模块,f0是单卷积层的输出,对于第二/第三个密集模块,f0分别是第一个和第二个压缩层的输出,下标i代表密集模块网络中的第i组密集卷积层,代表按照通道拼接特征操作,wi,bi分别为第i组密集卷积层中卷积核的权重和偏置;每组密集卷积层由1×1卷积、bn批归一化、relu修正线性单元和3×3卷积组成;然后,密集模块的输出作为压缩层的输入,压缩层由1×1卷积和2×2平均池化层组成,用来压缩通道数并且降低特征图的尺寸。

如图3所示,在本实施例中,所述步骤s2具体包括以下步骤:

步骤s21:将风格学习任务建立为1个k路分类问题;首先,初始化1个基本网络fbase,该网络采用主干网络,将步骤s12中的分类数设为k,并且复制一个具有相同结构和参数的目标网络ftarget,训练时向基本网络和目标网络输入有标签的图像和无标签的图像;在每步训练中,让基本网络和目标网络共同评估1个批量样本;基本网络使用交叉熵分类损失lclass和一致性损失lcons来优化,学习基本网络的最优参数;交叉熵分类损失lclass用于计算基本网络中的有标签图像的损失,一致性损失lcons衡量基本网络和目标网络对所有图像的预测结果的差异;网络对图像h的损失计算公式如下:

loss=ch*lclass(fbase(h;θb),yh)+β

*lcons(fbase(h;θb),ftarget(h;θt))

其中,h是训练批量样本中的图像,能够选择是有标签的或者无标签的;θb和θt分别是基本网络fbase和目标网络ftarget的参数,β是权重,实际设为10;fbase(h;θb)是基本网络的输出,yh是风格标签,ftarget(h;θt)是目标网络的输出;ch用于判定图像h是否有风格标签,如果图像h有风格标签,ch为1,否则为ch为0,即只有带有风格标签yh的图像h才会计算交叉熵损失lclass;lclass(fbase(h;θb),yh)是基本网络的输出fbase(h;θb)和风格标签yh之间的交叉熵分类损失;对于图像h,交叉熵损失lclass的公式如下:

lclass=∑yhlog(fbase(h;θb))

lcons(fbase(h;θb),ftarget(h;θt))是基本网络输出fbase(h;θb)和目标网络输出ftarget(h;θt)之间的一致性损失,用均方误差计算;对于图像h,均方误差损失的公式如下:

lcons=(fbase(h;θb)-ftarget(h;θt))2

使用美学质量评价数据集ava进行训练,基本网络fbase使用sgd算法优化参数;基本网络fbase的参数作为目标网络ftarget的预训练参数,目标网络ftarget的参数θt按照平均移动策略更新,更新公式如下:

是基本网络fbase第k步训练更新后的参数,是目标网络ftarget当前的参数,α用于改变权重,α依据公式如下:

其中,ema_decay=0.999,global_step指的是全局迭代次数,α变化趋势为从0到0.999;

步骤s22:目标网络ftarget训练完成后,使用目标网络ftarget中的分类模块中的平均池化层得到2208维特征,提取该特征作为图像的风格特征。

在本实施例中,所述步骤s3具体包括以下步骤:

步骤s31:先在包含365种场景的场景语义分类数据集places365上,使用主干网络,将步骤s12中的分类数设为365,预测365种语义的概率,训练得到场景语义分类预训练模型;然后在美学数据集chukq上微调场景语义分类预训练模型,美学数据集chukq提供了7个和图像美感相关的场景语义标签:人像、植物、建筑、风景、静景,动物和夜景,将场景语义分类预训练模型中的分类模块的分类数设为7,预测7种语义的概率,训练得到场景语义分类模型;然后在美学数据集ava上使用训练好的场景语义分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的语义特征;

步骤s32:情感分类数据集里包含23308张图像,涵盖了8种情感包括愤怒、愉悦、严肃、满意、厌恶、兴奋、害怕和悲伤;使用主干网络,将步骤s12中的分类数设为8,预测8种情感的概率,训练得到情感分类模型;然后在美学数据集ava上使用训练好的情感分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的情感特征。

在本实施例中,所述步骤s4具体包括以下步骤:

步骤s41:对美学、风格、语义、情感特征分别使用梯度提升算法xgboost,得到各个特征的特征重要性,依据这个特征重要性进行特征筛选,分别对各个特征进行降维;对4个降维后的特征向量进行拼接,对拼接后的向量再次使用梯度提升算法,依据特征重要性筛选特征,得到最终的维度为425的融合特征;

步骤s42:使用步骤s41得到的融合特征,采用svr模型完成美学回归预测任务的训练和测试,采用svm模型完成美学分类预测任务的训练和测试。

在本实施例中,所述步骤s42的具体内容为:

数据集ava中的每张图像的美学标签是一个10维的向量,分别代表该图像美学评分取值为1-10分的人数分布;将数据集提供的对应i分的人数分布mi,i∈{1,2,...,10},计算成概率分布pi,公式如下:

然后再加权求和,得到了每张图像的美学评分s,这个评分作为回归任务的标签,使用svr作为回归预测模型;加权求和得到美学评分的公式如下:

其中,pi是样本取值为i分的概率,i是取值;

美学分类是一个二分类任务,以5分作为临界点,低于5分的图像标注为不具备美感,大于等于5分的标注为具备美感,使用svm分类模型作为分类预测模型,美学分类标签t公式如下:

对于新输入的待预测图像,首先使用步骤s1至s3提取美学、风格、语义、情感特征,然后使用步骤s41得到融合特征,最后使用步骤s42训练好的svm分类模型和svr回归模型分别预测该图像的美学分类和美学评分。

较佳的,本实施例遵循着提取多领域知识并进行融合的思路,提出了一种基于多领域知识驱动的图像美学质量评价方法。设计密集连接网络提取图像的美学特征,使用半监督算法提取图像的风格特征,使用场景语义分类模型和情感分类模型分别提取图像的情感特征和语义特征,同时还考虑了不同领域的特征对图像美学质量评估的贡献不同,使用梯度提升算法xgboost来筛选和融合特征,分别训练svm分类模型和svr回归模型来预测图像的美学质量。综上所述,本实施例设计的一种基于多领域知识驱动的图像美学质量评价方法能显著提高美学质量预测精度。

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1