一种基于密集卷积网络和多任务网络的美学属性评价方法与流程

文档序号:16694375发布日期:2019-01-22 19:20阅读:353来源:国知局
一种基于密集卷积网络和多任务网络的美学属性评价方法与流程

本发明属于可视计算、计算机视觉领域,特别是图像美学评价领域,尤其是多任务分析预测方法。



背景技术:

图像美学属性评价的早期工作主要集中在各种图像美学特征的手工设计上,并采用模式识别算法进行美学质量预测。另一条研究路线试图通过一些手工设计的通用图像特征直接拟合图像美学的质量。

最近,研究从大数据深度图像特征显示出良好的性能,并且性能超出了传统的手工设计特性,并使用来自在线专业摄影社区的图像美学属性评价数据。

美学评价是一项主观的视觉任务。因此图像美学的质量评价是模糊的,审美图像的质量评价有不同的方法。

在美学分类领域,人们通常使用两个价值标签,如良好的图像和不良的图像,这些标签通常用于表现图像美学的质量。而在美学评分领域,一些回归网络开始得到图像的得分美学,这些模型通过卷积神经网络设计来呈现二元分类结果或一维数值评价的图像美学质量。在神经网络的深度和大众美学图像质量评估数据集ava发布之前,出现了基于支持向量机预测方法的美学图像质量评价分布。

基于多个美学属性的回归分析而提出的美学属性评价方法,则较之前的方法更为详细具体,所描述的内容也更多。同时对图像的美学评价开始出现具有一定程度的个性化分析,可以预测得到某一项无法用数字描述的美学属性的图像美学质量。

现有的算法存在的缺点在于运算量巨大,需要对数据集训练较常的时间才能获得相应的结果,其次对于预测的结果而言,出现了个别美学属性预测结果准确性高、其他的美学属性预测结果准确性低的现状。就方法本身而言,仍存在一定的不足。



技术实现要素:

本发明要解决技术问题为:基于目前已知的图像美学的数据集,提供一种基于密集卷积网络和多任务网络的美学属性评价方法,该方法能有效减少对图像美学的描述,提供在图像美学方面更多的信息,同时具有更高的准确率和运行效率。

本发明技术解决方案:一种基于密集卷积网络和多任务网络的美学属性评价方法,包括以下步骤:

(1)将图像以高维矩阵的形式输入到密集卷积神经网络中,通过对图像中美学属性的提取,得到维度较之前更高包含图像特征的中间矩阵;所述美学属性包括:构图与透视、拍摄、快门、景深、色彩与光照、对焦;

(2)将得到的中间矩阵输入密集卷积神经网络,接着输入多任务网络的全连接层,最后得到预测的美学属性的分数;

(3)对得到的美学属性的分数进行均方误差回归分析,得到和图像的实际标准分数的差距,并用梯度下降算法反复调整密集卷积网络的权重参数以降低回归的错误率,得到调整后的美学属性;

(4)将调整后美学属性作为数据集,将所述数据集分为训练集和测试集,在训练集上进行美学属性评价方法模型的参数调整,保存最终美学属性的参数模型,在测试集上进行测试,得到最终的美学属性结果;所述美学属性评价方法模型包括密集卷积神经网络的模型和多任务网络的模型。

所述步骤(1)中的高维矩阵包括64维、128维、256维;

所述步骤(1),美学属性提取采取以下步骤:

(11)将输入图像调整为统一尺寸(224x224);

(12)以rgb三通道读取,通过计算密集卷积神经网络的残差而不断地提取出图像中美学属性;

(13)通过对图像中美学属性的特征进行采样,选择特点明显的局部图像特征,得到反映出图像的美学属性。

所述步骤(2)中密集卷积神经网络的构成依次为:

第一层:一个卷积核大小为7×7的卷积层,第一层的输入为输入矩阵;

第二层:一个池化区域为3×3的最大池化层;

第三层至第八层:由三个网络部分依次相接构成,每个网络部分包括一个密集卷积模块和一个过渡层;

第三层:第一个密集卷积模块,包括了6个1×1卷积操作和6个3×3卷积操作;

第四层:第一个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层;

第五层:第二个密集卷积模块,包括了12个1×1卷积操作和12个3×3卷积操作;

第六层:第二个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层;

第七层:第三个密集卷积模块,包括了36个1×1卷积操作和36个3×3卷积操作;

第八层:第三个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层;

所述每个1×1卷积操作和每个卷积操作即认为是一次密集卷积操作,3个密集卷积模块分别执行了6次、12次、36次密集卷积操作;所使用的密集卷积神经网络满足每个密集卷积操作层输出的矩阵长度均小于100。

所述多任务网络所采用的分层多任务模型,具体的模型为对密集卷积网络输出的结果进行同时进行多个全连接层的操作,每个全连接层在网络结构上属于并行操作,即依据不同的真实值进行预测回归,同时不同的全连接层具有不同的梯度下降参数;每个全连接层的大小为128×1,通过全连接层,使得训练出的多个特征在一个数值上体现出来,即得到预测的美学属性的分数。

所述步骤(4)中,所述保存最终的参数模型被保存为checkpoint形式,即检查点形式。

所述步骤(3)中,采用tensorflow框架对得到的美学属性的分数进行均方误差回归分析,具体如下:将多任务网络模型中的多个全连接层得到的预测值分别与数据集提供的真实值相减,得到预测的误差,根据得到的误差进行梯度下降处理,使得误差能够按照步长大小稳定下降;预测的误差的计算采用均方误差的方法进行计算。

本发明与现有的技术相比,其优势在于:

(1)本发明方法的运算效率更高,且运算所需的参数较常见的深度学习算法较少。每个密集卷积操作层输出的矩阵长度均小于100,较其他网络(如迭代神经网络、人工神经网络等)更小,同时加强了特征参数的传递;

(2)本发明的分层多任务处理能够同时对更多的数据进行预测分析,同时给出更为具体的回归估计结果。与多个单一的单任务处理相比,分层多任务处理可以共享梯度下降参数,使得在进行参数预测的时候考虑到更多的参数变化,该方法主要由多个全连接层实现;

(3)本发明中的基于tensorflow深度学习框架,易于实现,比其他的深度学习框架(如caffe、mxnet、torch等)具有更多的应用程序接口,可以让程序可读性更高、程序的编写和调试更为简单。tensorflow也是目前使用人数和维护人数最多的框架,其应用更为广泛。

附图说明

图1是本发明应用场景图;

图2是本发明方案流程图;

图3是分层多任务网络图。

具体实施方式:

下面结合附图和具体实施方式对本发明作进一步详细的说明。

密集卷积神经网络:

在resnet(一个常见的经典卷积网络模型,如图1)中,两个相邻层之间的关系可以用以下公式表示:

xl=hl(xl-1)+xl-1(1)

其中l表示层,xl表示层l的输出,hl表示非线性变换。因此对于resnet,层l的输出是层l-1的输出加上层l-1的输出的非线性变换。

通过改变方式,信息在层之间传输,密集模块提出了一种新的连接方法。其中任何一个都需要与其后续层相关。其数学表达式如下:

xl=hl([x0,x1,…,xl-1])(2)

其中[x0,x1,…,xl-1]指的是特征映射的串联分层0,1,…,l-1。

hl作为三个连续操作的复合函数:批量归一化(bn),整流线性单元(relu)和卷积(conv)。由于网络的密集连接,本发明将此网络架构称为密集卷积网络(densenet)。

分层多任务网络模型:

分层多任务是一种联合学习方法,如图2所示。它学习图像的多个属性,同时解决多个问题,并对多个问题进行回归预测。典型的多任务,例如,在业务领域,个性化问题,从分析一个人的多个爱好,以获得更全面的评估计划。

与传统统计方法相比,分层多任务图像处理方法具有两个优点:

(1)雷达图像可以显示多角度和多级图像信息。在这个实验中,图像通常具有不同级别的图像属性,并且可以通过多任务生动地表示;

(2)多任务评估图像通常更具体和详细。多任务分析图像可以在各个方面显示图像的优缺点。

具体实现步骤:

使用的实验环境为ubuntu14.04和python3。因tensorflow框架对python语言提供的应用程序接口较多,因此本次环境使用的python。

通常情况下,一个完整的深度学习算法模型,包括输入脚本、模型训练程序和模型测试程序。接下来将对各个部分分别描述:

输入脚本:

以jpg为格式的图片,可被计算机读取为三维的像素矩阵。使用的工具为opencv3,通过opencv,可将图片读取为矩阵,为了提高速度,通常将矩阵保存在内存中,方便随时进行各种数据预处理操作。每张图片所对应的美学属性,通常保存于文本文档中,可用过python读取,保存为浮点型变量。

具体步骤如下:

步骤一:通过读取图片的脚本读取图片,利用opencv将图片按批次转化为以rgb颜色数值代替的矩阵。

步骤二:调整矩阵大小,将矩阵的大小压缩为224×224。

步骤三;根据图片的名称,建立矩阵和图片所对应的美学属性的一一对应关系,一个矩阵对应7个美学属性,用字典或元组保存。

步骤四:将所有预处理得到的数据保存为可供python读取的数据格式,如json或xml。

模型训练程序:

模型训练程序通常包括了上述密集卷积神经网络和分层多任务网络模型所对应的代码,通常还包括一些参数的设置。如学习率(预测误差梯度下降的速度)步长(每次迭代所对应的梯度下降范围)批读取的数量(每次读取一定数量的图片进入网络模型,该参数被成为批读取的数量)等。在网络模型的搭建过程中,可利用tensorflow所提供的应用程序接口,通过调用已知的脚本,快速地搭建具备有卷积层、池化层、全连接层的网络模型。输入层对输入脚本传递过来的高维矩阵和美学属性建立其标签,具体体现在在矩阵和标签值间建立一一对应的关系。从输入层开始,每一层的输出均为高维矩阵(根据不同层,有不同的输出情况,包括64层、128层、256层三种情况),并将此矩阵输出给下一层进行各种运算(包括进行密集深度卷积网络的运算和多任务网络的运算)。最后一层所输出的数字即为所需的预测值。

整个模型属于负反馈模型,如图3,针对预测值与实际数据集中提供的各种数值之间的差,反向传播差值,并用梯度下降的方法,对之前的层进行参数的调整,每次训练过程都将产生一次反向传。经过一定次数的调整后,预测值与提供的真实值之间的差距小于所制定的范围,即认为模型训练过程结束。

具体步骤如下:

步骤一:读取预处理数据。

步骤二:设置学习率、步长、批处理数量等超参数,学习率预先设置为0.001,步长设置为0.05,批处理数量设置为32。

步骤三:设计密集卷积神经网络算法。

密集卷积神经网络的主要构成依次为:

第一层:一个卷积核大小为7×7的卷积层,第一层的输入为输入矩阵;

第二层:一个池化区域为3×3的最大池化层;

第三层至第八层:三个主要的网络部分依次相接,每个网络部分包括了一个密集卷积模块和一个过渡层。

第三层:第一个密集卷积模块,包括了6个1×1卷积操作和6个3×3卷积操作。

第四层:第一个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

第五层:第二个密集卷积模块,包括了12个1×1卷积操作和12个3×3卷积操作。

第六层:第二个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

第七层:第三个密集卷积模块,包括了36个1×1卷积操作和36个3×3卷积操作。

第八层:第三个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

这里的每次1个1×1卷积操作和1个卷积操作即认为是一次密集卷积操作,而三个密集卷积模块分别执行了6次、12次、36次密集卷积操作。这里所使用的密集卷积神经网络满足每个密集卷积操作层输出的矩阵长度均小于100。

步骤四:设计多任务网络。

多任务网络所采用的分层多任务模型,具体的模型为对密集卷积网络输出的结果进行同时进行六个全连接层的操作,每个美学属性均会经过一次全连接操作。每个全连接层在网络结构上属于并行操作,即依据不同的真实值进行预测回归,同时不同的全连接层具有不同的梯度下降参数。每个全连接层的大小为128×1,通过全连接层,可使得该方法训练出的多个特征可在一个数值上体现出来。

模型测试程序:

模型测试程序与模型训练程序类似,其区别在于模型的输入中无每张图片所对应的美学属性,也并不存在负反馈,直接输出所得到的测试数据。

具体步骤如下:

步骤一:读取预处理数据,同时放弃预处理数据中的美学属性标签,即仅读取图片矩阵。

步骤二:设置学习率、步长、批处理数量等超参数,学习率预先设置为0.001,步长设置为0.05,批处理数量设置为32。

步骤三:设计密集卷积神经网络算法。

密集卷积神经网络的主要构成依次为:

第一层:一个卷积核大小为7×7的卷积层,第一层的输入为输入矩阵;

第二层:一个池化区域为3×3的最大池化层;

第三层至第八层:三个主要的网络部分依次相接,每个网络部分包括了一个密集卷积模块和一个过渡层。

第三层:第一个密集卷积模块,包括了6个1×1卷积操作和6个3×3卷积操作。

第四层:第一个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

第五层:第二个密集卷积模块,包括了12个1×1卷积操作和12个3×3卷积操作。

第六层:第二个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

第七层:第三个密集卷积模块,包括了36个1×1卷积操作和36个3×3卷积操作。

第八层:第三个过渡层,包括了1个1×1卷积操作和1个2×2平均池化层。

这里的每次1个1×1卷积操作和1个卷积操作即认为是一次密集卷积操作,而三个密集卷积模块分别执行了6次、12次、36次密集卷积操作。这里所使用的密集卷积神经网络满足每个密集卷积操作层输出的矩阵长度均小于100。

步骤四:设计测试程序所使用的多任务网络。

多任务网络所采用是无回归算法的分层多任务模型,具体的模型为对密集卷积网络输出的结果进行同时进行六个全连接层的操作,每个美学属性均会经过一次全连接操作。每个全连接层的大小为128×1,通过全连接层,可使得该方法训练出的多个特征可在一个数值上体现出来。

总之,本发明中提出的基于密集卷积神经网络和分层多任务网络的图像美学属性评估方法能够适用于对图像的美学属性分析的场景。本发明首次将卷积神经网络和多任务学习结合起来,并应用到图像美学属性评价中,大大降低运行空间,减少了运行时间,提高了运算效率。通过实验显示出本发明提出的方法能够有效减少以往机器学习繁杂的运算方法的劣势;通过使用深度神经网络,大大节约了运行时间,提高了运行效率。并且该美学属性评价方法很容易通过一定的深度学习环境实现,本发明可广泛应用到计算机视觉、图像分析与处理、数码摄影和数字娱乐等领域中。

以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1