基于卷积自编码网络的无参考图像质量评价方法与流程

文档序号：16742637发布日期：2019-01-28 13:09阅读：203来源：国知局

本发明属于图像处理技术领域，更进一步涉及数字图像处理技术领域中的一种基于卷积自编码网络的无参考图像质量评价方法。本发明可应用于对没有原始参考图像的数字图像的感知质量进行客观评价，用于保证获取的数字图像数据的有效性和准确性。

背景技术：

数字图像在成像、传输和存储的过程中，受到光学系统、压缩传输以及其它因素的影响，最终会使得终端获得的图像存在压缩失真、高斯噪点、模糊等各种图像质量下降的问题。图像的感知质量是比较各种数字图像处理算法性能优劣以及数字图像成像系统参数的重要指标。在各类图像的质量评价方法中，无参考图像质量评价方法在预测图像的感知质量时无需其原始的参考图像，因此这是一种最具难度也最实用的图像质量评价方法。

kang等人在其发表的论文“convolutionalneuralnetworksforno-referenceimagequalityassessment”(computervisionandpatternrecognition.ieee,2014:1733-1740)中公开了一种基于卷积神经网络的无参考图像质量评价方法。该方法训练了一个基于卷积神经网络(convolutionalneuralnetworks，cnn)的端到端的无参考图像质量评价模型，该模型将一副图像切割为若干图像块作为输入，经过cnn逐层地特征提取后映射为图块质量分数，最后将所有的图块分数进行平均得到整图的质量分数。该方法为了保证深度网络的训练效果，选择了将整图切块的方式来输入网络。该方法存在的不足之处是，只使用图像块作为网络的输入，没有考虑图像语义内容的整体性，使得训练出的模型的评价结果准确度不高。

宁波大学在其申请的专利文献“一种基于深度学习的无参考图像质量客观评价方法”(专利申请号：201510523373.1，申请公开号：cn105208374a)中公开了一种基于堆栈自编码器的无参考图像质量评价方法。该方法先利用多分辨率金字塔和高斯差分分解方法，从空域中手工提取自然统计特性nss(naturalscenestatistics)的特征，然后构建一个深度稀疏堆栈自编码器来学习所提取的nss特征的深度表达形式，最后通过支持向量机将经过深度表达的特征映射为图像的质量分数。该方法存在的不足之处是，该方法采用手工提取的自然统计特性nss的特征来进行分数拟合，使得所提取的特征对图像质量的敏感度不高，导致评价结果不能更好的符合人的主观感受。

技术实现要素：

本发明的目的是针对上述现有技术的不足，提出了一种基于卷积自编码网络的无参考图像质量评价方法。本发明与现有其他无参考图像质量评价方法相比，能够更全面更充分地挖掘图像的整体语义信息和局部失真信息，并将两种信息进行融合再进行质量回归。

实现本发明的技术思路是：搭建基于卷积自编码网络的初级特征编码模型对无参考图像及其所切割出的图像块进行特征编码，再搭建基于全连接网络的全局语义特征的提取模型和局部失真特征的提取模型，分别从无参考图像及其对应图像块的特征编码中提取无参考图像的全局语义特征和局部失真特征，再将两种特征进行加权融合，得到无参考图像的全局局部融合特征，最后将无参考图像的全局局部融合特征输入全连接神经网络中得到无参考图像的感知质量分数。

实现本发明的具体步骤如下：

利用卷积自编码网络对测试集中每幅失真图像和对其切割产生的图像块分别进行特征编码，利用空间金字塔池化和全连接神经网络从测试集中每幅失真图像的特征编码中提取全局语义特征，利用全连接神经网络从测试集中每幅失真图像的对应图像块的特征编码中提取图像的局部失真特征；该方法具体步骤包括如下：

(1)构建卷积自编码网络：

搭建一个17层的卷积自编码网络，并设置卷积自编码网络的各层参数；

(2)构建全连接神经网络：

(2a)搭建3个子全连接神经网络，将第1个和第2个子全连接神经网络的输出层分别与第3个子全连接神经网络的输入层相连，组成全连接神经网络；

(2b)设置全连接神经网络的3个子全连接神经网络的各层参数；

(3)生成预训练集、训练集、测试集：

(3a)从公知数据库中随机选取不少于5000幅的无失真图像，在每一幅图像中添加4种不同类型5种不同程度的噪声信号后组成失真图像集，将该失真图像集作为预训练集；

(3b)从公知数据库中随机选取不超过50幅的无失真图像，在每一幅图像中添加24种不同类型5种不同程度的噪声信号后组成失真图像集；利用主观质量评价方法，评价每幅失真图像的主观评分，将每幅失真图像的主观评分作为其质量标签，随机选取所有具有质量标签的失真图像的80％组成训练集，将剩下20％的失真图像组成测试集；

(4)训练卷积自编码网络和全连接神经网络：

(4a)将预训练数据集中的失真图像依次输入到卷积自编码网络中，使用随机梯度下降法，调整卷积自编码网络中的参数，直到调整参数后的卷积自编码网络输出与输入间的损失值小于阈值，得到预训练好的卷积自编码网络；

(4b)将全连接神经网络中第1个子全连接神经网络的空间金字塔池化层与第2个子全连接神经网络的输入层，分别连接到预训练好的卷积自编码网络的第5个卷积层组成一个整体网络，将训练数据集里的失真图像依次输入到整体网络中进行训练，使用随机梯度下降法，调整整体网络的参数，直到调整参数后的整体网络输出与输入间的损失值小于阈值，得到训练好的整体网络；

(5)对测试集中每幅失真图像进行特征编码：

(5a)将测试集中每幅失真图像复制出一个与原失真图像一模一样的副本，将每幅失真图像的副本切割成尺寸为96x96的图像块，将每幅失真图像对应的副本的所有图像块组成一个图块包；

(5b)将测试集中每幅失真图像与其对应的图块包输入到训练好的整体网络的卷积自编码网络的输入层中，整体网络的卷积自编码网络的第5个卷积层分别输出每幅失真图像的特征编码和每幅失真图像对应的图块包中每个图像块的特征编码，将每幅失真图像对应图块包的中所有图像块的特征编码组成每幅失真图像的特征编码包；

(6)提取测试集中每幅失真图像的全局语义特征：

将测试集中每幅失真图像的特征编码，依次输入到训练好的整体网络的全连接神经网络的第1个子全连接神经网络的空间金字塔池化层中，整体网络的全连接神经网络的第1个子全连接神经网络的输出层，依次输出测试集中每幅失真图像的全局语义特征；

(7)提取测试集中每幅失真图像的局部失真特征：

(7a)将测试集中每幅失真图像对应图块包的特征编码包中的特征编码进行加权平均，得到测试集中每幅失真图像对应图块包的平均特征编码；

(7b)将测试集中每幅失真图像对应图块包的平均特征编码，依次输入训练好的整体网络的全连接神经网络的第2个子全连接神经网络的输入层中，整体网络的全连接神经网络的第2个子全连接神经网络的输出层，依次输出测试集中每幅失真图像的局部失真特征；

(8)融合全局语义特征和局部失真特征：

将测试集中每幅失真图像的全局语义特征和局部失真特征进行加权求和，得到测试集中每幅失真图像的融合特征；

(9)对测试集中每幅图像进行质量评价：

将测试集中每幅失真图像的融合特征，依次输入训练好的整体网络的全连接神经网络的第3个子全连接神经网络，整体网络的全连接神经网络的第3个子全连接神经网络输出失真图像的质量评价值。

本发明与现有技术相比较，具有以下优点：

第一，由于本发明构建了一个空间金字塔池化层和全连接神经网络，提取无参考图像的全局语义特征，克服了现有无参考图像质量评价技术中只使用图像块作为网络的输入，导致训练出的模型的评价结果准确度不高的问题，使得本发明具有在评价无参考图像质量时结果更加精确的优点。

第二，由于本发明利用卷积自编码网络对无参考图像和对无参考图像切割产生的图像块分别进行编码，得到无参考图像和其对应的图像块的编码特征，克服了现有无参考图像质量评价技术中采用手工提取的自然统计特性nss的特征来进行分数拟合，使得所提取的特征对图像质量的敏感度不高，导致评价结果不能更好的符合人的主观感受的问题，使得本发明具有在评价无参考图像质量时结果能更好的符合人的主观感受。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图和仿真实验对本发明做进一步的描述。

参照附图1，对本发明的具体步骤做进一步的详细描述。

步骤1.构建卷积自编码网络。

搭建一个17层的卷积自编码网络并设置卷积自编码网络各层参数；其结构依次为：输入层→第1个卷积层→第1个池化层→第2个卷积层→第2个池化层→第3个卷积层→第3个池化层→第4个卷积层→第5个卷积层→第1个反卷积层→第2个反卷积层→第1个反池化层→第3个反卷积层→第2个反池化层→第4个反卷积层→第4个反池化层→第5个反卷积层；

设置卷积自编码网络各层参数如下：

将输入层的通道数设置为3。

将第1个卷积层的卷积核设置为32个，第2，3，4，5个卷积层的卷积核均设置为64个，所有卷积层的卷积核大小均设置为3×3。

将每个池化层的下采样滤波器尺寸设置为2×2。

将第1，2，3个反卷积层的反卷积核均设置为64个，第4个反卷积层的反卷积核设置为32个，第5个反卷积层的反卷积核设置为3个，所有反卷积层的反卷积核大小均设置为3×3。

将每个反池化层的上采样滤波器尺寸设置为2×2。

步骤2.构建全连接神经网络。

搭建3个子全连接神经网络，第1个子全连接神经网络的结构依次为：空间金字塔池化层→输入层→输出层；第2个子全连接神经网络的结构依次为：输入层→输出层；第3个全连接神经网络的结构依次为：输入层→输出层。

将第1个和第2个子全连接神经网络的输出层分别与第3个子全连接神经网络的输入层相连，组成全连接神经网络；该网络的输入层有两个，分别为第1个子全连接神经网络的空间金字塔池化层和第2个子全连接神经网络的输入层；该网络的输出层为第3个子全连接神经网络的输出层。

将第1个子全连接神经网络中的空间金字塔池化层的采样尺度分别设置为1×1、2×2、3×3、4×4；输入层的节点数设置为1920个；输出层的节点数设置为800个。

将第2个子全连接神经网络中的输入层的节点数设置为2304个；输出层的节点数设置为800个。

将第3个子全连接神经网络中的输入层的节点数设置为800个；输出层的节点数设置为1个。

步骤3.生成预训练集、训练集、测试集。

从公知数据库中随机选取不少于5000幅的无失真图像，在每一幅图像中添加4种不同类型5种不同程度的噪声信号后组成失真图像集，将该失真图像集合作为预训练集。在本发明的实施例中采用的公知数据库是加拿大滑铁卢大学的exploration数据库。

从公知数据库中随机选取不超过50幅的无失真图像，在每一幅图像中添加24种不同类型5种不同程度的噪声信号后组成失真图像集；利用主观质量评价方法，评价每幅失真图像的主观评分，将每幅失真图像的主观评分作为其质量标签，随机选取所有具有质量标签的失真图像的80％组成训练集，将剩下20％的失真图像组成测试集。

步骤4.训练卷积自编码网络和全连接神经网络：

将预训练数据集中的失真图像依次输入到卷积自编码网络中，使用随机梯度下降法，调整卷积自编码网络中的参数，直到调整参数后的卷积自编码网络输出与输入间的损失值小于阈值，得到预训练好的卷积自编码网络。

所述的使用随机梯度下降法，调整卷积自编码网络中的参数的步骤如下：

第1步，输入一幅预训连集中的失真图像。

第2步，按照下式，计算卷积自编码网络的输出图像与所输入的失真图像之间的差距，将该差距作为卷积自编码网络损失值：

其中，l1表示卷积自编码网络的输出图像与所输入的失真图像之间的差距，λ1表示卷积自编码网络输入输出端的重构误差的加权系数，λ1∈[0,1]，||·||2表示2范数操作，xi表示输入卷积自编码器中的预训练数据集中的第i幅失真图像，yi表示卷积自编码器对输入卷积自编码器的预训练数据集的第i幅失真图像进行重构后得到的输出图像，λ2表示编码器中间层重构误差的加权系数，λ2∈[0,1]，∑表示求和操作，xim表示在输入预训练数据集中的第i幅失真图像时，卷积自编码器第m层卷积层的输入，表示在输入预训练数据集中的第i幅失真图像时，卷积自编码器m层反卷积层的输出，m＝1,2,3,4,5。

第3步，依照下式，调整卷积自编码网络中的每个参数：

θ′k＝θk-α×gk

其中，θ′k表示卷积自编码网络调整参数后的第k个参数，θk表示卷积自编码网络调整参数前的第k个参数，α表示调整参数时的学习率，α∈[0,1]，gk表示网络损失值对网络调整参数前的第k个参数的偏导数。

第4步，将所输入的失真图像输入到调整参数后的卷积自编码网络中，计算调整参数后卷积自编码网络的输出图像与所输入的失真图像之间的差距，将该差距作为调整参数后的卷积自编码网络的损失值。

第5步，判断调整参数后卷积自编码网络的损失值是否小于阈值，若是，则得到训练好的卷积自编码网络，否则，执行第1步.所述阈值为一个根据对卷积自编码网络的训练精度的不同要求而从[0,300]范围选取的数值，选取的数值越大，网络的训练精度越低，选取的数值越小，网络的训练精度越高。

将全连接神经网络中第1个子全连接神经网络的空间金字塔池化层与第2个子全连接神经网络的输入层，分别连接到预训练好的卷积自编码网络的第5个卷积层组成一个整体网络，将训练数据集里的失真图像依次输入到整体网络中进行训练，使用随机梯度下降法，调整整体网络的参数，直到调整参数后的整体网络输出与输入间的损失值小于阈值，得到训练好的整体网络。

所述的使用随机梯度下降法，调整整体网络的参数的步骤如下：

第1步，输入一幅训练集中的失真图像。

第2步，按照下式，计算整体网络的输出与所输入的失真图像的质量标签之间的差距，将该差距作为整体网络的损失值：

其中，l2表示整体网络的输出与所输入的失真图像的质量标签之间的差距，w1表示整体网络中全连接神经网络部分的损失值加权系数，w1∈[0,1]，|·|表示取绝对值操作，yi表示将训练数据集中的第i幅失真图像输入整体网络后，整体网络中的全连接神经网络输出的感知质量值，qi表示输入整体网络的训练数据集的第i幅失真图像对应的质量标签，w2表示整体网络中卷积自编码器部分的损失值加权系数，w2∈[0,1]，β1表示编码器输入输出端重构误差的加权系数，β1∈[0,1]，||·||2表示2范数操作，ai表示输入整体网络的训练数据集的第i幅失真图像，bi表示整体网络中的卷积自编码器对输入整体网络的训练数据集的第i幅失真图像进行重构后得到的输出图像，β2表示卷积自编码器中间层重构误差的加权系数，β2∈[0,1]，∑表示求和操作，xin表示在输入训练数据集中的第i幅失真图像时，整体网络中卷积自编码器的第n层卷积层的输入，表示在输入训练数据集中的第i幅失真图像时，整体网络中卷积自编码器的第n层反卷积层的输出，n＝1,2,3,4,5。

第3步，依照下式，调整整体网络中的每个参数：

ω′t＝ωt-l×dt

其中，ω′t表示整体网络调整参数后的第t个参数，ωt表示整体网络调整参数前的第t个参数，l表示调整参数时的学习率，l∈[0,1]，dt表示整体网络调整参数前的损失值对整体网络调整参数前的第t个参数的偏导数。

第4步，将所输入的失真图像输入到调整参数后的整体网络中，计算调整参数后整体网络的输出与所输入的失真图像的质量标签之间的差距，将该差距作为调整参数后整体网络的损失值。

第5步，判断调整参数后整体网络的损失值是否小于阈值，若是，则得到训练好的整体网络，否则，执行第一步；所述阈值为一个根据对整体网络的训练精度的不同要求而从[0,300]范围选取的数值，选取的数值越大，整体网络的训练精度越低，选取的数值越小，整体网络的训练精度越高。

步骤5.对测试集中每幅失真图像进行特征编码：

将测试集中每幅失真图像复制出一个与原失真图像一模一样的副本，将每幅失真图像的副本切割成尺寸为96x96的图像块，将每幅失真图像对应的副本的所有图像块组成一个图块包。

将测试集中每幅失真图像与其对应的图块包输入到训练好的整体网络的卷积自编码网络的输入层中，整体网络的卷积自编码网络的第5个卷积层分别输出每幅失真图像的特征编码和每幅失真图像对应的图块包中每个图像块的特征编码，将每幅失真图像对应图块包的中所有图像块的特征编码组成每幅失真图像的特征编码包。

步骤6.提取测试集中每幅失真图像的全局语义特征：

将测试集中每幅失真图像的特征编码，依次输入到训练好的整体网络的全连接神经网络的第1个子全连接神经网络的空间金字塔池化层中，整体网络的全连接神经网络的第1个子全连接神经网络的输出层，依次输出测试集中每幅失真图像的全局语义特征。

步骤7.提取测试集中每幅失真图像的局部失真特征：

将测试集中每幅失真图像对应图块包的特征编码包中的特征编码进行加权平均，得到测试集中每幅失真图像对应图块包的平均特征编码。

将测试集中每幅失真图像对应图块包的平均特征编码，依次输入训练好的整体网络的全连接神经网络的第2个子全连接神经网络的输入层中，整体网络的全连接神经网络的第2个子全连接神经网络的输出层，依次输出测试集中每幅失真图像的局部失真特征。

步骤8.融合全局语义特征和局部失真特征：

将测试集中每幅失真图像的全局语义特征和局部失真特征进行加权求和，得到测试集中每幅失真图像的融合特征。

步骤9.对测试集中每幅图像进行质量评价：

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真条件：

本发明的仿真实验的硬件平台为：intel(r)xeon(r)cpue5-2630，2.40ghz*16，内存为64g。本发明的仿真实验采用pytorch软件。

2.仿真内容与结果分析：

本发明的仿真实验是采用本发明和两个现有技术(一种基于卷积神经网络的无参考图像质量评价方法cnn(convolutionalnerualnetwork)和一种基于堆栈自编码器的无参考图像质量评价方法sae(stackedautoencoder))，分别对三个公知数据库live、tid2013和clive中的失真图像进行无参考的质量评价。

为了评判本发明和另外两个现有技术的无参考图像质量评价效果的好坏，本仿真实验采用斯皮尔曼秩相关系数srocc(spearmanrankordercorrelationcoefficient)和线性相关系数lcc(linearcorrelationcoefficient)这两个指标，分别对本发明和两个现有技术的无参考图像质量评价效果进行评判。斯皮尔曼秩相关系数srocc∈[-1,1]，其数值越高，说明被评判的无参考图像质量评价方法的评价结果能更正确地反映出不同图像之间的质量好坏程度，所述的线性相关系数lcc∈[-1,1]，其数值越高，说明被评判的无参考图像质量评价方法的评价结果更接近人类的主观评价分数。

所述的斯皮尔曼秩相关系数srocc和线性相关系数lcc是按照下式计算得到的：

其中，srocc表示斯皮尔曼秩相关系数，n表示用来评价的图像总数，∑表示求和操作，be表示第e幅失真图像的质量评价值的排序序号与其主观评价分数的排序序号之差，lcc表示线性相关系数，sr表示第r幅失真图像的质量评价分数，表示所有失真图像的质量评价分数的平均值，pr表示第r幅失真图像的的主观评价分数，表示所有失真图像的主观评价分数的平均值。

本仿真实验使用本发明和两个现有技术对三种不同的公知数据库里的图像进行评价，计算每种方法的评价结果的斯皮尔曼秩相关系数srocc和线性相关系数lcc，计算结果如表1所示。

表1.三种方法的评价结果对比表

从表1可见，本发明在三种公知数据库上评价结果的斯皮尔曼秩相关系数srocc和线性相关系数lcc均高于两种现有技术，证明本发明具有更好的无参考图像质量评价效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高新波;何维佺;路文
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：一种智能存储柜的制作方法
上一篇：用于散体充填材料的温度-压力耦合试验装置及其试验方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。