一种基于深度残差网络的超分辨率图像质量评估方法与流程

文档序号:13542755阅读:433来源:国知局
本发明涉及图像质量评估方法,尤其涉及一种基于深度残差网络的超分辨率图像质量评估方法。
背景技术
:超分辨率图像质量评估(imagequalityassessment,iqa)是一种自动预测图像质量的技术。随着视觉媒体数据量的爆炸式增长,互联网每天生成、存储、处理和发送大量的数字图像。在这些过程中,经常会对图像产生不同类型的破坏如:噪音、模糊和压缩等,图像可能会因此而出现多种不同的失真。因此,通常需要对失真图像进行超分辨率重构,以还原出清晰的图像。然而,针对超分辨后图像质量的评估问题,通常采用全参考的评估方式,如采用峰值信噪比(peaksignaltonoiseratio,psnr)、均方误差(meansquareerror,mse)和结构相似(structuralsimilarity,ssim)等指标。这些传统的超分辨率图像质量评价指标存在以下两个问题:第一,通常来说,在实际的应用中,原始的参考图像是不可获取。第二,这些评价方法都是建立在失真图像与原始图像差异的基础上所提出的,目的是为了考虑图像信号和噪声而不是人类视觉感知,不能够很好的反应出人类视觉对图像质量的评估。因此,超分辨率图像质量的评估需要一种无参考的方式,且该方式还要能够准确的反应出人类视觉对图像质量的评估。总的来说,图像质量评估主要可分为以下三种:全参考(fullreference)、半参考(halfreference)和无参考图像质量评估(blindimagequalityassessment,biqa)。其中,全参考和半参考方式均需要原始图像作为参考依据。然而,在许多实际应用中,获取待评估图像的参考图像非常困难甚至是不可能的。因此,开发有效的biqa方法已经变得越来越重要,该方法不会使用关于参考图像的任何特定信息。在biqa方法中,最常用的方法是使用基于自然场景统计(naturalscenestatistics,nss)的特征,该方法是建立在原始图像分布具有稳定性基础上的。传统的基于nss的特征可以在变换域中提取得到,例如:mittal等人,从局部的归一化图像中提取nss特征,并通过支持向量回归(supportvectorregression,svr)的方法将提取到的特征用于预测图像质量得分[1]。很明显,基于机器学习和nss的方法依赖于手工的方式提取数据的特征。近年来,在无参考的图像质量评估领域,出现了一些应用深度学习的解决方案。例如,liang等人采用双路径深度卷积神经网络对图像进行质量评估[2],能够较好的将深度网络应用于图像质量评估中,但仍然存在可训练的图像数据集不足等问题。kim等人采用深度学习技术实现无参考的图像质量得分预测[3],该方法采用了一定的数据增强技术,但仍然无法满足训练深层网络的需求,仅使用了2个卷积层加上5个全连接层的浅层神经网络结构。ma等人制作了一个含有人类主观感知评分的超分辨率图像数据集[4],并提出了一种专门针对超分辨率图像质量评估的模型,该模型利用了传统的方法提取手工设计的特征。liu等人提出了一种基于图像失真等级的方式来扩充训练数据集[5],该论文采用了vgg-16的网络结构并在图像质量评估相关的数据集上训练,其使用的网络结构较浅,且没有将该方法用于超分辨率图像质量的评估中。中国公开专利“一种基于深度学习的无参考图像质量客观评价方法”(公开号cn105208374a,公开日为2015.12.30)采用了一种深度学习中的堆栈自编码器算法对训练集中的所有失真图像各自对应的自然统计特征集和平均主观意见分进行训练。该方法的缺陷是需要手工的设计nss特征的提取,且使用的是简单的浅层深度神经网络。上述基于深度学习的方法,仍然存在需要手工设计特征、缺少含有人类主观评分的超分辨率图像数据集而无法使用深度残差网络来训练等问题。总的来说,目前应用于超分辨率图像质量评估问题的深度学习方法存在以下两个缺点:第一,需要手工设计图像的特征。第二,需要大量的人类主观评分数据集来训练深层模型。因此,目前非常需要一种高效且准确的无参考图像质量评估方案。技术实现要素:本发明的目的在于克服现有技术的不足,提供一种基于深度残差网络的超分辨率图像质量评估方法。本发明主要分为以下三个阶段:首先,本发明提出了一种用于自动提取图像失真特征的深度残差网络,以实现从输入数据中自动提取有意义的特征。其次,本发明提出一种基于失真图像排序的方法来对深度模型进行预训练,以解决带标签的人类主观评分数据集不足的问题。最后,利用带有质量得分标签的超分辨率图像数据集,对得到预训练模型进行微调,得到最终的预测模型。本发明采用的技术方案是:一种基于深度残差网络的超分辨率图像质量评估方法,其包括以下步骤:步骤1,收集一组未经损失的高清原始图像数据集,步骤2,对原始图像数据集中的每一张高清图像按照3种以上的失真方式进行失真处理,且每一种失真方式按照5个以上失真等级进行失真,得到不同等级的失真图像;步骤3,把所获得的不同等级的失真图像中按一定的比例随机划分为训练集和测试集;步骤4,构建提取图像特征的深度残差网络结构,深度残差网络结构包括依次设输入图像之后的卷积层、批量归化层、激活函数层、池化层、16个依次串联的残差结构和全连接层,全连接层输出网络预测得分,残差结构包括三组卷积结构和eltwise层,三组卷积结构依次串接后连接eltwise层,每组卷积结构包括依次连接的卷积层、批量归化层和激活函数层,池化层分别与每个残差结构的eltwise层连接;步骤5,计算获取深度残差网络结构所对应的损失函数;xi和xj分别表示在同一失真方式下,不同失真等级所对应的两张图像,且xi图像的主观质量低于xj。这两张图像对应深度残差网络的输出分别记为f(xi,β)和f(xj,β),则深度残差网络结构所对应的损失函数为:l(xi,xj,β)=max(0,f(xi,β)-f(xj,β))其中,β表示网络的待优化参数;步骤6,在,将同一失真方式下的多组不同失真等级的两张图像输入深度残差网络,通过多层的卷积运算提取对应图像的特征;对每一个卷积层的输出特征图,进行批量归一化(batchnormalization,bn)操作,再将归一化后的特征图输入到神经元的激活函数中激活;结合步骤5的损失函数通过误差反向传播算法对深度残差网络进行预训练,获取损失函数所对应的梯度信息:其中,表示图像xi所对应的梯度,表示损失函数所对应的梯度;通过误差反向传播算法来训练网络,使得网络的误差不断减小。最终使得该深度残差网络能够分辨一对图片的等级,即能够分辨出哪张图片的清晰度更高,完成了网络的预训练阶段,此时可以得到预训练过的深度残差网络,并记为模型m。步骤7,利用公开的带有人类视觉主观得分的超分辨率图像数据集,改用平方欧式距离作为损失函数对预训练好的深度残差网络进行微调,同样采用误差反向传播的算法来训练模预训练好的深度残差网络,得到微调后的损失函数为:其中,yi表示第i张图像所对应的得分标签,yi'表示第i张图像所对应的网络预测得分,n表示该批次参与训练的图像数;步骤8,将待评估的图像输入微调后的深度残差网络,配合微调后的损失函数预测出每张待评估的图像的网络预测得分。所述失真方式包括jpeg压缩、jp2000压缩和高斯模糊。所述失真等级为5个。所述jpeg压缩的5个失真等级下所对应的质量因子分别为:55,20,10,5,0;jp2000压缩的5个失真等级下所对应的压缩率分别为:50,200,300,500,1000;高斯模糊的5个失真等级下所对应的标准差分别为:1,3,8,20,30。所述训练集占80%,测试集占20%。所述训练集中的图像在训练时重新且随机被切割出一张子图,子图的大小为224x224。所述步骤6中,将同一失真方式下18组不同失真等级的两张图像输入深度残差网络,即输入36张图像。本发明采用以上技术方案,首先需从公开的高清图像数据库获取一组图像。其次,基于该组图像生成不同等级的失真图像,用于对网络进行预训练,可以得到一个能够分辨一对图像清晰度高低的预训练的深度残差网络,记作模型m。然后,再根据公开的带有人类视觉主观得分的超分辨率图像数据集来对模型m进行微调。最后,可以得到一个能够准确预测输入超分辨率图像所对应得分的深度残差网络。相比于传统的无参考图像质量评估方法,本发明采用深度残差网络来自动提取图像的失真特征,可以避免传统方法手工提取特征的缺点。同时,本发明所提出的根据失真图像排序的方法,能够利用互联网中丰富的原始高清图像及其对应的失真图像来预训练网络,可以先得到一个较好的预训练模型m,这种处理方式能够有效的解决训练深层网络时,超分辨率图像质量评估数据集不足的问题。附图说明以下结合附图和具体实施方式对本发明做进一步详细说明;图1为本发明一种基于深度残差网络的超分辨率图像质量评估方法的框架图;图2为本发明一种基于深度残差网络的超分辨率图像质量评估方法的深度残差网络结构结构示意图;图3为本发明一种基于深度残差网络的超分辨率图像质量评估方法在公开数据集上预测效果所对应的散点图。具体实施方式如图1-3之一所示,本发明公开了一种基于深度残差网络的超分辨率图像质量评估方法,其包括以下步骤:步骤1,收集一组未经损失的高清原始图像数据集,可直接使用网络上公开的相关数据集。例如:waterloo(4744张)、places2(36500张)等;步骤2,此处采用waterloo(4744张)数据集,对数据集中的每一张高清图像按照3种失真方式:jpeg压缩、jp2000压缩和高斯模糊进行失真处理,对于每一种失真方式都按照5种等级进行失真,其中:jpeg压缩,5个失真等级下所对应的质量因子分别为:55,20,10,5,0。jp2000压缩,5个失真等级下所对应的压缩率分别为:50,200,300,500,1000。高斯模糊,5个失真等级下所对应的标准差分别为:1,3,8,20,30。通过上述操作,一共可获得4744x3x5=71160张不同等级的失真图像。步骤3,把所获得的图像数据集中按一定的比例随机划分训练集(80%)和测试集(20%)。同时,为了固定深度残差网络输入层神经元的个数,训练时将待训练的图像切割成224x224大小,即每一张待训练的图像训练时都重新且随机的从中切割出一张子图。步骤4,设计深度残差网络结构,用于对输入图像的特征提取。网络深度为50层,由49个卷积层、1个全连接层构成,其中包含了16个残差结构,网络中使用了1x1、3x3和7x7三种大小的卷积核。具体的网络结构图见附图2。将搭建好的深度残差网络用于自动提取图像的特征。其中,为了更好地训练深度残差网络,每隔3个卷积层采用一个残差结构,这样做可以有效的避免随着网络的加深而出现的梯度消散现象;步骤5,推导步骤4中深度残差网络结构所对应的损失函数。首先,设定xi和xj分别表示在同一失真方式下,不同失真等级所对应的两张图像,且xi图像的主观质量低于xj。这两张图像对应深度残差网络的输出分别记为f(xi,β)和f(xj,β)接着,深度网络所对应的损失函数可定义为:l(xi,xj,β)=max(0,f(xi,β)-f(xj,β))其中,β表示网络的待优化参数。此时,该损失函数的作用是保证图像质量低的图片所对应的网络输出更小。步骤6,在同一失真方式下,不同失真等级的一组图像记为(xi,xj),所对应的训练批次大小设为36,即每个批次有18组图像对参与训练。把图像对(xi,xj)同时输入深度残差网络中,通过多层的卷积运算提取对应图像的特征;对每一个卷积层的输出特征图,进行批量归一化(batchnormalization,bn)操作,再将归一化后的特征图输入到神经元的激活函数中激活;并在步骤5所设计的损失函数基础上,通过误差反向传播算法来训练网络,使得网络的误差不断减小。该损失函数所对应的梯度信息可表示为:其中,表示图像xi所对应的梯度,表示损失函数所对应的梯度;经过训练后,可使得该深度残差网络能够分辨一对图片的等级,即能够分辨出哪张图片的清晰度更高,到此便完成了网络的预训练阶段,此时可以得到预训练好的模型,记为m。步骤7,利用公开的带有人类视觉主观得分的超分辨率图像数据集,对预训练好的模型m进行微调,此时深度残差网络的损失函数改用平方欧式距离,同样采用误差反向传播的算法来训练网络,所对应的损失函数可描述为:其中,yi表示第i张图像所对应的得分标签,yi'表示第i张图像所对应的网络预测得分,n表示该批次参与训练的图像数。经过这个步骤微调后,最终网络能够准确的预测出每张超分辨率图像的得分。步骤8,将待评估的图像输入微调后的深度残差网络,配合微调后的损失函数预测出每张待评估的图像的网络预测得分。下面就本发明质量评估效果进行具体说明:有效的iqa模型应与人类评估者的质量评估高度相关,才能够准确的反映出人类视觉所感知的图像质量,iqa模型常用的评价指标有斯皮尔曼秩相关系数(spearmanrankordercorrelationcoefficient,srocc)和皮尔森线性相关系(pearsonlinearcorrelationcoefficient,plcc),这两个指标都能够单独的作为算法性能的评价指标。srocc指标的具体计算公式如下:其中,ri表示第i个样本在标签中所对应的排序等级,ri表示第i个样本在网络预测值中所对应的排序等级,n表示样本的个数。srocc的值越接近1,则表示两者之间的线性关系越好,也就是算法的性能越好。plcc指标的具体计算公式如下:其中,分子是随机变量x和y的协方差,分母是两者标准差的乘积。plcc可以评价两组数据的线性相关关系。若其值越接近于1,表示算法的性能越好。为了验证本发明的有效性,采用含有人类主观评分的超分辨率图像公开数据库(该链接为:https://sites.google.com/site/chaoma99/sr-metric)进行对比试验。图像质量评估算法sroccbliinds(saad,2012)[6]0.763cnniqa(kang,2014)[7]0.833sriqa(ma,2017)[4]0.931本发明0.972表1如表1所示,本发明与现有技术对超分辨率图像质量评估的srocc平均值。在该公开数据集上本发明的plcc指标值为0.970,即本发明方法能够很好的反映出人类对超分辨率图像的主观评分情况。从附图3可以更加直观地看出上述结论。本发明利用基于深度残差网络技术对超分辨率图像质量进行无参考的评估,本发明提出的超分辨率图像质量无参考评估方法的创新性主要体现在三个方面:第一,本发明利用深度残差网络直接从图像中提取相关失真特征,避免了手工提取特征所遇到的问题。第二,采用根据图像失真等级排序的方法,该方法能够利用互联网中丰富的高清图像,制作所需的预训练数据集。该方法极大的扩充了深度残差网络所需的训练数据集,能够有效的解决含有人类主观评分的超分辨率图像数据集不足的问题。第三,与经典的无参考图像质量评估算法相比,本发明申请的基于深度残差网络的超分辨率图像质量评估方法,其srocc指标和plcc指标均达到0.970或以上,该值非常接近这两个指标的最大值1,即本发明方法能够很好的反映人类对超分辨率图像的主观质量评分情况。本发明方法能够显著地提高人类主观质量评分与模型预测输出之间的相关性。本发明涉及的参考文件如下:[1]a.mittal,a.moorthy,anda.bovik,no-referenceimagequalityassessmentinthespatialdomain,ieeetrans.imageprocess,2012,21(12):4695-4708.[2]liang,yudong,etal."imagequalityassessmentusingsimilarsceneasreference."europeanconferenceoncomputervision.springerinternationalpublishing(eccv2016).[3]kimj,lees.fullydeepblindimagequalitypredictor[j].ieeejournalofselectedtopicsinsignalprocessing,2017,11(1):206-220.[4]mac,yangcy,yangx,etal.learningano-referencequalitymetricforsingle-imagesuper-resolution[j].computervisionandimageunderstanding,2017,158:1-16.[5]liux,jvandeweijerj,bagdanovad.rankiqa:learningfromrankingsforno-referenceimagequalityassessment,in:internationalconferenceoncomputervision(iccv2017).[6]saadma,bovikac,charrierc.blindimagequalityassessment:anaturalscenestatisticsapproachinthedctdomain[j].ieeetransactionsonimageprocessing,2012,21(8):3339-3352.[7]kangl,yep,liy,etal.convolutionalneuralnetworksforno-referenceimagequalityassessment[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.(cvpr2014):1733-1740.当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1