本发明涉及图像处理领域,具体地,涉及一种基于多任务卷积神经网络的图像模糊与噪声评测方法。
背景技术:
图像质量评估:
图像在获取、存储、处理和传输等各个过程中都非常容易发生各种不同类型的失真降质,视频监控系统下的人脸图片也存在失真问题,主要原因如下:
1受成像器材、环境噪声、光照条件等客观因素的影响,导致从监控视频流中抓取的单中贞图像质量下降,在实际监控系统中这些因素我们都是不能避免的。
2基于监控系统下的人脸识别与静态下的人脸识别相比,人是无意识、非配合的,所以多数情况下处于运动状态,由于目标运动会导致抓取的图片产生运动模糊。
3在监控系统中人离摄像头的距离是不断变化的,一些较远的目标会对焦失败而产生失焦模糊。
图像质量客观评价是通过建立数学模型或使用机器学习的方法,来衡量图像退化和失真程度,根据评价方法对原始图像信息的需要程度分为三类:全参考图像质量评价方法,半参考图像质量评价方法和无参考图像质量评价方法。
全参考和半参考方法需要参考图像的全部或者部分信息,在很多时候,参考图像信息很难获取或者获得代价太高,而无参考图像质量评价不需要原始图像的任何信息,所以无参考评价方法更为重要。
目前的无参考模糊图像质量评价算法大致分为三类:直接计算模糊图像质量的评价算法、基于构造参考图像的评价算法、基于机器学习和人工神经网络的评价算法。
常规的模糊图像质量评价算法:
1在空间域,用sobel检测算法进行边缘检测,并通过寻找各个边缘两侧最近的局部极值点确定边缘宽度,最后将边缘宽度的均值作为图像的模糊分数。由于受到噪声的影响,对局部极值点的确定会存在较大的误差,这种图像模糊评价方法相对来说准确度不高。
2在频域,由于图像模糊会导局部相干性结构的破坏,因此用局部相干性强度可作为特征量描述图像中模糊的强弱。
3将频域和空域相结合,在频域利用图像局部幅度谱的梯度衡量模糊造成的高频能量衰减,同时在空域利用全变差描述局部对比度对模糊的影响。
基于构造参考图像的评价算法:
基于构造参考图像的模糊评价算法,主要应用结构相似度算法对参考图像和失真图像进行相关的计算,得出两者的亮度、对比度等图像信息,并加以对比分析,得到图像质量评价分数。
基于机器学习和人工神经网络的评价算法:
该类算法首先提取出特征向量,然后对其进行训练学习,得到一个基于机器学习或人工神经网络的图像质量评价模型。
因为不同失真水平的图像特征和质量评分之间的复杂关系不能用一个单一的公式来表达,所以对图像频域或时域信息分析来评估图像质量只对某一种特定的失真类型效果好,泛化性差,也存在着计算复杂度较高的问题。当前提出的图像模糊评价方法主要利用图像的低层次特征,使其评测精度不高。
图像模糊类型的判定:
在自然场景下拍摄获取的两种最常见的模糊图像:场景的失焦和运动模糊。在图像处理过程中也会产生模糊如图像压缩、高斯低通滤波。不同的模糊类型会造成图像频谱中不同高频成分的丢失,在图像频谱中包含了描述图像特性的(如噪声、模糊等)的信息,因此,不同类型模糊图像的频谱图有较大差异,运动模糊图像的频谱图呈长条状,而散焦模糊图像的频谱图呈圆形由中心向四周发散,可以用它来鉴别一幅图像的模糊的类型。普通的图像模糊类型判定方法首先通过离散傅里叶变换得到频谱图,然后对频谱图进行了一系列的预处理,包括:平滑滤波、图像增强、数学形态学处理、二值化等,最后通过提取频谱图中的特征来分类。
与本发明相关的现有技术一:
现有技术技术一方案
基于卷积神经网络的图像计量评估方法中,一篇文章提出一个卷积神经网络iqf-cnn,结构如图2所示,能自动学习有判别性的图像质量特征,并利用学习的特征进行图像质量评价。
网络训练过程:在归一化后的图像上随机选取不重叠的大小为32*32的图像块;使用有监督学习方法训练iqf-cnn模型,优化模型参数。
测试过程:先通过无重叠采样获得图像块先测试图像,给出每个小图块的质量评价分数,再通过对所有图像块分数求平均,即可估计出测试图像的视觉质量分数。
现有技术技术一方案缺点:
该方法算法能较准确地评估五种常用的图像失真,整体性能优于其他经典评价方法。由于输入图像需要切成32*32的图像块,不容易嵌入到人脸识别系统中。该方法使用的是一个单网络,预测出输入图片作综合质量评测分数。
与本发明相关的现有技术二
现有技术技术二方案
基于概率神经网络的模糊类型鉴别方法。将二维图像频谱用“zigzag”法则抽样为一维输入矢量,作为网络的输入,由于离焦模糊和高斯模糊的频谱特性近似,因而采用两级神经网络对其分类。第二级神经网络仍采用概率神经网络,输出神经元数为2,用于对第一级鉴别为高斯/离焦的图像做进一步精确分类。
现有技术技术二方案缺点:
该方法把频谱图抽为一维向量,输入概率神经网络进行模糊分类。概率神经网络架构是按照贝叶斯判别函数来设置的,以实现错误率最小化。所以网络针对概率密度函数作了三个假设:
1各分类的概率密度函数形态相同。
2次共同的概率密度函数为高斯分布。
3各分类的高斯分布概率密度函数的变异矩阵为对角矩阵,且各对角元素的值相同,值为σ。
该方法对训练样本分布和代表性要求非常高,不能解决图像是否清晰与模糊类型判断的问题。
技术实现要素:
由于不同模糊的图像特征和模糊类型判定的关系复杂,而神经网络所具有的学习能力可以使它抽取并逼近输入与输出之间的内在联系,且独特的深层结构可以学习更具判别性、准确性的特征,因此神经网络是一种理想的解决方案,基于深度学习的图像质量估计算法也不断涌现。多任务学习基本假设是多个任务之间具有相关性,利用任务之间的相关性互相促进,通过共享表示采用并行训练的方法学习多个任务,思想如图1所示,基本目标是提高泛化性能。单独训练的时候是无法利用这些信息,多任务学习则可以利用任务相关性联合提高多个属性分类的精度,相关文献实验表明多任务可以比单任务产生20%-30%的提升。
影响图像质量由多个因素,如图像模糊、噪声等,可以用多任务网络来学习不同的属性。深度网络的层级表示从语义上从底层到高层不断递进,网络层数较浅的卷积层包含较多的细节、局部信息,对于层数较深的卷积层则包含较多的整体信息。表征图像模糊的边缘信息是局部特征,噪声水平需要全局特征,将多个卷积层特征融合成一个子块空间用作多任务学习的特征,通过中间层特征的利用和多任务学习,这两点相辅相成,往往比单任务学习可以取得更好的效果。
本发明目的在于提供了一种基于多任务卷积神经网络的图像模糊与噪声评测方法,解决视频监控下人脸识别系统中检测出的人脸图像预判断问题,实现了通过网络一次性得到图像的噪声水平、模糊度估计、模糊类型,简单且快速,方便集成到基于监控视频下的人脸识别系统中的技术效果。
视频监控图像会受成像器材、环境噪声、光照条件等客观因素及目标运动的影响而引入各种失真问题。通过实验表明,低质量的图片会使视频监控下的人脸识别精度下降,则有必要对图片进行预处理。模糊和噪声是影响图像质量最重要的两个因素,所以在人脸识别系统中,有图像去噪和去模糊等图像预处理模块。在对图片进行预处理前需要做一个判断:图片做什么样的预处理。比如图像存在模糊而且超过一定模糊程度,对图像进行去模糊操作。如果图像不仅存在模糊还有大量噪音,对图片先进行模糊操作,然后再进行去噪操作。因为不同模糊类型去模糊方法不同,需要预测图像模糊类型。本发明是一个基于监控视频下人脸识别系统中的图像预判断模块,该模块对人脸图像做模糊类型判定、模糊度估计、噪声水平估计,要求简单,速度快,以便嵌入到人脸识别系统中。
为解决上述技术问题,本申请提供了一种基于多任务卷积神经网络的图像模糊与噪声评测方法,所述方法包括:
步骤1:收集失真和对应高质量的图片(样本集采集的场景是基于视频监控下的人脸图片,要求具有不同失真程度。高质量的图片是没有模糊,噪声小的图片),对收集的图片(进行人脸检测和对齐后再)进行标定包括:模糊类型标定,模糊程度标定,噪声水平标定,标定后的图片组成数据集;
步骤2:用步骤1生成的样本训练多任务卷积神经网络,得到用于图像模糊与噪声评测的网络模型。该网络共有三个任务任务输出,分别对应模糊类型判定,模糊度估计,噪声水平估算。训练过程中,前半部分多个卷积层权值共享。后半部分有三个任务,每个独立的网络结构拥有独立的全连接层,采用了多种损失函数用以训练不同任务。);融合多个卷积层得到全连接层,全连接层中包括三个特征层:模糊度估计特征层、模糊类型判定特征层、噪声水平估计特征层;
包括的卷积层有:浅层(如第一个卷积层),最后一个卷积层;融合的方法为:对最后一个卷积层分别进行最大和平均的全局池化操作,对得到的融合结果分别做l2规范化后,对得到的两个特征向量级联作为图像表示。对浅层卷积层最同样的操作得到浅层图像表示后,对两个图像表示做二次级联得到最终图像表示。具体如图五所示。
采用这种融合方法原因:
1因为简单的特征就能表征图像质量,减少冗余数据,防止过拟合。
2使用这样的微网络的结构,可以抽象出更加好的局部特征,使得特征图与类别有一致性。
具体的训练过程为:
1从数据集中随机抽取m张图片,输入到步骤2建立的多任务卷积网络,进行多任务同步训练。
2网络前向传播,分别计算模糊类别判定损失,模糊度估计损失,噪声水平估计损失。
3计算多任务卷积网络总loss。计算梯度,用随机梯度下降法更新网络。直至总的目标函数趋于稳定
步骤3:对一张已经检测和对齐的人脸图片,输入到步骤2得到的网络模型中,进行图像模糊类型判定、模糊度估计、噪声水平估计得到:模糊度估计值a,为最终模糊度评测值,得到运动模糊与失焦模糊概率(pi),如果a小于阈值c,则判定结果为图像清晰,否则最终模糊类别判定结果为概率大的类别;得到噪声水平估计值b,为最终噪声水平估计值。
本申请中的基于多任务卷积神经网络的图像模糊与噪声评测方法,用于快速评测图像的多个失真(图像模糊和图像噪声),解决视频监控下人脸识别系统中检测出的人脸图像预判断问题。
进一步的,模糊类型包括:运动模糊和失焦模糊,模糊程度为一个0至1的主观评价值包括:不存在运动模糊和失焦模糊的图片模糊度。
进一步的,模糊内类判定目标函数为:
网络预测两个值(网络:用于图像模糊与噪声评测的多任务卷积神经网络。网络有三个子任务(模糊类型判定,模糊度估计,噪声水平估计),网络预测两个值:网络计算出的两个概率值(子任务的第二个全连接层的输出),表示图片为运动模糊的概率或为失焦模糊的概率。目的:模糊类别判定;),模糊类型包括:运动模糊和失焦模糊,设定若图片模糊度大于阈值α,则存在模糊(l=1),若图片模糊度小于α,则图片不存在模糊(l=0);使用softmax作为loss函数:
lossd=l(-(1-g)log(1-p1)-glog(p2))
lossd=l(-(1-g)log(1-p1)-glog(p2))
其中,loss1为模糊内类判定的损失值,l为图像标定的模糊类别;若图片为只存运动模糊g=0,否则g=1,p1,p2是网络计算出的两个概率值,p1表示图片为运动模糊的概率,p2表示图片为失焦模糊的概率。
进一步的,模糊度估计目标函数为:
网络(子任务网络(噪声水平估计)的输出)预测模糊度,根据学习模糊度判断图像是否需要进行去模糊操作,使用欧氏距离的loss函数去学习图像模糊度为:
其中,loss2为模糊度估计的损失值,d'为预测的模糊度,d为图像模糊度的主观评价值。
进一步的,噪声水平估计目标函数为:
网络(子任务网络(噪声水平估计)的输出)预测噪声水平,使用欧氏距离的loss函数去学习图像的噪声水平,计算式如下:
其中,(loss3为噪声水平估计的loss值),n为预测的噪声水平,n为图像噪声水平的主观评价值;
多任务卷积神经网络的总loss函数为三个loss函数的加权之和,计算方式如下:
λt为预设的三个任务的权重系数,losst对应多任务卷积神经网络的模糊类别判定损失,模糊度估计损失,噪声水平估计损失。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
根据上述方案描述,本发明技术方案在图像质量评估上不是单单做一个综合分数的测评或者图像失真类型的分类,而是测评了影响图像质量最主要的两个因素:模糊和噪声,为图像预处理做了一个预判断。该方法也不像普通方法一样分析频域或时域信息或者提取边缘特征在学习一个分类模型,计算复杂而且只利用了图像浅层特征泛化性差。使用多任务神经网络同时学习图片的多个属性,不需要提取频谱图,而是让网络自出学习局部和全局特征信息,增加算法本身的泛化性能。通过网络一次性得到图像的噪声水平、模糊度估计、模糊类型,简单且快速,方便集成到基于监控视频下的人脸识别系统中。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是本申请中多任务学习结构示意图;
图2是本申请中iqf-cnn网络结构示意图;
图3是本申请中概率神经网络结构示意图;
图4是本申请中多任务卷积神经网络的图像模糊和噪声评测框架示意图;
图5是本申请中多任务卷积神经网络卷积层融合示意图。
具体实施方式
本发明提供了一种基于多任务卷积神经网络的图像模糊与噪声评测方法,解决视频监控下人脸识别系统中检测出的人脸图像预判断问题,实现了通过网络一次性得到图像的噪声水平、模糊度估计、模糊类型,简单且快速,方便集成到基于监控视频下的人脸识别系统中的技术效果。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
基于多任务卷积神经网络的图像模糊和噪声评测方法框架
网络多任务学习的总体框架设计如图4所示:
框架执行流程描述如下:
数据集
收集失真和对应高质量的图片,对图片进行人工客观标定:模糊类型(运动模糊/失焦模糊),模糊程度(不存在运动模糊和失焦模糊的图片模糊度为0),噪声水平。
训练
首先融合多个卷积层得到一个总的全连接层(fc-full),这里有三个特征层:模糊度估计特征(fc-blur)、模糊类型判定特征(fc-class)、噪声水平估计特征(fc-noise)。
1.模糊类型判定:
网络预测两个值。模糊类型有两种,运动模糊和失焦模糊,这里设定如果图片模糊度大于阈值α,则认为存在模糊(l=1),如果图片模糊度小于α,则认为图片不存在模糊(l=0)。使用softmax作为loss函数:
lossd=l(-(1-g)log(1-p1)-glog(p2))
a2=compet(w2a1)
其中如果图片为只存运动模糊g=0,否则g=1,(p1,p2)是网络计算出的两个概率值,p1表示图片为运动模糊的概率,p2表示图片为失焦模糊的概率。
2.模糊度估计:
网络预测模糊度。学习模糊度是为了判断一个图像是不是有模糊,根据这一度量决定图像需不需要做去模糊操作。使用欧氏距离的loss函数去学习图像模糊度如下所示:
其中d'为预测的模糊度,d为图像模糊度的主观评价值。
3.噪声水平估计:
网络预测噪声水平。使用欧氏距离的loss函数去学习图像的噪声水平,计算式如下:
其中n'为预测的噪声水平,n为图像噪声水平的主观评价值。
总的loss值为三个loss函数的加权之和,计算式如下:
测试
给定一张测试图片,同时得到三个结果。对模糊度进行分析:如果图片模糊度分数小于阈值β,则图片认定无模糊。如果图片模糊度分数大于阈值β,再判断模糊类型。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
根据上述方案描述,本发明技术方案在图像质量评估上不是单单做一个综合分数的测评或者图像失真类型的分类,而是测评了影响图像质量最主要的两个因素:模糊和噪声,为图像预处理做了一个预判断。该技术也不像普通方法一样分析频域或时域信息或者提取边缘特征在学习一个分类模型,计算复杂而且只利用了图像浅层特征泛化性差。使用多任务神经网络同时学习图片的多个属性,不需要提取频谱图,而是让网络自出学习局部和全局特征信息,增加算法本身的泛化性能。通过网络一次性得到图像的噪声水平、模糊度估计、模糊类型,简单且快速,方便集成到基于监控视频下的人脸识别系统中。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。