基于全1*1卷积神经网络的图像增强方法与流程

文档序号：16685878发布日期：2019-01-22 18:18阅读：504来源：国知局

本发明属于图像处理领域，设计一种基于全1*1卷积神经网络的图像增强方法。

背景技术：

图像处理中的图像增强问题多是图像逆问题(inverseproblem)或病态问题(ill-posedproblem)，研究者提出了许多方法，包括：基于图像先验的启发式方法、基于正则约束建模的优化方法、基于机器学习的方法。这些方法都可以解释成针对自然图像某种统计特性进行建模，可以有效求解病态问题中的潜在变量(latentvariable)，进而对图像进行增强。但是，由于像素的复杂性，多样性和高维分布，对自然图像中的统计特性进行建模，进而实现高效的图像增强仍然是一项具有挑战性的任务。

一个可行的解决方案是假定统计先验特性，该统计特性利用已知分布类型的先验知识，为后续任务设计专门的算法。例如，图像去雾中的暗通道先验(darkchannelprior)、图像白平衡中的灰度世界先验(grayworldprior)等。前者假设自然图像中的任何一个局部邻域内所有像素的所有通道的最小值近似为0，是关于局部最小值这一统计量的一个先验假设。后者假设图像三通道的均值近似相等，从而表示为灰色，是关于三通道均值这一一阶统计量的先验假设。虽然，图像先验是根据专家经验和观察对图像统计特性提出的先验假设，但是其多是反映图像的某种单一统计特性，而且并非适应所有图像情形，因此存在适应性不足的缺陷。

另一种可行的方法是学习统计特性，该方法通过学习像素分布的回归模型，调整模型参数以适合输入图像。因此，合适的模型参数确实揭示了像素的统计数据，而模型的内部表示反映了像素模式。这种方法对像素分布做了最少的假设，导致更一般的表示。最近，深度学习在自然图像处理问题上取得了很大的成功，如图像去噪，超分辨率重建以及与统计特性最相关的问题，例如，颜色恒常性和图像去雾。然而，现有的卷积神经网络(convolutionalneuralnetwork，cnn)结构倾向于局部区域内和区域之间像素强度的变化和多样性，这可能导致统计表示不准确。而且，为了获得更好的建模能力，现有的深度学习方法倾向于追求更深更大的cnn。例如，用于图像处理任务的强大cnn通常具有数十个层和数百个通道，因此导致数百万个网络参数。这导致高计算成本，限制了其广泛的应用。

技术实现要素：

本发明的目的针对现有技术存在的不足，提出了一种基于全1*1卷积神经网络的图像增强方法。具体来说，为了使cnn更关注图像的统计特性，本发明对低质成像图像中局部图像块或者整幅图像中的像素进行重新随机排列(pixelshuffle)，利用重排后的图像块或图像作为输入。由于重排后的图像中的像素是独立同分布的，使用1*1的小卷积核代替k*k的大卷积核，可以保持相当的模型表示能力。据此，本发明提出了采用1*1卷积核构建新型全1*1卷积神经网络的建模方法，用于估计图像增强问题中的潜在变量。该方法提出的网络模型参数更少，计算量更少，并且具有良好的模型表示能力。

本发明方法具体包括以下步骤：

步骤(1).图像预处理

将低质成像图像中局部图像块或者整幅图像中的像素进行重新随机排列(pixelshuffle)；所述的像素随机重排为局部重排或全局重排，二者分别针对局部图像块或者整幅图像中的像素，重新随机排列其所有像素位置顺序；

所述的低质成像图像可以是雾天的成像图像、带颜色的人造光源或者白平衡失准情况下的成像图像、低光照情况下的成像图像、含有噪声干扰的成像图像等。

重新随机排列(pixelshuffle)图像块或者整幅图像中的像素不会改变它们的统计特性，但是会破坏空间结构；采用像素随机重排后的图像块或图像作为神经网络的输入，可以使得网络在参数学习过程中更加关注像素的统计特性而非空间结构特性，从而有利于图像增强等图像逆问题中的潜在变量的估计；因此，为了促进图像增强问题中的潜在变量的准确估计，本发明使用像素随机重排后的图像块或图像作为cnn的输入；

步骤(2).构建一个全1*1卷积神经网络(fullypoint-wiseconvolutionalneuralnetwork，fpcnet)，从输入图像中估计图像增强任务中的潜在变量

2.1构建全1*1卷积神经网络

全1*1卷积神经网络由多个1*1卷积单元叠加构成；

1*1卷积单元包括一个或者多分支的1*1卷积层；每个卷积层包括多个特征通道，可以学习不同的特征表示；卷积层之后紧跟一个非线性激活层，用以对上述卷积层输出的特征施加非线性变换，从而提高模型的非线性建模能力；

若1*1卷积单元为单分支的情形，在非线性激活层之后紧跟一个池化层(poolinglayer)；

若1*1卷积单元为多分支的情形，在非线性激活层之后紧跟一个并置层(concatlayer)，对非线性激活层得到的特征沿着特征维进行拼接，从而构成扩维的特征表示；然后在并置层之后紧跟一个池化层(poolinglayer)；并置层和池化层的顺序是可以互换。

进一步，本发明提出的全1*1卷积单元在给定像素重排图像块或图像作为输入的情况下，其表示能力等价于大卷积核对应的网络结构，即本发明提出的网络在参数量更少的情况下实现了相当的表示能力。

2.2上述全1*1卷积网络的输入为步骤(1)像素重排后的图像。

2.3上述全1*1卷积网络的输出为图像增强任务中的潜在变量(latentvariable)。可以是雾天图像增强中的雾气透射率(transmission)、颜色恒常(colorconstancy)或者白平衡(whitebalance)中的色偏(colorcast)、低光照图像增强中的照度(illumination)、图像去噪中的噪声水平(noiselevel)等。

2.4基于上述全卷积神经网络，增加损失函数层监督网络进行训练。根据图像增强任务不同，可以分为分类任务和回归任务；分类任务可以采用柔性最大损失函数(softmaxloss)；回归任务可以采用均方误差函数(meansquareerror)；训练样本采用合成的或者真实的数据集进行构建，并针对每个样本对应的潜在变量进行标注；合成的样本一般是从清晰的图像出发，基于描述受潜在变量影响的降质过程成像方程，根据给定的潜在变量值合成对应的低质成像图像。例如，雾天成像模型、光照成像模型、含噪成像模型等。真实的数据集是通过采集同一场景的降质/非降质图像对构建，并通过现有技术获得对应的潜在变量值。例如，雾天/非雾天图像、正常光照/低光照图像等。网络训练的优化方法可以采用小批量随机梯度下降法(mini-batchstochasticgradientdescent)等方法对网络进行训练，学习权重参数。

步骤(3).潜在变量的后处理

针对上述网络估计出来的潜在变量，需要进行相应的后处理，从而得到更加准确的估计结果。对于局部图像块和全局图像，采用不同的后处理方法。

局部图像块情形：对于整幅图像中的所有局部图像块估计对应的潜在变量，然后对于由该潜在变量构成的整幅图层(latentvariablemap)，采用原始整幅图像或者其亮度通道(rgb颜色空间到hsv颜色空间转换后得到的v通道)作为引导图像，使用图像引导滤波器(imageguidedfilter)对上述估计出来的潜在变量图层进行滤波，从而得到具有局部平滑特性的估计结果。

全局图像情形：针对全局图像任意位置处估计得到的多个潜在变量的估计值，采用均值滤波器或者中值滤波器进行处理，从而得到更加鲁棒、准确的估计结果。

步骤(4).基于潜在变量估计值和成像模型的图像增强

基于上述步骤(3)估计出来的潜在变量，以及潜在变量所对应成像模型(现有技术，故不详解)，得到从低质图像和利用步骤(3)潜在变量估计出的清晰图像的数学表达式(现有技术，故不详解)，从而计算得到增强后的结果。

本发明提出了一种新颖的全1*1卷积神经网络结构(fullypoint-wiseconvolutionalneuralnetwork，fpcnet)，用于图像增强问题中的潜在变量的估计。具体来说，基于像素重排的输入图像所具有的独立同分布特性，提出了采用1*1卷积神经网络的建模方法。相比传统卷积神经网络普遍采用的大卷积核方式，实现了以更少的参数、更少的计算量保持相当的模型表示能力的目的，从而快速、准确地估计图像增强中的潜在变量。

利用本发明提到的方法可以使cnn结构更加轻量、紧凑，可以有效防止过拟合。一般来说，与对应的大卷积核的网络结构相比，本发明只需要1/10～1/100的参数和计算成本，同时能够保持相当好的精度。

附图说明

图1是全1*1卷积单元；

图2是本发明提出的网络结构用于颜色恒常问题的示意图。

具体实施方式

下面结合具体实施例对本发明做进一步的分析。

本发明可以用于颜色恒常(colorconstancy，又叫图像色偏校正、白平衡等)、图像去雾、低光照图像增强、图像噪声水平估计等多种图像增强任务。下面，主要针对颜色恒常和图像去雾两个实施例介绍本发明的具体实施方式。

1图像预处理

将低质成像图像中局部图像块或者整幅图像中的像素进行重新随机排列(pixelshuffle)；所述的像素随机重排为局部重排或全局重排，二者分别针对局部图像块或者整幅图像中的像素，重新随机排列其所有像素位置顺序。重新随机排列(pixelshuffle)图像块或者整幅图像中的像素不会改变它们的统计特性，但是会破坏空间结构；采用像素随机重排后的图像块或图像作为神经网络的输入，可以使得网络在参数学习过程中更加关注像素的统计特性而非空间结构特性，从而有利于图像增强等图像逆问题中的潜在变量的估计；因此，为了促进图像增强问题中的潜在变量的准确估计，本实施例使用像素随机重排后的图像块或图像作为cnn的输入。

2构建一个全1*1卷积神经网络(fullypoint-wiseconvolutionalneuralnetwork，fpcnet)，从输入图像中估计图像增强任务中的潜在变量

2.1构建全1*1卷积神经网络

全1*1卷积神经网络由多个1*1卷积单元叠加构成；

若1*1卷积单元为单分支的情形，在非线性激活层之后紧跟一个池化层(poolinglayer)；如图1所示，图1(a)所示的网络结构具有一个包含k*k卷积核的卷积层和一个池化层。我们可以将k*k卷积核替换为1*1卷积核，并构建如图1(b)所示的1*1卷积单元。为了保留感受野的大小，我们可以将池化大小从p*p扩大到(k+p-1)*(k+p-1)。

若1*1卷积单元为多分支的情形，在非线性激活层之后紧跟一个并置层(concatlayer)，对非线性激活层得到的特征沿着特征维进行拼接，从而构成扩维的特征表示；在并置层之后紧跟一个池化层(poolinglayer)。图1(c)所示的双分支网络包括一个1*1卷积层和一个3*3卷积层以提取多尺度特征，以及一个并置层(concat)和一个池化层。并置层和池化层的顺序是可以互换，不会影响结果。类似地，我们可以将k*k卷积核替换成1*1卷积核，并构建如图1(d)所示的1*1卷积单元。它包括两个平行的1*1卷积层，以及两个不同池化大小的池化层以及一个并联层。

上述池化层的池化操作包括平均(average)、最大化(max)和随机(random)等；通过设置池化层的池化核大小为k*k，使得上述1*1卷积单元的感受野等效于k*k大卷积层的感受野；通过设置池化层的池化核大小为(k+p-1)*(k+p-1)，使得上述1*1卷积单元的感受野等效于k*k大卷积层和p*p的池化层对应网络的感受野；进一步，本发明提出的全1*1卷积单元在给定像素重排图像块或图像作为输入的情况下，其表示能力等价于大卷积核对应的网络结构，即本发明提出的网络在参数量更少的情况下实现了相当的表示能力。

通过叠加几个全1*1卷积单元，可以构建一个全1*1卷积神经网络(fpcnet)。

用于颜色恒常性的全1*1卷积神经网络结构(fpcnet-cc)如表1所示：

表1fpcnet-cc网络结构

用于图像去雾的全1*1卷积神经网络结构(fpcnet-dh)如表2所示：

表2fpcnet-dh网络结构

2.2数据集的合成

基于深度学习的方法通常需要大量带标注的数据集，从而驱动网络进行训练，优化得到网络权重。数据集的获取方式包括直接采集和标注真实场景图像，或者根据物理模型合成得到所需的图像。下面针对上述两个应用分别予以说明。

针对颜色恒常问题，在有颜色光源的照明下，拍摄的图像可以由以下成像模型进行描述：

ic＝jc×ec,c∈{r,g,b},(1)

其中jc是标准(通常是白色)照明下的反射率，ec是色偏值。通常色偏值是一个全局常量。因此，颜色恒常性问题可以被表述为在给定输入图像ic的情况下估计色偏值ec，然后使用它来恢复反射率jc。

为了构建数据集，一种方法是针对不同的光照条件拍摄图像，场景中放置标准色卡(colorset)，从而可以准确的计算出拍摄的图像存在的色偏值，完成“图像-色偏值”样本对的构建。另一种方法是针对给定清晰的无色偏图像，从rgb颜色空间中随机采样得到一种色偏值，并根据公式(1)合成色偏图像，从而构建“图像-色偏值”样本对。

针对图像去雾问题，在有雾气影响的条件下，拍摄的图像可以由以下成像模型进行描述：

ic＝jct+ac(1-t),c∈{r,g,b},(2)

其中jc是目标清晰图像，t是雾气的透射率，ac是大气光。一般的，t是与场景深度相关的一个物理量：

t＝e^-αd(3)

其中，d是场景中某一位置的深度值，α是与雾气浓度相关的一个参数。

在局部平滑假设(localsmoothnessassumption)下，图像去雾问题可以被表述为，在给定输入雾天图像i的情况下，估计每个局部块处的透射率t，并且使用它来恢复清晰图像j。通常，大气光ac是一个全局常量，因此我们可以将等式(2)改写为：

ic-ac＝(jc-ac)×t.(4)

为了构建数据集，一种方法是针对同一场景拍摄有雾和无雾图像。鉴于有雾和无雾场景会存在光照、场景中物体移动等变化，可以采用造雾机在较短的时间内人工生成雾气，从而保证光照、场景中的物体等条件保持不变。另一种更为常见的方式是针对给定清晰的无色偏图像和其对应的场景深度，根据公式(3)合成透射率，并根据公式(2)合成雾天图像，从而构建“图像-透射率”样本对。

2.3网络的训练

基于上述全卷积神经网络，增加损失函数层，并基于和步骤1中构建的数据集，对网络进行训练。根据图像增强任务不同，可以分为分类任务和回归任务；分类任务可以采用柔性最大损失函数(softmaxloss)；回归任务可以采用均方误差函数(meansquareerror)；网络训练的优化方法可以采用小批量随机梯度下降法(mini-batchstochasticgradientdescent)等方法对网络进行训练，学习权重参数。

2.4网络参数的设置

为了评估所提出的方法的有效性，本发明将其用于两个典型的图像增强应用，即图像色偏校正(又叫颜色恒常性，colorconstancy，cc)和图像去雾(imagedehazing，dh)。图像色偏校正中网络训练的初始学习率为0.005，批大小为128，共计200000次迭代。学习率每40000次迭代减少一半。图像去雾中，初始学习率为0.005，批大小为128。学习率每100000次迭代减少一半。动量和权重衰减参数分别设为0.9和0.0005。所有的实验都在nvidiatitanxgpu的工作站上基于caffe进行实现。

3潜在变量的后处理

针对上述网络估计出来的潜在变量，需要进行相应的后处理，从而得到更加准确的估计结果。对于局部图像块和全局图像，采用不同的后处理方法。局部图像块情形：对于整幅图像中的所有局部图像块估计对应的潜在变量，然后对于由该潜在变量构成的整幅图层(latentvariablemap)，采用原始整幅图像或者其亮度通道(rgb颜色空间到hsv颜色空间转换后得到的v通道)作为引导图像，使用图像引导滤波器(imageguidedfilter)对上述估计出来的潜在变量图层进行滤波，从而得到具有局部平滑特性的估计结果。全局图像情形：针对全局图像任意位置处估计得到的多个潜在变量的估计值，采用均值滤波器或者中值滤波器进行处理，从而得到更加鲁棒、准确的估计结果。

4基于潜在变量估计值和成像模型的图像增强

根据上述降质条件下的成像模型(公式(1)和公式(2))，可以分别得到从降质图像和潜在变量估计清晰图像的数学表达式如下：

以及：

其中，t0是一个人工设定的较小的值，例如0.1，为了保证计算稳定性。大气光照ac通常可以根据估计得到的透射率图，选择透射率较小的区域的均值作为大气光照的估计值。

根据公式(5)和公式(6)，基于降质图像和网络估计出来的潜在变量，可以计算得到增强后的图像结果。

图2展示了本发明提出的网络结构用于图像色偏校正问题的例子。其中，(a)是降质图像，(b)是对(a)中的像素进行随机重排构建的网络输入，本发明提出的全1*1卷积神经网络估计的色偏值(e)和色偏校正结果(f)。(c)是将网络的第一个池化层响应图重新投影到上原始降质图像(a)上的结果，(d)是(c)中的像素根据响应强度作为权重的加权直方图(俯瞰视角图)。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张敬;曹洋;王洋;查正军;文成林
技术所有人：杭州电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。