本发明涉及图像处理技术领域,具体为基于多模态学习卷积稀疏编码网络的图像超分辨率分析方法。
背景技术:
图像超分辨率分析是成像算法中常见的逆问题,是指用低分辨率观测图像重建高分辨率图像,因为从低分辨率到高分辨率图像的映射不是唯一的,超分辨率分析问题是不适定的。逆问题的深度学习的最新研究主要考虑深度展开,深度展开是指将迭代算法展开为深度神经网络形式。这些方法主要有三类,第一类单模态图像超分辨率分析方法使用基于插值的方法。这些方法既简单又快速,但是,混叠和模糊效果使它们无法获得高质量的高分辨率图像。第二类单模态图像超分辨率分析方法使用重建方法,该方法使用多个图像先验信息来规则化不适定的重建问题,并产生具有精细纹理细节的图像。然而,用图像先验信息很难对自然图像的复杂细节建模。第三类单模态图像超分辨率分析方法使用基于学习的方法,这些方法使用机器学习技术从数据中学习低分辨率和高分辨率图像之间的复杂映射,深度学习模型具有出色的恢复质量,因此备受关注。新进提出的方法主要有b.ham等在2018年提出的static/dynamicfilter(sdf)方法[1],h.sreter等在2018年提出的approximateconvolutionalsparsecode(acsc)方法[2],y.li等在2019年提出的imagesuper-resolutionfeedbacknetwork(srfbn)方法[3],目前这些新方法集中在单模态数据上,缺乏从不同成像模态吸收的边信息的利用。x.deng等在2020年最新提出的deepcouplediterativeshrinkageandthresholdingalgorithm(coista)方法[4],是最新提出的多模态图像超分辨率方法,采用了联合多模式字典学习(jmdl)算法,采用跨模式依赖性建模方法,性能上不如本方法提出的学习卷积稀疏编码网络建模方法,为此我们提出基于多模态学习卷积稀疏编码网络的图像超分辨率分析方法用于解决上述问题。
技术实现要素:
本发明的目的在于利用低分辨率的观测图像来重构高分辨率图像是不适定的成像逆问题,医学成像和遥感的实际应用通常涉及捕获同一场景的不同图像模态,例如近红外(nir)图像和三原色(rgb)图像,因此可以考虑多种图像模态的联合使用以完成成像,即使用来自另一个模态的引导图像(也称为边信息)作为辅助从低分辨率观测图像重建高分辨率图像。深度学习方法依赖于训练数据来学习从低分辨率输入到高分辨率输出的端到端映射。本设计提出一种新颖的深度展开算子,其执行的步骤类似于包含边信息的卷积稀疏编码的迭代算法,将近端算法转换为人工学习的多模态卷积稀疏编码的神经网络形式;该网络结合了稀疏先验信息,并能够将引导模式有效地集成到解决方案中。以深度展开架构作为图像超分辨率分析的多模态框架的核心组件,通过采用残差学习来提高训练效率。本方法提出的多模态方法适用于近红外和多光谱图像的超分辨率分析以及使用三原色(rgb)图像作为边信息的深度上采样处理,实验结果表明,我们的模型优于现存的最新方法,为此我们提出一种基于多模态学习卷积稀疏编码网络的图像超分辨率分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于多模态学习卷积稀疏编码网络的图像超分辨率分析方法,包括包括近红外(nir)图像超分辨率分析网络,其特征在于:使用三原色(rgb)图像作为边信息,下面介绍采用的数据集以及实验实施细节;
由于近红外(nir)传感器与三原色(rgb)传感器相比,每像素成本较高,因此近红外(nir)传感器以较低的分辨率获取近红外(nir)图像,我们使用epfl三原色(rgb)-近红外(nir)数据集,并将我们的模型应用于低分辨率近红外(nir)图像的超分辨率分析,以高分辨率三原色(rgb)图像作为辅助信息,数据集包含477对空间对齐的近红外(nir)/三原色(rgb)图像对,我们的训练集包含从50张图像中提取的大约30,000张裁剪后的图像对,每个训练图像的尺寸为44×44像素,这个尺寸是根据内存需求和计算复杂度选择的,我们还创建了一个包含25个图像对的测试集;对整个图像进行测试;
近红外(nir)图像由一个通道组成,训练所用和测试所用近红外(nir)图像的低分辨率版本是通过模糊和缩小真实高分辨率版本生成的,我们将三原色(rgb)图像转换为ycbcr,使用其中的亮度通道作为边信息,我们将双三次插值作为预处理步骤来放大低分辨率输入,以使输入和输出图像的大小相同;
本方法提出的多模态学习卷积稀疏编码网络的图像超分辨率分析方法(lmcsc-sr),它由3种共5个模块组合成:(1)1个多模态学习卷积稀疏编码器(lmcsc),该网络借助边信息来生成低分辨率输入图像的卷积隐式表达;(2)2个边信息编码器,即近似卷积稀疏编码器(acsc),其中一个用于生成引导高分辨率图像的隐式表达、另一个用于在不使用边信息的情况下,增强目标模态的低分辨率和高分辨率图像之间的转换;(3)2个卷积解码器,计算目标高分辨率图像,同时,通过使用与输入一致的映射,将网络的输出作为高频细节信息,网络输入作为低频信息融合在一起,即通过采用残差学习来提高训练效率;
本方法的核心是多模态学习卷积稀疏编码器(lmcsc),这里先给出基本问题的设定,然后给出多模态学习卷积稀疏编码器(lmcsc)的构建方法,用于图像超分辨率的分析。
所述图像超分辨率分析可以看成为线性逆问题,公式如下:
y=lx+η\*mergeformat(16),
其中,
所述线性观测算子l需要进行额外的正则化以求解,稀疏性已广泛用作解决稀疏近似问题的正则化器,在本方法采用稀疏建模方法取代直接求解x的方法,通过联合稀疏表示来表达双三次放大的低分辨率图像中的n维(矢量化的)斑块y和相应高分辨率图像中的相应斑块x,通过联合学习两个字典
计算出高分辨率斑块x,这等同于找到低分辨率斑块y的稀疏表示,其中λ是正则化参数,
步骤3)中,其中
这里通过神经网络设计解决这个稀疏近似的问题,使用学习迭代软阈值算法。
所述学习迭代软阈值算法的第t层计算可表示为:
αt=φγ(sαt-1+wy),α0=0\*mergeformat(20)
其中
φγ(vi)=sign(vi)max{0,|vi|-γ},i=1,...,k\*mergeformat(21)
公式(6)代表软阈值运算符;
所述迭代过程为:
其中μ,l代表适当的参数。近端算子ξμ包含边信息s,表示为:
当si≥0,i=1,...,m时:
当si<0,i=1,...,m时:
通过将近端算法写成:
αt=ξμ(sαt-1+wy;s),α0=0\*mergeformat(25)
进一步地将(10)转换成深度神经网络。
所述深度神经网络具体转换方式为:
令
所述卷积和线性稀疏码之间存在对应关系,如果我们用具有toeplitz结构的矩阵a替换卷积字典dy,并考虑到卷积的线性特性,则公式(11)可以简化为公式(4),具体来说,通过合并展开
然而,将(11)转换为(4)并将(7)用于其解决方案在计算上效率不高。由于卷积稀疏编码处理整个图像,因此(4)的维数过高,近端方法就变得不切实际,我们使用线性表示和卷积表示之间的一致性,制定了执行卷积的迭代算法,如下所示:在近端算法(7)中,把在卷积情况下采用串联toeplitz矩阵形式的矩阵a和at替换掉,改由卷积字典by和
其中u,z是大小为p1×p2×k的张量。
公式(12)可以被转换成深度卷积神经网络(cnn)。网络的每个阶段根据以下公式计算稀疏特征映射:
ut=ξμ(ut-1-q*r*ut-1+p*y;z)\*mergeformat(28)
其中
多模态学习并利用边信息时,集成快速算子以对引导模态进行编码,使用引导模态ω的卷积稀疏码z来计算目标模态y的卷积稀疏码,采用近似卷积稀疏编码运算符获得卷积稀疏码z,近似卷积稀疏编码具有卷积学习迭代软阈值算法的形式,第t层计算为:
zt=φγ(zt-1-t*v*zt-1+g*ω)\*mergeformat(29)
其中φγ是近端操作符。从数据中学习卷积层的参数
多模态学习卷积稀疏编码器(lmcsc)、近似卷积稀疏编码器(acsc),以及常规的卷积解码器,按照图1所示框架构成的多模态学习卷积稀疏编码网络的图像超分辨率分析方法体系结构,即可用于基于稀疏驱动的卷积模型执行多模态图像超分辨率分析,具体来说,低分辨率/高分辨率图像斑块的稀疏线性建模被整个低分辨率/高分辨率图像的稀疏卷积建模所取代,得出低分辨率和高分辨率图像的卷积表示之间的相似性,以及目标图像和引导图像模态在l1范数的表达域上具有相似性,面向不同的卷积字典dy和dx,低分辨率观测y和高分辨率图像x共享相同的卷积稀疏特征映射ui,即
多模态学习卷积稀疏编码编码器的目标是使用卷积稀疏特征映射z作为边信息,学习低分辨率图像y的卷积稀疏特征映射u,此映射也由高分辨率图像x。多模态学习卷积稀疏编码器之后是由可学习的卷积字典dx实现的卷积解码器,解码器接收由多模态学习卷积稀疏编码器提供的隐式表达u,并根据xμ=dx×u估计x的值;
使用均方误差(mse)损失函数对整个网络进行端到端训练:
其中θ表示所有网络参数的集合,xi是目标模态的真实图像,xμ是网络计算的估计值;
针对目标(lmcsc学习多模态卷积稀疏编码)和边信息(acsc近似卷积稀疏编码)编码器,所有网络都设计有三个展开步骤。展开步骤的数量的选择,是在考虑到计算复杂度和重构精度之间的权衡做出的。例如,如果将展开步骤增加到5个,平均psnr的增益小于0.1db,而执行时间则多出近87%。在lmcsc-sr中,acsc分支采用一个展开步骤来设计用于目标信号的非线性映射;
我们根据经验将网络参数p,q,g,t的大小均设置为7×7×1×85;r,v的大小分别设置为7×7×85×1。用于重建的卷积字典的大小设置为7×7×85×1。这里,k×k×c×g的卷积层代表其由g个卷积滤波器组、c个通道以及大小为k的内核组成,我们在每个展开步骤都使用无限制权重,即学习多模态卷积稀疏编码和acsc近似卷积稀疏编码子网的第t层分别由独立变量rt,qt,vt,tt实现。使用标准偏差等于0.01的高斯分布,随机初始化所有层的权重,近端算子的参数μ和γ都初始化为0.2。我们使用adam优化器训练网络。
我们注意到,网络的复杂性由学习多模态卷积稀疏编码块中的lesita激活层控制,而基于(8)和(9)的实现效率不高,为了解决这个问题,我们在(8),(9)中重写近端算子,如下所示:
ξμ(vi;si)=sign(si)[r(sign(si)vi-2μ-|si|)-r(sign(si)vi-|si|)+r(sign(si)vi)-r(-sign(si)vi-2μ)]
\*mergeformat(31)
其中r(v)=max(0,v)是线性整流器(relu)功能。这种形式的近端运算符可将执行速度提高30%。
与现有技术相比,本发明的有益效果是:
我们使三原色-近红外(rgb-nir)数据集在25个近红外(nir)/三原色(rgb)图像对上测试我们的模型。表1给出了放大比例因子为×2,×4和×6时,psnr和结构相似性指数(ssim)的对比结果。从表1可以看出,与所有尺度的参考方法相比,我们的模型提供了更高的重构精度,而lmcsc-sr则实现了最佳性能。此外,数值结果表明,随着放大比例因子的增加,lmcsc-sr的psnr增益相对于最新提出的coista方法也有所增加。例如,在比例为×2时,增益为0.64db,对于比例为×4和×6时,增益分别升至0.84db和1.45db。
附图说明
图1是本发明所述多模态学习卷积稀疏编码网络的图像超分辨率分析方法(lmcsc-sr)的由多模态学习卷积稀疏编码器(lmcsc),近似卷积稀疏编码器(acsc)和卷积解码器以及残差学习构成的方法结构示意图;
图2是本发明所述多模态学习卷积稀疏编码网络的图像超分辨率分析方法(lmcsc-sr)的子模块多模态学习卷积稀疏编码器(lmcsc)的机构示意图,由参数为p的可学习卷积层、参数为r的可学习卷积层、参数为q的可学习卷积层,以及近端算子和参数组成;
图3是本发明所述多模态学习卷积稀疏编码网络的图像超分辨率分析方法(lmcsc-sr)的子模块近似卷积稀疏编码器(acsc)的机构示意图,由参数为t的可学习卷积层、参数为g的可学习卷积层、参数为v的可学习卷积层,以及近端操作符和参数组成。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:基于多模态学习卷积稀疏编码网络的图像超分辨率分析方法,包括包括近红外(nir)图像超分辨率分析网络,其特征在于:使用三原色(rgb)图像作为边信息,下面介绍采用的数据集以及实验实施细节;
由于近红外(nir)传感器与三原色(rgb)传感器相比,每像素成本较高,因此近红外(nir)传感器以较低的分辨率获取近红外(nir)图像,我们使用epfl三原色(rgb)-近红外(nir)数据集,并将我们的模型应用于低分辨率近红外(nir)图像的超分辨率分析,以高分辨率三原色(rgb)图像作为辅助信息,数据集包含477对空间对齐的近红外(nir)/三原色(rgb)图像对,我们的训练集包含从50张图像中提取的大约30,000张裁剪后的图像对,每个训练图像的尺寸为44×44像素,这个尺寸是根据内存需求和计算复杂度选择的,我们还创建了一个包含25个图像对的测试集;对整个图像进行测试;
近红外(nir)图像由一个通道组成,训练所用和测试所用近红外(nir)图像的低分辨率版本是通过模糊和缩小真实高分辨率版本生成的,我们将三原色(rgb)图像转换为ycbcr,使用其中的亮度通道作为边信息,我们将双三次插值作为预处理步骤来放大低分辨率输入,以使输入和输出图像的大小相同;
本方法提出的多模态学习卷积稀疏编码网络的图像超分辨率分析方法(lmcsc-sr),它由3种共5个模块组合成:(1)1个多模态学习卷积稀疏编码器(lmcsc),该网络借助边信息来生成低分辨率输入图像的卷积隐式表达;(2)2个边信息编码器,即近似卷积稀疏编码器(acsc),其中一个用于生成引导高分辨率图像的隐式表达、另一个用于在不使用边信息的情况下,增强目标模态的低分辨率和高分辨率图像之间的转换;(3)2个卷积解码器,计算目标高分辨率图像,同时,通过使用与输入一致的映射,将网络的输出作为高频细节信息,网络输入作为低频信息融合在一起,即通过采用残差学习来提高训练效率;
本方法的核心是多模态学习卷积稀疏编码器(lmcsc),这里先给出基本问题的设定,然后给出多模态学习卷积稀疏编码器(lmcsc)的构建方法,用于图像超分辨率的分析。
所述图像超分辨率分析可以看成为线性逆问题,公式如下:
y=lx+η\*mergeformat(16),
其中,
所述线性观测算子l需要进行额外的正则化以求解,稀疏性已广泛用作解决稀疏近似问题的正则化器,在本方法采用稀疏建模方法取代直接求解x的方法,通过联合稀疏表示来表达双三次放大的低分辨率图像中的n维(矢量化的)斑块y和相应高分辨率图像中的相应斑块x,通过联合学习两个字典
计算出高分辨率斑块x,这等同于找到低分辨率斑块y的稀疏表示,其中λ是正则化参数,
步骤3)中,其中
这里通过神经网络设计解决这个稀疏近似的问题,使用学习迭代软阈值算法。
所述学习迭代软阈值算法的第t层计算可表示为:
αt=φγ(sαt-1+wy),α0=0\*mergeformat(20)
其中
φγ(vi)=sign(vi)max{0,|vi|-γ},i=1,...,k\*mergeformat(21)
公式(6)代表软阈值运算符;
所述迭代过程为:
其中μ,l代表适当的参数。近端算子ξμ包含边信息s,表示为:
当si≥0,i=1,...,m时:
当si<0,i=1,...,m时:
通过将近端算法写成:
αt=ξμ(sαt-1+wy;s),α0=0\*mergeformat(25)
进一步地将(10)转换成深度神经网络。
所述深度神经网络具体转换方式为:
令
所述卷积和线性稀疏码之间存在对应关系,如果我们用具有toeplitz结构的矩阵a替换卷积字典dy,并考虑到卷积的线性特性,则公式(11)可以简化为公式(4),具体来说,通过合并展开
然而,将(11)转换为(4)并将(7)用于其解决方案在计算上效率不高。由于卷积稀疏编码处理整个图像,因此(4)的维数过高,近端方法就变得不切实际,我们使用线性表示和卷积表示之间的一致性,制定了执行卷积的迭代算法,如下所示:在近端算法(7)中,把在卷积情况下采用串联toeplitz矩阵形式的矩阵a和at替换掉,改由卷积字典by和
其中u,z是大小为p1×p2×k的张量。
公式(12)可以被转换成深度卷积神经网络(cnn)。网络的每个阶段根据以下公式计算稀疏特征映射:
ut=ξμ(ut-1-q*r*ut-1+p*y;z)\*mergeformat(28)
其中
多模态学习并利用边信息时,集成快速算子以对引导模态进行编码,使用引导模态ω的卷积稀疏码z来计算目标模态y的卷积稀疏码,采用近似卷积稀疏编码运算符获得卷积稀疏码z,近似卷积稀疏编码具有卷积学习迭代软阈值算法的形式,第t层计算为:
zt=φγ(zt-1-t*v*zt-1+g*ω)\*mergeformat(29)
其中φγ是近端操作符。从数据中学习卷积层的参数
多模态学习卷积稀疏编码器(lmcsc)、近似卷积稀疏编码器(acsc),以及常规的卷积解码器,按照图1所示框架构成的多模态学习卷积稀疏编码网络的图像超分辨率分析方法体系结构,即可用于基于稀疏驱动的卷积模型执行多模态图像超分辨率分析,具体来说,低分辨率/高分辨率图像斑块的稀疏线性建模被整个低分辨率/高分辨率图像的稀疏卷积建模所取代,得出低分辨率和高分辨率图像的卷积表示之间的相似性,以及目标图像和引导图像模态在l1范数的表达域上具有相似性,面向不同的卷积字典dy和dx,低分辨率观测y和高分辨率图像x共享相同的卷积稀疏特征映射ui,即
多模态学习卷积稀疏编码编码器的目标是使用卷积稀疏特征映射z作为边信息,学习低分辨率图像y的卷积稀疏特征映射u,此映射也由高分辨率图像x。多模态学习卷积稀疏编码器之后是由可学习的卷积字典dx实现的卷积解码器,解码器接收由多模态学习卷积稀疏编码器提供的隐式表达u,并根据xμ=dx×u估计x的值;
使用均方误差(mse)损失函数对整个网络进行端到端训练:
其中θ表示所有网络参数的集合,xi是目标模态的真实图像,xμ是网络计算的估计值;
针对目标(lmcsc学习多模态卷积稀疏编码)和边信息(acsc近似卷积稀疏编码)编码器,所有网络都设计有三个展开步骤。展开步骤的数量的选择,是在考虑到计算复杂度和重构精度之间的权衡做出的。例如,如果将展开步骤增加到5个,平均psnr的增益小于0.1db,而执行时间则多出近87%。在lmcsc-sr中,acsc分支采用一个展开步骤来设计用于目标信号的非线性映射;
我们根据经验将网络参数p,q,g,t的大小均设置为7×7×1×85;r,v的大小分别设置为7×7×85×1。用于重建的卷积字典的大小设置为7×7×85×1。这里,k×k×c×g的卷积层代表其由g个卷积滤波器组、c个通道以及大小为k的内核组成,我们在每个展开步骤都使用无限制权重,即学习多模态卷积稀疏编码和acsc近似卷积稀疏编码子网的第t层分别由独立变量rt,qt,vt,tt实现。使用标准偏差等于0.01的高斯分布,随机初始化所有层的权重,近端算子的参数μ和γ都初始化为0.2。我们使用adam优化器训练网络。
我们注意到,网络的复杂性由学习多模态卷积稀疏编码块中的lesita激活层控制,而基于(8)和(9)的实现效率不高,为了解决这个问题,我们在(8),(9)中重写近端算子,如下所示:
ξμ(vi;si)=sign(si)[r(sign(si)vi-2μ-|si|)-r(sign(si)vi-|si|)+r(sign(si)vi)-r(-sign(si)vi-2μ)]
\*mergeformat(31)
其中r(v)=max(0,v)是线性整流器(relu)功能。这种形式的近端运算符可将执行速度提高30%。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。