面向监控场景的图像超分辨率方法、装置及存储介质与流程

文档序号：24532489发布日期：2021-04-02 10:12阅读：192来源：国知局

本申请涉及一种面向监控场景的图像超分辨率方法、装置及存储介质，属于图像处理技术领域。

背景技术：

图像超分辨率(imagesuperresolution)技术是指将低分辨率图像恢复出高分辨率图像的技术。

随着卷积神经网络(convolutionalnearulnetwork，cnn)和生成对抗网络(generativeadversarialnetwork，gan)在像素级图像处理领域的发展，基于学习的图像超分辨率方法层出不穷。比如：使用超分辨率卷积网络(superresolutionconvolutionalnetwork，srcnn)的图像超分辨率的方法；或者，使用超分辨率生成对抗网络(superresolutiongenerativeadversarialnetwork，srgan)的图像超分辨率的方法；或者，使用用于单一图像超分辨率的增强型深度残差网络的(enhanceddeepresidualnetworksforsingleimagesuper-resolution，edsr)图像超分辨率方法等。

在基于学习的图像超分辨率方法中，需要使用低分辨率图像和高分辨率图像构成的图像对来训练网络模型。其中，每对图像对中的低分辨率图像是对该图像对中的高分辨率图像进行行双线性下采样得到的。

然而，使用上述方式获取到的低分辨率图像，具有较低的泛化性能，与实际场景采集的低分辨率图像具有差异。此时，会导致使用图像对训练得到的网络模型的高分辨率图像重构效果较差的问题。

技术实现要素：

本申请提供了一种面向监控场景的图像超分辨率方法、装置及存储介质，可以解决现有的基于深度学习的图像超分辨率方法合成的低分辨率图像与真实的低分辨率图像存在差异，泛化性较差的问题。本申请提供如下技术方案：

第一方面，提供了一种面向监控场景的图像超分辨率方法，所述方法包括：

获取待还原的目标低分辨率图像；

将所述目标低分辨率图像输入预先训练的特征映射网络，得到位于目标特征空间的高维特征；其中，所述特征映射网络使用第一训练数据训练得到；所述第一训练数据包括第一低分辨率图像和第二低分辨率图像；所述第一低分辨率图像是基于高分辨率图像合成得到的低分辨率图像；所述第二低分辨率图像是对实际场景进行采集得到的低分辨率图像；

将所述目标低分辨率图像和所述高维特征输入预先训练的图像重构网络，得到所述目标低分辨率图像对应的高分辨率图像；所述图像重构网络使用第二训练数据训练得到，所述第二训练数据包括高分辨率图像、所述高分辨率图像对应的第一低分辨率图像、以及将所述第一低分辨率图像输入所述特征映射网络后得到的输出结果。

可选地，所述特征映射网络的训练过程，包括：

将所述第一训练数据输入预设的初始网络模型；所述初始网络模型用于学习所述第一训练数据的空间表征；

使用第一损失函数对所述初始网络模型进行训练，并对所述第一训练数据的图像特征进行特征空间的约束，以使所述第一训练数据中各个图像的图像特征均映射至所述目标特征空间，得到所述特征映射网络。

可选地，所述初始网络模型为基于共享参数的变分自编码器模型。

可选地，所述第一损失函数包括l1损失函数和对抗损失函数，所述对抗损失函数用于约束图像特征的特征空间；所述l1损失函数用于缩小模型估计结果与真实结果之间的差异。

可选地，所述图像重构网络包括与所述特征映射网络相连的特征融合层，所述特征融合层用于将所述图像特征与所述高维特征进行融合。

可选地，所述将所述图像特征与所述高维特征进行融合，包括：

对所述图像特征和所述高维特征进行拼接，得到拼接特征；

对所述拼接特征通过预设尺寸的卷积层进行融合，得到所述融合特征。

可选地，所述图像重构网络还包括位于所述特征融合层之前的浅层特征提取层、位于所述特征融合层之后的深度特征提取层、上采样层和重建层；

所述浅层特征提取层用于提取所述目标低分辨率图像的浅层特征；

所述特征融合层用于将所述浅层特征和所述高维特征融合，得到所述融合特征；

所述深度特征提取层用于提取所述融合特征的深度特征；

所述上采样层用于提升所述深度特征的分辨率，得到高分辨率特征图；

所述重建层用于对所述高分辨率特征图进行恢复，得到所述高分辨率图像。

可选地，所述深度特征提取层基于注意力attention机制对所述融合特征中的各个通道赋予不同的权重，以提取所述高分辨率特征。

可选地，所述图像重构网络的训练过程包括：

将所述第二训练数据输入预设的超分辨率网络模型；

使用第二损失函数对所述超分辨率网络模型进行训练，得到所述图像重构网络；所述第二损失函数包括l1损失函数和感知损失函数，所述感知损失函数用于提升模型估计结果与真实结果之间的语义相似度；所述l1损失函数用于缩小模型估计结果与真实结果之间的差异。

可选地，所述第一低分辨率图像是将相应的第二低分辨率图像与预先提取的低质量特征合成得到的；所述低质量特征是从多张第二低分辨率图像中提取得到的图像特征。

可选地，所述低质量特征包括模糊核和/或噪声。

可选地，所述模糊核是使用预先训练的生成对抗网络对第二低分辨率图像进行提取得到的，所述生成对抗网络包括生成器，所述生成器用于对所述模糊核进行建模；

所述噪声是对所述第二低分辨率图像进行patch提取得到的。

第二方面，提供一种面向监控场景的图像超分辨率装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的面向监控场景的图像超分辨率方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的面向监控场景的图像超分辨率方法。

本申请的有益效果在于：通过将目标低分辨率图像输入预先训练的特征映射网络，得到位于目标特征空间的高维特征；将目标低分辨率图像和高维特征输入预先训练的图像重构网络，得到目标低分辨率图像对应的高分辨率图像；可以解决现有的基于深度学习的图像超分辨率方法合成的低分辨率图像与真实的低分辨率图像存在差异，泛化性较差的问题；由于图像重构网络是使用高分辨率图像、该高分辨率图像对应的第一低分辨率图像、以及将第一低分辨率图像输入特征映射网络后得到的输出结果训练得到的；而特征映射网络是使用第一低分辨率图像和第二低分辨率图像训练得到的；这样，特征映射网络预先学习有特征映射关系，以使第一低分辨率图像的图像特征和第二低分辨率图像的图像特征均可以映射至同一特征空间(即目标特征空间)；结合特征映射网络后得到的输出结果训练图像重构网络，进一步缩小了合成与真实低分辨率图像间的域差异，提高图像重构效果。其中，第一低分辨率图像是基于高分辨率图像合成得到的低分辨率图像；第二低分辨率图像是对实际场景进行采集得到的低分辨率图像。

另外，通过结合图像超分辨率背景对第二损失函数进行改进，针对图像超分辨率的背景，提取vgg网络的中间层作为感知损失，并联合像素级l1损失共同优化超分辨率网络模型，可以提升高分辨率图像的感官效果。

另外，通过在图像重构网络中引入注意力机制，可以区别对待不同通道的图像特征，提升网络的表征能力。

另外，通过从第二低分辨率图像中提取低质量特征，并使用该低质量特征与高分辨率图像合成得到第一低分辨率图像，使得第一低分辨率图像更加近似于真实采集的低分辨率图像，从而提高使用该第一低分辨率图像训练得到的网络模型的泛化性能。

另外，由于生成对抗网络可以学习到真实图像的相似性质，因此，通过预先训练得到生成对抗网络，并使用该生成对抗网络来提取低质量特征中的模糊核，可以提高模糊核提取的准确性。

另外，通过将初始网络模型实现为共享参数的vae，由于vae不是将输入图像压缩为潜在空间的编码，而是将图像转换为最常见的两个统计分布参数，即均值和标准差；使用均值和标准差可以定义潜在空间中的一个正态分布，因此，提高特征映射的准确性。

另外，通过使用第一损失函数训练得到特征映射网络，该第一损失函数包括对抗损失函数，而对抗损失函数是基于生成对抗网络的损失函数，可以使得输出结果更加逼近真实结果，提高训练效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的rcan的网络结构示意图；

图2是本申请一个实施例提供的面向监控场景的图像超分辨率方法的流程图；

图3是本申请一个实施例提供的第一低分辨率图像在特征映射之前和特征映射之后的特征空间分布示意图；

图4是本申请一个实施例提供的特征映射网络的训练方法的流程图；

图5是本申请一个实施例提供的特征映射网络的特征映射过程的示意图；

图6是本申请一个实施例提供的图像重构网络的结构示意图；

图7是本申请一个实施例提供的图像重构网络的训练方法的流程图；

图8是本申请一个实施例提供的面向监控场景的图像超分辨率过程的示意图；

图9是本申请一个实施例提供的模糊核提取方法的流程图；

图10是本申请一个实施例提供的模糊核的示意图；

图11是本申请一个实施例提供的噪声提取方法的流程图；

图12是本申请一个实施例提供的噪声的示意图；

图13是本申请一个实施例提供的面向监控场景的图像超分辨率装置的框图；

图14是本申请一个实施例提供的面向监控场景的图像超分辨率装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

图像分辨率指图像中存储的信息量。图像分辨率越高对应的图像越清晰，质量越高；图像分辨率越低对应的图像越模糊，质量越低。

超分辨率技术(super-resolution，sr)是指从观测到的低分辨率图像重建出相应的高分辨率图像。

残差通道注意力网络(residualchannelattentionnetwork，rcan)：用于自适应地学习较深的网络中不同通道中的特征。

由于低分辨率图像(dr)中包含大量低频信息，但是在一般的卷积神经网络中每个通道中的特征会被同等对待，缺乏跨特征通道的区分学习能力，阻碍了深层网络的表征能力，不符合超分辨率任务中尽可能多地恢复高频信息的需求。基于此，通过rcan可以区别对待不同通道，提高网络的表征能力。

rcan包括：浅层特征提取层、深度特征提取层、上采样层和重建层。下面分别对每个模块分别进行介绍。

1、浅层特征提取层用于从输入图像中提取浅层特征。

在一个示例中，浅层特征提取层使用一个卷积层(conv)从输入图像ilr中提取浅层特征f0，具体参见下式：

f0＝hsf(ilr)

其中，hsf表示卷积运算。

2、深度特征提取层用于基于浅层特征提取层的输出进行深度特征提取。

在一个示例中，深度特征提取层使用残差in残差(residualinresidual，rir)提取深度特征fdf，具体参加下式：

fdf＝hrir(f0)

其中，hrir表示的是rir模块，包括g个残差组。

每个rir模块包含长、短两种跳跃连接，有助于传递丰富的低频信息，使得主网络可以学习到更多有效的信息。

另外，rir模块引入通道注意力机制(channelattention，ca)。传统的基于卷积神经网络(convolutionalneuralnetworks，cnn)的sr方法对逻辑回归(logisticregression，lr)信道特征的处理是相同的。为了使网络专注于更多信息特征，利用特征信道之间的相互依赖性，形成信道注意力机制。

在网络的特征图中，不同通道的特征图捕捉的网络特征是不同的，正是因为这些不同点对于超分辨任务中高频特征的恢复的贡献是不一样的，因此，通过采用channelattention的机制对特征图中的通道赋予不同的权重，可以增加通道之间的差异性。

3、上采样层用于提升深度特征的分辨率，得到高分辨率特征图。

在一个示例中，上采样层包括反卷积层(也称为转置卷积)、最近邻上采样(nearestneighborsampling)和卷积的结合、或者高效亚像素卷积神经网络(efficientsub-pixelconvolutionalneuralnetwork，espcn)的亚像素卷神经网络，本实施例不对上采样层的网络结构作限定。

上采样层的上采样过程通过下式表示：

fup＝hup(fdf)

其中，hup表示上采样的算法；fup表示上采样之后得到的特征图。

4、重建层用于对高分辨率特征图进行恢复，得到高分辨率图像。

在一个示例中，重建层通过一个conv层重建高分辨率特征图的特征，重建过程通过下式表示：

isr＝hrec(fup)＝hrcan(ilr)

其中，isr表示最终得到的高分辨率图像，hrec表示重建卷积模块，hrcan表示rcan网络。

rcan网络在训练时使用的损失函数包括但不限于以下几种中的至少一种：l1损失函数、l2损失函数、生成对抗网络(generativeadversarialnetworks，gan)损失函数、纹理结构感知损失函数(perceptualloss)等。

l1损失函数用于缩小模型估计结果与真实结果之间的差异。换句话说，l1损失函数用于将目标值与估计值的绝对差值的总和最小化。

l2损失函数用于将目标值与估计值的差值的平方和最小化。

gan损失函数是使用神经网络实现的损失函数，用于供两个网络之间相互作用生成逼近真实值的估计结果。

感知损失函数用于提升模型估计结果与真实结果之间的语义相似度。

自编码器(autoencoder，ae)：是一种利用反向传播算法使得输出值等于输入值的神经网络，它现将输入压缩成潜在空间表征，然后将这种表征重构为输出。从本质上来讲，自编码器是一种数据压缩算法，其压缩和解压缩算法都是通过神经网络来实现的。构建一个自编码器需要两部分：编码器(encoder)和解码器(decoder)。编码器用于将输入压缩为潜在空间表征，可以用函数f(x)来表示，解码器用于将潜在空间表征重构为输出，可以用函数g(x)来表示，编码函数f(x)和解码函数g(x)都是神经网络模型。

变分自编码器(variationalautoencoder，vae)：传统的自编码器由于本身是一种有损的数据压缩算法，在进行图像重构时不会得到效果最佳或者良好结构的潜在空间表达，而vae不是将输入图像压缩为潜在空间的编码，而是将图像转换为最常见的两个统计分布参数，即均值和标准差。vae也包括编码器和解码器。编码器用于将输入图像转换为表示潜在空间中的两个参数：均值和方差，这两个参数可以定义潜在空间中的一个正态分布；然后从这个正态分布中进行随机采样。解码器模块将潜在空间中的采样点映射回原始输入图像，以达到重构的目的。

假设对于原始数据样本{x1，…，xn}，可以使用x来描述这个样本的总体，在x的分布p(x)已知的情况下，可以直接对p(x)这个概率分布进行采样。在样本的分布p(x)未知的情况下，需要通过对p(x)进行变换来推算x，此时，可以通过vae来实现。具体地，假设p(x)的分布表示为：

其中，p(x|z)表示一个由z来生成x的模型，z服从标准正态分布，也即是p(z)＝n(0，1)。先从标准正态分布中采样z，然后根据z来算x，从而得到生成模型。

参考图1所示的vae的算法原理示意图，根据图1可知，vae通过神经网络将原始数据进行均值和方差的潜在空间表征，然后将其描述为正态分布，再根据正态分布进行采样，将采样的结果输入解码结构，最后生成目标图像。

可选地，本申请以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或者服务器，其中，终端可以为计算机、手机、平板电脑等，本实施例不对电子设备的设备类型作限定。

另外，本申请提供的面向监控场景的图像超分辨率方法的应用场景包括但不限于以下几种：

第一种场景：将低分辨率的人脸图像重构为高分辨率的人脸图像。比如：人员监控场景、人员考勤场景等。

第二种场景：将低分辨率的车辆图像重构为高分辨率的车辆图像。比如：卡口监控场景、违章监控场景等。

当然，在其它实施例中，面向监控场景的图像超分辨率方法还可以应用于其它场景，本实施例在此不再一一列举。

图2是本申请一个实施例提供的面向监控场景的图像超分辨率方法的流程图。该方法至少包括以下几个步骤：

步骤201，获取待还原的目标低分辨率图像。

目标低分辨率图像是使用图像采集设备对真实场景进行图像采集得到的。目标低分辨率图像可以为视频流中的一帧图像；或者，为单张图像；且该目标低分辨率图像可以是其它设备发送的，或者，是电子设备通过摄像头采集得到的，本实施例不对目标低分辨率图像的来源作限定。

可选地，电子设备在获取到一张目标图像后，检测该目标图像的图像分辨率；在图像分辨率小于预设阈值时，确定该目标图像为目标低分辨率图像，执行步骤202；在图像分辨率大于或等于预设阈值时，确定该目标图像不是目标低分辨率图像，对下一张目标图像进行分辨率检测，直至所有的目标图像遍历完成时，流程结束。

其中，检测图像分辨率的方式包括但不限于：从目标图像的图像信息中读取；或者，调用图像编辑程序读取图像属性信息获取，本实施例不对图像分辨率的检测方式作限定。

或者，电子设备在获取到一张目标图像后，确定拍摄目标图像的图像采集设备是否为黑名单设备；若是，则确定该目标图像为目标低分辨率图像，执行步骤202；若不是，则确定该目标图像不是目标低分辨率图像，确定下一张目标图像的图像采集设备是否为黑名单设备，直至所有的目标图像遍历完成时，流程结束。

其中，黑名单设备包括至少一个设备标识，每个设备标识用于指示拍摄低分辨率图像的图像采集设备。可选地，设备标识可以为图像采集设备的设备号、或者编号等，本实施例不对设备标识的实现方式作限定。

在其它实施例中，电子设备也可以采用其它方式确定目标图像是否为目标低分辨率图像，本实施例在此不再一一列举；或者，电子设备将获取到的每张目标图像均作为目标低分辨率图像，在获取到该目标图像(即目标低分辨率图像)后，直接执行步骤202。

可选地，电子设备在获取到目标低分辨率图像后，确定该目标低分辨率图像是否已执行高分辨率的还原过程；若是，则流程结束；若否，则执行步骤202。

其中，确定该目标低分辨率图像是否已执行高分辨率还原过程，包括但不限于：计算目标低分辨率图像的摘要信息；将该摘要信息与历史摘要信息进行比较；若比较结果一致，则确定该目标低分辨率图像已执行高分辨率还原过程；若不一致，则确定该目标低分辨率图像未执行高分辨率还原过程。其中，历史摘要信息为历史低分辨率图像的摘要信息，该历史低分辨率图像为已执行高分辨率的还原过程的低分辨率图像。或者，将目标低分辨率图像与历史低分辨率图像进行相似度比较；若相似度大于相似度阈值，则确定该目标低分辨率图像已执行高分辨率还原过程；若相似度小于或等于相似度阈值，则确定该目标低分辨率图像未执行高分辨率还原过程。在其它实施例中，电子设备也可以通过其它方式确定目标低分辨率图像是否已执行高分辨率还原过程，本实施例在此不再一一列举。

步骤202，将目标低分辨率图像输入预先训练的特征映射网络，得到位于目标特征空间的高维特征；其中，特征映射网络使用第一训练数据训练得到；第一训练数据包括第一低分辨率图像和第二低分辨率图像；第一低分辨率图像是基于高分辨率图像合成得到的低分辨率图像；第二低分辨率图像是对实际场景进行采集得到的低分辨率图像。

特征映射网络预存在电子设备中，该特征映射网络可以是在该电子设备中训练得到的；或者，也可以是在其它设备中训练之后，存储在该电子设备中的。

特征映射网络用于提取目标低分辨率图像的高维特征，同时将该高维特征映射至目标特征空间，从而得到位于目标特征空间的高维特征。

对于同一拍摄对象对应的第一低分辨率图像和第二低分辨率图像，可能存在图像间的域差异。基于此，本实施例中，通过预先训练得到特征映射网络，使得该第一低分辨率图像的高维特征和第二低分辨率图像的高维特征映射至同一特征空间中，之后再对超分辨率网络模型进行训练，以使训练得到的图像重构网络结合目标特征空间中的高维特征进行图像重构，可以缩小合成与真实低分辨率图像间的域差异，提高图像重构效果。

对于同一拍摄对象对应的第一低分辨率图像和第二低分辨率图像，假设通过使用高维特征可视化工具(如：t分布随机邻域嵌入(t-distributedstochasticneighborembedding，tsne)工具)对该第一低分辨率图像和第二低分辨率图像的高维特征进行可视化，得到的可视化结果如图3所示。根据图3左侧所示的特征空间可知，第一低分辨率图像的高维特征无法覆盖第二低分辨率图像的高维特征，参考图3左侧圆圈部分所示。在经过特征映射网络对第一低分辨率图像和第二低分辨率图像进行特征映射后，得到图3右侧所示的特征空间。根据图3右侧的特征空间可知，第一低分辨率图像的高维特征能够覆盖第二低分辨率图像的高维特征；换句话说，第一低分辨率图像的高维特征与第二低分辨率图像的高维特征位于统一的特征空间中。图3中，深色点代表第一低分辨率图像的高维特征，浅色点代表第二低分辨率图像的高维特征。

参考图4，特征映射网络的训练过程至少包括步骤41和42：

步骤41，将第一训练数据输入预设的初始网络模型；该初始网络模型用于学习第一训练数据的空间表征。

初始网络模型为自编码器，该自编码器包括编码器和解码器。为了提高特征映射效果，在一个示例中，初始网络模型为基于共享参数的变分自编码器模型。

第一训练数据中的第一低分辨率图像可以是对相应的第二低分辨率图像进行双插值采样得到的；或者，是将相应的第二低分辨率图像与预先提取的低质量特征合成得到的，具体合成方式详见下述实施例。

其中，低质量特征是从多张第二低分辨率图像中提取得到的图像特征。

步骤42，使用第一损失函数对初始网络模型进行训练，并对第一训练数据的图像特征进行特征空间的约束，以使第一训练数据中各个图像的图像特征均映射至目标特征空间，得到特征映射网络。

在特征映射网络的训练过程中，初始网络模型学习第一低分辨率图像和第二低分辨率图像的自编码。

可选地，第一损失函数包括l1损失函数和对抗损失函数。

对抗损失函数用于约束图像特征的特征空间。

在一个示例中，对抗损失函数通过下式表示：

其中，是对抗损失函数的输出结果；x表示第一低像素图像和第二低像素图像中的样本；e表示随机变量的期望值；d表示生成对抗网络中的判别器。

l1损失函数用于缩小模型估计结果与真实结果之间的差异。

在一个示例中，l1损失函数通过下式表示：

其中，l1是l1损失函数的输出结果；x表示第一低像素图像中的样本，表示x的估计值；r表示第二低像素图像中的样本，表示y的估计值；|n|1表示向量n的1-范数；e表示随机变量的期望值。

第一损失函数可以是l1损失函数和对抗损失函数的和；或者，为l1损失函数和对抗损失函数的加权值，其中，不同类型的损失函数对应的权重为预先设置的。

比如：第一损失函数ltotal通过下式表示：

在其它实施方式中，第一损失函数还可以包括其它类型的损失函数，或者，仅包括l1损失函数，或者，仅包括对抗损失函数，本实施例不对第一损失函数的实现方式作限定。

训练得到特征映射网络后，参考图5所示的特征映射网络的特征映射过程，目标低分辨率图像输入特征映射网络后，经过编码器51计算得到目标低分辨率图像的高维特征。其中，特征映射网络包括编码器51和解码器52。

步骤203，将目标低分辨率图像和高维特征输入预先训练的图像重构网络，得到目标低分辨率图像对应的高分辨率图像；图像重构网络使用第二训练数据训练得到，第二训练数据包括高分辨率图像、高分辨率图像对应的第一低分辨率图像、以及将第一低分辨率图像输入特征映射网络后得到的输出结果。

本实施例中，为了使得高分辨率图像与目标低分辨率图像之间的域空间一致，图像重构网络将位于目标特征空间的高维特征与目标低分辨率图像的图像特征融合。相应地，图像重构网络包括与特征映射网络相连的特征融合层，该特征融合层用于将图像特征与高维特征进行融合。

在一个示例中，特征融合层将图像特征与高维特征进行融合，包括：对图像特征和高维特征进行拼接，得到拼接特征；对拼接特征通过预设尺寸的卷积层进行融合，得到融合特征。

预设尺寸的卷积层可以1×1的卷积层，本实施例不对特征融合时使用的卷积层的实现方式作限定。

由于低分辨率图像中包含大量低频信息，但是在一般的卷积神经网络中每个通道中的特征会被同等对待，缺乏跨特征通道的区分学习能力，阻碍了深层网络的表征能力，不符合超分辨率任务中尽可能多地恢复高频信息的需求。基于此，本实施例提供的图像重构网络可以区别对待不同通道，提高网络的表征能力。

在一个示例中，参考图6，图像重构网络是对rcan进行改进得到。图像重构网络包括位于特征融合层61之前的浅层特征提取层62、位于特征融合层61之后的深度特征提取层63、上采样层64和重建层65。

浅层特征提取层用于提取目标低分辨率图像的浅层特征。

在一个示例中，浅层特征提取层使用一个卷积层(conv)从输入图像ilr中提取浅层特征f0，具体参见下式：

f0＝hsf(ilr)

其中，hsf表示卷积运算。

特征融合层用于将浅层特征和高维特征融合，得到融合特征。特征融合的过程参考下式：

其中，ffu表示融合特征，hfu表示1×1卷积操作；flr表示特征映射网络输出的高维特征；表示特征拼接。其中，特征拼接方式可以为使用concat方法拼接。在其它实施例中，特征拼接方式也可以为其它方式，比如：join方法、merge方法等，本实施例不对特征拼接方式作限定。

深度特征提取层用于提取融合特征的深度特征，具体参加下式：

fdf＝hrir(ffu)。

上采样层用于提升深度特征的分辨率，得到高分辨率特征图，具体参加下式：

fup＝hup(fdf)。

重建层用于对高分辨率特征图进行恢复，得到高分辨率图像，具体参加下式：

isr＝hrec(fup)＝hrcan(ilr)。

其中，深度特征提取层基于注意力(attention)机制对融合特征中的各个通道赋予不同的权重，以提取高分辨率特征。在一个示例中，深度特征提取层包括多个rir模块。

参考图7，图像重构网络的训练过程至少包括步骤71和72：

步骤71，将第二训练数据输入预设的超分辨率网络模型。

超分辨率网络模型的模型结构与图像重构网络的模型结构相同，具体参见图6，本实施例在此不再赘述。

第二训练数据中的第一低分辨率图像可以是对相应的第二低分辨率图像进行双插值采样得到的；或者，是将相应的第二低分辨率图像与预先提取的低质量特征合成得到的，具体合成方式详见下述实施例。

第二训练数据中的高分辨率图像是对真实环境进行采集得到的。可选地，真实环境与图像重构网络的应用场景对应的环境有关，比如：图像重构网络用于重构监控卡口采集到的低质量人脸图像，则采集高分辨率图像的真实环境为监控卡口的采集环境。

可选地，电子设备在获取到大量的真实图像(即对真实环境采集得到的图像)之后，可以确定各个真实图像是否为高分辨率图像；若是，则将该真实图像作为第二训练数据中的高分辨率图像；若否，则将该真实图像丢弃或者将该真实图像作为第二分辨率图像，以供电子设备进行低质量特征的提取，具体参见下述实施例。

其中，确定各个真实图像是否为高分辨率图像的方式包括但不限于：检测该真实图像的图像分辨率；在图像分辨率大于或等于预设阈值时，确定该真实图像为高分辨率图像；在图像分辨率小于预设阈值时，确定该真实图像不是高分辨率图像。或者，确定拍摄真实图像的图像采集设备是否为白名单设备；若是，则确定该真实图像为高分辨率图像；若不是，则确定该真实图像不是高分辨率图像。

其中，白名单设备包括至少一个设备标识，每个设备标识用于指示拍摄高分辨率图像的图像采集设备。

在其它实施例中，电子设备也可以采用其它方式确定真实图像是否为高分辨率图像，本实施例在此不再一一列举。

步骤72，使用第二损失函数对超分辨率网络模型进行训练，得到图像重构网络。

可选地，第二损失函数包括l1损失函数和感知损失函数。

其中，i表示特征提取网络的第i层，表示基于resnet50的vgg-face网络，n表示总提取层数，isr表示重建网络输出的图像，ihr表示ilr对应的高分辨率图像。

需要补充说明的是，图像重构网络还可以用于重构其它类型的高分辨率图像，比如：车辆图像、商品图像等，此时，相应地将预训练的vgg网络识别的对象替换为识别相应对象，而不仅限于识别人脸。

l1损失函数用于缩小模型估计结果与真实结果之间的差异。在一个示例中，像素级的l1损失函数通过下式表示：

其中，isr表示重构网络输出的图像，ihr表示ilr对应的高分辨率图像，i表示图像中的第i个像素，n表示像素总数，i依次取小于或等于n的正整数。

在其它实施方式中，第二损失函数还可以包括其它类型的损失函数，或者，仅包括l1损失函数，或者，仅包括感知损失函数，本实施例不对第二损失函数的实现方式作限定。

可选地，在训练得到图像重构网络后，还可以使用测试数据对图像重构网络进行测试，以提高图像重构网络的性能。其中，测试数据包括高分辨率图像、该高分辨率图像对应的第一低分辨率图像、以及将第一低分辨率图像输入特征映射网络后得到的输出结果。测试数据的数据内容与第二训练数据的数据内容不同。

在训练得到图像重构网络后，参考图8所示的高分辨率图像的生成过程，将目标低分辨率图像分别输入特征映射网络81和图像重构网络82；特征映射网络81输出位于目标特征空间的高维特征；图像重构网络82将该高维特征与提取到的浅层特征融合，之后进行深度特征提取、上采样和图像重构，得到高分辨率图像。

综上所述，本实施例提供的面向监控场景的图像超分辨率方法，通过将目标低分辨率图像输入预先训练的特征映射网络，得到位于目标特征空间的高维特征；将目标低分辨率图像和高维特征输入预先训练的图像重构网络，得到目标低分辨率图像对应的高分辨率图像；可以解决现有的基于深度学习的图像超分辨率方法合成的低分辨率图像与真实的低分辨率图像存在差异，泛化性较差的问题；由于图像重构网络是使用高分辨率图像、该高分辨率图像对应的第一低分辨率图像、以及将第一低分辨率图像输入特征映射网络后得到的输出结果训练得到的；而特征映射网络是使用第一低分辨率图像和第二低分辨率图像训练得到的；这样，特征映射网络预先学习特征映射关系，以使第一低分辨率图像的图像特征和第二低分辨率图像的图像特征均可以映射至同一特征空间(即目标特征空间)；结合特征映射网络后得到的输出结果训练图像重构网络，进一步缩小了合成与真实低分辨率图像间的域差异，提高图像重构效果。其中，第一低分辨率图像是基于高分辨率图像合成得到的低分辨率图像；第二低分辨率图像是对实际场景进行采集得到的低分辨率图像。

另外，通过在图像重构网络中引入注意力机制，可以区别对待不同通道的图像特征，提升网络的表征能力。

另外，通过使用第一损失函数训练得到特征映射网络，该第一损失函数包括对抗损失函数，而对抗损失函数是基于生成对抗网络生成的损失函数，可以使得输出结果更加逼近真实结果，提高训练效果。

传统的第一低分辨率图像的合成方式包括：对真实采集得到的高分辨率图像进行双线性下采样，得到第一低分辨率图像。然而，对真实世界进行图像采集时，得到的真实的低分辨率图像(即第二低分辨率图像)的低质量特征是多种多样的。因此，仅通过双线性下采样方式获取第一分辨率图像，并使用该第一分辨率图像来训练图像重构网络和/或特征映射网络，会导致得到的网络模型的泛化性能较差的问题。

可选地，基于上述实施例，本实施例提供一种第一低分辨率图像的合成方式，本实施例中，第一低分辨率图像是将高分辨率图像与预先提取的低质量特征合成得到的；该低质量特征是从多张第二低分辨率图像中提取得到的。

低质量特征用于指示第二低分辨率图像的多种低质量因素。在一个示例中，低质量特征包括模糊核和/或噪声。

模糊核是卷积核的一种，本质是一个矩阵，高分辨率图像与模糊核卷积后会导致图像变得模糊，因此称为模糊核。图像卷积操作是指矩阵卷积。

由于真实图像具有跨尺度重现性质(internalcross-scalerecurrenceproperty)，因此，可以得出一个正确的超分辨率图像模糊核能够最大化低分辨率图像中各图像块的相似度。基于此，本实施例中，提出一种模糊核的提取方式，该模糊核是使用预先训练的生成对抗网络对第二低分辨率图像进行提取得到的。参见图9所示的模糊核提取方法，该方法至少包括步骤91-94：

步骤91，获取多张第二低分辨率图像。

第二低分辨率图像是对真实环境进行采集得到的低分辨率图像。

步骤92，对于多张第二低分辨率图像中的每张第二低分辨率图像，将第二低分辨率图像输入初始生成对抗网络，得到网络输出结果。

初始生成对抗网络包括生成器和判别器。

生成器用于对模糊核进行建模。在一个示例中，生成器包括一个线性的网络模型，该网络模型由卷积核尺寸为7×7，5×5，3×3和3个1×1的卷积堆叠而成。其中，第一层卷积7×7的步长为2，其余卷积步长均为1，整个网络模型的感受野为13×13。

假设输入初始生成对抗网络的第二低分辨率图像的尺寸为64×64，则经过生成器计算后，得到32×32分辨率的图像。

在其它实施例中，生成器的感受野也可以为其它尺寸，本实施例不对生成器的网络结构作限定。

判别器用于学习图像块内像素的分布，以区别输入图像是否来自真实图像分布。在一个示例中，判别器包括全卷积的pacth判别器，该判别器由一个7×7的卷积和6个1×1的卷积堆叠而成，判别器网络的感受野为7×7。即，判别器输出概率图上的每一个点对应输入图像中相应7×7像素块属于真实图像的概率。

在其它实施例中，判别器的感受野也可以为其它尺寸，本实施例不对判别器的网络结构作限定。

步骤93，使用第三损失函数和网络输出结果对初始生成对抗网络进行训练，得到当前一张第二低分辨率图像对应的最终的生成对抗网络。

可选地，电子设备通过交替训练的方式对初始生成对抗网络进行训练，在训练过程中分别更新判别器与生成器的权重，直至模型收敛。

在一个示例中，第三损失函数g*通过下式表示：

其中，e表示分布函数的期望值，patch(ilr)表示第二低分辨率图像的分布，g表示生成器的网络模型，d表示判别器的网络模型，表示模糊核正则项，用于约束模糊核更符合人类先验。

步骤94，将预设图像输入各个生成对抗网络，得到每个生成对抗网络对应的模糊核。

其中预设图像为中心像素值为1、其它位置像素值为0的预定尺寸图像。预定尺寸可以为25×25，本实施例不对预设尺寸的取值作限定。

本实施例中，通过将预设图像输入各个生成对抗网络，通过生成对抗网络中的生成器可以得到预设感受野的输出图像，该输出图像即为模糊核。这样，电子设备无需存储各个已训练的生成对抗网络的参数，可以节省存储资源。

本实施例中，通过使用生成对抗网络来提取模糊核，由于该生成对抗网络预先学习了大量的第二低分辨率图像的模糊特征，因此，可以提高模糊核的准确性。在一个示例中，使用生成对抗网络提取得到的模糊核参考图10所示。

在其它实施例中，电子设备也可以在训练得到生成对抗网络后，直接将高分辨率图像输入任意一个生成对抗网络中，由生成器输出经过模糊、且下采样分辨率2倍后的低分辨率图像，而无需提取模糊核，即，在步骤93之后，不再执行步骤94，本实施例不对高分辨率的模糊过程作限定。

噪声是指图像数据中不必要的或者多余的干扰信息。噪声的存在会影响图像的质量。

可选地，假设噪声均值为0，基于此，噪声是对第二低分辨率图像进行patch提取得到的。参见图11所示的噪声提取方法，该方法至少包括步骤1101-1104：

步骤1101，对于每张第二低分辨率图像，使用目标分辨率的矩形框以预设步长在整幅图像中滑动；

本实施例中，目标分辨率可以为56×48，预设步长可以为8；在其它实施方式中，目标分辨率和预设步长的取值也可以为其它值，本实施例不对目标分辨率和预设步长的取值作限定。

步骤1102，计算每个矩形框区域内的方差。

步骤1103，将具有最小方差的矩形框与预先设定的方差阈值进行比较；若最小方差大于方差阈值，则丢弃该第二低分辨率图像，再次执行步骤1101；若最小方差小于或等于方差阈值，则执行步骤1104；

步骤1104，将矩形框区域的像素值减去该区域的均值，得到噪声数据，流程结束。

在一个示例中，对第二低分辨率图像进行patch提取得到的噪声参考图12所示。

综上所述，本实施例中，通过从第二低分辨率图像中提取低质量特征，并使用该低质量特征与高分辨率图像合成得到第一低分辨率图像，使得第一低分辨率图像更加近似于真实采集的低分辨率图像，从而提高使用该第一低分辨率图像训练得到的网络模型的泛化性能。

图13是本申请一个实施例提供的面向监控场景的图像超分辨率装置的框图。该装置至少包括以下几个模块：图像获取模块1310、特征映射模块1320和图像生成模块1330。

图像获取模块1310，用于获取待还原的目标低分辨率图像；

特征映射模块1320，用于将所述目标低分辨率图像输入预先训练的特征映射网络，得到位于目标特征空间的高维特征；其中，所述特征映射网络使用第一训练数据训练得到；所述第一训练数据包括第一低分辨率图像和第二低分辨率图像；所述第一低分辨率图像是基于高分辨率图像合成得到的低分辨率图像；所述第二低分辨率图像是对实际场景进行采集得到的低分辨率图像；

图像生成模块1330，用于将所述目标低分辨率图像和所述高维特征输入预先训练的图像重构网络，得到所述目标低分辨率图像对应的高分辨率图像；所述图像重构网络使用第二训练数据训练得到，所述第二训练数据包括高分辨率图像、所述高分辨率图像对应的第一低分辨率图像、以及将所述第一低分辨率图像输入所述特征映射网络后得到的输出结果。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的面向监控场景的图像超分辨率装置在进行面向监控场景的图像超分辨率时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将面向监控场景的图像超分辨率装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的面向监控场景的图像超分辨率装置与面向监控场景的图像超分辨率方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本申请一个实施例提供的面向监控场景的图像超分辨率装置的框图，该装置可以是智能手机、平板电脑、笔记本电脑、台式电脑或服务器等，或者还可能被称为用户设备、便携式终端、膝上型终端、台式终端、控制终端等，本实施例不对该装置的类型作限定。该装置至少包括处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器1401可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以在集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本申请中方法实施例提供的面向监控场景的图像超分辨率方法。

在一些实施例中，面向监控场景的图像超分辨率装置还可选包括有：外围设备接口和至少一个外围设备。处理器1401、存储器1402和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，面向监控场景的图像超分辨率装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的面向监控场景的图像超分辨率方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的面向监控场景的图像超分辨率方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡旭阳;姚佳丽;李瑮
技术所有人：苏州科达特种视讯有限公司;苏州科达科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。