一种基于语义不一致性检测的图像盲修复方法

文档序号:31131915发布日期:2022-08-13 06:20阅读:55来源:国知局
一种基于语义不一致性检测的图像盲修复方法

1.本发明属于计算机图形与图像处理领域,涉及一种基于语义不一致性检测的图像盲修复方法。


背景技术:

2.随着计算机技术和多媒体技术的发展,数字图像成为重要的信息载体。随着时间推移和一些不可抗力因素,照片的保存过程可能面临各种各样的退化,比如墨痕污染、折痕破损、发霉褪色等;另外记录时刻也可能产生意外,如拍照时抢镜、相机镜头有污渍等。以上种种会以极大的影响图像内容的表达。因此补全图像内容、提高图像质量的图像修复技术近年来发展迅速,并广泛应用于图像编辑、目标移除、生物医学图像处理和刑侦等领域。图像修复技术经过多年的发展已取得了诸多重要的研究成果,目前广泛应用的处理手段如photoshop的修补工具等就是应用传统的修复方法,利用图像信息的冗余性,用已知区域的像素填充损坏区域。这类方法能够产生较好地修补具有重复纹理的场景图像,但由于缺乏对图像语义的理解,不能产生新的内容。
3.作为计算机视觉方向的一大研究热点,近年来研究学者们尝试将深度学习方法引入图像修复领域,虽然这些模型能够通过提供的有效像素推断出缺失的内容,但这些方法都假定图像中的空白内容作为损坏区域,并明确需要提供一张二值化的掩膜进行标定。这些方法能够很好的训练模型推断缺失区域的内容,然而现实生活中的损坏图像往往退化模式和位置区域是未知的,事先很难提供准确的掩膜指导待修复区域,这极大限制了以上方法在真实场景中的推广。因此,如何仅凭借损坏图像识别出图像中的损坏内容并进行修复成为了一个亟待解决的难题。


技术实现要素:

4.本发明为了克服上述缺陷,提出了一种基于语义不一致性检测的图像盲修复方法,本发明具体步骤如下:
5.s1,输入一张损坏的图像im,包含干净像素区域和污染像素区域;
6.s2,通过多层残差块构建掩膜预测网络,生成定位损坏区域的单通道粗糙预测软掩膜
7.s3,将s2中得到的粗糙的预测掩膜与损坏图像再次输入掩膜细化网络,通过强化学习提高边界等区域的预测精度,得到精细的损坏区域预测掩膜
8.s4,将s3中得到的精细预测掩膜作为先验信息,与损坏图像一同输入共享编码器,按照掩膜指导提取有效像素的特征并向损坏区域传播;
9.s5,将编码器网络提取得到的深层特征图输入多任务并行解码分支,经过多层卷积块推测缺失区域内容,并利用上下文信息保证全局语义一致性;
10.s6,将s5中不同分支提取的特征融合,经解码器网络解码,恢复成图像;
11.s7,利用s3中的精细预测掩膜,截取s6结果中损坏区域位置的像素与损坏图像中
的有效像素拼接,输出最终修复图像。
12.本发明的技术方案特征和改进为:
13.对于步骤s1,本发明首先对损坏图像进行了定义,不同于现有研究中简单的使用空白像素表示待修复区域,本发明认为损坏图像应由干净的有效像素和不同类型的退化和污染像素组成。由于目前没有专门用于盲修复研究的数据集,本发明首先按照上述思想合成批量训练数据用于模型训练,数学表达如下:
[0014][0015]
式(1)中,im表示拼接的损坏图像,i
gt
表示完全干净图像,n表示污染噪声内容,m是二值化掩膜。为了提升本发明的的方法鲁棒性,本发明中n模拟了涂鸦、折痕、文字遮挡以及任意截取其他图像的内容等拼接到i
gt
上,生成包含多种类型污染、退化的损坏图像im。
[0016]
优选地,在所述步骤s1中,为了使污染噪声与原图像融合更加自然,本发明中使用一个平滑高斯函数来做平滑处理,公式表示如下:
[0017]
i=im*g
σ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0018]
式(2)中,i表示平滑处理过的损坏图像,im表示直接拼接的损坏图像,g
σ
表示标准差为σ的二维高斯核。
[0019]
对于步骤s2,本发明使用改良的环形残差卷积块做特征提取器,通过放大有效像素区域和污染区域之间的差异,比较图像不同区域间的固有属性进而定位出损坏区域。其中,本发明使用的环形残差块包含三个步骤,其设计来自于人脑的回忆和巩固机制,通过残差在cnn中的传播和反馈过程来实现。第一阶段为正向的残差传播,通过回忆输入特征信息来解决更深层次网络中的梯度退化问题,公式定义可表示为:
[0020]
yf=f(x,{wi})+ws*x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0021]
式(3)中x表示输入特征图,yf表示表示学习到的残差映射。f(x,{wi})表示学习到的残差映射,其结构包括两个卷积层和激活函数elu,ws是1
×
1的卷积。残差传播看起来像人类大脑的记忆机制。当模型学习更多的新知识时可能会忘记之前的知识,所以需要回忆机制来帮助唤起之前那些模糊的记忆。
[0022]
为了进一步加强损坏内容与有效内容属性之间的差异性,第二阶段使用残差反馈对输入特征信息进行整合。通过使用一个简单的门控机制来学习可辨别特征通道之间的非线性关系,避免特征信息的扩散,再经过激活函数将响应值叠加到输入特征上,放大噪声区域和有效区域的图像本质属性差异,公式定义如下:
[0023]
yb=(s(g(yf))+1)*x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0024]
式(4)中x是残差映射特征,yb是残差反馈特征,g(
·
)是线性映射,s是激活函数,这里使用的sigmoid函数。与残差传播所模拟的回忆机制不同,残差反馈似乎是在模拟人脑巩固知识过程,是获取对特征的新理解。第三阶段则是重复第一阶段操作,对新特征做残差传播,目的是进一步学习放大的特征差异。两次前向的残差传播与一次反向的残差反馈结合形成环形残差结构。
[0025]
对于步骤s3,本发明引入注意力机制来细化粗预测掩膜,通过在整幅图像上对相似纹理进行关注,提升轮廓等细节处的识别结果。具体而言,如果预测为损坏的低置信度区域与高置信度区域共享相似的纹理,则应该修改低置信度区域。为此,需要从高置信度区域
提取损坏内容的关键特征,用来作为该类的全局视觉特征。本发明对粗预测掩膜计算余弦相似度作为新的偏置,再经过softmax降低预测区域的得分图,降低得分之后依然保持高亮的区域则可以被认为特征足够显著,因此可以选择这些区域提取关键特征作为损坏区域的全局特征,计算公式如下:
[0026]
cossim(x

sem
)=x∈rc×c[0027][0028][0029]
式(5)中,cossim(
·
)表示改良的余弦相似度计算函数,x

sem
表示预测权重矩阵,i和j表示预测类别,这里可以分为损坏区域和非损坏区域,x
i,j
表示两个预测类别不同的像素之间的余弦相似度,是x

sem
的第i个通道,表示属于每个像素属于某一类的预测结果。x
i,j
越接近1,与激活结果越相似,则该位置预测不可信。通过对同类像素偏差置0、对不同类像素偏差置相似度得分x
i,j
,这样在分类中仍保持高激活值的区域则为关键特征,整个过程称为关键特征池化。
[0030]
优选地,在所述步骤s3中,本发明利用预测权重矩阵x

sem
和特征图xf计算加权和,得到关键特征vk,具体如下:
[0031][0032]
其中i表示预测类别。将关键特征vk作为key,将特征xf看做query,高亮出与关键特征vk相似的区域,得到一张attentionmap,再与原图进行卷积操作,预测出最终的细化预测掩膜
[0033]
对于步骤s4,本发明引入门控卷积机制改良残差卷积块,通过学习的方式识别损坏区域,动态地选取图像中有效像素内容,从而使卷积结果仅取决于有效像素,代替传统的残差卷积结构进行有效区域的特征提取和整合。其中门控卷积的输出计算为:
[0034]
gating
y,x
=∑∑wg·i[0035]
feature
y,x
=∑∑wf·iꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0036][0037]
式(7)中,i表示输入特征,wg和wf表示两个不同的卷积核,φ表示使用leakyrelu激活函数,σ表示sigmoid函数,将所有值限制到[0,1]之间用指示每个局部区域的重要性,表示逐元素对应相乘,o
y,x
表示软门控加权的输出特征。
[0038]
优选地,在所述步骤s4中,为了避免预测掩膜的错误积累影响图像修复结果,本发明在改良残差块的最后使用了一种新的概率上下文归一化(pcn)进行统计信息转移,将有效像素区域的均值和方差等统计信息向损坏区域传播,确保孔内外区域的特征的分布一致,公示表示如下:
[0039][0040]
式(8)中,x表示门控残差块中最后一层卷积的输出,h表示将预测掩膜采样到与x相同尺寸,β是一个可学习的通道注意力权重,「表示信息转移,具体内容为:
[0041][0042]
式(9)中,x
p
和xq分别表示污染区域和有效像素区域,μ(
·
)表示区域均值,σ(
·
)表示区域方差。对图像来说,特征均值与全局语义相关,方差与局部纹理特征有关,本发明利用pcn进行特征的统计信息传递,有利于融合上下文信息生成缺失内容。
[0043]
对于步骤s5,本发明使用多尺度的上下文注意力聚合分支获取图像上下文信息,其中上下文相似度计算余弦相似度衡量缺失区域内外patch之间的相似度,为要补全区域的patch寻找有效区域内相似度最高的内容,分配以更高的参考权重,使得补全内容在语义和纹理上与上下文保持一致。相似度度量公式如下:
[0044][0045]
式(10)中,pi和pj分别表示有效区域和缺失区域的特征patch,然后在经过一个softmax函数得到每个patch的注意力得分:
[0046][0047]
其中,n表示有效区域划分的patch数目。经过计算,缺失区域内的每个patch寻找到了有效像素内更值得着重关注的区域,将在之后的特征融合中赋予更高的参考权重。
[0048]
优选地,在所述步骤s5中,为了减少计算量并提高推理速度,本发明使用上下文信息转移的方式将计算所得的patch间注意力相似度得分进行传播,具体来说本发明在网络深层尺寸为32
×
32的特征图上计算一次相似度得分,之后使用上下文注意力转移将注意力得分传播到不同尺度的较低层进行特征的加权,方式如下:
[0049][0050]
式(12)中,l表示不同的网络浅层,表示不同尺度下缺失区域patch,表示对应同尺寸的有效区域,s
i,j
表示注意力得分,n表示背景中的patch个数。由于特征图大小是分层变化的,所以patch的大小也应该相应变化,具体操作为用当前特征图尺寸与注意力得分图做比较,放大映射区域,比如128
×
128大小的特征图中每四个相邻像素共享一个注意力得分值。通过注意力得分共享方式,模型推理结果不仅取得了更好的全局语义一致性,存储和计算速度效率也提升显著。
[0051]
本发明的基于不语义一致性检测的图像盲修复方法,解决了现有技术不能解决真实场景中多种退化模式的损坏图像修复及标定掩膜难以直接获取的问题,具有以下优点:
[0052]
(1)本发明的方法分析并设计一个端到端的网络模型,与现有的修复方法研究相比不需要提供实现标定损坏区域的掩膜,自动识别图像中的污染和损坏区域,并修复获得语义一致、视觉完整的结果,修复真实图像中损坏各种损坏模式,具有鲁棒性和真实性。
[0053]
(2)本发明的方法能够便捷的扩展到图像处理的其他研究领域,比如目标移除、高光去除、图像去雨去雾等,就有良好的迁移性和应用性。
附图说明
[0054]
图1为本发明中基于语义不一致性检测的图像盲修复的流程图。
[0055]
图2为本发明中预测掩膜细化模块的结构示意图。
[0056]
图3为本发明中概率上下文内容聚合卷积块的结构示意图。
具体实施方式
[0057]
下面结合附图以及具体实施方式对本发明作进一步详细说明。
[0058]
一种基于语义不一致性检测的图像盲修复方法,如图1所示,为本发明的基于语义不一致性检测的图像盲修复方法的流程图,该方法包含:
[0059]
s1,数据预处理,读取一张带有噪声污染的损坏图像im,将图像尺寸统一调整为256
×
256大小,再经过归一化处理输入进网络模型。在训练阶段,将模拟真实场景中各种退化模式合成损坏图像,再额外使用高斯平滑操作处理,使图像更加真实自然。
[0060]
s2,损坏区域粗预测,将处理好的退化图像输入由六层环形残差块构建的粗糙掩膜预测网络,其整体结构是一个编解码器网络,通过卷积整合图像上下文信息学习图像固有属性,经残差传播与残差回馈的环形结构交替计算,放大有效像素区域与损坏区域间的差异,生成单通道的粗糙损坏区域预测掩膜训练阶段计算损失时,由于只需要判断各位置属于有效区域的还是损坏区域,所以使用二元交叉熵损失作为损失函数,表示如下:
[0061][0062]
式(13)中,t是自适应权重,p∈{p|m
p
=1}表示真实损坏区域,q∈{q|mq=0}表示真实有效区域。
[0063]
s3,预测掩膜细化,将s2生成的粗糙预测掩膜与损坏图像输入掩膜细化网络,如图2所示,首先经过一个简单编码器提取图像特征,计算预测为不同类别的像素间的余弦相似度,紧接一个softmax函数将值限制在[0,1]之间,其中数值越接近1表示该区域预测类别越不可信,经此筛选出高置信度的损坏区域关键特征作为key,按照注意力机制的查询方式遍历整体图像特征query获取全局注意力权重,最后经过反卷积整合更新后的特征信息并还原图像,得到细节轮廓更清晰准确的细化预测掩膜
[0064]
s4,内容特征提取,将损坏图像输入编码器,为了避免预测掩膜错误积累带来的影响,同时将预测细化掩膜缩放至与特征图同尺寸后输入编码器每一层,以指导有效像素信息的提取及向损坏区域的传递。编码器由四层本发明新设计的门控残差卷积块组成,其结构如图3所示,将两个不同任务的标准卷积层的输出的逐元素相乘,其中一层后跟leayrelu函数,另一层后跟一个sigmoid函数,以一种可学习的方式从输入中自动学习更新软掩膜,限制卷积操作只在有效像素区域进行。此外选用概率上下文归一化代替批归一化,实现图像统计信息的转移,确保掩膜内外的特征信息分布一致。
[0065]
s5,缺失区域内容推断,本发明提出了一种多任务并行框架,设计两个了并行的解码分支进行特征推理和内容传播。如图1所示,上行分支由扩张率2、4、8的多层空洞卷积组
成,通过不同的扩张率扩大感受野,捕获多尺度上下文信息;下行分支使用了多尺度的上下文注意力整合模块,在网络深层尺寸为32
×
32的特征图上计算不同patch之间的注意力得分,通过上下文注意力转移模块,在不同尺度的网络浅层上进行特征加权,保证特征全局结构和语义一致性。
[0066]
s6,特征解码与图像还原,将s5中不同分支提取的特征图按通道拼接输入解码器网络进行解码。解码器的结构设计与编码器结构对称,通过四层门控残差卷积块与上采样交替融合特征,最后经过一层3
×
3的普通卷积还原成预测的修复图像;
[0067]
s7,输出最终修复结果,为保证结果更加清晰,利用预测掩膜选取输入图像的有效内容和预测结果的内容进行拼接,再经平滑处理,输出结构完整、语义一致的干净修复结果。
[0068]
综上所述,本发明的基于语义不一致性检测图像盲修复方法适用于修复现实生活中真实的损坏图像,不需要额外提供标记损坏区域的二值化掩膜,通过端到端的网络实现了退化图像的高质量修复,确保修复结果具有视觉完整性和结构合理性,可以鲁棒的解决不同真实场景中面临的各种图像退化和污染,具有广泛的应用价值。
[0069]
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1