一种基于内容注意力机制和掩码先验的图像补全方法与流程

文档序号：24742770发布日期：2021-04-20 22:16阅读：625来源：国知局

1.本发明涉及图像补全技术领域，特别是涉及一种基于内容注意力机制和掩码先验的图像补全方法。

背景技术：

2.图像补全任务(image inpainting)，是指生成给定损坏图像中缺失区域的替代内容，且使得修复的图像在视觉上逼真和在语义上合理。图像补全任务可在其他应用中使用，如图像编辑，当图像中存在分散人注意力的场景元素时，如人或者物体(通常是不可避免的)，允许用户移除图像中不需要的元素，同时在空白区域填充视觉和语义上合理的内容。
3.生成对抗网络启发自博弈论中二人零和博弈的思想，具有生成式网络和判别式网络两个网络，利用它们间相互竞争从而不断提升网络性能，最终达到平衡。基于生成对抗网络思想，衍生出许多变种网络，并且这些网络在图像合成、图像超分、图像风格转换和图像修复等方面都取得了显著的进步。图像补全的研究，包括图像修复、图像去水印、图像去雨和图像去雾都得到了关注。
4.人类的内容注意力机制和掩码先验(attention mechanism)是从直觉中得到，它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。深度学习中的内容注意力机制和掩码先验借鉴了人类的注意力思维方式，被广泛的应用在自然语言处理(nature language processing，nlp)、图像分类及语音识别等各种不同类型的深度学习任务中，并取得了显著的成果。
5.随着科技不断发展，人们在不同领域的需求也在相应提高，包括电影广告动画制作和网络游戏等，逼真的图像修复技术对用户的良好体验具有重要意义。
6.因此，在此背景下，开发基于内容注意力机制和掩码先验的图像补全方法，使得修复后的图像在视觉上逼真和在语义上合理，具有重要的意义。

技术实现要素：

7.本发明的目的是为了提高图像补全任务中图像的生成质量(包括丰富的纹理细节和结构上的连续性)，而提供一种基于内容注意力机制和掩码先验的图像补全方法，是一种更具有广泛应用意义的方法。
8.为实现本发明的目的所采用的技术方案是：
9.一种基于内容注意力机制和掩码先验的图像补全方法，包括步骤：
10.s1.对图像预处理，生成二值掩码图m，利用二值掩码图m合成损坏图像x；
11.s2.通过训练得到进行图像补全的内容注意力机制和掩码先验的生成对抗网络模型，包括利用所述损坏图像x和对应的二值掩码图m作为网络输入，未损坏图像作为目标真实图像y，通过训练学习损坏图像到目标真实图像之间的复杂非线性变换映射，训练生成对抗网络的生成器和判别器；通过生成器中的编码器对输入的损坏图像以及二值掩码图m过局部卷积层进行编码、由解码器根据内容注意力机制选取所获得的隐码解码到损坏图像x
中，得到补全图像与目标真实图像在判别器中进行对抗损失的计算；迭代多次达到稳定后完成模型的训练；
12.s3.使用训练好的生成对抗网络模型，对测试数据进行补全处理。
13.其中，步骤s2包括：
14.s21：初始化图像补全任务中的网络权重参数，其中，生成器的损失函数是l
total
，判别器的损失函数是l
d
；
15.s22：结合损坏图像和二值掩码图输入到生成器网络g中进行图像补全任务，生成的补全图像和目标真实图像一起输入到判别器网络d中，依次迭代训练使得生成器的损失函数l
total
和判别器的损失函数l
d
均降低至趋于稳定；
16.s23：同时训练表情生成和去除任务，直至所有损失函数不再降低，从而得到最终的生成对抗网络模型。
17.其中，所述局部卷积层的输出值取决于未损坏的区域，数学描述如下：
[0018][0019]
其中，
⊙
表示像素级乘法，1表示所有元素均为1且形状和二值掩码图m相同的矩阵，w表示卷积层的参数，f表示前层卷积层的输出特征图，b表示卷积层的偏差，m表示对应的二值掩码图，是缩放因子，调整已知区域的权重；
[0020]
执行局部卷积之后更新二值掩码图m，数学描述如下：
[0021][0022]
即若局部卷积层能够根据有效输入得到输出结果，那么将二值掩码图m中的该处位置标记为1。
[0023]
其中，所述内容注意力机制通过以下步骤输出形成缺失区域：
[0024]
首先计算缺失部分和已知部分的特征相似度：提取已知区域的块，并重新调整大小后作为卷积核的参数；已知区域块{f
x,y
}和未知区域块{b
x
′
,y
′
}之间的余弦相似度通过如下式子计算：
[0025][0026]
在x
′
y
′
维度上用缩放的softmax对相似度权衡，得到每个像素点的注意力值：
[0027][0028]
其中，λ是一个常数；最后把选取出来的未知区域块{b
x
′
,y
′
}作为反卷积的卷积核参数重建出缺失区域。
[0029]
为了获得注意力机制的一致性，首先进行一个从左到右的注意力传播，然后再做一个核大小为k的自顶向下传播：
[0030][0031]
其中，图像补全中的总损失函数为：
[0032]
l
total
＝λ
rec
l
rec
+λ
per
l
per
+λ
style
l
style
+λ
tv
l
tv
+λ
adv
l
adv
[0033]
其中,l
rec
表示重建损失函数，l
per
表示感知损失函数，l
style
表示风格损失函数，l
tv
表示全变分损失函数，l
adv
表示对抗损失函数，λ
rec
、λ
per
、λ
style
、λ
tv
和λ
adv
表示权重因子。
[0034]
其中，重建损失函数表示为：
[0035][0036]
其中，‖
·
‖1表示l1范数，cat表示连结操作。
[0037]
其中，感知损失函数表示为：
[0038][0039]
其中φ是预训练的vgg
‑
16网络，φ
i
输出第i个池化层的特征图，使用vgg
‑
16网络中的pool
‑
1，pool
‑
2和pool
‑
3层，n为选取的层数。
[0040]
其中，风格损失函数表示为：
[0041][0042]
其中c
i
表示预训练vgg
‑
16网络的第i层输出的特征图的通道数。
[0043]
其中，全变分损失函数表示为:
[0044][0045]
其中ω表示图像中损坏区域，全变分损失函数是一个平滑惩罚项，定义在缺失区域一个像素的膨胀域上，i,j表示图像中的某点。
[0046]
其中，对抗损失函数表示为:
[0047][0048]
其中d表示判别器，y
′
是某个样本的随机缩放版本，该样本是从y
′
和y中采样得到的，λ被设置为10，e(*)表示取均值，y～p
y
表示样本y从分布p
y
中采样得到。
[0049]
本发明通过局部卷积层，使得生成对抗网络可以利用二值掩码的先验信息，更加准确地补全损坏图像，从而提升生成图像的质量。
[0050]
本发明通过内容注意力机制可以学习根据已知区域重建出未知区域，即可以使得模型根据图像的已知区域重建出图像中的未知区域，以此生成丰富的细节信息，从而提高生成高分辨率的图像。
[0051]
本发明在图像层面和特征层面引入了重建损失函数、风格损失函数、全变分损失函数和对抗损失函数作为约束，提高网络的鲁棒性和准确性。
[0052]
本发明提出的生成对抗网络模型，使用了多目标的优化方式，使得模型收敛更快，效果更好，并且泛化性能更强。
附图说明
[0053]
图1是本发明中基于内容注意力机制和掩码先验的图像补全方法的流程图。partial conv表示局部卷积层，concatenate表示连结操作；e和d表示编码器和解码器，z表示解码器的输入，为输入图像的特征；
[0054]
图2是本方明中内容注意力机制的处理流程图，图示中background和foreground分别表示缺失的特征图和缺失部分，input feature表示输入的特征图，extract patches表示从缺失特征图中提取块(patch)，reshape表示重新调整大小，conv for matching表示计算余弦相似度，softmax for comparison表示根据注意力值选取最相似的块；
[0055]
图3是本发明在公开数据集上图像补全的效果图，从左往右依次是损坏图像、二值掩码图、补全图像和目标真实图像。
具体实施方式
[0056]
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0057]
本发明通过基于内容注意力机制和掩码先验的生成对抗网络学习一组高度非线性的变换，用来进行图像补全任务，使得补全的图像含有丰富的纹理细节和连续的结构。
[0058]
如图1所示，基于内容注意力机制和掩码先验的图像补全方法，包括步骤：
[0059]
步骤s1，首先使用二值掩码算法离线生成二值掩码图，与未损坏图像相乘得到损坏图像。
[0060]
对于人脸图像，根据双眼位置将图像规范化并裁剪到统一大小256*256；对于自然图像，先将图像大小放大到350*350，然后对放大的图像进行随机裁剪到统一大小256*256。随机选取一张离线生成的二值掩码图m，与未损坏图像相乘得到损坏图像。
[0061]
步骤s2，利用损坏图像和对应的二值掩码图进行结合作为输入训练数据，训练基于内容注意力机制和掩码先验的生成对抗网络模型，以用来完成图像补全任务。
[0062]
为了扩大输入数据样本量，提高网络泛化能力，本发明采取了数据增广操作，包括随机翻转等。本发明中，对抗生成网络在补全图像时，利用由局部卷积层构成的编码器对输入数据提取特征，使用解码器把获得的隐码解码到图像中，并通过内容注意力机制的处理最终输出最终的补全图像，如图1所示。
[0063]
其中，所述编码器和解码器均有8个卷积层组成。编码器中的卷积层滤波器大小分别为7，5，3，3，3，3，3，3；解码器中的卷积层滤波器大小均为3。
[0064]
在本发明实例中，使用传统方法对特征图进行上采样。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置。在判别器中，采用卷积神经网络结构将真实图像对和生成的补全图像对作为输入，输出采用分块对抗损失函数来判断真假。
[0065]
本发明中利用基于内容注意力机制和掩码先验的生成对抗网络的高度非线性拟合能力，针对图像补全任务，提出局部卷积层利用二值掩码图中的先验信息。其次，本发明
提出内容注意力模块，使得算法可根据图像的已知区域重建出未知区域。编码器可逐渐增加生成图像中的纹理细节。特别的，网络通过外加损失函数的限制可以很好地生成高质量的图像。
[0066]
这样通过如图1所示的网络，可以训练得到一个图像补全的模型。在测试阶段，同样使用二值掩码和损坏图像作为模型的输入，得到生成的图像补全结果，如图3所示。
[0067]
特别的，本发明中，图像补全任务中的总目标函数如下表示：
[0068]
l
total
＝λ
rec
l
rec
+λ
per
l
per
+λ
style
l
style
+λ
tv
l
tv
+λ
adv
l
adv
[0069]
其中，l
rec
表示重建损失函数，l
per
表示感知损失函数，l
style
表示风格损失函数，l
tv
表示全变分损失函数，l
adv
表示对抗损失函数。λ
rec
、λ
per
、λ
style
、λ
tv
和λ
adv
表示权重因子。
[0070]
上述的基于内容注意力机制和掩码先验的生成对抗网络，主要是完成图像补全任务，所述生成对抗网络的最终目标为l
total
，使其该损失函数降至最低并且保持稳定。
[0071]
其中，重建损失函数表示为：
[0072][0073]
其中，‖
·
‖1表示l1范数，cat表示连结操作。
[0074]
其中，感知损失函数表示为：
[0075][0076]
其中φ是预训练的vgg
‑
16网络，φ
i
输出第i个池化层的特征图，使用vgg
‑
16网络中的pool
‑
1，pool
‑
2和pool
‑
3层。
[0077]
其中，风格损失函数表示为：
[0078][0079]
其中c
i
表示预训练vgg
‑
16网络的第i层输出的特征图的通道数。
[0080]
其中，全变分损失函数表示为:
[0081][0082]
其中ω表示图像中损坏区域，全变分损失函数是一个平滑惩罚项，定义在缺失区域一个像素的膨胀域上。
[0083]
其中，对抗损失函数表示为:
[0084][0085]
其中d表示判别器，y
′
是某个样本的随机缩放版本，该样本是从y
′
和y中采样得到的，λ被设置为10。
[0086]
其中，所述基于内容注意力机制和掩码先验的生成对抗网络采用如下训练：
[0087]
步骤s21：初始化网络的权重参数，其中，λ
rec
、λ
per
、λ
style
、λ
tv
和λ
adv
分别为6，0.1，
240，0.1，0.001，批处理大小为32，学习率为10
‑4。
[0088]
步骤s22：结合损坏图像和二值掩码图输入到生成器g中进行图像补全任务。生成的补全图像和真实的目标真实图像输入到判别器d中，依次迭代使得网络总损失函数l
total
降低至趋于稳定。
[0089]
步骤s3：使用训练好的基于内容注意力机制和掩码先验的生成对抗网络模型，对测试数据进行补全处理。
[0090]
为了详细说明本发明的具体实施方式及验证本发明的有效性，将本发明提出的方法应用于四个公开的数据库(一个人脸数据库和三个自然数据库)——celeba
‑
hq、imagenet、places2和pairs street view。celeba
‑
hq中包含30000张高质量的人脸图像。places2包含365个场景，总图像数量超过8000000张。pairs street view包含15000张巴黎街景图。
[0091]
imagenet是一个大型数据集，超过14亿张图像。对于places2、pairs street view和imagenet，本发明中使用原始的验证和测试集。对于celeba
‑
hq，本发明中随机选取28000张图像用于训练，剩余图像用于测试。利用二值掩码算法离线生成60000张二值掩码图。本发明中随机选取55000张二值掩码图用于训练，剩余的5000张二值掩码图用于测试(二值掩码图用于生成损坏图像)。
[0092]
使用本发明中的基于内容注意力机制和掩码先验的生成对抗网络和目标函数，以损坏图像和对应的二值掩码图作为输入，利用生成器和判别器之间的对抗以及梯度反传训练该深度神经网络。训练过程中不断调整不同任务的权重，直至最后网络收敛，得到用来人脸表情编辑的模型。
[0093]
为了测试该模型的有效性，使用测试集数据进行图像补全的操作，可视化结果如图3所示，有效证明了本发明所提出方法能够生成高质量的图像。
[0094]
以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马鑫;侯峦轩;赫然;孙哲南
技术所有人：天津中科智能识别产业技术研究院有限公司
我是此专利的发明人

上一篇：一种快速准确鉴定鲟鱼性别的方法与流程
上一篇：一种地址保护方法、装置及电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。