一种语义对齐的图像虚拟试衣方法

文档序号：34842544发布日期：2023-07-21 19:17阅读：53来源：国知局

本发明属于图像虚拟试衣领域，具体涉及一种语义对齐的图像虚拟试衣方法。

背景技术：

1、基于图像的虚拟试衣技术旨在将特定的服装图像转移到目标人物图像上，并生成照片级真实性的图像或视频。其与基于图形的虚拟试衣方法的最大不同之处在于无需对服装和人物进行三维重建，而是依靠模型对图片的语义理解合成图像。给定一张目标服装图像和人物图像，模型的输出图像应当满足以下要求：(1)目标服装应穿着在人物的目标位置；(2)人物的姿态和特征应当被保留；(3)目标服装的纹理和细节应当被保留；(4)人物目标着装区域以外的服饰应当被完好保留。

2、当前最流行的图像虚拟试衣方法主要基于服装变形法，一般包含两个主要阶段：(1)服装对齐：将服装变形以对齐人体；(2)试衣合成：将变形后的服装与人体融合以生成试衣服装。常见的用于服装变形的几何方法有薄板样条插值法、光流法、三维辅助法等。同时，一些方法选择预测人体语义图以更好地指导试衣合成。服装变形法的优势在于可以提前对齐服装和人体，以在试衣合成阶段提供更多服装纹理先验。但是现有的服装对齐方法只提供了粗略的对齐效果，例如无法处理自遮挡情况，这会造成服装和目标着装区域的不对齐现象。此外，在试衣合成阶段，基于语义指导的方法倾向于将人体语义图直接输入模块，这往往会丢失语义信息，从而加剧服装与目标着装区域不对齐的现象。

技术实现思路

1、为解决上述问题，本发明公开了一种语义对齐的图像虚拟试衣方法，可以生成更加符合人体布局的虚拟试衣图像。首先对人体图像和人体语义图进行预处理以去除手臂、服装信息；其次通过人体语义合成模块预测目标人体语义图；然后使用服装对齐模块对齐服装和人体；最后使用试衣合成模块得到最终的试衣图像。在服装对齐模块中，提出了区域限制策略限制服装变形的范围，减少服装过度扭曲的情况。在试衣合成模块中，使用了空间自适应归一化层替代普通的归一化层以固定人体语义图信息。

2、为达到上述目的，本发明的技术方案如下：

3、一种语义对齐的图像虚拟试衣方法，给定一张人物图像i∈r3×h×w和一张目标服装图像c∈r3×h×w，模型将输出穿着目标服装c∈r3×h×w的人物图像同时保留姿态和人体特征，其过程包含以下步骤：

4、(1)数据预处理：该部分旨在抹去人物图像i中的任何目标着装区域的服装信息，从而得到衣服与人物无关表达——人物图像ia和人体语义图sa，两者皆去除了衣服和手臂信息。

5、(2)人体语义合成模块：输入为去除了手臂、服装信息的人体语义图sa和姿态图p和服装掩码cm，模型将生成穿着目标服装的目标人体语义图

6、(3)服装对齐模块：该模块通过非刚性的tps变换将服装图像c扭曲以对齐目标人体的着装区域，并通过区域限制策略策略避免了变形后的服装tθ(c)与目标人体语义图不对齐的问题，同时亦避免了服装的过度扭曲。

7、(4)试衣合成模块：该模块接收人物图像i、姿态p和对齐服装tθ(c)作为输入，并使用目标人体语义图作为生成器的的条件归一化信息以生成目标图像

8、所述步骤(1)中，数据预处理的流程为：给定人体图像i，使用预训练的人体姿态提取器和人体解析提取器分别提取到的人体姿态图p∈r18hw和人体语义图s∈lhw(l为语义图标签的总数)。首先将人体语义图s的服装部分sc置为0，然后使用姿态图p提供的坐标为中心作柱状掩码以遮蔽s的手臂部分。对于人体图像i，使用语义图s遮蔽服装部分，然后同样使用姿态图p提供的坐标为中心作柱状掩码以扩大掩码范围，使得掩码彻底覆盖人体的上半身。经过以上数据预处理，得到了衣服与人物无关表达sa和ia，它们彻底移除了服装信息，同时最大程度保留了非目标着装区域的信息。

9、所述步骤(2)中，人体语义合成采用u-net作为生成器。生成器gs接收人体语义图sa、姿态图p和服装掩码cm作为输入，预测目标人体语义图采用了多尺度判别器结构。使用两个判别器ds1和ds2在原尺寸和下采样两倍尺寸下对人体语义图进行判别，以增大判别器的感受野。具体方式是，将得到的和输入sa⊕p⊕cm进行通道组合作为判别器的输入，两个判别器分别接收原尺寸的输入和经过两倍下采样的输入，并分别经过sigmoid层输出置信度，然后取平均值作为判别器的最终输出。

10、所述步骤(3)中，服装对齐模块扭曲服装c以对齐目标服装ic，使得试衣模块能轻松地融合服装与人体图像。服装对齐模块的学习目标是一组tps参数，并使用该参数对服装c进行tps变换得到对齐服装cw。使用两个由卷积神经网络组成的编码器e1和e2分别对上个阶段生成的人体语义图和服装c进行编码，生成两个特征向量得到的特征将经过l2归一化，空间展平，并组织成矩阵然后将两者调整形状进行矩阵相乘得到和c之间的关联矩阵corr：

11、

12、corr矩阵包含了fe1和fe2每对像素之间的相似性。随后使用一个回归器r对corr进行下采样得到对应的tps参数θ∈r50。对服装c进行tps变换可以得到变形的服装tθ(c)。

13、所述步骤(3)中，采用区域限制策略控制服装的变形范围。具体的做法是从人体语义图中提取目标服装掩码mc＝sc，然后和变形后的服装tθ(c)作点乘，得到本模块的最终输出，即对齐服装cw：

14、cw＝tθ(c)⊙mc

15、所述步骤(3)中，目标损失为对齐服装cw和目标服装ic之间的l1+感知损失。同时，为了使模块关注服装的整体形状，而不是仅仅变形目标着装区域的部分像素，引入了形状损失。具体做法为，使用和服装变形同样的一套tps参数变形店内服装掩码cm，得到与tθ(c)形状相同的服装掩码tθ(cm)，然后计算它和目标服装掩码mc之间的l1损失。可以使用以下公式表示：

16、

17、因此模块的整体损失函数定义为：

18、

19、所述步骤(4)中，试衣合成模块将之前阶段得到的对齐服装和人物图像融合，得到最终的试衣人物图像。输入为衣服与人物无关表达ia、姿态热图p和对齐服装cw的通道组合ia⊕p⊕cw，输出试衣图像人体语义图为spade resblock的条件归一化输入。试衣合成模块由一系列spade resblock和上采样层堆叠而成，采用纯解码器架构。输入的特征图将逐渐放大到最终输出的尺寸。

20、所述步骤(4)中，模块首先调整ia⊕p⊕cw的大小，然后通过一个3×3的卷积层输出一个尺寸为1024×4×3的特征图。输出的特征图将与调整大小与其一致的ia⊕p⊕cw进行通道组合作为spade resblock的输入。spaderesblock的结构与residual block的结构类似，由三个卷积层搭配残差连接结构组成。同样，spade层的条件归一化输入也需要调整为和当前spaderesblock输入一样的尺寸。spaderesblock的输出将经过两倍上采样，然后经由一个3×3的卷积层将其通道数减半，得到的输出将作为下一个spade resblock的输入。可以看到，模型采用多尺度融合的策略，这保证了不同尺度的特征图在语义图指导下的归一化效果，从而实现输出图像与语义布局的对齐。模块的目标损失函数由对抗损失、重建损失(l1损失)、感知损失和判别器的特征匹配损失组成：

21、

22、式中λrec、λperc和λfm分别为对应损失的系数。

23、本发明的有益效果为：

24、(1)采用语义对齐的四阶段虚拟试衣框架，可以生成符合人体布局的虚拟试衣图像；

25、(2)采用区域限制的服装对齐模块，通过引入区域限制策略限制服装变形的范围，减少服装过度扭曲，使得服装与目标着装区域对齐；

26、(3)采用语义布局对齐的试衣合成模块，使用空间自适应归一化层固定人体语义图信息，从而生成更加符合人体语义布局的试衣图像。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：莫凌飞陈盛乐
技术所有人：东南大学
我是此专利的发明人

上一篇：一种液体降温导管及其控制方法与流程
上一篇：一种多菌灵悬浮剂均匀制备装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。