一种基于热力图引导的语义解缠的生成对抗网络及其服饰灵感设计方法

文档序号：31339695发布日期：2022-08-31 09:47阅读：190来源：国知局

1.本发明属于生成对抗模型以及服饰辅助设计领域，涉及一种由热力图引导的语义解纠缠生成对抗网络及基于该网络的服饰辅助设计方法，所述方法使用时尚服饰作为最原始的输入。

背景技术：

2.时装设计师的灵感来源可以是任何视觉上的东西，从古罗马建筑到一盘烤豆子。才华横溢的设计师们从这些视觉对象中寻找灵感，然后去设计细节和纹理融入到自己的时尚设计系列作品中。设计师经常利用photoshop或adobe illustrator等光栅或矢量软件，来完成整个“灵感”设计的工作过程。但是，这些传统工具只能在经验丰富的设计师手中产生完美的设计图像，而无法自动的从已有的视觉对象中自动创建出来富有“灵感”服饰设计。因此，设计出一种可以自动化完成服饰设计的工具去辅助服装设计师完成“灵感”这类设计过程是必要的。幸运的是，大数据分析和深度学习技术的最新进展为这种“灵感”设计的实现提供了强大的工具，使智能辅助设计变得可行。
3.深度学习技术的最新进展使这种智能辅助设计变得可行，其中，生成对抗网络是时尚图像生成的强大工具，大多数当前的时尚工作主要集中于基于条件的生成对抗网络的研究，这些方法利用了大量的人工标注数据作为生成对抗网络的条件信息进行服装设计，这些基于条件的模型严重依赖于标记的训练数据的质量和数量。因此，开发一种以无监督的方式自适应地学习以完成时尚服饰图像的设计是必要的。无监督生成对抗网络的主要用于传递图像的低级信息而通常不能表征图像的高级语义信息，导致难以保留时尚图像属性的语义信息和精确到捕捉到纹理信息。然而，有效的对时尚服饰图像的特征，如属性和纹理，进行解纠缠对于现实生活中的灵感设计是至关重要的。在实践中，智能时尚设计应该保留时尚服饰的内在属性，并在风格化过程中自动适应学习传递给定的任意时尚服饰图像纹理。

技术实现要素：

4.本发明依托现有的生成对抗网络模型，提出了一种由热力图引导的语义解纠缠生成对抗网络及其服饰图像灵感设计方法。由热力图引导的语义解纠缠生成对抗网络包括一个时尚服饰图像编码器，一个时尚服饰图像生成器，一个时尚服饰图像判别器和局部服饰图像判别网络，旨在学习以无监督的方式整合来自源域的时尚服饰图像和目标域的时尚服饰图像的风格的特征表示；时尚服饰图像编码器用以捕捉不同输入时尚项目的最具区分性的特征，并将特征解缠结成两个关键因素，即属性和纹理；时尚服饰图像生成器通过利用编码器编码后的属性和纹理来生成混合风格的时尚服饰图像；时尚服饰图像判别器通过利用时尚服饰图像生成器生成的服饰判别生成图像的真实性；局部服饰图像判别网络引入基于热力图的局部损失来评估生成的时尚服饰图像纹理与输入时尚服饰图像纹理信息之间的
视觉语义匹配程度；所述热力图是指以高亮的形式显示服饰含有纹理和属性信息的区域。
5.进一步的，所述时尚服饰图像编码器包括图像特征提取模块和图像语义解纠缠模块；所述图像特征提取模块用于将图像特征进行深度提取，提取出有效的像素信息；所述图像语义解纠缠模块用于将图像解纠缠成为属性和纹理，以及产生用于辅助信息的热力图。
6.进一步的，所述图像特征提取模块和语义解纠缠模块包括图像下采样模块、resnet152中的前47个残差块、用于生成输入图像的热力图的“求和”操作、用于生成纹理的resnet 152中的后3个残差块和全局平均池化操作、以及用于生成属性的卷积操作；所述图像语义解纠缠模块使用全局平均池，在被47个残差块卷积之后输出每个单元的特征图的空间平均值，利用全局最大池化输出特征地图的空间最大值，评估不同区域中图像的重要性；所述时尚服饰图像编码器采用基于语义解纠缠模块的编码方式，所述编码方式将输入的时尚服饰图像分解成独立的因素以及产生热力图的辅助信息，所述独立的因素指属性和纹理。
7.进一步的，所述时尚服饰图像生成器采用stylegan2的生成器结构，利用时尚服饰图像编码器生成的纹理和属性，将属性代码作为stylegan2的常量输入、纹理代码作为stylegan2的每个的styleblock的输入来合成时尚服饰图像。
8.进一步的，所述时尚服饰图像判别器采用stylegan2的判别器架构，用以判别生成图像是否具有相应的服饰语义以及生成图像的真假性。再进一步，所述时尚服饰图像判别器用以判别时尚服饰图像生成器生成的图像结果和时尚图像输入的图像特征匹配度的得分，匹配得分的结果用于更新时尚服饰图像编码器、时尚服饰图像生成器和时尚服饰图像判别器，提高生成结果的真实性。
9.进一步的，所述局部服饰图像判别网络由特征块编码器与特征块判别器组成；所述特征块编码器由五个下采样残差块、一个用于信道放大的残差块和一个具有内核大小的卷积层组成；特征块编码器首先在时尚服饰图像生成器生成的图像结果和输入图像上进行图像块的随机采样，然后将这些随机采样的图像块依次送入五个下采样残差块、一个用于信道放大的残差块和一个具有内核大小的卷积层，用以将随机采样的图像块编码成特征向量；所述残差块使用与时尚服饰图像判别器相同的配置；所述特征块判别器采用stylegan2的判别器架构，利用特征块编码器采样的特征块计算联合特征统计量，以获得感知相似性值。
10.本发明所提出的由热力图引导的语义解纠缠生成对抗网络的服饰灵感设计方法包括步骤：a、构建包含时尚服饰图像数据集，所述数据集包括不同的时尚服饰种类、纹理和结构；b、设计时尚服饰图像编码器，所述时尚服饰图像编码器用以捕捉不同输入时尚项目的最具区分性的特征，并将所述最具区分性的特征解缠结成两个关键因素，即属性和纹理；c、设计时尚服饰图像生成器，所述时尚服饰图像生成器通过所述属性和纹理生成混合风格的时尚服饰图像；d、设计时尚服饰图像判别器，所述时尚服饰图像判别器通过利用时尚服饰图像生成器生成的服饰判别生成图像的真实性；e、设计局部服饰图像判别网络，所述局部服饰图像判别网络基于热力图的局部损失评估生成的时尚服饰图像纹理与输入时尚服饰图像纹理信息之间的视觉语义匹配程度；所述热力图指是以高亮的形式显示服饰含有纹理和属性信息的区域。
11.进一步的，步骤a包括：a1、构建不同类别不同款式的服饰图像数据集，综合服装电
商的关键字搜索项，包含类别、纹理、款式、颜色和细节信息，将背景复杂的单品删去，构建时尚单品数据；a2、构建五个类别的时尚服饰图像用于训练和测试，包括上衣，下衣，鞋，包和帽子；将所述五类时尚服饰图像随机划分为一个训练数据集和一个测试数据集。
12.由热力图引导的语义解纠缠生成对抗网络的输入是构造的时尚数据库中的随机时尚服饰图像，在一次迭代的过程中，时尚服饰图像编码器首先将输入的源域的时尚图像和目标域的时尚图像分别编码成为源域的属性和纹理以及目标域的属性和纹理；然后，源域的属性和纹理送入时尚服饰图像生成器中重构出源域的时尚图像，同时，源域的属性和目标域的纹理送入时尚服饰图像生成器中生成可以保持源域属性和目标域纹理的混合时尚服饰图像；重构的源域时尚图像和混合时尚服饰图片被分别送入时尚服饰图像判别器中对抗学习生成纹理的真实性；同时，目标域时尚服饰图像和混合时尚服饰图片也一起被送入局部服饰图像判别网络用以评估生成的混合时尚服饰图片的纹理与输入的目标域时尚服饰图像纹理信息之间的视觉语义匹配程度。特别的，另外利用重建损失使重构的时尚服饰图像和输入源域时尚服饰图像保持整体结构的一致性；利用感知损失使重构的时尚服饰图像的语义信息和源域时尚服饰图像的语义信息保持一致；利用风格损失使重构的时尚服饰图像的语义信息避免了棋盘效应的出现。
13.本发明的有益效果是：本发明提出了一种由热力图引导的语义解纠缠生成对抗网络的时尚服饰图像辅助设计生成方法，旨在辅助完成灵感设计的过程。特别的，为了利用时尚图像本身携带的属性和纹理信息，引入时尚服饰图像编码器来完成对时尚服饰的解纠缠，分别解纠缠出来时尚服饰的属性和纹理；为了生成高保真度的时尚图像，利用基于stylegan2架构设计的时尚服饰图像生成器和时尚服饰图像判别器来生成重构源域时尚服饰图像和混合时尚服饰图像。为了使混合时尚服饰图像的纹理与输入的目标域时尚服饰图像的纹理保持一致性，设计局部服饰图像判别网络，以引入基于热力图的局部损失来评估生成的混合时尚服饰图像纹理与输入的目标域时尚服饰图像纹理信息之间的视觉语义匹配程度。此框架在时尚灵感设计和与用户的交互式设计等实际应用领域具有巨大的潜力。
附图说明
14.图1是本发明的由热力图引导的语义解纠缠生成对抗网络设计生成方法的流程图。
15.图2是本发明的由热力图引导的语义解纠缠生成对抗网络设计生成方法模型框架图。
16.图3是本发明方法生成的设计结果图。
具体实施方式
17.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
18.附图1显示了本发明提供的基于生成对抗网络的时尚服饰图像设计生成方法的流程图，其详述如下：步骤s1：构建不同类别不同款式的服饰图像数据集。本发明使用的用于训练的数
据来自于www.ployvore.com网站，网站内的用户既可以上传自己的图像，也可以分享和修改自己创建的图像，其他用户可以对用户创建的图像进行打分和评价。网站内的所有图片均具有干净的图片背景，本发明主要构建了不同类别、纹理和款式的时尚单品信息。用于训练的数据集包含五种与时尚相关的类别，包括上衣，下衣，鞋，包和帽子。
19.步骤s2：设计时尚服饰图像编码器。如图2(a)所示，基于语义解纠缠模块（图2(a)中的sda模块）的时尚服饰图像编码器包括图像下采样模块、resnet152中的前47个残差块，用于将图像特征进行深度提取；提出的语义解纠缠模块使用全局平均池，以便在被47个残差块卷积之后输出每个单元的特征图的空间平均值；，利用全局最大池来输出特征地图的空间最大值；通过将输出层的权重投影到卷积特征图上，旨在评估不同区域中图像的重要性，使输入的时尚服饰图像分解成独立的因素，即属性和纹理，以及产生热力图的辅助信息。具体的，如图2(a)所示，表示源域的图像，表示时尚服饰图像编码器提取的第k个特征(见图2(a)sda模块之前生成的特征张量)，表示在空间位置的第个位置特征映射的值；然后，对于第k个特征图，执行全局平均池化()得到，其中和的范围在中，其中和分别表示第k个特征图的高度和权重。使用全局最大池化的第k个特征图的结果表示为，其中表示求解的最大值。然后，训练全连接的层来学习源图像的第k个特征图的权重和；源域图像的注意力得分可以表示如下：(1)其中，表示连接操作；和分别用和表示完全连接的层。
20.同理，目标域内的图像的注意力得分可以表示为：(2)对于每个时装项目，模型应该专注于学习源图像的属性和目标图像的纹理，而不是图像背景传递的冗余信息。通过利用注意力得分从源域时尚服饰图像目标域源时尚服饰图像，基于sda的编码器应该识别图像的最有区别的区域。基于sda源域和目标域的分类函数为：(3)其中，表示图像随机采样自原域；表示图像随机采样自目标域。
21.从图2(a)中可以观察到，通过使用语义解纠缠模块，源域时尚服饰图像和目标域时尚服饰图像的区别区域被突出显示。为了进一步生成的利用注意力特征图来实现时尚
服饰图像的解纠缠，使用几个附加的残差块和全局平均池化的操作来生成纹理(or),而利用卷积层来生成属性(or)。这些注意力机制生成的特征图被嵌入到编码器e中去关注不同域中的最具区别的部分，从而有效的实现将目标域的纹理迁移到源域并保留源域时尚服饰图像的原始属性。
22.步骤s3：设计时尚服饰图像生成器。时尚服饰图像生成器的目标是将纹理和属性映射到一个时尚服饰图像上，时尚服饰图像生成器采用stylegan2的生成器框架，利用时尚服饰图像编码器成生的纹理和属性，将属性作为时尚服饰图像生成器的常量输入，纹理作为时尚服饰图像生成器的每个styleblock的输入来合成时尚服饰图像。为了使生成图像能够保留源域时尚图像的属性并学习目标域时尚图像的纹理的混合设计结果，使用属性和纹理来合成混合时尚项目，即,源域时尚服饰图像的重构损失函数可以表示为：(4)为了学习图像间的感知相似性，所学习的感知图像块相似性损失被用于优化基于sda的编码器和生成器，源域时尚服饰图像的感知损失可以表示为：(5)其中，表示感知特征提取器。
23.步骤s4：设计时尚服饰图像判别器：为了区分生成图像和真实图像之间的差异，时尚服饰图像判别器采用stylegan2的判别器架构,用以判别生成图像是否具有相应的服饰语义以及生成图像的真假性；对于基于属性代码和纹理代码合成的重建时尚服饰图像的生成样本，判别器的目标函数可以表示为：(6)此外，对于源域时尚服饰图像的属性和目标域时尚服饰图像的纹理的混合设计结果的对抗损失可以表示为：(7)步骤s5：设计局部服饰图像判别网络。如图(2)(b)所示，局部服饰图像判别网络由特征块编码器与特征块判别器组成；特征块编码器首先在时尚服饰图像生成器生成的图像结果和输入图像上进行图像块的随机采样，然后将这些随机采样的图像块依次送入五个下采样残差块、一个用于信道放大的残差块和一个具有内核大小的卷积层，用以将随机采样的图像块编码成特征向量；所述特征块判别器采用stylegan2的判别器架构，利用特征块编码器编码后的特征向量计算随机特征的联合特征统计量，以获得这些
特征的感知相似性值；感知相似性值用于更新时尚服饰图像编码器、时尚服饰图像生成器和局部服饰图像判别网络，提高生成结果的真实性；基于局部服饰图像判别网络的目标函数定义如下：(8)其中,表示从混合时尚项目中选择的局部块组合，表示从时尚项目中选择的局部块组合。
24.最终需要满足的生成器目标函数为：(9)本发明方法生成的设计结果如图3所示。
25.本发明的主要贡献总结如下：提出了一种由热力图引导的语义解纠缠生成对抗网络，可以与用户交互式的自动完成灵感迁移以实现智能服饰设计。由热力图引导的语义解纠缠生成对抗网络包括一个时尚服饰图像编码器，一个时尚服饰图像生成器，一个时尚服饰图像判别器和局部服饰图像判别网络，旨在学习以无监督的方式整合来自源域的时尚服饰图像和目标域的时尚服饰图像的风格的特征表示；时尚服饰图像编码器用以捕捉不同输入时尚项目的最具区分性的特征，并将特征解缠结成两个关键因素，即属性和纹理；时尚服饰图像生成器通过利用编码器编码后的属性和纹理来生成混合风格的时尚服饰图像；时尚服饰图像判别器通过利用时尚服饰图像生成器生成的服饰判别生成图像的真实性；局部服饰图像判别网络引入基于热力图的斑块损失来评估生成的时尚服饰图像纹理与输入时尚服饰图像纹理信息之间的视觉语义匹配程度；所提出的由热力图引导的语义解纠缠生成对抗网络为后期时尚辅助设计开拓了巨大的研究空间。
26.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张海军闫寒
技术所有人：哈尔滨工业大学（深圳）
我是此专利的发明人

上一篇：一种石油管道快速补漏装置的制作方法
上一篇：一种布袋快拆式除尘环保设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。