多模态数据驱动的生成式时尚兼容服装设计方法及系统

文档序号:37835255发布日期:2024-05-07 19:10阅读:9来源:国知局
多模态数据驱动的生成式时尚兼容服装设计方法及系统

本发明涉及多媒体与计算机视觉,特别是涉及一种多模态数据驱动的生成式时尚兼容服装设计方法及系统。


背景技术:

1、纺织服装是时尚的主要表达形式,研究纺织服装时尚与设计的关系,对时尚的走向和设计的趋势都有着深远影响。传统的服装设计模式需要设计师首先分析参考服装的风格特点,随后进行时尚潮流趋势的调研分析,最后完成服装的风格与款式设计。整个过程往往需要耗费几个月甚至几年的时间才能完成,这一模式已逐渐成为制约服装设计发展的瓶颈。随着个性需求的爆炸增长,大众化的服饰已经无法满足人们的需求,人们开始有着自己的设计理念与表达主张,希望通过自己的作品展示他们的风格。从当今的环境下可以看出个性化设计已经成了一种趋势。并且,时尚是个性化与大众审美的共同表达,设计师与用户往往希望设计出即满足个人喜好同时符合大众潮流的衣服。然而,现有的服装设计方法集中于研究单一类型服装手稿或成衣的风格转换,无法明确设计服装的颜色、纹理、图案、线条等样式,设计效果一般,功能单一,用户交互体验差,且无法获悉设计的作品是否符合大众审美,具有巨大的应用限制。


技术实现思路

1、针对现有服装设计研究功能单一,效果不佳和交互体验差问题,提出了一种多模态数据驱动的生成式时尚兼容服装设计方法及系统,具有良好的应用前景。本发明的目的是提供一种多模态数据驱动的生成式时尚兼容服装设计方法及系统,可实现多种类型服装的手稿风格设计,属性参数化设计及时尚性评估辅助设计,并为设计师与用户提供语音交互设计方式,以满足个性化需求,为用户提供便捷的多功能时尚设计工具,以解决上述现有技术存在的问题,提高时装设计效率与实用性。

2、本发明的技术方案为:

3、多模态数据驱动的生成式时尚兼容服装设计方法,包括以下步骤:

4、步骤1:构建语音智能识别模块,将用户输入的音频数据进行文本识别分析来获取用户设计需求;

5、步骤2:构建服装手稿智能渲染模块,根据用户设计需求,基于生成对抗思想对服装手稿区域进行目标风格高质量渲染;

6、步骤3:构建服装属性交互式设计模块,基于多尺度的编码器-解码器架构分层控制服装各种属性样式的生成,并通过施加正则化约束进行显式参数化,实现个性化服装属性的交互设计;

7、步骤4:构建服装美学评分模块,基于交叉注意网络与全局注意力网络为用户提供可解释的服装兼容性评估以辅助协同时装设计,获得最终的属性兼容信息矩阵及兼容分数。

8、进一步的,

9、步骤1中语音智能识别模块的构建过程为:

10、步骤11:采集用户音频数据,将音频数据经过信号高频分量补偿后获取音频帧,每一音频帧数据加窗后经过离散傅立叶变换得到频谱图;

11、步骤12:将频谱图的特征经过mel滤波器得到音频特征log fbank特征;

12、步骤13:使用transformer编码器对音频特征log fbank进行特征编码,输出特征向量;

13、步骤14:将特征向量输入transformer解码器获取语音识别文本;

14、步骤15:构建与训练基于统计的n-gram语言模型,引入上下文信息,以更好地捕捉句子结构和语言相关性;

15、步骤16:将transformer模型的输出与基于n-gram的语言模型结合,输出最终识别的文本序列。

16、进一步的,

17、步骤13中音频特征的编码过程为:

18、步骤131:添加位置编码考虑词的顺序,即使用一组特定的函数来生成位置编码,位置编码与嵌入的词相关联,以表示它们在序列中的位置;

19、步骤132:通过自注意力机制将输入序列中的不同位置之间建立关联,即通过计算每个位置与序列中其他位置的关联程度,然后将这些关联程度用于加权平均以获得每个位置的上下文表示;

20、步骤133:建立多个并行的自注意力头;每个头都学习不同的关系,然后这些头的输出被连接在一起以形成最终的注意力表示;

21、步骤134:添加残差连接,用于训练深层网络;此外,进行层归一化用于规范每个子层的输出;

22、步骤135:构建一个全连接的前馈网络,经过激活函数输出输入音频特征序列的隐藏表示;

23、步骤14中语音识别文本的解码过程为:

24、步骤141:构建自注意力机制,用于考虑解码器内部的位置关系以及关注编码器产生的隐藏表示;

25、步骤142:建立多头自注意力机制,用于提高建模能力,这些头的输出会连接在一起以形成最终的注意力表示;

26、步骤143:将注意力表示输入至全连接层中进行特征映到词汇表的分布;

27、步骤144:通过softmax函数将输出嵌入转化为一个概率分布,然后可以从该分布中采样出下一个输出词;

28、步骤145:通过迭代生成输出序列的每个标记,直到生成一个特殊的结束标记或达到最大长度;

29、步骤15中基于统计的n-gram语言模型的构建与训练过程为:

30、训练一个基于统计的n-gram语言模型,用于估算句子或文本序列的概率;根据先前n-1个词的上下文来预测下一个词的概率;

31、步骤16中出最终识别文本序列的过程为:

32、步骤161:使用transformer模型生成候选文本序列;

33、步骤162:使用基于n-gram的语言模型计算每个候选文本序列的概率;这通常涉及到计算每个词的条件概率,根据其前面的n-1个词;

34、步骤163:将transformer模型和n-gram语言模型的概率相乘,以得到最终的候选文本序列概率;

35、步骤164:选择具有最高综合概率的文本序列作为最终的识别结果。

36、进一步的,步骤2中服装手稿智能渲染模块的构建过程为:

37、步骤21:采集服装手稿图与多种风格图,制备手稿数据集与风格数据集,对数据集进行预处理,划分训练集与测试集;

38、步骤22:基于生成对抗思想构建风格自学习模型mask-gan,用于提取待渲染的手稿区域掩码;

39、步骤23:构建基于cyclegan模型改进的风格渲染模型s-cyclegan,用于目标手稿区域进行风格渲染;

40、步骤24:分别使用手稿数据集与风格数据集训练语义提取模型mask-gan,利用adam优化器对模型进行参数优化,训练得到手稿区域掩码提取模型;

41、步骤25:使用训练得到的手稿区域掩码提取模型分别对手稿数据集进行目标区域掩码提取,形成与原数据集配对的目标区域掩码数据集;

42、步骤26:输入手稿数据集与风格数据集训练风格渲染模型s-cyclegan,利用adam优化器对模型进行参数优化,训练得到最佳风格渲染效果的模型;

43、步骤27:根据用户需求获得目标风格,使用训练得到的最佳风格迁移效果的模型将用户提供的手稿渲染为目标风格。

44、进一步的,步骤22中构建风格自学习模型maskgan的具体方法为:

45、步骤221:构建maskgan的生成器模型,采用简化后的u-net网络重构图像特征获得像素级的掩码标签,与原图像拼接形成局部语义图,输送至判别器模型;

46、步骤222:使用patchgan网络作为maskgan的判别器模型,根据该语义图与数据集的图像散度分布差异判定真假并给出相似性分数;

47、步骤223:构建maskgan损失函数,定义对抗损失和语义范围损失,根据对抗损失及语义范围损失在迭代对抗中激励生成器保留待迁移目标语义,对抗损失如下式(1)所示:

48、

49、

50、式中,d为判别器,g为生成器,ex-pdata(x)表示输入数据x的分布;

51、语义范围损失如下式(2)所示:

52、

53、式中,mask是maskgan网络输出的掩码矩阵,mask(i,j)为mask矩阵中第i行第j列的值,n为mask的行数;

54、训练过程中,定义平衡系数λ控制语义范围损失lmask在待迁移区域带来的损失影响小于对抗损失,得到总损失函数如下式(3)所示;

55、finall_loss=lgan(d,g)+λ×lmask  (3)

56、步骤23中改进cyclegan模型的具体步骤为:

57、步骤231:改进原始cyclegan生成器模型,引入多尺度残差网络f进行特征转换;

58、步骤232:改进原始cyclegan损失函数,增加基于梯度的纹理相似性损失函数,如下式(5)所示;

59、

60、式中的gx(·)分别对输入图像x进行垂直和水平方向的梯度计算,m为图像高度,c为常数。

61、进一步的,步骤3中服装属性交互式设计模块的构建过程为:

62、步骤31:构建多尺度的编码器-解码器架构,分层控制服装属性样式的生成;

63、步骤32:对多尺度的编码器-解码器架构生成的中间潜变量施加正则化约束以降低属性潜变量的相关性;

64、步骤33:减少信息传递的损失去除属性潜变量的噪声信息,实现明确的服装属性参数化;

65、步骤34:训练服装属性交互式设计模块并测试,保存服装属性潜变量并定义标签,根据用户输入语音的文本内容搜索目标标签,并将用户提供的服装属性变量替换为目标标签对应变量,实现智能属性设计。

66、进一步的,

67、步骤31中多尺度的编码器-解码器的构建过程为:

68、步骤311:基于自编码器框架,输出多个尺度的特征图对服装图像进行编码与解码;

69、步骤312:通过自适应实例归一化将每个尺度的特征图分成风格特征和内容特征,分别由不同的隐向量进行解码;假设同一尺度特征图编码为两个隐向量zm和zn,zm被解码为原始尺度特征图ym,zn则被转换为仿射参数μn和σn;随后,ym的风格信息被μn和σn交换,形成一个风格控制的特征图yc×h×w,如下式(9):

70、

71、式中,ym=f1(zm),σn=f2(zn),μn=f3(zn),f1,f2,f3是非线性回归因子;μj和σj携带了该尺度的风格信息,而实例化的yi决定了该尺度的内容信息;

72、步骤32中施加正则化约束的实现过程为:

73、采用变分高斯分布q(z|x)来近似属性向量的先验分布p(z|x),并将输入x编码为q(z|x)的均值-u(x)和方差-σ(x),其学习目标为最小化q(z|x)和p(z|x)之间的kl散度,如下式(10)所示:

74、

75、式中,z是通过重新参数化技巧进行采样的:z=u(x)+σ(x)⊙ε;ε由从标准高斯分布中随机采样获得;

76、其中,步骤33中减少信息传递损失的实现过程为:

77、采用高斯变分上界作为惩罚项lce_loss来训练模型;q(zm|ym_in)由高斯分布近似,其中均值和方差由ym_in进行非线性变换,如下式(11):

78、

79、式中,zm(n)=um(x)+σm(x)⊙εm(n),μ(·)和σ(·)是非线性回归器,由卷积层、激活层和线性层组成。

80、进一步的,步骤4中服装美学评分模块的构建过程为:

81、步骤41:采用贝叶斯个性化框架挖掘时尚单品的潜在兼容性,获取隐式的服装兼容排名;

82、步骤42:构建交叉注意力机制对输入的服装进行属性视觉语义提取,并聚合单品内部属性上下文信息,建模成对服装的属性交互,输出交叉兼容性矩阵;

83、步骤43:构建全局注意力感知模块在属性交互基础上全局感知属性的兼容权重,输出兼容分数。

84、进一步的,

85、步骤42中交叉注意力机制的构建过程为:

86、步骤421:设计卷积自编码器提取成对服装项目的视觉信息,获得成对属性潜变量集;

87、步骤422:将成对属性潜变量集投影至共享的潜在空间,采用向量夹角表示属性相关性,使用向量点积计算所有属性交互的兼容分数,获得交叉兼容性矩阵;

88、步骤43中全局属性的感知过程为:

89、步骤431:将交叉兼容性矩阵分别进行行归一化与列归一化,得到属性交互影响权重;

90、步骤432:将属性交互影响权重与属性潜变量集融合后输入至全连接回归层,获得属性全局感知权重;

91、步骤433:将全局感知权重与交叉兼容性矩阵通过计算,获得最终的属性兼容信息矩阵。

92、一种多模态数据驱动的生成式时尚兼容服装设计系统,包括以下模块,以实现所述的多模态数据驱动的生成式时尚兼容服装设计方法:

93、语音智能识别模块,用于将用户输入的音频数据转换为文本并识别用户需求;

94、服装手稿智能渲染模块,用于根据用户需求智能为服装手稿渲染相应的风格;

95、服装属性交互式设计模块,用于根据用户需求智能更改成衣的属性参数;

96、服装美学评分模块,用于智能评估用户个性化设计的服装的潮流性以辅助协同设计。

97、本发明的有益效果在于:

98、本发明公开了一种多模态数据驱动的生成式时尚兼容服装设计方法及系统,为用户提供便捷的多功能时尚设计工具;本发明公开了一种语音智能识别模块,为用户提供了智能便捷的交互方式;本发明公开了一种服装手稿智能渲染模块,在不改变手稿背景信息的条件下实现高质量的目标风格渲染;本发明公开了一种服装属性交互式设计模块,以无监督的方式明确实现了服装颜色、纹理、图案、款式等属性的参数化可编辑;本发明公开了一种服装美学评分模块,为用户提供可解释的时尚兼容性评估来辅助协同时尚设计。

99、本发明利用人工智能技术实现了以用户为中心的从服装概念设计到产品评价的全流程设计,并以多模态数据交互方式增强用户个性化体验,大大提高了服装的定制设计效率与创新性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1