一种基于细粒度语义融合的文本图像生成方法及系统

文档序号：32060666发布日期：2022-11-04 23:02阅读：62来源：国知局

1.本发明涉及计算机视觉和自然语言处理技术领域，更具体的说是涉及一种基于细粒度语义融合的文本图像生成方法及系统。

背景技术：

2.文本到图像合成是计算机视觉和自然语言处理领域中最重要和最具挑战性的任务之一，其旨在从给定的文本描述生成视觉逼真且符合文本语义的图像，大多数文本生成图像方法采用多阶段生成的方式来获得高质量的图像，首先生成低分辨率图像，然后对模糊的低分辨率图像进行细化，生成高分辨率图像。尽管传统方法在生成高质量图像方面获得了巨大的成功，但大多数方法在生成过程中对文本和图像信息的融合不够高效，通常合成的图像要么视觉效果不理想，要么与给定的文本语义不匹配，尤其是当给定的文本语义较复杂时。
3.现有的技术方案中，基于注意力机制的文本生成图像模型(attn-gan)采用注意力机制融合文本和图像的特征，通过对文本和图像特征的融合，细化后的图像可以与文本保持语义一致性，然而，与文本相对应的图像子区域的语义水平相对较低，具有高级语义的自然语言特征很难直接控制这些视觉特征，因此图像的生成过程无法以细粒度的方式直接控制；基于语义分解的文本生成图像模型(sd-gan)采用条件批量规范化在视觉特征图中注入文本信息，然而，对图像的特征图进行批量归一化可能会导致视觉特征多样性的损失。
4.总的来说，现有的文本图像融合方法不能充分地将文本融合到视觉特征中，同时，生成阶段的条件约束不足也会导致生成的图像和文本之间的语义错位，如何充分地将文本融合到视觉特征中，从而根据给定的文本条件生成语义一致的图像是本领域技术人员亟需解决的问题。

技术实现要素：

5.有鉴于此，本发明提供了一种基于细粒度语义融合的文本图像生成方法及系统，可以充分而有效地添加到相应的图像子区域中，在细化过程中引入了全局语义约束并结合细粒度融合模块，能够逐步平稳地驱动生成器实现全局和局部的细粒度语义对齐。
6.为了实现上述目的，本发明提供如下技术方案：
7.一种基于细粒度语义融合的文本图像生成方法，包括以下步骤：
8.s1、将文本输入文本编码器中，生成句级特征和词级特征；
9.s2、通过条件增强函数对句级特征进行增强得到增广句级语义向量，将从正态分布中采样的噪声向量与增广句级语义向量拼接；
10.s3、将拼接后的向量输入至第一生成器生成初始图像；
11.s4、将初始图像特征和词级特征输入至细粒度融合模块，得到跨模态融合特征；
12.s5、将初始图像特征和增广句级语义向量输入至全局语义细化模块，得到句级上下文特征；
13.s6、基于句级上下文特征与跨模态融合特征生成目标图像。
14.优选的，所述s1具体为：
15.文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码，得到句级特征和词级特征。
16.优选的，所述s4具体为：
17.s41、将词级特征转换到初始图像特征所在的语义空间，计算初始图像特征和词级特征之间的相似度得分，对词级特征和相似度得分进行内积，得到词级上下文特征；
18.s42、进行词级上下文特征和初始图像特征之间的融合，得到跨模态融合特征。
19.优选的，所述s5具体为：
20.将增广句级语义向量转换到初始图像特征所在的语义空间，计算初始图像特征和增广句级语义向量的相似度得分，对增广句级语义向量和相似度得分进行内积，获得句级上下文特征。
21.优选的，所述s6具体为：
22.s61、将句级上下文特征与跨模态融合特征进行拼接，得到中间图像特征；
23.s62、将中间图像特征输入至第二生成器中，得到目标图像。
24.优选的，所述s6之后还包括：
25.s7、将目标图像特征作为新的图像特征，重复s4-s6，得到优化图像。
26.优选的，所述s7之后还包括：
27.s8、将初始图像、目标图像、优化图像输入至判别器中，对第一生成器、第二生成器、判别器进行更新。
28.一种基于细粒度语义融合的文本图像生成系统，包括：文本编码器、条件增强模块、拼接模块、第一生成器、全局语义细化模块、细粒度融合模块、第二生成器；
29.所述文本编码器用于从输入文本中提取句级特征和词级特征；所述条件增强模块用于增强句级特征得到增广句级语义向量；所述拼接模块将增广句级语义向量与从正态分布中采样的噪声向量拼接；所述第一生成器基于拼接后的向量生成初始图像；所述全局语义细化模块基于初始图像特征和增广句级语义向量输出句级上下文特征；所述细粒度融合模块基于初始图像特征和词级特征输出跨模态融合特征；所述第二生成器基于句级上下文特征和跨模态融合特征输出目标图像和优化图像。
30.优选的，还包括判别器，所述判别器基于初始图像、目标图像、优化图像对文本图像生成系统进行更新。
31.经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于细粒度语义融合的文本图像生成方法及系统，具有以下有益效果：能够更加细粒度地利用文本信息，以生成更真实且符合给定文本语义的图像；采用了一种新的细粒度融合模块，从而更充分、高效地融合文本和图像特征，并通过全局语义精化模块保证了全局语义的一致性；能够准确识别文本信息并生成符合文本语义的逼真图像。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
33.图1为本发明一个实施例的方法流程图；
34.图2为本发明另一个实施例的方法流程图；
35.图3为本发明的系统示意图。
具体实施方式
36.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
37.实施例一：
38.一种基于细粒度语义融合的文本图像生成方法，如图1所示，包括以下步骤：
39.s1、将文本输入文本编码器中，生成句级特征和词级特征；
40.s2、通过条件增强函数对句级特征进行增强得到增广句级语义向量，将从正态分布中采样的噪声向量与增广句级语义向量拼接；
41.s3、将拼接后的向量输入至第一生成器生成初始图像；
42.s4、将初始图像特征和词级特征输入至细粒度融合模块，得到跨模态融合特征；
43.s5、将初始图像特征和增广句级语义向量输入至全局语义细化模块，得到句级上下文特征；
44.s6、基于句级上下文特征与跨模态融合特征生成目标图像。
45.实施例二：
46.本发明实施例公开了一种基于细粒度语义融合的文本图像生成方法，包括以下步骤：
47.s1、将文本输入文本编码器中，生成句级特征s和词级特征w，具体的：
48.文本编码器采用双向长短期记忆网络对输入文本的语义表示进行句级和词级的编码：
49.w,s＝lstm(ck),k∈{0,
…
,l-1}
50.式中，lstm表示双向长短期记忆网络，ck是句子的第k个单词，句子包含l个单词，是词级特征，是句级特征，dw是wj和s的维度。
51.s2、通过条件增强函数f
ca
对句级特征s进行增强得到增广句级语义向量s
ca
：s
ca
＝f
ca
(s)，将从正态分布中采样的噪声向量z与增广句级语义向量s
ca
进行拼接；
52.s3、将拼接后的向量输入至第一生成器g0生成初始图像i0：
53.i0,h0＝f0(s
ca
,z)，式中，f0为第一生成器g0所对应的函数，h0是初始图像i0对应的图像特征；
54.s4、将初始图像i0的图像特征h0和增广句级语义向量s
ca
输入至全局语义细化模块，得到句级上下文特征
[0055][0056]
式中，us表示全连接层，用于将句级特征转换到图像特征所在的语义空间，h0是初始图像i0对应的图像特征。
[0057]
s5、将初始图像i0的图像特征h0和词级特征w输入至细粒度融合模块，得到跨模态融合特征h
′0[0058]
s51、首先将词级特征转化为词级上下文特征
[0059][0060]
其中，softmax函数为：
[0061][0062]
式中，uw为全连接层，用于将词级特征w转换到图像特征所在的语义空间，wi表示句子中的第i个单词对应的词级特征，h0是初始图像i0对应的图像特征。
[0063]
s52、将上述所得上下文特征和图像特征h0输入到细粒度融合模块中,通过采用多个卷积层来处理词级上下文特征预测出词级上下文特征对应的放缩矩阵和偏差矩阵，进而通过下式得到跨模态融合特征h
′0：
[0064][0065]
式中，为基于词级上下文特征学习的放缩矩阵，为基于词级上下文特征学习的偏差矩阵，上述放缩矩阵和偏差矩阵由多个卷积层对处理上下文特征所得。一方面，通过将图像特征h0乘以放缩矩阵建立文本和图像特征h0的语义之间的关系，这有助于准确识别与给定文本匹配的视觉特征上的相关属性，并在视觉特征图上重新加权这些相关属性，这样，在细化阶段将突出显示视觉特征中匹配的属性，从而使得细化阶段生成的图像将与文本更加一致；另一方面，偏差矩阵可以引入在初始生成阶段遗漏的详细语言信息，以充分利用输入文本的信息；
[0066]
s6、将句级上下文特征与跨模态融合特征h
′0输入至第二生成器g1中，得到目标图像i1，具体的：
[0067]
s61、将句级上下文特征与跨模态融合特征h
′0进行拼接，得到中间图像特征；
[0068]
s62、将中间图像特征输入至第二生成器g1中，得到目标图像i1，及其对应的图像特征h1：
[0069][0070]
式中，f1为第二生成器g1所对应的函数。
[0071]
实施例三：
[0072]
本发明实施例公开了一种基于细粒度语义融合的文本图像生成方法，在实施例二的基础上，还包括：
[0073]
s7、将目标图像特征作h1为新的图像特征，重复步骤s4-s6，得到分辨率为256
×
256的优化图像i2，本发明中的细化阶段，即步骤s4-s6可以重复多次，本实施例中进行两次细化阶段，生成具有更细粒度细节的高分辨率图像；
[0074]
s8、将第i个阶段生成的图像生成的图像ii输入至判别器di中，通过目标函数对对应阶段的模型参数进行更新，本实施例中将初始图像i0、目标图像i1、优化图像i2对模型参数进行更新；
[0075]
其中判别器di的目标函数为：
[0076][0077]
其中，x～p
data
表示真实图片的数据分布，表示生成图片的数据分布，x是从对应分布中选取的图片，s
ca
是图片对应文本描述的增广句级语义向量。
[0078]
同时，生成器gi的目标函数为：
[0079][0080]
其中，l
ca
如下
[0081][0082]
其中，d
kl
表示kl散度的函数，kl散度用于度量两个概率分布函数之间的距离，μ(s
ca
)是增广句级语义向量的平均值，σ(s
ca
)是增广句级语义向量的对角协方差矩阵，是文本的条件高斯分布，是文本的标准高斯分布，λ1为超参数。
[0083]
如下：
[0084][0085]
其中，表示生成图片的数据分布，x是从对应分布中选取的图片，s
ca
是图片对应文本描述的增广句级语义向量。
[0086]
实施例四：
[0087]
一种基于细粒度语义融合的文本图像生成系统，如图3所示，包括：文本编码器、条件增强模块、拼接模块、第一生成器、全局语义细化模块、细粒度融合模块、第二生成器；
[0088]
文本编码器用于从输入文本中提取句级特征和词级特征；条件增强模块用于增强句级特征得到增广句级语义向量；拼接模块将增广句级语义向量与从正态分布中采样的噪声向量拼接；第一生成器基于拼接后的向量生成初始图像；全局语义细化模块基于初始图像特征和增广句级语义向量输出句级上下文特征；细粒度融合模块基于初始图像特征和词级特征输出跨模态融合特征；第二生成器基于句级上下文特征和跨模态融合特征输出目标
图像；还包括判别器，判别器用于更新模型参数。
[0089]
为了验证本发明的有效性，我们在两个公共基准数据集cub-200和coco上进行了大量的实验，实验结果证明了我们的方法能够生成更加真实的图像，并且图像的语义更加符合给定的文本语义。
[0090]
在测试中，本发明首先在初始生成阶段生成64x64分辨率的图像，然后在细化阶段将初始图像优化为128x128和256x256的分辨率，在训练过程中，重复两次图像的细化过程。同时，为了兼顾性能和计算，我们将词级特征的维数设置为256，句级特征的维数设置为100，句子长度设置为18。在cub-200和coco上，我们分别将超参数λ1设置为50；本发明所公开的基于细粒度语义融合的文本生成图像模型(ff-gan)在cub-200和coco数据集上分别进行600个周期和120个周期的训练。
[0091]
表1显示ff-gan在两个指标上都达到了超越最先进模型的性能，对于评价生成图像真实性的指标fid(该数值越小，真实度越高)，ff-gan在cub-200数据集上达到了15.13，比基于动态记忆网络的文本生成图像模型(dm-gan)在性能上提高了0.94。在coco数据集上达到了29.44，比dm-gan在性能上提升了2.80。对于评价生成图像和给定文本的语义一致性的评价标准r-precision(该数值越大，匹配度越高)，ff-gan在cub-200数据集上达到了80.49％，比dm-gan在性能上提高了8.18％。在coco数据集上达到了91.28％，比dm-gan在性能上提升了2.72％。两个评价指标上的优越性能表明，我们提出的模型生成高质量且符合给定文本语义的图像的能力优于目前先进的模型，如attn-gan、基于镜像结构的文本生成图片模型(mirror-gan)、dm-gan等。
[0092][0093]
表1.ff-gan和其他先进模型在cub-200和coco上的定量指标结果
[0094]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0095]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王杨孙浩然刘海鹏钱彪汪萌
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：资源包的部署方法、装置、存储介质及电子装置与流程
上一篇：一种参考轨迹点中车辆定位方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。