一种文本生成图像方法、电子设备及介质

文档序号：35267230发布日期：2023-08-30 02:21阅读：20来源：国知局

本发明涉及图像生成，尤其是涉及一种文本生成图像方法、电子设备及介质。

背景技术：

1、随着计算资源与深度学习的快速发展，自然语言处理与计算机视觉作为取得了令人瞩目的成绩。文本生成图像属于计算机视觉和自然语言处理交叉领域，旨在根据文本描述生成符合文本内容且涵盖丰富细节的高质量逼真图像。通过深度学习模型在文本的引导下生成对应语义的图片可以极大地降低图片的获取成本，其应用领域包括在计算机辅助设计过程中，帮助工程师自动绘图和调整图像，在艺术设计领域，为艺术创作提供基础绘图并给予灵感，在刑侦领域可以快速生成目标任务的画像辅助侦查。

2、目前，文本生成图像方法多采用生成对抗网络或扩散模型网络来进行生成。首先从文本描述中提取出文本特征，理解文本描述中所包含的细节，然后通过生成网络将文本信息转化为具体的图像信息。由于生成网络中的卷积结构不利于处理全局特征，受限的感受野导致图像中物体的轮廓以及结构出现失真。同时，现有模型中文本模态与图像模态的语义往往是基于联合的语义空间进行对齐。而通用神经网络的表征空间受限在一个极窄的锥形当中，联合空间中文本模态与图像模态分布在完全分离的区域。联合语义空间中的模态表征既包含了语义信息也包含了模态信息，这种语义感知偏差也对生成图像质量造成了不良的影响。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种文本生成图像方法、电子设备及介质，本发明能够生成更为逼真，符合文本描述的生成图像。

2、本发明的目的可以通过以下技术方案来实现：

3、根据本发明的第一个方面，本发明提供一种文本生成图像方法，将待处理文本输入预先构建并训练好的生成对抗网络中，由生成器输出与待处理文本语义一致的图像；

4、所述生成对抗网络包括生成器和判别器；

5、对于生成器，以随机变量及文本描述作为生成器的输入，生成器输出与文本描述语义一致的风格多样的生成图像；

6、在预先获取的真实图像中采集不同间隔网格的源点以及不同位移偏差的目标点，进行从源点到目标点的偏移，所述真实图像为与文本描述对应的图像，在保持真实图像语义内容的同时，模拟生成图像中的结构失真，将得到的结构失真图像作为增强图像；

7、对于判别器，将真实图像、增强图像和生成器输出的生成图像作为判别器的输入，判别器对各图像的真实性进行判别，同时输出各图像特征与文本描述的特征的相似性。

8、优选地，所述增强图像的生成过程具体为：

9、在真实图像中沿二维方向以固定间隔采集源点，在图像内的网格源点上随机施加随机偏移作为目标点，直接将图像边缘处的网格源点设定为目标点以保持图像的整体形状；

10、基于源点到各自对应的目标点进行移动，利用薄板样条插值实现图像像素的重定位，在平滑变形约束下，插值后的图像与原有的真实图像保持语义内容上的一致；

11、通过设定不同的固定间隔和随机偏移，模拟不同密度与尺度的图像结构失真，将所有结构失真图像作为增强图像。

12、优选地，所述判别器包括多个跳跃连接的下采样模块和两个全连接层，各图像经下采样模块处理后提取图像特征信息，其中一个全连接层对图像特征信息编码为一个常量，表示该图形的真实分数，另一个全连接层将图像特征信息投影到联合语义空间中作为图像表征，在联合语义空间中对文本表征和图像表征进行对齐。

13、优选地，通过语义感知模块对多模态的图像特征信息进行投影，以特定的语义视角对齐多模态特征。

14、优选地，所述随机变量通过映射网络进行解耦，得到图像的随机风格编码，随机风格编码能够表征图像中相互耦合的风格属性；所述文本描述通过预训练的文本编码器处理，得到文本特征，将文本特征与随机风格编码进行拼接，得到条件风格编码，将所述条件风格编码嵌入所述生成器中，所述条件风格编码既包含了文本描述中对图像物体风格的描述信息，也包含了随机采样的图像风格信息。

15、优选地，所述生成器包括多个上采样模块，每个上采样模块均包括卷积层、条件批量归一化层以及上采样层，将可学习参数作为初始特征，通过卷积操作对中间图像特征进行上采样，基于条件批量归一化，通过控制中间层特征各通道的均值与方差实现条件风格编码的嵌入。

16、优选地，在生成器的训练过程中，生成器训练的损失函数为：

17、

18、式中，为训练批量中的第i对生成图像与文本，σ(*)为sigmoid激活函数，d(*)为判别器的输出。

19、优选地，在判别器的训练过程中，判别器训练的损失函数为：

20、

21、式中，为训练批量中的第j对真实图像与文本，为训练批量中的第i对生成图像与文本，为训练批量中的第k对增强图像与文本，d(*)为判别器的输出。

22、根据本发明的第二个方面，本发明提供一种电子设备，包括：

23、一个或多个处理器；存储器；和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上任一所述的文本生成图像方法的指令。

24、根据本发明的第三个方面，本发明提供一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如上任一所述的文本生成图像方法的指令。

25、与现有技术相比，本发明具有以如下有益效果：

26、(1)本发明提供的一种文本生成图像方法，通过保持真实图像语义内容的同时，模拟生成图像中的结构失真，将得到的结构失真图像作为增强图像，作为判别器的训练补充样本，由真实图像变换后的增强样本可以有效驱使模型关注生成图像的轮廓以及结构，提高生成图像质量。

27、(2)本发明提供的一种文本生成图像方法，通过将文本特征与解耦的风格编码结合以条件批量归一化的方式在生成过程中进行多模态特征融合，高效地实现了基于文本的图像生成模型。

28、(3)本发明提供的一种文本生成图像方法，在联合语义空间基础之上，通过语义感知来精准提取模态表征中的语义信息，缓解了模态差异带来的语义感知偏差问题，提高了语义对齐精度。

技术特征：

1.一种文本生成图像方法，其特征在于，将待处理文本输入预先构建并训练好的生成对抗网络中，由生成器输出与待处理文本语义一致的图像；

2.根据权利要求1所述的一种文本生成图像方法，其特征在于，所述增强图像的生成过程具体为：

3.根据权利要求1所述的一种文本生成图像方法，其特征在于，所述判别器包括多个跳跃连接的下采样模块和两个全连接层，各图像经下采样模块处理后提取图像特征信息，其中一个全连接层对图像特征信息编码为一个常量，表示该图形的真实分数，另一个全连接层将图像特征信息投影到联合语义空间中作为图像表征，在联合语义空间中对文本表征和图像表征进行对齐。

4.根据权利要求3所述的一种文本生成图像方法，其特征在于，通过语义感知模块对多模态的图像特征信息进行投影，以特定的语义视角对齐多模态特征。

5.根据权利要求1所述的一种文本生成图像方法，其特征在于，所述随机变量通过映射网络进行解耦，得到图像的随机风格编码，随机风格编码能够表征图像中相互耦合的风格属性；所述文本描述通过预训练的文本编码器处理，得到文本特征，将文本特征与随机风格编码进行拼接，得到条件风格编码，将所述条件风格编码嵌入所述生成器中，所述条件风格编码既包含了文本描述中对图像物体风格的描述信息，也包含了随机采样的图像风格信息。

6.根据权利要求5所述的一种文本生成图像方法，其特征在于，所述生成器包括多个上采样模块，每个上采样模块均包括卷积层、条件批量归一化层以及上采样层，将可学习参数作为初始特征，通过卷积操作对中间图像特征进行上采样，基于条件批量归一化，通过控制中间层特征各通道的均值与方差实现条件风格编码的嵌入。

7.根据权利要求1所述的一种文本生成图像方法，其特征在于，在生成器的训练过程中，生成器训练的损失函数为：

8.根据权利要求1所述的一种文本生成图像方法，其特征在于，在判别器的训练过程中，判别器训练的损失函数为：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1～8任一所述的文本生成图像方法的指令。

技术总结
本发明涉及一种文本生成图像方法，将待处理文本输入预先构建并训练好的生成对抗网络中，由生成器输出与待处理文本语义一致的图像；以随机变量及文本描述作为生成器的输入，生成器输出与文本描述语义一致的风格多样的生成图像；在保持真实图像语义内容的同时，模拟生成图像中的结构失真，将得到的结构失真图像作为增强图像；对于判别器，将真实图像、增强图像和生成器输出的生成图像作为判别器的输入，判别器对各图像的真实性进行判别，同时输出各图像特征与文本描述的特征的相似性。与现有技术相比，本发明能够生成更为逼真，符合文本描述的生成图像。

技术研发人员：王瀚漓,陈文杰
受保护的技术使用者：同济大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王瀚漓陈文杰
技术所有人：同济大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。