一种基于通道注意力和交叉注意力的文本生成图像方法

文档序号：37594681发布日期：2024-04-18 12:30阅读：3来源：国知局

本发明涉及一种基于通道注意力和交叉注意力的文本生成图像方法，属于深度学习领域。

背景技术：

1、文本生成图像任务是图像生成领域的重难点之一，它属于自然语言处理和计算机视觉的交叉领域，旨在从给定的自然语言描述中生成真实的和文本一致的图像。文本生成图像可应用于图像描述生成、视觉推理、视觉问答、医疗图像生成等多个领域。近年来，随着深度学习的快速发展，文本生成图像的主流方法采用生成对抗网络。早期，mirza等人提出cgan,read等人提出gan-int-cls,但是通过这些方法生成的图像分辨率较低。为了解决生成的图像分辨率的问题，zhang等人提出了stack-gan,stack-gan主要是将生成高分辨率的图像过程分成不同阶段，在低分辨率图像生成阶段侧重生成图像的整体结构和布局，在高分辨率图像生成阶段侧重于纠正低分辨率阶段生成图像的一些错误以及丰富图像的一些细节纹理。

2、多阶段图像生成的方法虽然解决了生成图像分辨率低的问题，但是依然存在文本描述与生成图像语义一致性较低的问题。为了进一步提升生成图像与文本语义一致性，attngan中引入注意力机制，通过注意力把语义特征向量和生成图像中最相关的部分联系起来。dm-gan通过引入动态记忆化机制来使得初始图像自适应的选择重要的文本信息，但是依然存在生成图像缺失、生成图像质量不高、低分辨率阶段生成图像存在结构性错误的问题。在基于gans的文本生成图像网络模型中，动态存储生成网络模型是非常具有代表性的，但它的预训练文本编码器仍然忽略了图像kongjian和文本空间的语义鸿沟。

3、最近，基于通道注意力和双线性池化来学习语言和视觉的联合编码表示研究有了重大突破，这种跨模态的交叉注意力机制旨在捕捉语言和视觉的映射关系，能有效地搭建这两种跨模态信息的沟通桥梁，从而有效地提升以视觉语言交叉任务模型性能。

技术实现思路

1、本发明提出了一种基于通道注意力和交叉注意力的文本生成图像方法。本发明在预训练文本编码器中引入了通道注意力和交叉注意力机制，捕捉语言信息和图像信息的内在联系，更加有效的对文本进行编码，从而提升生成图像的质量。

2、本发明通过以下技术方案来实现上述目的：

3、(1)将文本描述输入到交叉注意力编码器，该编码器对文本描述进行编码，同时捕捉图像信息和文本信息的内在联系，最终输出一个交叉注意力特征向量fc和一个单词特征矩阵w；

4、(2)交叉注意力特征向量和高斯噪声z结合后输入初级对抗生成网络，生成64×64的低分辨率初始图像，初始图像特征为f0；

5、(3)将单词特征矩阵w和初始图像特征f0输入到动态存储模块中，动态存储模块会选择相应的单词信息对图像特征f0进行优化得到f0′；

6、(4)特征f0′输入下一级生成网络，生成分辨率为128×128的图像，图像特征为f1，f1经动态存储模块优化后得到特征f1′；

7、(5)特征f1′输入第三级生成网络，最终生成分辨率为256×256的高分辨率图像。

技术特征：

1.一种基于通道注意力和交叉注意力的文本生成图像方法，其特征在于包括以下步骤：

2.权利要求1所述步骤一的交叉注意力编码器，由文本特征提取、图像特征提取、通道注意力编码和交叉注意力编码四部分组成：文本特征提取模块基于双向长短时记忆网络(bilstm)实现，提取全局句子特征向量s和文本信息输出单词特征矩阵w；图像特征提取模块基于inceptionv3网络实现，提取原图特征fv；原图特征fv和全局句子向量s经过通道注意力模块，通过通道注意力的图像特征和全局句子向量分别为fv′和s′；图像特征fv′和全局句子向量s′经交叉注意力进行对齐和翻译，最终输出交叉注意力特征向量fc。

3.权利要求1步骤二的交叉注意力特征向量fc是基于双线性池化的思想提出的，fc不简单表示了文本描述信息，fc是捕捉了图像信息和文本信息内部联系的联合编码。

4.权利要求2步骤二的通道注意力模块是将特征提取后的图像特征图和文本特征向量输入到通道注意力中，通过通道注意力对图像特征图和文本特征向量进行加权，使得生成的图像拥有更多的细节特征，具体计算如下：

5.权利要求2交叉注意力编码用于构建文本特征和图像特征的内在联系，旨在将通过注意力机制的全局句子特征s′和图像特征fv′经过双线性池化，得到融合后的特征fc，

技术总结
本发明公开了一种基于通道注意力和交叉注意力的文本生成图像方法。包括以下步骤：文本描述通过交叉注意力编码器得到单词特征矩阵和交叉注意力特征向量，交叉注意力编码器是一个需要训练的网络，该网络能够提取出原图像信息和文本信息，该网络对提取出的图像特征和文本特征通过通道注意力，通道注意力的作用是对每一个特征通道进行加权，突出重要信息，然后将其输入交叉注意力，交叉注意力将两种跨模态信息进行翻译和对齐，最终输出交叉注意力特征向量。交叉注意力特征向量输入经典三级对抗生成网络，逐级生成逼真图像。本发明所述的交叉注意力编码方法相较其他方法效果提升明显，评价指标表现良好，在文本生成图像领域有很大应用价值。

技术研发人员：何小海,叶龙,王正勇,卿粼波,陈洪刚,吴小强,滕奇志
受保护的技术使用者：四川大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何小海,叶龙,王正勇,卿粼波,陈洪刚,吴小强,滕奇志
技术所有人：四川大学
我是此专利的发明人

上一篇：光学组件、光学组件的制备方法及电子设备与流程
上一篇：冰箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。