文本生成图像的方法、装置、计算机设备和存储介质与流程

文档序号：28599097发布日期：2022-01-22 10:57阅读：来源：国知局

技术特征：
1.一种文本生成图像的方法，其特征在于，所述方法包括：获取数据库中的文本图像对；其中，所述文本图像对包括文本和图像，文本为图像的描述性文本，作为原始文本；将所述原始文本输入多级生成对抗网络，得到对应的图像；将所述对应的图像输入训练好的图像标注网络，生成预测文本；将所述预测文本与所述原始文本输入训练好的孪生神经网络，得到预测文本与原始文本间的相似度；根据所述预测文本与原始文本间的相似度，训练所述多级生成对抗网络，得到训练好的多级生成对抗网络；将用户输入的文本，输入所述训练好的多级生成对抗网络，生成与所述文本对应的图像。2.根据权利要求1所述的文本生成图像的方法，其特征在于，所述将所述原始文本输入多级生成对抗网络，得到对应的图像，具体包括：将所述原始文本输入多级生成对抗网络之前，先将所述原始文本输入文本编码器，得到文本特征向量；将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络，得到对应的图像。3.根据权利要求2所述的文本生成图像的方法，其特征在于，所述多级生成对抗网络包括n个生成器和n-1个注意力机制模块；其中，n为大于1的正整数；所述将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络，得到对应的图像，具体包括：将所述句嵌入特征向量输入多级生成对抗网络中的生成器之前，对所述句嵌入特征向量进行条件增强，得到增强后句嵌入特征向量；当i为1时，将所述增强后句嵌入特征向量输入第i个生成器，得到第i个生成器的输出特征；当i为大于1且小于等于n的正整数时，将第i-1个生成器的输出特征输入第i-1个注意力机制模块，获取第i-1个生成器的输出特征中的重要部分；将第i-1个生成器的输出特征中的重要部分和第i-1个生成器的输出特征输入第i个生成器，得到第i个生成器的输出特征；将第n个生成器的输出特征作为对应的图像；随着生成器个数的增加，生成器输出图像的分辨率逐渐增大。4.根据权利要求3所述的文本生成图像的方法，其特征在于，所述将第i-1个生成器的输出特征输入第i-1个注意力机制模块，获取第i-1个生成器的输出特征中的重要部分，具体包括：将所述文本特征向量的词嵌入特征矩阵和第i-1个生成器的输出特征输入第i-1个注意力机制模块；通过第i-1个注意力机制模块的注意力机制，计算第i-1个生成器的输出特征中与原始文本中关键词最相关的部分，得到第i-1个生成器的输出特征中的重要部分。5.根据权利要求3所述的文本生成图像的方法，其特征在于，所述多级生成对抗网络还包括n个鉴别器，每个所述鉴别器均与一个生成器对应；
所述根据所述预测文本与原始文本间的相似度，训练所述多级生成对抗网络，得到训练好的多级生成对抗网络，具体包括：在多级生成对抗网络训练过程中，一轮训练包括以下两个过程：固定所有生成器的参数，使用鉴别器的损失函数更新鉴别器的参数；固定所有鉴别器的参数，使用生成器的损失函数以及所述预测文本与原始文本间的相似度，更新生成器的参数；利用多个所述预测文本与原始文本间的相似度对所述多级生成对抗网络进行多轮训练，从而得到训练好的多级生成对抗网络。6.根据权利要求5所述的文本生成图像的方法，其特征在于，将原始文本对应的文本图像对中的图像，作为真实图像；第t个鉴别器的输入包括第t个生成器的输出特征和所述真实图像；其中，t为大于等于1且小于n+1的正整数；当k为1时，第k个鉴别器的输入还包括所述句嵌入特征向量；当k为大于1且小于等于n时，第k个鉴别器的输入还包括所述文本特征向量的词嵌入特征矩阵；鉴别器的损失函数，如下所示：其中，为句嵌入特征向量或词嵌入特征矩阵，i为真实图像，s0代表前一个生成器的输出特征，c为句嵌入特征向量，g(s0,c)为生成器的输出特征，ic为图像标注网络，为鉴别器的输出，sim为预测文本与原始文本间的相似度；生成器的损失函数，如下所示：其中，为文本特征向量与高斯分布之间的kl散度。7.根据权利要求1所述的文本生成图像的方法，其特征在于，所述图像标注网络包括编码器和解码器；其中，所述编码器包括卷积神经网络和线性变换，所述解码器包括lstm网络；所述将所述对应的图像输入训练好的图像标注网络，生成预测文本，具体包括：将所述对应的图像输入所述卷积神经网络，获取图像的特征矩阵；将所述图像的特征矩阵通过所述线性变换后，得到变换后特征矩阵；将所述变换后特征矩阵输入所述lstm网络，生成预测文本。8.根据权利要求1所述的文本生成图像的方法，其特征在于，所述孪生神经网络包括文本特征提取网络和池化层；所述将所述预测文本与所述原始文本输入训练好的孪生神经网络，得到预测文本与原始文本间的相似度，具体包括：将所述预测文本与所述原始文本分别输入所述文本特征提取网络，分别得到提取后文本特征；将分别得到的提取后文本特征输入所述池化层，得到特征向量u和特征向量v；根据余弦相似度，计算特征向量u和特征向量v的相似度，公式如下：
其中，u
i
及v
i
分别为u及v的第i个向量。9.一种文本生成图像的装置，其特征在于，所述装置包括：文本图像对获取模块，用于获取数据库中的文本图像对；其中，所述文本图像对包括文本和图像，文本为图像的描述性文本，作为原始文本；预测图像生成模块，用于将所述原始文本输入多级生成对抗网络，得到对应的图像；预测文本生成模块，用于将所述对应的图像输入训练好的图像标注网络，生成预测文本；相似度计算模块，用于将所述预测文本与所述原始文本输入训练好的孪生神经网络，得到预测文本与原始文本间的相似度；多级生成对抗网络训练模块，用于根据所述预测文本与原始文本间的相似度，训练所述多级生成对抗网络，得到训练好的多级生成对抗网络；文本生成图像模块，用于将用户输入的文本，输入所述训练好的多级生成对抗网络，生成与所述文本对应的图像。10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-8任一项所述的文本生成图像的方法。

技术总结
本发明公开了一种文本生成图像的方法、装置、计算机设备和存储介质，所述方法包括：获取数据库中的文本图像对；文本图像对中的文本作为原始文本；将原始文本输入多级生成对抗网络，得到对应的图像；将对应的图像输入训练好的图像标注网络，生成预测文本；将预测文本与原始文本输入训练好的孪生神经网络，得到预测文本与原始文本间的相似度；根据相似度，训练多级生成对抗网络，得到训练好的多级生成对抗网络；将用户输入的文本，输入训练好的多级生成对抗网络，生成与文本对应的图像。本发明通过采用多级生成对抗网络，逐步提高生成图像的像素及质量，同时通过加入注意力机制，提升了生成图像的真实性，从而提升了生成图像与文本的语义一致性。的语义一致性。的语义一致性。

技术研发人员：陆璐叶锡洪冼允廷
受保护的技术使用者：广东优算科技有限公司
技术研发日：2021.09.14
技术公布日：2022/1/21

完整全部详细技术资料下载

当前第2页1 2