基于深度学习的文本生成图像方法、装置和可读存储介质

文档序号:37183147发布日期:2024-03-01 12:43阅读:13来源:国知局
基于深度学习的文本生成图像方法、装置和可读存储介质

本发明涉及计算机视觉的图像生成的,具体而言,涉及一种基于深度学习的文本生成图像方法、计算机装置和计算机可读存储介质。


背景技术:

1、随着深度学习技术的发展,文本生成图像成为了一个备受关注的研究领域。文本生成图像是指将文本描述转化为相应的图像。传统的文本生成图像方法通常基于规则或模板,缺乏灵活性和泛化能力。而基于深度学习的文本生成图像方法则可以自动地从大量的数据中学习到文本与图像之间的映射关系,具有更高的灵活性和泛化能力。

2、目前,基于深度学习的文本生成图像方法已经得到了广泛的研究和应用。其中最具代表性的是生成对抗网络(gan)模型。gan模型是一种基于博弈论的深度学习模型,由生成器和鉴别器两部分组成。在文本生成图像任务中,生成器接受文本描述作为输入,并生成相应的图像,而鉴别器则尝试区分这些生成的图像和真实的图像之间的差异。通过对生成器和鉴别器进行交替训练,可以不断提高生成器的性能,从而生成更加逼真的图像。除了gan模型,还有许多其他的基于深度学习的文本生成图像方法。例如,可以使用变分自编码器(vae)模型,将文本描述映射到一个潜在空间中,并从中采样生成图像。还可以使用条件变分自编码器(cvae)模型,将文本描述和图像特征结合起来,生成与文本描述相符合的图像。另外,还可以使用卷积神经网络(cnn)和循环神经网络(rnn)等模型,分别处理文本和图像,然后将它们结合起来,生成文本描述对应的图像。

3、但是,现有的基于深度学习的文本生成图像方法都存在以下缺陷:

4、(1)文本特征提取不充分。文本特征提取是指从原始文本中提取出一组代表性的特征,以便进行后续的处理和分析。文本特征提取对于文本生成图像方法的精度和准确性至关重要。因此在选择特征提取方法时需要进行实验和比较,以选出最佳的特征组合;

5、(2)全局一致性差。生成的图像往往存在一些局部特征(例如对象的形态,纹理等),这些局部特征很准确,但表现的全局结构和背景缺少一致性,会显得比较不自然;

6、(3)像素级别的错误。生成的图像存在一些不真实的问题,例如过多或者过少的细节、重要特征部分的缺失和失真等;

7、(4)图像分辨率低。文本生成图像模型生成的图像分辨率通常较低,这限制了场景的应用范围。


技术实现思路

1、本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

2、为此,本发明的第一目的在于提出一种基于深度学习的文本生成图像方法。

3、本发明的第二目的在于提出一种计算机装置。

4、本发明的第三目的在于提出一种计算机可读存储介质。

5、为了实现上述目的,本发明的第一方面的技术方案,提供了一种基于深度学习的文本生成图像方法,包括:步骤s1:获取文本图像数据集,所述文本图像数据集包括多组数据,每一组数据包括文本描述和与所述文本描述相对应的真实图像;步骤s2:按照预设比例将所述文本图像数据集划分为训练集、测试集和验证集;步骤s3:搭建基于深度学习的文本生成图像网络模型;所述基于深度学习的文本生成图像网络模型包括:以bert模型为骨干网络的文本编码器、生成器和鉴别器;所述生成器以第一随机向量为输入;所述文本编码器包括一个全局特征提取器和一个局部特征提取器;所述生成器包括:一个全连接层、多个相互串联的文本图像融合块和一个卷积层,所述第一随机向量通过一个全连接层输入到所述多个相互串联的文本图像融合块中;每个文本图像融合块包括多个相互串联的仿射变换层;所述鉴别器包括:多个相互串联的卷积池化块和一个输出层,每个卷积池化块包括相互串联的一个卷积层和一个池化层;所述文本编码器,以文本描述为输入,用于提取所述文本描述对应的文本特征向量,其中所述文本特征向量包括全局特征和局部特征;所述文本编码器,还用于将所述文本特征向量与第二随机向量进行拼接以得到拼接后的向量矩阵,并将所述拼接后的向量矩阵输入到所述文本图像融合块中;所述全局特征提取器,用于提取所述文本描述对应的全局特征;所述局部特征提取器,用于提取所述文本描述对应的局部特征;所述文本图像融合块,用于通过多个仿射变换层将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征,融合在一起生成对应的图像特征;融合后的所述对应的图像特征通过一个卷积层输出与所述文本描述语义相一致的生成图像;所述多个相互串联的卷积池化块,用于接收与所述文本描述语义相一致的生成图像和所述真实图像,并将与所述文本描述语义相一致的生成图像和所述真实图像进行相应的卷积、池化操作后,生成对应的图像特征;卷积、池化操作后的所述对应的图像特征再与所述文本特征向量进行拼接,经过所述输出层分别将卷积、池化操作后的所述对应的图像特征和所述文本特征向量分成n个大小相同的块,对每个块进行鉴别,经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性;步骤s4:构造所述生成器和鉴别器的损失函数;步骤s5:将所述训练集对应的文本描述作为所述文本编码器的输入,将所述第一随机向量作为所述生成器的输入,基于所述生成器和鉴别器的损失函数对所述基于深度学习的文本生成图像网络模型进行训练及优化,保存最优模型;步骤s6:将所述测试集输入最优模型,输出与所述测试集对应的文本描述语义相一致的生成图像,并输出所述测试集中的各真实图像的特征与对应的各生成图像的特征的相似性。

6、优选地,所述步骤s3中,所述文本编码器,还用于:预训练所述bert模型,并将预训练后的bert模型的预训练权重加载到文本编码器中,以微调所述文本编码器的权重。

7、优选地,所述生成器的损失函数的表达式为:

8、lg=αlog(d(g(z)))+β||x-g(z)||

9、其中,g表示生成器;d表示鉴别器;z表示生成器的输入随机向量;g(z)为生成器接收随机向量并生成相应的图像输出;d(g(z))为鉴别器接收生成器生成的图像作为输入,并输出一个判别结果,表示图像的真实性;x表示原始输入图像;α、β则表示该部分对应的权重;所述鉴别器的损失函数的表达式为:

10、

11、其中,xi为真实图像中第i块;d(xi)为真实图像的鉴别器输出;g(zi)为生成器输入的随机向量zi后生成的假图像的第i块;d(g(zi)为生成图像的鉴别器输出;n为所有块的数量。

12、优选地,所述生成器包括七个相互串联的文本图像融合块;所述鉴别器包括:六个相互串联的卷积池化块。

13、优选地,每个文本图像融合块包括:相互串联的第一仿射变换层、第一激活层、第二仿射变换层、第二激活层、和一个卷积层;将所述文本描述对应的全局和局部特征,以及经过上采样操作后的所述第一随机向量、第二随机向量对应的图像特征,依次输入到相互串联的第一仿射变换层、第一激活层、第二仿射变换层,以及将所述文本描述对应的局部特征和全局输入到第一和第二仿射变换层,以实现将所述全局特征、局部特征、以及所述第一随机向量、第二随机向量对应的图像特征融合在一起,最后通过一个卷积层输出融合后的对应的图像特征。

14、优选地,所述多个相互串联的文本图像融合块的后面还设置有一个批量归一化层。

15、本发明的第二方面的技术方案,还提供了一种计算机装置,该计算机装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一技术方案中的基于深度学习的文本生成图像方法的步骤。

16、本发明的第三方面的技术方案,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一技术方案中的基于深度学习的文本生成图像方法的步骤。

17、本发明的有益效果:

18、(1)本发明提出的基于深度学习的文本生成图像方法,可以将文本描述转换成对应的图像,该转换成的图像具有很高的逼真性和实用性。具体地,该基于深度学习的文本生成图像方法采用的文本编码器以bert模型为骨干网络,并且该文本编码器包括一个全局特征提取器和一个局部特征提取器,实现了采用更先进的文本编码器进行文本特征提取,并解决了现有的基于深度学习的文本生成图像方法文本特征提取不充分的问题。

19、(2)本发明提出的基于深度学习的文本生成图像方法,采用的生成器包括多个相互串联的文本图像融合块,每个文本图像融合块包括多个相互串联的仿射变换层,它可以更有效、更深入的充分融合文本特征和图像特征,并解决了现有的基于深度学习的文本生成图像方法像素级别的错误和图像分辨率低的问题。

20、(3)本发明提出的基于深度学习的文本生成图像方法,采用能够对图像局部进行评估的分块鉴别器的思想,该分块鉴别器的思想解决了现有的基于深度学习的文本生成图像方法全局一致性差的问题。具体地,经过输出层分别将卷积、池化操作后的对应的图像特征和文本特征向量分成n个大小相同的块,对每个块进行鉴别,经计算之后输出各真实图像的特征与对应的各生成图像的特征的相似性,上述操作使得鉴别器能够在每个像素块的级别上去检查输入图像的真实性,能够更好的捕捉图像中的局部信息,并在整合每个块的判别结果之后,最终得到每张图的真实性评估。

21、本发明的附加方面和优点将在下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1