文本生成图像的方法、装置、计算机设备和存储介质与流程

文档序号:28599097发布日期:2022-01-22 10:57阅读:59来源:国知局
文本生成图像的方法、装置、计算机设备和存储介质与流程

1.本发明涉及自然语言处理与计算机视觉领域,特别是涉及一种文本生成图像的方法、装置、计算机设备和存储介质。


背景技术:

2.计算机视觉及自然语言处理均是用于处理单一类型的数据,即图像或文字,计算机视觉主要关注于图片的理解,包括图像语义分割、图像分类、目标检索等子任务,自然语言处理则主要关注对文本信息进行建模处理,包括机器翻译、命名实体识别、分词等子任务。而结合图像、文本及视频等多种数据类型的多模态任务近年来越来越受到研究人员的关注,它可以联系多种不同类型的数据之间的关系,例如映射、融合等。多模态任务中最常见的两种数据类型是文字及图像,跨模态检索、图像字幕生成等都是多模态任务中常见的研究方向。
3.文字与图像作为两种不同的类型的信息载体,在日常生活中扮演着重要的角色,图像直观地向人们展现包含的内容,展现出文字所不包含的细节,而文字的表达言简意赅,通过简洁的描述即可表达出大量图像才能表达出的内容,因此将文字与图像结合,通过图文并茂的方式才能对对象有一个全方位的描述。生活中这样的场景随处可见:设计师设计出的图片常常无法满足客户的描述,即使反复修改,依然无法达到客户的要求;在犯罪现场,目击案件发生及犯罪嫌疑人的目击者往往只能通过口头表达的形式将犯罪嫌疑人的外貌特征描述出来,而将描述转化成图片供社会参考需要专业人士参与,费时费力,并且不一定能获得较好的效果。
4.文本生成图像任务是指输入一段文字描述产生对应的图像的任务。reed等人于 2016年提出的用于文本生成图像任务的gan-int-cls实现了将人工编写的描述性文本转换成对应的图像。stackgan开创性的将两个cgan堆叠在一起,在第一阶段的 cgan中生成低分辨率的图像,包含主要对象的轮廓和颜色,在第二阶段中对该低分辨率图像进行扩大,生成高分辨率的图像,并且包含较为生动的对象。attngan则是用于提供语义一致性而提出的,该模型同时将文本描述编码成句子特征和单词特征,句子特征作为网络的输入产生初始低分辨率图像,单词特征用于在后续生成过程中提取出重要的单词,并且找出与之对应的图像子区域,提高该区域的注意力,在图像的重要子区域生成细粒度的细节,以此提高图像的语义一致性。


技术实现要素:

5.为了解决上述现有技术的不足,本发明提供了一种文本生成图像的方法、装置、计算机设备和存储介质,该方法通过采用多级生成对抗网络,逐步提高生成图像的像素及质量,避免了单一式生成对抗网络生成的图像像素较低以及质量不佳的问题,同时,在级联生成器之间,加入注意力机制,关注输出特征中的重要部分,进一步提升了生成图像的真实性,从而提升生成图像与文本的语义一致性。
6.本发明的第一个目的在于提供一种文本生成图像的方法。
7.本发明的第二个目的在于提供一种文本生成图像的装置。
8.本发明的第三个目的在于提供一种计算机设备。
9.本发明的第四个目的在于提供一种存储介质。
10.本发明的第一个目的可以通过采取如下技术方案达到:
11.一种文本生成图像的方法,所述方法包括:
12.获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
13.将所述原始文本输入多级生成对抗网络,得到对应的图像;
14.将所述对应的图像输入训练好的图像标注网络,生成预测文本;
15.将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
16.根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
17.将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。
18.进一步的,所述将所述原始文本输入多级生成对抗网络,得到对应的图像,具体包括:
19.将所述原始文本输入多级生成对抗网络之前,先将所述原始文本输入文本编码器,得到文本特征向量;
20.将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像。
21.进一步的,所述多级生成对抗网络包括n个生成器和n-1个注意力机制模块;其中,n为大于1的正整数;
22.所述将所述文本特征向量的句嵌入特征向量输入多级生成对抗网络,得到对应的图像,具体包括:
23.将所述句嵌入特征向量输入多级生成对抗网络中的生成器之前,对所述句嵌入特征向量进行条件增强,得到增强后句嵌入特征向量;
24.当i为1时,将所述增强后句嵌入特征向量输入第i个生成器,得到第i个生成器的输出特征;
25.当i为大于1且小于等于n的正整数时,将第i-1个生成器的输出特征输入第i-1 个注意力机制模块,获取第i-1个生成器的输出特征中的重要部分;将第i-1个生成器的输出特征中的重要部分和第i-1个生成器的输出特征输入第i个生成器,得到第i个生成器的输出特征;
26.将第n个生成器的输出特征作为对应的图像;
27.随着生成器个数的增加,生成器输出图像的分辨率逐渐增大。
28.进一步的,所述将第i-1个生成器的输出特征输入第i-1个注意力机制模块,获取第i-1个生成器的输出特征中的重要部分,具体包括:
29.将所述文本特征向量的词嵌入特征矩阵和第i-1个生成器的输出特征输入第i-1
个注意力机制模块;
30.通过第i-1个注意力机制模块的注意力机制,计算第i-1个生成器的输出特征中与原始文本中关键词最相关的部分,得到第i-1个生成器的输出特征中的重要部分。
31.进一步的,所述多级生成对抗网络还包括n个鉴别器,每个所述鉴别器均与一个生成器对应;
32.所述根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络,具体包括:
33.在多级生成对抗网络训练过程中,一轮训练包括以下两个过程:
34.固定所有生成器的参数,使用鉴别器的损失函数更新鉴别器的参数;
35.固定所有鉴别器的参数,使用生成器的损失函数以及所述测文本与原始文本间的相似度,更新生成器的参数;
36.利用多个所述预测文本与原始文本间的相似度对所述多级生成对抗网络进行多轮训练,从而得到训练好的多级生成对抗网络。
37.进一步的,将原始文本对应的文本图像对中的图像,作为真实图像;
38.第t个鉴别器的输入包括第t个生成器的输出特征和所述真实图像;其中,t为大于等于1且小于n+1的正整数;
39.当k为1时,第k个鉴别器的输入还包括所述句嵌入特征向量;
40.当k为大于1且小于等于n时,第k个鉴别器的输入还包括所述文本特征向量的词嵌入特征矩阵;
41.鉴别器的损失函数,如下所示:
[0042][0043]
其中,为句嵌入特征向量或词嵌入特征矩阵,i为真实图像,s0代表前一个生成器的输出特征,c为句嵌入特征向量,g(s0,c)为生成器的输出特征,ic为图像标注网络,为鉴别器的输出,sim为预测文本与原始文本间的相似度;
[0044]
生成器的损失函数,如下所示:
[0045][0046]
其中,为文本特征向量与高斯分布之间的kl散度。
[0047]
进一步的,所述图像标注网络包括编码器和解码器;其中,所述编码器包括卷积神经网络和线性变换,所述解码器包括lstm网络;
[0048]
所述将所述对应的图像输入训练好的图像标注网络,生成预测文本,具体包括:
[0049]
将所述对应的图像输入所述卷积神经网络,获取图像的特征矩阵;
[0050]
将所述图像的特征矩阵通过所述线性变换后,得到变换后特征矩阵;
[0051]
将所述变换后特征矩阵输入所述lstm网络,生成预测文本。
[0052]
进一步的,所述孪生神经网络包括文本特征提取网络和池化层;
[0053]
所述将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度,具体包括:
[0054]
将所述预测文本与所述原始文本分别输入所述文本特征提取网络,分别得到提取后文本特征;
[0055]
将分别得到的提取后文本特征输入所述池化层,得到特征向量u和特征向量v;
[0056]
根据余弦相似度,计算特征向量u和特征向量v的相似度,公式如下:
[0057][0058]
其中,ui及vi分别为u及v的第i个向量。
[0059]
本发明的第二个目的可以通过采取如下技术方案达到:
[0060]
一种文本生成图像的装置,所述装置包括:
[0061]
文本图像对获取模块,用于获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
[0062]
预测图像生成模块,用于将所述原始文本输入多级生成对抗网络,得到对应的图像;
[0063]
预测文本生成模块,用于将所述对应的图像输入训练好的图像标注网络,生成预测文本;
[0064]
相似度计算模块,用于将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
[0065]
多级生成对抗网络训练模块,用于根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
[0066]
文本生成图像模块,用于将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。
[0067]
本发明的第三个目的可以通过采取如下技术方案达到:
[0068]
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的文本生成图像的方法。
[0069]
本发明的第四个目的可以通过采取如下技术方案达到:
[0070]
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的文本生成图像的方法。
[0071]
本发明相对于现有技术具有如下的有益效果:
[0072]
1、本发明通过采用渐进式多层生成对抗网络,逐步提高生成图像的像素及质量,避免了单一式生成对抗网络生成的图像像素较低以及生成图像质量不佳的问题。同时,在级联生成器之间,加入注意力机制,关注输出特征中的重要部分,进一步提升生成图像的真实性。
[0073]
2、本发明通过采用文本对齐的方式,首先预训练好图像标注网络以及孪生神经网络,在训练渐进式多层生成对抗网络过程中,通过文本对齐的方式增强监督因素,在鉴别器的条件性约束基础上添加文本对齐约束,进一步提升生成图像与文本的语义一致性。
附图说明
[0074]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图示出的结构获得其他的附图。
[0075]
图1为本发明实施例1的文本生成图像的方法的流程图。
[0076]
图2为本发明实施例1的整个网络的结构示意图。
[0077]
图3为本发明实施例1的图像标注网络结构示意图。
[0078]
图4为本发明实施例1的孪生神经网络结构示意图。
[0079]
图5为本发明实施例2的文本生成图像的装置的结构框图。
[0080]
图6为本发明实施例3的计算机设备的结构框图。
具体实施方式
[0081]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0082]
实施例1:
[0083]
如图1所示,本实施例提供了一种文本生成图像的方法,包括以下步骤:
[0084]
s101、获取数据库中的文本图像对;其中,文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本。
[0085]
通过爬虫等方式,获取到网络中的图像文本对数据,作为数据库中的文本图像对。一个文本图像对中的文本为图像的描述性语句,文本与图像之间具有语义一致性。
[0086]
本实施例中,整个网络包括多级生成对抗网络、图像标注网络和孪生神经网络。
[0087]
s102、将原始文本输入多级生成对抗网络,得到对应的图像。
[0088]
进一步的,步骤s102包括:
[0089]
(1)将原始文本输入多级生成对抗网络之前,先将原始文本输入文本编码器,得到文本特征向量。
[0090]
(2)多级生成对抗网络。
[0091]
多级生成对抗网络为一个渐进式多层生成对抗网络,包括n个生成器、n个鉴别器和n-1个注意力机制模块,每个鉴别器均与一个生成器对应。
[0092]
如图2所示,本实施例中,n为3,即包括三个生成器,第一个生成器由4个反卷积块组成,每个反卷积块由上采样层以及谱归一化层组成。上采样层每次将三维特征向量的通道数减少为原来的一半,同时将特征的宽和高均扩大为原来2倍。第一个生成器生成的特征向量的维度为3
×
64
×
64。谱归一化层用于提高生成对抗网络在训练过程中的稳定性,避免模式崩溃等问题。后续两个生成器均由4个反卷积块组成,每个反卷积块主要由卷积层、残差层以及上采样层组成,获取新特征矩阵同时提升输出图像大小,具体为卷积层及残差层处理上一个生成器生成的特征图像,上采样层提升图像像素。
[0093]
多级生成对抗网络的前一个生成器输出特征作为下一个生成器输入。多级生成对抗网络中每个生成器输出图像分辨率逐渐增大,从128
×
128到256
×
256,最后为512
ꢀ×
512。
[0094]
(3)将文本特征向量输入多级生成对抗网络,得到对应的图像。
[0095]
进一步的,步骤(3)具体包括:
[0096]
(3-1)文本特征向量在输入多级生成对抗网络前,首先进行条件增强来产生额外的条件变量,得到句嵌入特征向量。
[0097]
文本特征向量的句嵌入特征向量在输入多级生成对抗网络前,首先进行条件增强来产生额外的条件变量,该条件变量从独立的高斯分布中随机采样。
[0098]
文本特征向量的句嵌入特征向量为文本特征向量的句嵌入特征向量为表示d维向量。由于数据量有限,为提高网络模型泛化能力,在句嵌入特征向量输入网络前,首先进行条件增强,条件增强计算方式为:
[0099][0100]
c表示条件增强后的句嵌入特征向量。该条件增强的主要方法为条件变量从独立的高斯分布中随机采样。
[0101]
(3-2)将句嵌入特征向量输入多级生成对抗网络,得到对应的图像。
[0102]
将句嵌入特征向量拼接上均值为0,方差为1的随机噪声作为网络输入,输入第1 个生成器,得到第1个生成器的输出特征。
[0103]
将前一个生成器的输出输入到下一个生成器前,需经过一个注意力机制模块,获取生成图像中的重要部分。注意力机制模块包括两部分输入,分别为文本特征向量的词嵌入特征矩阵以及生成器的输出特征,其中d代表每一个词的维度,t 代表文本长度。通过注意力机制,可以计算出各阶段生成子图像中与原始文本关键词最相关的部分,提升子图质量。
[0104]
将第2个注意力机制模块的输出输入第3个生成器,得到第3个生成器的输出特征,作为对应的图像,即为原始图像对应的生成图像。
[0105]
鉴别器包括两个方面的约束:非条件性约束与条件性约束。鉴别器需要三部分输入。第一个鉴别器的输入为句嵌入特征向量、第一个生成器的生成图像和真实图像;其他鉴别器的输入为:词嵌入特征矩阵、生成器的生成图像和真实图像。非条件性约束用于判断生成图像是否为真实自然的图像,使用生成器的生成图像和真实图像作为判断条件;条件性约束用于判断生成图像是否与文本描述一致,使用句嵌入特征向量或词嵌入特征矩阵和生成器图像作为判断条件。
[0106]
本实施例中采用的是条件性约束。
[0107]
鉴别器损失函数为:
[0108][0109]
其中,为句嵌入特征向量/文本特征向量的词嵌入特征矩阵,i为真实图像,s0代表前一个生成器的输出特征,c为句嵌入特征向量,g(s0,c)为生成器的输出特征, ic为图像标注网络,为鉴别器的输出,sim为预测文本与原始文本间的相似度。
[0110]
生成器的损失函数为:
[0111][0112]
其中,为文本特征向量与高斯分布之间的kl散度,目的为避免过拟合。
[0113]
s103、将对应的图像输入训练好的图像标注网络,生成预测文本。
[0114]
图像标注网络用于生成与输入图像语义一致的描述性文本。
[0115]
如图3所示,图像标注网络主要包括两部分:编码器以及解码器。编码器包括卷积神经网络和线性变换,编码器使用卷积神经网络预训练模型resnet-152,去掉最后一层全连接层。编码器首先利用卷积神经网络获取输入图像的特征矩阵,然后将特征矩阵(特征向量)通过线性变换后,转换为适合解码器输入的表示形式,然后输入到解码器中。对于解码器部分,使用lstm网络(长短期记忆网络),解码器包含多个lstm中,在lstm中预测出描述性文本,获取文本输出编码。
[0116]
对图像标注网络进行训练,具体包括:
[0117]
将真实图像输入图像标注网络,得到文本输出编码;
[0118]
将文本输出编码与真实图像对应的文本特征对比进行训练,从而得到训练好的图像标注网络。
[0119]
将对应的图像输入训练好的图像标注网络,生成预测文本。
[0120]
s104、将预测文本与原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度。
[0121]
如图4所示,孪生神经网络主要包括文本特征提取网络和池化层。
[0122]
文本图像对数据库中,不同图像间的文本作为负样本对,相同图像的文本作为正样本对,正样本对之间的相似度设置为0.8,负样本对之间的相似度设置为0.5。孪生神经网络以两个文本作为输入,获得两个输入文本的嵌入高维度空间的表征,然后计算出两个嵌入高维度空间表征之间的相似程度。具体而言,将两个文本分别输入到文本特征提取网络中,本实施例选取的文本特征提取网络为bert,为了将提取到的特征表示成相同的维度以便计算相似度,将特征输入到池化层中,获取到两个特征向量u、 v。然后使用余弦相似度计算出两个特征向量的相似度,正样本间相似度较高,负样本间相似度较低。余弦相似度计算公式如下所示:
[0123][0124]
其中,ui及vi分别代表u及v的第i个向量。
[0125]
将正负样本对分别输入到孪生神经网络中得出预测相似度,再通过目标相似度与预测相似度的差更新孪生神经网络参数进行训练,从而得到训练好的孪生神经网络。
[0126]
将预测性文本与原始文本输入训练好的孪生神经网络,计算出两个文本的相似度。
[0127]
s105、根据预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络。
[0128]
通过步骤s101-s104,获得多个预测文本与原始文本间的相似度,根据多个预测文本与原始文本间的相似度对多级生成对抗网络进行训练。
[0129]
多级生成对抗网络训练过程中,一轮训练分为两个过程:
[0130]
(1)首先固定所有生成器的参数,使用鉴别器的loss损失函数更新鉴别器的参数;
[0131]
(2)然后所有固定鉴别器的参数,使用生成器的损失loss函数以及孪生神经网络
得到的相似度,更新生成器的参数;
[0132]
以此类推,完成600轮次的训练,学习率设置为0.0002,从而得到训练好的多级生成对抗网络。
[0133]
s106、将用户输入的文本,输入训练好的多级生成对抗网络,生成与输入文本对应的图像。
[0134]
用户只需要将文本输入训练好的多级生成对抗网络,就可以生成对应的目标图像,无需再使用鉴别器、图像标注网络以及孪生神经网络。
[0135]
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
[0136]
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0137]
实施例2:
[0138]
如图5所示,本实施例提供了一种文本生成图像的装置,该装置包括文本图像对获取模块501、预测图像生成模块502、预测文本生成模块503、相似度计算模块504、多级生成对抗网络训练模块505和文本生成图像模块506,其中:
[0139]
文本图像对获取模块501,用于获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
[0140]
预测图像生成模块502,用于将所述原始文本输入多级生成对抗网络,得到对应的图像;
[0141]
预测文本生成模块503,用于将所述对应的图像输入训练好的图像标注网络,生成预测文本;
[0142]
相似度计算模块504,用于将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
[0143]
多级生成对抗网络训练模块505,用于根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
[0144]
文本生成图像模块506,用于将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。
[0145]
本实施例中各个模块的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0146]
实施例3:
[0147]
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图6所示,其通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口 605,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质606和内存储器607,该非易失性存储介质606存储有操作系统、计算机程序和数据库,该内存储器607为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器602 执行存储器存储的计算机
程序时,实现上述实施例1的文本生成图像的方法,如下:
[0148]
获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
[0149]
将所述原始文本输入多级生成对抗网络,得到对应的图像;
[0150]
将所述对应的图像输入训练好的图像标注网络,生成预测文本;
[0151]
将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
[0152]
根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
[0153]
将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。
[0154]
实施例4:
[0155]
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的文本生成图像的方法,如下:
[0156]
获取数据库中的文本图像对;其中,所述文本图像对包括文本和图像,文本为图像的描述性文本,作为原始文本;
[0157]
将所述原始文本输入多级生成对抗网络,得到对应的图像;
[0158]
将所述对应的图像输入训练好的图像标注网络,生成预测文本;
[0159]
将所述预测文本与所述原始文本输入训练好的孪生神经网络,得到预测文本与原始文本间的相似度;
[0160]
根据所述预测文本与原始文本间的相似度,训练所述多级生成对抗网络,得到训练好的多级生成对抗网络;
[0161]
将用户输入的文本,输入所述训练好的多级生成对抗网络,生成与所述文本对应的图像。
[0162]
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑ꢀ
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0163]
综上所述,本发明构建的多级生成对抗网络主要包括生成器、鉴别器以及注意力机制模块,生成器用于生成对应的图像,鉴别器用于判断生成图像是否为真实图像,注意力机制用于获取低层级生成器生成图像的带注意力特征图;文本对齐主要包括图像标注网络以及孪生神经网络,图像标注网络将生成器产生的图像作为输入,输出该图像对应的描述性文本,孪生神经网络用于计算两种文本数据之间的相似程度:将生成对抗网络原始输入文本与图像标注网络输出的文本分别作为孪生神经网络的两个输入,得出两个文本间的相似程度,即文本对齐程度,利用该对齐程度更新生成对抗网络参数。与现有技术相比,本发
明能够提高生成图像与文本间的语义一致性。
[0164]
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1