本发明涉及图像描述文本生成,具体涉及一种结合记忆网络和扩散网络的图像到长文本生成方法。
背景技术:
1、图像到文本的生成指的是自动生成描述图像的文本内容。现有的方法主要集中在生成短文本,无法生成足够全面和完整的文本内容,往往难以处理需要用长文本来描述丰富和多样化的视觉内容的复杂场景。
2、本发明提出一种语义记忆指导的扩散网络,来用于图像到长文本的生成,本发明从视觉内容中捕获显著的语义,并通过记忆网络进一步处理和增强,从而促进文本生成过程。
技术实现思路
1、为解决上述技术问题,本发明提供一种结合记忆网络和扩散网络的图像到长文本生成方法,本发明使用语义概念在图像到文本生成过程中传输基本的语义信息,并通过语义记忆网络来增强语义概念表示,以提供精确地控制,引导扩散网络生成全面而连贯的长文本。
2、为解决上述技术问题,本发明采用如下技术方案:
3、一种结合记忆网络和扩散网络的图像到长文本生成方法,对于给定图像产生描述文本,具体包括以下步骤:
4、步骤一,利用视觉编码器提取图像的视觉特征:
5、;
6、其中,表示图像中的第个图像块,表示图像中的图像块数量,表示的是串联操作,表示视觉编码器;
7、步骤二,利用语义概念预测器处理视觉特征,得到图像的语义特征向量:
8、;
9、其中,表示语义概念预测器;
10、步骤三,通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强,得到加强语义特征向量;语义条件记忆网络包括个记忆向量;
11、记忆查询过程包括:将语义特征向量和记忆向量映射到同一语义空间,得到向量和向量:,,和为可学习的线性转换矩阵;计算向量和向量之间的距离:,表示各记忆向量的维度;计算重要性权重:;
12、记忆回应过程包括:将向量和语义特征向量映射到同一个语义空间,得到向量:,为可学习的线性转换矩阵;通过重要性权重得到回应向量表示:;通过回应向量和语义特征向量,得到要传递给扩散解码器的加强语义特征向量:,表示正则化操作;
13、步骤四:利用扩散解码器处理视觉特征和加强语义特征向量,生成描述文本。
14、进一步地,步骤四具体包括:
15、用高斯噪声初始化,并进行迭代降噪得到:
16、;
17、其中,表示总迭代次数,和分别表示在第次迭代和第次迭代时产生的特征向量,表示经过降噪过程产生的最终特征向量;
18、对进行解码操作,得到描述文本:
19、;
20、其中表示解码操作。
21、与现有技术相比,本发明的有益技术效果是:
22、1.本发明使用语义概念作为中间媒介,在图像到文本生成过程中传输语义信息,并利用语义概念预测器来捕获这些信息。
23、2.通过语义条件记忆网络,使用在最相关的记忆向量中存储的特定图像-文本相关信息来增强语义概念的表示,以提供对扩散网络精确的控制,促进长文本生成过程。
24、3.将外部语义引导整合到扩散网络,进一步提升扩散网络生成全面而连贯的长文本的能力。
1.一种结合记忆网络和扩散网络的图像到长文本生成方法,对于给定图像产生描述文本,具体包括以下步骤:
2.根据权利要求1所述的结合记忆网络和扩散网络的图像到长文本生成方法,其特征在于,步骤四具体包括: