一种结合记忆网络和扩散网络的图像到长文本生成方法

文档序号：37183944发布日期：2024-03-01 12:45阅读：12来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像描述文本生成，具体涉及一种结合记忆网络和扩散网络的图像到长文本生成方法。

背景技术：

1、图像到文本的生成指的是自动生成描述图像的文本内容。现有的方法主要集中在生成短文本，无法生成足够全面和完整的文本内容，往往难以处理需要用长文本来描述丰富和多样化的视觉内容的复杂场景。

2、本发明提出一种语义记忆指导的扩散网络，来用于图像到长文本的生成，本发明从视觉内容中捕获显著的语义，并通过记忆网络进一步处理和增强，从而促进文本生成过程。

技术实现思路

1、为解决上述技术问题，本发明提供一种结合记忆网络和扩散网络的图像到长文本生成方法，本发明使用语义概念在图像到文本生成过程中传输基本的语义信息，并通过语义记忆网络来增强语义概念表示，以提供精确地控制，引导扩散网络生成全面而连贯的长文本。

2、为解决上述技术问题，本发明采用如下技术方案：

3、一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本，具体包括以下步骤：

4、步骤一，利用视觉编码器提取图像的视觉特征：

5、；

6、其中，表示图像中的第个图像块，表示图像中的图像块数量，表示的是串联操作，表示视觉编码器；

7、步骤二，利用语义概念预测器处理视觉特征，得到图像的语义特征向量：

8、；

9、其中，表示语义概念预测器；

10、步骤三，通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强，得到加强语义特征向量；语义条件记忆网络包括个记忆向量；

11、记忆查询过程包括：将语义特征向量和记忆向量映射到同一语义空间，得到向量和向量：，，和为可学习的线性转换矩阵；计算向量和向量之间的距离：，表示各记忆向量的维度；计算重要性权重：；

12、记忆回应过程包括：将向量和语义特征向量映射到同一个语义空间，得到向量：，为可学习的线性转换矩阵；通过重要性权重得到回应向量表示：；通过回应向量和语义特征向量，得到要传递给扩散解码器的加强语义特征向量：，表示正则化操作；

13、步骤四：利用扩散解码器处理视觉特征和加强语义特征向量，生成描述文本。

14、进一步地，步骤四具体包括：

15、用高斯噪声初始化，并进行迭代降噪得到：

16、；

17、其中，表示总迭代次数，和分别表示在第次迭代和第次迭代时产生的特征向量，表示经过降噪过程产生的最终特征向量；

18、对进行解码操作，得到描述文本：

19、；

20、其中表示解码操作。

21、与现有技术相比，本发明的有益技术效果是：

22、1.本发明使用语义概念作为中间媒介，在图像到文本生成过程中传输语义信息，并利用语义概念预测器来捕获这些信息。

23、2.通过语义条件记忆网络，使用在最相关的记忆向量中存储的特定图像-文本相关信息来增强语义概念的表示，以提供对扩散网络精确的控制，促进长文本生成过程。

24、3.将外部语义引导整合到扩散网络，进一步提升扩散网络生成全面而连贯的长文本的能力。

技术特征：

1.一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本，具体包括以下步骤：

2.根据权利要求1所述的结合记忆网络和扩散网络的图像到长文本生成方法，其特征在于，步骤四具体包括：

技术总结
本发明涉及图像描述文本生成技术领域，公开了一种结合记忆网络和扩散网络的图像到长文本生成方法，对于给定图像产生描述文本，包括以下步骤：利用视觉编码器提取图像的视觉特征；利用语义概念预测器处理视觉特征，得到图像的语义特征向量；通过语义条件记忆网络的记忆查询过程和记忆回应过程对语义特征向量进行加强，得到加强语义特征向量；利用扩散解码器处理视觉特征和加强语义特征向量，生成描述文本。本发明使用语义概念在图像到文本生成过程中传输基本的语义信息，并通过语义记忆网络来增强语义概念表示，以提供精确地控制，引导扩散网络生成全面而连贯的长文本。

技术研发人员：宋彦,刘畅,张勇东
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋彦,刘畅,张勇东
技术所有人：中国科学技术大学
我是此专利的发明人

上一篇：一种半导体发光元件的外延结构及制备方法与流程
上一篇：一种兆声波振板自动焊接装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。