一种基于BERT的图像描述扩散生成方法

文档序号：36003824发布日期：2023-11-16 18:23阅读：25来源：国知局

本发明属于图像描述生成，具体涉及一种基于多维度信息交互的视频特征提取方法。

背景技术：

1、随着生成式ai的井喷式发展，扩散模型(diffusion model)在计算机视觉领域掀起轩然大波。然而在文本生成领域扩散模型未能撼动自回归模型的地位。其原因主要是相比于图像在像素层面做连续的扩散加噪声，文本信息在计算机中一般用离散的整数表示，直接添加噪声会破坏语义。

技术实现思路

1、针对离散文本信息无法耦合扩散模型的问题，本发明提供了一种基于bert的图像描述扩散生成方法。

2、一种基于bert的图像描述扩散生成方法，包括步骤如下：

3、步骤1：获取训练数据集；

4、步骤2：搭建文本自编码模型ma。

5、步骤3：训练文本自编码模型ma；

6、步骤4：构建扩散模型md；

7、扩散模型md包括一个视觉编码器以及一个文本解码器。

8、步骤5：训练扩散模型md；

9、步骤6：联合推理；

10、进一步的，所述的训练数据集采用现有的mscoco2014数据集；

11、进一步的，步骤2具体方法如下：

12、ma由bert和自回归transformer decoder组成。它将文本编码成隐藏状态，再将隐藏状态用自回归的方式预测为输入的文本。具体流程表示如下：

13、h＝bert(t)

14、tout＝td(h)

15、其中td表示现有的自回归transformer decoder。t表示原始文本，tout表示预测文本。bert自带将文本序列填充到统一长度的功能。h表示文本特征。

16、进一步的，步骤3具体方法如下：

17、文本自编码模型ma的损失采用交叉熵损失函数，对于每一个时间步骤输出的tout，与t计算交叉熵损失。公式表示如下：

18、la＝crossentropy(tout,t)

19、la表示为文本自回归模型的损失函数。随后使用0.001的学习率训练ma20000次迭代。

20、进一步的，步骤4具体方法如下：

21、扩散模型md包括一个视觉编码器以及一个文本解码器。

22、视觉编码器包含一个resnet50卷积网络以及一个transformer encoder。首先通过resnet50卷积网络从输入的条件图像中提取7x7的视觉特征图，并用transformerencoder获得细粒度的视觉特征表达。

23、

24、

25、其中，i表示输入的条件图像，即生成的图像描述以此图像为条件。表示resnet50卷积网络所提取的图像特征图。fv表示细粒度的视觉特征表达。

26、文本解码器是一个不带有mask的非自回归transformer decoder。它的target输入是t时刻的分布采样xt，src输入是fv。输出则是对原始的文本特征h的预测，记作

27、进一步的，步骤5具体方法如下：

28、训练时，首先使用文本自编码模型ma中的bert，将文本标注编码成连续的文本特征h，此过程中bert对文本序列进行了填充操作使得模型能够批量计算。随后在h的基础上应用扩散模型md。遵循ddim的加噪声策略，在h上添加对应于时刻t的高斯噪声∈t，t是一个在0到1之间的随机数。∈t是对于加噪步骤t的一个标准差单调递增的噪声函数，它将返回一个高斯噪声。至此获得了每一个加噪步骤对应的采样分布ht。

29、随后根据扩散步骤t，采样分布ht来预测目标是使和h之间的距离尽量的小。最小化mse损失函数来监督md模型的训练。

30、

31、设置学习率为0.01，训练md20000次迭代，每进行2000次迭代下调学习率为当前的一半。

32、进一步的，步骤6具体方法如下：

33、将训练好的文本自编码模型ma和扩散模型md进行结合。文本自编码模型ma负责文本与文本特征之间的交互，扩散模型md负责在文本特征的隐空间中生成。在推理阶段，给定图像i，使用resnet50推理它的特征图并将它编码为视觉特征fv。给定视觉特征fv和一个完全高斯噪声h1，即t＝1时的噪声分布，推理t＝0.99时的噪声分布h0.99。随后，给定图像i和h0.99，推理t＝0.98时的噪声分布h0.98，以此类推，直到预测t＝0时的噪声分布h0，将其作为md的推理结果。随后h0送入ma中推理图像描述文本。过程能够描述为下面的公式：

34、

35、

36、h0＝ddimr(md,ht,t)

37、

38、其中表示预测得到的图像描述，而ddimr表示ddim中的逆扩散采样算法。

39、本发明有益效果如下：

40、1.将bert编码器引入扩散模型，将文本信息编码成连续的形式。

41、2.使用额外的文本生成网络，使用自回归方式生成预测文本。

42、3.结合了自回归和扩散模型的优势。

技术特征：

1.一种基于bert的图像描述扩散生成方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种基于bert的图像描述扩散生成方法，其特征在于，步骤2具体方法如下：

3.根据权利要求2所述的一种基于bert的图像描述扩散生成方法，其特征在于，步骤3具体方法如下：

4.根据权利要求3所述的一种基于bert的图像描述扩散生成方法，其特征在于，步骤4具体方法如下：

5.根据权利要求4所述的一种基于bert的图像描述扩散生成方法，其特征在于，步骤5具体方法如下：

6.根据权利要求5所述的一种基于bert的图像描述扩散生成方法，其特征在于，步骤6具体方法如下：

7.根据权利要求1所述的一种基于bert的图像描述扩散生成方法，其特征在于，所述的训练数据集采用现有的mscoco2014数据集。

技术总结
本发明公开了一种基于BERT的图像描述扩散生成方法，包括步骤如下：步骤1：获取训练数据集；步骤2：搭建文本自编码模型M<subgt;A</subgt;；步骤3：训练文本自编码模型M<subgt;A</subgt;；步骤4：构建扩散模型M<subgt;D</subgt;；步骤5：训练扩散模型M<subgt;D</subgt;；步骤6：联合推理。将训练好的文本自编码模型M<subgt;A</subgt;和扩散模型M<subgt;D</subgt;进行结合。本发明将bert编码器引入扩散模型，将文本信息编码成连续的形式，使用额外的文本生成网络，使用自回归方式生成预测文本；结合了自回归和扩散模型的优势。

技术研发人员：颜成钢,金裕达,丁贵广,付莹,郭雨晨,赵思成,孙垚棋,朱尊杰,高宇涵,王鸿奎,赵治栋,殷海兵,王帅,张继勇,李宗鹏,沙雏淋,李晓林
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜成钢金裕达丁贵广付莹郭雨晨赵思成孙垚棋朱尊杰高宇涵王鸿奎赵治栋殷海兵王帅张继勇李宗鹏沙雏淋李晓林
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：一种纸巾加工时不间断上料装置的制作方法
上一篇：一种RUNX2基因不表达的异种移植供体猪及制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。