一种基于BERT的图像描述扩散生成方法

文档序号:36003824发布日期:2023-11-16 18:23阅读:25来源:国知局
一种基于BERT的图像描述扩散生成方法

本发明属于图像描述生成,具体涉及一种基于多维度信息交互的视频特征提取方法。


背景技术:

1、随着生成式ai的井喷式发展,扩散模型(diffusion model)在计算机视觉领域掀起轩然大波。然而在文本生成领域扩散模型未能撼动自回归模型的地位。其原因主要是相比于图像在像素层面做连续的扩散加噪声,文本信息在计算机中一般用离散的整数表示,直接添加噪声会破坏语义。


技术实现思路

1、针对离散文本信息无法耦合扩散模型的问题,本发明提供了一种基于bert的图像描述扩散生成方法。

2、一种基于bert的图像描述扩散生成方法,包括步骤如下:

3、步骤1:获取训练数据集;

4、步骤2:搭建文本自编码模型ma。

5、步骤3:训练文本自编码模型ma;

6、步骤4:构建扩散模型md;

7、扩散模型md包括一个视觉编码器以及一个文本解码器。

8、步骤5:训练扩散模型md;

9、步骤6:联合推理;

10、进一步的,所述的训练数据集采用现有的mscoco2014数据集;

11、进一步的,步骤2具体方法如下:

12、ma由bert和自回归transformer decoder组成。它将文本编码成隐藏状态,再将隐藏状态用自回归的方式预测为输入的文本。具体流程表示如下:

13、h=bert(t)

14、tout=td(h)

15、其中td表示现有的自回归transformer decoder。t表示原始文本,tout表示预测文本。bert自带将文本序列填充到统一长度的功能。h表示文本特征。

16、进一步的,步骤3具体方法如下:

17、文本自编码模型ma的损失采用交叉熵损失函数,对于每一个时间步骤输出的tout,与t计算交叉熵损失。公式表示如下:

18、la=crossentropy(tout,t)

19、la表示为文本自回归模型的损失函数。随后使用0.001的学习率训练ma20000次迭代。

20、进一步的,步骤4具体方法如下:

21、扩散模型md包括一个视觉编码器以及一个文本解码器。

22、视觉编码器包含一个resnet50卷积网络以及一个transformer encoder。首先通过resnet50卷积网络从输入的条件图像中提取7x7的视觉特征图,并用transformerencoder获得细粒度的视觉特征表达。

23、

24、

25、其中,i表示输入的条件图像,即生成的图像描述以此图像为条件。表示resnet50卷积网络所提取的图像特征图。fv表示细粒度的视觉特征表达。

26、文本解码器是一个不带有mask的非自回归transformer decoder。它的target输入是t时刻的分布采样xt,src输入是fv。输出则是对原始的文本特征h的预测,记作

27、进一步的,步骤5具体方法如下:

28、训练时,首先使用文本自编码模型ma中的bert,将文本标注编码成连续的文本特征h,此过程中bert对文本序列进行了填充操作使得模型能够批量计算。随后在h的基础上应用扩散模型md。遵循ddim的加噪声策略,在h上添加对应于时刻t的高斯噪声∈t,t是一个在0到1之间的随机数。∈t是对于加噪步骤t的一个标准差单调递增的噪声函数,它将返回一个高斯噪声。至此获得了每一个加噪步骤对应的采样分布ht。

29、随后根据扩散步骤t,采样分布ht来预测目标是使和h之间的距离尽量的小。最小化mse损失函数来监督md模型的训练。

30、

31、设置学习率为0.01,训练md20000次迭代,每进行2000次迭代下调学习率为当前的一半。

32、进一步的,步骤6具体方法如下:

33、将训练好的文本自编码模型ma和扩散模型md进行结合。文本自编码模型ma负责文本与文本特征之间的交互,扩散模型md负责在文本特征的隐空间中生成。在推理阶段,给定图像i,使用resnet50推理它的特征图并将它编码为视觉特征fv。给定视觉特征fv和一个完全高斯噪声h1,即t=1时的噪声分布,推理t=0.99时的噪声分布h0.99。随后,给定图像i和h0.99,推理t=0.98时的噪声分布h0.98,以此类推,直到预测t=0时的噪声分布h0,将其作为md的推理结果。随后h0送入ma中推理图像描述文本。过程能够描述为下面的公式:

34、

35、

36、h0=ddimr(md,ht,t)

37、

38、其中表示预测得到的图像描述,而ddimr表示ddim中的逆扩散采样算法。

39、本发明有益效果如下:

40、1.将bert编码器引入扩散模型,将文本信息编码成连续的形式。

41、2.使用额外的文本生成网络,使用自回归方式生成预测文本。

42、3.结合了自回归和扩散模型的优势。



技术特征:

1.一种基于bert的图像描述扩散生成方法,其特征在于,包括步骤如下:

2.根据权利要求1所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤2具体方法如下:

3.根据权利要求2所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤3具体方法如下:

4.根据权利要求3所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤4具体方法如下:

5.根据权利要求4所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤5具体方法如下:

6.根据权利要求5所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤6具体方法如下:

7.根据权利要求1所述的一种基于bert的图像描述扩散生成方法,其特征在于,所述的训练数据集采用现有的mscoco2014数据集。


技术总结
本发明公开了一种基于BERT的图像描述扩散生成方法,包括步骤如下:步骤1:获取训练数据集;步骤2:搭建文本自编码模型M<subgt;A</subgt;;步骤3:训练文本自编码模型M<subgt;A</subgt;;步骤4:构建扩散模型M<subgt;D</subgt;;步骤5:训练扩散模型M<subgt;D</subgt;;步骤6:联合推理。将训练好的文本自编码模型M<subgt;A</subgt;和扩散模型M<subgt;D</subgt;进行结合。本发明将bert编码器引入扩散模型,将文本信息编码成连续的形式,使用额外的文本生成网络,使用自回归方式生成预测文本;结合了自回归和扩散模型的优势。

技术研发人员:颜成钢,金裕达,丁贵广,付莹,郭雨晨,赵思成,孙垚棋,朱尊杰,高宇涵,王鸿奎,赵治栋,殷海兵,王帅,张继勇,李宗鹏,沙雏淋,李晓林
受保护的技术使用者:杭州电子科技大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1