本发明属于图像描述生成,具体涉及一种基于多维度信息交互的视频特征提取方法。
背景技术:
1、随着生成式ai的井喷式发展,扩散模型(diffusion model)在计算机视觉领域掀起轩然大波。然而在文本生成领域扩散模型未能撼动自回归模型的地位。其原因主要是相比于图像在像素层面做连续的扩散加噪声,文本信息在计算机中一般用离散的整数表示,直接添加噪声会破坏语义。
技术实现思路
1、针对离散文本信息无法耦合扩散模型的问题,本发明提供了一种基于bert的图像描述扩散生成方法。
2、一种基于bert的图像描述扩散生成方法,包括步骤如下:
3、步骤1:获取训练数据集;
4、步骤2:搭建文本自编码模型ma。
5、步骤3:训练文本自编码模型ma;
6、步骤4:构建扩散模型md;
7、扩散模型md包括一个视觉编码器以及一个文本解码器。
8、步骤5:训练扩散模型md;
9、步骤6:联合推理;
10、进一步的,所述的训练数据集采用现有的mscoco2014数据集;
11、进一步的,步骤2具体方法如下:
12、ma由bert和自回归transformer decoder组成。它将文本编码成隐藏状态,再将隐藏状态用自回归的方式预测为输入的文本。具体流程表示如下:
13、h=bert(t)
14、tout=td(h)
15、其中td表示现有的自回归transformer decoder。t表示原始文本,tout表示预测文本。bert自带将文本序列填充到统一长度的功能。h表示文本特征。
16、进一步的,步骤3具体方法如下:
17、文本自编码模型ma的损失采用交叉熵损失函数,对于每一个时间步骤输出的tout,与t计算交叉熵损失。公式表示如下:
18、la=crossentropy(tout,t)
19、la表示为文本自回归模型的损失函数。随后使用0.001的学习率训练ma20000次迭代。
20、进一步的,步骤4具体方法如下:
21、扩散模型md包括一个视觉编码器以及一个文本解码器。
22、视觉编码器包含一个resnet50卷积网络以及一个transformer encoder。首先通过resnet50卷积网络从输入的条件图像中提取7x7的视觉特征图,并用transformerencoder获得细粒度的视觉特征表达。
23、
24、
25、其中,i表示输入的条件图像,即生成的图像描述以此图像为条件。表示resnet50卷积网络所提取的图像特征图。fv表示细粒度的视觉特征表达。
26、文本解码器是一个不带有mask的非自回归transformer decoder。它的target输入是t时刻的分布采样xt,src输入是fv。输出则是对原始的文本特征h的预测,记作
27、进一步的,步骤5具体方法如下:
28、训练时,首先使用文本自编码模型ma中的bert,将文本标注编码成连续的文本特征h,此过程中bert对文本序列进行了填充操作使得模型能够批量计算。随后在h的基础上应用扩散模型md。遵循ddim的加噪声策略,在h上添加对应于时刻t的高斯噪声∈t,t是一个在0到1之间的随机数。∈t是对于加噪步骤t的一个标准差单调递增的噪声函数,它将返回一个高斯噪声。至此获得了每一个加噪步骤对应的采样分布ht。
29、随后根据扩散步骤t,采样分布ht来预测目标是使和h之间的距离尽量的小。最小化mse损失函数来监督md模型的训练。
30、
31、设置学习率为0.01,训练md20000次迭代,每进行2000次迭代下调学习率为当前的一半。
32、进一步的,步骤6具体方法如下:
33、将训练好的文本自编码模型ma和扩散模型md进行结合。文本自编码模型ma负责文本与文本特征之间的交互,扩散模型md负责在文本特征的隐空间中生成。在推理阶段,给定图像i,使用resnet50推理它的特征图并将它编码为视觉特征fv。给定视觉特征fv和一个完全高斯噪声h1,即t=1时的噪声分布,推理t=0.99时的噪声分布h0.99。随后,给定图像i和h0.99,推理t=0.98时的噪声分布h0.98,以此类推,直到预测t=0时的噪声分布h0,将其作为md的推理结果。随后h0送入ma中推理图像描述文本。过程能够描述为下面的公式:
34、
35、
36、h0=ddimr(md,ht,t)
37、
38、其中表示预测得到的图像描述,而ddimr表示ddim中的逆扩散采样算法。
39、本发明有益效果如下:
40、1.将bert编码器引入扩散模型,将文本信息编码成连续的形式。
41、2.使用额外的文本生成网络,使用自回归方式生成预测文本。
42、3.结合了自回归和扩散模型的优势。
1.一种基于bert的图像描述扩散生成方法,其特征在于,包括步骤如下:
2.根据权利要求1所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤2具体方法如下:
3.根据权利要求2所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤3具体方法如下:
4.根据权利要求3所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤4具体方法如下:
5.根据权利要求4所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤5具体方法如下:
6.根据权利要求5所述的一种基于bert的图像描述扩散生成方法,其特征在于,步骤6具体方法如下:
7.根据权利要求1所述的一种基于bert的图像描述扩散生成方法,其特征在于,所述的训练数据集采用现有的mscoco2014数据集。