元学习视觉语言理解与定位方法

文档序号:36169838发布日期:2023-11-24 02:41阅读:35来源:国知局
元学习视觉语言理解与定位方法

本发明属于多模态视觉语言理解与定位,尤其涉及一种元学习视觉语言理解与定位方法。


背景技术:

1、视觉语言理解与定位(visual grounding,vg)是指通过自然语言表达来准确定位图像中的目标区域或对象。简单来说,就是通过输入一张图片和对应的物体文本描述,输出被描述物体在图片中的定位框坐标。在视觉语言理解与定位任务中,被描述的物体通常由文本描述中的一个或多个信息片段来指定。信息可能包括物体对象属性、外观属性和视觉关系上下文等。视觉语言理解与定位任务结合了计算机视觉和自然语言理解,以增强图像的理解和分析能力。此外,它还支持诸如图像描述生成、图像文本检索和视觉语言问答等应用。总的来说,视觉语言理解与定位技术在推动计算机视觉和自然语言理解结合的众多领域的发展中起着至关重要的作用,具有重要的研究意义。

2、近年来,诸多深度视觉语言理解与定位方法已经被探索出来,它们借助于神经网络提取出图片的视觉特征及对应图片中物体的文本描述的语言特征,再经过特征融合生成最后的定位框。这些方法主要分为三类:两阶段方法、一阶段方法和基于transformer的方法两阶段方法模型在初始阶段生成候选框区域,在随后的阶段将这些候选框与文本描述进行匹配,然后对候选框进行排序选择最终的定位框,但在这类方法中候选框的排序和选择需要较大的计算量,且无法穷尽所有可能即得到的候选框也是次优的。一阶段方法直接将文本描述与图像特征融合,并直接预测边界框来定位提到的对象,通过对可能的目标位置进行密集采样,减少区域建议上的冗余计算,相比于两阶段方法,一阶段方法在计算量上有了较大程度地减少,但是其仍然是基于通用的对象检测器,推断过程依赖于所有可能的候选区域的预测结果,这使得性能受到预测建议的质量或预定义锚框配置的限制。此外,不管是两阶段方法还是一阶段方法,实质上都是将候选对象表示为区域特征(对应于预测的建议)或点特征(密集锚框的特征),以与文本描述的语言特征进行匹配或融合,这种特征表示可能对捕捉文本描述中提到的详细视觉概念或上下文的灵活性较差,这种不灵活性增加了识别目标对象的困难。随着基于注意力机制的transformer模型的发展,现在的视觉语言理解与定位方法已经基于transformer实现了对定位框坐标进行直接回归,在基于transformer的视觉语言理解与定位方法中,transformer模型的核心组件注意力层在视觉和语言输入之间建立模态内部和模态间的对应关系,直接利用深度模型将跨模态数据回归成一个定位框。然而,不管是两阶段方法、一阶段方法还是最近的基于transformer的方法,都会在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,极大地影响了视觉语言理解与定位模型的定位精度。


技术实现思路

1、针对现有技术中的上述不足,本发明提供的一种元学习视觉语言理解与定位方法,解决了视觉语言理解与定位任务训练时的收敛慢、训练不稳定问题以及在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题。

2、为了达到以上目的,本发明采用的技术方案为:

3、本方案提供一种元学习视觉语言理解与定位方法,包括以下步骤:

4、s1、在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;

5、s2、根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片-文本描述样本对;

6、s3、构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;

7、s4、利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;

8、s5、利用优化后的元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,输出被描述物体在图片中的定位框。

9、本发明的有益效果是:本发明基于随机不相关训练机制对元学习视觉语言理解与定位训练模型的内层和外层进行循环训练优化,并利用优化后的元学习视觉语言理解与定位训练模型输出测试图片-文本描述样本对中被描述物体在图片中的定位框。本发明提出了一种随机不相关的训练机制,使得元学习视觉语言理解与定位训练模型能直接在视觉语言理解与定位数据集上进行元学习迭代训练,提高了模型的泛化能力;利用元学习迭代训练加快了视觉语言理解与定位模型的收敛速度,提高了元学习视觉语言理解与定位模型训练时的稳定性。本发明解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题。

10、进一步地,所述支持集和查询集的表达式分别如下:

11、;

12、;

13、其中,和分别表示元学习在第 i轮迭代训练中的支持集和查询集,和分别表示支持集和查询集中的第 k个输入图片,和分别表示支持集和查询集中与第 k个输入图片对应的文本描述, k的取值为1至,表示元学习中每一轮迭代训练中的批次大小。

14、上述进一步方案的有益效果是:本发明通过随机不相关的元学习数据划分机制划分得到元学习的支持集和查询集,并直接在视觉语言理解与定位数据集上进行元学习迭代训练,利用元学习的支持集和查询集,视觉语言理解与定位模型可以进行后续的元学习过程。

15、再进一步地,所述s2包括以下步骤:

16、s201、利用视觉transformer网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于bert的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;

17、s202、利用视觉语言transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;

18、s203、利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;

19、s204、基于s203的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型。

20、上述进一步方案的有益效果是:利用视觉transformer网络和基于bert的网络分别作为元学习视觉语言理解与定位训练模型的视觉分支和语言分支,提取得到输入图片的视觉特征和对应文本描述的语言特征,再利用视觉语言transformer网络将所述图片的视觉特征和文本描述的语言特征进行融合并进行跨模态推理,直接回归出预测定位框的坐标,利用损失函数计算训练损失和利用随机梯度下降法不断迭代优化元学习视觉语言理解与定位训练模型。

21、再进一步地,所述图片的视觉特征和文本描述的语言特征的表达式分别如下:

22、;

23、;

24、其中,和分别表示图片的视觉特征和文本描述的语言特征,表示视觉transformer网络,表示基于bert的网络,表示图片-文本描述样本对中的图片,表示与对应的文本描述。

25、上述进一步方案的有益效果是:提取的图片的视觉特征和对应文本描述的语言特征,为后续的特征融合及跨模态推理过程提供了基础。

26、再进一步地,所述预测定位框的表达式如下:

27、;

28、其中,表示预测定位框,其形式为,分别表示预测定位框中心点的横坐标和纵坐标,分别表示预测定位框的宽和高,和分别表示图片的视觉特征和文本描述的语言特征,表示用于融合和的视觉语言transformer网络。

29、上述进一步方案的有益效果是:得到的预测定位框可以与真实定位框一起在后续过程中作为损失函数的输入计算训练损失。

30、再进一步地,所述元学习视觉语言理解与定位训练模型的损失函数的表达式如下:

31、;

32、其中,表示元学习视觉语言理解与定位训练模型的损失函数,表示图片-文本描述样本对的真实定位框,表示图片-文本描述样本对中的图片,表示与对应的文本描述,表示预测定位框,其形式为,分别表示预测定位框中心点的横坐标和纵坐标,分别表示预测定位框的宽和高,表示真实定位框和预测定位框重叠的区域面积,表示真实定位框和预测定位框的面积之和,表示真实定位框和预测定位框的最小外接矩形的面积。

33、上述进一步方案的有益效果是:利用上述的损失函数公式对预测定位框和真实定位框计算损失,该损失函数不仅关注预测定位框和真实定位框的重叠区域,还关注其他的非重合区域,能更好地反映预测定位框和真实定位框的重合度,更准确地反应模型的训练损失。

34、再进一步地,所述对基础学习器的参数进行更新,其表达式如下:

35、;

36、其中,表示第 i轮元学习内层循环训练更新后的基础学习器参数,表示基础学习器第 i轮元学习迭代训练中的元学习视觉语言理解与定位训练模型参数,表示元学习的内层循环训练学习率,表示元学习视觉语言理解与定位训练模型的损失函数,表示第 i轮元学习迭代训练中的支持集,表示微分计算。

37、上述进一步方案的有益效果是:本发明通过内层循环训练使基础学习器能够学习到更具有泛化能力的特征表示和模型参数,从而提高在视觉语言理解与定位任务上的泛化能力。

38、再进一步地,所述反向优化元学习视觉语言理解与定位训练模型的权重参数的表达式如下:

39、;

40、;

41、其中,表示元学习视觉语言理解与定位训练模型的权重参数,表示外层循环训练的学习率,表示元学习迭代训练的总次数,表示第 i轮元学习内层循环训练更新后的基础学习器参数,表示第 i轮元学习迭代训练中的查询集,表示元学习的内层循环训练学习率,表示第 i轮元学习中迭代训练集中的支持集,表示元学习视觉语言理解与定位训练模型的损失函数,表示微分计算,表示参数更新的量。

42、上述进一步方案的有益效果是:本发明通过元学习外层循环训练使元学习器能够快速地优化视觉语言理解与定位模型的参数,加快收敛速度,同时使训练更稳定。

43、再进一步地,所述定位框的坐标的表达式如下:

44、;

45、其中,表示定位框的坐标,其形式为,分别表示定位框中心点的横坐标和纵坐标,分别表示定位框的宽和高,表示优化后的元学习视觉语言理解与定位训练模型,表示输入优化后的元学习视觉语言理解与定位训练模型进行测试的图片-文本描述样本对,表示测试图片,表示与对应的文本描述。

46、上述进一步方案的有益效果是:通过迭代优化得到的最优元学习视觉语言理解与定位训练模型编码测试图片-文本描述样本对,能够输出文本描述中被描述物体在图片中的定位框。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1