一种基于最优传输的多模态语义对齐的视觉对话方法

文档序号:34589914发布日期:2023-06-28 16:48阅读:80来源:国知局
一种基于最优传输的多模态语义对齐的视觉对话方法

本发明涉及视觉对话的多模态,具体地说是一种基于最优传输的多模态语义对齐的视觉对话方法。


背景技术:

1、为了推动多模态理解和推理的发展,视觉对话任务被研究人员提出,其目的是根据图片以及与该图片相关的对话历史对当前给出的问题进行回答。该任务不仅可以推动多模态领域的发展,还具有很好的落地价值,比如说帮助视障人士了解周围环境或社交媒体内容,帮助分析人员根据大量的监控数据做出决策等。

2、视觉对话任务一般使用基于注意力机制的方法来融合各种模态特征,因果推断和场景图等工具也被引入注意力机制以进行多模态推理。还有一些方法试图解决对话历史中以及图片区域和文本的指代问题,这些方法通过软注意力机制隐式地学习这些指代关系。基于transformer的预训练模型也被引入到视觉对话中,其通过使用自监督的损失函数来获得融合了多模型信息的图片和文本特征,并通过视觉对话损失函数,来训练适配视觉对话的模型,在训练的过程中可以学习到粗粒度的对齐,比如对话和图片是否匹配,因此得到了次优的效果。

3、现有技术的视觉对话方法都以隐式的方式(如注意力机制)来学习模态内和模态间的语义对齐或以显式的方式学习到粗粒度的对齐(如判断图片与对话是否匹配来计算对齐损失),然而这两种对齐方式都不能很好的对齐细粒度的图片区域和文本实体。已有研究证明,显式方式的学习往往比隐式方式的学习效果更好。

4、因此,如何在视觉对话模型中显式的学习细粒度的多模态语义对齐是一个亟待研究的课题。


技术实现思路

1、本发明的目的是针对现有技术的不足而提供的一种具基于最优传输的多模态语义对齐的视觉对话方法,采用显式的模态内和模态间细粒度的语义对齐方法,提高模型对齐指向相同实体的不同文本实体和不同模态实体的能力,从而帮助模型更好的理解文本信息和回答问题,提高预测答案的正确性,能够在多种实际应用场景中的视觉对话,方法简便,使用效果好,有较高的实用价值与良好的发展前景。

2、实现本发明目的的具体技术方案是:一种具基于最优传输的多模态语义对其的视觉对话方法,其特点采用包括:多模态特征抽取、基于最优传输的文本语义对齐、基于最优传输的跨模态语义对齐和预测正确答案的视觉对话模型,在给定一张图片,一句关于该图片的描述以及过去t-1轮围绕该图片的对话历史,对于当前的第t轮的问题,视觉对话就能从答案候选集中选出正确答案,该视觉对话具体包括下述步骤:

3、1)多模态特征抽取:通过预训练的faster rcnn抽取出图片的区域特征,在该特征序列前插入所有区域特征的平均池化,最后将该特征序列作为图片端的模型输入;将图片描述、对话历史、当前问题以及答案候选集中的任一答案按顺序拼接,并以特殊字符划分边界,作为文本端模型输入。为了后续的mlm和mir任务,还将随机mask 10%的文本输入和15%的图片区域特征。最后经过two-stream transformer的编码后,得到融合了多模态信息的图片区域特征和对话文本特征其中nv代表图片端输入序列的长度,nd代表文本端输入序列的经过wordpiece tokenizer后sub-word的长度,h代表模型隐藏层的维数。

4、2)基于最优传输的文本语义对齐:通过多模态特征抽取步骤,得到了融合了图片区域特征信息的文本特征基于该特征,计算文本输入中每个词转移到其它词的代价,得到代价矩阵c,其中余弦距离被作为代价函数;最后根据代价矩阵c,计算文本到自身的wasserstein distance,wasserstein distance的定义为:其中h,g分别表示两组样本点上的权重;dw(h,g)表示从h转移到g的最小代价;π(h,g)为所有满足条件的传输计划的集合,π表示传输计划,1m和1n分别表示m维和n维全1向量。所述基于最优传输的文本语义对齐中h=g,表示文本特征d上的权重,最终得到下述(a)式表示的文本语义对齐损失,即帮助视觉对话模型对齐指代同一实体的不同实体:

5、lw=dw(h,h)     (a);

6、其中,lw表示文本语义对齐损失。该损失将帮助视觉对话模型对齐指代同一实体的不同实体。

7、3)基于最优传输的跨模态语义对齐:由于不同模态之间存在语义鸿沟,而且只考虑模态的特征信息会遇到一些问题,比如对话文本中对齐不同区域的相同的词将会由于只考虑特征信息而对齐到相同区域。因此,本发明将跨模态语义对齐任务视为图对齐任务,使用融合了多模态信息的图片区域特征和对话文本特征分别构建图片区域图和对话文本图。本发明将图对齐视为节点对齐加结构对齐(即边对齐)两部分,首先是节点对齐,使用图片区域和对话文本之间wasserstein distance距离来提供跨模态节点对齐的训练信号,该距离将帮助模型对齐文本中词和与之对应的图片区域;对于结构对齐,采用gromov-wasserstein distance,其运输成本由下述(b)式根据模态内成对节点距离确定:

8、

9、其中,dgw(h,g)即为h,g之间的gromov-wasserstein distance;lijkl=||c1(xi,xk)-c2(xj,xl)||,c1(xi,xk)和c2(xj,xl)分别表示两对在不同图的节点的相似度,lijkl用于评估不同图中结构的相似性;πij、πkl分别为点i到点j,点k到点l的传输计划。在所述结构对齐中,h和g分别表示对话文本和图片区域上的权重。

10、最终用于图片区域和对话文本之间对齐的训练信号为下述(c)式表示的两种距离加权之和:

11、lv=λdw(h,g)+(1-λ)dgw(h,g)  (c);

12、其中,lv表示跨模态语义对齐损失,λ为一个介于0和1之间的数,用于平衡节点对齐和结构对齐的占比,h和g分别表示对话文本和图片区域上的权重。

13、第一训练任务(训练模型在模态内和模态间进行细粒度语义对齐的能力):基于最优传输的文本语义对齐与基于图最优传输的跨模态语义对齐同时训练。在前向传播过程中计算相应最优传输距离,加权相加后,得到下述(d)式表示的用于最终用于帮助模型对齐文本语义和跨模态语义的损失函数la:

14、la=αlw+βlv     (d).

15、其中,α、β为加权参数,lw和lv为上述文本语义对齐损失和跨模态语义对齐损失。在反向传播过程中,该损失将指导模型更新参数以获得更好的对齐效果。

16、第二训练任务(训练模型以得到增强的多模态表征以及区分正确答案和错误答案的能力):基于得到的融合了多模态信息的特征,几种常见的多模态预训练损失函数maskedlanguage modeling(mlm),masked image region prediction(mir)以及next sentenceprediction(nsp)任务被模型用于增强不同模态的表征。其中nsp任务的含义为拼接了候选答案后,对话文本与图片是否匹配,即判断拼接的答案是否为正确答案。在反向传播过程中,该损失将帮助模型学习到区分正确答案与错误答案。在推理过程中,nsp的分数将用于找出正确答案。

17、本发明与现有技术相比具有以下有益的技术效果和显著的技术进步:

18、1)显式地提供训练信号,提高模型对齐指向相同实体的不同文本实体的能力,从而帮助模型更好的理解文本信息。

19、2)显式地提供训练信号,提高模型对齐不同模态实体的能力,从而帮助模型更好的回答问题。

20、3)基于模态内和模态间细粒度的语义对齐,提高预测答案的正确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1