基于带有主题约束的区域强化网络的图像-文本匹配方法与流程

文档序号:23305650发布日期:2020-12-15 11:35阅读:195来源:国知局
基于带有主题约束的区域强化网络的图像-文本匹配方法与流程

本发明属于图像-文本匹配的方法,涉及计算机视觉和自然语言处理的技术领域。



背景技术:

图像-文本匹配的关键问题是度量图像和文本之间的语义相似度。现有的匹配方法大致可以归结为两类:全局语义匹配方法和局部语义匹配方法。前者将整个图像和文本作为研究对象,学习它们的对应关系;后者通过将视觉区域与文本单词对齐来推断出图像内容的相似性。

全局语义匹配方法将图像和文本投影到一个公共空间中,在全局范围内学习对应关系。作为一项开创性的工作,kiros等人分别采用cnn和lstm对图像和文本表示进行学习,从而学习一个三联体秩损失的联合嵌入空间。在此基础上,wu等人提出了一种保留双向相对相似度的在线学习方法来学习图像文本对应关系。然而,它们没有考虑单一模态的特性分布。因此,zheng等人提出了一种用于视觉文本嵌入学习的双路径cnn模型,并增加了实例丢失损失以考虑模态内数据分布。有些工作侧重于优化函数的改进。例如,vendrov等人提出了一个学习有序表示的目标函数,它保留了视觉-语义层次的部分有序结构。zhang等人通过一种跨模态投影分类损失和一种跨模态投影匹配损失进一步提高了学习区分图像-文本嵌入的能力。然而,像素级图像的表示往往缺乏高层次的语义信息。huang等人提出学习语义概念,并按照正确的语义顺序组织它们,以提高图像的表示。同时,li等人通过捕获对象及其语义关系来推理视觉表示。这些研究虽然在图像文本对齐方面取得了很大的进展,但缺乏对图像文本对的局部精细分析。

局部语义匹配方法的目的是实现局部语义匹配,寻找视觉区域与文本词语之间的对应关系。首先由karpathy等人提出,通过计算所有区域单词对的相似性来了解它们之间的关系。但各区域单词对在计算全局相似度得分时的重要性不同。近年来,许多研究者基于注意力机制设计嵌入网络,选择性地聚焦于区域或单词来学习对应信息。最典型的作品之一是nam等人提出的双重注意力网络,通过多个步骤共同定位关键区域和单词。类似地,ji等人引入显著性模型来定位显著区域,从而增强了图像-句子匹配的视觉表征的辨别能力。根据这一思路,wang等人提出了一种根据上下文调整注意力的方法,并使用多模态lstm顺序聚合局部相似度。ding等人提出了一种带有反复注意力记忆的迭代匹配方法,通过多步比对来获取图像和文本之间的对应关系。除此之外,lee等人设计了堆叠交叉注意力网络,通过关注与区域相关的单词或与单词相关的区域来推断图像-文本匹配。

然而,图像区域的处理是平等的,没有考虑其不同的复杂性。此外,仅通过细粒度对齐来推断的图像文本匹配很可能会使原始图像的真实含义扭曲,从而导致匹配错位。与现有的方法不同,我们采用区域强化网络来细化细粒度的区域单词对齐。此外,我们提出了主题约束模块来总结图像的中心主题,约束图像的原始语义偏差。



技术实现要素:

本发明的目的是为了解决在基于堆叠注意力机制的图像文本匹配方法中,很少考虑图像中不同区域的关系,对所有区域一视同仁。并且,过于关注区域单词对的对齐,可能会使原始图像的真实含义扭曲的问题。

本发明为解决上述技术问题采取的技术方案是:

s1.构建图像的区域强化模块,根据区域对图像的贡献度赋予不同区域不同的权重。

s2.结合s1中的强化特征,根据学习的权值自适应地重新分配区域-单词对的相似性。

s3.构建图像主题约束模块,总结图像的中心主题约束原始图像的语义偏离。

s4.结合s2中的网络和s3中的网络构建基于带有主题约束的区域强化网络架构。

s5.基于带有主题约束的区域强化网络的训练和图像-文本匹配。

首先,对于局部特征x∈rd×m,我们首先在水平维度上应用平均池化和最大池化操作,然后将它们连接,通过卷积操作以生成一个有效的特征。

其中,σ指的是sigmoid函数,f表示一个卷积运算。

然后将嵌入到两个新的特征图中,其中f,g∈rd×m,然后计算区域的注意力权值。

其中,ηij测量第j个位置对第i个位置的影响。m表示图像中区域的个数,如果两个区域的特征表示越相似,那它们之间的相关性越大,对图像的意义也越大。最后,区域增强模块的输出为:

其中,该方法挖掘了图像中不同区域的权值,强化了图像的表示能力。此外,区域强化模块也可以作为一种自适应区分区域-词相似性的权重分配方案。

本发明的细粒度对齐对区域和单词有不同的关注,这两个区域在推断相似度时互为上下文。因此,跨模态注意力机制可分为图像-文本(i2t)和文本-图像(t2i)两类注意力模块。与分别采用i2t和t2i注意力机制的方法不同,我们将它们相加以获得更充分的局部对准。

对于i2t注意力模块:

首先,我们推断出所有单词对每个区域的重要性,然后确定图像区域对句子的重要性。为实现这一目标,计算区域-单词对的相似度矩阵:

每个单词对第i-th个区域的权重表示为:

式中,αit为控制注意分布平整度的比例因子。文本级注意力特征li是通过单词表示的加权组合得到的:

然后将每个区域的li作为上下文,计算第i个区域与相应文本水平向量的相关性:

图像x与句子y的相似度计算为:

对于t2i注意力模块:

同样,我们先推断出所有区域对每个单词的重要性,然后确定每个单词对图像注意力向量的重要性。使用下式测量所有区域单词对的相似度矩阵sti。

每个区域对第t个单词的权值表示为

式中,αti为控制注意力分布平整度的比例因子。图像级注意力特征lt是通过图像区域特征的加权组合得到的:

然后将每个单词的lt作为上下文,计算第t个单词与相应图像区域水平向量的相关性:

图像x与句子y的相似度计算为:

最后,综合2个方向计算图像x与文本y的视觉-语义相似度:

r(x,y)=ri2t(x,y)+rt2i(x,y)(14)

主题约束模块的目的是对图像主题进行总结,约束图像原始信息的语义偏差,从而帮助模型正确理解图像。具体地说,给定一个局部特征x∈rd×m,我们首先使用平均池化和最大池化操作聚合特征图的区域信息,生成两个不同的上下文描述符:xavg和xmax。然后,对输出的特征向量进行元素级求和。计算主题注意力权重:

θ=σ(f([xavg+xmax]))(15)

其中,σ指的是sigmoid函数,f表示一个卷积运算。关注的主题集中在“什么”对一个图像是有意义的。然后生成主题特性,如下所示:

表示element-wise乘法。为了细化主题特征,避免原特征出现偏差,我们对主题特征i进行如下更新:

gi=sigmoid(wgbi+bg)(17)

oi=tanh(wobi+bo)(18)

其中wg、wo、bg、bo为学习后的参数矩阵。gi用来选择最突出的信息。最后,在隐藏状态i中逐步更新整幅图像的主题表示,通过得到最终的主题特征:

i=gru(gi*xi+(1-gi)*oi)(19)

对主题约束模块进行处理后,对图像i的主题进行总结,约束了原始特征的偏移。对于文本,我们使用一个文本编码器将文本句子映射到与i具有相同维数的语义向量空间t∈rd,然后计算图像和文本的相似度得分。

所述的基于带有主题约束的区域强化网络的图像-文本匹配方法包含一个区域强化模块、一个主题约束模块和一个带有主题约束的区域强化网络。

最终,所述的基于带有主题约束的区域强化网络的训练方法如下:

在我们的实现中,所有的实验都是使用python3.6版本的pytorch框架实现的,实验是在一台拥有nvidiateslap100gpu的计算机上进行的。对于每个句子,单词嵌入大小设置为300维。使用双向gru将单词编码为1024维向量。图像预处理采用自底向上的注意力模型提取区域特征,每个图像特征向量设置为1024维,特征维数与文本相同。我们模型的训练采用adam优化器,在mscoco数据集上训练20个批次,在flickr30k数据集上训练30个批次。在mscoco数据集上学习率设置为0.0005,在flickr30k数据集上学习率设置为0.0002。此外,将参数设置β和ε为0.5,参数λ和μ分别设置为20和0.2。

与现有的技术相比,本发明的有益效果是:

1.本发明提出一种区域强化网络用于图像-文本匹配,根据图像中不同区域对图像的贡献度来赋予不同的权重。再根据学习到的权值自适应地重新分配区域-单词相似性,从而提高图像文本匹配准确率。

2.本发明提出一种主题约束模块,该模块总结图像的中心主题,帮助模型正确理解图像,避免图像的原始语义偏差,进一步约束图像和文本之间的对应关系。

附图说明

图1为基于带有主题约束的区域强化网络的图像-文本匹配方法的结构示意图。

图2为区域强化模块的模型示意图。

图3为具有交叉注意力的区域强化网络的模型示意图。

图4为主题约束模块的模型示意图。

图5和图6为基于带有主题约束的区域强化网络的图像-文本匹配与其他网络的图像-文本匹配在mscoco和flickr30k数据集上的结果对比图。

图7和图8为图像匹配文本和文本匹配图像的可视化结果图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制。

以下结合附图和实施例对本发明做进一步的阐述。

图1为基于带有主题约束的区域强化网络的结构示意图。如图1所示,整个图像-文本匹配的框架主要由区域强化(上)和主题约束(下)两部分组成。

图2为区域强化模块的模型示意图。如图2所示,输入局部特征x∈rd×m,我们首先在水平维度上应用平均池化和最大池化操作,然后将它们连接后通过卷积操作生成一个有效的特征。

其中,σ指的是sigmoid函数,f表示一个卷积运算。然后将嵌入到两个新的特征图中,其中f,g∈rd×m,然后计算区域的注意权值。

其中,ηij测量第j个位置对第i个位置的影响。m表示图像中区域的个数,若两个区域的特征表示越相似,那它们之间的相关性越大,对图像的意义也越大。最后,区域增强模块的输出为:

其中,该方法挖掘了图像中不同区域的权值,强化了图像的表示能力。此外,区域强化模块也可以作为一种自适应区分区域-单词相似性的权重分配方案。

图3为具有交叉注意力的区域强化网络的模型示意图。如图3所示,本发明的细粒度对齐对图像区域和单词有不同的关注,这两个区域在推断相似度时互为上下文。因此,跨模态交叉注意力机制可分为图像-文本(i2t)和文本-图像(t2i)两类注意力模块。与分别采用i2t和t2i注意力机制的方法不同,我们将它们相加以获得更充分的局部对准。

对于i2t注意力模块:

首先,我们推断出所有单词对每个区域的重要性,然后确定图像区域对句子的重要性。为实现这一目标,计算区域-单词对的相似度矩阵:

每个单词对第i-th个区域的权重表示为:

式中,αit为控制注意分布平整度的比例因子。文本级注意力特征li是通过单词表示的加权组合得到的:

然后将每个区域的li作为上下文,计算第i个区域与相应文本水平向量的相关性:

图像x与句子y的相似度计算为:

对于t2i注意力模块:

同样,我们先推断出所有区域对每个单词的重要性,然后确定每个单词对图像注意力向量的重要性。使用下式测量所有区域单词对的相似度矩阵sti。

每个区域对第t个单词的权值表示为

式中,αti为控制注意分布平整度的比例因子。图像级注意力特征lt是通过图像区域特征的加权组合得到的:

然后将每个单词的lt作为上下文,计算第t个单词与相应图像区域水平向量的相关性:

图像x与句子y的相似度计算为:

最后,综合2个方向计算图像x与文本y的视觉-语义相似度:

r(x,y)=ri2t(x,y)+rt2i(x,y)(14)

图4为主题约束模块的模型示意图。如图4所示,给定一个局部特征x∈rd×m,我们首先使用平均池化和最大池化操作聚合特征图的区域信息,生成两个不同的上下文描述符:xavg和xmax。然后,对输出的特征向量进行元素级求和,计算主题注意力权重:

θ=σ(f([xavg+xmax]))(15)

其中,σ指的是sigmoid函数,f表示一个卷积运算。关注的主题集中在“什么”对一个图像是有意义的。然后生成主题特性,如下所示:

表示element-wise乘法。为了细化主题特征,避免原特征出现偏差,我们对主题特征i进行如下更新:

gi=sigmoid(wgbi+bg)(17)

oi=tanh(wobi+bo)(18)

其中wg、wo、bg、bo为学习后的参数矩阵。gi用来选择最突出的信息。最后,在隐藏状态i中逐步更新整幅图像的主题表示,通过得到最终的主题特征:

i=gru(gi*xi+(1-gi)*oi)(19)

对主题约束模块进行处理后,对图像i的主题进行总结,避免了原始特征的偏移。对于文本,我们使用一个文本编码器将文本标题映射到与i具有相同维数的语义向量空间t∈rd,然后计算图像和文本的相似度得分。

图5和图6为基于带有主题约束的区域强化网络的图像-文本匹配与其他网络的图像-文本匹配在mscoco和flickr30k数据集上的结果对比图。如图5,图6所示,基于带有主题约束的区域强化网络的图像-文本匹配结果比其他模型更加准确。

图7和图8为图像匹配文本和文本匹配图像的可视化结果图。如图7所示,给与一张图像,基于带有主题约束的区域强化网络模型可以匹配出相应的文本。如图8所示,给与文本,基于带有主题约束的区域强化网络模型可以匹配出相应的图片。

本发明提出了一种带有主题约束的区域强化网络的图像-文本匹配方法,该方法设计了区域强化网络,通过对图像区域设置不同的权重和重新分配区域-单词对的相似性来推断潜在的对应关系。并提出了一种主题约束模块,它通过总结图像的主题来约束原始图像语义的偏差。在mscoco和fliker30k数据集上的大量实验表明,该模型在图像-文本匹配方面具有积极的效果。在今后的工作中,我们将继续探索如何更好地学习图像与文本的语义对应关系。

最后,本发明的上述示例的细节仅为解释说明本发明所做的举例,对于本领域技术人员,对上述实施例的任何修改、改进和替换等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1