一种基于视觉注意模型的图像文字描述方法与流程

文档序号:12468933阅读:185来源:国知局
一种基于视觉注意模型的图像文字描述方法与流程

本发明涉及图像识别领域,尤其是涉及了一种基于视觉注意模型的图像文字描述方法。



背景技术:

随着科技技术迅速发展,在图像识别领域,基于注意的神经编码器-解码器框架已经被广泛地用于图像文字描述,即智能识别图像内容,并自动对它用自然语言进行描述。然而,解码器可能需要图像的很少甚至没有视觉信息以预测非可视词,可能看起来可视化的其他词通常可以从语言模型可靠地预测。而如果采用基于视觉注意模型的图像文字描述方法,则可以解决自动生成的图像字幕质量不高的问题,而且它可以自动决定什么时候依赖视觉信号,什么时候只依靠语言模型。

本发明提出了一种基于视觉注意模型的图像文字描述方法,首先它采用描述人执行各种动作和在复杂场景的上下文中包含多个对象的图像数据集,每个图像配对5个人工标注的字幕;然后预处理缩短字幕长度,将数据集输入到编码器中提取空间图像特征;最后反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型,让机器执行自动生成图像字幕的任务,得到图像对应的自然语言描述结果。本发明在图像识别方面,比起基于模板的方法,其表现性能最优;它还可以帮助视觉受损的用户,并使用户易于组织和导航大量典型非结构化的视觉数据。



技术实现要素:

针对自动生成的图像字幕质量不高的问题,本发明的目的在于提供一种基于视觉注意模型的图像文字描述方法。

为解决上述问题,本发明提供一种基于视觉注意模型的图像文字描述方法,其主要内容包括:

(一)数据输入;

(二)预处理;

(三)自适应注意模型;

(四)图像字幕输出。

其中,一种基于视觉注意模型的图像文字描述方法,包括新的空间注意模型,用于提取空间图像特征;自适应注意机制,引入了一个新的长短期存储器(LSTM)扩展,产生一个额外的“视觉哨兵”向量而不是单个隐藏状态;“视觉哨兵”是解码器存储器的附加潜在表示,向解码器提供回退选项;由“视觉哨兵”进一步得到一个新的哨兵门,它决定解码器想要从图像获得多少新信息,而不是依赖于“视觉哨兵”生成下一个词。

其中,所述的数据输入,采用了场景对象数据集;场景对象数据集中的大多数图像描绘人执行各种动作,而且是在复杂场景的上下文中包含多个对象,每个图像都有5个人工标注的字幕。

其中,所述的预处理,把场景对象数据集长度超过18个字符的字幕截短;然后构建在训练集中出现至少5次和3次的词的词汇表。

其中,所述的自适应注意模型,包括编码器,空间注意模型,哨兵门和解码器;它可以自动确定什么时候依赖视觉信号,什么时候只依靠语言模型,并且当依赖于视觉信号时,模型还决定应该注意图像的哪个区域。

进一步地,所述的编码器,包括使用卷积神经网络来获得图像的表示;使用ResNet的最后卷积层的空间特征输出,其尺寸为2048×7×7;我们使用表示在k个网格位置中的每一处的空间卷积神经网络特征;通过以下方式获得全局图像特征:

其中ag是全局图像特征,为了建模方便,我们使用具有整流器激活函数的单层感知器将图像特征向量转换成具有维度d的新向量:

vi=ReLU(Waai) (2)

vg=ReLU(Wbag) (3)

其中Wa和Wg是权重参数,变换的空间图像特征形式V=[v1,…,vk]。

进一步地,所述的空间注意模型,包括该空间注意模型用于计算上下文向量Ct,定义为:

Ct=g(V,ht) (4)

其中g是注意函数,是空间图像特征,每个空间图像特征是与图像的一部分相对应的d维表示;ht是递归神经网络在时间t的隐藏状态;

给定LSTM的空间图像特征和隐藏状态我们通过单层神经网络,接着是softmax函数来反馈它们,以产生图像的k个区域上的注意分布:

αt=softmax(zt) (6)

其中是所有元素都设置为1的向量;和是要学习的参数;是V中特征的注意权重;基于注意分布,可以通过以下公式获得上下文向量Ct

其中组合Ct和ht通过公式:logp(yt|y1,…,yt-1,I)=f(ht,Ct)预测下一个词yt+1

进一步地,所述的哨兵门,包括扩展LSTM以获得“视觉哨兵”向量st

gt=σ(Wxxt+Whht-1) (8)

st=gt⊙tanh(mt) (9)

其中Wx和Wh是要学习的权重参数,xt是在时步长t处对LSTM的输入,并且gt是施加在存储器单元mt上的门;⊙表示元素乘积,σ是逻辑sigmoid激活;

基于“视觉哨兵”,我们提出了一种自适应注意模型来计算新的上下文向量其被建模为空间注意图像的特征(即空间注意模型的上下文向量)和“视觉哨兵”向量的混合;混合模型定义如下:

其中βt是在时间t的新哨兵门;在我们的混合模型中,βt范围为[0,1];值1表示仅使用“视觉哨兵”信息,而0表示在生成下一个词时仅使用空间图像信息;

为了计算新的哨兵门βt,我们修改了空间注意分量;特别地,我们向z添加额外的元素,该向量包含如等式5中定义的注意分数;该元素指示网络对于哨兵(与图像特征相对)放置多少“注意”;这个额外元素的添加通过将等式6转换为:

其中表示连接;Ws和Wg是权重参数;值得注意的是,Wg是与等式5中相同的权重参数;是空间图像特征以及“视觉哨兵”向量的注意分布;我们将该向量的最后一个元素解释为门值:βt=αt[k+1];在时间t的可能词的词汇上的概率可以计算为:

其中Wp是要学习的权重参数;该公式鼓励模型在生成下一个词时自适应地考虑图像与“视觉哨兵”;在每个时间步长更新哨兵向量。

进一步地,所述的解码器,包括采用基于递归神经网络的结构,连接嵌入向量wt的词和全局图像特征向量vg以获得输入向量xt=[wt;vg];使用单层神经网络将“视觉哨兵”向量st和LSTM输出向量ht变换为具有维度d的新向量。

其中,所述的图像字幕输出,将提取的空间图像特征反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型,让机器执行自动生成图像字幕的任务,得到图像对应的自然语言描述结果。

附图说明

图1是本发明一种基于视觉注意模型的图像文字描述方法的系统流程图。

图2是本发明一种基于视觉注意模型的图像文字描述方法的场景对象数据集。

图3是本发明一种基于视觉注意模型的图像文字描述方法的模型架构图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于视觉注意模型的图像文字描述方法的系统流程图。主要包括数据输入;预处理;自适应注意模型;图像字幕输出。

其中,所述的数据输入,采用了场景对象数据集;场景对象数据集中的大多数图像描绘人执行各种动作,而且是在复杂场景的上下文中包含多个对象,每个图像都有5个人工标注的字幕。

其中,所述的预处理,把场景对象数据集长度超过18个字符的字幕截短;然后构建在训练集中出现至少5次和3次的词的词汇表。

其中,所述的自适应注意模型,包括编码器,空间注意模型,哨兵门和解码器;它可以自动确定什么时候依赖视觉信号,什么时候只依靠语言模型,并且当依赖于视觉信号时,模型还决定应该注意图像的哪个区域。

进一步地,所述的编码器,包括使用卷积神经网络来获得图像的表示;使用ResNet的最后卷积层的空间特征输出,其尺寸为2048×7×7;我们使用表示在k个网格位置中的每一处的空间卷积神经网络特征;通过以下方式获得全局图像特征:

其中ag是全局图像特征,为了建模方便,我们使用具有整流器激活函数的单层感知器将图像特征向量转换成具有维度d的新向量:

vi=ReLU(Waai) (2)

vg=ReLU(Wbag) (3)

其中Wa和Wg是权重参数,变换的空间图像特征形式V=[v1,…,vk]。

进一步地,所述的空间注意模型,包括该空间注意模型用于计算上下文向量Ct,定义为:

Ct=g(V,ht) (4)

其中g是注意函数,V=[v1,…,vk],是空间图像特征,每个空间图像特征是与图像的一部分相对应的d维表示;ht是递归神经网络在时间t的隐藏状态;

给定LSTM的空间图像特征和隐藏状态我们通过单层神经网络,接着是softmax函数来反馈它们,以产生图像的k个区域上的注意分布:

αt=softmax(zt) (6)

其中是所有元素都设置为1的向量;Wv,和是要学习的参数;是V中特征的注意权重;基于注意分布,可以通过以下公式获得上下文向量Ct

其中组合Ct和ht通过公式:logp(yt|y1,…,yt-1,I)=f(ht,Ct)预测下一个词yt+1

进一步地,所述的哨兵门,包括扩展LSTM以获得“视觉哨兵”向量st

gt=σ(Wxxt+Whht-1) (8)

st=gt⊙tanh(mt) (9)

其中Wx和Wh是要学习的权重参数,xt是在时步长t处对LSTM的输入,并且gt是施加在存储器单元mt上的门;⊙表示元素乘积,σ是逻辑sigmoid激活;

基于“视觉哨兵”,我们提出了一种自适应注意模型来计算新的上下文向量其被建模为空间注意图像的特征(即空间注意模型的上下文向量)和“视觉哨兵”向量的混合;混合模型定义如下:

其中βt是在时间t的新哨兵门;在我们的混合模型中,βt范围为[0,1];值1表示仅使用“视觉哨兵”信息,而0表示在生成下一个词时仅使用空间图像信息;

为了计算新的哨兵门βt,我们修改了空间注意分量;特别地,我们向z添加额外的元素,该向量包含如等式5中定义的注意分数;该元素指示网络对于哨兵(与图像特征相对)放置多少“注意”;这个额外元素的添加通过将等式6转换为:

其中表示连接;Ws和Wg是权重参数;值得注意的是,Wg是与等式5中相同的权重参数;是空间图像特征以及“视觉哨兵”向量的注意分布;我们将该向量的最后一个元素解释为门值:βt=αt[k+1];在时间t的可能词的词汇上的概率可以计算为:

其中Wp是要学习的权重参数;该公式鼓励模型在生成下一个词时自适应地考虑图像与“视觉哨兵”;在每个时间步长更新哨兵向量。

进一步地,所述的解码器,包括采用基于递归神经网络的结构,连接嵌入向量wt的词和全局图像特征向量vg以获得输入向量xt=[wt;vg];使用单层神经网络将“视觉哨兵”向量st和LSTM输出向量ht变换为具有维度d的新向量。

其中,所述的图像字幕输出,将提取的空间图像特征反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型,让机器执行自动生成图像字幕的任务,得到图像对应的自然语言描述结果。

图2是本发明一种基于视觉注意模型的图像文字描述方法的场景对象数据集。场景对象数据集中的大多数图像描绘人执行各种动作,而且是在复杂场景的上下文中包含多个对象,每个图像都有5个人工标注的字幕。

图3是本发明一种基于视觉注意模型的图像文字描述方法的模型架构图。该模型是一个新的自适应注意编码器-解码器框架,包括编码器,空间注意模型,哨兵门和解码器,它自动决定何时查看图像以及何时依靠语言模型生成下一个词。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1