一种基于视觉注意模型的图像文字描述方法与流程

文档序号：12468933阅读：185来源：国知局

本发明涉及图像识别领域，尤其是涉及了一种基于视觉注意模型的图像文字描述方法。

背景技术：

随着科技技术迅速发展，在图像识别领域，基于注意的神经编码器-解码器框架已经被广泛地用于图像文字描述，即智能识别图像内容，并自动对它用自然语言进行描述。然而，解码器可能需要图像的很少甚至没有视觉信息以预测非可视词，可能看起来可视化的其他词通常可以从语言模型可靠地预测。而如果采用基于视觉注意模型的图像文字描述方法，则可以解决自动生成的图像字幕质量不高的问题，而且它可以自动决定什么时候依赖视觉信号，什么时候只依靠语言模型。

本发明提出了一种基于视觉注意模型的图像文字描述方法，首先它采用描述人执行各种动作和在复杂场景的上下文中包含多个对象的图像数据集，每个图像配对5个人工标注的字幕；然后预处理缩短字幕长度，将数据集输入到编码器中提取空间图像特征；最后反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型，让机器执行自动生成图像字幕的任务，得到图像对应的自然语言描述结果。本发明在图像识别方面，比起基于模板的方法，其表现性能最优；它还可以帮助视觉受损的用户，并使用户易于组织和导航大量典型非结构化的视觉数据。

技术实现要素：

针对自动生成的图像字幕质量不高的问题，本发明的目的在于提供一种基于视觉注意模型的图像文字描述方法。

为解决上述问题，本发明提供一种基于视觉注意模型的图像文字描述方法，其主要内容包括：

(一)数据输入；

(二)预处理；

(三)自适应注意模型；

(四)图像字幕输出。

其中，一种基于视觉注意模型的图像文字描述方法，包括新的空间注意模型，用于提取空间图像特征；自适应注意机制，引入了一个新的长短期存储器(LSTM)扩展，产生一个额外的“视觉哨兵”向量而不是单个隐藏状态；“视觉哨兵”是解码器存储器的附加潜在表示，向解码器提供回退选项；由“视觉哨兵”进一步得到一个新的哨兵门，它决定解码器想要从图像获得多少新信息，而不是依赖于“视觉哨兵”生成下一个词。

其中，所述的数据输入，采用了场景对象数据集；场景对象数据集中的大多数图像描绘人执行各种动作，而且是在复杂场景的上下文中包含多个对象，每个图像都有5个人工标注的字幕。

其中，所述的预处理，把场景对象数据集长度超过18个字符的字幕截短；然后构建在训练集中出现至少5次和3次的词的词汇表。

其中，所述的自适应注意模型，包括编码器，空间注意模型，哨兵门和解码器；它可以自动确定什么时候依赖视觉信号，什么时候只依靠语言模型，并且当依赖于视觉信号时，模型还决定应该注意图像的哪个区域。

进一步地，所述的编码器，包括使用卷积神经网络来获得图像的表示；使用ResNet的最后卷积层的空间特征输出，其尺寸为2048×7×7；我们使用表示在k个网格位置中的每一处的空间卷积神经网络特征；通过以下方式获得全局图像特征：

其中a^g是全局图像特征，为了建模方便，我们使用具有整流器激活函数的单层感知器将图像特征向量转换成具有维度d的新向量：

v_i＝ReLU(W_aa_i) (2)

v^g＝ReLU(W_ba^g) (3)

其中W_a和W_g是权重参数，变换的空间图像特征形式V＝[v₁,…,v_k]。

进一步地，所述的空间注意模型，包括该空间注意模型用于计算上下文向量C_t，定义为：

C_t＝g(V,h_t) (4)

其中g是注意函数，是空间图像特征，每个空间图像特征是与图像的一部分相对应的d维表示；h_t是递归神经网络在时间t的隐藏状态；

给定LSTM的空间图像特征和隐藏状态我们通过单层神经网络，接着是softmax函数来反馈它们，以产生图像的k个区域上的注意分布：

α_t＝softmax(z_t) (6)

其中是所有元素都设置为1的向量；和是要学习的参数；是V中特征的注意权重；基于注意分布，可以通过以下公式获得上下文向量C_t：

其中组合C_t和h_t通过公式：logp(y_t|y₁,…,y_t-1,I)＝f(h_t,C_t)预测下一个词y_t+1。

进一步地，所述的哨兵门，包括扩展LSTM以获得“视觉哨兵”向量s_t：

g_t＝σ(W_xx_t+W_hh_t-1) (8)

s_t＝g_t⊙tanh(m_t) (9)

其中W_x和W_h是要学习的权重参数，x_t是在时步长t处对LSTM的输入，并且g_t是施加在存储器单元m_t上的门；⊙表示元素乘积，σ是逻辑sigmoid激活；

基于“视觉哨兵”，我们提出了一种自适应注意模型来计算新的上下文向量其被建模为空间注意图像的特征(即空间注意模型的上下文向量)和“视觉哨兵”向量的混合；混合模型定义如下：

其中β_t是在时间t的新哨兵门；在我们的混合模型中，β_t范围为[0,1]；值1表示仅使用“视觉哨兵”信息，而0表示在生成下一个词时仅使用空间图像信息；

为了计算新的哨兵门β_t，我们修改了空间注意分量；特别地，我们向z添加额外的元素，该向量包含如等式5中定义的注意分数；该元素指示网络对于哨兵(与图像特征相对)放置多少“注意”；这个额外元素的添加通过将等式6转换为：

其中表示连接；W_s和W_g是权重参数；值得注意的是，W_g是与等式5中相同的权重参数；是空间图像特征以及“视觉哨兵”向量的注意分布；我们将该向量的最后一个元素解释为门值：β_t＝α_t[k+1]；在时间t的可能词的词汇上的概率可以计算为：

其中W_p是要学习的权重参数；该公式鼓励模型在生成下一个词时自适应地考虑图像与“视觉哨兵”；在每个时间步长更新哨兵向量。

进一步地，所述的解码器，包括采用基于递归神经网络的结构，连接嵌入向量w_t的词和全局图像特征向量v^g以获得输入向量x_t＝[w_t；v^g]；使用单层神经网络将“视觉哨兵”向量s_t和LSTM输出向量h_t变换为具有维度d的新向量。

其中，所述的图像字幕输出，将提取的空间图像特征反馈给训练好的基于“视觉哨兵”门的自适应空间注意模型，让机器执行自动生成图像字幕的任务，得到图像对应的自然语言描述结果。

附图说明

图1是本发明一种基于视觉注意模型的图像文字描述方法的系统流程图。

图2是本发明一种基于视觉注意模型的图像文字描述方法的场景对象数据集。

图3是本发明一种基于视觉注意模型的图像文字描述方法的模型架构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于视觉注意模型的图像文字描述方法的系统流程图。主要包括数据输入；预处理；自适应注意模型；图像字幕输出。

其中，所述的预处理，把场景对象数据集长度超过18个字符的字幕截短；然后构建在训练集中出现至少5次和3次的词的词汇表。

其中a^g是全局图像特征，为了建模方便，我们使用具有整流器激活函数的单层感知器将图像特征向量转换成具有维度d的新向量：

v_i＝ReLU(W_aa_i) (2)

v^g＝ReLU(W_ba^g) (3)

其中W_a和W_g是权重参数，变换的空间图像特征形式V＝[v₁,…,v_k]。

进一步地，所述的空间注意模型，包括该空间注意模型用于计算上下文向量C_t，定义为：

C_t＝g(V,h_t) (4)

其中g是注意函数，V＝[v₁,…,v_k],是空间图像特征，每个空间图像特征是与图像的一部分相对应的d维表示；h_t是递归神经网络在时间t的隐藏状态；

给定LSTM的空间图像特征和隐藏状态我们通过单层神经网络，接着是softmax函数来反馈它们，以产生图像的k个区域上的注意分布：

α_t＝softmax(z_t) (6)

其中是所有元素都设置为1的向量；W_v,和是要学习的参数；是V中特征的注意权重；基于注意分布，可以通过以下公式获得上下文向量C_t：

其中组合C_t和h_t通过公式：logp(y_t|y₁,…,y_t-1,I)＝f(h_t,C_t)预测下一个词y_t+1。

进一步地，所述的哨兵门，包括扩展LSTM以获得“视觉哨兵”向量s_t：

g_t＝σ(W_xx_t+W_hh_t-1) (8)

s_t＝g_t⊙tanh(m_t) (9)

其中W_x和W_h是要学习的权重参数，x_t是在时步长t处对LSTM的输入，并且g_t是施加在存储器单元m_t上的门；⊙表示元素乘积，σ是逻辑sigmoid激活；

其中W_p是要学习的权重参数；该公式鼓励模型在生成下一个词时自适应地考虑图像与“视觉哨兵”；在每个时间步长更新哨兵向量。

图2是本发明一种基于视觉注意模型的图像文字描述方法的场景对象数据集。场景对象数据集中的大多数图像描绘人执行各种动作，而且是在复杂场景的上下文中包含多个对象，每个图像都有5个人工标注的字幕。

图3是本发明一种基于视觉注意模型的图像文字描述方法的模型架构图。该模型是一个新的自适应注意编码器-解码器框架，包括编码器，空间注意模型，哨兵门和解码器，它自动决定何时查看图像以及何时依靠语言模型生成下一个词。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏春秋
技术所有人：深圳市唯特视科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。