基于架构短句约束向量和双重视觉关注机制的图像描述生成方法与流程

文档序号：17239131发布日期：2019-03-30 08:29阅读：286来源：国知局

本发明涉及计算机视觉领域，更具体地，涉及一种基于深度神经网络的图像理解文本描述生成方法。

背景技术：

获得文本级别的图像描述已经成为当前计算机视觉领域一个重要的研究课题，而在现实生活中，它有很多应用场景。比如早期的儿童教育，图像检索和盲人导航等。随着计算机视觉和自然语言处理技术的飞速发展，大量关于此课题的有效工作出现，其中很多是将它视为一个检索问题。研究者们通过学习一个节点嵌入层将文本句子和图像的特征投影至一个相同的语义空间中。这些方法通过从文本句子数据集中检索相似描述来生成图像描述，但是其缺乏能够产生有效结合目标和场景两者联系的图像描述。

绝大多数现有工作大都是基于cnn+rnn的框架上做效果上的提升。cnn可以从原始图像中提取强有力的视觉特征，而rnn能在给定视觉特征的情况下预测生成单词序列并生成句子。比如，(maoetal.,2014)提出一个多模态rnn(m-rnn)模型来实现对单词的预测过程。(jiaetal.,2015)提出一个lstm的扩展模型(g-lstm)，它使用一种从图像中提取的额外语义信息作为lstm的引导信息。(fuetal.,2016)提出了一个能挖掘图像和句子平行结构的图像描述模型，及一种特殊场景上下文向量，其能概括图像的高层次语义信息，并可以使用它让模型指定场景化。(yaoetal.,2017)提出带属性的lstm模型(lstm-a)，其整合了属性信息到cnn+rnn架构中。然而，以上方法都忽略了句子的语义单词和图像视觉单词之间的语义联系。

而近来关于视觉关注机制的方法能结果上述联系问题，在单词的预测过程，并能可视化与之相关的视觉区域。比如随机性’hard’和决策性’soft’关注机制(xuetal.,2015)，自适应关注(luetal.,2017)，语义关注(youetal.,2016),自上而下及自下而上关注(andersonetal.,2018)。所有的这些机制都能在一定程度上反映文本和视觉模态间的内在联系，并能获得较好的性能。

技术实现要素：

针对现有的方法缺乏能够产生有效结合目标和场景两者联系的图像描述的问题，本发明提出一种基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，本发明采用的技术方案是：

基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，包括以下步骤：

s10.训练集中的训练图片数据包含5个参考句子，每个句子中的单词经过one-hot编码，再经过嵌入矩阵，投影到嵌入空间，成为具有语义的字表达向量wt；

s20.字表达向量用于循环卷积神经网络rnn某时刻帧t的输入，该时刻帧t的循环层激活rt是由当前时刻帧的字表达向量和之前时刻帧t-1的循环层rt-1共同决定的，在每一时刻的单词输入都会与双重视觉关注机制求得视觉特征相拼接，作为该时刻的lstm输入。

s30.图像经过faster-rcnn提取全局特征和中间卷积层的局部特征，并采用决策性’soft’关注机制及上一时刻预测的单词表达，算出所有的局部特征图在该时刻的权重值，权值∈(0～1)，采用faster-rcnn对每张图片提取n个主要目标的局部区域表达，并同样借助决策性’soft’关注机制对20个局部区域求得关注权重值，获得基于目标级别的视觉关注，最终结合空间及目标级别的两个关注过程，获得了具有超强视觉表征能力的关注特征，图像的关注特征作为步骤s20中与单词特征同等地位的lstm输入；

s40.架构短句的获得及使用，借助s30中获得的20个显著目标，精提取10个显著目标及其对应的边界框和标签；对10个标签进行排序，生成了具有视觉意义的架构短句，并采用另一个预训练好编解码lstm的中学习得到该短句的表达，且将该短句的表达和全局视觉特征一起作为语言模型lstm的初始化；

s50.将以上的字表达向量wt、循环层激活rt、图像的图像特征和构架短句通过转换矩阵投影至同一维度的多模态空间上并直接元素相加，再用元素比例双曲线正切函数激活，最后通过softmax层得到下一字的概率分布；

s60.整个模型的损失函数为对应图片的文本标注的混乱度，其等价于字集的平均对数似然值，对其使用标准梯度下降算法，通过反向传播算法学习模型参数。

优选的，所述s10中，用one-hot码对子集编码，相应位置置1，代表某一特定字，其余置0；通过两个嵌入层将one-hot码投影至一个稠密字表达空间，其能将字的句法和语义含义编码出来，语义相关的字通过计算两个稠密字向量的欧式距离找出；其中由于每个图片会对应5个参考句子，将其看作5组训练数据对。

优选的，所述s20中，对于每一时刻帧的循环层激活rt，是与当前时刻帧的字表达向量wt和之前时刻帧t-1的循环层rt-1共同决定的；首先将rt-1到和wt相同向量空间上，并将它们相加：

rt＝f1(ur·rt-1+wt)

其中，f1设置为relu，ur是投影转换矩阵；

在每一时刻加入双重视觉关注机制求得的视觉特征vt，在时刻0即初始时刻，将图形的全局特征vg和架构短句的向量拼接形态作为lstm的初始化，即lstm每一时刻的输入如下所示：

x＝{[vg，hsn]，[w1，v1]，...，[wl，vl]，wl+1}

其中l是句子长度，vi是第i时刻的关注后的视觉特征，i∈{1，2，...，l}。

优选的，所述s30中，使用faster-rcnn提取图像的全局特征vg和局部特征图va＝{a1，a2，...，ap}，d＝2048，p＝256；并在此基础上，借助感兴趣区域选择，得到20个最具目标特性的视觉区域vl＝{l1，l2，...，lk}，d＝2048，k＝20；则利用决策性’soft’关注机制，可得：

其中αlti和βati是基于目标关注和空间关注针对第i区域的关注权重值，而这两个权重值通过下式算得：

αlti∝exp{fwl(li，ht-1)}

βati∝exp{fwa(ai，ht-1)}

其中ht-1是lstm在时刻t-1的表达，fwl和fwa是投影方程，则具有强视觉表征能力的视觉特征表达vt：

vt＝wl·vlt+wa·vat

其中wl和wa是vlt和vat的投影矩阵。在lstm语言模型中将vt和wt相结合作为其t时刻的输入。

优选的，所述s40中，从vl提取top-10的目标，及其目标框和标签，通过架构短句的计算算法，可得出视觉架构短句ls＝{ls1，ls2，...，lsn}，n＝10，提出一个编解码结构来学习这样的架构短句的表达:

hst＝lstmen(wst，hs(t-1))

hdt＝lstmde(hsn，hd(t-1))

其中wst是t时刻架构短句的单词的嵌入表达，hsn是最后n时刻lstm解码器的输出。

优选的，所述s50中，将字表达向量wt、循环层激活rt、图像特征和构架短句整合在一起，具体过程如下：

ht＝lstm(xt，ht-1)

mt＝g(wv·vt+wh·ht)

其中g(·)是基于元素张量的hyperbolictangent方程，wv和wh是vt和ht的投影矩阵。

优选的，所述s60中，整个模型的训练采用对数似然损失函数，通过最小化损失函数，误差反向传播来更新模型参数，具体过程如下：

其中l是文本描述的句子长度(字的个数)，ppl(w1:l|i)是指定图像i和w1:l下的句子混乱度，ns和n分别是训练集中句子个数和字集中字个数，li是i^th句子长度。

优选的，模型在lstm的初始化时，是采用具有超强视觉信息的架构短句约束向量和图像的全局特征作为初始化。

与现有技术相比，本发明技术方案的有益效果是：

1)采用视觉架构短句来获得图像的视觉先验知识，其具有更强的表征能力，并能反映图像的视觉内容。。

2)图像的特征表达是与句子的单词特征结合输入语言模型中去的，这样能更紧密联系这两个模态的信息。

3)借助双重视觉关注机制，本发明将图像显著区域的关注度体现出来，并由于其能准确定位到具体的目标框中，并采用空间上的关注来弥补基于目标关注的一些不足，如目标框无法完整概括视觉目标。通过这个方式，有效地利用了目标或场景间的轻重关系，针对性地描绘图像的语义特性。

附图说明

图1为基于架构短句约束向量和双重视觉关注机制的图像描述模型即本发明的总体流程图；

图2是架构短句约束向量生成模型，算法1是生成视觉架构短句的算法流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

图1～2所示，基于架构短句约束向量和双重视觉关注机制的图像描述生成方法，包括以下步骤：