一种基于自然语言语义的图像目标检测方法与流程

文档序号：12671219阅读：来源：国知局

技术特征：

1.一种基于自然语言语义的图像目标检测方法，其特征在于，包括如下步骤：

(1)训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分；

(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块；

(3)输入图像和目标查询短语到模型中进行图像目标检测。

2.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(1)中训练Faster-RCNN模块的具体过程如下：

模型训练在ImageNet的目标检测数据集上采用4步交替训练来进行，第一步先训练RPN网络；第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络；第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层，然后固定RPN网络的卷积层不变，单独训练RPN网络的分类层和回归层；第三步后RPN网络和Fast-RCNN网络实现了卷积层共享，第四步固定共享卷积层和RPN不变，训练Fast-RCNN其余的网络层。

3.根据权利要求2所述基于自然语言语义的图像目标检测方法，其特征在于，所述4步交替训练迭代进行多次，训练过程中使用误差的反向传播算法计算梯度，使用随机梯度下降算法更新网络权值。

4.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(2)中训练LSTM模型的数据集为ReferIt数据集，训练样本是个三元组[I,R,D]，其中I表示输入图像，R表示图像上的目标，D表示对目标的描述，一张图片有任意个目标，每个目标有任意个描述，模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数，表示为损失函数其中，N表示图像数目，M_i表示第i张图像中的目标数目，D_ij表示第i个图像的第j个目标的描述短语的个数，S_i,j,d表示自然语言描述短语，概率p(S_i,j,d|context)就表示了图像中的目标区域产生对应自然语言描述的条件概率。

5.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(2)中LSTM模型计算条件概率p(S_i,j,d|context)时以图像的全局特征F1，备选目标区域的局部特征F2以及备选目标区域的位置信息L作为上下文信息context＝[F1,F2,L]。

6.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(2)中使用图像的全局特征F1，备选目标区域的局部特征F2以及备选目标区域的位置信息L这些上下文信息来初始化LSTM模型的隐藏状态h₀和细胞状态C₀。

7.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(2)中LSTM模型计算条件概率p(S_i,j,d|context)时以查询短语的词向量表示作为时序数据输入，利用公式计算备选目标区域产生查询短语的条件概率，其中s_i表示查询语句中第i个单词的词向量表示，词向量表示是指首先根据词典将单词表示为one-hot向量e，然后使用特征矩阵W得到单词的词向量表示W×e，其中特征矩阵W的每一行为词典中每个单词的特征向量。

8.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，所述步骤(3)中进行图像目标检测时利用Fast-RCNN卷积网络提取图像全局特征图，RPN网络根据图像全局特征图产生备选目标集，其中RPN网络和Fast-RCNN网络通过共享卷积网络部分实现计算共享，使得产生目标备选集的计算代价基本降为零。

9.根据权利要求1所述基于自然语言语义的图像目标检测方法，其特征在于，步骤(3)将LSTM模块加入到Faster-RCNN框架中，实现了一个支持端到端计算的可以结合自然语言进行图像目标检测的完整网络框架。

完整全部详细技术资料下载

当前第2页1 2 3