一种跨模态图文检索方法与流程

文档序号：19155795发布日期：2019-11-16 00:45阅读：来源：国知局

技术特征：

1.一种跨模态图文检索方法，所述方法包括如下步骤：

（1）给定原始跨模态图文检索数据集，其中包括图像和文本两种模态数据，分为训练集、验证集以及测试集；

（2）构建基于栈式跨模态自编码器的图文检索模型：模型第一层选用gaussianrbm和replicatedsoftmaxrbm提取输入的图像数据和文本数据的特征表示，并约减图像特征维度和文本特征维度，进行利用对比散度算法对第一层rbm进行训练，并更新权重参数；将模型第一层输出的单模态特征表示用于第二层输入，模型第二层选用两个原始rbm加深网络的深度，学习深层次的单模态表示，进一步约减不同模态的特征维度到512维；在所述图文检索模型的关联学习阶段，首先，构建包含图像文本对和单模态输入的扩增数据集，作为模型的输入；其次，在自编码器隐藏层之间引入关联误差函数学习模态间的关联信息，使得模型可以更好地建模不同模态间的语义相关性；最终，在训练过程中，采用layer-wise训练策略，通过分层逐步训练跨模态自编码器提升模型的学习能力，从而提升模型的表征能力；

（3）对图片数据和文本数据进行预处理，提取各自的单模态特征表示：利用跨模态数据集中训练集对深度卷积神经网络vgg-16模型进行微调，更新模型参数，并采用交叉验证的方式得到最优模型；利用微调后的所述深度卷积神经网络vgg-16模型提取图像数据的单模态特征表示，将fc7层作为网络的输出，得到4096维的图像特征表示向量；

（4）通过所述4096维的图像特征和文本数据的词袋特征作为所述图文检索模型关联学习阶段的输入，训练模型，并提取图像和文本的最终表示；通过相似性度量函数对图像数据和文本数据间的共享表示计算距离；对获得的结果依照距离从小到大排列，最终得到的排序结果即是跨模态检索结果。

2.根据权利要求1所述的方法，还包括如下步骤：

（1）将图文检索数据集中训练集和验证集载入构建的基于栈式跨模态自编码器的图文检索模型中进行训练和验证，并生成相应的模型文件；

（2）调用训练好的模型文件提取测试集中图像和文本的共享表示，完成以图检文和以文检图两种图文检索任务，得到检索结果，评估该模型的泛化能力及检索精确度。

技术总结
本发明公开了一种基于栈式跨模态自编码器的跨模态图文检索方法，其主要目的是提高跨模态图文检索的精确度。首先，对图像和文本数据进行预处理，得到图像特征和文本特征，再通过两层受限玻尔兹曼机，提取单模态表示；其次，通过构建深层次的栈式跨模态自编码器，挖掘模态间的相关性；最终，训练模型并得到模型文件，在验证集上完成跨模态图文检索任务。本发明在实现了图文检索中常用的两种检索任务（以图检文和以文检图）的基础上，还能实现输入一种模态数据返回多种模态数据，在三个跨模态图文检索数据集上提升了模型检索精确度和泛化能力。

技术研发人员：强保华;陈锐东;谢武;赵天;卢永全
受保护的技术使用者：桂林电子科技大学
技术研发日：2019.08.12
技术公布日：2019.11.15

完整全部详细技术资料下载

当前第2页1 2