基于双重编码与联合的跨模态检索方法、系统及存储介质与流程

文档序号：20839465发布日期：2020-05-22 17:18阅读：来源：国知局

技术特征：

1.基于双重编码与联合的跨模态检索方法，其特征在于，包括以下步骤：

获取训练集视频；

通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；

将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码；

对所述词嵌入向量进行编码；

通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型；

通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；

根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。

2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于：所述视频各帧特征向量具体包括：外观特征向量、活动特征向量和声音特征向量。

3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果，其步骤具体包括：

获取查询目标和待检索视频，所述查询目标为文本语句或视频片段；

当查询目标为文本语句，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述文本语句对应的视频片段；

当查询目标为视频片段，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述视频片段对应的文本内容。

4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述相似度为余弦相似度。

5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于：所述将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码，其步骤具体包括：

通过平均池化层将所述外观特征向量转化为所述静态特征；

通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征；

通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。

6.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述对所述词嵌入向量进行编码，其步骤具体包括：

通过双向门控循环单元对所述词嵌入向量进行编码，得到上下文语义信息；

通过卷积神经网络对所述词嵌入向量进行编码，得到隐藏局部特征。

7.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，通过成对排名损失函数以及最大边距损失函数对所述静态文本嵌入模型和所述动态文本嵌入模型参数进行训练。

8.基于双重编码与联合的跨模态检索系统，其特征在于，包括：

特征提取模块，用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；

特征编码模块，用于将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码和用于对所述词嵌入向量进行编码；

公共空间学习模块，用于通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型和用于通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；

检索模块，用于根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。

9.基于双重编码与联合的跨模态检索系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于双重编码与联合的跨模态检索方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的基于双重编码与联合的跨模态检索方法。

技术总结
本发明公开了一种基于双重编码与联合的跨模态检索方法、系统及装置。该方法一种基于双重编码与双重联合嵌入学习的跨模态检索算法，通过神经网络对视频的多种特征进行提取、编码，对文字特征进行多层编码，并学习训练出两个联合视频文本嵌入的网络模型，通过两个模型获取文本到视频检索结果或视频到文本检索的结果。通过使用本发明中的方法，能够减少视频特征和自然语言描述的文本之间的语义差异，有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系，最终提高视频和文本相互之间检索的精确度。本发明可广泛应用于视频处理技术领域内。

技术研发人员：肖菁;崔晓桃
受保护的技术使用者：华南师范大学
技术研发日：2019.12.31
技术公布日：2020.05.22

完整全部详细技术资料下载

当前第2页1 2