1.基于双重编码与联合的跨模态检索方法,其特征在于,包括以下步骤:
获取训练集视频;
通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;
将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码;
对所述词嵌入向量进行编码;
通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型;
通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;
根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。
2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述视频各帧特征向量具体包括:外观特征向量、活动特征向量和声音特征向量。
3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果,其步骤具体包括:
获取查询目标和待检索视频,所述查询目标为文本语句或视频片段;
当查询目标为文本语句,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述文本语句对应的视频片段;
当查询目标为视频片段,通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配,得到待检索视频中所述视频片段对应的文本内容。
4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述相似度为余弦相似度。
5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于:所述将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码,其步骤具体包括:
通过平均池化层将所述外观特征向量转化为所述静态特征;
通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征;
通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。
6.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,所述对所述词嵌入向量进行编码,其步骤具体包括:
通过双向门控循环单元对所述词嵌入向量进行编码,得到上下文语义信息;
通过卷积神经网络对所述词嵌入向量进行编码,得到隐藏局部特征。
7.根据权利要求1所述的基于双重编码与联合的跨模态检索方法,其特征在于,通过成对排名损失函数以及最大边距损失函数对所述静态文本嵌入模型和所述动态文本嵌入模型参数进行训练。
8.基于双重编码与联合的跨模态检索系统,其特征在于,包括:
特征提取模块,用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取,得到视频各帧特征向量以及词嵌入向量;
特征编码模块,用于将所述视频各帧特征向量划分为静态特征及动态特征,并对所述静态特征和动态特征进行编码和用于对所述词嵌入向量进行编码;
公共空间学习模块,用于通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型和用于通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型;
检索模块,用于根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。
9.基于双重编码与联合的跨模态检索系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于双重编码与联合的跨模态检索方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的基于双重编码与联合的跨模态检索方法。