一种文本视频检索方法及装置

文档序号:36929103发布日期:2024-02-02 21:54阅读:21来源:国知局
一种文本视频检索方法及装置

本发明涉及多模态检索,尤其是指一种文本视频检索方法及装置。


背景技术:

1、文本-视频检索tvr(text-to-video retrieval)是一项多模态任务,旨在根据给定的自然语言文本查询,从视频数据库中检索出与其相关的视频。这项技术在多个领域具有广泛的应用价值。一方面,它被用于视频搜索引擎和视频推荐系统,满足用户的信息检索需求;另一方面,这项技术可用于帮助管理视频内容,有助于维护互联网信息资源的质量和安全性。在文本-视频检索中,视频帧选择对检索模型的效率和性能的双向提升至关重要。目前常见的帧选择方法可以分为基于文本引导的方法和基于无文本引导的方法。

2、基于文本引导的帧选择方法利用文本信息过滤掉文本无关帧,目的是过滤掉视频中与文本无关的帧,进而帮助文本-视频的语义对齐。具体地,根据视频帧和文本是否有交互,可分为基于文本直接引导的有交互的帧选择方法和基于文本间接引导的无交互帧选择方法。

3、基于文本直接引导的有交互的帧选择方法:通过计算帧与文本间的余弦相似度,或者构造复杂的信息融合模块来衡量帧与文本的相似度,进而选择与文本相关性高的帧用于检索;其通过计算文本特征和视频帧特征之间的相关性,来选择关键帧;需要文本视频信息在线交互,检索时增加了额外的选帧上的时间开销,且仍然需要保存视频中所有帧的特征,存储资源消耗大。基于文本间接引导的无交互帧选择方法:通过学习一个打分模块,计算视频帧的重要性分数并选择关键帧;检索时,由于无需与文本在线交互,因此可离线选择关键帧并保存,不带来额外的时间开销并减少了保存视频帧特征的存储资源消耗。但现有的方法在训练打分模块时,是将视频特征与文本特征进行视频-文本级别的对齐约束,使打分模块学习到选择关键帧的能力。但该方法在训练打分模块时,缺少直接的帧级别的标注信息,导致选帧性能较差,进而导致检索性能下降。


技术实现思路

1、为此,本发明所要解决的技术问题在于克服现有技术中在训练帧选择模块时,缺少直接的帧级别的标注信息,导致帧选择模块对于关键帧的选取不准确,进而导致文本视频检索性能下降的问题。

2、为解决上述技术问题,本发明提供了一种文本视频检索方法,包括:

3、获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;

4、获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;

5、对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;

6、基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;

7、基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;

8、基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;

9、获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:

10、利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;

11、将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前k个重要性分数所对应的样本图像,作为k帧优化关键帧;

12、利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;

13、利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。

14、在本发明的一个实施例中,所述对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数,包括:

15、对于每个视频数据将其对应的多帧样本图像输入帧选择模块,获取每帧样本图像的重要性分数,表示为:

16、;

17、其中,每个视频数据中所有图像样本的重要性分数集合,表示为,表示每个视频数据中预采样获取的样本图像的个数;表示视频数据中第帧图像样本的编码图像特征;表示多层感知机;表示归一化指数函数。

18、在本发明的一个实施例中,所述基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数,包括:

19、计算任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取样本图像关于该文本样本的相关性分数,表示为:;

20、每个视频数据的n帧样本图像对应的相关性分数,组成该视频数据的伪标签集合,表示为:;

21、其中,表示动量文本特征,表示第帧样本图像的动量图像特征,表示第帧样本图像关于文本样本的相关性分数,n表示每个视频数据中样本图像的帧数。

22、在本发明的一个实施例中,所述基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数,表示为:

23、;

24、其中,表示散度损失函数,kl()表示kl散度,b表示训练批次,表示训练批次中第个视频数据的重要性分数集合,表示训练批次中第个视频数据的伪标签集合;表示训练批次中第个视频数据中第帧样本图像的相关性得分,表示训练批次中第个视频数据中第帧样本图像的重要性得分。

25、在本发明的一个实施例中,所述利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个视频数据的优化视频特征,包括:

26、基于每个优化关键帧的重要性分数,加权该优化关键帧对应的编码图像特征,获取加权特征,表示为:;

27、对每个检索视频数据,将其k个优化关键帧对应的样本图像的加权特征进行求和,获取该检索视频数据的视频特征,表示为:;

28、其中,表示第帧优化关键帧的重要性分数,表示第帧优化关键帧的编码图像特征,表示优化关键帧总个数,表示归一化指数函数。

29、在本发明的一个实施例中,所述获取预先训练好的帧选择模块后,还包括:

30、在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择k帧样本图像,作为视频数据的k帧关键帧;

31、在每个视频数据中,利用每帧关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取k个加权特征后求和,获取该视频数据的视频特征;

32、基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建文本到视频的对比损失,表示为:

33、;

34、基于文本样本的编码文本特征与每个视频数据的视频特征之间的余弦相似度,构建视频到文本的对比损失,表示为:

35、;

36、基于文本到视频的对比损失和视频到文本的对比损失,构建视频文本对比损失,表示为:

37、;

38、基于文本数据集与视频数据集训练帧选择模块,直至视频文本对比损失与散度损失函数收敛,获取预先训练好的帧选择模块;

39、其中,表示训练批次,表示可学习温度参数,表示余弦相似度,表示训练批次中第m个视频数据的视频特征,表示训练批次中第n个视频数据的视频特征,表示训练批次中第m个文本样本的编码文本特征,表示训练批次中第n个文本样本的编码文本特征;1≤m≤b,1≤n≤b。

40、在本发明的一个实施例中,所述获取预先训练好的帧选择模块后,还包括:

41、在视频数据集中,对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入预先训练好的帧选择模块,获取每帧样本图像的重要性分数;并按照重要性分数由大到小的顺序,选择k帧样本图像,作为视频数据的k帧关键帧;

42、将文本样本的编码文本特征与视频数据的k帧关键帧所对应的编码图像特征,输入视频文本多模态编码器中,获取多模态融合特征;

43、将所述多模态融合特征输入二分类器,获取二分类概率;

44、基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失;

45、基于所述视频文本匹配损失,对所述预先训练好的帧选择模块进行优化,直至视频文本匹配损失收敛,获取预训练好的帧选择模块。

46、在本发明的一个实施例中,所述基于二分类概率与视频文本匹配真实标签的交叉熵函数的期望,构建视频文本匹配损失,表示为:

47、;

48、其中,表示匹配损失函数;为二维one-hot向量,表示视频文本匹配真实标签;表示二分类概率;表示交叉熵损失函数在文本数据集与视频数据集中数据分布满足(v,t)~d下的期望。

49、在本发明的一个实施例中,所述文本编码器为bert,所述视觉编码器为visiontransformer。

50、本发明实施例还提供了一种文本视频检索装置,包括:

51、特征提取模块,用于获取文本数据集,将文本样本输入文本编码器与文本动量编码器,获取对应的编码文本特征与动量文本特征;获取视频数据集,分别获取所述视频数据集中每个视频数据的多帧样本图像;将每个视频数据对应的多帧样本图像分别输入至视觉编码器与视觉动量编码器,提取每一帧样本图像的编码图像特征与动量图像特征;

52、重要性分数计算模块,用于对于每个视频数据,将其对应的多帧样本图像的编码图像特征,输入帧选择模块,获取每帧样本图像的重要性分数;所述帧选择模块包括多层感知机;

53、相关性分数计算模块,用于基于文本数据集中任一文本样本的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;

54、训练模块,用于基于所述重要性分数与所述相关性分数,构建约束每个视频数据的多帧样本图像的重要性分数与相关性分数分布一致的散度损失函数;基于所述文本数据集与视频数据集训练所述帧选择模块,直至散度损失函数收敛,获取预先训练好的帧选择模块;

55、检索模块,用于获取待检测文本及其对应的检索视频集,输入包含所述预先训练好的帧选择模块的文本视频检索模型中,其包括:利用视觉编码器,提取所述检索视频集中每个检索视频数据内多帧样本图像的编码图像特征;将每个检索视频数据的多个编码图像特征输入预先训练好的帧选择模块中,获取重要性分数;将每个检索视频数据的多帧样本图像的重要性分数由大到小排序,获取前k个重要性分数所对应的样本图像,作为k帧优化关键帧;利用每帧优化关键帧的重要性分数,对其所对应的编码图像特征进行加权,获取加权特征;将每个检索视频数据对应的k帧优化关键帧的加权特征进行聚合,获取每个检索视频数据的优化视频特征;利用文本编码器获取待检测文本的编码文本特征,计算待检测文本的编码文本特征与每个检索视频数据的优化视频特征的相似度,获取相似度最高所对应的检索视频数据,为待检测文本的相关视频。

56、本发明的上述技术方案相比现有技术具有以下优点:

57、本发明所述的文本视频检索方法,基于文本编码器与视频编码器获取编码文本特征与编码图像特征,输入由多层感知机组成的帧选择模块,获取每帧样本图像的重要性分数;基于文本动量编码器和视频动量编码器获取的动量文本特征与每帧样本图像的动量图像特征之间的余弦相似度,获取每帧样本图像的相关性分数;基于重要性分数与相关性分数,构建约束每帧图像样本的重要性分数与相关性分数分布一致的散度损失函数;从而利用知识蒸馏技术,将文本特征与每帧样本图像的图像特征之间的相关性分数的知识迁移至帧选择模块,实现对帧选择模块的帧级别的监督,更好地学习到视频数据中样本图像与文本的相关性,来训练帧选择模块,从而选取出更有效的关键帧,提高了关键帧选择的准确性;利用准确有效的关键帧,进行文本视频检索,大大提升了检索的性能和效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1