视频检索方法

文档序号：36463719发布日期：2023-12-21 19:57阅读：31来源：国知局

本申请实施例涉及图像处理领域，尤其涉及视频检索方法。

背景技术：

1、视频内容检索指的是通过各类查询元语来查找、检索和定位到符合内容语义到视频及其片段或帧的过程。目前大部分的视频搜索引擎仅仅通过搜索视频描述文本或匹配视频的标签等利用视频外部附加元数据的方法来完成检索，是一种简单的文本匹配。这种简单文本匹配的最大缺陷是，如果视频的外部附加元数据中不包括检索关键字时，检索可能会失败。传统的同模态检索方式包括利用图像检索视频，或者利用用户提供的小段视频样本的来检索视频。典型的同模态匹配算法包括色彩直方图匹配、局部二值特征匹配、频域轮廓波变换匹配等。这类基于传统的图形图像学算法的同模态检索算法存在一定局限性：需要用户提供同模态的检索素材，如截图或一小段视频片段，这在某些情况下用户是很难提前获取并准备好这些材料的；图形图像学算法对检索素材的要求很高，需要与相关内容高度契合，素材的旋转、剪切、色彩失真、压缩噪音等对检索结果有很大的影响。这对视频检索的效率和准确性造成影响。

技术实现思路

1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一，本申请实施例提供了视频检索方法，利用多模态数据提升视频检索的效率和准确性。

3、本申请的实施例，一种视频检索方法，包括：

4、获取原始视频；

5、将所述原始视频分离得到视频流、音频流和字幕流；

6、通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量；

7、通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量；

8、根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；

9、根据所述文本图像嵌入向量和所述原始视频构建关系数据库；

10、获取查询文本，根据所述关系数据库由所述查询文本从多个所述原始视频中检索得到目标视频。

11、根据本申请的某些实施例，在所述将所述原始视频分离得到视频流、音频流和字幕流之前，所述视频检索方法还包括：

12、获取所述原始视频的视频帧的帧类型；

13、获取帧类型为i帧的视频帧的帧号和时间戳；

14、将相邻的两个帧类型为i帧的视频帧的帧号差作为子片段长度，根据子片段长度对所述原始视频进行分割，得到若干个原始视频的视频段。

15、根据本申请的某些实施例，所述将所述原始视频分离得到视频流、音频流和字幕流，包括：

16、获取所述原始视频的视频段的文件头部和文件后续名；

17、根据所述文件头部和所述文件后续名确定所述原始视频所对应的视频文件容器的类型；

18、根据所述视频文件容器的类型从多个分离器中确定目标分离器；

19、由所述目标分离器将所述原始视频分离得到视频流、音频流和字幕流。

20、根据本申请的某些实施例，所述通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量，包括:

21、对所述音频流进行语音识别得到文本数据；

22、将所述文本数据与所述字幕流进行文本拼接得到综合文本；

23、过滤所述综合文本中的非文字字符得到过滤文本；

24、通过所述文本特征提取器对所述过滤文本提取文本特征向量。

25、根据本申请的某些实施例，所述通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量，包括：

26、将所述原始视频的视频段的首个帧类型为i帧的视频帧作为所述原始视频的视频段的关键帧图像；

27、将所述关键帧图像转换为二维矩阵形式，将二维矩阵形式的关键帧图像归一化为浮点数矩阵形式；

28、通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量。

29、根据本申请的某些实施例，所述通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量，包括：

30、通过图像特征提取器的主干网络对浮点数矩阵形式的关键帧图像提取图像特征向量的局部特征；

31、通过图像特征提取器的全局特征提取块对浮点数矩阵形式的关键帧图像提取图像特征向量的全局特征。

32、根据本申请的某些实施例，所述图像特征提取器的主干网络包括局部特征提取块和多个第一卷积层，所述局部特征提取块包括多个第二卷积层，所述第二卷积层之间通过高斯误差批正则化来修正局部特征经卷积后的分布偏差。

33、根据本申请的某些实施例，所述全局特征提取块位于所述第一卷积层之间；所述全局特征提取块包括局部感知层、多头注意力层、层标准化层和反转残差前馈层；所述局部感知层用于将输入的特征图分离成r通道的特征图、g通道的特征图、b通道的特征图分别进行卷积和组合，并与输入的特征图的残差相加；所述反转残差前馈层包括残差连接的第三卷积层和逐色深卷积层。

34、根据本申请的某些实施例，在所述根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量之后，所述视频检索方法还包括：

35、采用小批量梯度下降法根据所述文本特征向量和所述图像特征向量的相似度得到反向梯度；

36、根据所述文本特征向量和所述图像特征向量的相似度计算得到损失函数；

37、根据所述反向梯度和所述损失函数优化所述文本特征提取器的权重和所述图像特征提取器的权重。

38、根据本申请的某些实施例，所述根据所述文本图像嵌入向量和所述原始视频构建关系数据库，包括:

39、根据所述文本图像嵌入向量、所述视频段的第一标识、所述原始视频的第二标识、所述视频段的开始时间戳、所述视频段的结束时间戳构建关系数据库。

40、上述方案至少具有以下的有益效果：通过将原始视频分离得到视频流、音频流和字幕流；对由音频流所映射的文本数据和字幕流提取文本特征向量；对视频流在关键帧图像的浅层表达提取图像特征向量；根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；根据文本图像嵌入向量和原始视频构建关系数据库；根据关系数据库由查询文本从多个原始视频中检索得到目标视频；利用多模态数据提升视频检索的效率和准确性。

技术特征：

1.一种视频检索方法，其特征在于，包括：

2.根据权利要求1所述的视频检索方法，其特征在于，在所述将所述原始视频分离得到视频流、音频流和字幕流之前，所述视频检索方法还包括：

3.根据权利要求2所述的视频检索方法，其特征在于，所述将所述原始视频分离得到视频流、音频流和字幕流，包括：

4.根据权利要求1所述的视频检索方法，其特征在于，所述通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量，包括:

5.根据权利要求2所述的视频检索方法，其特征在于，所述通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量，包括：

6.根据权利要求5所述的视频检索方法，其特征在于，所述通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量，包括：

7.根据权利要求6所述的视频检索方法，其特征在于，所述图像特征提取器的主干网络包括局部特征提取块和多个第一卷积层，所述局部特征提取块包括多个第二卷积层，所述第二卷积层之间通过高斯误差批正则化来修正局部特征经卷积后的分布偏差。

8.根据权利要求7所述的视频检索方法，其特征在于，所述全局特征提取块位于所述第一卷积层之间；所述全局特征提取块包括局部感知层、多头注意力层、层标准化层和反转残差前馈层；所述局部感知层用于将输入的特征图分离成r通道的特征图、g通道的特征图、b通道的特征图分别进行卷积和组合，并与输入的特征图的残差相加；所述反转残差前馈层包括残差连接的第三卷积层和逐色深卷积层。

9.根据权利要求1所述的视频检索方法，其特征在于，在所述根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量之后，所述视频检索方法还包括：

10.根据权利要求2所述的视频检索方法，其特征在于，所述根据所述文本图像嵌入向量和所述原始视频构建关系数据库，包括:

技术总结
本申请实施例提供了视频检索方法，通过将原始视频分离得到视频流、音频流和字幕流；对由音频流所映射的文本数据和字幕流提取文本特征向量；对视频流在关键帧图像的浅层表达提取图像特征向量；根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；根据文本图像嵌入向量和原始视频构建关系数据库；根据关系数据库由查询文本从多个原始视频中检索得到目标视频；利用多模态数据提升视频检索的效率和准确性。

技术研发人员：翟懿奎,柯文宇,应自炉,李文霸,周建宏,冼庭锋,谭梓峻,李博
受保护的技术使用者：五邑大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：翟懿奎柯文宇应自炉李文霸周建宏冼庭锋谭梓峻李博
技术所有人：五邑大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。