基于图文预训练模型的视频-文本检索方法及系统

文档序号：37066311发布日期：2024-02-20 21:18阅读：13来源：国知局

本发明涉及数据检索领域，更具体地，涉及一种基于图文预训练模型的视频-文本检索方法及系统。

背景技术：

1、随着各类视频平台的兴起和火爆，网络上视频的数量呈现井喷式增长。面对海量的视频资源和广泛的用户需求，如何根据用户的查询意图返回相对应的视频内容，已然成为如今一个亟需解决的问题。因此，科研工作者们开始更多地将眼光聚焦在了视频文本检索领域上。视频-文本检索指的是输入一个查询视频(文本)，要从数据库中返回与之内容上相似的文本(视频)。视频-文本检索的应用场景十分广泛，包括视频检索引擎、数字博物馆、监控事件定位、视频点播、广播电视监管等。然而，与传统文本检索文本的方式不同的是，视频和文本是两种不同来自不同模态的数据，不能直接进行相似性度量。因此，要取得良好的检索效果必须将这两种模态投影到同一语义空间，从而使得两者可以通过相似性度量的方式来实现检索功能。为了保证视觉上的连贯性，通常视频的帧率要大于24帧/s，因此一段短时间的视频就具有大量的视频帧。为了提取视频特征，先前的工作通常使用稠密采样的策略，这种方案虽然能保留原视频的全部信息，但是在时间和空间上都是十分低效的。

2、现有技术公开了一种基于预训练模型的视频文本检索方法，主要解决现有方法中数据特征异质性及冗余级联造成视频文本匹配精度低的问题；方案包括：1)获取视频数据集的帧序列及文本标注切分产生的文本序列；2)采用图文预训练模型协同提取视频和文本的特征；3)将视频以块级联形式映射，同时将协同提取应用到视频的聚合阶段，以文本表征指导聚合视频帧级特征；4)加入交叉方向上的先验概率并使用分散约束损失，完成模型训练；5)利用训练好的视频文本匹配模型得到最终检索结果。然而该方法依旧是获取视频数据集的所有帧序列，虽然能保留原视频的全部信息，但是在时间和空间上都是十分低效的。

技术实现思路

1、本发明的目的在于公开一种更高效的基于图文预训练模型的视频-文本检索方法及系统。

2、为了实现上述目的，本发明提供一种基于图文预训练模型的视频-文本检索方法，具体技术方案如下：

3、s1：获取视频以及对应视频的描述文本；

4、s2：通过基于k-means的改进聚类算法提取出视频的关键帧；

5、s3：根据关键帧得到视频的初步特征表示；根据对应视频的描述文本得到对应视频的描述文本的初步特征表示；

6、s4：将视频的特征表示进行微调，得到视频的进一步特征表示；将对应视频的描述文本的初步特征进行微调，得到对应视频的描述文本的进一步特征表示；

7、s5：根据视频的进一步特征表示和对应视频的描述文本的进一步特征表示通过计算相似度的方式检索出匹配的视频文本对；

8、s6：输出匹配的视频文本对。

9、进一步地，在步骤s2中基于k-means的关键帧提取算法，具体步骤如下：

10、s2.1：提取视频的所有帧，每一帧作为一个样本，并设置设置的阈值t；

11、s2.2：随机选取一个样本作为第一个聚类中心μ1，纳入集合θμ；

12、s2.3：如果中心点集合θμ小于k；

13、对于每一个样本xi，计算其与当前所有聚类中心的最小距离

14、di＝min{d(xi，μk)}，μk∈θμ

15、定义每个样本被选作中心点的概率使用轮盘法选取中心点θμ，并纳入集合θμ；

16、s2.4：重复步骤s2.2直到找到k个中心点作为初始聚类中心点；

17、s2.5：根据设置的阈值t，将距离小于阈值的中心点剔除。

18、进一步地，在步骤s3中，将关键帧通过clip模型视频编码器中的visiontransformer模型，得到视频的初步特征表示；将对应视频的描述文本通过clip模型文本编码器中的transformer模型，得到对应视频的描述文本的初步特征表示。

19、进一步地，在步骤s3中根据关键帧得到视频的初步特征表示具体为：

20、s3.1.1：将获得的关键帧通过滑动窗口分成一系列重叠的块；

21、s3.1.2：每个块被展平成一个向量，并经过一个全连接层，将其映射到一个固定维度的嵌入空间，得到块嵌入；

22、s3.1.3：通过位置编码来表示块的相对位置信息；

23、s3.1.4将块嵌入与位置编码相加，图像块的序列；

24、s3.1.5：图像块的序列经过一系列transformer层的处理，最后一个transformer层的输出即为视频的初步特征表示。

25、进一步地，在步骤s3中，根据对应视频的描述文本得到对应视频的描述文本的初步特征表示具体过程如下：

26、3.2.1：首先将对应视频的描述文本拆分为词汇或子词级别的最小的单元；

27、3.2.2：将每个分词后的单元被映射到一个嵌入空间，其中每个单词或子词都与一个唯一的嵌入向量相关联；

28、3.2.3：通过transformer层引入了位置编码；

29、3.2.4：将嵌入向量和位置编码相加，以得到输入序列；

30、3.2.5：将输入序列通过一系列transformer层进行处理，输出对应视频的描述文本的初步特征表示。

31、6.根据权利要求1所述的基于图文预训练模型的视频-文本检索方法，其特征在于，在步骤s4中，将视频的特征表示进行微调以及将对应视频的描述文本的初步特征进行微调，具体为通过外加两个adapter模块进行微调。

32、进一步地，在步骤s4中将视频的特征表示进行微调，得到视频的进一步特征表示；将对应视频的描述文本的初步特征进行微调，得到对应视频的描述文本的进一步特征表示的具体步骤如下：

33、首先冻结clip模型的backbone；然后使用目标任务训练两个adapter模块，得到训练后的视频对应的adapter模块a和对应视频的描述文本对应的adapter模块b；最后将视频的特征表示通过外加的adapter模块a，得到视频的进一步特征表示；对应视频的描述文本的初步特征表示通过外加的adapter模块b，得到对应视频的描述文本的进一步特征表示。

34、进一步地，在步骤s5中，根据相似度计算公式得到输入视频-文本对的相似度分数后通过优化损失函数的方式，通过反向传播更新adapter模块a和adapter模块b。

35、进一步地，损失函数的计算公式具体如下：

36、

37、其中vj，tj分别指的是根据视频的进一步特征表示和对应视频的描述文本的进一步特征，当i＝j时，表示是配对的视频-文本，sim(•)表示余弦相似度计算公式，τ是温度系数。

38、此外本发明还提供基于图文预训练模型的视频-文本检索系统，包括：

39、获取模块：用于获取视频以及对应视频的描述文本；

40、提取模块：用于通过基于k-means的改进聚类算法提取出视频的关键帧；

41、初步特征模块：用于根据关键帧得到视频的初步特征表示；根据对应视频的描述文本得到对应视频的描述文本的初步特征表示；

42、进一步特征模块：用于将视频的特征表示进行微调，得到视频的进一步特征表示；将对应视频的描述文本的初步特征进行微调，得到对应视频的描述文本的进一步特征表示；

43、计算模块：用于根据视频的进一步特征表示和对应视频的描述文本的进一步特征表示通过计算相似度的方式检索出匹配的视频文本对；

44、输出模块：用于输出匹配的视频文本对。

45、与现有技术相比，本发明技术方案的有益效果是：

46、本发明提出了基于k-means的改进聚类算法提取出视频的关键帧，采用k-means++的思想，即初始化的k个中心点互相距离越远越好，这样的话可以尽量保证能提取出的关键帧能展现视频中的不同场景。既保证了关键帧是出自本视频的，又保证了提取的关键帧是否能很好地表达视频内容。本发明既保留了视频的完整信息，又去除了冗余的帧，因此本发明在视频-文本检索上的性能和效率上都能取得良好的表现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张达庆
技术所有人：中山大学
我是此专利的发明人

上一篇：一种混凝土地坪排水沟成型构造的制作方法
上一篇：一种三元催化器的防护装置、发动机及车辆的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。