一种基于弱监督的跨模态视频时段检索方法

文档序号:34104316发布日期:2023-05-10 19:17阅读:74来源:国知局
一种基于弱监督的跨模态视频时段检索方法

本发明提出了一种新的基于弱监督的跨模态视频时段检索方法,用于跨模态的文本检索视频时段任务。本发明针对该任务,提出了一种新的网络架构,引入了一种新的候选时段生成模块,该模块能够有效地利用视频的时间关系,并生成更准确的可变长度候选时段,并设计多任务损失,其中包括重构损失,排序损失,精准选择损失,使其定位出更加精准的开始点和结束点。本发明采用端到端的方式,在两个基准数据集上的大量实验结果证明了该方法的有效性。


背景技术:

1、人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用,如记忆,空间推理等。受人类可视化的能力的启发,构建一个在语言和视觉之间转化的跨模态系统,也成了人工智能领域新的追求。

2、视频是一种更准确、高效和便捷的信息共享和传递的方式,相比书面文本和静态图片而言。近几年,由于短视频平台的爆炸式发展,视频逐渐成为主流的信息传递媒介,但是由于视频采用二进制方式进行存储,且视频的元数据不可被检索,导致,很多视频相关工作必须由人工来完成,比如警察在查监控的视频无法根据描述信息快速定位出需要的时段,必须由人工观看获取想要的信息;再比如,视频审核工作也是由人工完成,无法根据关键字直接排查不合规的视频。但是,随着近些年深度学习的发展,使得跨模态的文本定位视频段成为可能。通过跨模态的弱监督视频时段检索,可以以文本描述为条件,检索出与文本描述语义相关的视频时段的开始点和结束点。文本描述能够携带对象的属性,空间位置,关系等密集的语义信息,根据这些信息,完成语言到视觉信息的检索。

3、此任务的定义就是:根据用户输入的文本描述,从一整段视频中检索出与用户输入描述语义相关的视频时段的开始点和结束点。从一整段视频中检索出感兴趣的时段是一种复杂的计算机视觉和深度学习任务,需要深刻了解文本语义和视频语义,然后进行跨模态的匹配,在多个领域有非常重要的作用,比如监控检索,视频审核,用户搜索等。

4、现在的做法大致可以分为两类,强监督的做法和弱监督的做法。此任务刚开始是强监督的方式,数据集必须提供对应文本描述的开始点和结束点的标注,但是,这就有个问题,就是这些数据需要人工进行标注,非常耗费时间和精力,且根据每个个体的差异,标记出来的时段也各有不同。因此,一个新的任务方式被提出,就是弱监督视频时段检索任务,该任务相比于之前的任务,最大的差别就是不再需要具体的开始点和结束点的时间标注,只需要文本和其对应的视频,就可以检索出与文本语义最相关的时段,从而实现文本到视觉的检索。由于缺少监督信息,因此,该任务带来了更大的挑战。本文是基于弱监督的方式实现跨模态视频时段检索,因此,接下来重点讨论弱监督的做法。

5、基于弱监督视频时段检索任务出现后,一共有两种主流的做法,第一种是一阶段方法,就是根据指定的文本描述信息,直接从视频中定位出与之相关的视频时段的开始点和结束点,这种方式看似完美,但是,确给网络造成了非常大的压力,需要从无限多种时段区间的可能性中选择一种,导致性能不太好。这时,就有人提出了第二种做法,就是两阶段的方法(本文采用的方法也是属于两阶段方法),首先,将一种段完整的视频根据指定的划分依据划分出一些候选的视频时段,然后从这些候选的视频时段中检索出一个最匹配的作为结果进行返回,因此,如何划分视频时段就是一个非常重要的话题,关系到后续是否可以选出最合适的视频时段。

6、然而,现在的模型仍然存在一些限制和缺陷,对于一阶段的方法,性能远不及两阶段的方法,故不做讨论,对于两阶段方法,一个突出的缺点就是,无法限制网络选择更加精确的时段,比如有两个候选的时段,一个比较长,涵盖目标时段,则此时网络可能就不会继续寻找更加精确的时段,我们这里提出了精准选择损失用于限制模型选择更加精确的比较短的时段,而不是只满足于现状。

7、另外我们引入的候选时段生成策略,使得最优的候选时段与真实时段的相似度可以达到99%以上,基本就相当于找出了目标时段。我们的目标是从这些候选的视频段中选择出与真实时段最相似的作为结果输出。这样的话,不会因为选择区间过大导致性能过差。

8、最后,我们改进了弱监督的监督模块,通过候选的视频时段特征作为监督,还原出句子中被挖出了关键字,直觉上,如果还原的效果比较好,说明该视频时段与该句子更加的匹配,根据这一点,选出最合适的视频时段。


技术实现思路

1、本发明的目的是针对现有技术的不足,提出了一种新的跨模态视频时段定位网络架构,用于解决这些问题,生成更加精准的视频时段的开始点和结束点。本发明提出的精确选择损失使得模型优先考虑比较短的与目标时段相近的时段,而不是比较长的包含目标时段的候选时段,并改善了候选时段生成的方式,使得生成的候选时段最优解与真实时段的相似度达到99%,最后,改进了重构损失的重构方式,降低重构的压力,同时排除非关键词减少杂质,从而提升模型的性能。

2、本发明一种基于弱监督的跨模态视频时段检索方法,解决其技术问题所采用的技术方案包括如下步骤:

3、步骤(1)、数据预处理,即文本及视频特征提取;

4、步骤(2)、构建网络整体架构及设计损失函数;

5、步骤(3)、模型训练,优化网络参数;

6、给定一个未剪辑的视频v和一个文本句子q,目标是根据文本句子的语义信息,选择一个最匹配的视频时段,将文本句子表示成其中,qi表示句子中的第i个单词,lq表示一个句子中单词的数量;将输入的视频特征表示为其中,vj表示第j个视频向量,lv表示视频向量的数量,目标是找到一个从vs到ve连续的视频特征序列,其语义信息与输入的文本句子q相同。

7、所述的步骤(1)数据预处理具体实现如下:

8、两个数据集包括activitynet caption和charades-sta。

9、activitynet caption数据集包含19,209个视频和100k个手工标注的带有时间信息的文本句子;使用37417组视频-文本对进行训练,17031组视频文本对进行测试。

10、charades-sta数据集由10,000个带有活动标注的视频和相应的用于描述视频的文本句子组成。数据集包括12,408对用于训练的视频文本对和3,720对用于测试的视频文本对。

11、所述的数据预处理即文本及视频特征提取,对于文本数据的特征提取,使用斯坦福大学开源的一个词向量数据文件glove,其实就是一个词和一个向量的一一映射,得到所需的文本特征。

12、对于视频的特征提取,首先将视频转换成一组有时间先后关系的图片序列,然后使用一个预训练的c3d网络,每16帧提取出一个4096维度的向量,处理完成后,将获取一个向量序列,这就是抽取出的视频特征。

13、进一步的,步骤(2)具体实现如下:

14、网络模型主要分为两部分:候选时段生成模块和语义重构模块;所述的候选时段生成模块用于生产多种多样长度的候选时段,最终会从这些候选中选出最优时段作为结果进行输出;所述的语义重构模块就是负责对候选时段生成模块选出的最优时段进行评分,监督候选时段生成模块从候选时段中选出更加精准的最优时段。

15、进一步的,候选时段生成模块具体实现如下:

16、首先对提取的文本特征融入上下文信息,采用transformer结构,同时采用正弦和余弦函数,对应的位置表示当前单词的位置信息,因此,每个单词的位置编码信息通过如下公式表示:

17、pe(pos,2x)=sin(pos/100002x/dmodel)

18、pe(pos,2x+1)=cos(pos/100002x/dmodel)

19、其中,这里的i表示位置编码向量的第i个维度,pos表示当前单词在文本句子中的位置,dmodel表示词向量的维度

20、然后设计一个文本编码器encq接受输入的文本句子q和位置信息pe,这个文本编码器encq会生成带有上下文信息的文本表示其中,表示句子中的第i个单词融入上下文信息之后的特征表示,lq表示一个句子中单词的数量

21、其次,文本表示和视频表示通过一个视频解码器decv将文本表示和视频表示v进行融合,该视频解码器首先会使得视频表示v融入上下文信息,然后将文本表示融入到视频中,生成跨模态表示。具体来说,该视频编码器的功能是将文本表示和视频表示v进行集成,采用transformer的decoder层,模块的输入是由两部分组成的,一部分是已经融入上下文信息的文本表示另一部分是提取的视频表示v(是通过c3d网络提取的视频特征,但是尚未融入上下文信息),最终跨模态表示为:此过程通过公式表述为:

22、

23、其中,生成的是包含文本表示和视频表示v的跨模态表示。

24、将接收到的跨模态表示转换成二维的时空图,具体来说,首先,将输入的跨模态表示划分成lv份独立的视频段,然后采用固定间隔采样的方式,间隔从1一直到lv,划分完毕之后,每一个视频段ct包含t个连续的向量,从中选取n个视频段,表示成

25、然后,根据分割出的视频段建立候选时段的时空图,为了获取每一个候选时段的特征,在每一个候选时段指定的时间间隔内应用最大池化,表示为m(a,b)=maxpool(ca,ca+1,...,cb),这里的a和b是视频段开始位置和结束位置的索引,范围是1≤a≤b≤n。因此,生成的跨模态信息被转换为时空图表示为前两个维度定义时段开始和结束索引的位置,第三个维度表示特征向量的维度,值得注意的是,时段的开始位置和结束位置的索引a和b应满足a≤b。因此,在二维时空图中,所有位于a>b区域的候选区,即地图的下三角区域,都是无效的。在实践中,这个区域的值是用零填充的。之后,采用二维卷积的方式处理该时空图,然后通过全连接层,生成对应的分数矩阵,表示为ms∈rn×n。

26、之后,采用一个选择算法选择出最优的前k个候选时段及其相对应的置信度得分(来自于ms∈rn×n),其中这里的gk是一个二元组,表示为分别是该候选时段的开始位置和结束位置。所有的候选时段都是根据它们相关的置信度得分进行排名的。选择最优时段,其置信度得分是最重要的参考依据。但是,初始训练时,模型性能比较差,如果全部选择评分高的时段,可能导致忽略掉更加合适的候选时段,因此,引入一个随机概率p,基于随机概率p,随机选择一个候选时段(使得我们不会错过更加合适的候选时段),同时使用非最大抑制(nms)去除与所选时段有显著重叠程度的候选时段。随机概率p由一个衰减函数定义,该函数依赖于参数更新之间的时间间隔nupdatep=λ1·exp(-nupdate/λ2)

27、其中,λ1和λ2是超参数,随着训练次数的增加,随机选择的可能性会逐渐减少,最终将会获取前k个候选时段和他们相对应的置信度得分

28、进一步的,语义重构模块具体实现如下:

29、针对选出的前k个候选时段进行评分,应用的语义重构模块实现,语义重构模块衡量候选时段生成模块选出的k候选时段和文本句子之间的语义相似性,并将获取的语义相似性反馈给候选时段生成模块,鼓励候选时段生成模块选出更加优秀的候选时段,具体实现如下;

30、首先,从抽取候选时段的视频特征,对于一个具体的二元组将其抽取得到的视频特征表示为然后将fk输入到encv这个视频编码器使其融入上下文信息。

31、对于文本信息的处理,我们获取原始的文本句子通过屏蔽许多重要的词向量(比如说名词,动词)来创建掩码词序列,在实现中,被遮挡的词向量位置通过0向量进行填充。

32、最后,使用decq将候选时段的视频特征表示fk和被遮挡的词向量序列进行融合,形成跨模态的语义表示。具体来说,候选时段生成模块提供h个候选时段,文本解码器首先将使得文本融入上下文信息,之后将其复制h份,然后将视频信息分别融入到对应的词向量序列中,形成文本跨模态表示(我们的直觉是,如果一个文本和一个视频越相似,其视频信息更加有益于文本信息的重构)。

33、基于该文本跨模态表示将预测被屏蔽的词向量,通过一个全连接网络,将其映射到一个包含所有词汇的能量分布该过程通过公式表示为:

34、

35、其中w和b是超参数,表示第k个跨模态表示中的i个词向量,表示第i个单词位置的能量分布,这里的lw表示单词表中词汇的数量。我们的目标是使得如果对应词汇表中的单词语义与被遮挡之前对应位置单词语义类似,则其能量分布越高。

36、进一步的,所诉的损失函数具体实现如下:

37、本部分介绍优化模型时所使用的多任务损失,包括重构损失、精准选择损失和排序损失。重构损失成功地为网络训练提供了一种无监督的信息,而精准选择损失和排序损失有助于进一步微调候选时段生成过程。

38、重建损失。利用能量分布ei训练语义重构模块,并推动语义重构模块从视觉上下文中检索关键信息,以预测掩码词。具体来说,我们计算每个掩码词的负对数概率,并将它们相加,表示为:

39、

40、其中,表示基于视频特征gk和p(qi+1|q1:i)(根据第1个单词到第i个单词预测第i+1个单词)计算而来的重构损失。重构损失的目标是使预测出的下一个词与真实下一个词尽可能相同

41、精准选择损失。为了帮助候选生成模块选择更精确的候选时段,这里指定了一个惩罚损失。如果被选中的候选时段持续时间较长,则惩罚会增加。这可以表示为:

42、

43、其中,m是惩罚矩阵。s表示置信度得分。根据不同的时段长度分配不同的权重使其更加倾向于选择更加短而准确的时段。

44、排名损失。我们使用排序损失来训练候选时段生成模块,以便调整它提供的置信度得分。更具体地说,使用一个奖励函数将奖励因子rk分配给二元组gk,它在1/(k-1)的范围内从1减少到0。

45、然后,利用梯度下降法对评分进行校正。值得注意的是,置信度得分是使用一个softmax层进行标准化的,这对于突出语义兼容的候选和弱化不匹配的候选至关重要。与二元组gk相关的排序损失计算如下:

46、

47、其中,k表示第k个候选时段,即表示第k个候选时段的排序损失,si表示第i个候选时段的置信度分数,rk表示第k个候选时段的奖励因子,损失函数的目标是让得分高的候选时段获得更大的奖励因子。

48、因此,通过计算一个多任务损失来端到端训练整个网络结构,多任务损失定义表示为:

49、

50、这是最终的损失函数,由精准选择损失、重构损失和排序损失组成,其中k表示所选候选时段的数量,其中α用于平衡排序损失和重构损失的权重,β用于平衡精准选择损失和其他损失的权重。

51、进一步的,步骤(3)模型训练阶段具体实现如下:

52、根据之前设计的损失函数,在训练过程中,通过反向传播算法(back-propagation,bp)对模型参数进行更新,直至模型收敛。训练结束保存的整个网络模型,可以根据指定的文本句子检索出语义相关时段的开始点和结束点。

53、本发明有益效果如下:

54、提出了一种新的弱监督跨模态视频时段定位框架,设计了一种多任务损失的弱监督优化网络。

55、我们引入了一个候选时段生成模块,该模块能够有效地利用视频的时间关系,生成更精确的变长候选时段。

56、在两个基准数据集上的大量实验结果证明了该方法的有效性。我们的跨模态时段定位网络取得了非常有效的效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1