一种基于内容感知的视频摘要生成方法

文档序号:33157669发布日期:2023-02-04 00:00阅读:103来源:国知局
一种基于内容感知的视频摘要生成方法

1.本发明涉及一种基于内容感知的视频摘要生成方法,属于计算机视觉技术领域。


背景技术:

2.近年来随着视频捕获设备的普及,视频的数量急剧增长。面对海量视频,人们一般只能通过完整地观看完视频之后才能找到最重要的部分。而想要从动辄若干小时的监控视频找出关键的片段则需要花费大量的时间和精力,带来了昂贵的人工成本。作为一种可以有效地提升视频浏览效率的方法,视频摘要已经成为一个计算机视觉领域的热门研究课题。在理解视频内容的基础上,其目的是去除冗余部分,生成一个可以传达全面且有价值的信息的视频概要。
3.宽泛地来讲,视频摘要主要可以分为静态方法和动态方法。静态方法的目标是选择一组帧(称为关键帧)作为摘要结果,而动态方法目的是选取若干时间较短的子镜头(称为关键镜头),每个子镜头都由连续的视频帧组成。基于关键镜头的视频摘要方法在一定程度上保留视频当中的部分视听数据和运动信息,因此更易于用户理解。鉴于此,本发明将重点放在基于关键镜头的视频摘要方法上。
4.迄今为止,现有方法在视频摘要领域取得了前所未有的进步。大多数传统方法通常使用低级特征来选择有意义的片段。然而,这些特征缺乏丰富的语义信息,并且传统方法很少利用视频中的时间线索,这为理解视频内容带来了困难。最近,基于深度学习的模型在总结视频方面受到了广泛的关注。许多有效的方法已经认识到全局建模的重要性,并相应地探索了一些架构来将视频序列全局上下文化。例如,为了预测重要性得分,zhang等人将帧级特征表示输入到bi-lstm中进行上下文建模,但是丢失了视频序列中的一些有价值的细节信息。rochan等人使用卷积层来编码局部时间关系,但无法有效捕获长距离依赖。
5.为了提高网络理解视频内容的能力,在一些方法中,长距离和短距离时间线索都被考虑在内,并且也取得了一定的进步。然而,这些方法通常都会采用将完整的视频序列进行等长分割,然后再对每个子序列进行局部上下文信息建模的流程。由于这些视频中存在各种视觉内容,粗略地聚合包含不相关数据的时间线索可能会降低摘要性能。因此,亟待一种有效的视频摘要方法来解决上述问题。


技术实现要素:

6.针对现有方法中存在的问题,本发明的目的在于提供一种基于内容感知的视频摘要生成方法。
7.根据本发明的一个方面,提供一种基于内容感知的视频摘要生成方法,包括:通过特征编码器将视频帧编码为帧级特征向量;构建视频摘要生成模型预测帧级重要性分数,包括:特征增强模块,所述特征增强模块将帧级特征向量作为输入,用于特征预增强,弥补每帧内容与视频整体内容之间的关系鸿沟;
上下文建模模块,所述特征增强模块的输出作为所述上下文建模模块的输入,所述上下文建模模块用于挖掘输入视频序列的全局和局部上下文信息,充分理解视频内容;动态上下文融合模块,所述上下文建模模块的输出作为所述动态上下文融合模块的输入,所述动态上下文融合模块用于融合不同语义尺度的上下文信息,避免由语义尺度差异产生的融合不充分的问题;重要性分数预测模块,所述动态上下文融合模块的输出作为所述重要性分数预测模块的输入,所述重要性分数预测模块用于回归帧级重要性分数;采用监督学习的学习范式训练所述视频摘要生成模型,包括:计算帧级重要性分数和人工标签值之间的均方误差作为目标损失函数;采用adam网络优化器更新所述视频摘要生成模型中的网络参数;选择包含最多关键信息的子镜头,输出动态视频摘要。
8.优选地,构建所述特征增强模块,包括:对帧级特征序列和视频级特征序列进行矩阵乘法,得到每一帧与视频内容的语义相关性得分,经过softmax函数输出注意力分数;将所述注意力分数与帧级特征向量进行逐元素相乘得到增强特征向量。
9.优选地,所述视频级特征被定义为所述帧级特征的平均值。
10.优选地,构建所述上下文建模模块,包括:通过自注意力机制在完整的视频序列上建模,挖掘输入视频中的全局上下文信息;通过卷积运算在局部窗口内挖掘输入视频中丰富的局部上下文信息。
11.优选地,挖掘所述局部上下文信息通过提前设置不同的局部窗口大小完成,并采用深度可分离卷积以降低运算复杂度。
12.优选地,构建所述动态上下文信息融合模块,包括:根据逐元素相加计算初始上下文特征;第一融合路径,所述第一融合路径采用卷积操作聚合局部的初始融合上下文特征;第二融合路径,所述第一融合路径采用全局平均池化和卷积操作聚合全局的初始上下文信息;将所述第一融合路径和所述第二融合路径的输出进行逐元素相加并依次经过归一化层和sigmoid层输出融合系数,并执行特征融合,输出融合的上下文特征。
13.优选地,构建所述重要性分数预测模块,包括第一全连接层,relu层,归一化层,dropout层,第二全连接层和sigmoid层。
14.优选地,所述选择包含最多关键信息的子镜头,输出动态视频摘要,包括:通过kts镜头分割算法检测视频镜头,平均每个镜头内的重要性分数,得到镜头级重要性得分;规定摘要最大时长,采用动态规划算法获取最优解。
15.与现有技术相比,本发明具有如下有益效果:1、本发明提出了一种新颖的基于内容感知的视频摘要生成方法,不包括任何递归结构,在提升计算效率的同时,可以充分挖掘视频中的语义信息从而有效地理解视频内容;
2、针对本发明创新性地将卷积运算和自注意力机制进行结合,对小范围帧序列进行处理,克服了局部信息提取粗糙、信息混乱的问题,保证提取信息的有效性;3、本发明在summe和tvsum两个基准数据集上进行了充分的实验,采用了更加全面的评价指标,包括f分数和相关性系数。在两种指标下的实验结果充分证明了本发明方法的有效性。
附图说明
16.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明提供的一个实施例的一种基于内容感知的视频摘要生成方法流程图;图2为本发明提供的一个优选实施例中一种基于内容感知的视频摘要生成方法整体框架图;图3为本发明提供的一个优选实施例的上下文建模模块的示意图;图4为本发明提供的一个优选实施例的动态上下文融合模块的示意图;图5为本发明提供的一个优选实施例的重要性分数预测模块的示意图。
具体实施方式
17.为了使本领域的技术人员可以更清楚地对本发明进行了解,下面结合具体实施例进行说明。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
18.如图1所示,为本发明提供的一个实施例的基于内容感知的视频摘要生成方法流程图,包括:s1,通过特征编码器将视频帧编码为帧级特征向量;s2,构建视频摘要生成模型预测帧级重要性分数;s3,采用监督学习的学习范式训练所述视频摘要生成模型;s4,选择包含最多关键信息的子镜头,输出动态视频摘要。
19.本发明提供了一个优选实施例执行s1。给定一个视频,首先以2fps的采样速率对视频序列进行下采样,得到视频帧序列,其中表示第个视频帧,表示视频帧总数量。然后采用在imagenet数据集上预训练的googlenet网络作为特征编码器将每一帧编码为特征向量。值得注意的是,取googlenet网络的pool5层的输出作为每一帧的特征表示。特征序列记为,其中表示第个视频帧的特征向量。
20.本发明提供了一个优选实施例执行s2。本实施例目的在于利用设计的视频摘要生成模型挖掘全局和局部的上下文依赖关系,得到可以有效表征视频内容的上下文特征,进而预测每一帧的重要性得分。如图2所示,为本实施例网络模型的整体框架图。该网络包含4个部分:特征增强模块、上下文建模模块、动态上下文融合模块和重要性分数预测模块。4个部分的具体构建步骤如下:s21,构建特征增强模块。具体来说,该模块将帧级特征序列作为输入,首先计算视频级特征表示,定义为,它在语义上表征视频整体内容。然后,利
用注意力机制计算帧级特征与视频级特征之间的语义相似分数,其中表示第帧与视频内容的相关性分数。计算过程可以表示为:其中,为缩放系数,用于避免梯度消失。和为需要学习的参数。然后,增强后得到的特征由逐元素相乘得到,表示为:其中表示元素的乘积。是要学习的投影参数。通过这种方式,所提出的特征增强模块可以提供有价值的指导信息,使网络学习到有效的特征表示,从而充分且准确地挖掘视频中的时间线索。
21.s22,构建上下文建模模块。如图3所示,为上下文建模模块的示意图。该模块将增强特征作为输入,通过聚合不同帧之间语义信息理解视频内容,最终输出全局上下文信息和局部上下文信息。在模块实现方面,本发明避免使用递归神经网络(recurrent neural network)来保证网络训练过程的并行计算,降低计算开销。
22.全局上下文信息在完整的视频帧序列经过自注意力机制计算得到。相比于递归神经网络,自注意力机制可以经过简单的矩阵运算得到当前位置对其他位置的响应,从而实现有效的时间信息建模。该过程可以表述为:其中,,和为需要训练的网络参数。
23.局部上下文信息通过卷积运算得到。具体来说,为了捕捉丰富的局部上下文信息并实现计算效率和摘要效果之间的平衡,预先规定两个不同大小的局部窗口,分别记为和。本发明采用深度可分离卷积进行计算。对于大小为的局部窗口,计算公式如下:其中是通道中第个位置的值。最终输出通过计算不同窗口大小下的结果逐元素之和得到。
24.s23,构建动态上下文融合模块。如图4所示,为动态上下文融合模块的示意图。该模块将全局上下文信息和局部上下文信息作为输入,输出融合后的特征。具体分为以下4步:第一步:对和执行逐元素相加操作,得到初始融合结果。公式表示为:
第二步:通过第一融合路径计算局部的初始融合上下文特征,该过程表述为:其中表示一维卷积运算,表示relu激活函数,用于表示特征维度的变化。
25.第三步:通过第二融合路径计算全局的融合上下文特征,该过程定义为:该过程定义为:第四步:将全局融合上下文特征和局部融合上下文特征经过归一化和sigmoid层,输出融合系数,并进行特征融合。该过程表述如下:利用该融合模块,本发明可以在保留重要信息的前提下进行充分且高效的上下文融合,以准确地表征视频内容。
26.s24,构建重要性分数预测模块。如图5所示,为重要性分数预测模块的示意图。该模块的作用是根据上下文特征预测每个镜头的重要性分数。
27.具体来说,该模块首先将上下文特征送入全连接层来传递深层特征,然后经过relu层、dropout层和归一化层降低过拟合的风险并加快模型收敛。接着再将得到的特征送入全连接层,将高维特征映射到低维,并采用sigmoid函数将特征值限制在0和1之间来表示每一帧的重要性程度。
28.本发明提供一个实施例执行s3。在本实施例中,训练损失函数使用均方误差损失(mean square error)。该损失函数可以有效的衡量预测的重要性得分与人工标签值之间的差异,并通过网络参数更新使预测的重要性得分与人工标签一致。
29.具体来说,模型预测得到的重要性分数被表示为,人工标签被表示为。损失函数定义为:在本实施例当中,设置批大小为1,学习率和权重衰减分别设置为和,使用adam优化器优化网络参数,训练过程持续300轮。
30.基于上述实施例,本发明提供了一个优选实施例执行s4,选择包含最多关键信息的子镜头,输出动态视频摘要。
31.具体来说,首先采用核时间分割算法将完整的视频序列分割成个子序列,每个子序列被看作一个镜头。根据人工标签值,计算每个镜头内的重要性得分的平均值作为镜头级重要性分数。
32.然后,规定摘要的最大长度不能超过输入视频总长度的15%,创建背包问题,根据动态规划算法进行求解,得到最佳摘要结果。该问题可以用数学表示为:
其中表示是否选择第个镜头,和分别表示第个镜头的重要性分数和镜头长度,为视频的总长度。然后根据选择得到的镜头按照时间顺序进行重组,输出最终的动态视频摘要。
33.为了验证以上实施例的有效性,将本发明应用于实际,通过计算f分数(%)来与其他先进方法进行对比。具体来说,使用基准数据集summe和tvsum来评估该网络。summe由25个视频组成,视频时长从1到6分钟不等,每个视频由15-18个用户手动注释。tvsum包含50个视频,持续时间为2到10分钟。每个视频都有20个用户注释的帧级重要度分数。每个数据集被分割成两个不相交的部分:80%的视频用于训练,其余的用于测试。最终报告5次实验结果的平均值。
34.实验结果如表1所示。从报告的值中可以观察到,与其他最先进的方法相比,该方法在两个数据集上都取得了非常有竞争力的性能。该网络使用了注意力机制来捕获跨帧的长距离依赖关系,这显然比基于rnn结构的方法表现更好,因为自我注意力在处理长距离序列方面非常出色。并且本发明采用了标准的5折交叉验证来测试模型性能,相比于采用5次随机划分数据集的方法来说,本发明的测试结果更加全面。
35.表1 与先进方法的f-score对比结果此外还采用kendall’s τ和spearman’s ρ评价指标对本发明进行了测试。实验结果如表2所示。从实验结果可以得出结论,该方法在更有效的评估方法上远优于现有方法,甚至优于人类标注的摘要结果,这表明人类注释中存在内部不一致,而该方法可以有效地满足多个用户的偏好。以上所有实验结果充分证明了该方法的优越性。
36.表2 与先进方法的kendall’s τ和spearman’s ρ对比结果
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1