一种幻灯片切换检测方法、系统、终端及存储介质与流程

文档序号:18011312发布日期:2019-06-26 00:07阅读:179来源:国知局
一种幻灯片切换检测方法、系统、终端及存储介质与流程

本发明涉及一种视频信息处理方法,尤其是一种基于时、空残差深度学习网络模型的幻灯片切换检测方法及系统。



背景技术:

随着信息化浪潮和多媒体技术的发展,视频信息的直观性、确切性、高效性使得数字视频的应用越来越广泛,而互联网将这种视觉盛宴又紧密地联系在了一起。目前,在线学习已经成为一个重要的获取知识的方式,人们用智能化设备在会议室或者教室中录制了各种形式的学习视频,又通过互联网将其传播给更多的人。然而这些视频未经任何结构化处理,学习网站将整个视频呈现给用户。如果用户对某个知识点感兴趣,往往需要浏览整个视频才能找到对应的知识点,这样会耗费用户的大量时间和精力。据统计数据,youtub视频上传大约是每分钟400小时的视频量。如果这些视频都未经处理,那么大量的学习者会被这些学习视频淹没,并降低他们的学习兴趣。因此,对于在线教育或者其他应用来说,自动化提取演讲视频中的代表性信息并作演讲视频摘要是非常重要的。其中幻灯片切换检测是演讲视频摘要中最为关键的技术之一,是很重要的研究课题。

演讲视频有很大一部分视频类型是带幻灯片播放的视频,在这类视频中幻灯片切换检测是演讲视频摘要的一个重要研究点。通过ptz(pan-tilt-zoom)相机将包含演讲者、投影幻灯片、观众录制成演讲视频。根据视频录制方式的不同,可以将演讲视频分成三种类型:静止的相机镜头录制、移动的相机镜头录制和相机镜头切换录制。由于演讲视频不仅记录了投影区域,也同时记录了演讲者和观众,而演讲者和观众这些背景对幻灯片切换检测造成一定的干扰,如相机镜头移动,相机镜头切换和演讲者的移动等。而且,幻灯片切换往往发生在一个很短的时间内投影区域内容的变化,很难用人工去识别切换时刻。因此演讲视频幻灯片切换检测是一个有意义且有挑战性的工作。

由于复杂的噪声干扰,针对不同类型的视频国内外学者也提出了一些检测的方法。一些方法提出利用视觉特征检测相邻帧的图像相似度,例如颜色直方图,sift,hog和小波等。但是这些方法并没有把演讲者的移动、镜头的移动和镜头的切换这些干扰考虑进去,比如镜头从电脑屏幕切换到演讲者,这种情况下会造成视频的变化。还有一部分方法针对的是特定视频类型,如没有镜头切换的单镜头和固定镜头拍摄。这些方法都有各自的局限性。

本申请人之前申请的中国专利,申请号为:201710878115.4,公开了一种基于稀疏时变图的幻灯片切换检测方法。对多摄像机拍摄的有演讲者,幻灯片和观众的演讲视频,首先通过特征点检测和匹配将视频分段,通过对每个时间点将每段视频作为节点建立稀疏图,可以将幻灯片切换检测问题转化为推测图邻接矩阵问题。邻接矩阵间的变化反映出了幻灯片切换。该专利申请在处理静止镜头以及镜头切换类型的演讲视频上效果较好,但是却在处理演讲视频中有复杂镜头移动,如镜头移动、缩放、切换等同时存在的情况下误差较大。另外,该专利申请是基于传统图像特征点,忽略了相邻帧之间的切换信息。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种基于时、空残差网络模型的幻灯片切换检测方法、系统、终端及存储介质,能有效处理镜头移动/缩放、演讲者移动、镜头切换等干扰下的幻灯片切换检测问题。相比现有技术,本发明利用时、空残差网络模型检测幻灯片切换,能克服演讲视频有镜头移动/缩放、演讲者移动和多个ptz镜头切换等的干扰,方法精确度高,处理演讲视频种类的范围广。

本发明采用一种将卷积核从2d延伸到3d的3dconvnet卷积神经网络来提取视频的空间和时间特征。随着叠加的卷积层数的增多,3dconvnet会耗费更多的内存,这会对模型的训练造成一定的困难。为了解决这个问题,本发明采用了残差网络模型(residualnetwork,resnet)。本发明提出的新的卷积网络模型不仅节省了训练时间,也更易于训练得到更好的幻灯片切换检测结果。

根据本发明的第一方面,提供一种基于时、空残差网络模型的幻灯片切换检测方法,包括:

将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;

采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构;在所述卷积神经网络结构后连接一个三分类输出层,该三分类输出层用以获得视频帧卷的分类信息,得到三分类卷积神经网络模型;在三分类网络模型的结构、3dconvnet网络中的3d卷积模块和残差网络模型resnet网络中的残差模块的基础上设计时、空残差网络模型;

利用3dconvnet网络中的3d卷积模块来提取所述视频帧的时、空特征,将残差网络模型resnet中的残差模块融入到3dconvnet网络中的3d卷积模块中得到3d卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;其中:

将训练视频分割成多个包含视频帧的视频帧卷,将这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;

将测试视频的视频帧卷送入训练好的时、空残差网络模型中获得分类结果,检测出幻灯片切换时刻。

优选地,所述三分类卷积神经网络模型的结构为12层卷积神经网络结构,包含8层卷积层和4层全连接层;随着网络加深,图像的宽度和高度都在以一定的规律不断减小,每次池化后图像的宽度和高度刚好缩小一半,信道数目不断增加一倍;最后的输出层为三分类输出层用以获得视频帧卷的分类信息。网络结构很规整,没有那么多的超参数,专注于构建简单的网络。

优选地,所述提取图片空域特征的网络结构的设计原则,主要遵循了以下两种设计原则:

-如果3d卷积残差模块输入和输出的时、空特征图尺寸相同,卷积神经网络的卷积核的通道数不发生变化;

-如果3d卷积残差模块输出的时、空特征图的尺寸是输入的时、空特征图尺寸的一半,卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性。

优选地,所述3dconvnet网络中的3d卷积模块应用3d卷积层和3d池化层来模型化提取所述视频帧的时、空特征图,所述残差网络模型resnet网络的残差模块应用短连接和恒等映射提高模型学习效率;将所述残差网络模型resnet中的残差模块融入到3dconvnet网络中的3d卷积模块得到3d卷积残差模块;所述3d卷积残差模块的短连接中包含了一个1×1的3d卷积层,用以保证3d卷积残差模块的输出和1×1的3d卷积层映射之后输出的维度一致。

优选地,所述3d卷积残差模块的短连接中包含了一个1×1的3d卷积层,用以保证3d卷积残差模块的输出和1×1的3d卷积层映射之后输出的维度一致的方法是:

在所述3d卷积残差模块中包含两层卷积层,因此,残差映射f(x)表示为

f(x)=ω2σ(ω1x+b1)+b2

其中,x表示输入,ω1表示第一层卷积层的权重系数;ω2表示第二层卷积层的权重系数;b1表示第一层卷积层的偏差量;b2表示第二层卷积层的偏差量;

σ表示relu的激活函数:

其中,x表示输入;

为了使输入x和残差映射f(x)的维度相同,添加了1×1的3d卷积层在短连接上,得到加权的映射h(x),表示为

h(x)=wsx

其中,ws是加权值矩阵,用于匹配输入x和残差映射f(x)的维度;

则映射方程z(x)变为:

z(x)=f(x)+h(x)。

优选地,所述时、空残差网络模型,设有八层卷积层和四层全连接层,卷积层在前,全连接层在后,每层卷积层顺序连接,将四层全连接层接到卷积层之后。

优选地,所述时、空残差网络模型中,损失函数采用分类网络用的交叉熵损失函数。

优选地,所述交叉熵损失函数是:

其中,x表示输入,class表示该输入所属分类的真实值,n是输入的视频帧的数量,x[class]表示所属分类在输入中所得的分值,x[j]表示第j类在输入中所得的分值。

优选地,所述将这些视频帧卷分类后送入到时、空残差网络模型中进行训练,其中采用单路的网络模型对输入的视频帧卷中的两帧提取时、空域特征,使用adam算法对所述时、空残差网络模型进行训练。

根据本发明的第二方面,提供一种基于时、空残差网络模型的幻灯片切换检测系统,包括:

分割模块:将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;

分类网络结构设计模块:采用提取图片空域特征的网络结构的设计原则设计卷积神经网络结构;其中,提取图片空域特征的网络结构的设计原则为:如果分类网络结构输入、输出的特征图尺寸相同,卷积神经网络的卷积核的通道数不发生变化;如果分类网络结构输出的特征图尺寸是输入的特征图尺寸的一半,卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性;卷积神经网络的后端连接一个三分类输出层用以获得视频帧卷的分类信息,形成分类网络结构;

时、空残差网络模型构建模块:利用3dconvnet网络中的3d卷积模块来提取所述视频帧的时、空特征,将残差网络模型resnet中的残差模块融入到3dconvnet网络中的3d卷积模块中得到3d卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;

训练模块:将训练视频分割成多个包含视频帧的视频帧卷,将这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;

检测模块:将测试视频的视频帧卷送入训练好的时、空残差网络模型中,输出所述视频帧卷的所属类,检测出幻灯片切换时刻。

根据本发明的第三方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于时、空残差网络模型的幻灯片切换检测方法。

根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的基于时、空残差网络模型的幻灯片切换检测方法。

本发明提供的基于时、空残差网络模型的幻灯片切换检测方法、系统、终端及存储介质,是一种基于3dconvnet和resnet的时、空残差网络模型的幻灯片切换检测技术。给定一段通过单个或多个镜头记录的包含幻灯片、演讲者和观众的演讲视频,本发明目标是检测其中幻灯片切换的时刻。由于视频中的空间和时间特征对于检测的重要性,所以利用3dconvnet来检测空、时特征。由于视频的时间较长,为了优化处理的时间和提交检测的精度,结合了resnet优化网络模型。本发明首先将输入的训练视频分割成多个包含视频帧的视频帧卷后,将这些视频帧卷分成了三类并将它们送入到分类网络模型中进行训练。然后将测试视频的视频帧卷送入训练好的分类网络模型中,通过网络模型输出的视频帧卷所属类,可以检测到幻灯片切换时刻。本发明是一种准确性更好的克服演讲视频有镜头移动、演讲者移动和多个ptz镜头切换干扰的方法,并且比现有方法精确度高,并扩大了可处理的演讲视频种类的范围。

本发明利用当前性能较好的提取图片空域特征的网络结构设计原则设计基础分类网络模型,并将幻灯片切换检测问题转化为视频帧卷分类问题。在基础模型上添加3dconvnet(深度3维卷积神经网络)提取视频帧的空、时域特征,将残差网络模型resnet融入到网络结构中提高训练的效率并构建出一个新的网络模型。模型训练时,将视频帧每两帧作为一个视频帧卷送入网络进行训练。在设计损失函数时,由于幻灯片切换检测转化为分类问题,因此损失函数设计为交叉熵损失函数。

与现有技术相比,本发明具有如下的有益效果:

本发明将3d卷积残差模块引入到时、空残差深度学习网络模型中,不仅能提取视频帧的空域特征,也能提取相邻视频帧之间视觉变化特征,因此在处理演讲视频中有明显视觉变化的幻灯片切换方面有较强的优势。将演讲视频分割成多个包含视频帧的视频帧卷,并送入到学习网络中进行分类学习,使得本发明能学习多种干扰特性,如镜头移动/缩放、演讲者移动和多个ptz镜头切换,这种分类学习方法使得本发明能够处理多种类型的演讲视频;本发明检测精确度更高,处理演讲视频种类的范围更广。另外本发明不需要附加的资料,如文本、语音、电子幻灯片等。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中检测方法的流程图;

图2为本发明一实施例中输入的演讲视频;

图3为本发明一实施例中视频帧卷三分类示意图;

图4为本发明一实施例中3d卷积残差模块示意图;

图5为本发明一实施例中整体时、空残差网络模型结构示意图;

图6为本发明一实施例中幻灯片切换检测结果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明的实施例提供一种基于3dconvnet和resnet的时、空残差网络模型的幻灯片切换检测技术,针对给定的一段通过单个或多个镜头记录的包含幻灯片、演讲者和观众的演讲视频,目标是检测其中幻灯片切换的时刻。由于视频中的空间和时间特征对于检测的重要性,所以本发明的实施例利用3dconvnet来检测空、时特征。由于视频的时间较长,为了优化处理的时间和提交检测的精度,本发明结合了resnet优化网络模型。本发明的实施例将输入的训练视频分割成多个包含视频帧的视频帧卷后,将这些视频帧卷通过三分类输出层分成了三类并将它们送入到分类网络模型中进行训练;然后将测试视频的视频帧卷送入训练好的分类网络模型中,通过网络模型输出的视频帧卷所属类,可以检测到幻灯片切换时刻。

本发明以下实施例的应用环境如下:整体网络模型如图5所示,在ubuntu16.04以及pytorch环境编程仿真。

参见图1,一种基于时、空残差网络模型的幻灯片切换检测方法,本发明实施例可以先将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的待检测视频分割成多个包含视频帧的视频帧卷;然后进行以下步骤:

步骤1:三分类卷积神经网络模型结构设计:设计12层三分类卷积神经网络结构,它主要遵循了以下两种设计原则:

(1)如果输入、输出的特征图的尺寸相同,卷积核的通道数不发生变化;

(2)如果输出的特征图的尺寸是输入的特征图尺寸的一半,那么卷积核的通道数数量加倍以保证时间复杂度的一致性。

随着网络加深,图像的宽度和高度都在以一定的规律不断减小,每次池化后刚好缩小一半,信道数目不断增加一倍,如从224×224大小的图像缩小到112×112之后,信道数量从64信道增加到了128信道。最后的输出层是一个三分类输出用以获得视频帧卷的分类信息。网络结构很规整,没有那么多的超参数,专注于构建简单的网络。

步骤2:3d卷积残差模块设计:3dconvnet网络的时、空特征提取方法是采用3d卷积模块,它应用了3d卷积层和3d池化层,resnet网络的残差模块应用短连接和恒等映射提高模型学习效率。将残差网络模型resnet中的残差模块融入到3dconvnet网络中的3d卷积模块得到3d卷积残差模块。添加1×1的3d卷积层在短连接上保证输入和映射的维度一致。

3d卷积残差模块的网络结构如图4所示,它包含了两层3d卷积层和一个包含1×1的3d卷积层的短连接。第一层3d卷积层和第二层3d卷积层前后连接,使得输入视频帧卷经过两次3d卷积,尺寸缩小通道数增加后输出。输入视频帧卷经过1×1的3d卷积层后的输出与经过两次3d卷积之后的输出尺寸相同,进行叠加后作为最终输出。

本步骤中,确定3d卷积层前后输入输出维度相同的方法是:

在3d卷积残差模块中包含了两层卷积层,因此,残差映射f(x)表示为

f(x)=ω2σ(ω1+b1)+b2

其中,σ表示relu的激活函数:

为了使输入x和残差映射f(x)的维度相同,添加了1×1的3d卷积层在短连接上,可以得到加权的映射h(x),表示为

h(x)=wsx

其中,ws是加权值矩阵,用于匹配输入x和残差映射f(x)的维度

因此,映射方程变为了:

z(x)=f(x)+h(x)

步骤3:时、空残差网络模型构建:将步骤2设计的卷积残差模块添加到步骤1设计的网络结构中即可得到时、空残差网络模型。该时、空残差网络模型有八层卷积层,和四层全连接层,网络结构如图5所示,图中的3d卷积表示该层属于3d卷积层,64表示卷积通道数为64,/2表示视频帧卷的尺寸缩小一半,全连接表示该层属于全连接层。3d卷积层上的实线短线指视频帧卷进过该层卷积后尺寸没有变换,因此可直接使用短连接进行恒等映射。3d卷积层上的虚线短连接值视频帧卷经过该层卷积后尺寸缩小一半,通道数增加了一倍,要在短连接上增加1×1的3d卷积层后保证输出尺寸维度相同,因此形成一个3d卷积残差模块。视频帧经过八层卷积层后尺寸不断减半,通道数加倍。由于第8层卷积层后输出的视频帧卷通道数较多,因此使用四层全连接层进行降维,最终第4层全连接层的包含了三个结点,表明了最后的输出为三类,是一个三分类的网络。

损失函数采用分类网络常用的交叉熵损失函数。

具体的,交叉熵损失函数如下:

其中,x表示输入,class表示该分类的真实值,n是输入的视频帧的数量。

步骤4:模型训练:采用单路的时、空残差网络模型对输入视频帧卷中的两帧提取空、时域特征;使用adam算法对模型进行训练。

本步骤中,所采用的网络参数优化算法是adam算法,批大小(mini-batch)设定为128,同时该算法的参数设置为β1=0.9和β2=0.999。其中β1为一阶矩估计的指数衰减率,β2为二阶矩估计的指数衰减率。权值衰减中的惩罚乘数设置为5×10-4,初始学习率为0.001,并且随着训练时间每10的倍数增加而衰减10倍。模型训练完成后保存模型。

步骤5:将待检测的视频帧卷输入上述步骤4训练得到的时、空残差网络模型,获得相应的分类结果,通过分类结果即可得到相应的幻灯片切换时刻。

对应于上述方法,本发明实施例还提供一种基于时、空残差网络模型的幻灯片切换检测系统,可以用于实现上述的方法。系统具体包括:

分割模块:将通过单个或多个镜头记录的包含幻灯片、演讲者和/或观众的视频分割成多个包含视频帧的视频帧卷;

分类网络模型设计模块:采用提取图片空域特征的网络结构的设计原则设计卷积神经网络作为基础网络模型;在所述基础网络模型后连接一个三分类输出层,该三分类输出层用以获得视频帧卷的分类信息,形成三分类网络模型;

其中,提取图片空域特征的网络结构的设计原则为:如果三分类网络模型输入、输出特征图的尺寸相同,卷积神经网络的卷积核的通道数不发生变化;如果三分类网络模型输出的特征图尺寸是输入的特征图尺寸的一半,卷积神经网络的卷积核的通道数数量加倍以保证时间复杂度的一致性;

时、空残差网络模型构建模块:利用3dconvnet网络中的3d卷积模块来提取所述视频帧的时、空特征,将残差网络模型resnet中的残差模块融入到3dconvnet网络中的3d卷积模块中得到3d卷积残差模块,构建用于视频帧卷分类的时、空残差网络模型;

训练模块:将训练视频分割成多个包含视频帧的视频帧卷,将这些视频帧卷分类后送入到时、空残差网络模型中进行训练,得到训练好的时、空残差网络模型;

检测模块:将测试视频的视频帧卷送入训练好的时、空残差网络模型中,输出所述视频帧卷的所属类,检测出幻灯片切换时刻。

本发明实施例还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于时、空残差网络模型的幻灯片切换检测方法。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的基于时、空残差网络模型的幻灯片切换检测方法。

用上述的方法、系统进行基于时、空残差网络模型的幻灯片切换检测,实施例中输入演讲视频参见图2所示,视频帧卷是包含多张视频帧的视频帧组合参见图3所示,最终检测幻灯片切换后的检测结果参见图6所示。输入演讲视频中由于镜头移动,演讲者移动,镜头在演讲者和幻灯片的切换,存在很大的干扰,而基于时、空残差网络模型的幻灯片切换检测方法处理了这些干扰,使得检测的结果没有出现检测到人以及人和幻灯片切换的问题。

需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1