基于深度学习的镜头边缘检测方法

文档序号：9235968阅读：700来源：国知局

基于深度学习的镜头边缘检测方法
【技术领域】
[0001] 本发明设及的是一种可用于视频管理与分析中的镜头边缘检测技术，具体是一种基于深度学习的镜头边缘检测方法。
【背景技术】
[0002] 视频镜头边缘检测是指检测视频镜头边缘的位置。镜头被定义为用单一摄像机在未被干扰的情况下拍摄的一段视频帖序列。镜头边缘分为两种类型；突变镜头边缘，突变镜头边缘是由上个镜头的最后一帖和下个镜头的第一帖所组成，另一种是渐变镜头边缘，渐变镜头边缘一般不止有两帖。
[0003] 视频镜头边缘检测可W帮助分析视频的内容与结构，可W作为其他视频处理任务的预处理步骤，如视频标注，视频检索和视频压缩等，可W提高该些处理任务的精度与速度。因此，视频镜头边缘检测具有重要意义。
[0004] 现有的大部分镜头边缘检测注重于突变镜头边缘检测。突变镜头边缘检测主要利用相邻镜头之间帖序列会发生剧烈变化该一特征。因此，该些检测方法会根据帖序列之间的图像信号层的特征的变化；像素的亮度值差，灰度直方图差，边缘轮廓变化等。与突变镜头边缘检测相比，渐变镜头边缘检测更加的困难。Y.Li,Z.Lu，andX.Niu等人2009年在 lETImageProcess发表的"Fastvideoshotboundarydetectionframeworkemploying pre-processingtechniques" -文中提出了一种基于像素亮度的镜头边缘候选段检测的预处理W及对帖间亮度距离的=角形模式匹配的渐变镜头检测方法。Z.LuandY.Shi等人 2013 年在IEEETrans.ImageProcessing发表的"Fastvideoshotboundarydetection basedonSVDandpatternmatching"则使用基于像素亮度的镜头边缘候选段检测的预处理W及对候选段的直方图的SVD(奇异值分解）所得新特征来进行渐变检测。
[0005] 该些方法多是基于图像的信号特征，忽视帖的内容信息。但是，考虑到镜头的定义，使用帖的内容信息辅助视频镜头边缘检测更直接也能取得更好的效果。近年来，卷积神经网络被证明能够很好的去理解图片的内容信息。作为一种深度学习模型，卷积神经网络具有多层，底层能够学习到图片信号层的信息，例如边缘和角等，高层则能学习到边缘的组合和图片中物体的类别等。因此，采用卷积神经网络来学习视频帖的内容信息，根据该些内容信息可W帮助提升视频镜头边缘检测的精度。

【发明内容】

[0006] 本发明针对现有技术存在的上述不足，提供一种基于深度学习的视频镜头边缘检测方法，它能够准确的检测突变镜头边缘和渐变镜头边缘。
[0007] 为实现上述目的，本发明首先将视频分段，对每个视频段计算其帖内亮度距离的局部阔值，根据该阔值选出镜头边缘候选段，剔除不含镜头边缘的视频段。然后，本发明将镜头边缘候选段两次进行二分处理，根据新分出的两小段的段内亮度距离的关系来进一步选出镜头边缘候选段，剔除不含镜头边缘的视频段。然后，本发明对长度为6帖的镜头边缘候选段，选取该段的关键帖，输入训练好的卷积神经网络得到关键帖的标签，根据标签w及段内相邻帖的亮度距离确定该段内是否有突变镜头边缘，W及突变镜头边缘的位置。而对于没有突变镜头边缘的镜头边缘候选段，选取该段的关键帖，输入第走步中的卷积神经网络得到关键帖的标签，根据标签来确定该候选段是否是渐变镜头边缘。最后将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。
[0008] 具体的，一种基于深度学习的视频镜头边缘检测方法，包括如下步骤：
[0009] 第一步，把视频帖分段，段与段之间不重合，每段21帖；
[0010] 第二步，计算各个段的段内亮度距离；
[0011] 第S步，根据第二步计算得到的各段的段内亮度距离计算局部阔值；
[0012] 第四部，根据各个段的段内亮度距离和局部阔值的关系确定该视频段是否为镜头边缘候选段（段内可能包括镜头边界）；
[0013] 第五步，将镜头边缘候选段均分成两小段，并根据该两小段的段内亮度距离的关系去确定该两小段内是否可能存在镜头边缘；
[0014] 第六步，对于第五步之后得到的长度为11帖的镜头边缘候选段继续均分成两小段，并根据该两小段的段内亮度距离的关系去确定该两小段内是否可能存在镜头边缘；
[0015] 第走步，用ImageNet的数据库训练一个8层的卷积神经网络，输入一个视频帖可 W得到该帖在ImageNet的1000类上的概率分布，选取概率前五的类别来作为该视频帖的柄签；
[0016] 第八步，对于第六步之后得到的长度为6帖的镜头边缘候选段，选取该段的关键帖，输入第走步中的卷积神经网络得到关键帖的标签，根据标签W及段内相邻帖的亮度距离确定该段内是否有突变镜头边缘，W及突变镜头边缘的位置；
[0017] 第九步，对于第八步之后没有突变镜头边缘的镜头边缘候选段，选取该段的关键帖，输入第走步中的卷积神经网络得到关键帖的标签，根据标签来确定该候选段是否是渐变镜头边缘；
[0018] 第十步，对于第九步之后得到的渐变镜头边缘，将相邻的融合起来。
[0019] 优选地，所述第=步计算段内亮度距离的局部阔值中，先计算该段周围100段的亮度距离均值y。，再计算该段周围10段的亮度距离的均值与亮度距离标准差0U然后计算该段的亮度距离局部阔值IY:
[0020]
[002。优选地，所述第走步，用1000类的ImageNet的图片训练一个8层的卷积神经网络；其中5层为卷积层，3层为全连接层，其中第一个卷积层与第二个卷积层后面连接一个最大池化层，该两个最大池化层后面会连接一个局部响应正则化层，第五个卷积层后面连接一个最大池化层，此最大池化层后面不再连接局部响应正则化层；将视频的一帖输入卷积神经网络，输出是该帖在ImageNet的1000类上的一个概率分布，该里取概率值最大的5 类作为图片的标签，用该标签来帮助后续的镜头边缘检测。
[0022] 优选地，所述第八步利用镜头边缘候选段内最大帖间亮度距离和第二大帖间亮度距离的比值W及最大帖间亮度距离的帖附近几帖的标签的关系来确定该候选段内是否存在突变镜头边缘W及突变镜头边缘的位置。
[0023] 所述第九步利用镜头边缘候选段的两端的附近几帖的关系来确定该候选段是否为渐变镜头边缘。
[0024] 所述第十步将相邻的渐变镜头边缘融合成为一个渐变镜头边缘。
[0025] 与现有技术相比，本发明具有W下有益效果：
[0026] 本发明通过深度学习获取到的视频帖的内容信息来辅助进行镜头边缘检测，该是更加直接并且更符合镜头边缘检测的定义的。实验结果证明，本发明在突变镜头边缘和是渐变镜头边缘的检测上，准确率都要高于现有技术。
【附图说明】
[0027] 通过阅读参照W下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0028] 图1为本发明基于深度学习的镜头边缘检测方法的总体流程图。
[0029] 图2为本发明中使用的卷积神经网络的具体结构示意图。
[0030] 图3为本发明中用于帮助进行镜头边缘检测的视频帖的标签。
【具体实施方式】
[0031] 下面结合具体实施例对本发明进行详细说明。W下实施例将有助于本领域的技术人员进一步理解本发明，但不W任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可W做出若干变形和改进。该些都属于本发明的保护范围。
[0032] 如图1所示，本实施例提供一种基于深度学习的镜头边缘检测方法，具体实施细节如下，W下实施例没有详细说明的部分参照
【发明内容】
进行：
[0033] 首先将视频分段，段与段之间不重合，每段21帖。
[0034] 接下来计算各个段的段内亮度距离，定义第n段的段内亮度距离为：
[00巧]
[0036] 其中F(x，y;k)表示第k帖在像素坐标（X，y)处的亮度值。之所W采用亮度距离是因为它容易计算而且对于帖间的变化很敏感（帖间变化大，则亮度距离大）。
[0037] 然后计算亮度距离的局部阔值。先计算该段周围100段的亮度距离均值再计算该段周围10段的亮度距离的均值与亮度距离标准差0U然后计算该段的亮度距离局部阔值：
[0038]
(2)
[0039] 找出段内距离大的视频段，将其当作镜头边缘候选段。通过比较各个段的段内亮度距离与相应的局部阔值，如果高于局部阔值，则该段是镜头边缘候选段。除此W外，如果段内亮度距离低于该个局部阔值，但是比相邻候选段的段内亮度距离都要高很多，也被认为是镜头边缘候选段。用公式描述如下：
[0040]

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋利;童文荆;杨小康;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：一种深度感知计算的存储控制方法及装置的制造方法
上一篇：一种基于遗传算法的矩形检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。