一种基于深度卷积神经网络的体育视频镜头分类方法

文档序号:10593820阅读:456来源:国知局
一种基于深度卷积神经网络的体育视频镜头分类方法
【专利摘要】本发明公开了一种基于深度卷积神经网络的体育视频镜头分类方法,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。
【专利说明】
-种基于深度卷积神经网络的体育视频镜头分类方法
技术领域:
[0001] 本发明属于视频处理与机器学习领域,具体设及一种基于深度卷积神经网络的体 育视频镜头分类方法。
【背景技术】:
[0002] 镜头分类是体育视频分析的一项基础技术,对于体育视频中特定事件检测、体育 视频的检索和高级语义的提取都具有重要的意义,例如足球视频分析中特定事件的检测 (红黄牌、射口、比赛中断等)和特定球员的检测都需要用到镜头分类的结果。一个准确快速 的镜头分类方法对于后续分析性能的提高将产生极大的帮助。
[0003] 在体育比赛的转播视频中,通常可W将镜头分为=类:远景镜头、中景镜头和特写 镜头。远景镜头拍摄的是大部分场地,中景镜头是对场地中局部区域的某些球员和场景进 行拍摄,特写镜头是对运动员的半身特写或动作信息。其中的中景镜头和特写镜头除了对 场地进行拍摄外,还包括对场外观众的拍摄。
[0004] 当前区分W上几类镜头的方法主要是通过计算主颜色区域的面积比率。运类方法 将镜头中场地的颜色确定为主颜色(如足球场地W绿色为主颜色),然后再根据主颜色在镜 头中占据的面积比率来判断该镜头所属的类别,并认为拥有较大的主颜色面积比率的镜头 是远景镜头,而较小的主颜色面积比率的镜头是特写镜头。由于该方法所用主颜色面积比 率特征在中景镜头和特写镜头中受到背景颜色干扰较大,限制了最终的镜头分类精度。

【发明内容】

[0005] 为了克服现有技术的不足,本发明提供一种基于深度卷积神经网络的体育视频镜 头分类的方法。本发明通过深度卷积神经网络,学习数据库中每类镜头的图像特征,在测试 时直接选取卷积神经网络SOftmax层最大回归值对应的类别作为镜头分类的结果,使对于 给出的关键帖能自动进行所属镜头的分类。本发明能够提高镜头分类的精度,且具有较好 的可行性和鲁棒性。
[0006] 为达到上述目的,本发明采用如下技术方案来实现的:
[0007] -种基于深度卷积神经网络的体育视频镜头分类方法,包括W下步骤:
[000引1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图 像序列,从每个镜头片段中选出3~10张的关键帖图像,并对每张图像贴上镜头类别标签, 构造训练样本集;
[0009] 2)构造屯层深度卷积神经网络,该屯层卷积神经网路包括:五个卷积层,=个全连 接层;
[0010] 3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷 积神经网络的训练利用SOftmax回归作为分类算法,使用误差后向传播算法调整C順的网络 参数;
[0011] 4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终 图像的镜头分类结果。
[0012] 本发明进一步的改进在于,所述步骤1)中,将镜头类别标签分为6种:远景镜头,场 内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于运5种镜头的其他镜 头。
[0013] 本发明进一步的改进在于,所述步骤2)中,每个输入图像都被缩放为256X256大 小,并从中随机截取224 X 224大小的方形区块,WRGBS个颜色维度输入;第一、第二和第五 卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层;深度卷积神经网络 最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。
[0014] 本发明进一步的改进在于,所述步骤3)中,训练时卷积神经网络使用一些不同的 小随机数初始化神经网络的参数。
[0015] 与现有技术相比,本发明具有W下有益效果:
[0016] 本发明所述的基于深度卷积神经网络的体育视频镜头分类方法,设计的深度卷积 神经网络W关键帖图像作为网络的输入,隐式地学习每类镜头中的图像特征,进而使用该 特征更加有效地进行镜头分类。
【附图说明】:
[0017] 图1为本发明的流程示意图。
[0018] 图2是本发明实例中卷积神经网络的结构示意图。
【具体实施方式】:
[0019] 下面结合附图对本发明做进一步详细描述:
[0020] 参考图1,本发明所述的基于深度卷积神经网络的体育视频镜头分类的方法,包括 W下步骤:
[0021] 1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图 像序列。从每个镜头片段中选出5张的关键帖图像,并对每张图像贴上标签,构造训练样本 集。将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外 特写镜头,和不属于运5种镜头的其他镜头。
[0022] 2)构造屯层深度卷积神经网络(Convolutional Neural Network,C順),该屯层卷 积神经网路包括:五个卷积层,=个全连接层。
[0023] 每个输入图像都被缩放为256X256大小,并从中随机截取224X224大小的方形区 块,WRGBS个颜色维度输入。第一、第二和第五卷积层的激励输出后,经过最大池化下采样 操作,输出给下一个卷积层。深度卷积神经网络最终输出维数为6的神经元响应,对应于待 分类图像的6种镜头种类。如图2所示,输入图像经过每一层的具体过程包括:
[0024] 第一层卷积层由96个大小为55 X 55的特征图组成。经过Max Pooling操作,输出96 个27 X 27大小的特征图。
[00巧]第二层卷积层由256个大小为27 X 27的特征图组成。经过Max Pooling操作,输出 96个13 X 13大小的特征图。
[00%]第S层卷积层由384个大小为13X13的特征图组成。
[0027]第四层卷积层由384个大小为13X13的特征图组成。
[00巧]第五层卷积层由256个大小为13 X 13的特征图组成。经过Max Pooling操作,输出 256个6 X 6大小的特征图。
[0029] 第六层和第屯层为全连接层,输出4096维的特征向量。
[0030] 第八层为全连接层,输出一个6维的特征向量,由SOftmax层分类并输出分类结果。
[0031] 卷积神经网络的卷积层可W表示如下:第1层的第j个特征图矩阵可能由前一层 若干个特征图卷积加权得到,
[0032]
(1)
[0033] 其中,f为神经元激活函数;的代表输入特征图的组合,*表示卷积运算,^为卷积核 矩阵,6;为偏置矩阵。
[0034] 采样过程可W表示为:
[003引
但)
[0036] 其中,down( ?)表示采样函数,常用的有最大值采样函数(Max Pooling)。采样过 程与卷积过程类似,使用一种不带权参数的采样函数,从输入特征图的左上角开始按一定 步长向右(或向下)滑动,对窗口相应区块的像素进行采样后输出。
[0037] 卷积神经网络全连接层的每个神经元都会与下一层的每个神经元相连。第1层全 连接层特征向量xi可W表示如下:
[003引 xi = f (wiyi-i+bi), (3)
[0039] 其中,wi是权值矩阵,bi是偏置向量。
[0040] 3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练。卷 积神经网络的训练利用SOftmax回归作为分类算法,使用误差后向传播算法调整C順的网络 参数。
[0041] 卷积神经网络使用一些不同的小随机数初始化神经网络的参数。C順模型的训练 需要连续的迭代优化,它可W根据迭代分类结果去调整下一次迭代的参数。将图片输入到 网络,经过前向传播和后向传播两个训练阶段,前向传播过程是把一个样本输入网络,计算 相应的实际输出;后向传播过程是计算实际输出与理想输出的差,根据误差率,不断优化网 络参数,进行模型的训练。
[0042] 4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终 图像的镜头分类结果。
【主权项】
1. 一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,包括以下步骤: 1) 对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序 列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造 训练样本集; 2) 构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接 层; 3) 利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神 经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参 数; 4) 利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像 的镜头分类结果。2. 根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特 征在于,所述步骤1)中,将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头, 场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。3. 根据权利要求2所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特 征在于,所述步骤2)中,每个输入图像都被缩放为256 X 256大小,并从中随机截取224 X 224 大小的方形区块,以RGB三个颜色维度输入;第一、第二和第五卷积层的激励输出后,经过最 大池化下采样操作,输出给下一个卷积层;深度卷积神经网络最终输出维数为6的神经元响 应,对应于待分类图像的6种镜头种类。4. 根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特 征在于,所述步骤3)中,训练时卷积神经网络使用一些不同的小随机数初始化神经网络的 参数。
【文档编号】G06F9/00GK105955708SQ201610302292
【公开日】2016年9月21日
【申请日】2016年5月9日
【发明人】王进军, 张顺, 刘桢琦
【申请人】西安北升信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1