四层结构的体育视频中足球项目检测系统及实现的制作方法

文档序号：6337227阅读：349来源：国知局

专利名称：四层结构的体育视频中足球项目检测系统及实现的制作方法
技术领域：
本发明属于多媒体信息处理与检索领域关于体育视频分类的方法，涉及到体育视频镜头构成特点统计分析和视频底层特征提取分类。本发明引入对不同类别体育镜头剪辑方式和景别构成的分析统计形成剪辑模版，并在系统对镜头关键帧进行SVM分类的基础上，对进行有效结合，采用对关键帧打分的时间段加权并与剪辑方式模版匹配结果进行融合。提出了一种高精度识别体育视频中足球项目的四层体系检测系统，在更换相应的训练样本后，可以有效的进行其他体育类型的识别，适用于体育节目机器标注、广告推荐等。
背景技术：
随着数字视频技术及相关传输、存储技术的提高，数字视频与人们日常生活关系越来越密切。在广播电视领域已经逐步取代传统的模拟信号方式，互联网上的应用更是得到了充分的发展，已经出现了以^utube，优酷为代表的大数据量视频网站；主流搜索引擎如谷歌百度等也已经推出专门的视频搜索产品；垂直搜索引擎如雷搜也已经出现。专门的视频门户网站也是日益增长，这些网站对视频的存储与传播起到了重要的作用，对海量的视频数据的自动处理也提出了挑战。体育视频在各类视频中占据重要的分量。体育视频具有实时性，体育赛事每天发生，每时每刻都有大量的新内容创造出来。用户必然需要以最快的方式得到最新的体育资讯消息，体育视频能以最大的容量呈现精彩的体育比赛场面和精彩镜头，用户对体育视频的需求也越来越广泛，越来越迫切。用户观看体育视频的针对性很强，他只关注自己喜欢的那些体育种类，对其他的体育种类很少甚至根本不关心。所以只有有效的做好体育视频分类，才能使用户快速的找到自己想要的体育视频。传统的体育视频分类是通过视频文件命名信息或者人工标注信息来进行分类，这种依赖耗费大量人力的工作显然不再适合现在海量的视频的分类。为了实现自动的体育视频分类，需要提取体育视频中的反应体育种类的有效信息。体育视频的内容丰富，有许多信息可以用来表征这个视频的体育种类。然而，其中字幕或者比分信息由于受到电视转播机构差异性的影响，不同的电视台有不同的字幕表现形式，缺乏通用的提取方法；所以我们通过提取视频中场景信息来做体育分类。体育镜头大致分为远景、中景和特写三种。采用模式分类的方式由镜头图片代表该段所代表的体育类型。在实用过程中，我们发现由于镜头冗余和现阶段特征分类算法的鲁棒性问题，结果并不理想。因此我们引入对于不同体育类别节目中视频剪辑方式的分析，比如对于赛车类型，为保证观看的连贯性，视频剪辑以远景、长镜头为主，而对于足球运动，为及时捕捉精彩镜头，摄像机会频繁切换，并以中景为主，根据这种在体育类型间有明显区别的，并且同种体育类型具有共性的特征，我们通过统计该体育不同类型镜头平均持续时间和频次，可以得到该体育类型镜头剪辑方式模版，用于粗分类；同时的，关键帧为基础的模式分类方式忽略了在多个关键帧在体育类型上的连续性，时间相邻镜头有很大的可能表述的是相同的体育概念，我们根据运动特征，剪辑特征等将时间相邻的镜头聚为一个视频片段(video clip)，在关键帧分类之后加入相应的连续时间段加权，最后同剪辑的模板结果融合，得到
最终结果。本发明通过分析体育视频镜头剪辑方式和底层特征两方面的特性，制定了一个能够进行特定项目的体育视频分类标准。提出了基于机器学习方法的体育视频检测四层体系。主要包括镜头剪辑统计，关键帧模式分类，视频片段加权和后融合四个方面。在关键帧视频分类引入多码本分类方式，在后融合方面引入logistic回归方式。在保证高精度的同时尽量减少系统开销，在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。

发明内容
为提高体育视频特定种类的识别效率和准确率，本发明提出了基于机器学习方法的体育视频检测四层体系。该系统首先采用镜头边界检测技术(Shot Boundary Detect, SBD)技术，根据镜头切换方式和剪辑方式对整个视频进行分析，结合运动特征(光流等)将切换方式相同、运动特征相同的相邻片段归为一类，称为视频夹(video clip)，同时的，根据统计视频各个片段出现的持续时间，映射到特定码本上做成直方图形式，与已有模板进行比对，得到K-L距离后实现第一层分类。第二阶段对片段提取关键帧作为该视频内容的代表，然后提取局部和全局特征，使用多码本的方式进行特征映射，使用SVM进行主场景的分类，能够得到相应的基于关键帧的图片打分；第三阶段将关键帧代表的片段映射到相应的视频夹(video clip)中进行加权得分，得到相应videoclip的分类结果；最后与第一次分类的结果进行后融合，得到最终结果。基于上面的四层结构，第一阶段需要足够的真实体育视频进行分析，本发明对现实体育视频中足球进行识别，选取欧洲电视台ESPN和法国体育视频Orangesports源进行分析，其中ESPN共200小时，OrangesportsHO小时，在大量人工标注下，能够界定的纯粹足球视频共有50小时，为进行比较，我们同时标注了出现频率比较高的体育视频如篮球、网球、拳击、游泳四种作为实验的负样本。第二阶段的特征提取为精度和系统开销的考量，我们选取DenseSift，Shape Context, LBP, EDH四种特征进行提取，映射过程中采用了多码本的技术。第三阶段加权经过实验，平均值加权具有最好的效果；第四阶段后融合采用 logistic回归方式确定两个结果的权重。

图1为四层结构的体育视频中足球检测体系流程概要2为足球类型剪辑方式统计及其他类型对比图3为基于关键帧的SVM分类流程概要4为不同特征的分类效果对比5为关键帧结果映射到视频夹的示意61ogistic回归流程7为四层结构体育视频中足球检测体系总体框架图
具体实施例方式本发明通过分析体育视频镜头剪辑方式和底层特征两方面的特性，制定了一个能够进行特定项目的体育视频分类标准。提出了基于机器学习方法的足球体育视频检测四层体系。主要包括镜头剪辑统计，关键帧模式分类，视频片段加权和后融合四个方面。在关键帧视频分类引入多码本分类方式，在后融合方面引入logistic回归方式。在保证高精度的同时尽量减少系统开销，在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。下面将介绍本发明具体实施方法。一、镜头剪辑方式统计和视频夹聚合(一)镜头的不同剪辑方式视频往往是由众多镜头经过剪辑拼接而成。一个镜头表示一个摄像机连续拍摄的帧序列。自动镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置，把整段的视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割，根据场景突变作为镜头切换的判断依据。本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。定义第t帧ft和第t+Ι帧图片中，It(i，j)和It+1(i，j)表示是坐标为(i，j)的像素点的强度；Ht(k)和 Ht+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为MXN，于是颜色直方图差(HDM)可以写成A/⑴=H,(k)-Ht+l{k) \pf
MxN fef式中，pe [1,+ -)0通常情况下当ρ = 1或ρ = 2时，上述公式实际上就是欧式距离。对视频的每一帧，求出它的上述两种距离，当一帧的两个距离值的和大于事先设定的阈值时，认为这是一个场景的突变，也就是镜头的切换点。( 二)视频夹聚合在SBD过程后会生成关于该视频镜头切换方式分析，视频段起至帧等信息的问题。将不同视频段聚合成一个视频夹(video clip)的规则在于A)视频段在时间上是相邻的且聚合成的videoclip持续时间大于1500帧B)同一 videoclip具有相同的切换方式C)同一 videoclip下通过光流分析具有相似的运动特征。同时满足三个原则的视频段将聚合成为一个videoclip，信息将以特定的格式保存在相应的列表里。(三)剪辑方式模板映射和第一次匹配对不同类型的体育运动，视频段持续时间和频度具有很大的不同，而相同类型的体育运动即使在不同的节目源中也会有类似的剪辑风格。关于足球和其他类型体育视频段持续和频度统计见图2。因此，对于已经经过SBD分析的视频，我们统计所有视频段的持续时间，在相应的码本上映射生成直方图形式。码本的选择根据大量视频分析后的特点进行构造，规则如下
权利要求
1. 一种结合镜头剪辑方式统计和底层特征分类的体育视频足球项目检测系统，对体育视频进行模式分类和统计匹配的处理，对特定体育类别进行识别，该方法包括步骤一，对体育视频剪辑方式进行统计分析，形成模板匹配的结果；步骤二，体育视频统计分析后，提取对应视频段的的相应图片作为关键帧，进行基于关键帧的模式分类，得到每个视频段对应的概率；步骤三，将视频段的得分映射到视频夹中进行计算，即加入了时间信息，得到结果进行分类器阶段的后融合；步骤四，将第一步和第三步得到的结果进行加权，确定阈值后进行分类；其中，所述步骤一具体包括步骤1，边界检测，形成视频段对视频进行边界检测后，镜头切换点的选择是通过寻找颜色直方图差序列多个局部极 {自；^^ ，步骤2，对相邻视频段聚合为同一视频夹的规则视频段在时间上是相邻的且聚合成的视频夹持续时间大于1500帧；同一视频夹具有相同的切换方式；同一视频夹下通过光流分析具有相似的运动特征；步骤3，统计视频段持续时间后，码本构造码本为沈维，其组成规则是0 100帧，每隔10帧为一个词表；100 200帧，每隔 25帧为一个词表；200 800帧，每隔50帧为一个词表；> 800帧，为800帧映射到最后一个词表中；其中，所述步骤二具体包括步骤1，关键帧提取提取的形状上下文特征使用固定提取200个点的方式，共有4480维，在提取形状上下文特征过程中，点集精简的算法采用弦差法；对边缘方向直方图特征进行归一化处理时，采用2范数的归一化方式；步骤2，码本生成进行多码本制作时，由于系统的主要目的在于检测体育运动中的足球，因此将足球的远中近景各200个，其他四种体育运动(篮球、网球、拳击、游泳)远中近景各200个一起建立码本；步骤3，以概率形式为关键帧打分score = FtP(Ci)]，其中Ci为输入图像组的第i帧，F为对应这某一特征的结果，P为对应某一类别的结果；即为图像Ci提取特征F后属于类别P的概率；在分类器训练阶段，采用一种视频为正样本，其他所有类别正样本的图像组作为该体育类别负样本的方式；其中，所述步骤三具体包括步骤1，关键帧得分映射将视频段的得分映射到视频夹中进行计算，即加入了时间信息，将同一视频夹中的视频段得分进行求均值处理，得到的得分即为该视频夹的得分；步骤2，后融合在四种分类器(shape context, dense sift, LBP, EDH)下的得分经过logistic回归得到相应的权值，通过代入权值得到相应的某视频夹对应的唯一结果；步骤3，视频夹得分计算该视频夹所属的体育类别时采用计算不同类型下最大值的方式，=唭中Ci为输入图像组的第i巾贞，F为对应这某一特征的结果，P为对应某一体育类别的结果，j为体育类型的第j个。
2.根据权利要求1所述的模板统计和视频夹后融合分数进行加权的方法，其特征在于，在得到视频夹加权分数后，与第一步的模板匹配融合结果进行融合的权重采用7 3。
全文摘要
本发明提出了四层结构的体育视频中足球项目检测系统及实现。该系统首先采用镜头边界检测对整个视频进行分析，将相同切换方式和运动特征的相邻片段归为一类称为视频夹，同时统计视频片段的持续时间，映射到码本上做成直方图，与已有模板进行比对实现第一层分类。第二阶段对片段提取关键帧，然后提取局部和全局特征，使用多码本的方式进行特征映射，使用SVM进行主场景的分类，得到相应的基于关键帧的图片打分；第三阶段将关键帧代表的片段映射到相应的视频夹中进行加权，得到相应的分类结果；最后与第一次分类的结果进行后融合得到最终结果。本发明具有较高的识别精度和速度，可以有效的进行体育类型的识别，适用于体育节目机器标注、广告推荐等。
文档编号G06K9/62GK102073864SQ20101056776
公开日2011年5月25日申请日期2010年12月1日优先权日2010年12月1日
发明者张纪伟, 董远申请人:北京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董远;张纪伟
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：一种移动设备上的视频文件隐藏方法以及一种移动设备的制作方法
上一篇：椒盐噪声去除方法及装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。