一种自适应生成足球视频摘要的方法和装置的制作方法

文档序号:6574179阅读:253来源:国知局

专利名称::一种自适应生成足球视频摘要的方法和装置的制作方法
技术领域
:本发明涉及视频摘要生成技术,特别涉及一种自适应生成足球视频摘要的方法和装置。
背景技术
:当前,多媒体、数字电视以及网络技术的发展产生了大量的视频文档,如何对这些视频文档进行有效的管理以及如何实现快速浏览已经成为一个急需解决的问题。而足球因为广受人们关注,对于足球视频的管理与检索成为体育视频研究的一个重要方面。由于足球视频的特殊性,其处理也与一般的新闻视频和电影视频的处理方法不同。概括来说,对足球视频处理的技术主要包括镜头边界检测、镜头分类、慢镜头检测、提取精彩镜头、球场场景重建、事件检测以及视频摘要生成等。为了更好的理解足球视频处理技术,首先介绍几个相关概念镜头边界检测也称为视频分割,是指将视频流划分成一系列有意义且可管理的镜头。镜头边界系数一种用来衡量镜头发生切换时镜头变化程度的特征值,可用来进行镜头边界检测。镜头分类按照定义的镜头类型将连续的足球视频镜头进行分类。足球视频镜头类型一般情况下,可根据视频图像表现出的视域范围将足球视频镜头定义为四种类型(类型名称可能略有差别)主镜头类型、中镜头类型、特写镜头类型以及其它镜头类型。如图1所示,其中,a和b为主镜头类型,c和d为中镜头类型,e和f为特写镜头类型,g和h为其它镜头类型。视频摘要为便于人们进行浏览,而从原始视频中提取的一段视频图像序列(有音频或无音频),该序列保留了原始视频的主要内容而省略了大量的细节,因此它可以提供给人们有关原始视频基本内容的较为精练的信息,其内容可以概括原始视频的主要内容,但其长度却要比原始视频短得多。视频摘要是实现基于内容进行视频检索的有效工具,近年来在视频研究领域中受到了广泛关注。众所周知,一篇文章的摘要是对文章内容的高度概括,其篇幅与整篇文章相比要短得多,但其却反应出了文章的主要内容,通过阅读文章摘要读者基本上就可以了解全文的主要内容,因此我们通常利用文章的摘要来对文献进行初选,然后再在初选出的文章中选择自己感兴趣的进行精读。在视频检索中,人们同样也希望能够为每一段长视频建立一个对应的摘要,不同的是我们不能仅仅用文字来建立视频摘要,而是要充分利用更容易被人们理解的,更为直观的视频中的视频以及音频信息。视频摘要具有非常实用的价值,可以应用在视频监视、视频点播、家庭娱乐、广告、教育以及电视制作等许多领域,一个好的视频摘要系统可以大大提高视频数据的利用效率。图2为现有技术中基于内容的生成足球视频摘要的方法示意图,由图2可见,镜头边界检测、镜头分类和视频摘要这三部分是能否实现成功生成视频摘要的关键技术,下面将就现有技术中这三种技术如何实现来进行较为详细的介绍。镜头边界检测由于比较简单且易于实现,基于帧差的镜头边界检测算法是当前最为常用的镜头边界检测算法,而且研究人员还对该算法进行了很多改进。比如,针对突变和渐变的特点,提出了一种适合突变检测的二次帧差法和适合渐变检测的窗口最大值法二次帧差法通过计算相邻帧差之间的二次帧差,有效的突出了突变的特征;而窗口最大值法通过计算非相邻帧之间的帧差有效的突出了渐变的特征,利用窗口最大值准确的找到了渐变的中心位置,两种方法的有机结合可有效的检测出几乎所有的突变和渐变。尽管上述基于帧差的镜头边界检测算法比较简单,但由于这类算法大部分都没有考虑摄像机的运动以及大物体运动的影响,再加上需要手动设置阈值,因此效果往往不是很好。目前研究比较多的另一个方向是基于机器学习理论来进行镜头边界检测,这种方法不需要手动设置阈值,阈值会根据所给定的视频动态变化。这类方法中研究比较多且已经达到比较好的效果的算法是基于支持向量机(SVM)的机器学习算法;另外,还有一些将SVM融入到其它算法中的算法,如在隐马尔可夫模型(HMM)算法中融入SVM算法,或采用多特征按照由粗到细的层次顺序先对镜头进行粗分,然后再逐步求精的算法等。基于机器学习理论的方法虽然在准确率和查全率上都能达到较好的效果,但是这类方法大多需要很大的计算量,而且训练样本的选取也相当复杂,因此这种方法在满足精确度的同时往往会降低检测效率,有时甚至会使检测失败。除了上述两种方法以外,还有一种用得比较多的用于镜头边界检测的方法是基于模型的镜头边界检测算法。该算法包括两个部分,建模和镜头检测,首先依靠计算镜头变换前后的颜色和亮度分布建立一个镜头转换模型,然后进行镜头检测,将一段视频看作是一个连续的帧流,应用雷诺兹变换理论来分析在预先设定的控制容量内的流变化。比如,根据渐变原理进行建模,提出的淡入淡出的镜头检测算法,该算法由于只考虑单一的颜色分量,需要处理的数据量比较小,效率较高,判断的正确率也较高,而且该算法可以和利用直方图判断突变的方法有效结合,同时完成突变与渐变的识别,实用性较强。但是,这种基于模型的镜头边界检测算法检测效果的好坏直接依赖于所建立的模型,有一定的局限性;而且,在建立相应的镜头转换模型时,还必须具有相关领域的知识,需要对模型进行长时间的分析和测试。镜头分类现有技术中比较常用的镜头分类方法是以球场草地色在整幅图像中所占比率作为特征,将计算出的比率与预先设置的阈值进行比较,根据比较结果区分出长距镜头、中距镜头和其它镜头类型。由于该方法没有提供一个合适的阈值选取方式,造成整个方案实施起来比较困难;对于中距镜头和长距镜头颜色比例相似的情况,分类效果也不理想;而且,该方法是针对整幅图像进行处理,运算量较大,难以实现实时处理。现有技术中还提出了一种将视频帧进行黄金分割的足球视频镜头分类方法,该方法将整个视频帧分为如图3所示的大小不等的九个区域,根据不同区域的颜色差别,利用贝叶斯分类器对长距镜头、中距镜头、特写镜头以及场外镜头进行分类,但这种方法同样存在运算量过大,无法实现实时处理的问题。其它的方法还包括将计算球场草地色所占比率与寻找非草地色最大矩形区域相结合的方法以及利用SVM和HMM理论对足球视频进行语义分类的方法。图4即为利用SVM进行足球视频分类方法示意图,这种方法虽然在准确率上有一定的提高,但是算法实现比较复杂,而且在进行镜头分类前需要得到一个测试训练集,从而增大了算法计算量。视频摘要现有一种生成足球视频摘要的方法为,在运动球场的场地区域检测基础上,利用相机的运动情况来定位特殊运动事件的开始与结束,并结合不同运动类型的音频信号确定具体运动类型,最后形成分级摘要。但是,要实现利用相机运动定位特殊事件,操作上比较复杂,而且即使结合音频信号,也难免会出现判断错误的情况。
发明内容有鉴于此,本发明实施例的主要目的在于提供一种自适应生成足球视频摘要的方法,该方法能够提高足球视频摘要生成的效率和准确率。本发明实施例的另一个目的在于提供一种自适应生成足球视频摘要的装置,应用该装置能够提高足球视频摘要生成的效率和准确率。为达到上述目的,本发明实施例的技术方案是这样实现的一种自适应生成足球视频摘要的方法,该方法包括以下步骤接收输入的足球视频流,应用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,得到镜头集;应用基于子窗口区域的镜头分类方法将所述镜头集进行镜头分类;对已经分类的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。一种自适应生成足球视频摘要的装置,该装置包括镜头边界检测模块、镜头分类模块以及精彩镜头检测模块;所述镜头边界检测模块,用于接收足球视频流,利用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,将得到的镜头集发送到镜头分类模块;所述镜头分类模块,用于接收来自镜头边界检测模块的镜头集,利用基于子窗口区域的镜头分类方法对所述镜头集进行镜头分类,并将分类后的镜头集发送到精彩镜头检测模块;所述精彩镜头检测模块,用于接收来自镜头分类模块的分类后的镜头集,并对所述分类后的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。可见,采用本发明实施例的技术方案,通过采用基于滑动平均窗帧差的镜头边界检测方法,不仅能够有效的检测镜头边界,而且实现简单,运算量较小;基于子窗口区域的镜头分类方法相比于现有技术中对整帧图像进行计算的方法,只计算几个特定的子窗口区域内的相关信息,既能达到有效分类的目的,又能显著的减少计算量;同时,本发明实施例采用对分类后的镜头进行检测,以获取视频摘要的方式,相比于现有技术中的利用相机运动情况生成视频摘要的方法,实现简单且提高了准确率。图1为不同足球视频镜头类型示意图;图2为现有技术中基于内容的生成足球视频摘要的方法示意图;图3为现有技术中足球视频帧区域分割示意图;图4为现有技术中利用SVM进行足球视频镜头分类的方法示意图;图5为本发明装置组成结构示意图;图6为本发明镜头边界检测模块组成结构示意图;图7为本发明镜头分类模块组成结构示意图;图8为本发明精彩镜头检测模块组成结构示意图;图9为本发明方法总体流程图;图10为本发明基于滑动平均窗帧差的镜头边界检测方法流程图;图11为本发明中帧图像非均匀分布和高斯加权示意图;图12为本发明滑动平均窗帧差计算方法示意图;图12A为SOM网络的结构示意图;图13为本发明的基于子窗口区域的镜头分类方法流程图;图14为本发明中子窗口位置分布示意图;图15为色调分布示意图;图16为本发明根据各子区域球场色像素所占比率/边缘像素所占比率确定镜头类型的方法流程图;图17为本发明精彩镜头检测方法流程图;图18为确定出的运动对象候选块分布情况示意图。具体实施例方式本发明实施例的实现思想为接收输入的足球视频流,应用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,得到镜头集;应用基于子窗口区域的镜头分类方法将得到的镜头集进行镜头分类;对已经分类的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步地详细说明。图5为本发明装置组成结构示意图,如图5所示,该装置主要包括镜头边界检测模块501、镜头分类模块502以及精彩镜头检测模块503。镜头边界检测模块501,用于接收足球视频流,利用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,并将得到的镜头集发送到镜头分类模块502。镜头分类模块502,用于接收来自镜头边界检测模块501的镜头集,利用基于子窗口区域的镜头分类方法对所述镜头集进行镜头分类,并将分类后的镜头集发送到精彩镜头检测模块503。精彩镜头检测模块503,用于接收来自镜头分类模块502的分类后的镜头集,并对所述分类后的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。其中,图6为本发明镜头边界检测模块501组成结构示意图,如图6所示,镜头边界检测模块501包括缩略图生成模块601、帧差计算模块602、特征值计算模块603以及镜头变换类型检测模块604,此外,还可以进一步包括一个镜头筛选模块605。缩略图生成模块601,用于接收足球视频流,求取视频流中每一帧图像的缩略图,并将生成的缩略图发送到帧差计算模块602;帧差计算模块602,用于接收来自缩略图生成模块601的缩略图,计算所述缩略图的帧差,并将计算结果发送到特征值计算模块603;特征值计算模块603,用于接收来自帧差计算模块602的帧差,根据所述帧差计算滑动平均窗帧差以及镜头边界系数,并根据所述帧差、滑动平均窗帧差以及镜头边界系数计算特征值,将计算出的特征值发送到镜头变换类型检测模块604;镜头变换类型检测模块604,用于接收来自特征值计算模块603的特征值,将所述特征值与根据特征值计算出来的阈值进行比较,根据比较结果生成突变边界集和渐变边界候选集并输出给镜头筛选模块605;镜头变换类型检测模块604可进一步用于,接收来自特征值计算模块603的特征值和镜头边界系数,以所述特征值和镜头边界系数作为输入向量,通过自组织映射法检测突变边界,并生成突变边界集输出给镜头筛选模块605;镜头筛选模块605,用于接收来自镜头变换类型检测模块604的突变边界集和渐变边界候选集,对所述渐变边界候选集进行筛选,去除误检的突变边界,并进一步对渐变边界候选集进行定位,得到渐变边界集,将确定的突变边界集和渐变边界集输出给镜头分类模块502。图7为本发明镜头分类模块502组成结构示意图,如图7所示,镜头分类模块502包括关键帧读取模块701、子窗口定位模块702、子窗口像素比率计算模块703以及镜头类型确定模块704。关键帧读取模块701,用于接收经过镜头边界检测的镜头集,根据每一个镜头的起始帧号和终止帧号计算关键帧图像位置,并将所述关键帧图像发送给子窗口定位模块702。子窗口定位模块702,用于接收来自关键帧读取模块701的关键帧图像,根据预先设定的子窗口定位规则定位出子窗口1、子窗口2以及子窗口3,并将定位后的图像发送到子窗口像素比率计算模块703。子窗口像素比率计算模块703,用于接收来自子窗口定位模块702的定位图像,计算子窗口1、2和3中的球场色像素所占比率以及子窗口1中的边缘像素所占比率,并将计算结果发送到镜头类型确定模块704。镜头类型确定模块704,用于接收来自子窗口像素比率计算模块703的计算结果,根据所述计算结果确定不同镜头的类型,并将所述镜头标记为对应类型后输出。其中,子窗口像素比率计算模块703进一步用于,将子窗口区域由红、绿、蓝(RGB)空间转化到色调、饱和度、亮度(HSV)空间,根据HSV空间分量计算子窗口1、2和3中的球场色像素所占比率。图8为本发明精彩镜头检测模块503组成结构示意图,如图5所示,精彩镜头检测模块503包括位置检测模块801、距离计算模块802、音频提取模块803以及精彩镜头判断模块804。位置检测模块801,用于接收分类后的足球视频镜头,并检测出每一帧图像中的球门区域位置以及足球所在位置,将检测结果发送给距离计算模块802。距离计算模块802,用于接收来自位置检测模块801的球门区域位置以及足球所在位置检测结果,计算两个位置之间的距离,并将计算结果发送到精彩镜头判断模块804。音频提取模块803,用于接收足球视频流,并从中提取出音频,发送到精彩镜头判断模块804。精彩镜头判断模块804,用于接收来自距离计算模块802的球门区域与足球所在位置之间距离的计算结果以及来自音频提取模块803的音频信息,根据所述计算结果以及音频信息判断当前图像内容是否符合精彩镜头要求,若符合,则将该图像或镜头作为视频摘要输出。一般情况下,精彩镜头指的是球门区域附件出现的持续时间比较短且存在得分可能的镜头,如射门镜头和射门得分镜头。基于以上所介绍的装置,图9为本发明方法总体流程图,如图9所示,包括以下步骤步骤901接收输入的足球视频流,应用基于滑动平均窗帧差的镜头边界检测方法对足球视频流进行镜头边界检测,得到镜头集。本步骤中的基于滑动平均窗帧差的镜头边界检测方法为对输入的足球视频流中的每一帧图像进行缩放,获得每一帧图像的缩略图;计算缩略图的帧差、滑动平均窗帧差以及镜头边界系数,并根据帧差、滑动平均窗帧差以及镜头边界系数计算特征值;根据特征值,或特征值和镜头边界系数检测突变边界和渐变边界,并生成突变边界集和渐变边界集。步骤902应用基于子窗口区域的镜头分类方法将得到的镜头集进行镜头分类。分类后的镜头分为四种类型主镜头、中镜头、特写镜头以及其它镜头。本步骤中的基于子窗口区域的镜头分类方法为接收输入的经过镜头边界检测的镜头集,求取每个镜头的关键帧;按照预先规定的子窗口定位规则在关键帧中定位出子窗口1、子窗口2以及子窗口3;统计各子窗口中的球场色像素所占比率和/或边缘像素所占比率,并根据所述球场色像素所占比率和/或边缘像素所占比率确定镜头类型。步骤903对已经分类的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。本发明采用判断球门区域以及足球所在位置之间的距离是否小于预先设置的阈值并辅以音频信息的方式来判断是否出现精彩镜头。下面通过一个较佳实施例来对本发明方法作详细介绍与现有技术中的镜头边界检测方法不同,本发明所采用的是基于滑动平均窗帧差的镜头边界检测方法,图10为本发明基于滑动平均窗帧差的镜头边界检测方法流程图,如图10所示,包括以下步骤步骤1001对输入的足球视频流中的每一帧图像进行缩放,获得每一帧图像的缩略图。为了减少计算量,在进行镜头边界检测之前,首先需要对帧图像进行缩放,取得每一帧图像的缩略图,具体方法为以原始图像像素点作为采样点构造插值函数,用该插值函数对缩放所需的重采样点进行插值,求得重采样点的颜色值,进而得到缩放后的图像像素点,根据这些像素点构造缩略图。比如,可以采用在行和列两个方向上分别进行一维插值的方法首先构造插值函数,由于构造插值函数时所选的节点都是等距离的,且一般都是按照x0,x1,x2......的顺序依次选取插值节点,所以可以采用n阶牛顿插值公式对图像进行插值Nn(x)=z0+a1t+a2t(t-1)+a3t(t-1)(t-2)+a4t(t-1)(t-2)(t-3)+...+ant(t-1)(t-2)...(t-n+1)。其中,t=x-x0,各系数a1,a2,a3......的计算公式为a1=z1-z0a2=12(z2+z0)-z1a3=12(z1-z2)+16(z3-z0)a4=124(z4+z0)-16(z1+z3)+14z2......]]>z0,z1,z2,z3,z4,...分别为某行/列上,采样点x0,x1,x2,x3,x4,...处的红色/绿色/蓝色分量值。步骤1002计算缩略图的帧差、滑动平均窗帧差以及镜头边界系数,并根据帧差、滑动平均窗帧差以及镜头边界系数计算特征值。本步骤中采用的是利用HSV空间中的颜色直方差计算缩略图的帧差,由于HSV空间中的各个分量都是连续的值,因此在计算帧差之前必须要将他们进行量化,本发明按照图像处理中的通常做法,将各个分量量化到256级。同时,为了降低摄像机或大物体运动造成的影响,在计算HSV直方差之前,先对每帧图像进行非均匀分块和高斯加权。图11为帧图像非均匀分块和高斯加权示意图,图中的W表示帧图像的宽度,H表示帧图像的高度。之所以采用这种方法,是因为实际的视频中主要内容往往集中在中间部分,用加权的方式可以对主要内容进行强调突出。将帧图像进行分块后,计算对应块的HSV直方差,然后再对各块进行加权,经过这样处理之后,第i帧和第j帧的帧差就变为了D(i,j)=(&Sigma;m=19&Sigma;k=0255wm|Hh(i,m,k)-Hh(j,m,k)|2)12+(&Sigma;m=19&Sigma;k=0255wm|Hs(i,m,k)-Hs(j,m,k)|2)12]]>+(&Sigma;m=19&Sigma;k=0255wm|Hv(i,m,k)-Hv(j,m,k)|2)12]]>其中,Hh(i,m,k)、Hs(i,m,k)和Hv(i,m,k)分别表示第i帧第m块中h、s、v各分量的直方差,Hh(j,m,k)、Hs(j,m,k)和Hv(j,m,k)分别表示第j帧第m块中h、s、v各分量的直方差。计算完帧差之后,接下来就要计算滑动平均窗帧差,在实际的视频序列中,当发生镜头切换时,帧差会有很大的变化,而在一个镜头内部,帧差值变化一般都比较小。假设镜头切换时的帧差为D切换,而在同一个镜头内部的帧差为D内部,则有D切换>>D内部,设滑动窗的宽度为2N+1,将第i帧的滑动平均窗帧差定义为Fsub(i)=1N&Sigma;j=1ND(i-(N-j+1),i+j)]]>其中,D(i,j)表示第i帧与第j帧的帧差,图12为滑动平均窗帧差计算方法示意图。以N=3为例,对第i帧附近的一个窗口内的6帧,分别用上式计算它们的滑动平均窗帧差,得到Fsub(i+1)、Fsub(i+2)、Fsub(i+3)、Fsub(i-1)、Fsub(i-2)和Fsub(i-3)。假设在第i帧的时候发生了镜头切换,由于同一镜头内的帧差差异很小,因此镜头内的帧与发生切换的帧以及其后相邻的若干帧的滑动平均窗帧差的差异也都很小,假定相等,均为D切换,那么,就可以得到下面的结论一个窗口内中间帧附近的6帧的滑动平均窗帧差的值,在发生镜头切换时,近似的符合1∶2∶3∶3∶2∶1的比例,当N取不同的值时也有类似的结论。基于上面的滑动平均窗帧差,进一步求得镜头边界系数SBC(i)SBC(i)=&Sigma;j=-NN-1Fsub(i+j)&times;Vec(j+N)&Sigma;j=-NN-1(Fsub(i+j))2&times;&Sigma;j=-NN-1(Vec(j+N))2]]>,Vec为理想情况下,滑动窗中除中间帧以外的各帧的滑动平均窗帧差的近似比例关系,如前面提到的当N=3时的1∶2∶3∶3∶2∶1,它是一个6维的向量,Vec=(1,2,3,3,2,1)。从上式可以看出,在镜头发生切换的时候,镜头边界系数的值将十分接近于1,即SBC(i)→1。为了进一步加大差异,还可以对SBC(i)进行调整SBC′(i)=exp[-10×(1-SBC(i))]。在连续计算出帧差、滑动平均窗帧差以及镜头边界系数之后,就可以根据这些值进一步计算特征值,本发明中的特征值包括两个,即D(1)(i,i+1)和D(2)(i,i+1)其中,D(1)(i,i+1)=D(i,i+1)×SBC′(i);D(2)(i,i+1)=Fubs(i)×(1-SBC′(i))。步骤1003根据特征值检测突变边界和渐变边界,并生成突变边界集和渐变边界集。用步骤1002中计算得到的特征值D(1)(i,i+1)和D(2)(i,i+1)分别进行突变镜头和渐变镜头的检测,相应地,可以理解为用两个不同参数的长为L的滑动窗高斯模型分别进行检测。设置阈值T,T=μ+rσ,其中,μ表示滑动窗内所选取的特征值的均值,σ表示滑动窗内所选取的特征值的均方差,r为常数。当进行突变镜头的检测时,根据特征值D(1)(i,i+1)的均值和均方差计算阈值T,比较D(1)(i,i+1)是否大于阈值T,若大于,则认为找到了突变镜头的边界。用相同的方法检可测渐变镜头边界,只要将D(1)(i,i+1)更换为D(2)(i,i+1)即可。将所有检测到的突变边界和渐变边界分别连续存放,形成突变边界集Bcut={B1,B2,…,Bn}和渐变边界集Bgrad={B1,B2,…,Bn}。上述检测过程中得到的突变边界集和渐变边界集仅为初检结果,为了降低误检可能,还需要对其进行进一步筛选。但依据经验,突变边界的初检已经比较准确,所以只需对渐变边界集进行进一步的筛选,为了便于描述,将初检得到的渐变边界集称为渐变边界候选集。采用求相对于Bgrad的相对补的方式,剔除掉Bgrad中混有的突变镜头,得到新的渐变边界候选集B′grad,显然,B′grad=Bgrad-Bcut;对新的渐变边界候选集B′grad进行进一步定位,由于D(2)(i,i+1)已经比较平滑,可以通过从峰值位置开始分别向左右两边求二次差分,根据二次差分的符号变化与连续的3个二次差分值小于预先设定的某个阈值的方式来更加精确的判断渐变开始和结束位置。上述求相对补以及求二次差分的方法均为本领域公知常识,此处不作详细介绍。通过多次测试发现,在进行突变边界检测时,阈值T中的系数r的取值在4到5之间,窗口L的取值为25以及在进行渐变边界检测时,阈值T中的系数r的取值在1到2之间,窗口L的取值为35时,检测效果最好。为了测试本发明镜头边界检测方法的效果,在实验中对各种不同种类的视频均进行了测试,表一为用本发明方法对各种不同类型的视频进行边界检测的效果统计。表一<tablesid="table2"num="002"><tablewidth="694">体育新闻广告电影卡通101010101010752336579215354152111185.9%96.2%97%98.5%86.1%80.4%90.4%90.9%92.3%94.9%总计50336383091.1%88.7%</table></tables>除了上面介绍的方法以外,在实际应用中,还可以采用自组织映射(SOM)方法来实现本发明的突变镜头边界检测,该方法不需要设置阈值,完全自适应地检测突变镜头边界。SOM是芬兰人Kohonen提出的一种具有自学习能力的无监督竞争神经网络,Kohonen认为,神经网络在接收外界输入时,将会分成不同的区域,不同的区域对不同的模式具有不同的响应特征,即不同的神经元以最佳方式响应不同性质的信号激励,从而形成一种拓扑意义上的有序图。在这种网络中,输出节点与其邻域其它节点广泛相连,并相互激励。输入节点和输出节点之间通过权值向量相连接,通过某种规则,不断地调整权值向量,使得在稳定时,每一邻域的所有节点对某种输入具有类似的输出。图12A为SOM网络的结构示意图,如图所示,p表示输入向量,本发明实施例中的输入向量为由镜头边界系数SBC′(i)和特征值D(1)(i,i+1)所组成的二维向量;W表示权值向量,其初始值可设置为大于0小于1的随机数;竞争层的传输函数为a=compet(n)。将根据每帧图像计算出的SBC′(i)和D(1)(i,i+1)进行归一化后作为输入向量,即样本输入到SOM网络中,SOM网络计算各输入向量与权值向量之间的欧式距离,距离最小的输入向量对应的图像即为首次检测出的突变边界;之后,SOM网络根据学习规则调整权值向量,并重复之前计算过程,即在新的权值向量下检测突变边界;每次计算权值向量对应着一个学习速率,当某次学习速率小于之前所有的学习速率时,结束检测过程,并通过之前检测出的突变边界形成突变边界集。上述所用到的SOM方法为现有技术,不作过多介绍。镜头分类是实现视频摘要生成的基础,是实现视频快速浏览的先决条件。为解决现有技术中镜头分类方法准确性不足以及运算量过大等问题,本发明提出了一种基于子窗口区域的镜头分类方法,利用该方法可以减少计算量、提高运算效率并可以保证较高的准确性。图13为本发明基于子窗口区域的镜头分类方法流程图,如图13所示,包括以下步骤步骤1301接收输入的经过镜头边界检测的镜头集,求取每个镜头的关键帧。每个镜头中都携带有起始称号fstart和终止帧号fend,本步骤中规定的关键帧求取方法为,用起始与结束帧号相加之和除以2,即fkey=(fstart+fend)/2。步骤1302按照预先规定的子窗口定位规则在关键帧中定位出子窗口1、子窗口2以及子窗口3。本发明的镜头分类方法采用的是依据图像中球场色像素所占比例的不同来区分不同的镜头类型,因为对于不同的镜头类型,由于其包含的内容不一样,其球场色像素在整幅图像中所占的比例会明显不同,比如,主镜头和以球场作为背景的中镜头,其球场色像素所占比率会比较高,而特写镜头和其它镜头如观众镜头的球场色像素所占比率比较低。对于某些特殊位置,这种区别会反应的更加明显。实验表明,不同镜头类型中球场色像素所占比率的变化在图14所示各矩形区域内反映的最为明显,图中虚线所包围的区域为子窗口1区域,实线所包围的区域为子窗口2区域,加粗实线所包围的区域为子窗口3区域。采用这些矩形区域计算草地颜色比率,既可以降低运算复杂度,又能够保留整帧图像的颜色分布特征。主镜头和非主镜头类型的不同之处在于主镜头帧图像下半部分球场色像素所占比率比较大,而球员、足球和裁判等非球场色像素较为分散且所占比率比较小。在图14所示的子窗口1区域中,除去观众席、球门和教练席等非球场区域的影响后,基本保证了整个子窗口1内均为球场区域。在计算该窗口内的球场色像素所占比率时,主镜头类型和非主镜头类型会有明显的差异,所以利用子窗口1可以区分主镜头和非主镜头类型。但是,如果仅仅根据子窗口1来区分主镜头和非主镜头类型,不可避免的会造成由于误检而使得一些原本属于主镜头的类型被误认为是非主镜头类型,所以,进一步引入子窗口2,通过计算子窗口2中球场色像素所占比率,将误认为是非主镜头类型的主镜头类型从非主镜头类型中划分出去。在从非主镜头类型中区分中镜头和非中镜头类型时,考虑到中镜头帧图像的特点相比于非中镜头类型,中镜头帧图像最下端区域球场色像素所占比率比较大,所以根据试验结果,选定图14所示子窗口3的区域用来区分中镜头和非中镜头类型。在非中镜头类型中区分特写镜头和其它镜头类型时,考虑到其它镜头类型中的目标颗粒度比较小,同等尺寸的窗口中会具有更多的边缘信息,所以采用首先用Canny算子对图像进行二值化,进而统计边缘像素所占比率的方法来判断其它镜头类型,实验表明,采用图14所示子窗口1区域可得到较好的结果。步骤1303统计各子窗口中的球场色像素所占比率和/或边缘像素所占比率,并根据所述球场色像素所占比率和/或边缘像素所占比率确定镜头类型。确定了各子窗口的位置以后,接下来就要统计各子窗口中的球场色像素所占比率,本发明采用的是在HSV空间中统计球场色像素所占比率,选择HSV空间的好处在于人眼可独立感知该空间中各颜色分量,即h、s、v的变化;另外,该空间中的颜色三元组(h,s,v)之间的欧几里德距离与人眼能感觉到的相应颜色差呈线性关系,是一种符合人类视觉感知特性的颜色模型。而对于足球场来说,整个场地基本上都是由球场色像素构成的,所以利用色调分量即可统计球场色像素所占比率。图15为色调分布示意图,如图15所示,本发明在统计球场色像素所占比率时,色调分量H的范围设定在75°~105°之间。图16为本发明根据各子窗口区域球场色像素所占比率/边缘像素所占比率确定镜头类型的方法流程图,如图16所示,包括以下步骤步骤1601统计子窗口1中的球场色像素所占比率R1。步骤1602判断R1是否大于或等于预先设置的阈值T1,若是,则认为该镜头类型为主镜头类型,并将该镜头标记为主镜头后输出;否则,执行步骤1603。步骤1603判断在小于T1的基础上,所述R1是否大于或等于T1′,若是,则执行步骤1604;否则,执行步骤1606。步骤1604统计子窗口2中的球场色像素所占比率R2。步骤1605判断R2是否大于或等于预先设置的阈值T2,若是,则认为该镜头类型为主镜头类型,并将该镜头标记为主镜头后输出;否则,执行步骤1606。步骤1606统计子窗口3中的球场色像素所占比率R3。步骤1607判断R3是否大于或等于预先设置的阈值T3,若是,则认为该镜头类型为中镜头类型,并将该镜头标记为中镜头后输出;否则,执行步骤1608。步骤1608对子窗口1区域进行二值化,统计二值化后的子窗口1中的边缘像素所占比率R4。步骤1609判断R4是否大于或等于预先设置的阈值T4,若是,则认为该镜头类型为其它镜头类型,并将该镜头标记为其它镜头后输出;否则,认为该镜头类型为特写镜头类型,并将该镜头标记为特写镜头后输出。实验表明,当上述阈值的取值分别为T1=0.95、T1′=0.8、T2=0.9、T3=0.7和T4=0.25时,对足球视频镜头分类的准确率可以达到90%以上。针对本发明的镜头分类方法,实验中采用了多段足球视频进行准确性以及正确性等方面的测试,表二为本发明镜头分类方法测试结果统计。表二图17为本发明精彩镜头检测方法流程图,如图17所示,包括以下步骤步骤1701接收分类后的镜头集以及视频流并提取音频信息。这里所提到的分类后的镜头集为主镜头和中镜头两种类型的镜头集;可以采用现有运动图像专家组(MPEG)-7标准中提供的技术和规范从视频流中提取音频数据。步骤1702检测图像中的球门区域位置以及足球所在位置,计算两者之间的距离。球门区域的检测采用文章《数字视频中足球集锦的分析与介绍(AnalysisandPresentationofSoccerHighlightsfromDigitalVideo)》(YowD,YeoBoon-Lock,YeungM,etal..ACCV95,1995.)中所介绍的方法检测图像中是否出现球门柱,进而确定球门区域位置;而足球所在位置的检测则要用到运动对象的自动检测与跟踪技术,足球视频中的运动对象包括球员和球,而相对于以大块绿色背景出现的球场,足球和球员的颜色明显不同,所以可以利用颜色信息将球员以及足球从整幅图像中区分出来,具体方法为根据像素点的颜色,将其标记为绿色(G)或非绿色(N);在标记为N的像素点的各个连通区域内执行类似于针对二值图像所进行的开运算和闭运算的操作,以消除图像中的噪声;然后,去除与运动对象无关的看台部分,得到粗略的运动对象区域;提取颜色特征,用不同颜色的矩形包围盒将每个可能的运动对象框上,将这些矩形区域作为探测和跟踪的候选块,如图19所示,图19中左边的图像为原始的足球视频图像,右边的图像为经过上述过程处理后,确定出了探测和跟踪候选块的图像。进一步地,依据各矩形区域面积的大小,可以将球员区域候选块与足球区域候选块区别开,并分别提取上下位特征,如位置、大小以及速度等。对每个候选块,以当前帧中相应区域的颜色信息作为模板,以当前帧中的速度和方向作为参考,在下一帧的适当范围内采用模板匹配的方法进行查找,从而在相邻帧的候选块之间建立起关联,实现对候选块的连续跟踪。但是,要实现对足球候选块的连续跟踪会有一定的困难,因为通常情况下足球在整幅图像中所占的像素点都很少,而且还经常会被球员遮蔽,这种情况下,可以利用连续帧的候选块之间的上下文特征进行跟踪和处理。例如,连续六帧图像,前五帧中均能跟踪到足球候选块的位置,但在第六帧中却无法跟踪到,这时,可用前五帧中足球候选块的位置信息构成一个函数,在检测第六帧时,根据所述函数推导出足球候选块的位置。在每帧图像中检测到球门区域以及足球所在位置后,计算两者之间的距离。步骤1703将计算出的距离与预先设置的阈值进行比较,判断所述距离是否小于给定阈值。若是,则认为有可能出现射门,进而执行步骤1704;否则,认为未出现射门,继续检测下一帧图像。为适应不同焦距的视图的需求,这里所提到的阈值并不是一个固定值,而是要根据运动对象尺寸的不同而设置为不同值。步骤1704判断此时音频中是否出现欢呼声,若出现欢呼声,则执行步骤1705;否则,认为未出现射门,继续检测下一帧图像。音频信息可以对仅仅基于图像进行精彩镜头检测的方法起到很好的补充和辅助作用。因为在足球比赛中,出现精彩镜头的时候往往会伴随有评论员激昂的解说声和观众的欢呼声,这些声音是与球员及其动作的激烈程度密切相关的。而在出现进球的时候,音频中往往都会出现“Goal”或“球进了”之类的关键词,利用好这些信息,可以极大的提高精彩镜头检测的准确率。在步骤1703已经判定当前画面中有可能出现射门的情况下,本步骤进一步判断此时音频中是否出现欢呼声,若未出现,则认为未出现射门,继续检测下一帧图像;若出现,则执行步骤1705。步骤1705判断此时音频中是否出现关键词,若出现,则认为是射门得分;否则,则认为出现射门但并未得分。进一步判断此时音频中是否出现关键词,如“Goal”或“球进了”之类的词汇,若未出现,则认为未出现射门;若出现,则认为射门得分,将该帧/镜头作为视频摘要输出。需要说明的时,具体选择什么样的场景作为视频摘要输出要根据实际情况而定,不是非要限制在射门得分上。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成的,所述的程序可以存储于一计算机可读存储介质中,所述的存储介质包括ROM/RAM、磁盘、光盘等。可见,采用了本发明的技术方案基于滑动平均窗的镜头边界检测方法可以有效地将镜头边界与非镜头边境分开,同时,该方法可以与任何一种传统的基于相邻帧差的镜头边界检测方法结合使用以进一步提高检测结果;本发明的镜头分类方法,只对占整个图像不到6%的子窗口区域进行计算,算法实现简单,大幅提高了运算效率,同时又保证了较高的准确性;同时,本发明采用的对分类后的镜头进行检测,以获取视频摘要的方式,相比于现有技术中的利用相机运动情况生成视频摘要的方法,实现简单且提高了准确率。综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。权利要求1.一种自适应生成足球视频摘要的方法,其特征在于,该方法包括以下步骤接收输入的足球视频流,应用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,得到镜头集;应用基于子窗口区域的镜头分类方法将所述镜头集进行镜头分类;对已经分类的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。2.根据权利要求1所述的方法,其特征在于,所述基于滑动平均窗帧差的镜头边界检测方法为a1、对输入的足球视频流中的每一帧图像进行缩放,获得每一帧图像的缩略图;a2、计算所述缩略图的帧差、滑动平均窗帧差以及镜头边界系数,并根据所述帧差、滑动平均窗帧差以及镜头边界系数计算特征值;a3、根据所述特征值,或所述特征值和镜头边界系数检测突变边界和渐变边界,并生成突变边界集和渐变边界集。3.根据权利要求2所述的方法,其特征在于,步骤a1所述对输入的足球视频流中的每一帧图像进行缩放的方法为以每一帧图像的原始图像像素点作为采样点构造插值函数;用所述插值函数对缩放所需的重采样点进行插值,求得重采样点的颜色值,进而得到由所述重采样点构成的缩放后的图像。4.根据权利要求2所述的方法,其特征在于,步骤a2所述计算缩略图的帧差之前,该方法进一步包括将每一帧缩略图在色调、饱和度、亮度HSV空间中的各分量进行量化;对每一帧缩略图进行非均匀分块,以及计算非均匀分块后的缩略图的HSV空间的直方差并进行高斯加权,根据所述高斯加权后的结果计算帧差、滑动平均窗帧差以及镜头边界系数。5.根据权利要求4所述的方法,其特征在于,步骤a2所述计算帧差、滑动平均窗帧差以及镜头边界系数的方法分别为帧差D(i,j)=(&Sigma;m=19&Sigma;k=0255wm|Hh(i,m,k)-Hh(j,m,k)|2)12+(&Sigma;m=19&Sigma;k=0255wm|Hs(i,m,k)-Hs(j,m,k)|2)12]]>+(&Sigma;m=19&Sigma;k=0255wm|Hv(i,m,k)-Hv(j,m,k)|2)12,]]>其中,Hh(i,m,k)、Hs(i,m,k)和Hv(i,m,k)分别表示第i帧第m块中h、s、v各分量的直方差;Hh(j,m,k)、Hs(j,m,k)和Hv(j,m,k)分别表示第j帧第m块中h、s、v各分量的直方差;滑动平均窗帧差Fsub(i)=1N&Sigma;j=1ND(i-(N-j+1),i+j),]]>其中,N的取值为以i为中心的滑动平均窗的宽度的1/2;镜头边界系数SBC(i)=&Sigma;j=-NN-1Fsub(i+j)&times;Vec(j+N)&Sigma;j=-NN-1(Fsub(i+j))2&times;&Sigma;j=-NN-1(Vec(j+N))2,]]>其中,Vec为理想情况下,滑动窗中除中间帧以外的各帧的滑动平均窗帧差的近似比例关系。6.根据权利要求5所述的方法,其特征在于,该方法进一步包括,将所述镜头边界系数SBC(i)调整为SBC′(i),SBC′(i)=exp[-10×(1-SBC(i))]。7.根据权利要求6所述的方法,其特征在于,步骤a2所述特征值包括D(1)(i,i+1)和D(2)(i,i+1);所述根据帧差、滑动平均窗帧差以及镜头边界系数计算两个特征值的方法分别为D(1)(i,i+1)的值为相邻帧差与镜头边界系数的乘积;D(2)(i,i+1)的值为滑动平均窗帧差与一减去镜头边界系数的差值的乘积。8.根据权利要求7所述的方法,其特征在于,步骤a3所述根据特征值检测突变边界和渐变边界,并生成突变边界集和渐变边界集的方法为a31、为两个特征值分别设置对应的阈值,所述阈值的取值为当前滑动窗内所选取的特征值的均值与当前滑动窗内所选取的特征值的均方差与一常数的乘积之和;a32、将两个特征值D(1)(i,i+1)和D(2)(i,i+1)分别与对应的阈值进行比较,若所述D(1)(i,i+1)大于对应的阈值,则确认该帧图像为突变边界,并输出到突变边界集;若所述D(2)(i,i+1)大于对应的阈值,则确认该帧图像为渐变边界,并输出到渐变边界候选集;a33、对所述渐变边界候选集按照求相对补的方法进行筛选,去除误检的突变边界镜头;并进一步通过求二次差分的方法对渐变边界候选集进行定位,得到渐变边界集。9.根据权利要求7所述的方法,其特征在于,步骤a3所述根据特征值和镜头边界系数检测突变边界和渐变边界,并生成突变边界集和渐变边界集的方法为a31、以SBC′(i)和D(1)(i,i+1)作为输入向量,通过自组织映射法检测突变边界,并生成突变边界集;为D(2)(i,i+1)设置对应的阈值,所述阈值的取值为D(2)(i,i+1)的均值与D(2)(i,i+1)的均方差与一常数的乘积之和;a32、将D(2)(i,i+1)与对应的阈值进行比较,若所述D(2)(i,i+1)大于对应的阈值,则确认该帧图像为渐变边界,并输出到渐变边界候选集;a33、对所述渐变边界候选集按照求相对补的方法进行筛选,去除误检的突变边界镜头;并进一步通过求二次差分的方法对渐变边界候选集进行定位,得到渐变边界集。10.根据权利要求1所述的方法,其特征在于,所述经过分类后的镜头包括四种类型,分别为主镜头、中镜头、特写镜头以及其它镜头;所述应用基于子窗口区域的镜头分类方法将所述镜头集进行镜头分类的方法具体包括b1、接收输入的经过镜头边界检测的镜头集,求取每个镜头的关键帧;b2、按照预先规定的子窗口定位规则在所述关键帧中定位出子窗口1、子窗口2以及子窗口3;b3、统计各子窗口中的球场色像素所占比率和/或边缘像素所占比率,并根据所述球场色像素所占比率和/或边缘像素所占比率确定镜头类型。11.根据权利要求10所述的方法,其特征在于,步骤b1所述求取每个镜头的关键帧的方法为将镜头中的起始帧号和终止帧号求和后除以2。12.根据权利要求10或11所述的方法,其特征在于,所述步骤b3为b31、统计子窗口1中的球场色像素所占比率R1,将R1与预先设置的阈值T1进行比较,若R1大于或等于T1,则将该镜头标记为主镜头类型并输出;若R1小于T1,则进一步判断R1是否大于或等于预先所设阈值T1′,若是,则执行步骤b32,否则执行步骤b33;b32、统计子窗口2中的球场色像素所占比率R2,将R2与预先设置的阈值T2进行比较,若R2大于或等于T2,则将该镜头标记为主镜头类型并输出;否则,执行步骤b33;b33、统计子窗口3中的球场色像素所占比率R3,将R3与预先设置的阈值T3进行比较,若R3大于或等于T3,则将该镜头标记为中镜头类型并输出;否则,执行步骤b34;b34、对子窗口1区域进行二值化,统计边缘像素所占比率R4,若R4大于或等于预先所设阈值T4,则将该镜头标记为其它镜头类型并输出;否则,将该镜头标记为特写镜头并输出。13.根据权利要求12所述的方法,其特征在于,所述统计球场色像素所占比率之前,该方法进一步包括将子窗口区域由红、绿、蓝RGB三基色空间转化到HSV空间。14.一种自适应生成足球视频摘要的装置,其特征在于,该装置包括镜头边界检测模块、镜头分类模块以及精彩镜头检测模块;所述镜头边界检测模块,用于接收足球视频流,利用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,将得到的镜头集发送到镜头分类模块;所述镜头分类模块,用于接收来自镜头边界检测模块的镜头集,利用基于子窗口区域的镜头分类方法对所述镜头集进行镜头分类,并将分类后的镜头集发送到精彩镜头检测模块;所述精彩镜头检测模块,用于接收来自镜头分类模块的分类后的镜头集,并对所述分类后的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。15.根据权利要求14所述的装置,其特征在于,所述镜头边界检测模块包括缩略图生成模块、帧差计算模块、特征值计算模块以及镜头变换类型检测模块;所述缩略图生成模块,用于接收足球视频流,求取视频流中每一帧图像的缩略图,并将生成的缩略图发送到帧差计算模块;所述帧差计算模块,用于接收来自缩略图生成模块的缩略图,计算所述缩略图的帧差,并将计算结果发送到特征值计算模块;所述特征值计算模块,用于接收来自帧差计算模块的帧差,根据所述帧差计算滑动平均窗帧差以及镜头边界系数,并根据所述帧差、滑动平均窗帧差以及镜头边界系数计算特征值,将计算出的特征值发送到镜头变换类型检测模块;所述镜头变换类型检测模块,用于接收来自特征值计算模块的特征值,将所述特征值与根据特征值计算出来的阈值进行比较,根据比较结果生成突变边界集和渐变边界候选集并输出给镜头筛选模块。16.根据权利要求15所述的装置,其特征在于,所述镜头变换类型检测模块进一步用于,接收来自特征值计算模块的特征值和镜头边界系数,以所述特征值和镜头边界系数作为输入向量,通过自组织映射法检测突变边界,并生成突变边界集输出给镜头筛选模块。17.根据权利要求15或16所述的装置,其特征在于,所述镜头边界检测模块进一步包括镜头筛选模块;所述镜头筛选模块,用于接收来自镜头变换类型检测模块的突变边界集和渐变边界候选集,对所述渐变边界候选集进行筛选,去除误检的突变边界,并进一步对渐变边界候选集进行定位,得到渐变边界集,将确定的突变边界集和渐变边界集输出给镜头分类模块。18.根据权利要求14所述的装置,其特征在于,所述镜头分类模块包括关键帧读取模块、子窗口定位模块、子窗口像素比率计算模块以及镜头类型确定模块;所述关键帧读取模块,用于接收经过镜头边界检测的镜头集,根据每一个镜头的起始帧号和终止帧号计算关键帧图像位置,并将所述关键帧图像发送到子窗口定位模块;所述子窗口定位模块,用于接收来自关键帧读取模块的关键帧图像,根据预先设定的子窗口定位规则定位出子窗口1、子窗口2以及子窗口3,并将定位后的图像发送到子窗口像素比率计算模块;所述子窗口像素比率计算模块,用于接收来自子窗口定位模块的定位图像,计算子窗口1、2和3中的球场色像素所占比率以及子窗口1中的边缘像素所占比率,并将计算结果发送到镜头类型确定模块;所述镜头类型确定模块,用于接收来自子窗口像素比率计算模块的计算结果,根据所述计算结果确定不同镜头的类型,并将所述镜头标记为对应类型后输出。19.根据权利要求18所述的装置,其特征在于,所述子窗口像素比率计算模块进一步用于,将子窗口区域由RGB空间转化到HSV空间,根据所述HSV空间分量计算子窗口1、2和3中的球场色像素所占比率。全文摘要本发明实施例公开了一种自适应生成足球视频摘要的方法,接收输入的足球视频流,应用基于滑动平均窗帧差的镜头边界检测方法对所述足球视频流进行镜头边界检测,得到镜头集;应用基于子窗口区域的镜头分类方法将所述镜头集进行镜头分类;对已经分类的镜头集进行精彩镜头检测,将检测到的精彩镜头作为视频摘要输出。本发明实施例还同时公开了一种自适应生成足球视频摘要的装置,应用该方法和装置能够提高足球视频摘要生成的效率以及准确率。文档编号G06T5/00GK101013444SQ20071007927公开日2007年8月8日申请日期2007年2月13日优先权日2007年2月13日发明者于俊清,王宁,田波,吴向梅,牛彩卿,张勤伟申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1