一种基于事件模型的足球视频集锦自动合成方法

文档序号:7925513阅读:252来源:国知局
专利名称:一种基于事件模型的足球视频集锦自动合成方法
技术领域
本发明涉及计算机视觉、视频处理和增强现实领域,具体地说是一种基于事件模型的足球视频集锦自动合成方法。
背景技术
体育视频集锦作为体育影视节目的一种,由于能够在较短时间获取充分的信息, 其短小精悍的特点深受观众喜爱。尤其在足球赛事方面,仅仅为了看到喜爱的球员或精彩的射门镜头而观看长达90分钟的比赛视频非常耗时,因此经常采用足球比赛集锦的方式记录精彩镜头回放、赛事总结、球员个人经历等赛事相关话题。传统视频集锦由人工剪辑比赛视频,虽然剪辑精准度较高且富有感情色彩,但是需要耗费大量人力逐帧检查视频以寻找所需的精彩镜头,且对剪辑师赛事经验知识要求较高。随着视频理解、计算机视觉领域的研究不断进步,为体育赛事视频自动生成集锦视频逐渐成为一个技术和研究热点。目前,根据视频片源不同,为体育赛事视频自动生成集锦视频可以分为两大类。一类是针对电视转播视频的自动集锦。由于电视转播视频加入了转播师对赛事的理解,在处理时能够将转播技巧作为视频集锦的隐含线索。例如,足球比赛转播时,特写镜头或慢放镜头通常会出现在进球之后;两次镜头切换之间通常发生着同一个事件;远景镜头通常意味着开场或球的大范围运动轨迹等等。这类方法通过在足球视频中检测上述线索,完成足球集锦片段检测并最终生成集锦视频,或者直接在视频中检测屏显文字(例如比分牌)来确定足球集锦片段发生时间。这类方法虽然在一定程度上能够获得较好的集锦结果,但是其过分依赖于电视转播视频,在适用范围上有很大局限。另一类是针对非电视转播视频的自动集锦。其中,对视频主题有较强针对性的方法,通常利用该视频主题的特殊先验知识(例如足球视频中的网状球门、大片绿色草坪、观众欢呼声等先验知识),获得关于该视频主题的精彩镜头检测线索。其较强的针对性决定了该类方法模型固定,可重用性差。而较有研究价值的是在一定范围内具有普遍适用性的集锦方法。目前该方面的研究主要集中在两个方向(1)视频事件分析;( 视频内容摘要。在视频事件分析方面,2010年的ECCV会议上,斯坦福大学的Li Fei-Fei等人提出了一种基于人类动作时序关系的行为模型。该模型将动作表示为不同时间点的行为分割。 该方法训练出两种模型,分别为判别式模型与外观模型判定模型用来编码基于时间分解的视频序列,外观模型用于每个行为分割。在识别过程中,通过学习特征与行为分割分解来进行视频与模型的匹配。该方法通过引入时间结构,可以较好的识别简单与复杂人类动作, 但由于其时间结构模式固定,无法胜任由动作组成的复杂事件。在2009年的CVI^R会议上, 马里兰大学的Larry S. Davis等人提出一种从带有弱标记数据的视频中学习出完整的可视化故事情节模型的方法。其中故事情节模型以与或图的形式来表达,可以将视频中的故事情节变化进行简单编码。与或图中的边相当于基于时空约束的因果关系。用这个模型和学习得到的训练数据,可以进行行为识别与故事情节提取。考虑到视频帧中人体姿态与周围物体的关联关系,2010年美国加州大学的i^owlkes等人提出一种基于人体姿态与周围物体关联关系建模,来识别动作的方法。该方法主要解决静态图像的动作识别问题并将其转化为潜在结构标记问题。在视频内容摘要方面,Pritch等人在2008年的PAMI期刊上提出的方法通过分析视频能够将一段长视频浓缩为一小段摘要,并在每帧上面同时显示多帧的运动信息,但该方法的局限性在于无法处理视频中整个场景都在运动的情况与经过编辑的视频。华盛顿大学的Hwang等人提出一种基于视频物体分割的关键帧提取方法并设计实现了相应系统,能快速、有效的进行在线处理。2005年的CVI3R会议上,微软研究院的Jojic等人针对监控视频提出一种新的交互模型来索引和分析视频。另外,佛蒙特州大学的mi等人提出了一种分层视频摘要策略,通过分析视频内容结构给用户提供多尺度、多级别的视频总结。综上所述,目前在视频集锦技术上,主要存在以下两个方面的问题(1)严重依赖于输入视频质量,适用范围较窄。使用镜头切换、哨声、转场等富有语义暗示信息的线索进行视频集锦虽然能够较快探测出足球集锦片段,但是无法了解足球事件进行过程,因此很难提取出事件发生的时间区间。( 较少以事件为单元进行视频集锦。由于视频事件丰富多样,直接采用特征统计方法的模型难以完全涵盖事件的变化,如何合理利用领域知识,结合事件的视觉特征对事件建模是一个难点和研究热点。

发明内容
根据上述实际需求和关键问题,本发明的目的在于提出一种基于事件模型的足球视频集锦自动合成方法。该方法能够突破输入视频的镜头远近、视频长度、视频声音等因素的限制,尤其当输入视频为非转播视频,无法从中获取特写镜头、欢呼声等集锦关键线索时,本发明提出的基于事件模型的集锦方法尤为适用。本发明认为足球视频集锦是若干足球集锦片段组合而成的合成视频,每一个集锦片段中含有一个重要足球事件。与其他运动项目视频相比,足球比赛视频具有两个特点第一,较难从视频中找到视频事件的开始及结束线索;第二,足球比赛规则复杂,同类型重要足球事件(例如进球或红黄牌)每次出现时其持续时间、事件经过往往各不相同。通过大量观察得知,重要足球事件通常能够分解成若干动作的组合,其中含有一个经常出现的重要动作,称为核心动作;相对而言,其他动作被称为周围动作。因此,本发明认为,足球比赛视频集锦片段可以用一个核心-周围事件模型表示。为了将足球比赛视频浓缩为足球集锦视频,需要在输入视频中检测并提取足球集锦片段。因此,本发明首先构建一个核心-周围事件模型,建模事件及组成事件的各动作之间的语义关系、时序关系及视觉特征。核心-周围事件模型的训练过程包含以下步骤(1)输入一系列足球比赛视频及其对应的文本解说词,从解说词中提取关键词,并根据解说词的事件记录,统计每个关键词的出现概率,以及多个关键词同时出现的概率;( 选定出现概率最大的关键词为核心关键词;(3)将解说词与足球比赛视频相对应,记录关键词出现时间,并统计关键词表示的动作持续时间与事件持续时间;(4)在关键词出现时间段计算时空兴趣点的梯度特征和光流特征,统计梯度直方图和光流直方图作为动作的局部视觉特征。概括而言,核心-周围事件模型建模的内容包括每个动作的视觉统计特征;动作在事件发生过程中的先后顺序;动作持续时间与事件持续时间的比值;每个动作发生的概率。模型经过训练后,用于视频事件的检测和提取。总的来说,输入一段足球比赛视频,合成足球集锦视频的步骤可以分为(1)提取集锦片段。对于每类足球集锦片段,首先根据该类集锦片段所含的重要足球事件,在输入视频上分别检测组成该事件的核心动作和周围动作,得到每个动作的出现时间段;然后,以核心动作为基准,结合动作时序关系确定事件发生时间段,计为候选集锦片段的时间段;最后,在候选集锦片段匹配事件模型,得出模型匹配分数。( 合成集锦视频。首先通过步骤(1)为每种类型的足球集锦片段得出一个候选集锦片段列表,将其按照模型匹配分数由高到低排序;然后根据用户需要的集锦片段类别和集锦视频长度选取若干足球集锦片段,并按其发生时间排列;最后选择前一个足球集锦片段的末尾若干帧与后一个片段的开始若干帧做平滑过渡处理,使其更符合视觉感官效果。与其他视频集锦方法相比,本发明的优势在于(1)适用视频片源广泛。相较于其他视频集锦方法需要依赖电视台转播视频时的镜头特写和转场切换等线索,本发明通过分析视频事件的视觉特征,检测和识别视频中的各类事件,从而能够广泛适用于个人数字娱乐、体育科学研究、电视节目制作等视频集锦。( 集锦片段组合灵活。由于本发明采用视频事件为视频集锦片段单元,用户指定其需要的集锦片段类型、集锦视频长度、等条件,从而能够合成符合用户需求的个性化视频集锦产品。


图1是本发明的核心-周围事件模型结构图;图2是本发明的模型训练过程示意图;图3是本发明的语义层事件模型建模流程图;图4是本发明的视觉层事件模型训练过程流程图;图5是本发明的足球集锦片段提取过程示意图;图6是本发明的足球集锦片段合成示意图。
具体实施例方式下面结合附图对本发明作详细说明。本发明定义足球视频集锦定义为足球比赛中发生、以视频为载体的重要足球事件集合。足球视频集锦由一系列足球集锦片段组合而成,每一个足球集锦片段包含一个重要足球事件。本发明构建的核心-周围事件模型用于检测和识别足球比赛视频中的重要足球事件,进而提取足球集锦片段。足球集锦片段根据其中包含的重要足球事件类型不同,而具有不同类别。例如,进球和红黄牌属于不同的重要足球事件,因此,包含进球的足球集锦片段和包含红黄牌的足球集锦片段属于不同类别的足球集锦片段。参阅图1本发明的核心-周围事件模型结构图,本发明构建的核心-周围事件模型同时在语义和视觉上对足球集锦片段中包含的重要足球事件进行建模。该模型主要包括 3个部分(1)语义关系,该部分主要建模核心动作和每个周围动作同时出现的可能性,以及每个动作在该重要足球事件中出现的可能性。(2)时间顺序,该部分主要建模在重要足球事件发生过程中,各个动作可能出现的时间位置及持续时间长度。( 视觉外观,该部分主要指动作所在时间区间的视频中时空兴趣点上的视觉特征统计。对于同类重要足球事件, 选择一个最可能发生的动作视为核心动作,其他动作视为支持该事件的周围动作。因此,周围动作与核心动作之间的时序关系约束被隐式的建入模型,这对于在视频中定位事件非常有帮助。该核心-周围事件模型在训练时能够分为两层语义层和视觉层。对于一类事件 E以及描述它的动作集Iai, i = l,...,n},语义层建模事件E中 的发生概率以及 是否是E的核心。视觉层建模事件的视觉外观,并将语义层模型作为先验概率引入。视觉层模型有三个参数识别某动作%的最好的分类器Ai ;分类器Ai的最佳出现时间锚点、在事件发生过程中的时间区间ri0事件模型的的训练集包括视频段{V1,...,VN},以及相应动作的类别标签 Y^yi e {-1,1},i = 1,…,N)。采用隐式支撑向量机LSVM学习该模型,在LSVM框架中, 能量函数是根据隐变量最大化的,这里的隐变量指动作分类器的最佳出现位置,该位置并非精确给出,而是通过训练样本隐式的训练得到。参阅图2本发明的足球集锦片段模型训练过程示意图,本发明的模型训练过程主要分为三个步骤(1)语义关系建模。其具体过程如图3所示,首先将带有时间和事件标识的解说词作为训练文本,经过句子成分分析,提取其动词性、动名词性关键词,并构建表示事件的关键词集;基于WordNet词汇分类,将关键词映射到不同类别,并将该类别标签作为动作类别标签;统计每个动作在本类别集锦片段出现次数及出现总次数,计算每个动作对该类别集锦片段的标识度,并选择标识度最大的动作作为核心动作;记录动作发生次数,并计算其发生概率为先验概率。( 动作视觉特征统计。根据解说词的时间标识和动作类别标签,获得该动作发生的视频时间区间;将该视频时间区间内的视频段分割为若干份,在每一份计算时空兴趣点上的梯度直方图和光流直方图。(3)时序关系建模。根据解说词的时间标识、事件标识和动作类别标签,得出同类足球集锦片段所含事件的动作发生顺序图,根据事件视觉层模型,利用LSVM训练每个动作最佳发生位置。参阅图4本发明的视觉层事件模型训练过程流程图,本发明的事件模型在视觉层上的训练过程如下(1)计算特征点,将训练集中的每个视频Vp (p e {1,...,N})平均分割为M个视频段户=1,...,7\^ = 1,...,1/},检测<的时空兴趣点^7={碎,/ = 1,...,/^},其中《<为视频段<中的时空兴趣点个数。(2)统计St1的梯度直方图MX^和光流直方图
,其中梯度直方图的横坐标是梯度向量区间,区间个数用ng表示,纵坐标表示落在每个向量区间的梯度向量个数;光流直方图的横坐标是光流向量区间,区间个数用nf表示,纵坐标表示落在每个向量区间的光流向量个数。( 将每个视频段时空兴趣点的梯度直方图和光流直方图归一化为一个nd维向量,其中nd = ng+nf,并利用k-means算法将
NM nVq
H碎个向量聚为K类,构造出视频段视觉统计特征的编码表。(4)初始化分类器AiW
PA ι
最佳出现时间锚点、和Ai在事件发生过程中的时间区间ri;然后通过步骤(5) (6)训练分类器A”( 根据、和巧截取视频Vp的若干视频段,统计其包含的时空兴趣点向量,并映射到编码表构成一个长度为K的向量分布直方图Z(K),将该直方图归一化为K维向量加入正例集Ψ。(6)以A确定截取窗口大小,在视频Vp上滑动,计算在时间锚点t处所截取视频段的向量分布直方图Z(^),计算该直方图构成的K维向量与正例集中向量的距离 distance^,φρ(t,η))若distance^,φρ(t,rt))-distance^,φρ{tt^))<ε ( ε 为某极小量),则
将Z((幻代替Z(K)加入正例集,重复本步骤;否则结束本步骤。(7)统计t在视频Ψ中出现的位置,将其拟合为二次抛物曲线/(^找),其中{ α ρ β J为二次曲线参数。该二次抛物曲线横坐标表示归一化后的t的出现时间,纵坐标表示在该时间上的出现次数,作为时间惩罚函数留待识别过程使用。参阅图5本发明的足球集锦片段提取过程示意图,该提取过程主要包括以下步骤(1)对于输入足球比赛视频段,检测所有可能出现的动作;( 以某类足球集锦片段为例,使用该类足球集锦片段所含重要足球事件的核心动作定位该足球集锦片段的粗略时间段作为该足球集锦片段的候选时间段;C3)计算该候选时间段与对应事件模型的匹配度,并以分数表示,称为该候选时间段对于该足球集锦片段的匹配得分。将同类足球集锦片段的所有候选时间段按照匹配得分由高到低的顺序排列。候选足球集锦片段与事件模型的匹配过程步骤如下(1)将候选足球集锦片段Vf根据训练集视频划分尺度划分为视频段I q = 1,..,0} ; (2)取分类器Ai,根据其时间区间ri划定滑动窗口大小,在Vf的Q段视频段上滑动,计算在时间锚点t处所截取视频段的向量分布直方图¢/((6.),计算该直方图构成的K维向量与正例集中向量相似度4 f fGz); (3)计算时间锚点t处的时间惩罚 φτ( , ^α^β^ ; (4)根据公式乂 =max(4 ·φ¥计算分类器Ai在候选足球集锦片段Vf上的最好得分作为分类器Ai的匹配分数;( 累加模型匹配分数,并返回步骤 (2)直至所有分类器匹配完毕。参阅图6本发明的足球集锦片段合成示意图,根据用户需要的足球集锦片段类型和集锦视频长度,通过编辑每两个足球集锦片段之间的过渡效果,以完成视频集锦。选取足球集锦片段A的最后N帧以及足球集锦片段B的开始N帧作为过渡区域,调整每帧的透明
度,并使调整后的A的第χ帧透明度μ和B的第χ帧透明度Β满足
权利要求
1.一种基于事件模型的足球视频集锦自动合成方法,其特征在于包含以下步骤(1)定义足球视频集锦片段是由单人或多人进行的、可分解为多动作组合的重要足球事件;(2)构建一个核心-周围事件模型,根据动作发生概率,指定最可能发生的动作为核心动作,其余动作均为周围动作,该事件模型具体包括动作语义关系、动作时序关系和局部视觉特征三个部分;(3)利用足球比赛视频及其对应的文本解说词构建训练集,选择进球和红黄牌作为两类足球集锦,分别从动作语义关系、动作时序关系和局部视觉特征三个方面训练所述核心-周围事件模型;(4)输入一段没有解说词的足球比赛视频,利用训练得到的事件模型在输入视频中提取足球集锦片段,并给出候选集锦片段与模型的匹配分数;(5)将足球集锦片段分类按照匹配分数排序,将分数较高的足球集锦片段自动合成为一个足球视频集锦。
2.根据权利要求1所述的基于事件模型的足球视频集锦自动合成方法,其特征在于 步骤(1)中以视频事件作为足球集锦片段单元,针对某个类型的足球集锦片段单独进行足球视频集锦。
3.根据权利要求1所述的基于事件模型的足球视频集锦自动合成方法,其特征在于 步骤O)的核心-周围事件模型要求事件可被分解为多个动作,所述核心-周围事件模型主要建模三个部分内容(2. 1)动作语义关系包括每个动作发生的概率,以及每个周围动作和核心动作同时出现的概率;(2. 2)动作时序关系包括动作在事件发生过程中的先后顺序,以及动作持续时间与事件持续时间的比值;(2. 3)局部视觉特征包括每个动作在运动持续过程中的梯度和光流统计特征。
4.根据权利要求1所述的基于事件模型的足球视频集锦自动合成方法,其特征在于 步骤(3)中要求输入的足球比赛视频文本解说词含有时间记录及事件记录,能够与视频时间相对应,针对某类型足球集锦训练所述核心-周围的步骤如下(3. 1)输入一系列足球比赛视频及其对应的文本解说词,从解说词中提取关键词,并根据解说词的事件记录,统计每个关键词的出现概率,以及多个关键词同时出现的概率;(3. 2)选定出现概率最大的关键词为核心关键词;(3. 3)将解说词与足球比赛视频相对应,记录关键词出现时间,并统计关键词表示的动作持续时间与事件持续时间;(3. 4)在关键词出现时间段计算时空兴趣点的梯度特征和光流特征,统计梯度直方图和光流直方图作为动作的局部视觉特征。
5.根据权利要求1所述的基于事件模型的足球视频集锦自动合成方法,其特征在于 步骤(4)输入一段足球比赛视频,其集锦片段提取过程分为以下步骤(4. 1)在输入视频上分别检测核心动作和周围动作,得到所有动作的出现时间段;(4. 2)以核心动作为基准,结合动作时序关系确定事件发生时间段计为候选足球集锦片段;(4. 3)在候选足球集锦片段匹配事件模型,得出模型匹配分数。
6.根据权利要求1所述的基于事件模型的足球视频集锦自动合成方法,其特征在于 步骤(5)中将若干候选足球集锦片段组合为足球视频集锦时,根据用户需要的集锦类型和视频长度对每个足球集锦片段开始与结尾部分做过渡处理。
全文摘要
本发明是一种基于事件模型的足球视频集锦自动合成方法,包括针对足球比赛视频集锦,定义足球视频集锦片段是可分解为多动作组合的足球视频事件;构建核心-周围事件模型表示足球集锦片段;利用足球比赛视频及其对应文本解说词构建训练集,选择进球和红黄牌作为两类足球集锦,训练事件模型;输入一段没有解说词的足球比赛视频,识别足球集锦片段在输入视频中的出现位置,并给出匹配分数;根据用户需求,将分数较高的足球集锦片段自动合成为一个足球视频集锦。本发明生成足球视频集锦的方法能够突破输入视频的镜头远近、视频长度等因素的限制,能够广泛应用推广到个人数字娱乐、体育影视制作等领域。
文档编号H04N5/222GK102427507SQ20111029438
公开日2012年4月25日 申请日期2011年9月30日 优先权日2011年9月30日
发明者蒋恺, 赵沁平, 陈小武 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1