用于视频内容分析的关键帧提取的制作方法

文档序号:6348942阅读:754来源:国知局
专利名称:用于视频内容分析的关键帧提取的制作方法
技术领域
本发明涉及构成镜头(shot)的帧序列中的关键帧的提取领域,所述关键帧用于在视频摘要、浏览、搜索和理解中代表镜头。
背景技术
随着在因特网、移动设备和大范围的视频应用中存储和观看数字视频的流行性的快速增长,对视频数据的有效管理变得比以前重要得多。对于自动视频检索而言,几乎不可能使用关键字描述视频序列。原因在于,人工注释需要巨大的人力,并且使用的关键字倾向于不精确且是主观的。因此,可以提供对视频序列的有效索引、检索和浏览的基于内容的技术将是一种解决方案。用于管理视频数据的一般方法是借助于镜头切分检测或者场景分解检测将视频分割成称为“镜头”的若干组相关帧。在标识镜头边界之后,可以从每组帧(GoF)或者视频镜头中提取一个或多个关键帧或代表帧。然后,这些关键帧上的视觉内容被用来代表视频镜头以用于索引和检索。关键帧提取是视频分析和管理中的基本部分,其提供用于视频索引、浏览和检索的适当视频摘要。关键帧的使用减少了视频索引中所需的数据量并且提供了用于处理视频内容的框架。关键帧提取可以在场景或镜头水平下进行。通常,镜头水平下的分析是优选的,因为它保留了选择的关键帧在视频帧集中的时间顺序。当前的关键帧提取技术可以分类成以下六类
基于镜头边界的方法,基于视觉内容的方法,基于运动分析的方法,基于镜头活动的方法,基于无监督聚类的方法,以及基于宏块的方法。这些方法分别具有其优点。例如,文献US2005/000M52公开了一种关键帧提取,该关键帧提取基于由亮度分布定义的熵度量以及与相邻帧的比较,使得具有最少运动活性的帧被选择。看起来已知的提取方法在选择包含可以用于动作识别的复杂且快速变化的运动的帧方面表现得并不良好。

发明内容
有利的是实现一种提取代表镜头捕获的(多个)运动的关键帧的方法。为了更好地解决一个或多个关切,在本发明的第一方面中,一种从构成镜头的每帧由像素矩阵构成的帧序列中提取关键帧的方法包括
对于帧序列的每帧
将该帧与后续帧相比的光流计算为从该帧到后续帧的每个像素的位移的矩阵; 基于该帧的光流计算运动熵度量; 将帧序列的具有最大运动熵度量的帧选择为关键帧。所述方法特别有益于选择具有复杂且快速变化的运动的(多个)帧。
在一个特定的实施例中,
每个像素的位移被定义为具有模和位移角的矢量,运动直方图由代表模和位移角的组合的预定数量的面元(bin)定义。·丢弃具有最高频率的面元。·运动熵度量为每个面元的运动熵度量的总和,一个面元的运动熵度量与该面元在运动直方图中的出现频率成比例。·面元熵度量由该面元出现的对数频率的绝对值加权。·将每帧的运动直方图与另一帧的运动直方图进行比较以便将该帧的运动熵度量定义为相似性度量。·通过在具有预定长度的帧的滑动窗中选择所述帧序列的具有最大运动熵度量的帧而提取多个关键帧。·每个像素的位移定义为具有模和位移角的矢量,并且运动直方图由代表模和位移角的组合的预定数量的面元定义,运动熵度量为每个面元的运动熵度量的总和,一个面元的运动熵度量与该面元在运动直方图中出现的频率成比例,并且
所述方法进一步包括对于每个被选择的帧,与其相邻帧的运动直方图进行比较,并且用比较的结果对每个被选择的帧的运动熵度量进行加权。在本发明的第二方面中,一种计算机软件产品存储在记录介质上并且包括一组指令,当计算机执行该组指令时,其使得计算机能够实施上面公开的方法。在本发明的第三方面中,一种用于从构成镜头的帧序列中提取关键帧的装置,每帧由像素矩阵构成,该装置包括
帧光流计算器,其用于将所述帧序列的每帧与后续帧相比的光流计算为从该帧到后续帧的每个像素的位移的矩阵;
运动熵度量计算器,其基于帧光流计算器的输出; 关键帧选择器,其用于选择帧序列的具有最大运动熵度量的帧。取决于图像的类型,特定的实施例由于更易于适应或者由于给出更好的结果而可能是优选的。然而,可以适当地或者根据需要组合或修改这些特定实施例的各方面。


本发明的这些和其他方面根据以下描述的实施例将是清楚明白的,并且将参照所述实施例进行阐述,其中
-图1为依照本发明一个实施例的方法的流程图; -图2为帧的运动直方-图3为图2的另一个帧运动直方图,其没有具有最高计数的面元; -图4为依照本发明另一个实施例的方法的流程图;以及 -图5为依照本发明一个实施例的装置的示意图。
具体实施例方式参照图1,一种从构成镜头的帧序列中提取关键帧的方法,每帧由像素矩阵构成, 该方法包括对于所述帧序列的每帧(步骤1)
将与后续帧相比的帧光流计算为从该帧到后续帧的每个像素的位移的矩阵(步骤
3)
基于该帧光流计算运动熵度量(步骤5); 将帧序列的具有最大运动熵度量的帧选择为关键帧(步骤7)。现在参照特定实施例详细地讨论每个步骤。考虑光流的计算,应当指出的是,每个人类活动引起可以被观察者容易地识别的特有的运动模式。光流是一种适合于识别人类动作的运动描述符。在第一步骤中,帧的每个像素的位移通过与后续帧比较作为光流场而计算。例如, 使用诸如Lucas-Kanade算法之类的标准方法计算光流场序列。因此,对于帧k,帧i与帧i+Ι之间的光流Fk为每个速度矢量具有模Mi (X,y)和角度 i(x,y)的速度矢量Fi (X,y)矩阵。速度矢量FiOc, y)度量像素(x,y)从帧i到帧i+Ι的位移。熵是表示数据集的不纯度或不可预测性的良好方式,因为它取决于其中进行测量的环境。基于上面定义的光流,计算运动熵度量。每个基于光流输出的速度矢量通过其幅度Mi (X,y)和取向 “χ,y)量化。运动直方图被定义为预定数量的面元,每个面元为幅度和取向的组合,从而覆盖幅度和取向值的整个谱。例如,使用表示5个幅度水平和8个取向角度的40个直方图面元。帧中第k个面元出现的概率给定为
,,h
PfK^}=‘“ ‘⑴
M *N
其中Μ、N为帧的大小并且h表示第k个面元的计数。Pf (k)因而为面元k中包含的像素计数与总像素数之比。
K m&KKm^K,、 E ,(k) = ρf (k)*logy[p/(^))(2)
k=l
其中Kmax为直方图中的总面元数,在该实例中KmaX=40,并且所有面元的熵e3f(k)的总和为该帧中的运动的全局熵。面元熵度量因而为由面元出现的对数概率的绝对值加权的面元出现的概率。由于对数概率总是为负的,因而取绝对值以获得正值作为熵。直观上,有峰运动直方图包含较少的运动信息,从而产生低的熵值;平坦且分布式的直方图包括更多的运动信息,并且因而得到高的熵值。上面公开的熵最大值方法提供了关于哪些帧包含最复杂的运动的信息。在一些情形中,其中运动直方图相对于周围帧相对较快地变化的帧也包含重要的信息。因此,公开了第二实施例,其称为帧间方法或直方图交会法,并且其测量连续帧的运动之间的差异。所述度量计算两个直方图之间的相似性。帧i及其邻近帧(超前或滞后χ帧)的运动直方图分别为Hf (i)和Hf (i 士χ),并且
权利要求
1.一种从构成镜头的帧序列中提取关键帧的方法,每帧由像素矩阵构成,所述方法包括 对于所述帧序列的每帧 将所述帧与后续帧相比的光流计算(3)为从所述帧到后续帧的每个像素的位移的矩阵; 基于所述帧的光流计算(5)运动熵度量; 将所述帧序列的具有最大运动熵度量的帧选择(7)为关键帧。
2.依照权利要求1的方法,其中每个像素的位移被定义为具有模和位移角的矢量,运动直方图由代表模和位移角的组合的预定数量的面元定义。
3.依照权利要求2的方法,其中丢弃具有最高频率的面元。
4.依照权利要求2或3的方法,其中运动熵度量为每个面元的运动熵度量的总和,一个面元的运动熵度量与所述面元在运动直方图中的出现频率成比例。
5.依照权利要求4的方法,其中面元熵度量由所述面元出现的对数频率的绝对值加权。
6.依照权利要求2或3的方法,其中将每帧的运动直方图与另一帧的运动直方图进行比较以便将所述帧的所述运动熵度量定义为相似性度量。
7.依照权利要求1的方法,其中通过在具有预定长度的帧的滑动窗中选择所述帧序列的具有最大运动熵度量的帧而提取多个关键帧。
8.依照权利要求7的方法,其中每个像素的位移定义为具有模和位移角的矢量,并且运动直方图由代表模和位移角的组合的预定数量的面元定义,运动熵度量为每个面元的运动熵度量的总和,一个面元的运动熵度量与所述面元在运动直方图中出现的频率成比例, 并且所述方法进一步包括对于每个选择的帧,与其相邻帧的运动直方图进行比较,并且由比较的结果对每个选择的帧的运动熵度量进行加权。
9.计算机软件产品,存储在记录介质上并且包括一组指令,当计算机执行该组指令时,其使得计算机能够实施依照权利要求1的方法。
10.用于从构成镜头的帧序列中提取关键帧的装置,每帧由像素矩阵构成,所述装置包括 帧光流计算器(20),其用于将所述帧序列的每帧与后续帧相比的光流计算为从所述帧到后续帧的每个像素的位移的矩阵; 运动熵度量计算器(22),其基于帧光流计算器的输出; 关键帧选择器(24),其用于选择所述帧序列的具有最大运动熵度量的帧。
全文摘要
一种从构成镜头的帧序列中提取关键帧的方法,每帧由像素矩阵构成,该方法包括对于帧序列的每帧将该帧与后续帧相比的光流计算(3)为从该帧到后续帧的每个像素的位移的矩阵;基于该帧的光流计算(5)运动熵度量;将帧序列的具有最大运动熵度量的帧选择(7)为关键帧。
文档编号G06K9/00GK102395984SQ201080016753
公开日2012年3月28日 申请日期2010年4月14日 优先权日2009年4月14日
发明者绍 L. 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1