产生摘要视频的方法和系统的制作方法

文档序号:6506137阅读:169来源:国知局
专利名称:产生摘要视频的方法和系统的制作方法
技术领域
本发明涉及一种产生视频摘要的方法和系统,尤其是涉及一种用于密钥帧抽取以及镜头边界检测的方法和系统。
本发明的背景及现有技术近来在个人计算机以及通讯方面的发展产生了很多种新型的设备,例如手持计算机,个人数字助理(PDAs),智能电话,车载计算设备以及使用户获取更多信息的计算机。
许多设备制造商,包括蜂窝电话,PDA以及手持计算机的制造商正在努力提高他们的设备的性能。这些设备正被赋予日历工具、地址薄、记录设备、全球定位设备、旅行和地图工具、电子邮件客户机以及网络浏览器等的功能。结果,围绕有关为这些设备提供各种信息的应用正在形成许多新的行业。但是,由于许多这些设备在显示尺寸,存储,处理能力以及网络接入等方面的限制,设计允许这些设备获取存储及处理信息的应用就存在着很大的挑战。
在这些发展的同时,在存储、采集以及网络技术的新发展导致产生了大量丰富的多媒体内容。结果,在可获得的丰富内容与用户设备获取与处理这些内容的能力之间,存在着越来越多的不匹配。
在这一方面,基于所谓的密钥帧的视频摘要是管理与传输视频信息的有效途径。这一表示方法可在于1999年3月,在韩国汉城由C.Christopoulos等人发表的“MPEG-7应用通过内容再定位(repurporsing)与媒体转换的通用接入”ISO/IEC/JTC1/SC29/WG11 M4433中描述的MPEG-7应用通用多媒体接入中使用,从而将视频数据适用于用户设备。
对于音频—视频内容,可利用密钥帧抽取以适合客户端的带宽以及计算能力。例如,低带宽或者低能力的客户端,可能请求只传送音频信息,或者只传送音频信息与一些密钥帧相合并的信息。高带宽或者计算效率高的客户端可能请求整个AV内容。另外的一个应用是快速浏览数字视频。以固定的时间间隔跳过视频帧减少了视频观看时间。但是这只是给出了整个视频信号的一个随意取样。
下面将采用如下描述的定义镜头镜头被定义为一个摄像机在时间与空间上的一个连续动作中所捕捉的帧的一个序列,参看J.Monaco,“如何读电影”,牛津出版社,1981年。
镜头边界在镜头之间有一些不同类型的边界。切换是发生在一个单独的帧中的突然的镜头改变。渐变是亮度的逐渐改变变为一个黑帧(淡出)或者以黑帧开始(淡入)。叠化发生在第一个镜头的图像变得更模糊而第二个镜头的图像变得更明亮的时候,在转换中的帧表现为一个图像叠加在另一个图像之上。划变发生在当第二个镜头的像素以规则的形状例如从帧的左边界开始的一条线取代第一个镜头中的那些像素的时候。
密钥帧密钥帧被定义在每一镜头里面。它们代表了根据主观或者客观测量,与镜头的内容信息最相关的少量的帧。
传统的视频摘要包括两个步骤1.镜头边界检测。
2.密钥帧抽取。
帧的许多特征,例如色彩,运动以及形状都被用来做视频摘要。在视频摘要中标准的镜头边界检测的运算法则基于频率分布图。基于频率分布图的技术是鲁棒而有效的,这可从以下文章中看出来,即A.Smeulders与R.Jain所著的“图像数据库以及多媒体搜索”,新加坡,1988,以及J.S.Boreczky与L.A.Rowe的“视频镜头边界检测技术的比较”,图象与视频数据库IV的存储与恢复,IS&T/SPIE,1996年度国际研讨会,关于电子图像科学与技术,San Jose,CA,1996年2月。
这样,两个图像的色彩频率分布图就可以被计算出来。如果这两个分布图之间的欧几里得距离超过一定的门限值,就假设存在镜头边界。但是,在该镜头边界确定过程中,没有使用有关运动的信息。因此,这种技术对摄像机以及物体运动来说,其场景存在缺陷。
而且,为提供一个视频摘要密钥帧必须从不同的镜头中抽取。传统的密钥帧抽取计算法则如在Wayne Wolf的“通过运动分析选择密钥帧”,ICASSP96的学报中描述的那样,其中使用了光学流来确定镜头中本地运动最小值。这些本地运动最小值被确定与密钥帧相对应。机械视觉和应用,1997年第10卷,第2期,51-65页中在W.Xiong与J.C.M.Lee,以及R.H.Ma的“通过镜头分割与密钥帧选择的自动视频数据构成”,采用了搜索—扩展运算法则,其中为了抽取下一个密钥帧将先前密钥帧作为参考。而且,IEEE ICIP 97学报,671-674页,1997年R.L.Lagendijk、A.Hanjalic、M.Ceccarelli、M.Soletic与E.Persoon的“在SMASH系统中的视觉搜索”中,采用了镜头的累积动作以计算在每一镜头中分配的密钥帧的数目与位置。两帧之间的动作是通过频率分布图的差进行计算的。这种方法的一个优点在于密钥帧的数目可以预先指定。
发明概述本发明的一个目的是提供一种用于镜头边界检测以及密钥帧抽取的方法和系统,该方法和系统可用于视频摘要并对摄像机与物体的运动来说是鲁棒的。
通过用于密钥帧抽取的方法和系统可以得到这一目的以及其他目的,在该抽取过程中产生了特征点的列表。该列表跟踪了视频序列的连续帧之间的每个特征点的轨迹。
在两个连续的帧之间,当许多新的特征点进入列表的时候或者当许多特征点从列表中移走的时候,就判定发生了镜头分界。于是,就选择一个密钥帧作为特征点列表中的一帧,在该帧上,没有或几乎没有特征点进入列表或从列表中出去。
通过使用这样的从视频序列中抽取密钥帧的方法,图象中的运动和/或摄像机的运动可以加以考虑。这种密钥帧抽取运算法则相对摄像机的运动将具有更好的鲁棒性。
附图的简要说明本发明将参照附图详细地描述,其中附

图1a和1b是表明镜头边界检测的运算法则的流程图。
附图2是表明在连续的视频帧中追踪特征点的装置的基本方框图。
附图3是表明在一个镜头中活动性变化的图。
附图4表明具有检测的特征点的一系列连续帧。
发明详述附图1a和1b中示出了表明按照第一优选实施例用于镜头边界检测的计算法则中在一次循环中执行的步骤的流程图。
这样,参照附图1a,首先在块101中输入第一帧,第一帧的特征点就被抽取,并作为输入来预测下一帧的特征点。接下来,在块103中,计算下一帧的特征点的预测值。之后,在块105中输入下一帧,在块107中按照与块101中使用的同样的特征点的计算法则抽取下一帧的特征点。
有关抽取特征点的计算法则的描述有很多,这些算法都与拐角点相对应。例如,国际技巧与智力联合委员会学报第7期,1981年,674-679页B.Lucas与T.Kanade的“应用于立体视觉的重复图像注册技术”中就描述了一种这样的方法。还有在IEEE高级会议,有关图像处理1999年,S.K.Bhattacharjee的“使用终端终止小波的特征点的检测”中描述的方法也可以使用。
接下来,在块109中,执行估测的特征点与块107中抽取的特征点之间的数据关联。接下来在块111中执行特征点的列表的更新。接下来,在块113中执行特征点列表上的每一个特征点的估测值的更新。最后,运算法则返回到块103,在块105中输入下一帧从而执行当前估测特征点与下一帧的特征点之间的数据关联。
在附图1a中,算法每次在块111中更新特征点的列表时,都要检测是否存在镜头边界。这一镜头边界检测过程在附图1b中示出。从而,首先在块131中输入更新的数据。接着在块133中执行特征点的当前列表与先前的特征点的列表之间的比较。
如果从特征点的前一个列表中消失的特征点的数目,或者如果在当前的特征点列表中的新的特征点的数目大于一个预设的门限值,程序前进到块135中,在那里当前帧被表示为镜头边界。
然后处理返回到块131。另一方面,如果在块133中判定出当前帧不与镜头边界相对应,则程序直接返回到块131。
在图2中示出了附图1a与1b联合描述的使用镜头边界检测过程的密钥帧抽取的计算法则的一次循环。在k时刻的一帧用P个特征点的序列xn(k),n=1,2,...,P表示,它包括*运动成分位置(x,y)和速度 *光学成分例如盖博响应(f1,f2,f3,...)
这里表示在时刻k(或帧k)的特定的特征点的变量n的特征点数目P是时间的函数。
光学成分一般为例如盖博响应或者高斯导数响应的滤波响应,通过利用图像强度作为输入而进计算,参看J.Opt.Soc.Am,第7卷,第5册,第923-932页,1990年5月,J.Malik,与P.Perona“利用初期视觉结构辩别文本”。在这里描述的运算法则中光学成分的使用可以提高特征点抽取中的范围以及旋转灵敏度,但用与不用光学成分,可以是随意的。
特征矢量 也被称为状态矢量。它的成分汇总特征点n的当前以及过去历史,从而预测它未来的轨迹。
特征点对应于象拐角点这样包含大量特征的点。这些点相对来说较易跟踪。
参照图2,首先在特征点抽取阶段的块201中,在k+1时刻被表示为nth测量值矢量的矢量zn(k+1)=(x,y,f1,f2,...)被计算,n=1,2,...,P。接下来,在块203中测量值预测阶段,给出上一帧k的预测阶段矢量 以估算 ,在A.Gelb.“应用最佳估测”,MIT出版社,1974,中描述的卡曼滤波可作为估测计算法则来使用。
接下来在块205中,执预测的测量值 与抽取的测量值zn(k+1)之间的关联,然后更新特征点列表。
Zn(k+1)={zn(1),zn(2),...,zn(k+1)表示到k+1时刻特征点的nth列表。最接近的临近滤波器在Y.Bar-Shalom,T.E.Fortmann的“跟踪与数据连接”,学院出版社,1988中有所描述,为了更新特征点列表可用作的数据关联。估测的测量值矢量 ,来自于上一帧k的特征点列表zn(k),以及来自于当前帧k+1的测量值矢量zn(k+1)在数据关联步骤中都被用作输入。重要的是应当注意到特征点的数目P可以随着时间而变化。这是由于每一数据关联周期都包括特征点的开始,特征点的终止以及特征点的保持。
下面给出了一个用于特征点的不同处理类型的定义。
1.特征点开始当新的特征点被抽取的时候产生新的特征点。
2.特征点终止当特征点不再被抽取的时候,移走特征点。
3.特征点保持当相应的特征点被抽取的时候,更新特征点。
最后,当许多特征点同时终止(例如在切换,淡入,叠化,或者划变的情况下)或者开始(例如在切换,淡出,叠化,或者划变的情况下)的时候,该帧被确定为相应于一个镜头边界。
此外,为了检测镜头边界定义一个对特征点的变化率的活动性量度。这样的一个量度值在下文中用活动性变化表示。这个活动性量度值依赖于在连续的帧之间的特征点结束或者开始的数目。例如,测量值可以被定义为以百分比计算的特征点结束以及开始之间的最大值。开始特征点的百分值是新的特征点的数目除以当前帧的全部特征点的数目。终止特征点的百分值是移走的特征的数目除以前一帧中的全部特征点的数目。
可以设定一个合适的门限值,如果终止特征点与开始特征点之间的最大值高于门限值,就确定发生了一个镜头边界。当然其它的活动性变化的定义也是可能的。
在附图4中示出了一个连续序列帧k(537),k+1(540),k+2(541),k+3(542)中检测的特征点。在帧k+1(540)中来自于帧k(537)中的大部分特征点都被检测到。同时,几乎没有点停止存在且只有少数的点第一次开始出现。在帧k+3(542),大部分特征点都消失了。因此该帧被确定为相应于镜头边界(切换)。
实验表明一个镜头包含具有最重要的信息内容的一系列连续的稳定状态。如图3所示,在两个状态之间的转换相应于活动性变化的峰值。在图3中,示出的活动性变化是时间(或者帧)的函数。稳定状态,即具有低活动性变化的平坦部分被检测出来并用于抽取密钥帧。
再次参照附图4,在帧k+1(540)中,帧k(537)中的大部分特征点被检测到。同时,几乎没有点停止存在,并且只有少量点开始第一次出现。因此,帧k+1可以是一个合适的密钥帧。
这样,一旦使用上述描述的运算法则确定了镜头边界,在镜头边界之间的一个或几个本地最小值就被抽取出来作为密钥帧。已经示出本地最小值发生在活动性变化为常数的位置。因此没有必要抽取本地最小帧本身,只要活动性变化为常数的帧都可以有一个好的结果。但是,相应于镜头边界之间活动性变化中本地最小值的帧会提供最好的结果。
这样,例如,电影导演可以使用摄像机的移动(平移,变焦)来表明两个事件之间的连接。在演员A与演员B彼此说话的一个稳定的背景前成像一个镜头。当演员A讲话的时候,摄像机聚焦在A的身上。这相应于时间上的低活动性(抽取的特征点没有较大的变化)。当演员B开始说话的时候,摄像机移向他。这一平移相应于帧上的高活动性。然后,当摄像机逐渐停留在演员B上的时候,活动性的值再次降为低的值。密钥帧是从低活动性的帧中选择出来的,即图3示出的平坦的部分。
压缩视频的应用会使运算法则更为快速。但是,为了实现多目标跟踪而压缩的域中可用的信息是有限的。折衷的办法是只解码视频序列的I帧。然后I帧就可以应用于视频摘要的运算法则当中,如前所述。
该选择是由三个因素激发的。首先,I帧频繁地发生,例如每12帧中有一个I帧。由于一个镜头平均持续5-23秒,该帧的子抽样是可以接受的,参看例如D.Colla与G.Ghoma的“广播电视中的图像活动特征”,IEEE trans,通讯,第26卷第1201-1206页,1976。第二,这里描述的运算法则能够处理两个连续帧之间的较大的移动,这有赖于卡曼滤波的使用。第三,可以用JPEG编码或者其它静态图像格式编码的I帧能够被获取,而与视频序列中的其它帧(例如B-,P-帧)无关。
权利要求
1.一种从视频信号中抽取密钥帧的方法,其特征在于下述步骤从视频信号帧中抽取特征点,跟踪连续帧之间的特征点,测量连续帧之间的新的或者消失的特征点数目,当新的或者消失的特征点数目高于一个特定的门限值的时候确定视频信号中的镜头边界,当某一帧位于两个镜头边界之间,该镜头边界新的或者消失的特征点符合某一标准时,该帧选择为密钥帧。
2.根据权利要求1所述的方法,其特征在于门限值被定义为以百分比计算的终止与开始的特征点之间的最大值,这里开始特征点的百分比为新的特征点数目除以当前帧的全部特征点数目,终止特征点的百分比为移走的特征点的数目除以前一帧的全部特征点的数目。
3.如权利要求1-2中任何一个所述的方法,其特征在于密钥帧是在视频信号的一些连续帧中新的或者消失的特征点为常数的帧。
4.如权利要求1-2中任何一个所述的方法,其特征在于密钥帧是新的或者消失的特征点与两个镜头之间的本地最小值相应或者其数目低于一个特定的预置门限值的那一帧。
5.如权利要求1-4中任何一个所述的方法,视频信号是一个包括I帧的压缩视频信号,其特征在于只有I帧被解码并且用作确定镜头边界以及选择密钥帧的输入帧。
6.如权利要求1-5中任何一个所述的方法,其特征在于视频信号帧中的特征点既使用视频信号的运动成分又使用光学成分抽取。
7.一种在视频信号中检测镜头边界的方法,其特征在于包括以下步骤从视频信号帧中抽取特征点,跟踪连续帧之间的特征点,测量连续帧之间的新的或者消失的特征点数目,当新的或者消失的特征点数目高于一个特定的门限值的时候确定视频信号中的镜头边界。
8.一种如权利要求7所述的方法,其特征在于门限值被定义为以百分比计算的终止与开始的特征点之间的最大值,这里开始特征点的百分比为新的特征点数目除以当前帧的全部特征点数目,终止特征点的百分比为移走的特征点的数目除以前一帧的全部特征点的数目。
9.如权利要求7-8中的任何一个所述的方法,其特征在于视频信号帧中的特征点既使用视频信号的运动部分又使用光学部分来抽取。
10.如权利要求7-9中的任何一个所述的方法,视频信号是一个包括I帧的压缩视频信号,其特征在于只有I帧被解码并且用作确定镜头边界以及选择密钥帧的输入帧。
11.一种用于从视频信号中抽取密钥帧的设备,其特征在于用于测量连续帧之间的新的或者消失的特征点的数目的装置,用于当新的或者消失的特征点的数目高于一个特定的门限值的时候确定视频信号中的镜头边界的装置,用于当某一帧位于两个镜头边界之间,其中新的或者消失的特征点的数目符合一个特定的标准时,将该帧选为密钥帧的装置。
12.如权利要求11所述的设备,其特征在于门限值被定义为以百分比计算的终止与开始的特征点之间的最大值,这里开始特征点的百分比为新的特征点数目除以当前帧的全部特征点数目,终止特征点的百分比为移走的特征点的数目除以前一帧的全部特征点的数目。
13.如权利要求11-12中的任何一个所述的设备,其特征在于密钥帧选择装置选择视频信号的一些连续帧中新的或者消失的特征点为常数的帧。
14.如权利要求11-12中的任何一个所述的设备,其特征在于密钥帧选择装置选择新的或者消失的特征点与两个镜头之间的本地最小值相应或者其数目低于一个特定的预置门限值的那一帧。
15.如权利要求11-14中的任何一个所述的设备,视频信号是一个包括I帧的压缩视频信号,其特征在于只有I帧被解码并且用作确定镜头边界以及选择密钥帧的输入帧。
16.如权利要求11-15中的任何一个所述的设备,其特征在于视频信号帧中的特征点的装置既使用视频信号的运动成分又使用光学成分来抽取。
17.一种在视频信号中检测镜头边界的设备,其特征在于用于检测在连续的帧之间新的或者消失的特征点的数目的装置,用于当新的或者消失的特征的数目高于一个预定的门限值的时候确定视频信号中的镜头边界的装置。
18.如权利要求17所述的设备,其特征在于门限值被定义为以百分比计算的终止与开始的特征点的最大值,这里开始特征点的百分比为新的特征点数目除以当前帧的全部特征点数目,终止特征点的百分比为移走的特征点的数目除以前一帧的全部特征点的数目。
19.如权利要求17-18中任何一个所述的设备,其特征在于视频信号帧中的特征点的装置既使用视频信号的运动部分又使用光学部分来抽取。
20.如权利要求17-19中任何一个所述的设备,视频信号是一个包括I帧的压缩视频信号,其特征在于只有I帧被解码并且用作确定镜头边界以及选择密钥帧的输入帧的装置。
21.一种用于视频摘要的系统,包括根据权利要求11-20中的任一个的设备。
全文摘要
描述了一种用于视频摘要的运算法则。该法则包括光学与运动的信息。根据该运算法则特征点之间的对应关系被用于检测镜头边界以及用于选择密钥帧。这样,特征点消失或者出现的比率被用于表示镜头转换是否发生。密钥帧选择为活动性变化低的帧。
文档编号G06T7/20GK1365574SQ0080893
公开日2002年8月21日 申请日期2000年6月7日 优先权日1999年6月18日
发明者Y·阿布德尧伊德, T·埃布拉希米, C·克里斯托普洛斯, I·马斯伊瓦斯 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1