使用选择准则确定关键视频片段以形成视频概要的制作方法

文档序号:6360670阅读:153来源:国知局
专利名称:使用选择准则确定关键视频片段以形成视频概要的制作方法
技术领域
本发明涉及数字视频处理领域,更具体地涉及一种用于选择关键视频帧并且形成视频概要的方法。
背景技术
许多数字捕捉装置能够捕捉视频以及静止图像。然而,管理数字视频内容可能是困难的任务。视频常常在视觉上用视频的第一帧的缩略像来表示。这可能不提供对视频的内容的许多深入了解。确定具体的事件是否包含在所给出的视频中常常需要观看整个视频。对于冗长的视频,用户可能更喜欢能够得到视频的快速概要而不必要观看视频的全部内容。从共享的观点来看,数字视频也可能呈现实际的问题。许多数字捕捉装置以每秒30或60帧、以高达1920 X 1080像素的空间分辨率来记录视频。即使在被压缩的情况下,所产生的数据的量也可能使得共享甚至相对短的视频是不切实际的。视频编辑软件可以用于将视频人工地概括成能够更容易地被共享的较短的版本。然而,人工视频编辑可能是冗长的、费力的过程,而且许多用户对人工编辑不感兴趣。还存在自动视频概括算法。这些方案开始于作为输入的捕捉到的视频,并对该视频进行分析以确定视频概要。然而,这样的算法非常复杂,因为必须对该视频进行解码来执行确定视频概要所需要的分析。因而,不可能在数字捕捉装置上立即观看对应于刚捕捉到的视频的视频概要。这个缺点使得难以便利于快速回顾和共享捕捉到的视频。因而,期望提供用于在数字捕捉装置中计算视频概要的系统和方法。具体地,期望提供允许在视频捕捉完成时以最小延迟在数字捕捉装置上产生视频概要的方案。

发明内容
本发明提供了一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法,该方法包括使用处理器来执行以下步骤a)确定用于数字视频的一组关键视频帧;b)响应于预定准则对关键视频帧进行排名;c)根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段,所述预定的一组准则包括指定用于视频概要的总持续时间的准则和指定用于每个关键视频片段的最小持续时间的准则;d)汇集关键视频片段以形成视频概要;以及e)将视频概要的表示存储在处理器可存取存储器中。本发明具有下述优点本发明提供了一种用于形成由高重要性关键视频片段的序列构成的视频概要的方法。本发明具有下述另一个优点视频概要是根据指定的总持续时间准则和最小视频片段持续时间准则来提供的。
本发明具有下述又一个优点音频分析被用于选择用于与低水平音频活动对应的视频片段的开始时间和结束时间。还提供另外的准则来劝阻具有相似内容的关键视频片段的形成并且避免提供被分开小的时间间隔的关键视频片段。


图I是示出根据本发明的实施方式的用于形成视频概要的系统的部件的高级图;图2是根据本发明的实施方式的用于确定用于数字视频序列的关键视频帧的方法的流程图;图3是根据本发明的实施方式的用于将视频帧分类的方法的流程图;图4示出被划分成一组相等的数字视频间隔的数字视频序列;图5示出图4所示的数字视频序列的扭曲(warped)时间表示; 图6示出将扭曲时间表示细分成相等时间间隔的细分;图7示出图6的时间间隔相对于图4的原始数字视频序列的对应位置;图8是根据本发明的实施方式的用于形成视频概要的方法的流程图;图9是根据本发明的实施方式的用于确定最高排名关键视频帧的方法的流程图;图10和图11示出固定位置直方图;图12示出图11中所给出的固定位置直方图的数字表示;图13不出对于确定最闻排名关键视频巾贞有用的排名处理的例子;图14示出根据一个实施方式的关键视频片段的形成;以及图15示出根据另一个实施方式的关键视频片段的形成。
具体实施例方式在以下描述中,将从通常作为软件程序来实施的方面对本发明的优选实施方式进行描述。本领域技术人员将容易认识到这种软件的等效替换还可以构造在硬件中。因为图像处理算法和系统是公知的,所以本发明的描述将具体地涉及形成根据本发明的系统和方法的一部分的或与根据本发明的系统和方法更直接配合的算法和系统。用于产生并且以其他方式处理随其具有的图像信号的这样的算法和系统以及硬件或软件的在本文中没有具体示出或描述的其他方面可以从本领域已知的这样的系统、算法、部件和元件中选择。给出如在以下材料中根据本发明所描述的系统,对于本发明的实施有用的在本文中未具体示出、建议或描述的软件是常规的并且在这样的技术领域技术人员的范围内。此外,如本文中所使用的这样,用于执行本发明的方法的计算机程序可以存储在计算机可读存储介质中,所述计算机可读存储介质可以包括例如磁存储介质如磁盘(比如硬驱动器或软盘)或磁带;光学存储介质如光盘、光带或机器可读条形码;固态电子存储装置如随机存取存储器(RAM)或只读存储器(ROM);或者用于存储具有用于控制一台或更多台计算机来实施根据本发明的方法的指令的计算机程序的任何其他物理装置或介质。本发明包括本文中所描述的实施方式的组合。提及“具体的实施方式”等指的是存在于本发明的至少一个实施方式之中的特征。单独地提及“实施方式”或“具体的实施方式”等未必指的是同样的一个或多个实施方式;然而,这样的实施方式不互相排斥,除非如此指示出或对本领域技术人员来说是显然明显的。在提及“方法”等中单数或复数的使用不受限制。应该注意的是除非不另外明确地提出或上下文所需,“或”字以非排他的意思用在本公开内容中。因为采用成像装置及相关电路来进行信号捕捉和处理以及显示的数字相机是公知的,所以本描述将尤其涉及形成根据本发明的方法和设备的一部分的或与根据本发明的方法和设备更直接配合的元件。本文中未具体示出或描述的元件选择自根据本领域已知的元件。实施方式的待描述的某些方面设置在软件中。给出如在以下材料中根据本发明所示出和描述的系统,对于本发明的实施有用的在本文中未具体示出、描述或建议的软件是常规的并且在这样的技术领域技术人员的范围内。对数字相机的以下描述对本领域技术人员来说将是熟悉的。将明显的是存在许多本实施方式的变化,所述本实施方式的变化是合理的并且被选择以减少成本、增加特征或提闻相机的性能。图I描绘了数字摄影系统的框图,所述数字摄影系统包括能够根据本发明捕捉视频图像的数字相机10。优选地,数字相机10是便携式电池操作的装置,足够小以使用户在 捕捉和回顾图像时容易地手持。数字相机10产生通过使用图像存储器30被存储为数字图像文件的数字图像。本文中所使用的短语“数字图像”或“数字图像文件”指的是任何数字图像文件,例如数字静止图像或数字视频文件。在一些实施方式中,数字相机10捕捉运动视频图像和静止图像二者。在其他实施方式中,数字相机10是仅捕捉运动视频图像的数字视频相机。数字相机10还可以包括其他功能,包括但不限于下述功能数字音乐播放器(例如MP3播放器)、移动电话、GPS接收器或可编程数字助理(PDA)。数字相机10包括具有可调整光圈和可调整快门6的镜头4。在优选实施方式中,镜头4是变焦镜头并且由变焦和聚焦电动机驱动器8控制。镜头4将来自场景(未示出)的光聚焦到图像传感器14例如单片彩色CCD或CMOS图像传感器上。镜头4是用于将场景的图像形成在图像传感器14上的一种典型的光学系统。在其他实施方式中,光学系统可以使用具有可变的或固定的聚焦的固定焦距镜头。图像传感器14的输出通过模拟信号处理器(ASP)和模拟数字(A/D)转换器16转换成数字形式并且暂时存储在缓冲存储器18中。存储在缓冲存储器18中的图像数据随后由处理器20通过使用存储在固件存储器28中的嵌入式软件程序(例如固件)来处理。在一些实施方式中,通过使用只读存储器(ROM)将软件程序永久地存储在固件存储器28中。在其他实施方式中,可以通过使用例如闪存EPROM存储器来修改固件存储器28。在这样的实施方式中,外部装置可以使用有线接口 38或无线调制解调器50来更新存储在固件存储器28中的软件程序。在这样的实施方式中,固件存储器28还可以用于存储图像传感器校准数据、用户设置选择和在关闭相机时必须保存的其他数据。在一些实施方式中,处理器20包括程序存储器(未示出),并且在由处理器20运行之前将存储在固件存储器28中的软件程序复制到程序存储器中。要理解的是可以通过使用单个可编程处理器或者通过使用多个可编程处理器来设置处理器20的功能,所述可编程处理器包括一个或多个数字信号处理器(DSP)装置。可替选地,可以通过常规电路系统(例如通过为了在数字相机中使用而专门设计的一个或多个常规集成电路(IC)),或者通过一个或多个可编程处理器与常规电路的组合来提供处理器20。将要理解的是处理器20与图I中所示的一些或所有各种部件之间的连接器可以使用普通数据总线来制成。例如,在一些实施方式中处理器20、缓冲存储器18、图像存储器30与固件存储器28之间的连接可以使用普通数据总线来制成。然后,使用图像存储器30来存储经处理的图像。理解的是图像存储器30可以是本领域技术人员已知的任何形式的存储器,包括但不限于可移动闪存存储器卡、内部闪存存储器芯片、磁存储器或光学存储器。在一些实施方式中,图像存储器30可以包括内部闪存存储器芯片和对可移动闪存存储器卡例如安全数字(SD)卡的标准接口二者。可替选地,可以使用不同的存储器卡格式,例如微SD卡、紧凑式闪存(CF)卡、多介质卡(MMC)、xD卡或记忆棒。图像传感器14由时序发生器12控制,所述时序发生器12产生各种时钟控制信号以选择行和像素并且使ASP和A/D转换器16的工作同步。图像传感器14可以具有例如
12.4兆像素(4088 X 3040像素)以提供约4000 X 3000像素的静止图像文件。为了提供彩色图像,图像传感器通常覆盖有彩色滤光器阵列,这提供具有包括不同的有色像素的像素阵·列的图像传感器。不同的彩色像素可以以许多不同的图案来布置。作为一个例子,不同的彩色像素可以使用Bayer的共同转让的美国专利3,971,065“Colorimaging array”中所描述的公知的Bayer彩色滤光器阵列来布置,该专利的公开内容通过引用而合并在本文中。作为第二例子,可以布置Compton和Hamilton的2007年7月28日提交的共同转让的名称为“Image sensorwith improved light sensitivity” 的美国专利申请公布 2005/191729 中所描述的不同的彩色像素,该专利的公开内容通过引用而合并在本文中。这些例子不是限制性的,并且可以使用许多其他彩色图案。将理解的是图像传感器14、时序发生器12以及ASP和A/D转换器16可以是分立制造的集成电路,或者它们可以被制造成单个集成电路,就如同CMOS图像传感器通常所实现的那样。在一些实施方式中,该单个集成电路可以执行图I中所示的其他功能中的一些功能,包括由处理器20所提供的一些功能。当时序发生器12以第一模式致动图像传感器14时,图像传感器14对提供较低分辨率传感器图像数据的运动序列有效,在捕捉视频图像时以及还在预览待捕捉的静止图像时使用所述较低分辨率传感器图像数据的运动序列以构成图像。该预览模式传感器图像数据可以被设置为例如具有1280X720像素的HD分辨率图像数据或者例如具有640X480像素的VGA分辨率图像数据,或者使用相比于图像传感器的分辨率具有显著较少的列和行的数据的其他分辨率。可以通过组合具有相同颜色的相邻像素的值、或通过除去一些像素值、或通过组合一些彩色像素值同时除去其他彩色像素值来提供预览模式传感器图像数据。可以如共同转让的 Parulski 等人的名称为 “Electroniccamera for initiating capture of stillimages while previewing motionimages”的美国专利6,292,218中所描述的那样处理预览模式传感器图像数据,该专利通过弓I用而合并在本文中。当时序发生器12以第二模式致动图像传感器14时,图像传感器14又对提供高分辨率静止图像数据有效。该最后模式传感器图像数据被设置为针对具有高照度水平的场景包括图像传感器的所有像素的高分辨率输出图像数据,并且可以为例如具有4000X3000像素的12兆像素最后图像数据。在较低照度水平下,可以在通过对图像传感器上的一些数目的伪彩色像素来提供最后图像数据进行“面元划分(binning)”,以提高信号电平并且因而提高传感器的“ISO速率”。通过由处理器20所供给的控制信号来控制变焦和聚焦电动机驱动器8,从而提供适当的焦距设置并且将场景聚焦到图像传感器14上。图像传感器14的曝光水平是通过控制可调整光圈和可调整快门6的光圈数(f/number)和曝光时间、通过经由时序发生器12控制图像传感器14的曝光周期以及通过控制ASP和A/D转换器16的增益(即ISO速率)设置来控制的。处理器20还控制可以照亮场景的闪光灯2。数字相机10的镜头4通过使用“穿过镜头(through-the-lens)”自动聚焦来以第一模式聚焦,如共同转让的Parulski等人的名称为“ElectronicCamera with RapidAutomatic Focus of an Image upon a ProgressiveScan Image Sensor,,的美国专利5,668,597中所描述的那样,该专利通过引用而合并在本文中。这通过使用变焦和聚焦电动 机驱动器8将镜头4的焦点位置调整到范围在近焦点位置与无穷大焦点位置之间的一定数目的位置来实现,、同时处理器20确定对通过图像传感器14捕捉到的图像的中心部分提供了峰锐度值的最靠近的焦点位置。然后,对应于最靠近的焦点位置的焦点距离可以用于几个目的例如自动设置适当的场景模式并且可以同其他镜头和相机设置一起被存储在图像文件中作为元数据。处理器20产生菜单以及暂时存储在显示存储器36中并且显示在图像显示器32上的低分辨率彩色图像。图像显示器32通常是有源矩阵彩色液晶显示器(IXD),尽管可以使用其他类型的显示器例如有机发光二极管(OLED)显示器。视频接口 44将视频输出信号从数字相机10提供至视频显示器46例如平板HDTV显示器。在预览模式下或者视频模式下,来自缓冲存储器18的数字图像数据由处理器20处理以形成通常作为彩色图像而显示在图像显示器32上的一系列运动预览图像。在预览模式下,使用来自存储在图像存储器30中的数字图像文件的图像数据来产生被显示图像显示器32上的图像。图像显示器32上所显示的图形用户界面是响应于由用户控件34提供的用户输入而被控制的。用户控件34用于选择各种相机模式例如视频捕捉模式、静止捕捉模式和预览模式,并且用于启动对静止图像的捕捉和以及对动态图像的记录。在一些实施方式中,当用户局部地压下作为用户控件34中之一的快门按钮时启动上述第一模式(即静止预览模式),并且当用户完全压下快门按钮时启动第二模式(即静止图像捕捉模式)。用户控件34还用于开启相机、控制镜头4以及启动照片摄取处理。用户控件34通常包括按钮、摇杆开关、操纵杆或旋转式拨盘的某种组合。在一些实施方式中,通过使用覆盖在图像显示器32上的触摸屏来提供用户控件34中的一些用户控件34。在其他实施方式中,可以使用附加状态显示器或图像显示器。可以使用用户控件34选择的相机模式包括“定时器”模式。在“定时器”模式被选择的情况下,在用户完全按下快门按钮之后在处理器20启动对静止图像的捕捉之前出现短的延迟(例如10秒)。连接到处理器20的音频编解码器22接收来自麦克风24的音频信号并且将音频信号提供至扬声器26。这些部件可以将音频轨道连同视频序列或静止图像一起记录并且重放。如果数字相机10为多功能装置例如组合相机和移动电话,那么麦克风24和扬声器26可以用于电话会话。
在一些实施方式中,扬声器26可以用作用户界面的一部分例如以提供多种可听见的信号,所述可听见的信号指示用户控制已经被按下或者已经选择了具体的模式。在一些实施方式中,麦克风24、音频编解码器22和处理器20可以用于提供声音识别,以使得用户可以通过使用声音命令而不是用户控件34将用户输入提供至处理器20。扬声器26还可以用于向用户通知来电呼叫。这可以通过使用存储在固件存储器28中的标准铃声或通过使用从无线网络58所下载并且存储在图像存储器30中的常规铃声来实现。另外,振动装置(未示出)可以用于提对来电呼叫的无声的(例如听不见的)通知。在一些实施方式中,数字相机10还包含提供与相机的运动有关的数据的加速度计27。优选地,加速度计27检测三个正交方向中的每个正交方向的线性加速度和转动加速度二者(针对输入的总共6个维度)。处理器20还提供对来自图像传感器14的图像数据的附加处理,以在图像存储器30中产生着色的sRGB图像数据,所述着色的sRGB图像数据被压缩并且存储在“完成的”图像文件例如公知的Exif-JPEG图像文件内。
数字相机10可以经由有线接口 38连接至接口 /再充电器48,所述接口 /再充电器48连接至可以为设置在家或办公室的桌上型计算机或便携式计算机的计算机40。有线接口 38能够符合例如公知的USB 2. O接口规范。接口 /再充电器48可以经由有线接口 38将功率提供至数字相机10中的一组可再充电的电池(未示出)。数字相机10可以包括无线调制解调器50,所述无线调制解调器50在无线电频带52上与无线网络58接口。无线调制解调器50可以使用各种无线接口协议例如公知的蓝牙无线接口或公知的802. 11无线接口。计算机40可以经由因特网70将图像上载至相片服务提供商72例如KodakEasyShare Gallery (柯达易分享画廊)。其他装置(未不出)可以存取由相片服务提供商72存储的图像。在可替选实施方式中,无线调制解调器50在无线电频率(例如无线)链路之上与移动电话网络(未示出)例如3GSM网络通信,所述移动电话网络与因特网70连接以上载来自数字相机10的数字图像文件。可以将这些数字图像文件提供至计算机40或相片服务提供商72。现在将参考图2对本发明进行描述,图2详述了使用处理器20来确定用于具有视频帧时间序列的数字视频序列200的关键视频帧的方法。初始时,使用分析数字视频步骤210分析数字视频序列200以确定作为时间的函数的重要性值215。形成扭曲时间表示步骤220通过响应于作为时间的函数的重要性值215在时间上重新定位视频帧来形成用于数字视频序列200的扭曲时间表示225。细分扭曲时间表示步骤230将扭曲时间表示225细分成一组相等的时间间隔235。选择关键视频帧步骤240通过分析每个时间间隔235内的视频帧来选择用于每个时间间隔的关键视频帧245。存储关键视频帧的指示步骤250将用于数字视频序列200的关键视频帧245的指示存储在处理器可存取存储器中。现在将对图2中的步骤进行更详细的描述。分析数字视频步骤210确定作为时间的函数的重要性值215。重要性值215是将数字视频序列200的帧的重要性作为时间的函数来表示的量。优选地,重要性值215是为数字视频序列200的每个帧定义的数值。例如,被确定为具有高重要性的视频帧比如包含脸的视频帧可以被分配相对较高的重要性值215。被确定为具有低重要性的视频帧比如包含快速摇摄运动的视频帧可以被分配相对较低的重要性值215。本领域技术人员将认识到存在可关于 数字视频序列200中的视频帧而计算的许多特征,可用于确定作为时间的函数的重要性值215。在本发明的优选实施方式中,分析数字视频步骤210包括全局运动分析和局部运动分析。全局运动分析确定通常对应于捕捉装置的运动的全局运动信息,而局部运动分析确定对应于目标在场景内的移动的局部运动信
肩、O在一些实施方式中,使用提供作为时间的函数的平移偏移信息(水平平移和竖直平移)的双参数的全局运动模型进行全局运动分析。在其他实施方式中,可以使用更复杂的全局运动模型以提供附加信息例如三个正交轴上的转动信息和标度(变焦)信息。使用提供致密局部运动信息的局部运动模型进行局部运动分析。在一些实施方式中,局部运动模型提供作为时间的函数的每个像素的平移运动值。局部运动模型还提供粗略运动估值,例如提供每个8X8或16X16像素块的平移运动值。在优选实施方式中,局部运动信息提供对发生在视频帧的中心区域中的运动的程度的指示。这可以例如通过对视频帧的被标识为运动区域的一部分的中心区域中的像素的数目进行技术来计算。在一些实施方式中,在数字视频序列200被捕捉、压缩并且存储在处理器可存取存储器中之后进行全局运动信息和局部运动信息的计算。这需要在可以分析被压缩的数字视频序列之前将压缩的数字图像序列解压缩。在其他实施方式中,先于对数字视频序列200进行压缩在数字视频捕捉处理期间确定全局运动信息和局部运动信息。这缓和为了进行全局运动分析和局部运动分析而解压缩数字视频序列的需要。在此情况下,所计算的全局和局部运动信息可以存储为与数字视频序列200关联的元数据。元数据可以存储在数字视频文件中,或存储为与所存储的数字视频序列关联的单独的文件。在共同转让的共同未决的名称为“Video summary method andsystem”的美国专利申请12/786,483中描述了该方法。在优选实施方式中,分析数字视频步骤210包括对多个视频帧进行分类的步骤。图3描述关于本发明的优选实施方式的分类处理。由全局运动分析和局部运动分析所确定的全局运动信息310和局部运动信息320分别输入到确定多个视频帧的视频帧分类340的分类器330。在优选实施方式中,为视频帧分配的视频帧分类340包括变焦、快速摇摄、感兴趣和不活跃。无论相机在捕捉视频帧时进行放大还是缩小,分类器330将该帧分类为变焦视频帧。可以通过使用包括标度缩放参数的全局运动模型以检测变焦的数字图像分析来检测变焦处理。还可以在捕捉时间通过识别被发送至变焦电动机驱动器8以调整变焦镜头4的信号来检测变焦处理。只要在视频帧期间发生的平移运动的幅度超过阈值,分类器330就将该视频帧分类为快速摇摄视频帧。对应于快速摇摄运动的各个视频帧通常非常模糊并且因此不是表示数字视频序列的关键视频帧的好的候选。只要全局平移运动的幅度和变焦运动的幅度以及局部运动的幅度低于指定的阈值,分类器330就将视频帧分类为不活跃视频帧。这种视频帧指示出相对静止的捕捉装置和具有相对小的目标运动的场景。单个关键视频帧常常足以表示数字视频序列的不活跃片段。缺乏附加类别时,可以将所有剩余视频帧分类为感兴趣的视频帧。感兴趣的视频中贞表不最可能包含表不数字视频序列的关键视频巾贞的好的候选的数字视频序列的片段。在本发明的优选实施方式中,为每个视频帧分配重要性值215 (图2)。可以根据视频帧分类340、通过将不同的视频帧分类340中的每个不同视频帧分类与适当的重要性值关联来确定重要性值215。下面的表格示出用于上述视频帧分类340中的每个视频帧分类的示例重要性值215 :表I :视频帧分类重要性值
视频帧分类j重要性值^
Ε O· 快速摇摄~02 不活跃 0.6 感兴趣 TTo形成扭曲时间表示步骤220 (图2)通过响应于作为时间的函数的重要性值215在时间上重新定位视频帧来形成用于数字视频序列的扭曲时间表示225。图4和图5示出根据本发明的一个实施方式的这种扭曲处理。图4示出数字视频序列400,所述数字视频序列400开始于时间单位O并且结束于时间单位100,被划分成每个都是5个时间单位长的相等数字视频间隔410。每个时间单位的绝对值对以下讨论是不重要的,但是作为一个例子,每个时间单位可以表示10毫秒并且每5个时间单位长的数字视频序列段可以表示一个视频帧。在此情况下,每个视频帧为50毫秒,以使得以每秒20个视频帧来捕捉数字视频序列。在其他实施方式中,数字视频间隔410可以包括多个视频帧而不是单个视频帧。图5表示该数字视频序列200的扭曲时间表示225,其中,响应于基于数字视频帧的对应视频帧类别与数字视频帧相关联的重要性值215而在时间上重新定位每个数字视频帧。将数字视频序列的每一段作为单个视频帧并且使用表I中定义的重要性值,图5示出由用于数字视频序列400的扭曲数字视频间隔510所构成的扭曲时间表示500。在该例子中,视频帧I被分类为“感兴趣”,视频帧2-8被分类为“快速摇摄”,视频帧9-12被分类为“感兴趣”,视频帧13-16被分类为“不活跃”,而视频帧17-20被分类为“感兴趣”。对于具有5. O个时间单位的时间范围并且具有为“变焦”的视频帧类别和对应的为O. 3的重要性值的数字视频间隔410 (视频帧),将5. 0X0. 3=1. 5个时间单位的时间范围分配给扭曲数字视频间隔510。类似地,对于具有5. O个时间单位的时间范围并且具有为“快速摇摄”的视频帧类别和对应的为O. 2的重要性值的数字视频间隔410,为将5.0X0. 2=1. O个时间单位的时间范围分配给扭曲数字视频间隔510 ;对于具有5. O个时间单位的时间范围并且具有为“不活跃”的视频帧类别和对应的为O. 6的重要性值的数字视频间隔410,将5. 0X0. 6=3. O个时间单位的时间范围分配给扭曲数字视频间隔510 ;以及对于具有5. O个时间单位的时间范围并且具有为“感兴趣”的视频帧类别和对应的为I. O的重要性值的数字视频间隔410,将5. OX I. 0=5. O个时间单位的时间范围分配给扭曲数字视频间隔510。
在优选实施方式中,通过分配较短的时间范围给数字视频的各个部分中具有较低重要性值215的数字视频间隔410并且分配较长的时间范围给数字视频的各个部分中具有较高重要性值215的视频帧来形成扭曲时间表示500。细分扭曲时间表示步骤230 (图2)将扭曲时间表示225细分成一组相等的时间间隔235。图6针对下述情况示出该步骤其中扭曲时间表示500被细分成一组5个相等的时间间隔520。注意在扭曲时间表示中,包含在每个相等时间间隔520中的数字视频帧(即扭曲数字视频间隔510)的绝对数目将通常不是常数。图7示出对应时间间隔420相对于数字视频序列400的原始表示的位置。在该例子中,可以看出第一时间间隔420包含了比包含在数字视频序列400中的数字视频帧的总数目的40%更多的数目,而第二时间间隔420包含了比包含在数字视频序列400中的数字视频帧的总数目的15%更少的数目。使用扭曲时间表示225 (图2)具有下述优点其允许从每个时间间隔内以下述方式选择一个关键视频帧,所述方式使得关键视频帧具有遍及整个数字视频序列的宽度、同 时偏向于偏好高重要性值的区域。可以基于例如数字视频序列的扭曲时间表示的总时间范围自动地确定时间间隔235 (图2)的数目。可替选地,时间间隔的数目可以是用户指定的。选择关键视频帧步骤240 (图2)通过分析每个时间间隔235内的视频帧来选择用于每个时间间隔235的关键视频帧245。在本发明的优选实施方式中,该分析包括将选择得分分配给每个时间间隔235内的多个视频帧,其中,选择得分是全局运动和局部运动的函数。可以将在时间间隔235内具有最高选择得分的视频帧选择作为用于该时间间隔235的关键视频帧245。用于压缩数字视频序列的大部分方法涉及将一些视频帧编码为经独立编码的视频帧而将其他视频帧编码为经预测性编码的视频帧。在本发明的一些实施方式中,仅将经独立编码的视频帧认为是每个时间间隔235内的关键视频帧的候选,并且仅针对经独立编码的视频帧计算选择得分。经独立编码的视频帧指的是不对其他视频帧进行任何参考而被编码的视频帧。这种视频帧可以被解码而不需要来自其他视频帧的任何信息。与之相对,经预测性编码的视频帧基于根据一个或多个相邻视频帧的预测而被编码。因此,经预测性编码的视频帧不能被独立地解码,因为这需要知道一个或多个其他视频帧。在许多视频编码方案下,经独立编码的视频帧以高质量被编码,具体地因为经独立编码的视频帧被用作对后续视频帧的预测,并且高质量预测产生对后续视频帧的高效编码。因而,经独立编码的视频帧是关键视频帧245的优选的候选,既因为经独立编码的视频帧通常具有高图像质量并且还因为经独立编码的视频帧可以从经压缩的数字视频序列中被快速解码而不需要对任何附加视频帧进行解码。关于视频帧的选择得分可以是多个不同输入的函数,所述输入包括全局平移运动、变焦、局部运动和与在前的关键视频帧的近似性。在优选实施方式中,具有对应高的全局平移运动幅度的视频帧被分配以相对低的选择得分,因为高级的全局运动通常在视频帧中产生运动模糊。同样地,接着变焦序列的结束的视频帧基于以下假设被分配以相对高的选择得分,所述假设为用户有意地进行变焦以将注意力聚焦于感兴趣的特别的区域。因此,在变焦结束(许可给捕捉装置一些时间以重距焦)之后不久的视频帧很可能具有高重要性并且是被认为是关键视频帧245的好的候选。具有非常低水平的目标运动的视频帧基于以下假设被分配以相对低的选择得分,所述假设为感兴趣的视频帧很可能包括一些目标活动。与其他关键视频帧245在时间上具有极大的近似性的视频帧基于以下假设被分配以较低的选择得分,所述假设为捕捉到的视频具有高的时间相关性,并且因此在时间上具有极大的近似性的视频帧更可能包括冗余信息。在其中对于每个时间间隔连续地选择关键视频帧的实施方式中,可以相对于在前的关键视频帧度量时间近似性。关于其中以同时考虑所有关键视频帧的选择的共同最优化的方式选择关键视频帧的实施方式,可以相对于在前的关键视频帧和后续的关键视频帧二者度量时间近似性。在一些实施方式中,关于视频帧的选择得分包括多个部分并且由以下公式给出S (n) =GM (n) +LM (η) +Z (η) +P (η) (I)其中,S(η)为选择得分,GM(η)为全局运动项,LM(η)为局部运动项,Z(η)为变焦
项,Ρ(η)为近似性项而η为视频帧。在该公式中,关于选择得分的各个项取可以决于视频帧的特点各自从值O至值I改变。可以使用本领域中已知的任何方法计算全局运动项(GM)。在一些实施方式中,对于超过阈值TeM的所有视频帧全局运动幅度值,全局运动项的值为O ;对于为O的视频帧全局运动幅度值,全局运动项的值为I ;并且对于在O与Tta之间的视频帧全局运动幅度值,全局运动项的值为从I到O线性地递减的值
权利要求
1.一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法,所述方法包括使用处理器来执行以下步骤 a)确定用于所述数字视频的一组关键视频帧; b)响应于预定准则对所述关键视频帧进行排名; c)根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段,所述预定的一组准则包括指定用于所述视频概要的总持续时间的准则和指定用于每个所述关键视频片段的最小持续时间的准则; d)汇集所述关键视频片段以形成视频概要;以及 e)将所述视频概要的表示存储在处理器可存取存储器中。
2.根据权利要求I所述的方法,其中,将每个最高排名关键视频帧包括在关键视频片段中。
3.根据权利要求I所述的方法,其中,分析所述数字视频以确定作为时间的函数的重要性值,并且其中,响应于鼓励包括具有高重要性值的视频帧的准则来确定用于关键视频片段的开始时间和结束时间。
4.根据权利要求I所述的方法,其中,分析所述数字视频以确定作为时间的函数的音频活动的水平,并且其中,响应于鼓励选择对应于低水平音频活动的开始时间和结束时间的准则来确定用于关键视频片段的开始时间和结束时间。
5.根据权利要求I所述的方法,其中,根据劝阻形成具有相似内容的关键视频片段的准则来形成所述关键视频片段。
6.根据权利要求I所述的方法,其中,用于所述视频概要的所述总持续时间是用户指定的。
7.根据权利要求I所述的方法,其中,将被分开小于指定阈值的时间间隔的最高排名关键视频帧所对应的所述关键视频片段合并以形成单个关键视频片段。
8.根据权利要求I所述的方法,其中,根据偏好在视频帧的编码组的开始处开始关键视频片段并且在视频帧的编码组的结束处结束关键视频片段的准则来形成所述关键视频片段。
9.根据权利要求I所述的方法,其中,所述确定用于所述数字视频的一组关键视频帧的步骤进一步包括 i)分析所述数字视频以确定作为时间的函数的重要性值; ii)通过响应于作为时间的函数的所述重要性值在时间上重新定位所述视频帧来形成扭曲时间表不; iii)将所述扭曲时间表示细分成一组相等的间隔;以及 iv)通过分析每个间隔内的所述视频帧来选择用于每个间隔的关键视频帧。
10.根据权利要求I所述的方法,其中,所述响应于预定准则对所述关键视频帧进行排名的步骤进一步包括 i)分析所述数字视频以确定相机固定图案; )响应于所述相机固定图案对所述关键帧进行排名。
11.一种数字视频相机系统,包括 图像传感器;用于将场景的图像形成在所述图像传感器上的光学系统; 数据处理系统;以及 存储器系统,所述存储器系统在通信上连接到所述数据处理系统并且存储被配置成使得所述数据处理系统实施用于形成用于数字视频的视频概要的方法的指令,其中,所述指令包括 使用所述图像传感器捕捉数字视频,所述数字视频具有视频帧时间序列; 确定用于所述数字视频的一组关键视频巾贞; 响应于预定准则对所述关键视频帧进行排名; 根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段,所述预定的一组准则包括指定用于所述视频概要的总持续时间的准则和指定用于每个所述关键视频片段的最小持续时间的准则; 汇集所述关键视频片段以形成视频概要;以及 将所述视频概要的表示存储在处理器可存取存储器中。
全文摘要
一种用于形成用于具有视频帧时间序列的数字视频的视频概要的方法,该方法包括使用处理器来执行以下步骤确定用于数字视频的一组关键视频帧;响应于预定准则对关键视频帧进行排名;根据预定的一组准则形成对应于一个或多个最高排名关键视频帧的关键视频片段,所述预定的一组准则包括指定用于视频概要的总持续时间的准则和指定用于每个关键视频片段的最小持续时间的准则;汇集关键视频片段以形成视频概要;以及将视频概要的表示存储在处理器可存取存储器中。
文档编号G06T7/20GK102906745SQ201180025483
公开日2013年1月30日 申请日期2011年5月10日 优先权日2010年5月25日
发明者阿伦·托马斯·迪弗 申请人:伊斯曼柯达公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1