使用群组稀疏性分析来识别关键帧的制作方法

文档序号：6534678阅读：248来源：国知局

使用群组稀疏性分析来识别关键帧的制作方法
【专利摘要】本发明涉及一种用于从视频序列识别关键视频帧集合的方法，其包括提取每一视频帧的特征向量及应用群组稀疏性算法以将特定视频帧的所述特征向量表示为其它视频帧的所述特征向量的群组稀疏组合。分析与所述群组稀疏组合相关联的加权系数以确定在时间上邻接的类似视频帧的视频帧群集。基于所述所确定视频帧群集选择关键视频帧集合。
【专利说明】使用群组稀疏性分析来识别关键帧

【技术领域】
[0001] 本发明涉及视频处理领域，且更特定来说涉及一种用于使用群组稀疏性分析来选择关键视频帧的方法。

【背景技术】
[0002] 随着数字成像与存储技术的发展，消费者可使用例如摄录像机、数码相机或手机等的各种装置方便地捕获视频剪辑且存储视频剪辑以供稍后观看及处理。高效内容感知的视频表示模型对包含去噪声、修复及语义分析的许多视频分析与处理应用至关重要。
[0003] 开发用以捕获存在于视频数据中的时空信息的模型是活跃的研宄领域，且已提议用以有效地表示视频数据内容的数种方法。举例来说，张（Cheung)等人在论文"视频梗概 (Videoepitomes) "（IEEE计算机视觉与模式辨识会议会刊，第1卷，第42到49页，2005 年）教示一种用以表示视频内容的基于片块的概率模型。然而，其模型不捕获空间相关。
[0004] 在论文"视频产生模型的递归估计（Recursiveestimationofgenerative modelsofvideo) "（IEEE计算机视觉与模式辨识会议会刊，第I卷，第79到86页，2006 年）中，彼德洛维奇（Petrovic)等人教示一种用于无人监督的视频群集成场景的产生模型与学习程序。然而，其假设视频具有仅一个场景。此外，其框架未将局部运动模型化。
[0005] 彭（Peng)等人在论文"RASL:通过线性相关图像的稀疏及低秩分解的稳健对准(RASL:Robustalignmentbysparseandlow-rankdecompositionforlinearly correlatedimages) "（IEEE计算机视觉与模式辨识会议会刊，第763到770页，2010年）教示一种用于同时将一批线性相关的图像对准的基于稀疏性的方法。清楚地，此模型不适合于视频处理，这是因为一般来说，视频帧并非线性相关的。
[0006] 使用关键帧提取算法来从视频选择最具信息性的帧的子集，目标是以有限数目个帧表示视频的最重要内容。关键帧提取适用于视频处理的数个广泛领域，例如视频归纳、在 DVD中形成"章节标题"、视频索引及从视频制作印刷品。关键帧提取为活跃的研宄领域，且已提议用于从视频提取关键帧的许多方法。
[0007] 常规关键帧提取方法可宽松地划分成两个群组：（i)基于镜头的，及（ii)基于分段的。在基于镜头的关键帧提取中，首先检测原始视频的镜头，且针对每一镜头提取一或多个关键帧（举例来说，参见：内桥（Uchihashi)等人在IEEE国际声音、语音及信号处理会议会刊（第6卷，第3041到3044页，1999年）中的"使用镜头重要性量度及帧包装算法归纳视步员（Summarizingvideousingashotimportancemeasureandaframe-packing algorithm) ")。在基于分段的关键帧提取方法中，将视频分段成较高级视频分量，其中每一分段或分量可为场景、事件、一或多个镜头的集合或甚至整个视频序列。接着，将来自每一分段的代表性帧选择为关键帧（举例来说，参见：拉希德（Rasheed)等人，"视频中的场景的检测及表不（Detectionandrepresentationofscenesinvideos)"IEEE多媒体会报，第7卷，第1097到1105页，2005年）。
[0008] 现有关键帧选择方法（基于镜头的以及基于分段的两者）通常适合于经结构化视频，例如新闻及体育视频。然而，其对于消费者视频为次优的，这是因为这些视频通常是在不受约束的环境中捕获的且记录极多样内容。此外，消费者视频通常缺少预强加的结构，此使得检测镜头或此类视频的分段以进行关键帧提取甚至更具挑战性（参见：科斯特洛 (Costello)等人在SPIE会刊（6492,第64921N页，2007年）中的"从消费者视频剪辑的关键帧提取的第一方及第三方地面实况（First-andthird-partygroundtruthforkey frameextractionfromconsumervideoclips)"及卢奥（Luo)等人，"朝向从个人视频剪辑提取在语义上有意义的关键帧：从人到计算机（Towardsextractingsemantically meaningfulkeyframesfrompersonalvideoclips:fromhumanstocomputers)"，IEEE 会报，电路系统视频技术，第19卷，第289到301页，2009年）。
[0009] 仍需要用以处理在不受约束的环境中捕获的数字视频序列以执行例如识别关键帧、识别场景边界及形成视频概要等的任务的稳健且高效方法。

【发明内容】

[0010] 本发明提出一种用于从包含视频帧的时间序列的视频序列识别关键视频帧集合的方法，每一视频帧包含具有像素值的图像像素阵列，所述方法包括：
[0011]a)从所述视频序列选择视频帧集合；
[0012] b)提取所述视频帧集合中的每一视频帧的特征向量；
[0013]c)应用群组稀疏性算法以将特定视频帧的所述特征向量表示为所述视频帧集合中的其它视频帧的所述特征向量的群组稀疏组合，所述其它视频帧在所述群组稀疏组合中的每一特征向量具有相关联加权系数，其中对应于与所述特定视频帧最类似的其它视频帧的特征向量的所述加权系数为非零，且对应于与所述特定视频帧最不类似的其它视频帧的特征向量的所述加权系数为零；
[0014] d)分析所述加权系数以确定在时间上邻接的类似视频帧的包含所述特定视频帧的视频帧群集；
[0015]e)针对多个特定视频帧重复步骤c)到d)以提供多个视频帧群集；
[0016]f)基于所述视频帧群集选择关键视频帧集合；及
[0017]g)将所述选定关键视频帧的指示存储于处理器可存取存储器中；
[0018] 其中至少部分地使用数据处理器执行所述方法。
[0019] 本发明具有其不需要为了确定来自视频的关键帧而执行在计算上杂乱的步骤 (例如摄像机运动估计、全局运动估计及镜头检测）的优点。已发现特征选择（其可为困难任务）在此框架中较不至关重要。另外，群组稀疏性方法具有以下优点：针对每一群组调用群组稀疏求解器一次，此与针对视频的每一帧计算稀疏系数集合的其它稀疏性方法相比大大减小计算复杂性。此外，此群组稀疏性方法中还维持时间分组及群组内帧相关。

【专利附图】

【附图说明】
[0020] 图1是展示根据本发明的一实施例的系统的组件的高级图式；
[0021] 图2是根据本发明的一实施例的用于选择关键视频帧的方法的流程图；
[0022] 图3是展示图2的提取特征向量步骤的进一步细节的图式；
[0023]图4是图解说明使用投射矩阵来确定视频帧的特征向量的图式；
[0024] 图5是展示针对选定视频帧确定的示范性加权系数序列的图式；
[0025] 图6是展示图2的识别关键视频帧步骤的进一步细节的图式；
[0026] 图7是展示图6的合并视频帧群集步骤的进一步细节的图式；
[0027] 图8是展示用于混合二分图分割的连接矩阵的形成的图式；
[0028] 图9A到9B是展示根据各种实施例的图6的选择关键视频帧步骤的进一步细节的图式；
[0029] 图10是图解说明从使用群组稀疏性算法确定的基于视频序列的视频帧群集选择的关键帧集合的图式；
[0030] 图11是根据本发明的一实施例的用于执行视频分段的方法的流程图；
[0031] 图12是展示图11的形成视频分段步骤的进一步细节的图式；
[0032] 图13是根据本发明的一实施例的用于形成视频概要的方法的流程图；
[0033] 图14是展示图13的形成视频概要步骤的进一步细节的图式；及
[0034] 图15是展示图14的经扭曲时间表示步骤形成视频概要的进一步细节的图式。

【具体实施方式】
[0035] 在以下说明中，将就通常将实施为软件程序的实施例来说来描述本发明的一些选实施例。所属领域的技术人员将容易地认识到，此软件的等效物也可建构于硬件中。由于图像操纵算法及系统为众所周知的，因此本说明特定来说将针对于形成根据本发明的方法的部分或与根据本发明的方法更直接协作的算法及系统。本文中未具体展示或描述的此类算法及系统的其它方面以及用于产生并以其它方式处理其所涉及的图像信号的硬件或软件可选自此项技术中已知的此类系统、算法、组件及元件。考虑到下文中根据本发明所描述的系统，本文中未具体展示、表明或描述的可用于实施本发明的软件均是常规的且属于此类技术中的一般技术。
[0036] 本发明包含本文中所描述的实施例的组合。对"特定实施例"及类似物的提及指存在于本发明的至少一个实施例中的特征。对"一实施例"或"特定实施例"或者类似物的单独提及未必指同一实施例或相同实施例；然而，此类实施例不相互排斥，除非如此指示或如所属领域的技术人员显而易见。使用单数或复数来提及"方法"或"若干方法"及类似物为非限制性的。应注意，除非上下文另外明确指出或需要，否则字词"或"在本发明中用于非排他性意义中。
[0037] 图1是展示根据本发明的一实施例的用于从视频序列识别关键视频帧集合的系统的组件的高级图式。所述系统包含数据处理系统110、外围系统120、用户接口系统130 及数据存储系统140。外围系统120、用户接口系统130及数据存储系统140通信地连接到数据处理系统110。
[0038] 数据处理系统110包含实施本发明的各种实施例的过程（包含本文中所描述的实例性过程）的一或多个数据处理装置。片语"数据处理装置"或"数据处理器"打算包含任何数据处理装置，例如中央处理单元（"CPU")、桌上型计算机、膝上型计算机、主机计算机、个人数字助理、Blackberry?、数码相机、蜂窝式电话或用于处理数据、管理数据或处置数据而无论以电组件、磁性组件、光学组件、生物组件还是其它组件实施的任何其它装置。
[0039] 数据存储系统140包含经配置以存储信（包含执行本发明的各种实施例的过程 (包含本文中所描述的实例性过程）所需的信息）的一或多个处理器可存取存储器。数据存储系统140可为分布式处理器可存取存储器系统，包含经由多个计算机或装置通信地连接到数据处理系统110的多个处理器可存取存储器。另一方面，数据存储系统140不必为分布式处理器可存取存储器系统，且因此可包含位于单个数据处理器或装置内的一或多个处理器可存取存储器。
[0040] 片语"处理器可存取存储器"打算包含任何处理器可存取数据存储装置而无论是易失性还是非易失性装置、电装置、磁性装置、光学装置还是其它装置，包含但不限于寄存器、软盘、硬盘、光盘、DVD、快闪存储器、ROM及RAM。
[0041] 片语"通信地连接"打算包含装置、数据处理器或其中可传达数据的程序之间的任何类型的连接而无论是有线连接还是无线连接。片语"通信地连接"打算包含单个数据处理器内的装置或程序之间的连接、位于不同数据处理器中的装置或程序之间的连接及根本不位于数据处理器中的装置之间的连接。在此方面，虽然数据存储系统140是与数据处理系统110单独地展示，但所属领域的技术人员将了解，数据存储系统140可完全或部分存储于数据处理系统110内。此外，在此方面，虽然外围系统120及用户接口系统130是与数据处理系统110单独地展示，但所属领域的技术人员将了解，此类系统中的一者或两者可完全或部分存储于数据处理系统110内。
[0042] 外围系统120可包含经配置以给数据处理系统110提供数字内容记录的一或多个装置。举例来说，外围系统120可包含数字静物摄像机、数字视频摄像机、蜂窝式电话或其它数据处理器。数据处理系统110在从外围系统120中的装置接收到数字内容记录后即刻可将此类数字内容记录存储于数据存储系统140中。
[0043] 用户接口系统130可包含鼠标、键盘、另一计算机或任何装置或者数据从其输入到数据处理系统110的装置的组合。在此方面，虽然外围系统120是与用户接口系统130 单独地展示，但外围系统120可包含为用户接口系统130的部分。
[0044] 用户接口系统130还可包含显示装置、处理器可存取存储器或任何装置或者数据由数据处理系统110输出到的装置的组合。在此方面，如果用户接口系统130包含处理器可存取存储器，那么此存储器可为数据存储系统140的部分，即使用户接口系统130与数据存储系统140是在图1中单独地展不。
[0045] 近来，稀疏表示（由人类视觉系统（HVS)激发的信号处理模型）已获得极大关注以确定紧凑地表示手边的数据的最稀疏信息。关键帧提取的目标是识别表示输入视频所需的最稀疏数目个帧。申请人:已认识到，稀疏表示方法可充分用以设计高效视频处理算法 (例如，关键帧提取、场景边界检测及视频归纳）。
[0046] 现在将参看图2描述本发明的一实施例，图2图解说明用于使用稀疏表示过程选择关键视频帧265的方法的流程图。输入到所述过程的是包含视频帧的时间序列的视频序列200,每一视频帧包含具有像素值的图像像素阵列。使用选择视频帧集合步骤202来选择包含N个个别视频帧210(FjljFN)的视频帧集合205。视频帧集合205可包括视频序列 200中的所有视频帧，或其可为子集。
[0047] 对于其中选择视频帧集合步骤202选择视频序列200中的视频帧的仅一子集的情形，可使用数种方法选择所述子集。在一些实施例中，可提供用户接口以使用户能够人工地指示视频帧集合205的开始点及结束点。
[0048] 视频序列200中的每一视频帧通常需要600, 000字节以上的存储量。因此，为了减小存储器使用且改进计算效率，在一些实施例中，在时间上对视频序列200进行子取样以选择视频帧210的由预定义间隔分离（举例来说，视频序列200中的每十个视频帧）的子集可为有利的。在一些情形中，使用将一些视频帧独立地编码且使用帧间编码将其它视频帧编码的方案来将输入视频序列200存储为经压缩视频流。在此些情形中，选择独立于其它视频帧编码的视频帧210以便使对图像数据的提取更高效可为有利的。
[0049] 在一些实施例中，选择视频帧集合步骤202还可执行额外处理操作。举例来说，可在空间上对视频帧210进行子取样达较低空间分辨率以减小必须分析的像素的数目。
[0050] 每一视频帧210中的图像数据中的许多图像数据为冗余的；本发明将每一视频帧210投射到较低维度特征空间以供进一步处理。使用提取特征向量步骤215来分析视频帧210以确定对应特征向量220(VgljVn)。可根据本发明使用此项技术中已知的用于提取特征向量的任何方法。此处可使用的其它类型的特征的一些实例包含边缘方向直方图（如维尔利亚（Vailaya)等人在论文"关于图像分类：城市图像与风景（Onimage classification:Cityimagesvs.landscapes) "（模式辨识，第 31 卷，第 1921 到 1935 页， 1998年）中所描述）及SIFT特征（如洛维（Lowe)在论文"从尺度不变关键点研宄特色图像特征（Distinctiveimagefeaturesfromscaleinvariantkeypoints) "（国际计算机视觉杂志，第60卷，第91到110页，2004年）中所描述）。
[0051] 图3展示根据优选实施例的提取特征向量步骤215的额外细节，其中使用m个基函数315(Φ」）的集合来提取特征向量220。基函数是使用定义基函数步骤310定义的。在此情形中，特征向量220将用于基于若干对帧之间的"相对距离"将类似视频帧分组，且不用于空间分析的详细色彩。如巴拉纽克（Baraniuk)等人在论文"平滑流形的随机投射 (Randomprojectionsofsmoothmanifolds) "（计算数学基础，第 9 卷，第δ?到 77 页， 2009年）中及赫格德（Hegde)等人在论文"流形学习的随机投射（Randomprojectionsfor manifoldlearning) "（神经信息处理系统的进步，第641到649页，2007年）中所论述，使用随机基向量的投射保存低维度空间中的视频帧之间的相对距离。此使得此随机投射成为所提议基于稀疏性的关键帧提取方法内的特征提取的良好选择。在其它实施例中，可使用基函数315的不同集合，例如傅里叶变换基函数、离散余弦变换基函数或小波基函数。
[0052] 在优选实施例中，基于视频帧210的亮度数据确定特征向量200,这是因为大部分空间细节将存在于亮度通道中。使用提取亮度向量步骤300来针对视频帧210中的每一者提取亮度向量305。举例来说，第i视频帧210(Fi)的亮度通道经提取且以字典次序布置以给每一帧提供对应一维亮度向量305 (Li)。亮度向量305 (Li)具有长度n，其中η为视频帧210中的像素的数目。在一些实施例中，在形成亮度向量305之前通过选择图像像素的子集而减小视频帧210的大小。以此方式，可减小需要执行的计算量。举例来说，可从视频帧210 "裁剪"掉对应于视频帧的中心区域的图像像素的子集。或者，可在空间上对视频帧 210进行子取样以提供包含在形成亮度向量305之前的图像像素的子集的较小图像。可根据规则栅格（例如，每三个图像像素）执行子取样过程以提供较低空间分辨率图像或可根据一些其它预定义取样模式。
[0053] 在其它实施例中，可替代亮度通道而提取每一视频帧210的绿色通道。或者，其它个别色彩通道（在任何适当色彩空间（例如RGB或YCrCb)中），或可使用多个色彩通道的像素值。
[0054] 使用确定特征向量步骤320来通过将亮度向量305投射到基函数315上以减小视频帧信息的维度而确定特征向量220 (Vi)。如图4中所图解说明，此可通过将亮度向量300 乘以投射矩阵330而实现，其中投射矩阵330的行是基函数315,所述基函数在优选实施例中为随机向量。投射矩阵330CDeWmxn具有与亮度向量305的长度一样多的列η。行的数目m定义所产生的特征向量的长度。（对于其中视频帧210具有VGA分辨率的情形，η= 307,200。）为了实现效率，m〈〈n(例如，m= 100)使得通过矩阵相乘提供的特征向量220 比原始亮度向量210短得多。可以方程式形式重复此过程：
[0055] Vi=OLi (1)
[0056] 其中Vi为第i特征向量220,Li为第i亮度向量305,且Φ为投射矩阵330。
[0057] 适当地选择m是重要的。在优选实施例中，使用迪米特洛娃（Dimitrova)等人在论文"视频关键帧提取及滤波：关键帧并非对于所有人来说均为关键帧（Videokeyframe extractionandfiltering:akeyframeisnotakeyframetoeveryone) "第六届国际信息与知识管理会议，第113到120页，1997年）中所论述的"贪婪"方法来确定m。此方法利用最小视频长度作为线索来确定m的适当值且已经实验验证为有效的。在替代实施例中，可使用用于选择m的其它方法。举例来说，拉希德等人已在前述论文"视频中的场景的检测及表示"中描述可根据本发明使用的用于选择m的相当精妙但在计算上昂贵的方法。
[0058] 在优选实施例中，投射矩阵330中的每一基向量315含有从具有零平均值及单位方差的正常分布独立选择的元素。在优选实施例中，投射矩阵基向量315中的值被量化为-1及+1，从而允许比整数或有理系数更简单且更快速乘法。
[0059] 与用于特征提取的传统方法相比，使用用随机投射提取的特征向量220有两个不同优点：（i)特征选择过程较不至关重要（不需要色彩或时空分析）；及ii)计算效率仅涉及矩阵乘法运算。
[0060] 返回到图2的论述，使用特征向量22(^1来形成包含类似视频帧210的群组的视频帧群集250。优选地，视频帧群集250为不相交子集使得每一视频帧210为一个且仅一个子集的成员。
[0061] 在优选实施例中，使用反复过程来形成视频帧群集250。使用选择视频帧步骤225 来选择选定视频帧230 (Fi)用作特定视频帧群集中的第一视频帧。针对第一反复，第一视频帧210 (F1)通常指定为选定视频帧230。针对以后的反复，选定视频帧230指定为不包含于先前视频帧群集250中的下一视频帧210。
[0062] 使用形成群组稀疏组合步骤235来将选定视频帧（Vi)的特征向量表示为对应于视频帧集合205中的其它视频帧210的特征向量220 (Vn……Um'……、Vn)的群组稀疏组合。在优选实施例中，形成群组稀疏组合步骤235使用群组稀疏求解器来计算对应于视频帧集合205中的其它帧中的每一者的特征向量220的加权系数240 (Wp……、Wi+ Wi+1、……、WN)。此通常通过将除选定帧之外的所有视频帧210的特征向量220 (Vp……、 Vi^1,Vi+1,……、Vn)并置成大的矩阵而实现。群组稀疏求解器返回指示每一视频帧210表达选定视频帧230的特征向量220 (Vi)的重要性的加权系数240的向量。
[0063] 群组稀疏求解器的特性为对应于明显不与选定视频帧230类似的其它视频帧210 的特征向量220的加权系数240设置为零，而对应于与选定视频帧230类似的其它视频帧 210的特征向量220的加权系数240将为非零。通常，具有低于预定义阈值的量值的加权系数设置为零，其中预定义阈值经选择以对应于不提供显著贡献的特征向量220。
[0064] 图5图解说明针对第i视频帧21(^确定的加权系数240的示范性向量。通常，特定视频帧210距选定视频帧230越近，其将越有可能具有高度相似性，且因此所确定加权系数240将通常较高。相反地，特定视频帧210距选定视频帧230越远，其将越不可能具有高度相似性，且因此所确定加权系数240将通常较低且将存在通过群组稀疏求解器清零的较大数目个加权系数240。在一些实施例中，对应于在选定视频帧230之前的视频帧210的加权系数240(即Wn……、WiJ自动设置为零，这是因为其对应于已分组到视频帧群集250 中的视频帧210。通常，加权系数240经正规化使得相同视频帧210将具有加权系数1. 0。
[0065] 使用形成视频帧群集步骤245来分析加权系数240以形成以选定视频帧230开始的视频帧群集250。在优选实施例中，形成视频帧群集步骤245以第（i+1)加权系数 240 (Wi+1)开始且在向前方向上搜索直到发现不重要加权系数240为止。在一些实施例中，不重要加权系数240定义为具有零值的加权系数240。在优选实施例中，不重要加权系数 240定义为具有小于预定义阈值（例如，0.2)的量值的系数。接着，在将第一不重要加权系数240分组在一起以形成之前将视频帧群集250定义为包含以选定视频帧230开始且以视频帧210结束的所述一系列邻接视频帧210。
[0066] 完成测试255测试是否已将视频帧集合205中的所有视频帧210分组到视频帧群集250中。如果否，那么执行另一反复以确定下一视频帧群集250,其中选择视频帧步骤 225选择尚未分组到视频帧群集250中的下一视频帧210用作选定视频帧230。以此方式，将给每一视频帧210指派一视频帧群集，且所确定视频帧群集250将不在时间上重叠。
[0067] -旦完成测试255确定已将视频帧集合205中的所有视频帧210指派到视频帧群集250,处理即进行到识别关键视频帧步骤260,其中基于视频帧群集250选择关键视频帧 265的集合。可根据本发明使用用于选择关键视频帧265的任何方法。
[0068] 在一些实施例中，可针对每一视频帧群集250选择一关键视频帧265。然而，在许多应用中，选择特定数目个关键视频帧将为合意的，所述特定数目将通常小于视频帧群集 250的数目。图6展示根据优选实施例的识别关键视频帧步骤260的额外细节，其中选择特定数目个关键视频帧265。
[0069] 使用定义关键帧目标数目步骤400来定义关键帧405的目标数目。在优选实施例中，（举例来说）使用例如以下方程式的非线性函数基于选定视频帧集合205(图2)中的视频帧210(图2)的数目定义关键帧405的目标数目：
[0070] T=Tmin+Sγ(2)
[0071] 其中T为关键帧405的目标数目，Imin为关键帧的最小数目（例如3)，S为视频帧集合205中的视频帧210的数目，且γ为介于0.0与1.0之间的幂（例如，0.5)。关键帧的此目标数目还可为对视频如何有趣的估计值的函数，举例来说，如狄佛（Deever)的标题为"用于确定关键视频的方法（Methodfordeterminingkeyvideo)"的共同让与的美国专利申请案2011/0292288中所描述。
[0072] 还可使用用于定义关键帧405的目标数目的其它方法。举例来说，可提供用户接口以使用户能够人工地指定关键帧405的所要目标数目。在其它应用中，关键帧405的目标数目可为独立于视频帧210的数目的常数。
[0073] 在优选实施例中，使用合并视频帧群集步骤410来合并视频帧群集250的群组以提供T个经合并视频帧群集415,其中T为关键帧405的目标数目。
[0074] 图7展示根据优选实施例的合并视频帧群集步骤410的额外细节。完成测试450 将视频帧群集250的数目与关键帧405的目标数目（T)进行比较。如果视频帧群集250的数目小于或等于关键帧405的目标数目，那么合并视频帧群集步骤410完成且将经合并视频帧群集415传递到图6中的下一步骤。在一些情形中，视频帧群集250的原始数目可小于关键帧405的目标数目。在此类情形中，可将关键帧405的目标数目调整为等于视频帧群集250的原始数目。
[0075] 如果视频帧群集250的数目大于关键帧405的目标数目，那么使用合并群集步骤 460来合并视频帧群集250中的两者（或两者以上），且控制接着返回到完成测试450。可使用用于群集的许多方法来确定应合并哪些视频帧群集250。优选地，合并最类似的视频帧群集250。在一些实施例中，强加所合并的视频帧群集250彼此在时间上邻接的约束。然而，在其它实施例中，此约束经放宽以涵盖其中可在视频序列200的不同区段中发现类似图像内容的情形。一般来说，应保存经合并视频帧群集415中的视频帧210的时间次序。
[0076] 在优选实施例中，合并群集步骤460识别将使用混合二分图分割算法合并的视频帧群集250,所述混合二分图分割算法由弗恩（Fern)等人在论文"通过二分图分割解决群集集成问题（Solvingclusterensembleproblemsbybipartitegraph partitioning) "（21世纪国际机器学习会议会刊，2004年）中提议。
[0077] 此方法通过形成邻近矩阵480开始，如图8中所图解说明。每一视频帧210由矩阵中的行表示。每一视频帧群集250由邻近矩阵480中的列表示。针对矩阵的每一行，在表示其所属的视频帧群集250的列中存在1。行中的所有其它条目均为0。
[0078] 混合二分图公式化以二分图表示群集成员资格，其中一个顶点集合表示视频帧 210且另一顶点集合表示视频帧群集250。此通过采取邻近矩阵480 (A)且使用其来形成矩阵W而进行，如所展示：
[0079]

【权利要求】
1. 一种用于从包含视频帧的时间序列的视频序列识别关键视频帧集合的方法，每一视频帧包含具有像素值的图像像素阵列，所述方法包括： a) 从所述视频序列选择视频帧集合； b) 提取所述视频帧集合中的每一视频帧的特征向量； c) 应用群组稀疏性算法以将特定视频帧的所述特征向量表示为所述视频帧集合中的其它视频帧的所述特征向量的群组稀疏组合，所述其它视频帧在所述群组稀疏组合中的每一特征向量具有相关联加权系数，其中对应于与所述特定视频帧最类似的其它视频帧的特征向量的所述加权系数为非零，且对应于与所述特定视频帧最不类似的其它视频帧的特征向量的所述加权系数为零； d) 分析所述加权系数以确定在时间上邻接的类似视频帧的包含所述特定视频帧的视频帧群集； e) 针对多个特定视频帧重复步骤c)到d)以提供多个视频帧群集； f) 基于所述视频帧群集选择关键视频帧集合；以及 g) 将所述选定关键视频帧的指示存储于处理器可存取存储器中；其中至少部分地使用数据处理器执行所述方法。
2. 根据权利要求1所述的方法，其中所述提取视频帧的所述特征向量包含：形成包含来自所述视频帧的像素值的帧向量；定义包含多个基函数的基函数集合，每一基函数为具有到所述帧向量的相同长度的向量；形成所述帧向量与所述基函数之间的积以确定对应特征系数；通过收集每一基函数的所述特征系数而形成所述特征向量。
3. 根据权利要求2所述的方法，其中用于帧向量中的所述像素值为亮度像素值。
4. 根据权利要求2所述的方法，其中所述帧向量包含所述视频帧中的所述图像像素的根据预定义取样模式选择的子集的像素值。
5. 根据权利要求2所述的方法，其中所述基函数为随机数的向量。
6. 根据权利要求2所述的方法，其中所述基函数为傅里叶变换基函数、离散余弦变换基函数或小波基函数。
7. 根据权利要求1所述的方法，其中所述所确定视频帧群集仅包含所述特定视频帧及在所述视频序列中在所述特定视频帧之后的视频帧。
8. 根据权利要求7所述的方法，其中通过识别具有小于预定义阈值的不重要加权系数的下一视频帧而确定包含于所述视频帧群集中的所述视频帧。
9. 根据权利要求1所述的方法，其中所述视频帧群集包含所述对应特征向量具有超过预定义阈值的加权系数的所述在时间上邻接的视频帧。
10. 根据权利要求1所述的方法，其进一步包含丢弃包含少于最小数目个视频帧或包含多于最大数目个视频帧的任何视频帧群集。
11. 根据权利要求1所述的方法，其进一步包含分析所述视频帧群集以将视频帧群集的群组合并成较大视频帧群集。
12. 根据权利要求11所述的方法，其中将所述经合并视频帧群集约束为彼此在时间上邻接。
13. 根据权利要求11所述的方法，其中基于分析所述视频帧群集的相似性而识别将合并的所述视频帧群集。
14. 根据权利要求11所述的方法，其中使用二分图分割算法合并所述视频帧群集。
15. 根据权利要求11所述的方法，其进一步包含指定关键视频帧的目标数目，且其中合并所述视频帧群集，直到经合并视频帧群集的剩余数目等于关键视频帧的所述所指定目标数目为止。
16. 根据权利要求15所述的方法，其中响应于所述视频帧集合中的视频帧的数目而自动确定关键视频帧的所述目标数目。
17. 根据权利要求15所述的方法，其中关键视频帧的所述目标数目是用户指定的。
18. 根据权利要求1所述的方法，其中将最接近于所述视频帧群集中的最大的在时间上邻接的视频帧系列的中心的中心视频帧选择为所述关键视频帧。
19. 根据权利要求1所述的方法，其中分析视频帧群集内的所述视频帧以确定对应图像质量度量值，且其中响应于所述所确定图像质量值而选择所述关键视频帧。
【文档编号】G06K9/00GK104508682SQ201380040579
【公开日】2015年4月8日申请日期:2013年7月29日优先权日:2012年8月3日
【发明者】M·库玛, A·C·路易, B·H·皮尔曼申请人:柯达阿拉里斯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·库玛;A·C·路易;B·H·皮尔曼;
技术所有人：柯达阿拉里斯股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。