用于基于渐进式改良从视频序列选择帧的方法与流程

文档序号：11935277阅读：256来源：国知局

本申请案主张2014年9月2日申请的标题为“用于基于渐进式改良从视频序列选择帧的方法(A METHOD FOR SELECTING FRAMES FROM VIDEO SEQUENCES BASED ON INCREMENTAL IMPROVEMENT)”的第14/475,074号美国专利申请案的优先权，所述案的全文以引用方式并入本文中。

技术领域

本发明涉及视频处理的领域，且更特定来说涉及用于从视频选择关键帧的经改良方法。

背景技术：

关键视频帧的选择可用于许多应用中。举例来说，常期望提取并呈现可传达视频的准确且可辨识摘要或概要的视频数据的一些子集。关键帧提取算法用于从视频选择信息最丰富帧的子集，其目标为用有限数目个帧表示视频中的最重要内容。关键帧提取应用于若干广泛领域的视频处理中，例如视频概述、产生DVD中的章名、视频索引及从视频打印。摘要或概要还可促进视频共享或帮助用户决定整个视频是否值得下载或观看。关键帧提取是活跃的研究领域，且已提出用于从视频提取关键帧的许多方法。

用于通过提取关键视频帧来产生视频摘要的算法在所属领域中是已知的，但其具有通过本发明解决的缺点。主要基于帧间运动检测确定关键视频帧的现存算法(例如在Aaron T.Deever的第8,599,313号美国专利中揭示的算法)具有至少两个缺点。此些算法要么不考虑品质度量以协助关键帧的选择，要么需要多个度量的广泛联合优化(计算昂贵的方法)。

举例来说，J.Luo等人的标题为“从视频剪辑提取关键帧候选(Extracting key frames candidates from video clip)”的第7,889,794号美国专利的方法通过对视频剪辑执行指示场景或相机平移的全域运动估计来分析视频剪辑以确定关键帧。作为额外实例，I.Wilf等人的标题为“从视频序列选择关键帧的方法(Method of selecting key-frames from a video sequence)”的第7,184,100号美国专利教示通过使用区域分析及运动分析两者比较视频序列中的每一帧与相邻帧而从视频序列选择关键帧。

现有技术方法不包含或组合其它不基于运动的度量(例如视频帧的图像品质或语义内容)以改良关键帧选择过程的品质。将此些度量集成到此些方法中将需要新的复杂且耗时的优化过程。因此，需要制定使用额外品质度量改良当前算法的新策略。本发明的一个目的是选择感知上佳于通过常见基于运动的方法选择的关键帧但稍微影响计算成本的关键帧。本发明的进一步目的是通过在无需算法的新优化或新特征的规范化的情况下并入新度量来改良现存算法。

技术实现要素：

本申请案旨在用于自动地且有效地组合多个度量以从视频序列选择所关注或关键帧的新方法。在一个方面中，所述方法包含从视频序列选择参考帧及在所述经组合度量下迭代地计算候选帧相对于所述参考帧的改良或增益。根据本发明的度量可包含图像品质度量，例如清晰度、对比度及噪声；基于运动的度量，例如相机抖动及运动模糊；及美学品质度量，例如图像的构成以及脸部的品质及表情。在其它方面中，本发明使用其它基于内容的特征以制定用于改良算法的新度量。此些基于内容的特征包含图像的颜色直方图、图像的黑色直方图、图像的语义信息、图像中的对象、图像的背景及图像的前景。

在一个实施例中，本发明方法包括计算清晰度度量及所检测人脸的品质度量，本文中称为faceIVI。根据此方法，计算每一参考关键帧及时间上相邻于每一参考关键帧的多个候选帧中的每一者的清晰度得分及faceIVI得分。在其它实施例中，本发明方法包含计算其它度量。

附图说明

图1A到B含有说明本发明的一种方法的流程图。

图2A展示从视频序列中的帧选择的两个参考关键帧。

图2B展示其中与两个相邻参考关键帧相关联的多个候选关键帧重叠的情况。

图2C展示调整重叠的多个候选关键帧使得其不再重叠的一种方法。

图3是说明从基于运动的关键帧提取算法输出的主列表的实例。

图4是说明对应主列表帧的预定义搜索范围内具有最高图像清晰度得分的候选帧的实例。

图5是说明对应主列表帧的预定义搜索范围内具有最高faceIVI得分的候选帧的实例。

图6是说明在根据本发明的方法合并来自图4的输出与来自图5的输出之后的主列表的实例。

图7是说明从图6的主列表选择的关键帧的最终列表的实例。

图8是展示根据本发明的实施例的系统的组件的高级图。

具体实施方式

本申请案揭示用于从视频序列选择关键帧的经改良方法。如所属领域的技术人员将明白，本申请案中揭示的本发明方法适于运用许多类型的关键帧选择算法进行实施。举例来说，本申请案中揭示的方法可用来改良所属领域中已知的关键帧选择算法，包含但不限于基于运动的算法，例如在Aaron T.Deever的第8,599,313号美国专利中揭示的算法，所述专利的揭示内容以引用方式并入本文中。替代地，所揭示方法与基于镜头边界检测的算法兼容。在本发明的方法中，通过基于某些品质度量在参考关键帧附近搜索来识别候选帧。在本发明的一个方面中，所使用品质度量可为清晰度度量及所检测人脸的品质度量，本文中称为faceIVI。

在下文描述中，将从通常将被实施为软件程序的方面描述本发明的一些实施例。所属领域的技术人员将认知，此软件的等效物还可构建在硬件中，且硬件实施方案可带来可能够在更广泛应用中(例如在实时系统中)使用本发明的优点。因为图像操控算法及系统是熟知的，本发明描述将尤其旨在形成根据本发明的方法的部分或与根据本发明的方法更直接地协作的算法及系统。可从所属领域中已知的此些系统、算法、组件及元件选择本文中未具体展示或描述的此些算法及系统的其它方面，连同涉及所述方面的用于产生及以其它方式处理图像信号的硬件及软件。鉴于如本发明中描述的根据本发明的系统，可用于本发明的实施方案的本文中未具体展示、建议或描述的软件是常见的且在所属领域的一般技术范围内。

本发明包含本文中描述的实施例的组合。对“特定实施例”等的引用指代存在于本发明的至少一个实施例中的特征。对“实施例”或“特定实施例”等的单独引用未必指代相同实施例；然而，此些实施例并不互斥，除非如此指示或所属领域的技术人员易于理解。在引用“方法”等中使用单数或复数并非为限制性。应注意，除非上下文另外明确地提及或要求，否则单词“或”在本发明中以非排斥意义加以使用。

将参考图1A到B中展示的步骤描述本发明方法的一个实施例的步骤。首先，在步骤101中，使用关键帧提取算法(例如前文提及的基于运动的算法)从视频序列计算参考关键帧的主列表。还可使用其它算法，例如基于镜头边界检测的算法。出于在下文论述中说明的目的，每一参考关键帧将被标记为RKF_i，其中i是1与主列表中的参考关键帧的数目之间的整数。

在步骤102中，基于单品质度量、品质度量的组合或一些其它量度将来自主列表的参考关键帧的子集指定为最终帧。在步骤103到107a-b中相同地处理主列表中的参考关键帧中的每一者，而不管其是否被指定为最终帧。在步骤108中使用此指定。

对主列表中的每一参考关键帧执行步骤103到107a或107b。在步骤103中，计算相邻于主列表中的每一参考关键帧RKF_i的多个候选帧中的每一者的清晰度得分。在本文中由记号S_HARP(frame)标记此清晰度得分计算。多个候选帧可为紧接视频序列中的每一参考关键帧的一定数目个帧、紧随视频序列中的每一参考关键帧的一定数目个帧、或紧接视频序列中的每一参考关键帧的一定数目个帧及紧随视频序列中的每一参考关键帧的一定数目个帧两者。

在本发明的一个方面中，如果视频序列中的两个参考关键帧与一定数目个候选帧的接近度使得所述序列中的帧将是两个参考关键帧的候选帧，那么一定数目个候选帧经调整使得每一候选帧与仅一个参考关键帧相关联。举例来说，考虑其中多个候选帧被选择为每一参考关键帧前的三十个帧及每一参考关键帧后的三十个帧的情况，步骤101中选择的又两个相邻参考关键帧通过视频序列中的仅二十个帧分离。在此情况中，此两个参考关键帧的多个候选帧将减少。在一个方面中，此两个参考关键帧中的前者可与三十个前候选帧及十个后候选帧相关联，而此两个参考关键帧中的后者可与十个前候选帧及三十个后候选帧相关联。换句话来说，两个连续参考关键帧之间的介入候选帧的数目一分为二并且第一半分配给结合前一参考关键帧考虑的多个候选帧且第二半分配给结合后一参考关键帧考虑的多个候选帧。

图2A到C中展示此调整。在图2A中，已从视频序列201的片段选择参考关键帧210及220。图2B说明多个候选帧211(结合前一参考关键帧210考虑)将如何与多个候选帧221(结合后一参考关键帧220考虑)重叠。图2C展示借此参考关键帧210与220之间的距离对半分并且第一半与前面多个候选帧212相关联且第二半与后面多个候选帧222相关联的调整。图2A到C中说明的调整仅是可在此方法内使用的一个代表性调整。

返回到图1A到B中的流程图中的步骤104，对于主列表中的每一参考关键帧RKF_i，识别并存储与所述参考关键帧相关联的来自多个候选帧当中具有最高清晰度得分的帧。出于说明的目的，与参考关键帧RKF_i相关联的具有最高清晰度得分的候选帧在本文中被标记为CF_i,Sharp。

在步骤105中，计算相邻于主列表中的每一参考关键帧RKF_i的多个候选帧中的每一者的faceIVI得分。通过检测每一候选帧中人脸出现的任何区域并评估所述区域的品质来计算faceIVI得分。在本文中由记号F_ACEIVI(frame)标记此faceIVI得分计算。不描绘被分析人脸的任何候选帧不接收faceIVI得分，其可由空值、零值或一些其它指示来反映。在步骤103与105之间将结合每一参考关键帧考虑的多个候选帧是相同的，使得评估相同候选帧的清晰度得分及faceIVI得分。换句话来说，如上文揭示，归因于与参考关键帧的接近度对多个候选帧的任何调整适用于这两个步骤。

在步骤106中，对于主列表中的每一参考关键帧RKF_i，识别并存储与所述参考关键帧相关联的来自多个候选帧当中具有最高faceIVI得分的帧。出于说明的目的，与参考关键帧RKF_i相关联的具有最高faceIVI得分的候选帧被标记为CF_i,Face。如果记录具有清晰度得分及faceIVI得分的帧，那么所述方法前进到步骤107a。另一方面，如果不存在具有faceIVI得分的候选帧，那么所述方法前进到步骤107b。

在步骤107a中，计算通过用具有最高清晰度得分的帧CF_i,Sharp或具有最高faceIVI得分的帧CF_i,Face取代参考关键帧RKF_i将完成的清晰度得分及faceIVI得分的总增加；且用具有最大总增加的候选帧(CF_i,Sharp或CF_i,Face)取代参考关键帧RKF_i。在所述方法的一个方面中，如下般计算清晰度得分及faceIVI得分的净增加：

及

其中

S_i是通过用具有最高清晰度得分的帧CF_i,Sharp取代参考关键帧RKF_i将完成的清晰度得分及faceIVI得分的净增加，且

F_i是通过用具有最高faceIVI得分的帧CF_i,Face取代参考关键帧RKF_i将完成的清晰度得分及faceIVI得分的净增加。

然而，如果两个候选帧(CF_i,Sharp及CF_i,Face)的清晰度得分及faceIVI得分的总增加是负的，那么参考关键帧RKF_i不被任一候选帧取代，而是仍保留在主列表中。

可能的是，如果参考关键帧RKF_i的相关联候选帧中的一者具有所检测脸区域，那么在参考关键帧RKF_i不含有所检测脸区域时到达步骤107a处。在此情况中，通过除以F_ACEIVI(RKF_i)来评估F_i是不可能的。在此事件中，可将F_i的第二项设置为与包含视频摘要中的人脸的相对可期望性相称的预定值。如果设计者高度重视视频摘要中的脸，那么此预定值可为1.0，或如果设计者希望在品质度量之间找到不同平衡，那么此预定值可为一些更小值。如果具有最高清晰度得分的帧CF_i,Sharp具有任何所检测脸区域，那么S_i的计算将遇到相同问题，且因此FACEIVI(CF_i,Sharp)可被评估为非零值。在此事件中，与F_i的第二项相似，也可将S_i的第二项设置为预定值。否则，如果具有最高清晰度得分的帧CF_i,Sharp不具有任何所检测脸区域，那么F_i的第二项可被评估为零。

如果在步骤107a之后主列表中存在更多参考关键帧，那么所述方法在步骤103中继续处理下一参考关键帧。否则，所述方法继续进行步骤108。

在步骤107b中，在参考关键帧RKF_i的候选帧未被指派faceIVI得分时，由具有最高清晰度得分的候选帧CF_i,Sharp取代参考关键帧，条件是此帧的清晰度得分SHARP(CF_i,Sharp)超过预定义阈值。如果在步骤107b之后主列表中存在更多参考关键帧，那么所述方法在步骤103中继续处理下一参考关键帧。否则，所述方法继续进行步骤108。

在步骤108中，从主列表中在步骤102被指定为最终帧的如已在步骤103到107a-b中通过取代修改的关键帧产生最终列表。

在步骤109中，基于在步骤103到107a-b中完成的品质的总增加选择性地将在步骤102中未被指定为最终帧的来自主列表的关键帧添加到最终列表，使得最终列表包含此些关键帧中的每一者，所述关键帧的清晰度得分及faceIVI得分的总增加超过预定义阈值。举例来说，如果参考关键帧(RKF_i)最初未被指定为最终帧，但用来自多个相关联候选帧的帧取代且所述帧的品质的总增加(S_i或F_i，适用时)超过预定义阈值，那么将所述参考关键帧添加到最终列表。否则，参考关键帧(RKF_i)被舍弃且不出现在最终列表中。

图3到7说明所述方法的各个阶段处的各种参考关键帧及候选帧的实例。图3是说明如在步骤101中识别的从基于运动的关键帧提取算法输出的主列表的实例。在此实例中，主列表含有六个参考关键帧31到36且参考关键帧34到36被指定为最终帧。

图4展示在步骤104中选择的候选帧41到46，其是每一参考关键帧的预定义搜索范围内具有最高图像清晰度得分的帧。

图5展示在步骤106中选择的候选帧51、53、55及56，其是每一参考关键帧的预定义搜索范围内具有最高faceIVI得分的帧。不存在对应于参考关键帧32及34的帧，因为在与所述参考关键帧相关联的任何候选帧中找不到可检测脸。

图6是说明在对每一参考关键帧执行步骤107a及107b之后的主列表的实例。在括号中指示每一关键帧的来源。举例来说，第一关键帧31是用候选帧51(具有最高faceIVI得分的帧)取代，所述候选帧51在图6中表现为关键帧61；关键帧32是用候选帧42(具有最高清晰度得分的帧)取代，所述候选帧42在图6中表现为关键帧62；以此类推。

图7是说明如在步骤108及109中指定的从图6的主列表选择的关键帧的最终列表的实例。在步骤108中，将最终列表的帧73到75选择为最终帧。在步骤109中选择帧71及72，因为其品质的总增加足够高以超过预定阈值。已省略来自图6中的主列表的第二关键帧。此最终输出既比在步骤102处产生的最终帧的原始列表更具代表性又比在步骤101处产生的原始主列表更简洁。

在本发明方法的替代实施例中，省略步骤102、108及109，使得主列表中的所有关键帧出现在最终列表中。

本发明中揭示的方法的主要优点是可在不实行整个新优化程序或广泛规范化(归因于不同特征维度)过程的情况下使用不同度量。本文中揭示的方法的本质是在考虑所有度量的情况下在相对于参考关键帧评估新候选帧时确定品质的净增加或减小。因此，可容易以模块化方式将新度量并入到算法中。可从任何类型的图像序列(不限于视频序列)选择或提取此些方法所操作的帧集。举例来说，帧集可来自在事件中捕获的图像集，或来自源自视频序列的静止图像与帧的混合物。

图8是根据本发明的实施例的用于识别并改良来自视频序列的关键帧集的系统的组件的高级图。所述系统包含数据处理系统810、外围系统820、用户接口系统830及数据存储系统840。外围系统820、用户接口系统830及数据存储系统840通信地连接到数据处理系统810。

数据处理系统810包含实施本发明的各个实施例的过程(包含本文中描述的示例性过程)的一或多个数据处理装置。短语“数据处理装置”或“数据处理器”意图包含任何数据处理装置，例如中央处理单元(“CPU”)、台式计算机、膝上型计算机、主机计算机、个人数字助理、数字相机、蜂窝式电话，或用于处理数据、管理数据或处置数据(无论是运用电组件、磁组件、光学组件、生物组件还是以其它方式实施)的任何其它装置。

数据存储系统840包含经配置以存储信息(包含执行本发明的各个实施例的过程(包含本文中描述的示例性过程)所需的信息)的一或多个处理器可访问存储器。数据存储系统840可为分布式处理器可访问存储器系统，其包含经由多个计算机或装置通信地连接到数据处理系统810的多个处理器可访问存储器。另一方面，数据存储系统840无需是分布式处理器可访问存储器系统且因此，可包含位于单数据处理器或装置内的一或多个处理器可访问存储器。

短语“处理器可访问存储器”意图包含任何处理器可访问数据存储装置，无论是易失性的或非易失性的、电子的、磁性的、光学的还是以其它方式的存储装置，包含但不限于寄存器、软盘、硬盘、光盘、DVD、快闪存储器、ROM及RAM。

短语“通信地连接”意图包含其中可传达数据的装置、数据处理器或程序之间的任何类型的连接，无论是有线还是无线连接。短语“通信地连接”意图包含单数据处理器内的装置或程序之间的连接、位于不同数据处理器中的装置或程序之间的连接及根本不位于数据处理器中的装置之间的连接。就此来说，尽管数据存储系统840被展示为与数据处理系统810分离，但所属领域的技术人员将明白，数据存储系统840可全部或部分存储在数据处理系统810内。进一步就此来说，尽管外围系统820与用户接口系统830被展示为与数据处理系统810分离，但所属领域的技术人员将明白，此些系统中的一者或两者可全部或部分存储在数据处理系统810内。

外围系统820可包含经配置以将数字内容记录提供到数据处理系统810的一或多个装置。举例来说，外围系统820可包含数字静物相机、数字摄像机、蜂窝式电话或其它数据处理器。数据处理系统810在从外围系统820中的装置接收数字内容记录之后可将此些数字内容记录存储在数据存储系统840中。

用户接口系统830可包含鼠标、键盘、另一计算机、或数据从其输入到数据处理系统810的任何装置或装置组合。就此来说，尽管外围系统820被展示为与用户接口系统830分离，但外围系统820可被包含为用户接口系统830的部分。

用户接口系统830还可包含显示装置、处理器可访问存储器、或数据通过数据处理系统810输出到其的任何装置或装置组合。就此来说，如果用户接口系统830包含处理器可访问存储器，那么此存储器可为数据存储系统840的部分，即使用户接口系统830与数据存储系统840在图8中被展示为分离。

本发明的另一实施例利用以整个帧的图像品质量度及所述帧中的所检测脸的图像品质量度为特征的分级搜索。在此实施例中，首先使用关键侦提取算法(例如前文提及的基于运动的算法)从视频序列计算参考关键帧的主列表，如上文关于步骤101描述。还可使用其它算法，例如基于镜头边界检测的算法。出于在下文论述中说明的目的，每一参考关键帧将被标记为RKF_i，其中i是1与主列表中的参考关键帧的数目之间的整数。

然后，将来自主列表的参考关键帧的子集指定为最终列表，如上文关于步骤102描述。基于单品质度量、品质度量的组合或一些其它量度指定最终列表帧。

在此实施例的下一步骤中，计算相邻于主列表中的每一参考关键帧RKF_i的多个候选帧中的每一者的清晰度得分，如上文关于步骤103描述。在本文中由记号SHARP(frame)标记此清晰度得分计算。多个候选帧可为紧接视频序列中的每一参考关键帧的一定数目个帧、紧随视频序列中的每一参考关键帧的一定数目个帧、或紧接视频序列中的每一参考关键帧的一定数目个帧及紧随视频序列中的每一参考关键帧的一定数目个帧两者。

然后，执行清晰度搜索，其中如果非参考关键帧具有大于绝对阈值的清晰度，那么所述帧将取代参考关键帧。可参考主列表确定绝对阈值。绝对阈值还可为预置常数，或可基于帧集中的平均图像品质从全帧集计算。如果任何初始参考关键帧被取代，那么此步骤导致第二主列表，包含取代的参考关键帧。此步骤还导致第二最终列表。第二最终列表与初始最终列表相同，但还在第二最终列表中用相同取代帧取代第二主列表中取代的任何参考关键帧。

在清晰度搜索期间，存在即使正取代的帧不在最终列表中帧仍可被推广到第二最终列表的可能性。此推广可在帧的清晰度大于上文描述的绝对阈值且帧基本上清晰于初始参考关键帧时发生。可使用若干方法来确定帧何时基本上清晰于参考关键帧。举例来说，可预置绝对清晰度差，使得具有高于预置差的清晰度差的任何帧被视为基本上清晰于初始参考关键帧。替代地，可计算帧集或任何帧子集当中的标准清晰度偏差，且可使用所述标准偏差来确定帧何时基本上清晰于参考关键帧。举例来说，可将帧的清晰度与初始参考关键帧的清晰度之间的差除以上文描述的标准偏差以确定差是否大于阈值。如果差大于阈值，那么帧可被视为基本上清晰于初始参考关键帧。因为此类型的推广，第二最终列表可能含有多于初始最终列表的帧。

在完成清晰度搜索之后，使用第二主列表执行基于faceIVI的搜索，其中如果非参考关键帧具有大于绝对阈值的faceIVI得分，那么所述帧将取代参考关键帧。可以与上文关于清晰度搜索描述的方式相似的方式确定绝对阈值。如果来自第二主列表的任何参考关键帧被取代，那么此步骤导致第三主列表，包含取代的参考关键帧。此步骤还导致第三最终列表。第三最终列表与第二最终列表相同，但还在第三最终列表中用相同取代帧取代第三主列表中取代的任何参考关键帧。

正如清晰度搜索，存在即使正取代的帧不在第二最终列表中帧仍可被推广到第三最终列表的可能性。此推广可在帧的faceIVI得分大于上文描述的绝对阈值且帧的faceIVI得分基本上大于第二主列表中的参考关键帧时发生。可使用若干方法来确定帧的faceIVI得分何时基本上大于参考关键帧。举例来说，可预置绝对faceIVI得分差，使得具有高于预置差的faceIVI得分的任何帧被视为具有基本上大于初始参考关键帧的faceIVI得分。替代地，可计算帧集或任何帧子集当中的faceIVI得分的标准偏差，且可使用所述标准偏差来确定帧何时具有基本上大于参考关键帧的faceIVI得分。举例来说，可将帧的faceIVI得分与参考关键帧的faceIVI得分之间的差除以上文描述的标准偏差以确定差是否大于阈值。如果差大于阈值，那么帧可被视为具有基本上大于初始参考关键帧的faceIVI得分。因为此类型的推广，第三最终列表可能含有多于第二最终列表的帧。

在上文描述的实施例中，可颠倒清晰度搜索与faceIVI搜索的顺序，使得在清晰度搜索之前执行faceIVI搜索。另外，可计算图像品质量度(例如定界脸区域的清晰度)，而非计算视频帧中的所检测脸中的每一者的faceIVI得分。然后将使用此清晰度得分来选择待包含在最终列表中的具有脸的最佳帧。应注意，在评估中可将其它品质因子(例如对比度、噪声、脸部表情)用作量度或量度组合。

本发明已特别参考其某些优选实施例详细地作描述，但将理解，可在本发明的精神及范围内实现变动及修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：亚历山大·C·路易;戴维·K·罗达
技术所有人：柯达阿拉里斯股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。