用于确定视频的方位的方法及装置的制造方法

文档序号:10663679阅读:441来源:国知局
用于确定视频的方位的方法及装置的制造方法
【专利摘要】提出了一种用于确定视频的方位的方法及装置。所述方法包括以下步骤:估算视频的运动;从所估算出的视频的运动提取基于平移的参数;以及根据基于平移的参数计算给出水平平移随时间的演变相对竖直平移的演变的至少一个特征,所述特征用于确定视频的方位。
【专利说明】
用于确定视频的方位的方法及装置
技术领域
[0001] 本公开总地涉及图像处理。具体地,本公开涉及用于确定视频的方位 (orientation)的方法及装置。
【背景技术】
[0002] 在视频内容的计算机处理的一些应用中,存在估算给定视频的方位的需要。例如, 这样的应用的背景是当一个人想要浏览和观看视频时,必须具有该视频的正确的方位用于 该视频的正确的显示。另一个背景是在计算机视觉处理中,诸如面部检测、特定对象检测和 识别、天空区域检测以及更普遍的语义视频解析。作为这种情况下的初始要求,要处理的图 像和视频都应该以正确的方位提出。因此,对视频的方位的确定可以被应用作为用于这样 的计算机视觉处理的第一且必要的预处理。
[0003] 得到视频的正确方位的一个已知的解决办法需要使用在捕获视频期间与视频内 容一起存储的附加元数据。例如,这样的附加元数据能够来自在Exif (可交换图像文件格 式)标准中定义的元数据标签。对方位的了解依赖于陀螺仪信息。在这种情况下,这样的元 数据的出现将取决于所使用的捕获设备。然而,对于低成本设备,通常无法得到这样的信 息。某些移动电话(例如iPhone)不具有这样的信息,而低成本智能手机不会存储该信息。此 外,在视频的情况下,仅基于视频的第一图像来计算方位信息,并且方位信息在捕获期间旋 转的情况下也不会改变。因此,利用该已知的解决办法,方位信息可能仅对于视频的第一部 分是真实的。
[0004] 另一种已知的解决办法被称为自动系统。下面的文档涉及这样的自动系统,其能 够自动检测静态图像的方位:
[0005] [1]Cingovska,I.;Ivanovski,Z.;Martin,F.,Automatic image orientation detection with prior hierarchical content-based classification,图像处理 (ICIP),2011年第18次IEEE国际会议,2011年9月11-14日,第卷,第期,第2985、2988页。
[0006] [2]G.Sharma,A.Dhall,S.Chaudhury and R.Bhatt,Hierarchical System for Content Based Categorization and Orientation of Consumer Images,模式识别与机 器智能,2009年,第5909卷,第495-500页。
[0007] [3]Jiebo Luo;Boutell,Μ.,Automatic image orientation detection via confidence-based integration of low-level and semantic cues,模式分析与机器智 能,IEEE学报,2005年5月,第27卷,第5期,第715、726页。
[0008] 然而,如上所述,似乎上述三个文档的目标是针对静态图像检测方位,因为没有讨 论处理视频的系统的参考文献。针对静态图像所提出的系统通常基于从图像提取特征和使 用一些机器学习技术。这意味着在经注释的图像的数据库上需要模型训练的第一步,这可 能导致昂贵的离线处理。表现最好的系统还使用范围从颜色或纹理相关的低级特征(第一 色矩、边缘方向直方图等)到高级语义信息(面部检测、天空检测、线条检测等)的从视频内 容提取的不同特征,这花费系统的大部分时间并导致较重的计算负荷。对静态图像的这样 的处理能够在逐帧的基础上应用在视频的每个帧上,或者应用在这些帧的二次采样上。然 而,从计算的角度,其结果是该处理变得甚至更加昂贵。
[0009] 因此,存在以合理的计算负荷来检测给定视频的正确方位,并且同时保证检测到 的方位对于视频的每个帧都是正确的(假设用于捕获视频的设备在捕获阶段期间可以旋 转)的需要。

【发明内容】

[0010] 考虑到传统技术中的上述问题,本公开提出了用于针对视频的每个方位均一部分 以合理的计算负荷来确定视频的方位的方法及装置。
[0011] 根据本公开,一些特征基于视频场景的估算的运动(主要的或基于对象的)被提 取。根据这些基于运动的特征,与方位中潜在的改变一起计算一些基于帧的方位信息。与时 间方位信息一起,本公开还导致相关联的分段成视频的方位均一部分。
[0012] 根据本公开的第一实施例,提供了一种用于确定视频的方位的方法。所述方法包 括以下步骤:估算视频的运动;从所估算出的视频的运动提取基于平移的参数;以及根据基 于平移的参数计算给出水平平移随时间的演变相对竖直平移的演变的至少一个特征,所述 特征用于确定视频的方位。
[0013] 在第一实施例中,所述方法还包括:从估算出的视频的运动提取基于旋转的参数; 将视频分割成通过根据基于旋转的参数检测到的旋转而分离的至少一个片段;以及将视频 的方位确定为所述至少一个特征关于所述至少一个片段中的每一个的积分的函数。
[0014] 根据本公开的第二实施例,提供了一种用于确定视频的方位的装置。所述装置包 括处理器,被配置为:估算视频的运动;从所估算出的视频的运动提取基于平移的参数;以 及根据基于平移的参数计算给出水平平移随时间的演变相对竖直平移的演变的至少一个 特征,所述特征用于确定视频的方位。
[0015] 根据本公开的第三实施例,提供了一种从通信网络可下载和/或记录在计算机可 读取的介质上和/或由处理器可执行的计算机程序产品。所述计算机程序产品包括用于实 施根据本公开的一个方面的方法的步骤的程序代码指令。
[0016] 根据本公开的第四实施例,提供了一种包括记录在其上并能够由处理器运行的计 算机程序产品的非暂时性计算机可读介质。所述非暂时性计算机可读介质包括用于实施根 据本公开的一个方面的方法的步骤的程序代码指令。
[0017] 应当理解的是,本公开的更多方面和优点将在本公开的以下详细描述中找到。
【附图说明】
[0018] 包括附图以与用作解释实施例的原理的描述一起来提供对本公开的实施例的进 一步理解。本公开并不限于该实施例。
[0019] 在附图中:
[0020] 图1是示出根据本公开的实施例的用于确定视频的方位的方法的流程图;
[0021 ]图2是示出在积分时绝对水平和竖直平移的差随时间的演变的图;
[0022] 图3是示出在积分时旋转参数的演变的示例的图;
[0023] 图4是示出根据本公开的另一实施例的用于确定视频的方位的方法的流程图;
[0024] 图5是示出在摄像机顺时针旋转之前和之后的不同的可能方位的示范性的图(表1 中的情况2);
[0025] 图6是示出在摄像机逆时针旋转之前和之后的不同的可能方位的示范性的图(表1 中的情况3);以及
[0026] 图7是示出可以在其上实施根据本公开的实施例的用于确定视频的方位的方法的 计算机设备的框图。
【具体实施方式】
[0027] 现在将结合附图详细描述本公开的实施例。在以下描述中,为了简明,可能省略对 已知的功能和配置的一些详细描述。
[0028] 本公开的实施例提供一种用于确定视频的方位的方法。接下来,将详细描述本公 开的实施例的方法。
[0029] 图1是示出根据本公开的实施例的用于确定视频的方位的方法的流程图。
[0030] 为简单起见,对于视频的每个帧,将仅在4个方位(0°,90°,-90°和180°)之间进行 区分来讨论本公开的实施例,即两个横向(0°,180°)和纵向(90°,-90°)方位之间。因此,本 公开将仅对将帧分成这4个类的分类进行讨论,而不会提取进一步精确的方位角度。此外, 在本公开的一些实施例中,系统将提供分成纵向/横向的第一分类,而不在两个可能的纵向 方位(90°,-90° )之间和两个可能的横向方位(0°,180° )之间进行区分。然而,可以理解的 是,本公开也能够应用于具有更加复杂的方位分类的情况。
[0031 ] 如图1所示,在步骤S101,估算视频的运动。应当注意的是,对于步骤S101中的运动 估算,优选视频的主要运动。但是,当视频中没有主要运动要估算时,可以依赖一些基于对 象的运动估算。能够通过在每个瞬时计算视频的主要运动的参数近似来执行主要运动估 算。一些已知的解决办法可被用于主要运动的估算。例如,以下文档公开了用于该目的的最 新发展水平的技术:
[0032] [4]J.M.0dobez,P.Bouthemy, Robust multiresolution estimation of parametric motion models,视觉通信与图像显示期刊,1995年12月,第6卷第4期,第348-365 页。
[0033] 接下来,在步骤S102,从估算出的视频的主要运动提取基于平移的参数和基于旋 转的参数。
[0034] 运动估算器输出估算出的运动模型,从该运动模型中能够将在水平方向和竖直方 向二者中的平移的估算和旋转的估算一起提取。
[0035]能够理解的是,能够根据主要运动估算来获取运动模型,该主要运动估算可以包 含取决于要估算的运动的参数。在该实施例中,具有6个参数的仿射模型能够被认为是下面 的矩阵:
[0036] a0 al a2
[0037] b0 bl b2
[0038] 在上述模型中,例如,前两个参数aO和bO分别对应于在x轴和y轴中的平移值Tx和 Ty。其余四个参数提供关于旋转运动和缩放运动的信息。通过考虑a2-bl的值,能够获取与 所施加的旋转的正弦(s inus)成比例的量。
[0039] 在该步骤中,可选地,能够在某个时间段对基于平移的参数和基于旋转的参数进 行积分。对于该积分,能够在给定窗口上应用梯形法则,其为用于近似定积分的公知技术。 在该实施例中,给定窗口的大小能够凭经验固定到例如20帧。但是,该大小能够根据背景进 行适配。根据主要运动估算,从一帧到另一帧只能获取小的平移值和旋转值。根据这些值难 以精确检测旋转和平移。该积分的优点在于提供在更长的时间段上的运动的更大视图。
[0040] 接下来,在步骤S103,根据基于平移的参数来计算给出水平平移随时间的演变相 对竖直平移的演变的至少一个特征。这样的特征能够给出关于视频是在纵向模式还是横向 模式下被捕获的一些线索。在大多数情况下,当水平方向中的主要运动的平移分量的幅度 基本上大于竖直方向中的主要运动的平移分量的幅度时,很有可能该视频在横向模式下被 捕获,因为在捕获视频的场景期间倾向于使用比倾斜(tilting)更多的摇拍(panning)用 户。
[0041 ]下面对特征的分析例如将给出所请求的信息:
[0042] Featuretrans(帧)=abs(tx(帧))_abs(ty(帧))
[0043]图2示出了根据Tx和Ty的积分值的这样的特征随时间演变的示例。正值倾向于表 示视频的横向方位,而负值倾向于表示视频的纵向方位。在可选的步骤中,可以在给定的滑 动时间窗口对上述特征进行平滑化,以提高分析的精确度。
[0044] 在与步骤S103并行的步骤S104,无论是否积分,将视频分割为通过根据基于旋转 的参数所检测到的旋转而分离的片段。
[0045] 能够理解的是,基于旋转的参数继而会给出关于摄像机在捕获期间是否旋转的一 些信息。能够通过对所提取的基于旋转的参数进行阈值处理来执行分段。
[0046] 图3是示出基于旋转的参数在积分后的演变的示例的图。在这种情况下,阈值处理 将给出三个片段:旋转前的片段1、旋转后的片段3、以及与旋转相对应并且在实施例中系统 不会给出任何方位信息的片段2。图3图示了对在其中应用了简单阈值的视频进行分割的示 例。阈值上面的区域对应于顺时针旋转,在阈值的相对的下面的区域对应于逆时针旋转,而 在其间的区域对应于无旋转的区域。在该示例中,阈值被固定为0.2的经验值。但是,能够根 据视频内容(例如,将仅使值保持在平均-2西格玛之下的内容)作出更多适应。可选地,可以 在对旋转边界的检测中增加细化。该细化将以给出潜在旋转的标记的更高阈值来开始。然 后,在时间上后退,以找到与旋转参数的绝对值非常低(即,低于ε值)的帧相对应的旋转开 始。接下来,向前搜索旋转的结束,其与旋转参数的绝对值低于ε的第一帧相对应。
[0047]在步骤S105,根据步骤S103中获得的至少一个特征对由步骤S104获得的每个片段 的积分来确定视频的方位。
[0048] 通过对片段的所有帧进行Featuretrans积分以得到每片段的Featuretrans的一 个代表性单值而计算旋转之前和之后的每个片段的方位,来确定视频的方位。在该实施例 中,能够仅为对关于片段的图2中的曲线之下的面积(参见阴影区域)进行的计算。在另一实 施例中,对基于平移的参数使用附加阈值T。对Featuretrans>T和Featuretrans〈_T的连续 部分的数量进行计数,加上这些部分的持续时间。对这两个计数器的简单归一化求和将提 供新的Featuretrans的"积分"值。
[0049] 如果没有检测到旋转,则计算关于整个视频或关于预定义大小的窗口的 Featuretrans的积分值。具体而言,如果没有检测到旋转,则在整个视频中只有一个大片 段。在这种情况下,相同的Featuretrans积分处理能够仅被应用为对片段所进行的,然而其 是对整个视频所进行的。作为变型,如果视频非常长,则能够逐窗口对其进行处理。在这种 情况下,将关于预定义窗口大小再次进行积分。
[0050]然后,在该实施例中,每个片段的方位将通过以下给出:
[0051 ]如果 Feature trans_integrated_over_segment>0,则方位是横向的。
[0052]如果 Feature trans_integrated_over_segment<0,则方位是纵向的。
[0053]如上所述,为了简单起见,仅对有限数量的方位之间进行区分来讨论本公开的实 施例。在本公开的附加细化中,能够应用诸如例如面部检测的一些附加处理,以在两个纵向 方位或两个横向方位之间进行进一步区分。本领域技术人员能够理解的是,通过检测图片 中的面部,能够获得图片的最可能的方位的一些信息,因为人及其面部会上下颠倒的可能 性非常小。使人及其面部在图像中平躺而不是人站立的可能性也非常小。能够使用这样的 信息来进一步区分视频的方位。在这方面将不会给出进一步的详情。
[0054]图4是示出根据本公开的另一实施例的用于确定视频的方位的方法的流程图。 [0055] 在图4所示的实施例中,步骤S401至S405分别与图1中的步骤S101至S105相同。添 加了进一步的步骤S406,其根据旋转的角度(例如,该角度能够从步骤S402中提取的基于旋 转的参数而提取)进一步区分步骤S405中获得的视频的方位。在参照图1描述的实施例的背 景下,所添加的步骤S406能够帮助在步骤S405中所确定的两个纵向方位和两个横向方位之 间进行区分。
[0056]根据步骤S404,能够获得关于视频中是否发生旋转的信息(旋转参数的绝对值在 给定阈值之上)。依据步骤S402中获得的旋转参数的符号,能够获取关于旋转的方向的信息 (如果rotat ion_parameter>0,则场景顺时针旋转,即摄像机相对于帧的中心逆时针旋转, 如果rotation_parameter〈0,则场景逆时针旋转,即摄像机相对于帧的中心顺时针旋转)。 与旋转相对应的用于视频的最终旋转值可以是旋转参数关于片段的积分值,或者简单地 是广/+111&叉_0¥61'_86区1116111:(&匕8(1'0七&1:;[011_卩&犷&1116七61') 0该量的符号将取决于1'0七&1:;[011_ parameter关于当前片段的符号。
[0057]在以下描述中,仅考虑帧可能只属于三个类0°、90°、_90°的更简单的情况。能够理 解的是,具有上下颠倒的方位的视频是很罕见的,因而其在以下描述中不会考虑。在本公开 的细化中,可以通过遵循相似的推理来添加180°方位类。
[0058] 下面的表1示出了根据估算出的旋转参数(ε1>〇)在旋转之前和之后的关于片段的 方位的信息。
[0059] 表 1
[0060]
[0061]
[0062] 在表1中,orient_before和orient_after分别指旋转之前所有帧的方位和旋转之 后所有帧的方位。在每个列中研究旋转参数。依据参数的符号和值,能够获悉关于发生了旋 转的事实、以及在这种情况下以什么方向旋转(顺时针、逆时针)两者。
[0063] 图5和图6图示了表1中讨论的不同情况。根据图5和图6并根据旋转方向,对于旋转 之前和之后的平移值仅存在很少的可能性。
[0064] 图5是示出在摄像机顺时针旋转之前和之后(表1中的情况2)的不同的可能的方位 的示范性的图。在以下描述中仅考虑前两种情况。图6是示出在摄像机逆时针旋转之前和之 后(表1中的情况3)的不同的可能的方位的示范性的图。同样地,在以下描述中仅考虑前两 种情况。
[0065] 为了进一步解决表1中的情况A和B、或者C和D之间的模糊性,如果存在任何如步骤 S405描述那样计算出的旋转之前和之后的平移特征的积分值,则根据以下表2将积分值进 行比较和混合,以依据情况获得旋转之前和之后的帧的零个、一个或两个可能的方位。
[0066] 表2示出了根据平移和旋转参数/特征的方位决定。情况1、2和3在表1中描述(ε2是 正的)。
[0067] 表 2
[0068]
[0070] 对于Featuretranslntegrated或旋转值非常小的一些情况,应用一些拒绝策略: 不输出方位信息。在本公开的变型中,未定义的情况(若干可能的方位)可以被转换成被拒 绝的情况。
[0071] 此外,如果旋转之前和之后的平移参数都同意将旋转之前和之后的片段分类为例 如纵向片段,则可能错误地检测到旋转。在这种情况下,添加步骤S406能够帮助消除这种误 报。在这两个进行中的过程之间对一个或另一个的选择可以取决于对旋转参数和平移参数 二者可以具有的置信度值。
[0072] 如果在视频中检测到若干旋转,则能够获得与诸如表2中描述的规则相似的规则 并且该相似的规则沿着视频传播,以解决未定义的情况。
[0073] 有利的是,当未从主要运动估算中检测到平移时,能够估算场景中一些对象的运 动,并且如果存在任何这些对象的一些平移信息,则其能够被用来取代主要运动的平移信 息。
[0074] 在摄像机和对象都移动的情况下,能够使用结合两个区域的平移信息的图式。不 过,对于分割为均一方位视频片段,主要旋转依然是唯一可靠的标准。
[0075] 为了扩大该方法的鲁棒性,如果计算负荷允许,则也能够使用在静态图片中所使 用的一些附加特征。例如,面部方位依然是要与本公开中提出的基于运动的特征合并的感 兴趣的线索。
[0076] 即使在捕获期间发生了旋转,本公开也有利地针对给定视频的所有帧提供方位信 息。其基于应用到视频上的一些少量的基于运动的处理,并且因而无需离线学习处理。能够 实时地实现运动估算的步骤,并且在运动估算之后能够立即关于整个视频或者关于一些预 定义的时间窗口应用在线方位检测处理。
[0077] 本公开能够在例如提供先前捕获的视频的回放的视频播放器上实施。该视频播放 器包括但不限于PC上VideoLAN、在线视频网站以及智能手机。
[0078] 本公开的实施例提供了用于确定视频的方位的相应装置。
[0079] 图7是示出在其上可以实施根据本公开的实施例的用于确定视频的方位的方法的 计算机设备700的框图。计算机设备700能够是能够进行计算的任意种类的合适的计算机或 设备,诸如标准个人计算机(PC)。设备700包括至少一个处理器710、RAM存储器720以及用于 与用户进行交互的用户界面730。本领域技术人员将会理解的是,为了清楚起见,图示的计 算机被大大简化,而实际的计算机会另外包括诸如网络连接和永久存储设备的特征。
[0080] 利用用户界面730,用户能够输入/选择视频用于回放。如果需要的话,也能够通过 用户界面730向用户输出视频的所确定的方位的结果。
[0081]处理器710包括用于估算视频的运动的第一单元。
[0082]处理器710还包括用于从估算出的视频的运动中提取基于平移的参数和基于旋转 的参数的第二单元。
[0083]处理器710还包括用于根据基于平移的参数来计算给出水平平移随时间的演变相 对竖直平移的演变的至少一个特征的第三单元。
[0084]处理器710还包括用于将视频分割成通过根据基于旋转的参数检测到的旋转而分 离的片段的第四单元。
[0085]处理器710还包括用于将视频的方位确定为该至少一个特征关于每个该片段的积 分的函数的第五单元。
[0086] 本公开的实施例提供了从通信网络可下载的和/或记录在计算机可读取的介质上 的和/或由处理器可执行的计算机程序产品,包括用于实施上述方法的步骤的程序代码指 令。
[0087] 本公开的实施例提供了包括记录在其上并能够由处理器运行的计算机程序产品 的非暂时性计算机可读介质,该非暂时性计算机可读介质包括用于实施上述方法的步骤的 程序代码指令。
[0088]应当理解的是,本公开可以以各种形式的硬件、软件、固件、专用处理器、或其组合 来实现。此外,该软件优选地作为在程序存储设备上有型地体现的应用程序来实现。该应用 程序可以被上载到包括任何适当架构的机器,并由该机器执行。优选地,该机器在具有诸如 一个或多个中央处理单元(CPU)、随机存取存储器(RAM)、和(多个)输入/输出(I/O)接口的 硬件的计算机平台上实现。该计算机平台还包括操作系统和微指令代码。在此描述的各种 处理和功能可以是部分微指令代码或部分应用程序(或其组合),其经由操作系统执行。此 外,各种其它外围设备可以连接到该计算机平台,诸如附加的数据存储设备和打印设备。 [0089]还要理解的是,由于在附图中描绘的一些构成系统组件和方法步骤优选地以软件 来实现,因而系统组件(或处理步骤)之间的实际连接可能取决于本公开被编程的方式而不 同。鉴于在此的教导,相关领域的普通技术人员将能够预期本公开的这些和类似的实现方 式或配置。
【主权项】
1. 一种用于确定视频的方位的方法,所述方法包括: 估算(S101,S401)视频的运动; 从所估算出的视频的运动中提取(S102,S402)基于平移的参数;以及根据基于平移的 参数,计算(S103,S403)给出水平平移随时间的演变相对竖直平移的演变的至少一个特征, 所述特征用于确定视频的方位。2. 根据权利要求1所述的方法,还包括: 从估算出的视频的运动提取(S102,S402)基于旋转的参数; 将视频分割(S104,S404)成通过根据基于旋转的参数检测到的旋转而分离的至少一个 片段;以及 将视频的方位确定(S105,S405)为所述至少一个特征关于所述至少一个片段的每个的 积分的函数。3. 根据权利要求1所述的方法,其中,估算包括估算(S101,S401)视频的主要运动。4. 根据权利要求2所述的方法,其中,所确定的方位包括针对视频的每个帧的横向方位 (0°,180°)和纵向方位(90°,-90°) 〇5. 根据权利要求1所述的方法,其中,估算包括在每个瞬时计算视频的运动的参数近 似。6. 根据权利要求2所述的方法,其中,所述分割包括对所提取的基于旋转的参数进行阈 值处理。7. 根据权利要求2所述的方法,其中,所述确定包括通过对每个片段的所有帧的至少一 个特征进行积分以得到每片段的所述至少一个特征的一个代表性单值,来计算旋转之前和 之后的该片段的方位。8. 根据权利要求1所述的方法,还包括在滑动时间窗口上对所述至少一个特征进行平 滑化。9. 根据权利要求2所述的方法,还包括: 从根据基于旋转的参数的旋转角度的所确定的结果来确定(S405)视频的方位。10. 根据权利要求9所述的方法,其中,根据基于旋转的参数的正弦来确定旋转角度。11. 根据权利要求9所述的方法,其中,所确定的方位包括针对视频的每个帧的0°方位、 90°方位、-90°方位和180°方位。12. -种用于确定视频的方位的装置(700),包括处理器(710),被配置为: 估算视频的运动; 从所估算出的视频的运动提取基于平移的参数;以及 根据基于平移的参数计算给出水平平移随时间的演变相对竖直平移的演变的至少一 个特征,所述特征用于确定视频的方位。13. -种从通信网络可下载和/或记录在计算机可读取的介质上和/或由处理器可执行 的计算机程序产品,包括用于实施根据权利要求1至11中的至少一个的方法的步骤的程序 代码指令。14. 一种包括记录在其上并能够由处理器运行的计算机程序产品的非暂时性计算机可 读介质,所述非暂时性计算机可读介质包括用于实施根据权利要求1至11中的至少一个的 方法的步骤的程序代码指令。
【文档编号】G06T7/00GK106030658SQ201580009769
【公开日】2016年10月12日
【申请日】2015年2月23日
【发明人】C-H.德马尔蒂, L.奥伊塞尔, P.佩雷斯
【申请人】汤姆逊许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1