实现分辨率权衡和优化的视频压缩的制作方法

文档序号:7990331阅读:321来源:国知局
实现分辨率权衡和优化的视频压缩的制作方法
【专利摘要】将视频变换为(典型地,可被以与常规视频系统兼容的被设定上限的像素率传递的)压缩表示的压缩,包括:产生视频的空间混合像素和时间混合像素(例如,时间和空间混合像素),并确定用于包括在压缩表示中的混合像素的子集(包括对从候选混合像素集合确定的重构视频的质量进行评估)。可以在通过压缩表示确定的重构视频的区域的时间分辨率与空间分辨率之间进行权衡,以在降低数据速率的同时优化感知视频质量。压缩数据可以被打包为帧。重构方法使用指示用于重构视频的空间区域的至少一个重构参数的元数据来从压缩表示产生视频。
【专利说明】实现分辨率权衡和优化的视频压缩
[0001]相关申请的交叉引用
[0002]本申请要求于2011年5月31日提交的美国临时申请N0.61/491,590的优先权, 该申请的全部内容通过引用并入此。
【技术领域】
[0003]本发明的实施例是用于压缩输入视频(例如,具有高帧率的视频数据)的系统和方 法,包括在时间上将输入视频划分为脉冲,并通过对于脉冲的帧的空间划分的每个区域确 定针对压缩表示的时间对空间分辨率的最佳权衡来确定每个脉冲的压缩表示、以及用于从 输入视频的压缩表示重构用于(例如,以高的输入视频帧率)显示的视频的系统和方法。
【背景技术】
[0004]人类视觉系统可以感知的远多于当前影片和视频可以呈现的。影片帧率在几十年 前被设置为仅足以产生运动错觉的水平。使这样的速率成为必需的大多数约束不再存在。 由于帧率有限,当前视频系统没有忠实地呈现视频数据的包含高运动的部分。高运动区域 的感知受损于以下描述的诸如运动模糊、颤动和频闪的伪像。
[0005]感知到的运动模糊可能由各种源引起。在捕捉端,相对于照相机的快门持续时间 足够快地移动的对象在所捕捉的视频数据本身中造成模糊。在显示端,当观察者使用平稳 追踪眼睛移动(“SPEM”)来跟踪移动对象并且该对象相对于显示器的像素保持时间足够快 地移动时,该对象的模糊图像将形成在观察者的视网膜上。更大型显示器占据更大视场的 趋势允许高速SPEM,这继而使得运动模糊和其他伪像的可见性可以更大。
[0006]在包含大量运动的视频中,如果帧率太低而快门角度不够大,以至使高运动对象 十分模糊,则输出视频将包含在视觉上令人反感的运动伪像。“颤动”描述当帧率太低以至 于不能足够地传递对象运动时所发生的伪像,在这些伪像中,运动被感知为“不平稳的”或 “不连续的”,其平稳性或保真度低于理想上它可以被感知的平稳性或保真度。在运动相对 于帧率非常高的极端情况下,运动对于视频观察者根本没有意义。
[0007]另一方面,如果帧率高得足以避免这样的伪像,但是快门角度(也被称为曝光占空 t匕)小,则观众可能同时感知到对象或对象边缘的多个假副本。“频闪”描述了这种感知,该 感知是通过在闪光灯照射下移动对象而引起的普遍的感知观察。频闪由小的快门角度引 起,并且不管帧率是低、是适中,还是高,都可能发生。
[0008]平稳运动感知所需的帧率取决于移动区域的大小、速度、对比度、纹理内容、周围/ 背景内容以及捕捉和显示装置的特性。
[0009]图1是常规视频系统的简化框图,常规视频系统包括高帧率照相机和高帧率电视 机。照相机的输出通过电缆I发送到编解码器2,在编解码器2中,根据标准H.264压缩(也 被称为“高级视频编译码”或“AVC”视频压缩)方法对它进行压缩。从编解码器2输出的压 缩视频通过网络3发送到机顶盒(“STB”)4,在STB4中,对它进行解码。解码的视频通过电 缆5发送到高帧率电视机以进行显示。图1系统的电缆I和2必须发送大量未压缩像素信息,网络3通常发送较少量的压缩视频信息。
[0010]当前视频系统(例如,图1的系统)在它们忠实地表现场景的能力上受到限制,尤其 受到有限的帧率和有限的总体数据速率限制。根据本发明,可以进行如下这样的决策,该决 策权衡各种类型的视频数据分辨率(时间分辨率和空间分辨率)以在遵守现代视频系统的 数据速率约束的同时优化感知视频质量。
[0011]当前标准视频帧率将可以被传递并且被传递的场景运动量设定上限为(cap)人类 视觉系统可以感知的水平以下的水平,特别是对于大型显示器。仅仅提高帧率通常是负担 不起的,因为它将需要通过现有接口(例如,HDMI, VGA、DVI等)发送太多像素,并且升级成 本过高。
[0012]常规的视频系统包含有如下瓶颈,该瓶颈阻止用户观看帧率足够高并且空间分辨 率足以保留原始场景的所有感知相关方面的图像序列。这些瓶颈包括:
[0013]-视频捕捉源附近的编码块中的有限处理能力。针对每秒60帧(“fps”)的输入视 频设计的编码器通常不能被配置为应对240fps或480fps的输入视频。
[0014]-解码块(例如,机顶盒中的H.264解码器)中的有限处理能力。类似于编码瓶颈 的限制,当前的解码解决方案没有缩放到对诸如240fps以及更高帧率的视频进行解码。
[0015]-照相机与编码块之间的数据路径以及机顶盒(STB)与显示器之间的数据路径中 的有限数据速率。
[0016]为了端到端地升级这样的常规系统以应对高帧率,假设必要的升级存在,可以通 过升级造成这些瓶颈的原由的块来以高的代价去除这些瓶颈。
[0017]更灵活的、成本更低的解决方案(由本发明的典型实施例提供)是尽可能多地保留 现有视频系统的组件,同时仍允许来自视频源的高帧率视频以该高帧率显示。这样的解决 方案需要降低视频源的数据速率的方法、以及提高在视频显示器上呈现的重构输出视频的 帧率的方法。为了尽可能多地保留现有流水线,从而避免尽可能多的瓶颈,将数据减少方法 和高帧率重构方法(在本发明的一些优选实施例中)在流水线中放置为尽可能地远离(即, 被实现为尽可能地接近流水线的各端点)。这可以使在带宽、处理能力和设备升级成本方面 的改进视频观看体验的成本最小化。
[0018]在内容创建侧(例如,在电影后期制作工作室或流传输视频服务器中),本发明的 典型实施例在数据被压缩或者通过网络被发送之前降低数据速率。根据应用,使用本发明 的典型实施例的数据速率降低可以早在从照相机取出数据之前在照相机内部发生,或者迟 至正好在压缩发生前的时刻发生。例如,在视频后期制作过程需要始终保持超高视频质量 的电影应用中,采样减少将不被应用于照相机输出,而是被应用于后期制作过程的输出。
[0019]在客户端侧(例如,在电影院、家庭影院或移动装置中),本发明的典型实施例在靠 近显示装置处对数据速率进行上采样,诸如在STB内部正好在H.264解码之后,或者迟至在 显示装置内部。
[0020]在Trumbull 等人的美国专利申请公开 N0.US2010/0259627A1 (“Trumbull”)中描 述了一种用于对视频数据进行编码以产生可被以降低的数据速率发送的编码视频的方法。 Trumbull提出了单个视频巾贞序列所指示的不同视频对象的更新速率的混合。Trumbull教 导数字地组合输入视频的连续帧(例如,通过叠加或者以修改当组合帧、而不是原始帧被显 示时感知到的模糊的另一种方式)以产生包括组合帧、而不是原始帧的编码输出视频,以便当从输入数据的帧到帧仅检测到缓慢运动时降低帧率(例如,降至每秒24帧)。当从输入视 频的帧到帧检测到更快的运动时,编码的输出视频包括(以高帧率(例如,每秒120帧)发生 的)原始输入视频帧。例如,Trumbull建议,组合输入视频的每个五帧序列中的头三个帧(具 有每秒120帧的帧率并且指示缓慢移动的或静止的视觉对象),并删除每个这样的序列中的 最后两个帧,以产生包括组合帧的(可被以每秒24帧的帧率发送的)编码视频。Trumbull 指出,可以对每个输入视频帧的各个区域进行运动检测(例如,识别一个区域中的快速运动 以及另一个区域中的缓慢运动或没有运动),并且连续输入视频帧的相应区域可被组合或 丢弃(并且用连续帧的相应区域的组合取代,或者从在这些帧中的第一帧的断言之后区域 没有被更新的意义上来讲,用该区域的多个“副本”取代),而不是以原始输入帧率对这些区 域进行更新(每个输入帧一次),以当在这些区域中从帧到帧仅检测到缓慢运动时降低这些 区域的发送数据速率。当在输入视频帧的其他区域中从帧到帧检测到更快的运动时,以原 始的(更高的)帧率对这些区域进行更新。
[0021]Trumbull的方法涉及两种选择:保持全输入帧率并对于较缓慢移动的视觉对象 减少更新,或者将输入数据编码为具有较慢更新速率并对于较快速移动的视觉对象提高更 新速率。Trumbull建议,还可以以空间分辨率换取运动清晰度,例如以仅降低编码视频帧的 指示快速移动对象的区域中的编码视频数据的空间分辨率。然而,Trumbull没有描述用于 实现这样的以空间分辨率换取运动清晰度的任何方法。
[0022]本发明的典型实施例以实现时间分辨率与空间分辨率之间的权衡以优化感知视 频质量(并且降低数据速率)的计算高效的方式对视频数据进行压缩。压缩数据典型地被打 包为与端到端视频链的其他部分兼容的格式(例如,打包帧),该端到端视频链包括将显示 从该压缩数据产生的重构帧的显示装置。
[0023]根据本发明的视频数据重构的典型实施例以计算高效的方式响应于这样的打包 帧产生重构视频帧(典型地,重构帧具有比压缩数据更高的数据速率)。压缩和重构的典型 实施例被以避免引入伪像(例如,运动模糊和颤动)的方式执行,使得当输入数据根据实施 例被进行压缩并然后重构并且重构帧被显示时,用户将不会感知到令人反感的伪像(除了 当显示原始输入数据本身时可能明显的那些伪像之外)。

【发明内容】

[0024]在一类实施例中,本发明是一种压缩(编码)方法,其将输入视频变换为该输入视 频的像素率压缩表示(典型地可被以与常规视频系统兼容的受限像素率传递),包括在时间 上将输入视频划分为脉冲,每个脉冲包括输入视频的至少两个帧,并且对于每个脉冲的帧 的空间划分的每个区域,产生至少两个不同的候选混合像素集合(blended pixel set),所 述候选混合像素集合中的至少一个包括从输入视频的至少两个帧确定的时间混合像素和 从输入视频的至少两个帧确定的空间混合像素中的至少一个。对于每个脉冲的空间划分的 每个区域,通过以下步骤选择候选混合像素集合中的被包括在压缩表示中的一个候选混合 像素集合,该步骤包括对从候选混合像素集合确定的重构视频的质量进行评估。典型地,该 方法产生压缩表示以便优化从该压缩表示确定的重构视频的感知视频质量,并且为了优化 感知视频质量(以及降低数据速率),实现这样的重构视频的区域的时间分辨率与空间分辨 率之间的权衡。本发明的另一方面是与该压缩方法匹配的并且从压缩表示产生输出视频的重构方法。从重构方法需要了解压缩表示是如何通过压缩方法产生的、并且使用被提供给 压缩表示的(例如,包括在压缩表示中的)元数据以及压缩表示中所包括的像素数据来产生 输出视频的意义上来讲,压缩方法和重构方法是匹配的。该元数据指示用于从压缩表示确 定的重构视频的每个空间区域的至少一个重构参数(例如,更新速率)。
[0025]在这类中的典型实施例中,本发明的压缩方法响应于输入视频产生压缩数据,并 且还包括将压缩数据打包为打包帧的步骤。优选地,打包帧具有与端到端视频链的其他部 分兼容的格式,该端到端视频链包括将显示从压缩数据产生的重构帧的显示装置。本发明 的重构方法的典型实施例响应于这样的打包帧产生重构视频帧。典型地,重构帧具有比压 缩数据(或打包帧)所具有的数据速率高的数据速率。
[0026]不是将具有mXn分辨率的、每秒k个帧(fps)的输入视频的每个像素(其中,m、n 和k是整数(S卩,每秒mXnXk个像素的像素率))包括在压缩数据中,本发明的编码方法的 典型实施例将用于压缩数据的总像素率设定上限为小于每秒mXnXk个像素的值,确定输 入视频的脉冲(每个“脉冲”包括输入视频的S个连续帧,其中,S是在本文中被称为“脉冲大 小”的整数),并确定每个脉冲的压缩表示。每个脉冲的压缩表示的确定包括以下步骤:对于 (脉冲的)帧的空间划分的每个区域以及对于脉冲的持续时间,T=S/k (其中,k是输入视频 帧率,S是脉冲大小)或脉冲的N个帧的持续时间(其中,N是小于S的整数(脉冲的这样的N 个中贞的持续时间有时在本文中被称为“部分脉冲(fractional pulse)”的持续时间,即,一 半脉冲的持续时间,其中,N=S/2),确定用于压缩表示的时间像素率对空间像素率的最佳权 衡。典型地,每个脉冲的压缩表示被组织(“打包”)为打包帧,并且打包帧被以“基本速率” 从本发明的编码器输出,其中,这里“基本速率”既表示由本发明的编码器从输入视频帧确 定的每秒脉冲数,又表示由本发明的编码器产生的每秒打包帧数。
[0027]例如,如果输入视频的场景中的对象是静止的,则压缩表示优选地指示该对象的 尽可能多的细节(空间分辨率被最大化),但是没有尽可能频繁地更新该细节(时间分辨率 可以低)。另一方面,对于输入视频的场景中的在整个画面中快速移动的对象(例如,汽车), 确定该对象的压缩表示的数据典型地是空间分辨率高,但是时间分辨率低,这是因为由低 时间分辨率引起的运动伪像在视觉上令人反感的程度将远大于通过对空间分辨率低、时间 分辨率高的(确定该对象的)像素进行编码而被引入的空间模糊。
[0028]应理解,可以对视频进行上采样(在空间上和/或在时间上)以产生根据本发明压 缩的输入视频。在这种情况下,通过本发明的压缩方法产生的压缩表示可以具有比原始(上 采样之前的)视频所具有的数据速率大的数据速率。根据本发明压缩的输入视频的帧率在 本文中被描述为高于压缩期间所用的基本速率(由本发明的编码器从输入视频帧确定的每 秒脉冲数)。应理解,从以下意义上来讲,并不需要如此。空间和/或时间上采样(例如,插 值)可以被应用于输入视频以产生上采样的视频(具有比输入视频所具有的数据速率和帧 率高的数据速率和帧率),并且然后可以对上采样的视频执行根据本发明的压缩。在这种情 况下,(用于执行压缩的)基本速率可以大于原始帧率(原始输入视频的在上采样之前的帧 率)。
[0029]使本发明的典型实施例区别于常规压缩方法的关键点是对运动模糊的关注。例 如,假设,将根据本发明的实施例被编码的输入视频具有全(full) mXnXk像素率(其中, 整数k是大于以下常规帧率:24、48、50和60fps中的任何一个的高帧率(例如,一些常规照相机和显示器能够以其进行操作的帧率)),并且输出像素率被设定上限为预定值。对 于对视频进行编码以用于通过如今的视频系统发送的实施例,输出像素率的典型上限是 1920X1080X60fps。本发明的压缩方法的一个实施例将输出像素率设置为k/4,并且包括 以下步骤:对于(输入视频的每个脉冲的帧的分区的)每个区域,确定该区域是在1/4空间 分辨率下为全帧率(全时间更新速率,k)时看起来更好一些,还是在1/2空间分辨率下为 1/2全帧率时看起来更好一些,还是在全空间分辨率下为1/4全帧率时看起来更好一些。当 决定区域在时间更新速率低于k时看起来更好一些时,该区域的编码版本包括考虑以较低 更新速率表现的合成运动模糊。
[0030]本发明的编码方法的典型实施例提供两个重要益处。第一,对于原本像素率高于 将发送或存储编码视频的视频系统的(未压缩)像素率预算的输入视频,本发明的方法可以 保持好于现有方法的(空间分辨率与时间分辨率之间的)视觉权衡。第二,通过考虑运动模 糊,视觉结果可以好于通过仅通过消除冗余而工作的方法可以实现的视觉结果。作为额外 的好处,本发明的编码方法和重构方法的典型实施例在计算上是轻量的,因此,可实现于被 包括在任何视频收发器芯片或软件中。
[0031]本发明的其他方面是一种被配置为执行本发明的压缩和/或重构方法的任何实 施例的处理器、被配置为执行本发明的压缩方法的任何实施例的编码器、被配置为执行本 发明的重构方法的任何实施例的视频重构系统、包括这样的处理器和以下子系统中的一个 或多个的系统:用于产生输入视频(将根据本发明进行压缩)的捕捉子系统、被配置为存储 和/或发送根据本发明产生的输入视频的压缩表示(例如,打包帧)的传递子系统、以及用于 显示通过根据本发明对压缩视频进行重构而产生的输出视频的显示子系统。可选地,传递 子系统包括编码器和解码器,该编码器被耦合并且被配置为进一步对(已经根据本发明产 生)输入视频的压缩表示进行编码(例如,压缩)以用于存储和/或发送,该解码器被耦合并 且被配置为对编码器的编码输出进行解码(例如,解压缩)以恢复输入视频的压缩表示。本 发明的处理器、编码器和视频重构系统的实施例是(或包括)用软件(或固件)编程为或者以 其它方式被配置为执行本发明的方法的实施例的通用或专用处理器(例如,被实现为集成 电路(芯片)或芯片组的数字信号处理器或微处理器)。本发明的另一方面是存储用于将处 理器编程为实现本发明的方法的任何实施例的代码的计算机可读介质(例如,盘)。
【专利附图】

【附图说明】
[0032]图1是常规的端到端高帧率视频系统的简化框图。
[0033]图2是高帧率视频的四个连续帧的区域的示图。
[0034]图3是视频帧的时间模糊区域,该时间模糊区域的外观是图2的四个区域彼此叠 加的外观。
[0035]图4是高帧率视频的四个连续帧的区域的示图,其中每个帧是图2的区域之一的 空间模糊版本。
[0036]图5是从480fps视频片段产生的三个视频帧的集合。图5的最左图像是该片段 的全帧。图5的中间图像是通过用最左图像的两个像素块以该块的四个像素的平均值取代 每两个像素而产生的四分之一大小帧。图5的最右图像是通过用最左图像的四个像素块以 该块的十六个像素的平均值取代每四个像素而产生的“ 1/16大小”帧。[0037]图6是三个视频帧的集合,其中每个视频帧具有相同数量的像素。图6的最左图 像(巾贞)是图5的最左图像的(裁剪版本的)区域。图6的中间图像是图5的中间图像的上 采样版本的相应区域。图6的最右图像是图5的最右图像的上采样版本的相应区域。
[0038]图7是视频帧的重构版本,该重构版本是通过根据本发明的压缩方法的实施例对 图5的帧的组合进行编码、然后根据本发明的重构方法的实施例从压缩表示重构该帧而产 生的。
[0039]图8是实现根据本发明的一类实施例的编码和重构的端到端视频系统的框图。
[0040]图9是本发明的编码方法(转换算法)的实施例和本发明的重构方法(算法)的实 施例的高级伪码。
[0041]图10是实现根据本发明的一类实施例的编码和重构的端到端视频系统的框图。
[0042]图11是在图10的采样减少级32的实施例中实现的处理步骤和数据流的示图。
[0043]图12是通过图10的采样减少级32的实施例响应于输入视频数据的脉冲而产生 的第一中间帧(B1)集合的示图。
[0044]图13是通过图10的采样减少级32的实施例响应于输入视频数据的用于产生图 12的中间帧的同一脉冲而产生的第二中间(混合)帧(B2)集合的示图。
[0045]图14是通过图10的采样减少级32的实施例响应于输入视频数据的用于产生图 12的中间帧的同一脉冲而产生的包括单个中间(混合)帧(B3)的第三中间帧集合的示图。
[0046]图15是图10的打包级34的实施例的示图,打包级34响应于图10的采样减少级 32的图11的实施例的输出进行操作。
[0047]图16是根据本发明的实施例响应于脉冲(脉冲长度为四)而产生的打包帧的一部 分的示图。
[0048]图17示出应用图15中所描述的帧打包过程从包括中间帧(Bi)和半脉冲分辨率索 引图的压缩表示确定打包帧的结果。压缩表示可以被认为是合成的(抽取的)脉冲,并且打 包过程通过拷贝来自分辨率索引图对于每个半脉冲所指示的合成脉冲的采样来产生打包 帧。
[0049]图18是在图10的重构级37的实施例中实现的处理步骤和数据流的示图。
[0050]图19示出应用图18的重构过程的级51来确定稀疏脉冲数据块的结果,该稀疏脉 冲数据块由在空间和时间分辨率上不等同的中间帧Bi的采样的“斑块”组成。
【具体实施方式】
[0051]为了理解本发明的优选实施例的特征和益处,考虑被照相机以每秒240帧的高帧 率捕捉的视频序列。假设,它示出了照相机在整个城市景观上横摇。看着一个局部区域,我 们可以看见建筑物的结构在几个帧上通过该区域,在这几个帧中,该结构被显示为几个像 素厚的线。现在忽略颜色,在图2中示出了这种情况,图2显示在城市景观上方的横摇的四 个连续帧中移动通过局部8X8像素区域的线。
[0052]假设我们想在电视上显示这个240fps视频。将每秒240个帧发送到现有电视是不 可能的,因为这些标准全都被设计为至多每秒发送60个帧。典型地,常规的端到端系统是 围绕这个限制设计的,所以不是图2中清晰地显示的边缘,实际通过该系统发送的图片是 图2的四个图像在它们所跨越的时间(1/60秒)期间的平均值。如果照相机的快门在1/60秒的全帧周期(例如,360度)内保持打开,则我们得到图3中所示的结果,该结果是图2中 所示的移动边缘的模糊版本。快门可以保持打开较短的持续时间,但是然后在下一帧之前 在运动中将存在间隙。如果所得的图像被以每秒60帧发送,则图2中明显可见的线具有模 糊外观(如图3中那样),因为每个帧跨越与图2的四个帧所跨越的时间量相同的时间量。
[0053]允许显示视频示出图2中显见的运动的另一种情况是降低区域的空间分辨率、然 后每个帧一次地发送(空间模糊区域的)更新(以240fps的速率)。例如,不是为了匹配标准 帧率而每秒发送60次的8X8=64个像素,而是可以向下过滤到4X4=16个像素,并以每秒 240帧(S卩,对于该区域,3840像素/秒)发送所得的空间模糊数据。图4显示图2图像的 这样的空间模糊版本的四个连续版本。应指出,在图3和图4中的每个的例子中,我们每隔 1/60秒发送64个像素——无论那种方式,都是相同的数据量。当图4的数据被显示时,线 运动被更好地保持,但是线本身是模糊的(相对于图2版本)。
[0054]当然,如果我们在所有的时间都对每个全帧以高(240fps)帧率发送空间模糊数据 (如图4中那样),则尽管运动中的对象的模糊程度将较低,但是任何非移动区域将具有四分 之一空间分辨率,并且将表现出较低的锐度。本发明的典型实施例提供了一种通过下述方 式实现空间与时间权衡的高效方式:以降低的空间分辨率仅对输入视频图像的正在移动的 区域(S卩,由240fps输入视频或其他高帧率输入视频的帧确定的视觉对象)进行编码(并以 高时间速率(例如,全输入视频帧率)对它们进行更新),并以更高的空间分辨率对各其它区 域进行编码(但是以较低的时间速率对它们进行更新)。
[0055]为了提供在执行本发明的编码方法的典型实施例期间多少数据可被权衡的一些 构思,图5示出了来自480fps视频片段的例子。如果我们将数据上限设为像素的30fps量 值,则可以以30fps的速率发送输入视频帧的全分辨率版本(“全帧”),或者以120fps的速 率发送四个四分之一大小的巾贞(每个巾贞具有全巾贞的空间分辨率的四分之一),或者以480fps 的全速率发送十六个“1/16大小”的巾贞(每个巾贞具有全巾贞的空间分辨率的十六分之一)(在 这个例子中,帧率或总像素计数以4为因子是方便的,因为它们对应于H (水平)和V (垂直) 分辨率两者的以因子2变化)。图5的最左图像是一个这样的全帧(其将被以30fps的速率 更新),图5的中间图像是一个这样的四分之一大小的帧(其将被以120fps的速率更新),图 5的最右图像是一个这样的1/16大小的帧(其将被以480fps的速率更新)。指出,运动模糊 在全帧图像(图5的最左图像)中是明显的。
[0056]尽管当我们获取1/16大小图像中的少量信息并且将它送回以在TV上以全分辨率 显示时图像总体看起来非常模糊这一点是不足为奇的,但是令人奇怪的是,该图像的快速 移动的部分将看起来比其他两个图像中的相同区域更清晰。
[0057]这从图6是显见的,图6显示图5的每个图像中的被上采样到显示大小的区域(例 如,图6的最右图像是图5的最右图像的被上采样到显示大小的区域,图6的最左图像是图 5的最左图像的被上采样到显示大小的相应区域)。令人奇怪的是,图6的每个图像具有这 样的区域,该区域与图6的其他图像中的相同区域相比保留最多的细节。指出,图6的中间 图像和最右图像的圈起来的区域在它们各自的图像中看起来最好,并且静态背景在空间分 辨率最高并且帧更新速率最慢的图像(即,图6的最左图像)中看起来最好。这三个图像的 背景没有移动,所以它在30fps时看起来不模糊(在图6的最左图像中)。头发(在所有三个 图像中都有显示)移动适量,所以在30fps时具有太多运动模糊(在图6的最左图像中),并且在480fps时保留太少分辨率(在图6的最右图像中)。类似地,手(在所有三个图像中都 有显示)移动得如此快以至于即使像素数量仅为1/16,图6的最右图像在480fps时也保留 比图6的其他两个图像所保留的细节多的细节(后两个图像指示输入数据的更多像素和更 高运动模糊)。
[0058]根据本发明的编码方法的一类实施例,确定用于输入视频帧序列的每个区域的感 知上最佳的速率,并且将来自每个区域的像素的编码版本打包为仅包含优化数量的像素的 编码帧的序列。例如,输入视频可以是以每秒120帧更新的1920像素X 1080像素的渐进 帧。一个实施例将识别在120fps、四分之一空间分辨率时看起来最好的区域、在60fps、 二分之一空间分辨率时看起来最好的那些区域、以及在30fps、全分辨率时看起来最好的 那些区域,并相应地对每个区域中的输入像素进行编码(对于这些区域中的不同区域,进 行不同的编码),然后将编码后的像素打包为编码帧。编码的视频的总像素速率因此仅为 1920X1080乘以每秒30帧(输入视频帧率的四分之一),但是编码的视频保留比常规方式 产生的30fps序列(例如,输入帧的每第四帧的序列)将具有的运动细节多得多的运动细节。
[0059]当然,接收端处的重构元件将需要对编码帧进行拆包,并重构用于以正确的显示 速率显示的图像。因此,当(由编码的视频确定的)图像区域具有与另一图像区域不同的更 新速率时,需要向重构元件进行信号通知。这可以以几种方式进行,包括对于编码像素提供 单独的图,或者包括信号通知更新速率变化的特定像素值。重构元件将使用这样的图(或特 定像素值)来知道编码数据对每个区域提供了多少帧更新。从此,它可以推断每个区域的空 间分辨率,并且可以使用各种简单的重采样技术来构建更新后的解码帧。图7是图像的重 构版本的例子,该图像已经根据本发明的编码方法的这样的实施例进行了编码,其后根据 本发明的实施例进行了重构。更具体地讲,图7是视频帧的重构版本,该重构版本是通过根 据本发明的压缩方法的实施例对基于图5的帧的组合的数据进行编码、然后根据本发明的 重构方法的实施例从压缩表示重构该帧(其中,压缩表示是指示以30、120、240和480fps的 速率更新的区域的打包帧)而产生的。
[0060]尽管实现压缩的常规编码器(例如,普通的H.264编解码器)也可以用于对编码的 (压缩的)视频的压缩比特速率(常规的札264编解码器确实找到并且减小了输入视频中的 时间和空间冗余)设定上限,但是本发明的编码方法的典型实施例具有优于常规压缩的若 干优点。作为其中一个,本发明的编码方法的典型实施例产生编码视频,该编码视频在被重 构时具有如下这样的质量:该质量与帧的每个区域中的实际运动直接关联并且不受该帧的 其他区域中正进行的动作的量影响。作为另一优点,编码器处的常规运动估计的成本、解码 器处的常规运动补偿、以及解码器处的频域变换和解码器处的算术译码使得这样的常规技 术在计算上比本发明的典型实施例昂贵得多。此外,常规的基于H.264和其他基于DCT的 或基于小波的编解码器的复杂度不能良好适合于典型地将需要的更高帧率。
[0061]本发明的编码方法的典型实施例对运动模糊数据进行合成(响应于输入视频数 据),将合成的运动模糊数据中的至少一些包括在编码的输出视频中,并且当决定如何对输 入数据进行处理时,对关于合成的运动模糊数据的度量进行评估。本发明的重构方法的典 型实施例识别编码的(压缩的)数据中的合成的运动模糊数据,并相应地重构将显示的图 像。本发明的方法的典型实施例使用合成的运动模糊数据和在选择性的时间变化和空间变 化的基础上被减少的运动模糊数据来减小频闪和颤动的效应,导致重构视频的感知质量的净增长,并且实现一种新颖的、高效的权衡空间和时间采样(像素)的方式。
[0062]相反,典型的常规编解码器采取视频序列作为输入,并且仅仅试图创建可以被解 码以尽可能忠实地重新创建原始序列的比特流。因此,当输入数据指示大量运动(移动的视 觉对象)时,重构图像常常显现可见的伪像,例如,块效应或频闪。
[0063]当运动模糊和帧率两者相对于运动量都低时,颤动发生(在视频显示期间)。该效
应有时为了艺术的意图而被包括-例如,影片Saving Private Ryan开头的抢滩登陆场
景、或者影片Gladiator中的搏斗场景,但是通常这是要避免的。
[0064]不是精确地重新创建全速率序列,本发明的方法的典型实施例对较低帧率的适当 运动模糊进行合成,并且使用此作为比较点。结果是时间和空间分辨率的权衡好于通过(以 蛮力的方式)坚守预定的低标准化的帧率而将实现的时间和空间分辨率的权衡,并且通过 本发明的方法的这样的实施例产生的编码数据不受损于如果使用常规方法对于相同的输 入视频进行编码和重构将会导致的伪像或变化性。
[0065]应当意识到,在本发明的编码器的典型实施例中执行的决策可以用于推导用常规 编码器对其进行编码的块的模式和参数。然而,根据原始帧数据的性质和常规压缩算法,本 发明的算法可以传递或者可以不传递原始帧数据。在本发明的算法不传递原始帧数据的情 况下,作为替代,它将以下版本包括在编码的视频中:输入视频的空间重采样版本、或合成 的时间模糊或时间锐化版本、或应用了时间运算和空间运算两者的版本。重采样在一些情 况下可以被实现为已经可用于常规的编解码器中的操作之一(例如,不是重采样,而是可以 根据预期表现的信息量对DCT系数进行量化)。
[0066]图8是端到端视频系统的框图,该端到端视频系统实现根据本发明的一类实施例 的编码和重构。捕捉块10 (例如,高帧率照相机)的输出是全帧率输入视频11,该全帧率输 入视频11被(以第一帧率)断言到编码器21,在编码器21中,根据本发明方法对它进行编 码(压缩)以产生打包帧15。通过传递元件16以被设定上限的像素速率将打包帧15 (从编 码器21输出的压缩视频)传递(例如,被写入存储介质以及从存储介质读取,和/或通过网 络传送)到重构元件17。被设定上限的像素速率典型地受到如下限制的约束,即打包帧15 可仅以小于第一帧率的帧率被传递。在重构元件17中,从打包帧重构帧18。然后,重构帧 18被以第一帧率向显示装置19 (例如,高帧率电视机)断言,并且被显示装置19显示。
[0067]编码器21 (在视频链的捕捉/生成侧实现)包括转换级12,在转换级12中,将全速 率视频帧11的序列划分为脉冲(并且可选地,将这些脉冲划分为半脉冲或其他部分脉冲), 并且确定每个脉冲的压缩表示。典型地,级12确定输入视频11的脉冲,以使得每个脉冲包 括输入视频的S个帧,其中,S是在本文中有时被称为“脉冲大小”的整数,并且还确定每个 脉冲(或部分脉冲)的多个空间与时间抽取分区,以使得每个空间与时间抽取分区是“中间 帧”的集合。每个中间帧集合包括至少一个中间帧(例如,图14的帧B3Utl)、或图13的帧 B2 (t0)和B2 (t2)),并且每个中间帧包括抽取像素(输入视频的子采样像素)。各中间帧的各 抽取像素对应于脉冲(或部分脉冲)的一个帧的不同空间区域。典型地,第i空间与时间抽 取分区的每个中间帧包括从脉冲(或部分脉冲)的帧中的一个或多个得到的Mi个抽取像素, 其中,Mi是整数,i是标识第i空间与时间抽取分区的索引,索引i对于脉冲(或部分脉冲) 的各空间与时间抽取分区是不同的。脉冲(或部分脉冲)的空间与时间抽取分区之一的每个 中间帧具有相同的空间分辨率,但是空间与时间抽取分区中的不同空间与时间抽取分区的中间帧具有不同的空间分辨率。
[0068]典型地,级12在持续时间T (其中,T=k(S/N),其中,k是输入视频11的帧率,S是 脉冲大小,并且N是整数)的每个时间片段期间对于(每个脉冲或部分脉冲的)帧的每个空间 分区的每个空间区域,确定什么是时间像素速率对空间像素速率的最佳权衡,并且相应地 选择抽取像素中的一个或多个的最佳集合作为脉冲(或部分脉冲)的空间区域的表示。对于 每个脉冲(或部分脉冲)选择的抽取像素确定该脉冲(或部分脉冲)的压缩表示。在图8中 被标识为“抽取区域”13的集合的这个压缩表示被断言到打包级14。在打包级14中,对所 有脉冲(或部分脉冲)的抽取区域13进行打包以生成打包帧15。
[0069]在重构元件17中,使用打包帧15中所包括的抽取区域13来以在被设定上限的像 素速率(打包帧15被以该像素速率传递到元件17)给定的情况下优化的质量权衡重构全速 率视频帧18。
[0070]每个打包帧15是表示脉冲的采样(抽取区域)的集合。以提供相对于传递方法的 鲁棒性的方式选择、修改和布置这些采样。例如,如果传递方法包括趋向于丢弃高空间频 率信息的有损压缩编解码器的使用,则本发明的编码器可以如下方式将采样布置在打包帧 中,该方式趋向于引入总量较少的高空间频率内容来降低有损编解码器对输出视频质量的影响。
[0071]在一个实施例中,打包巾贞15具有与输入视频巾贞11相同的空间分辨率,并且每个打 包帧15表示其的各局部区域均被以从固定更新速率集合选择的速率进行更新的视频数据 (其中,用于各局部区域的更新速率由与打包帧包括在一起的元数据确定)。然而,通常,打 包帧15在空间分辨率或更新速率上不受到约束。打包帧15可以具有静态的或时间变化的 整体或局部空间分辨率的任何组合、以及静态的或时间变化的整体或局部更新速率的任何 组合。
[0072]编码器21 (和本发明的编码器的其他实施例)产生标识由每个打包帧15确定的 输出帧的每个空间区域的更新速率的元数据(例如,分辨率索引图),并且将该元数据与打 包中贞15包括在一起。在各种实施例中,该元数据可被与打包巾贞数据分开存储或发送,或者 可被嵌入在打包帧数据本身中,或者它可以(由重构元件)从打包帧推断出来。
[0073]分辨率索引图是通过本发明的编码器的典型实施例产生的并且被本发明的重构 方法的典型实施例使用的关键数据分量。该图是与脉冲相关联的索引值的二维阵列。每个 索引值在脉冲的持续时间期间与局部空间区域相关联,并且映射到用于该区域的特定的空 间和时间分辨率值对。在采样速率约束下,索引值将指示对于该区域最佳的空间-时间权 衡。
[0074]在一些实施例中,编码方法可以实现除了空间分辨率和时间分辨率之外的视频属 性(例如,区域的颜色或亮度的动态范围和/或比特深度)之间的权衡,并且分辨率索引图可 以指示这些权衡。在这样的情况下,每个索引值将表示与n个视频属性相应的n元组分辨率值。
[0075]索引图(或识别由每个打包帧确定的输出帧的每个空间区域的更新速率的其他元 数据)可以与打包帧数据分开存储或发送,或者可以被嵌入在打包帧数据本身中,或者可以 从打包帧推断出来。
[0076]从以下意义上来讲本发明的压缩方法和本发明的重构方式是配对的,即从根据本发明的压缩方法创建的打包帧重构输出帧的任何这样的重构方法必须基于对于打包帧和 分辨率索引图(或标识由每个打包帧确定的输出帧的每个空间区域的更新速率的其他元数 据)是如何创建的了解或推断。
[0077]将参照图9来描述本发明的编码方法(在本文中有时被称为“转换”方法或算法) 和本发明的重构方法(算法)的一类实施例。图9中所示的用于本发明的转换算法的实施例 的高级伪码包括以下步骤:
[0078]以每秒Re帧的捕捉速率捕捉视频(例如,Rc=120fps或480fps);
[0079]选择基本速率(Rb ),其中,表述“基本速率”表示从被断言到其的捕捉输入视频帧 确定的每秒脉冲数;
[0080]然后,将输入视频划分为长度等于Rc/Rb的脉冲。例如,如果Rc=120fps,并且基本 速率为30fps,则脉冲长度为S=(输入视频的)4个帧;
[0081]对于每个脉冲的帧中的一个帧的每个区域,分配最佳帧率。此外,对于每个脉冲的 每个这样的区域,确定编码数据块(抽取像素块)(每个块可以包括来自脉冲的所有输入视 频帧的单个像素的混合版本、或来自脉冲的单个输入视频帧的像素的混合版本、或来自脉 冲的两个或更多个输入视频帧的像素的混合版本);
[0082]将抽取像素块打包为打包帧(在图9中被标识为“被转换的并且被打包的采样”), 并且将打包帧与标识用于每个打包帧的每个块的更新速率的元数据(例如,“最佳速率”图) 一起输出。用于打包帧的块的更新速率典型地等于Rc/X,其中,X是其像素被混合在一起以 产生该块的抽取像素的输入视频帧的数量。每个打包帧是表示脉冲的采样的集合,并且打 包帧被以基本速率输出。
[0083]图9中所示的用于本发明的重构算法的实施例的高级伪码包括以下步骤:
[0084]对于每个打包帧(原始输入视频的每个脉冲),对抽取像素块进行拆包,以确定与 每个输出视频帧的每个空间区域相应的块(或块集合);
[0085]为了响应于每个打包巾贞产生S个输出视频巾贞(具有巾贞率Re)的序列,对于这个输出 视频帧序列的每个空间区域,将拆包块序列(或拆包块的上采样版本)包括在输出视频帧序 列中。更具体地讲,对于该序列中的每个输出视频帧的每个空间区域:如果元数据(与打包 帧一起被提供)指示需要更新,则包括相关的更新像素(更新的拆包块或更新的拆包块的上 采样版本);如果该元数据指示不需要更新,则包括该空间区域的最后(最近)更新的像素集 合(拆包块或其上采样版本之一);并且
[0086]可选地,然后平滑化(在每个输出视频帧中的)块边界。
[0087]根据本发明产生的压缩视频数据可以用于驱动编解码器(例如,H.264或MPEG-2 编解码器或其他常规的基于运动的编解码器)。这样的常规编解码器具有跳过不变化的区 域的更新的能力,但是不具有如下能力,即替代合成运动模糊的区域、然后人为地决定不止 一次地使用它,而不是尝试对多个帧的全部细节进行编码。
[0088]更具体地讲,假设存在指示区域X中的快速运动的四个输入视频帧的序列。常规 的编解码器将以最接近允许恢复全部四个帧的方式将比特分配给区域X。当数据速率不足 以允许编码忠实时,恢复图像将开始看起来差,并且在数据速率更低时将越来越糟糕。本发 明人已经认识到了,对更少的、合成运动模糊区域进行编码通常在感知上更好。例如,对于 脉冲长度S=4的情况,不是发送“高运动”区域X四次(即,4个帧中的每一个各一次),运动模糊算法(通常可用的使能技术)可以根据本发明被用于将四个输入帧混合为少于四个帧 (并且指示高运动区域X的混合像素可以包括在根据本发明产生的压缩表示中)。合成时间 模糊数据对于常规编解码器而言更易于压缩,并且要发送的数据更少。与在不添加合成运 动模糊的情况下对原始序列的每一个帧进行编码的蛮力方法相比,该结果通常将是更优选 的。
[0089](根据本发明压缩的输入视频的)输入帧率在本文中被描述为高于基本速率(由本 发明的编码器从输入视频帧确定的每秒脉冲数)并且是固定的。本领域的普通技术人员将 清楚的是,从以下意义上来讲,并不需要如此。可以将空间和/或时间上采样(例如,插值) 应用于输入视频以产生上采样的视频(具有比输入视频所具有的数据速率和帧率高的数据 速率和帧率),并且然后可以对该上采样的视频执行所本发明的压缩方法。在这种情况下, (用于执行压缩的)基本速率可以大于原始输入视频的(在上采样之前的)原始帧率。
[0090]类似地,输入视频的帧率不需要是固定的。它可以变化,只要它足以可靠地对中间 运动模糊帧进行插值即可。
[0091]甚至可能的是,根本不将(根据本发明压缩的)输入视频组织为帧或规则的像素网 格。可以在空间和时间两者中一定程度任意地提供采样,并且本发明的方法可以用于产生 针对给定的速率上限被优化的运动模糊采样。
[0092]参照图10-19,我们接着更详细地描述本发明的一类实施例,该类实施例通过减小 表示视频所需的采样的数量、以空间分辨率换取时间分辨率来创建输入视频的压缩表示。 图10是实现根据这类实施例的编码和重构的端到端系统。
[0093]在所指出的类的实施例中,本发明的压缩方法受到如下约束,即可以用于表示输 入视频的采样的数量被局限于原始视频中的采样数量的一小部分。该小部分典型地是1/4 或1/2。例如,当利用1/4的小部分时,所述算法的输出将使用与其原始帧率仅为60fps的 视频相应的采样速率来表示240fps输入视频。
[0094]我们将整个输入视频的空间与时间容积划分为局部空间区域和局部时间区域(以 确定输入视频的“脉冲”和这些脉冲的分区)。在上述采样速率约束下,我们使用时间抽取、 空间抽取和比特深度减少的组合来减少每个脉冲的每个局部空间与时间区域(在时间和空 间上都是局部的区域)内的采样数(和/或每一采样的比特数)。
[0095]流过图10流水线的视频数据的单位是“脉冲”,图10显示输入数据31的每个脉 冲被如何处理。所述方法的图10实施例的三个主要组件是采样减少(在图10的块32中实 现)、打包(在图10的块34中实现)、以及输出视频帧的重构(在图10的块37中实现)。所 述方法一个接一个地对脉冲进行处理,直到视频结束为止。
[0096]由采样减少块(或“级”)32实现的采样减少算法决定如何使用比构成输入视频的 那些采样和/或每一采样的比特少的采样和/或每一采样的比特来表示输入视频31。输入 视频在捕捉操作(由块30表示)中产生,并且对输入视频31的被识别的子集(输入脉冲)执 行压缩。由块32产生的每个抽取脉冲表示33是输入脉冲中的相应一个输入脉冲的压缩表 示,该压缩表示包含比输入脉冲所包含的采样和/或每一采样的比特少的采样和/或每一 采样的比特。所述算法对于每个局部空间与时间区域寻求空间分辨率、时间分辨率与采样 比特深度之间的最佳权衡。
[0097]脉冲长度在输入视频的持续时间期间可以是恒定的,并且可以由人类或者通过算法来决定,或者可以基于各种准则(诸如,举例来说,输入视频中的运动量或显示器的最大 帧率)是动态的。
[0098]典型地,图10的块32和34由如下处理器实现,该处理器为转换算法分配存储用 于处理的输入脉冲之一的存储空间(例如,RAM中的存储缓冲器)的处理器(例如,适当编程 的通用计算机、或数字信号处理器芯片或芯片组、或微处理器芯片或芯片组)实现。输入脉 冲通过用输入视频31的帧(例如,由实现捕捉块30的视频照相机产生的帧)填充存储空间 而形成。存储空间中的帧数等于脉冲长度。在块32中对每个输入脉冲进行处理以产生其 压缩表示,该压缩表示在图10中被标识为抽取脉冲33。包括每个抽取脉冲33的采样在块 34中进行打包(通过使用压缩表示中所包括的至少一个分辨率索引图)以响应于每个抽取 脉冲33产生打包帧35。一旦输入脉冲31被处理并且所得的打包帧35被发送到传递元件 36 (以用于存储和/或例如通过网络信道发送),存储空间就变得可用于被下一输入脉冲填 充。
[0099]当对象在运动中时,人类观察者在一些情况下对于移动对象中的空间细节或比特 深度的损失不敏感,但是对颤动、频闪和/或运动模糊敏感。在采样速率约束下,在包含大 量运动的局部空间区域的情况下,降低局部空间分辨率和比特深度以“购买”更高的局部时 间更新速率改进该局部区域的感知质量。
[0100]另一方面,视频中的静态/低运动区域不需要高时间更新速率,在这种情况下,牺 牲高局部时间更新速率以允许高局部空间分辨率创建了更锐利的区域,从而改进了该局部 区域的感知质量。
[0101]视频还可以包含中间幅度的运动的内容,在一些情况下,通过选择作为两种极端 情况之间的某一种情况的空间/时间分辨率组合来获得最佳感知质量。
[0102]另一种情况可能需要高阵率和高空间分辨率,但是不需要全比特深度。
[0103]采样打包块(或“级”)34通过将每个抽取脉冲33的采样“打包”为以灵活性和与端 到端视频链的其他部分的兼容性为目标的格式,产生每个输入视频脉冲的减少采样表示。
[0104]重构块(或“级”)37实现重构算法,该重构算法对减少采样表示(即,由元件36传 递的每个打包帧35的采样)进行上采样以产生视频重放(包括显示装置39的显示)所需的 全分辨率帧。块37响应于每个打包帧35输出包括恢复脉冲38的全分辨率帧。块37可以 用处理器(例如,适当编程的通用计算机、或数字信号处理器芯片或芯片组、或微处理器芯 片或芯片组)实现。
[0105]接下来,在仅权衡时间和空间分辨率,而不权衡采样比特深度的示例性实施例的 上下文中描述三个主要处理组件(图10的块32、34和37)。
[0106]图11是在图10的采样减少级32的实施例中实现的处理步骤和数据流的示图。响 应于输入视频31 (来自捕捉块30),本发明的压缩方法的块32的划分级40将输入视频划 分为脉冲41,并在空间上对每个脉冲41进行划分(以下文将描述的方式)。响应于每个划分 的脉冲41,抽取级43产生中间(混合)帧44 (其是图11所实现的压缩算法的输出之一)的 集合。插值级45对巾贞44执行插值以产生合成重构脉冲46。成本确定级47确定与巾贞44的 若干个数据子集中的每个数据子集相关联的成本(以下文将描述的方式)以确定成本图48。 响应于成本图48,分辨率索引图计算级49确定至少一个分辨率索引图50 (用于每个输入 脉冲)作为它的输出。在优选实现中,对于具有偶数脉冲长度的脉冲,所述算法利用半脉冲的概念,该概念是将输入视频的脉冲“50/50地分割”(划分)为“早”半脉冲和“晚”半脉冲, 划分级40在时间上将每个脉冲划分为两个这样的半脉冲,级49对每个输入脉冲41的每个半脉冲产生分辨率索引图50 (即,对每个输入脉冲41产生两个图50)。
[0107]输入视频可以是例如RGB彩色图像的序列。在空间与时间域中,可以认为整个输入视频是在空间与时间容积中布置于规则的3D网格上的一组采样。在划分级40中,压缩算法的图11实施例将输入视频的每个脉冲41 (或每个脉冲41的每个半脉冲)划分为更小的采样集合(脉冲或半脉冲的空间分区),每个更小的采样集合可以被认为具有直角棱柱形状。每个棱柱的长度是以输入视频帧为单位的脉冲(或半脉冲)长度,并且每个棱柱的宽度和深度是脉冲的一个帧的空间分区的每个空间区域的水平和垂直大小。更小的采样集合是全都互相排斥的集合(即,在小集合之间不存在重叠),并且这些集合的并集是大采样集合 (脉冲)。因此,小集合形成大集合的分区。 [0108]所述算法在时间上和空间上对输入视频采样进行划分。在时间上,将输入视频划分为脉冲41 (并且可选地,还被划分为脉冲41的半脉冲)。如早前所提及的,每个脉冲是固定数量的时间上连续的帧,并且脉冲长度是单个脉冲中的帧的数量。例如,在给定其帧具有时间索引1、2…的输入视频的情况下,我们可以选择脉冲大小3,脉冲大小3给出具有索引
1、2和3的帧的初始脉冲;下一脉冲具有索引为4、5和6的帧,依此类推。
[0109]其中,“基本速率”表示每秒的脉冲数。
[0110]Rbase-Rorig/L pulse
[0111]其中,Rbase是基本速率,Rorig是输入视频31的帧率,L pulse是脉冲长度。例如,对于72fps输入视频,脉冲长度3得到每秒24个脉冲的基本速率,这意味着通过图11实施例产生的压缩表示将需要与24fps输入视频相同的每单位时间的采样数。
[0112]在空间上,划分级40将每个脉冲划分为“直角棱柱”。优选地,区域大小由脉冲长度确定,并且每个区域包含与脉冲长度一样多的像素。这种设计使区域大小最小,以减小由于块效应而导致的质量损失。每个区域是相同大小。当脉冲长度为平方整数时,区域是方形区域(大小为nXn个像素),或者对于不是平方整数的脉冲长度,区域是矩形。例如,对于脉冲长度4,区域大小为2X2个像素;对于脉冲长度2,区域大小为1X2 (即,I行X2列)。
[0113]所述算法将以下处理步骤应用于输入视频的每个脉冲。在典型的实施例中,每个脉冲被独立地处理,并且来自一个脉冲的信息不影响另一个脉冲如何被处理。
[0114]级43通过使用从脉冲大小确定的一组抽取因子(从I直到脉冲长度(包括))来对每个脉冲执行一组时间和空间抽取操作。在抽取因子值之间可以存在间距。
[0115]按每个抽取因子对输入脉冲进行抽取(在级43中)以形成中间帧(在本文中有时被称为混合帧Bi)集合。对于时间混合(抽取),相关联的低通滤波器可以是平直的平均滤波器,在该平均滤波器中,每个帧携带相同权重。这种时间混合模仿了照相机快门模糊的效果,并且帮助减少在时间子采样之前的时间混叠。作为替代,两个或更多个输入视频帧的像素的时间混合被以其他方式实现,诸如使用用于在其他上下文中执行视频的时间混合的许多常规滤波器中的任何一个。
[0116]例如,在高帧率电影应用中,可以选择因子1、2、3,并且将72fps输入视频抽取为与72、36和24fps的帧率相应的中间帧集合,或者可以选择因子1、1.5、3以得到与72、48和 24fps相应的中间帧集合。选择24fps的基本速率提供了与被设计为处理24fps视频或用于3D电影的48fps的电影设备的匹配。同样地,我们可以选择使用用于广播应用的30或 60fps (或用于PAL的50fps)的基本速率来对高帧率视频进行处理。[0117]为了增强采样速率约束,将空间抽取应用于中间帧,其中空间抽取因子与时间抽取因子成反比。空间抽取因子和时间抽取因子的乘积是常数,并且等于脉冲长度:[0118]Mtime Mspace=Lpulse[0119]对于空间抽取,抽取级43的一种实现使用Lanczos-2 (即,“大小”参数a=2的 Lanczos滤波器)作为空间低通滤波器。作为替代,可以使用双线性、双三次和其他插值滤波器和/或方法。[0120]设Bi表示在输入脉冲已经在时间和/或空间上被进行子采样之后的中间帧的集合,其中,i是与用于每个集合的空间抽取因子和时间抽取因子的特定组合相关联的索引。 索引i有时将被称为分辨率索引,或者在上下文清楚的情况下就被称为索引。较小的i值与较高的时间分辨率相关联;较大的i值对应于较高的空间分辨率。[0121]参照图12、13和14,考虑以下示例,该示例假设240fps输入视频和60fps的采样速率预算(在输入视频的空间分辨率,其为1920 X 1080个像素)。我们选择脉冲大小4以产生满足该预算的采样。在脉冲大小为4的情况下,我们可以选择抽取因子1、2和4,这些抽取因子分别得到可以与帧率240、120和60fps相关联的三个中间帧集合。每个输入视频脉冲的帧被表示为F。、FjPF3 (如图12-14所示)。[0122]抽取级43产生包括四个中间帧的“240fps”集合(B1X这个集合不需要时间混合,但是为了保持采样速率恒定,用因子4对每个中间帧进行空间抽取。换句话讲,使用单个像素值来表示来自每个中间帧的每个2X2局部区域的空间采样,该单个像素值是从输入视频帧之一的2X2局部区域中及其周围的像素确定的。结果是在图12中被表示为 B1Utl) MB1U3)的四个1/4分辨率中间帧的集合,其中,&至〖3表示时间戳或时间索引, 并且B1的分辨率索引“I”指定用于这种特定情况的时间分辨率和空间分辨率的组合。中间帧是 B1 (t0) =S (F0, 2,2)、B1 (t:) =S (F1, 2,2)、B1 (t2) =S (F2, 2,2)和 B1 (t3) =S (F3, 2,2),其中, S(F, r, c)算子的自变数如下:F识别被进行空间抽取的输入视频脉冲的帧(或帧的混合), 并且F被按r行和c列因子进行空间抽取。[0123]抽取级43通过对输入视频脉冲进行因子为2的时间抽取,产生包括两个中间帧的“120fps”集合(B2X在一种实现中,通过简单地计算每一输出帧的两个输入视频帧的平均值来进行时间混合。作为替代,用于组合输入视频帧的像素的方法可以使用加权平均、滤波组合、或将多个帧组合为一个帧的其他方法。空间抽取因子也是2。在一种实现中,级43实现仅对中间帧的行进行空间抽取的各向异性抽取方法,这意味着输入视频帧的列数与集合B2中的每个帧的列数匹配。如图13中所指示的,集合B2的中间帧是: B2 (t0) =S ((FfF1) /2,2,I)和 B2 (t2) =S ((F2+F3) /2,2,I)。[0124]抽取级43通过对输入视频进行因子为4的时间抽取来产生包括一个中间帧的 “60fps”集合(B3X与其他帧集合相比,这个帧典型地将包括针对非静态输入帧的最大的运动模糊量。在一个实施例中,用于组合输入视频帧的方法使用时间平均化,但是作为替代, 它可以使用加权平均、滤波组合或其他方法。因为时间抽取因子等于脉冲长度,所以在这种情况下不需要空间抽取。如图14中所指示的,集合B3的中间帧为B3Utl) = (Fc^FJFJF3)/4。[0125]在决策算法可以进行任何分辨率权衡决策之前,级47必须计算每个分辨率选项的成本(例如,图12-14中的每个集合Bi的成本),其中,成本函数对关于输入视频的视觉质量的损失进行建模。
[0126]在一种实现中,成本函数是原始视频的脉冲的像素值与从在图11的抽取级43中产生的中间帧“Bi ”合成的脉冲的像素值(以下提供“像素值”的例子)之间的差值的绝对值的总和。如下(在图11的级45中)产生合成脉冲(每个合成脉冲包括与输入脉冲所包括的帧数相同的帧数)。通过以下步骤产生给定分辨率索引值i的中间帧集合的合成脉冲:
[0127]将每个帧Bi进行空间插值(上采样)直至原始空间分辨率(例如,通过使用Lanczos-2滤波器、或另一种类型的插值滤波器);和
[0128]如果帧Bi的数量小于脉冲长度,则重复帧以填充丢失帧。
[0129]例如,为了合成图13中所示的来自帧B2 Utl) B2 (t2)的脉冲,首先产生上采样帧B2,(t0)和B2,(t2)(即,分别将B2 (t0)和B2 (t2)进行插值直至1920X1080分辨率的结果)。然后,创建作为V (t0)的副本的B2’ (t)以及作为B2’ (t2)的副本的B2’ (t3) ο换句话讲,因为仅从(与时间码h和t2相关联的)两个帧开始,所以通过重复h和t2合成帧来创建时间码h和t3的“丢失”合成帧。
[0130]对于每个分辨率索引值,一旦我们合成了脉冲(图11的脉冲46),级47就计算差动脉冲(即,合成脉冲的像素值与输入视频脉冲41的相应像素值之间的逐个采样的绝对差值)。然后,级47计算在各半脉冲内差动脉冲随时间的平均值,并在每个空间区域内在空间上计算该结果的总和。这些结果是成本值的集合(图11的成本图48),每个成本图用于分辨率索引中的不同分辨率索引,并且每个成本图由输入脉冲41的各半脉冲中的各空间区域的一个成本值组成。
[0131]可选地,可以使用对感知模糊量进行建模的视觉质量度量来细化成本值集合。
[0132]一种实现使用亮度作为用于产生成本值的(输入脉冲和相应的合成脉冲的每个帧的每个像素的)像素值。亮度被计算为输入脉冲和相应的合成脉冲的每个像素的R、G和B颜色分量的线性组合。用于产生成本值的像素值的其他选择包括:
[0133](I)单个颜色带(例如,像素值是相关脉冲的每个像素的绿色或“G”颜色分量);
[0134](2)通过使用上述的相同度量来分别计算R、G和B颜色分量的成本函数,然后使用LI范数、L2范数、L无限范数或其他范数或方法来将这三个成本函数组合为标量成本函数;和
[0135](3)与以上替代方案(2)相同,但是还包括局部水平和垂直光流估计。
[0136]在级49中实现的决策算法选择分辨率权衡点上的最低成本(对于输入脉冲41的各半脉冲中的各空间区域)(即,确定对于相关半脉冲的相关空间区域导致最低成本值的分辨率索引i)。可选地,在成本值被送给决策算法之前,可以使用加权方案(例如,下一段中所描述的加权方案)来调整成本值。
[0137]在优选实施例中,参数(分辨率偏置)控制成本值之间的相对加权,其中,权重如下地作为分辨率索引i的函数改变:
_ _ = L —A "<o
[0139]其中,W是用于分辨率索引i的权重,b是偏置参数,imax是分辨率索引的最高容许值。从权重的值对于所有脉冲中的所有区域都是相同的意义上来讲,权重是全局性的。当b=0时,没有成本被修改。当b被设置为正值时,较高空间分辨率的成本被惩罚得较多,这意味着选择b>0有利于高时间分辨率。类似地,负值b对于较高时间分辨率惩罚得较多,使成本偏向于有利于高空间分辨率。
[0140]在应用偏置加权之后,决策算法选择与各半脉冲内的各区域的最低成本相关联的分辨率索引。这(在可选的细化步骤之后)确定与每个半脉冲相关联的半脉冲图50。两个图50中的每个均包含其值是分辨率索引值的“像素”,并且每个这样的值与半脉冲的空间与时间容积内的空间区域相关联。
[0141]当权衡空间分辨率对时间分辨率时,半脉冲结构使得决策算法的时间粒度更精细。在区域的运动内容显著地改变中间脉冲或几乎中间脉冲的情况下,益处是显然的。在包含更多运动的半脉冲中,所述算法可以选择较高的时间分辨率来更好地捕捉快速变化的像素值的集合以减小运动模糊,而在另一半脉冲中,所述算法可以选择较高空间分辨率来提闻空间锐度。
[0142]由于采样速率约束,所述算法对于区域在一个半脉冲中具有全空间分辨率(“全SR”)并且在另一半脉冲中具有不同的(非全SR的)空间分辨率的情况进行检查。选择全SR用于一个区域消耗了对于整个脉冲的该区域的全部采样配额,所以在该脉冲期间不允许对全SR区域进行进一步时间更新。为了增强采样配额,所述算法将选择全SR用于整个脉冲的成本与各半脉冲中的非全SR分辨率的最小成本的平均值进行比较:
[0143]
【权利要求】
1.一种用于产生输入视频的压缩表示的视频压缩方法,包括如下步骤:(a)在时间上将输入视频划分为脉冲,每个脉冲包括输入视频的至少两个帧,并且对于每个脉冲的帧的空间分区的每个区域,产生至少两个不同的候选混合像素集合,候选混合像素集合中的至少一个包括从输入视频的至少两个帧确定的时间混合像素以及从输入视频的至少两个帧确定的时间和空间混合像素中的至少一个;和(b)对于每个脉冲的空间分区的所述每个区域,选择候选混合像素集合中的用于包括在所述压缩表示中的一个候选混合像素集合。
2.根据权利要求1所述的方法,其中,步骤(b)包括对从候选混合像素集合确定的重构视频的质量进行评估的步骤。
3.根据权利要求1所述的方法,其中,所述方法产生输入视频的压缩表示,以便优化从所述压缩表示确定的重构视频的感知视频质量。
4.根据权利要求1所述的方法,其中,候选混合像素集合包括第一集合和第二集合,所述第一集合包括输入视频的空间混合像素,所述第二集合包括从输入视频的不同帧确定的时间和空间混合像素。
5.根据权利要求4所述的方法,其中,候选混合像素集合还包括第三集合,所述第三集合包括从输入视频的不同帧确定的时间混合像素。
6.根据权利要求1所述的方法,其中,步骤(a)确定输入视频的脉冲,以使得每个脉冲包括输入视频的S个帧,并且步骤(a)包括如下步骤:确定每个脉冲的多个空间与时间抽取分区,以使得每个空间与时间抽取分区为包括抽取像素的中间帧的集合,每个中间帧的各抽取像素对应于所述每个脉冲的空间分区的不同区域。
7.根据权利要求6所述的方法,其中,第i空间与时间抽取分区的中间帧中的每一个包括从所述每个脉冲的帧中的一个或多个得到的Mi个抽取像素,其中,Mi是整数,i是标识第i空间与时间抽取分区的索引,索引i对于所述每个脉冲的各空间与时间抽取分区是不同的,所述每个脉冲的空间与时间抽取分区之一的各中间帧具有相同的空间分辨率,并且所述每个脉冲的空间与时间抽取分区中的不同空间与时间抽取分区的中间帧具有不同的空间分辨率。
8.根据权利要求6所述的方 法,其中,步骤(b)包括如下步骤:响应于输入视频的每个脉冲和由从输入视频的所述每个脉冲确定的中间帧产生的重构视频帧,产生输入视频的所述每个脉冲的成本图。
9.根据权利要求1所述的方法,其中,步骤(a)确定输入视频的脉冲以使得每个脉冲包括输入视频的S个帧并且每个脉冲包括部分脉冲,并且步骤(a)包括如下步骤:确定每个部分脉冲的多个空间与时间抽取分区,以使得每个空间与时间抽取分区为包括抽取像素的中间帧的集合,每个中间帧的各抽取像素对应于所述每个部分脉冲的空间分区的不同区域。
10.根据权利要求9所述的方法,其中,第i空间与时间抽取分区的每个中间帧包括从所述每个部分脉冲的帧中的一个或多个得到的Mi个抽取像素,其中,Mi是整数,i是标识第i空间与时间抽取分区的索引,索引i对于所述每个部分脉冲的各空间与时间抽取分区是不同的,所述每个部分脉冲的空间与时间抽取分区之一的各中间帧具有相同的空间分辨率,并且所述每个部分脉冲的空间与时间抽取分区中的不同空间与时间抽取分区的中间帧具有不同的空间分辨率。
11.根据权利要求9所述的方法,其中,步骤(b)包括如下步骤:响应于输入视频的每个部分脉冲和由从输入视频的所述每个部分脉冲确定的中间帧产生的重构视频帧,产生所述每个部分脉冲的成本图。
12.根据权利要求1所述的方法,还包括如下步骤:产生指示用于所述每个脉冲的空间分区的所述每个区域的至少一个重构参数的元数据。
13.根据权利要求12所述的方法,其中,所述重构参数是用于所述每个脉冲的空间分区的所述每个区域的更新速率。
14.根据权利要求12所述的方法,还包括将所述元数据与所述压缩表示一起输出的步 骤。
15.根据权利要求12所述的方法,还包括将所述元数据包括在所述压缩表示中的步骤。
16.根据权利要求12所述的方法,其中,所述元数据包括至少一个分辨率索引图,并且产生元数据的步骤包括如下步骤:产生至少一个候选分辨率索引图,并对每个所述候选分辨率索引图进行过滤以产生至少一个分辨率索引图。
17.根据权利要求12所述的方法,其中,所述元数据指示对于每个打包帧的空间分区的所述每个区域的除了空间分辨率和时间分辨率之外的至少一个视频属性以及至少一个分辨率索引值。
18.根据权利要求1所述的方法,还包括如下步骤:(c)将在步骤(b)中选择的候选混合像素集合打包为打包帧,由此对输入视频的每个脉冲产生的打包帧是输入视频的所述每个脉冲的压缩表示。
19.根据权利要求18所述的方法,还包括如下步骤:产生指示用于每个打包帧的空间分区的每个区域的至少一个重构参数的元数据,并将所述元数据与所述压缩表示一起输出。
20.根据权利要求18所述的方法,还包括如下步骤:产生指示用于每个打包帧的空间分区的每个区域的至少一个重构参数的元数据,并将所述元数据包括在所述压缩表示中。
21.根据权利要求19所述的方法,其中,所述重构参数是用于所述每个打包帧的空间分区的所述每个区域的更新速率。
22.根据权利要求18所述的方法,还包括如下步骤:(d)响应于所述打包帧,产生重构视频帧。
23.根据权利要求18所述的方法,其中,输入视频的每个像素具有mXn分辨率,所述输入视频具有每秒k个帧的帧率,其中,m、n和k是整数,所述压缩表不具有小于每秒mXnX k 个像素的像素率,并且所述方法包括以小于每秒k个打包帧的基本速率输出所述打包帧的步骤。
24.根据权利要求23所述的方法,其中,所述基本速率是每秒k/4个打包帧,并且其中, 步骤(a)包括如下步骤:确定输入视频的脉冲,以使得每个脉冲包括输入视频的四个帧;和确定每个脉冲的多个空间与时间抽取分区,以使得每个空间与时间抽取分区是包括抽取像素的中间帧的集合,包括:确定第一中间帧集合、第二中间帧集合和第三中间帧集合, 所述第一中间帧集合包括均包括l/4(mXn)个空间抽取像素的四个中间帧,所述第二中间帧集合包括均包括l/2(mXn)个抽取像素的两个中间帧,所述第三中间帧集合包括单个中间帧,所述单个中间帧包括mXn个时间抽取像素。
25.根据权利要求1所述的方法,还包括如下步骤:产生压缩表示和输入视频的分层表示,所述分层表示包括基本层和增强层。
26.根据权利要求1所述的方法,其中,从所述压缩表示确定的重构视频具有一组视觉特性,并且产生所述候选混合像素集合以实现所述重构视频的至少一个所希望的视觉特性。
27.根据权利要求26所述的方法,其中,所述重构视频的所述至少一个所希望的视觉特性是快门角度特性。
28.一种用于响应于输入视频的压缩表示重构用于显示的视频的重构方法,其中,所述压缩表示包括打包帧,并且所述压缩表示已经通过压缩方法产生,所述压缩方法包括如下步骤:在时间上将输入视频划分为脉冲,每个脉冲包括输入视频的至少两个帧,并且对于每个脉冲的帧的空间分区的每个区域,产生至少两个不同的候选混合像素集合,候选混合像素集合中的至少一个包括从输入视频的至少两个帧确定的时间混合像素以及从输入视频的至少两个帧确定的时间和空间混合像素中的至少一个;对于每个脉冲的空间分区的所述每个区域,选择候选混合像素集合中的用于包括在所述压缩表示中的一个候选混合像素集合,并且将所选择的候选混合像素集合打包为打包帧,以使得每个打包帧是所述每个脉冲的压缩表示,所述重构方法包括如下步骤:(a)接收元数据,所述元数据指示用于所述每个脉冲的空间分区的所述每个区域的至少一个重构参数;和(b)响应于所述元数据,响应于每个打包帧产生重构视频中贞。
29.根据权利要求28所述的重构方法,其中,所述重构参数是用于所述每个打包帧的空间分区的所述每个区域的更新速率。
30.根据权利要求28所述的重构方法,其中,步骤(b)包括如下步骤:(C)对于所述每个打包帧的空间分区的每个区域,响应于所述元数据执行时间插值,以响应于所述每个打包帧产生S个部分重构帧,其中,S是整数;和(d)在步骤(C)之后,对每个·部分重构帧执行空间插值,以响应于所述每个打包帧产生 S个重构视频帧。
31.根据权利要求30所述的重构方法,其中,在步骤(d)中执行的空间插值是迭代过程,其从每个部分重构帧的最低空间分辨率区域开始并且以所述每个部分重构帧的最高空间分辨率区域结束。
32.—种编码器,包括:至少一个输入端,所述至少一个输入端被耦合并且被配置为接收输入视频;和处理器,所述处理器被配置为产生输入视频的压缩表示,包括:在时间上将输入视频划分为脉冲,每个脉冲包括输入视频的至少两个帧,并且对于每个脉冲的帧的空间分区的每个区域,产生至少两个不同的候选混合像素集合,候选混合像素集合中的至少一个包括从输入视频的至少两个帧确定的时间混合像素以及从输入视频的至少两个帧确定的时间和空间混合像素中的至少一个;和对于每个脉冲的空间分区的所述每个区域,选择候选混合像素集合中的用于包括在所述压缩表示中的一个候选混合像素集合。
33.根据权利要求32所述的编码器,其中,所述处理器被配置为通过对从候选混合像素集合确定的重构视频的质量进行评估,选择用于包括在所述压缩表示中的每个候选混合像素集合。
34.根据权利要求32所述的编码器,其中,所述处理器被配置为产生输入视频的压缩表示,以便优化从所述压缩表示确定的重构视频的感知视频质量。
35.根据权利要求32所述的编码器,其中,所述处理器被配置为产生元数据,所述元数据指示用于所述每个脉冲的空间分区的所述每个区域的至少一个重构参数。
36.根据权利要求35所述的编码器,其中,所述重构参数是用于所述每个脉冲的空间分区的所述每个区域的更新速率。
37.根据权利要求35所述的编码器,其中,所述元数据包括至少一个分辨率索引图,并且所述处理器被配置为通过产生至少一个候选分辨率索引图并对每个所述候选分辨率索引图进行过滤以产生至少一个分辨率索引图,产生元数据。
38.根据权利要求35所述的编码器,其中,所述元数据指示对于每个打包帧的空间分区的所述每个区域的除了空间分辨率和时间分辨率之外的至少一个视频属性以及至少一个分辨率索引值。
39.根据权利要求32所述的编码器,其中,候选混合像素集合包括第一集合和第二集合,所述第一集合包括输入视频的空间混合像素,所述第二集合包括从输入视频的不同帧确定的时间和空间混合像素。
40.根据权利要求39所述的编码器,其中,候选混合像素集合还包括第三集合,所述第三集合包括从输入视频的不同帧确定的时间混合像素。
41.根据权利要求32所述的编码器,其中,所述处理器被配置为确定输入视频的脉冲, 以使得每个脉冲包括输入视频的S个帧,并且确定每个脉冲的多个空间与时间抽取分区, 以使得每个空间与时间抽取分区为包括抽取像素的中间帧的集合,每个中间帧的各抽取像素对应于所述每个脉冲的空间分区的不同区域。
42.根据权利要求41所述的编`码器,其中,第i空间与时间抽取分区的中间帧中的每一个包括从所述每个脉冲的帧中的一个或多个得到的Mi个抽取像素,其中,Mi是整数,i是标识第i空间与时间抽取分区的索引,索引i对于所述每个脉冲的各空间与时间抽取分区是不同的,所述每个脉冲的空间与时间抽取分区之一的各中间帧具有相同的空间分辨率,并且所述每个脉冲的空间与时间抽取分区中的不同空间与时间抽取分区的中间帧具有不同的空间分辨率。
43.根据权利要求41所述的编码器,其中,所述处理器被配置为响应于输入视频的每个脉冲和由从输入视频的所述每个脉冲确定的中间帧产生的重构视频帧,产生输入视频的所述每个脉冲的成本图。
44.根据权利要求32所述的编码器,其中,所述处理器被配置为确定输入视频的脉冲以使得每个脉冲包括输入视频的S个帧并且每个脉冲包括部分脉冲,并且确定每个部分脉冲的多个空间与时间抽取分区,以使得每个空间与时间抽取分区为包括抽取像素的中间帧的集合,每个中间帧的各抽取像素对应于所述每个部分脉冲的空间分区的不同区域。
45.根据权利要求44所述的编码器,其中,第i空间与时间抽取分区的每个中间帧包括从所述每个部分脉冲的帧中的一个或多个得到的Mi个抽取像素,其中,Mi是整数,i是标识第i空间与时间抽取分区的索引,索引i对于所述每个部分脉冲的各空间与时间抽取分区是不同的,所述每个部分脉冲的空间与时间抽取分区之一的各中间帧具有相同的空间分辨率,并且所述每个部分脉冲的空间与时间抽取分区中的不同空间与时间抽取分区的中间帧具有不同的空间分辨率。
46.根据权利要求44所述的编码器,其中,所述处理器被配置为响应于输入视频的所述每个部分脉冲和由从输入视频的所述每个部分脉冲确定的中间帧产生的重构视频帧,来产生所述每个部分脉冲的成本图。
47.根据权利要求32所述的编码器,其中,所述处理器被配置为将所选择的候选混合像素集合打包为打包帧,由此对输入视频的每个脉冲产生的打包帧是输入视频的所述每个脉冲的压缩表示。
48.根据权利要求47所述的编码器,其中,所述处理器被配置为产生元数据,所述元数据指示用于每个打包帧的空间分区的每个区域的至少一个重构参数。
49.根据权利要求48所述的编码器,其中,所述重构参数是用于所述每个打包帧的空间分区的所述每个区域的更新速率。
50.根据权利要求47所述的编码器,其中,输入视频的每个像素具有mXn分辨率,所述输入视频具有每秒k个帧的帧率,其中,m、n和k是整数,所述压缩表示具有小于每秒 mXnXk个像素的像素率,并且所述编码器被配置为以小于每秒k个打包帧的基本速率输出所述打包帧。
51.根据权利要求50所述的编码器,其中,所述基本速率是每秒k/4个打包帧,并且所述处理器被配置为:确定输入视频的脉冲,以使得每个脉冲包括输入视频的四个帧;和确定每个脉冲的多个空间与时间抽取分区,以使得每个空间与时间抽取分区是包括抽取像素的中间帧的集合,包括:确定第一中间帧集合、第二中间帧集合和第三中间帧集合, 所述第一中间帧集合包括均包括l/4(mXn)个空间抽取像素的四个中间帧,所述第二中间帧集合包括均包括l/2(mXn)个 抽取像素的两个中间帧,所述第三中间帧集合包括单个中间帧,所述单个中间帧包括mXn个时间抽取像素。
52.根据权利要求32所述的编码器,其中,所述处理器被配置为产生压缩表示和输入视频的分层表示,所述分层表示包括基本层和增强层。
53.根据权利要求32所述的编码器,其中,从所述压缩表示确定的重构视频具有一组视觉特性,并且所述处理器被配置为产生所述候选混合像素集合以实现所述重构视频的至少一个所希望的视觉特性。
54.根据权利要求53所述的编码器,其中,所述重构视频的所述至少一个所希望的视觉特性是快门角度特性。
55.根据权利要求32所述的编码器,还包括:捕捉系统,所述捕捉系统被耦合并且被配置为产生所述输入视频并向所述至少一个输入端断言所述输入视频。
56.根据权利要求32所述的编码器,其中,所述处理器还被配置为对所述输入视频的压缩表示执行进一步压缩。
57.根据权利要求32所述的编码器,其中,所述处理器是被编程为产生所述输入视频的压缩表示的通用处理器。
58.根据权利要求32所述的编码器,其中,所述处理器是被配置为产生所述输入视频的压缩表示的数字信号处理器。
59.—种视频重构系统,包括:至少一个输入端,所述至少一个输入端被耦合并且被配置为接收输入视频的压缩表示,其中,所述压缩表示包括打包帧,并且所述压缩表示已经通过压缩方法产生,所述压缩方法包括如下步骤:在时间上将输入视频划分为脉冲,每个脉冲包括输入视频的至少两个帧,并且对于每个脉冲的帧的空间分区的每个区域,产生至少两个不同的候选混合像素集合,候选混合像素集合中的至少一个包括从输入视频的至少两个帧确定的时间混合像素以及从输入视频的至少两个帧确定的时间和空间混合像素中的至少一个;对于每个脉冲的空间分区的所述每个区域,选择候选混合像素集合中的用于包括在所述压缩表示中的一个候选混合像素集合,并且将所选择的候选混合像素集合打包为打包帧,以使得每个打包帧是所述每个脉冲的压缩表示;和处理器,所述处理器被耦合并且被配置为响应于所述压缩表示重构用于显示的视频, 包括响应于元数据,响应于每个打包帧产生重构视频帧,所述元数据指示用于所述每个脉冲的空间分区的所述每个区域的至少一个重构参数。
60.根据权利要求59所述的系统,其中,所述重构参数是用于所述每个打包帧的空间分区的所述每个区域的更新速率。
61.根据权利要求59所述的系统,其中,所述处理器被配置为对于所述每个打包帧的空间分区的每个区域,响应于所述元数据执行时间插值,以响应于所述每个打包帧产生S 个部分重构帧,其中,S是整数;然后,对每个部分重构帧执行空间插值,以响应于所述每个打包帧产生S个重构视频帧。
62.根据权利要求59所述的系统,其中,所述处理器被配置为将所述空间插值作为迭代过程执行,所述迭代过程从每个部分重构帧的最低空间分辨率区域开始并且以所述每个部分重构帧的最高空间分辨率区域结束。
63.根据权利要求59所述的系统,还包括:显示子系统,所述显示子系统被耦合并且被配置为显示每个所述重构视频帧。
64.根据权利要求59所述的系统,其中,所述处理器是被编程为响应于所述压缩表示重构用于显示的视频的通用处理器。
65.根据权利要求59所述的系统,其中,所述处理器是被配置为响应于所述压缩表示重构用于显示的视频的数字信号处理器。
【文档编号】H04N19/59GK103597839SQ201280026303
【公开日】2014年2月19日 申请日期:2012年5月24日 优先权日:2011年5月31日
【发明者】J·E·克兰肖, A·舍, 徐宁, 刘荔敏, S·戴勒, K·J·斯特科, S·胡尔雅卡 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1