双向预测(b)图像的时间空间预测和多图像参照移动补偿的移动向量预测的制作方法

文档序号：7635813阅读：231来源：国知局

专利名称：双向预测(b)图像的时间空间预测和多图像参照移动补偿的移动向量预测的制作方法
相关专利申请这个美国专利许可非临时申请要求一起待批准的于2002年6月3日提交的，标题为“双向预测(B)帧的时间空间预测和多帧参照移动补偿的移动向量预测”的美国专利许可临时申请60/385,965的优先利益，并在这里通过引用包括其整个揭示的内容。
对可以支持最新的模型和模式并还可能引入新模型和模式来利用改进的编码技巧的进一步改进的方法和装置有持续的需要。
在某些进一步的示范性的应用中，该方法进一步包括基于至少一个为视频帧的至少另一个部分的参照图像使用线性或非线性移动向量预测B图像。作为例子，在特定应用中，该方法使用中值移动向量来产生至少一个移动向量。
在其他示范性的应用中，除了空间预测，该方法也处理至少一个其他视频帧的至少一个其他部分来进一步选择性地使用时间预测编码至少一个和B图像相关的基于时间的移动参数来编码B图像。在一些实例中，时间预测包括双向时间预测，例如基于一个预测(P)帧的至少一个部分。
在某些其他应用中，该方法还选择性地确定适用的一个至少部分基于一个在预测视频帧和包括B图像的帧之间的时间距离的基于时间的移动参数的缩放比例。在某些应用中，时间距离信息被编码，例如，在一个头或其他类似的和已编码的B图像相关的数据布置中。

图1为方框图，展示一个适合于使用本发明的某些应用的示范性的计算环境。
图2为方框图，展示一个适合于使用本发明的某些应用的示范性的有代表性的设备。
图3为示意图，展示根据本发明某些示范性的应用，和一个图片的各部分相关的空间预测。
图4为示意图，展示根据本发明某些示范性的应用，在B图像编码中的直接预测。
图5为示意图，展示根据本发明某些示范性的应用，当一个场景改变发生时或甚至当比较(collocated)块被内编码时会发生什么。
图6为示意图，展示根据本发明某些示范性的应用，所述移动假设为0时，在现有的编码解码器中处理比较的内块。
图7为示意图，展示根据本发明某些示范性的应用，当比较块的参照图像在后面的P图像中不为0时，直接模式如何被处理。
图8为示意图，展示根据本发明某些示范性的应用，一个示范性的方案其中MVFW和MVBW源于空间预测。
图9为示意图，展示根据本发明某些示范性的应用，空间预测如何解决场景改变及类似的问题。
图10为示意图，展示根据本发明某些示范性的应用，对在B图像编码中直接模式的联合时空预测。
图11为示意图，展示根据本发明某些示范性的应用，结合预测器(predictor)大块的参照图像信息对当前块的移动向量预测。
图12为示意图，展示根据本发明某些示范性的应用，如何使用多个候选者来进行直接模式预测，尤其是如果双向预测用在B图像中时。
图13为示意图，展示根据本发明某些示范性的应用，在使用未来和过去参照图像中如何限制B图像。
图14为示意图，展示根据本发明某些示范性的应用，为了时间直接预测，投射比较移动向量到一个当前参照。
图15a-c为示意图，展示根据本发明某些示范性的应用，对一个MV在不同配置中的移动向量预测器。
图16a-c为示意图，展示根据本发明某些示范性的应用，对一个有8×8分区的MV在不同配置中的移动向量预测器。
图17a-c为示意图，展示根据本发明某些示范性的应用，对一个有8×8分区附加预测器的MV在不同配置中的移动向量预测器。
以上描述了一些方法和装置作为示范，这里需要注意的是当前发明的这些技术并不局限于描述到的例子和相关的图，它们适用于其他类似的现存和未来视频编码系统。
在介绍这些示范性的方法和装置之前，在接下来的部分先介绍一下适合的示范性的操作环境，例如，以计算机或是其他类型的装置或程序的形式。
示范性的操作环境根据附图，其中类似的引用编号指向类似的元素，本发明以应用在一个适合的计算环境中来展示。虽然不是必须的，本发明将在计算机可执行指令，如由个人计算机执行的程序模块的通用的语境中说明。
通常，程序模块包括执行特定的任务或应用特定的抽象数据类型的子程序、程序、对象、组件、数据结构等等。熟悉相关技术的人应理解本发明可以应用在其他计算机系统配置中，包括手持设备、多处理器系统、基于微处理器的或可编程的消费者电子设备、网络PC、小型机、大型机、移动通讯设备，以及类似的设备。
本发明还可以应用在任务由通过一个通信网络连接的远程处理设备来执行的分布式计算环境。在一个分布式计算环境中，程序模块可以同时位于本地和远程存储设备。
图1展示了一个下面所述系统、装置和方法在其上应用的适合的计算机环境120的例子。示范性计算环境120仅为适合的计算机环境的一个例子并不意味着任何对在此说明的改进的方法及系统的使用或功能范围的限制。不应解释计算环境120为对在计算环境120中展示的组件的任何一种或组合有任何的关联性或必需性。
这里的改进的方法和系统可以运行在大量其他的通用或专用计算系统环境或配置中。适合的众所周知的计算机系统、环境，和/或配置的例子包括，但不仅限于，个人计算机、服务器计算机、瘦客户、胖客户、手持或膝上设备、多处理器系统、基于多处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包含上述以及类似系统或设备的任意组合的分布式计算机环境。
如图1所示，计算环境120包括形式为一个计算机130的一个通用计算设备。计算机130的组件可以包括一个或多个处理器或处理单元132、一个系统存储器134，及一个连接包括系统存储器134到处理器132的不同的系统组件的总线136。
总线136代表几种总线结构中的任何一种或多种，包括一个存储器总线或存储器控制器、一个外围总线、一个加速图形接口，及一个处理器或使用多种总线结构中的任意结构的本地总线。作为例子，而非限制，这样的结构包括工业标准结构(ISA)总线，微通道结构(MCA)总线、增强的工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线，及也称为包厢总线的周边元件扩展接口(PCI)总线。
计算机130通常包括不同的计算机可读媒体。这样的媒体可以为能由计算机130访问的任何可用的媒体，并包括易失的和非易失的媒体、可移动的和不可移动的媒体。
在图1中，系统存储器134包括易失的存储器形式的计算机可读媒体，如随机访问存储器(RAM)140，和/或非易失的存储器，如只读存储器(ROM)138。一个包含帮助在计算机130中的元件之间传输信息如在启动过程中的基本子程序的基本输入/输出系统(BIOS)142，被存储在ROM 138中。RAM 140通常包含可以由处理器132立即访问到和/或处理的数据和/或程序模块。
计算机130可以进一步包括其他可移动的/不可移动的、易失的/非易失的计算机存储器媒体。例如，图1展示了一个用来读写一个不可移动的、非易失的磁媒体(未标出并通常称为一个“硬盘驱动器”)的硬盘驱动器144，一个用来读写一个可移动的、非易失的磁盘148(例如，一个“软盘”)的磁盘驱动器146，及一个用来读写一个可移动、非易失的光盘152如一个CD-ROM/R/RW，DVD-ROM/R/RW/+R/RAM或其他的光媒体的光盘驱动器150。硬盘驱动器144、磁盘驱动器146和光盘驱动器150每个都通过一个或多个接口154连接到总线136。
驱动器和相关的计算机可读媒体为计算机130提供计算机可读指令、数据结构、程序模块、及其他数据的非易失存储。虽然这里所述的示范性的环境使用一个硬盘、一个可移动磁盘148及一个可移动光盘152，熟悉相关技术的人应理解其他类型的可以存储可由一个计算机访问的数据的计算机可读媒体，如盒式磁带、闪存卡、数字视频盘、随机访问存储器(RAM)、只读存储器(ROM)、及类似的媒体也可以用在示范性的操作环境中。
多个程序模块可以存储在硬盘、磁盘148、光盘152、ROM 138或RAM140，包括，例如，一个操作系统158，一个或多个应用程序160，其他程序模块162，及程序数据164。
这里所述的改进的方法和系统可以应用在操作系统158、一个或多个应用程序160，其他程序模块162，和/或程序数据164中。
一个用户可以通过输入设备，如键盘166和定点设备168(如一个“鼠标”)提供命令和信息到计算机130中。其他输入设备(未标出)可以包括一个麦克风、操纵杆、游戏垫、圆盘式卫星电视天线、串行口、扫描仪、相机等等。这些和其他输入设备通过一个连接到总线136的用户输入接口170连接到处理单元132，但也可以通过其他接口和总线结构，如并行口、游戏口，或一个通用串行总线(USB)来连接。
一个显示器172或其他显示设备也通过一个接口，如视频适配器174与系统总线连接。除显示器之外，个人计算机通常包括通过输出周边接口175连接的其他周边输出设备(未标出)，如音箱和打印机。
计算机130可以使用到一个或多个远程计算机，如远程计算机182的逻辑连接在一个网络环境中运行。远程计算机182可以包括多个或所有上述相对于计算机130的组件，图1中所示逻辑连接是一个局域网(LAN)177和一个通用广域网(WAN)179。这样的网络环境在办公室访问或企业访问的计算机网络、企业内部互联网和因特网中是很常见的。
当用在一个局域网联网环境中，计算机130通过一个网络接口或适配器196与局域网177相连。当用在一个广域网联网环境中，计算机通常包括一个调制解调器178或其他在广域网179上建立通讯的方法。调制解调器178，可以为内置的或外置的，通过用户输入接口170或其他适合的机制连接到系统总线136。
如图1所示，为一个WAN通过因特网的具体的应用。在这里，计算机130使用调制解调器178通过因特网180和至少一个远程计算机182建立通讯。
在一个网络环境中，所述相对于计算机130的程序模块，或其部分，可以存储在远程存储器存储设备中。因此，例如，如图1所示，远程应用程序189可以驻留在远程计算机182的一个存储器设备中。应理解所示网络连接仅为示范性的，也可以使用其他在计算机之间建立通讯连接的方法。
下面请看图2，一个方框图，展示另一个也能够从这里揭示的方法和装置中受益的示范性的设备200。设备200代表任何一种或多种操作上根据这里所述及等价的的方法和装置的所有或部分配置为处理视频和/或任何相关类型的数据的设备或装置。因此设备200可以采取如图1种的计算设备的形式，或其他形式，例如，一个无线设备、一个可移动通讯设备、一个个人数字助理、一个视频播放器、一个电视、一个DVD播放器、一个CD播放器、一个卡拉OK机、一个机顶盒、一个视频游戏机等等。在这个例子中，设备200包括配置为处理视频数据的逻辑电路202，一个配置为提供视频数据给逻辑电路202的视频数据源204，及至少能够显示视频数据的至少一部分给用户看的一个显示模块206。逻辑电路202代表硬件、固件、软件和/或它们的任何组合。在某些应用中，例如，逻辑电路202包括一个压缩器/解压缩器(codec)或类似的部分。视频数据源204代表任何可以提供、传输、输出，和/或至少暂时地存储适合由逻辑电路202处理的视频数据的机制。视频再现源展示为在设备200之内和/或在设备200之外。显示模块206代表用户可以直接或间接地观看这里所述的视频数据的视觉结果的任何机制。另外，在某些应用中，设备200还可以包括一些用来再现或处理和视频数据关联的音频数据的形式或能力。因此一个音频再现模块208在图中展示出。
有了图1和图2及其他类似它们的例子，下面的部分集中于某些可以至少部分使用这样的环境和这样的设备来应用的示范性的方法和装置。
编码双向预测(B)图像和移动向量预测这个部分说明一些可以应用来在一个视频编码类似的系统或编码双向预测(B)图像和移动向量预测的示范性的改进。示范性的方法和装置可以用于预测移动向量和B图像直接模式设计的增强。这样的方法和装置特别适合于多图像引用编码解码器，例如，JVT，并可以得到相当大的编码增益，特别是对全景序列或场景改变。
双向预测(B)图像是多数视频编码标准和系统一个重要部分，因为它们趋向于提高这样的系统的编码效率，例如当和仅使用预测(P)图像比较时。这个在编码效率上的改进主要通过考虑可以有效地改进移动补偿的预测并因此允许显著地降低的残余信息的编码的双向移动补偿来应用。进一步来说，对在这样的图像中的一个大块/块的直接预测模式的引入可以进一步显著地(例如，超过10-20％)提高效率，因为没有移动信息被编码。这样可以，例如，通过允许同时预测正向和反向移动信息从使用在对应的一个随后的参照图像的大块的移动向量中直接得到来应用。
作为例子，图4展示在时间t+1在B图像中的直接预测，在时间t和t+2基于P帧编码，及适用的移动向量(MV)。在这里，假设图像中的一个对象正以一个恒定的速度移动。着使得可能预测在B图像中的一个当前位置而不用传输任何的移动向量。直接模式的移动向量对在第一个随后的P参照图像中的比较MB的移动向量基本上这样计算M-V&RightArrow;fw=TRB·M-V&RightArrow;TRD]]>和M-V&RightArrow;bw=(TRB-TRD)·M-V&RightArrow;TRD]]>这里TRB为当前B图像和比较MB的正向MV指向的参照图像之间的时间距离，及TRB为未来参照图像和比较MB的正向MV指向的参照图像之间的时间距离。
然而在一些情况下现有的直接模式不能提供足够的解决方案，因此不能有效地利用这种模式的属性。特别地，这种模式现有的设计通常强迫直接大块的移动参数，当在随后的P图像中的比较大块被内编码时，为0。例如，如图6所示，在现有的编码解码器中处理比较内(collated intra)时其中移动假设为0。这本质上意味着，对这种情况，B图像大块将被编码为在第一个随后的及过去的P参照中的两个比较大块的平均。这立即产生了下面的问题；如果一个大块为内编码的，那么一个人如何知道它和它的参照图像的比较大块有多大关系。在一些情况下，它们可能几乎没有任何实际的关系。因此，可能降低直接模式的编码效率。一中极端的情况可以在图5所示的场景改变情况中看到。图5展示了当场景改变发生在视频序列中时将发生什么及/或当比较块为内编码时(intra)将发生什么。在这里，在这个例子中，明显没有关系存在于场景改变的两个参照图像中。在这样的情况下，双向预测几乎不能提供好处。因此，直接模式可能完全被浪费了。然而，现有的直接模式的应用限制它总要进行一个大块的双向预测。
图7为示意图，展示根据本发明某些示范性的应用，当比较块的参照图像在后面的P图像中不为0时，直接模式如何被处理。
当使用多图像参照移动补偿时，直接模式大块存在一个另外的问题。直到最近，例如，JVT标准才提供了时间距离信息(TRB和TRD)，因此允许正确地缩放参数。最近，这在编码解码器的新修订(参阅，例如，联合视频小组(JVT)ISO/IEC MPEG和ITU-T VCEG，“联合委员会草案(CD)联合视频规范(ITU-T Rec.H.265|ISO/IEC 14496-10 AVC)”，ITU-T JVT-C167，2002年5月，包括在这里引用)中有改变。在新修订中，随后的P图像的移动向量参数为直接模式预测被等量地缩放，而不需要参照图像信息。这会导致直接模式显著的性能下降，因为恒定移动的假设不再被支持。
然而，即使有时间距离参数，使用如先前定义的直接模式仍然不能确定为最适合的解决方案。特别是对更靠近第一个正向参照图像的B图像，与那个图像的关联可能会比随后的参照图像更强。一个可能包含这些情况的极端的例子可以是一个场景A改变到场景B，然后移回到场景A的序列(例如，向在一个新闻公告牌上发生的那样，等等)。上述所有都可能显著地降低B图像编码的性能，因为直接模式在编码过程中不能被有效地利用。
考虑到这些和其他问题，不象前面其中只使用时间预测的直接模式的定义，根据本发明的某些方面，一种其中同时考虑到了时间预测和/或空间预测的新的直接大块类型被引入。例如，所用的预测的类型可以取决于第一个随后的P参照图像的参照图像信息的类型。
根据本发明的某些其他方面，一个人也可以进一步当使用多图像参照时，通过考虑时间距离，如果这个可用的话，相当地改进P和B图像的移动向量预测。
这些增强方式应用在下述某些示范性的方法和装置中。方法和装置可以获得显著的比特率减少而获得类似或更好的质量。
直接模式增强在多数已有的视频编码系统中，直接模式被设计为一个双向预测方案其中移动参数始终根据随后的P图像中的移动参数在时间上被预测。在这一部分，提供一种增强的直接模式技巧，其中在这样的预测中，也可以/作为其他选择考虑到空间信息。
一种或多种下面的示范性技巧可以根据需要应用，例如，取决于系统的复杂度和/或规范。
一种技巧时应用直接模式的移动向量参数的空间预测而不考虑时间预测。例如，空间预测可以使用现有的用来做移动向量编码(如，中值预测)的移动向量预测技巧来应用。如果使用了多图像参照，那么相邻块的参照图像也可以被考虑进来(即使没有这样的限制及通用的参照，如0，可以始终被使用)。
移动参数和参照图像可以按如下方式预测并引用图3来展示和假设为可用的并为一个图像的一部分的部分A-E(例如，大块，片段等)关联的空间预测。在这里，E总的来说通过A、B、C作为其中值(A、B、C)来预测。如果C实际上是在图像之外，那么用D来代替。如果B、C和D都在图像之外，那么只有A被用到，这里如果A不存在，那么使用(0，0)来代替。熟悉相关技术的人应承认空间预测还可以应用在子块级别。
总的来说，空间预测可以看作是所有在一个图像或在同一图像中的一组大块/块中计算的可用的移动信息的一个线性或非线性函数。
有不同的可用方法可以安排用来预测直接模式的参照图像。例如，一种方法可以用来在预测中选择一个最小的引用图像。在另一种方法中，可以选择一个中值参照图像。在某些方法中，可以在一个最小参照图像和中值参照图像中选择，例如，如果最小为0时。在其他应用中，高优先级也可以给予垂直的或水平的预测器(A和B)由于它们和E可能有更强的相关性。
如果一个预测不存在(例如，所有周围的大块都以同样仅为FW或BW的方向来预测或为内编码的(intra))，那么仅使用存在的一个(单方向预测)或这样可以从可用的那一个来预测。例如如果正向预测是可用的那么M-V&RightArrow;bw=(TRB-TRD)·M-V&RightArrow;fwTRB]]>如果随后的P引用如在现有的编码解码器中那样是非内编码的(intra)，那么对大块进行时间预测。请看图8，在其中MVFW和MVBW从空间预测(周围大块的中值MV)得到。如果没有一个可用(即，没有预测器)那么使用单向预测。如果随后的P引用是内编码的(intra)，那么可以如上所述使用空间预测来代替。假设没有限制存在，如果其中一种预测不可用那么直接模式成为一个单向预测模式。
这可以当场景改变时，例如，如图9所示，和/或即使当渐变存在于一个视频序列中时相当地有利于视频编码。如图9所示，空间预测可以用来解决场景改变的问题。
如果时间距离信息在一个编码解码器中不可用，那么当比较P参照块有一个非0参照图像时，时间预测将不象在块的直接模式中那么有效。在这样的情况下，空间预测也可以如上述来使用。作为其他选择，一个人可以估计缩放参数，如果周围的大块的一个也使用和比较P参照块相同的参照图像。进一步来说，可以对有一个非0参照的0移动(或接近于0的移动)进行特殊的处理。在这里，不管时间距离，正向和反向移动向量可以始终取0。然而，最好的解决方案可以是始终检查周围大块的参照图像信息并基于其决定在这样的情况下如何使用直接模式。
更特别地，例如，给定一个非0参照，下面的子情况可以被考虑情况A如果移动向量比较P块为0，使用时间预测。
情况B如果所有周围的大块使用和比较P参照不同的参照图像，那么空间预测看起来为一个更好的选择而不使用时间预测。
情况C如果在B图像中的移动流看起来和P参照图像中的那一个很不一样，那么使用空间预测。
情况D直接模式大块的空间或时间预测可以在图像头中用信号表示。可以预先分析图像来决定使用哪一种。
情况E基于空间信息来修正空间预测参数(反之亦然)。因此，例如，如果都看起来有同样或近似相同的相位信息，那么空间信息可能是非常好的直接模式预测候选者。修正也可以对相位进行，因此修正预测的子象素准确度。
图10展示一个在B图像编码中对直接模式的联合时间预测。在这里，在这个例子中，直接模式可以为一个取决于可用信息的1方向到4方向模式。代替使用直接模式大块的双向预测，可以应用这种模式的一个多假设扩展并使用多个预测。
组合上面的讨论，直接模式大块可以基于可用的信息用从一个到四个可能的移动向量来预测。例如，这可以基于比较P参照图像大块和当前B图像的周围大块的模式来决定。在这样一种情况下，如果空间预测和时间预测差别很大，它们中的一种可以被选中作为唯一的预测。因为上述空间预测可能使用一个和时间的那一个不同的参照图像，同一个大块可能用超过2个参照图像来预测。
JVT标准并不限制第一个未来参照为一个P图像。因此，在这样的一个标准中，一个图像可以如图12所示为一个B图像，甚至一个多重假设(MH)图像。这意味着更多的移动向量被赋给每个大块。这意味着一个人也可以使用这个属性通过更有效地利用附加的移动信息来提高直接模式的有效性。
在图12中，第一个随后的参照图像是一个B图像(图像B8和B9)。这使得一个人可以使用更多的直接模式预测候选者，尤其是在B图像中使用双向预测时。
特别地，一个可以执行下面的操作
a.)如果在第一个未来参照中的比较参照块正在使用双向预测，对应的移动向量(正向或反向)被用来计算当前块的移动向量。因为对应于一个未来参照图像的参照的反向移动向量，在估计当前移动参数时需要特别注意。例如，请看图12，其中第一个随后的参照图像是一个B图像(图像B8和B9)。这使得一个人可以使用更多的直接模式预测候选者，尤其是在B图像中使用双向预测时。因此，如图所示，由于B8、和P6之间的时间距离，B8的反向移动向量可以计算为类似地对B9反向移动向量可以取如果这些指B7。一个人也可以限制这些来引用第一个是的P图像，在这种情况下这些移动向量可以相应地被缩放。类似的结论可以对正向移动向量作出。多图像参照或内编码的(intra)大块可以类似于前面的讨论来处理。
b.)如果使用对比较块的双向预测，那么，在这个例子种，一个人可以通过投影和反转参照的反向和正向移动向量对一个大块估计四个可能的对直接模式情况的预测。
c.)选择性的投影和反转可以根据时间距离来使用。根据这种解决方案，一个人从对预测更可靠的参照图像中选择移动向量。例如，考虑图12中的示意图，一个人将注意到B8比P6更接近P2。这意味着反向移动向量B7不可能为一个很可靠的预测。在这种情况下，直接模式移动向量因而只可以从B7的正向预测来计算。然而，对B9，两个移动向量看起来对预测都是足够的并因而都可以使用。这样的决定/信息也可以在图像头中来决定/支持。其他情况和规则也可以应用。例如，也可以考虑一个预测的附加的空间置信度和/或一个移动向量相位。注意，特别地，如果正向和反向移动向量没有关系，那么反向移动向量对使用可能非常不可靠。
B图像的单图像参照存在一种特殊情况，仅对B图像使用一个图像参照(虽然，通常一个正向和一个反向参照是需要的)而不管有多少参照图像在P图像中使用。从在当前JVT编码解码器中编码向量的观察来看，例如，注意，如果一个人比较使用B图像的单图像参照和多图像参照情况，即使P图像对多图像情况的编码性能几乎总是优于使用单图像，而这对B图像来说不一定总是这样。
这个观察的一个原因是为每个大块使用的参照图像的开销。考虑B图像比P图像更加依赖于移动信息，参照图像信息开销降低了以一个给定的比特率为残余信息传输的比特数，从而降低了效率。一个很简单并有效的解决方案可以是为每个反向或正向移动补偿仅选择一个图像参照，因此不需要传输任何参照图像信息。
这通过引用图13和14来说明。如图13所示，B图像可以通过仅使用一个未来和过去参照图像来限制。因此，对直接模式移动向量计算，移动向量的投影是必要的。一个比较MV的到当前参照用来做时间方向预测的投影在图14中展示(注意可能TDD，0＞TDD，1)。因此，在这个例子中，直接模式移动参数通过投影引用对两个参照图像的其他参照图像的移动向量，或使用如图13所示的空间预测来计算。注意这样的选项不仅使得可能减少B图像编码复杂度，还趋向于减少内存需求，因为如果B图像允许引用B图像时，更少的B图像(例如，最大为两)需要被存储。
在某些情况下，第一个未来参照图像的一个参照图像可以不再出现在参照缓冲中。这会立即对直接模式大块的估计产生一个问题并需要特殊处理这样的情况。如果使用单个图像参照，显然没有这样的问题。然而，如果需要多图像参照，那么可能的解决方案包括投影移动向量到任一个正向参照图像，及/或到离不可用的图像最近的参照图像。任一个解决方案都是可行的，这里空间预测可以再次成为一个作为其他选择的解决方案。
单图像和多图像参照移动补偿移动向量预测的改进多图像参照移动补偿的移动向量预测会显著地影响B和P图像编码的性能。现有的标准，例如，JVT，并不总是考虑在预测中使用的大块的参照图像。这样的标准唯一的考虑是当仅有一个预测大块使用同一个参照时。在这样的情况下，仅有那个预测器被用在移动预测中。如果仅有一个或所有的预测器使用一个不同参照时，不考虑参照图像。
在这样的情况下，例如，并根据本发明某些进一步的方面，一个人可以根据它们对当前参照的时间距离缩放预测器。请看图11，展示了考虑预测器大块(Pr)的参照图像信息以及正确调整(例如，缩放预测器)的性能的一个当前块(C)的移动向量预测。
如果预测器A、B和C使用分别有时间距离TRA、TRB和TRC的参照图像，并且当前参照图像有一个等于TR的时间距离，那么中值预测器按下面公式计算M-V&RightArrow;pred=TR×Median(M-V&RightArrow;ATRA,M-V&RightArrow;BTRB,M-V&RightArrow;CTRC)]]>如果使用整数计算，可能更简单地把乘法放在中值中，因此提高准确率。除法也可以用移位来代替，但那样会降低性能，在其中处理带符号的移位(-1＞＞N＝-1)可能是需要的。因此在这样的情况下有对进行适合的缩放可用的时间距离信息是很重要的。这也可以提供在头中，如果否则不能预测的话。
如上所述的移动向量预测基本上是偏向于中值的(Median biased)，即在一组预测器中的中值被选中用来预测。如果一个人对一个移动向量(MV)只使用一种类型的大块(例如16×16)，那么这些预测器可以按例如，如图15所示来定义。在这里，MV预测器展示为对一个MV。在图15a中，MB不在第一行或最后一列。在图15b中，MB在最后一列。在图15c中MB在第一行。
JVT标准在这上面进一步通过也考虑只有三个预测器中的一个存在(即，大块是内编码的(intra)或在多图像预测的情况下使用一个不同的参照图像)的情况来改进。在这样的情况下，只有现有的或同样的参照预测器被用来预测并且所有其他的预测器没有被检查。
内编码并不总是意味着一个新的物体出现或者场景改变。可能相反地，例如，是移动估计和补偿不足以代表当前物体(例如，搜索区域、使用的移动估计算法，残余(residue)的量子化，等等)这样的情况，并且可以通过内编码来取得更好的结果。可用的移动预测器仍然可以足够提供一个好的移动向量预测器解决方案。
令人感兴趣的是考虑一个大块中的每一个被赋予不同的移动信息的子块。MPEG-4和H.263标准，例如，最多可以有四个这样的子块(例如，大小为8×8)，这里JVT标准允许最多有十六个子块而也可以处理不同的块大小(例如，4×4，4×8，8×4，8×8，16×8，及16×16)。另外JVT也允许8×8内编码子块，因此使得情况更加复杂。
考虑JVT和MPEG-4/H.263的一般情况(8×8和16×16)，一个16×16大块的预测器集合在有相应地类似于图15a-c的安排的图16a-c中展示。在这里展示的移动向量预测器是一个有8×8分区的MV。技术所述的预测器可以在一些情况下产生合理的结果，看起来它们并未足够地包含所有可能的因此。
下面看图17a-c，这也是有类似于图15a-c的安排。在这里，在图17a-c，有两个也可以在预测相位(C1和A2)考虑的附加的预测器。如果也考虑4×4的块，这增加4种可能的预测器。
代替使用三个预测器A、B和C(或A1、B，和C2)的一个中值，一个人可以有一些附加的，并显然更可靠的选项。因此，例如，一个人可以看到预测器A1和C2本质上互相非常接近并且很可能它们在预测相位上不是很有代表性。相反，选择预测器A1、C1，和B由于它们的分离看起来是一个更可靠的解决方案。一个其他选择也可以是选择A2代替A1但那也过于接近预测器B。模拟表明第一种情况通常是一个更好的选择。对最后一列A2可以用来代替A1。对第一行A1或A2甚至它们的平均值都可以使用。对这个应用高至1％的增益在JVT中被注意到。
前面的情况对最后一列增加了一些检验。通过查看图17b，例如，很明显这趋向于提供可用的最好的分区。因此，一个可选的解决方案可以是选择A2、C1，和B(从左上位置)。然而，这并不总是被推荐的，因为这样的一个应用会反过来一些右边(right)的预测器的性能。
一个作为其他选择的解决方案可以是使用一个大块中的预测器的平均值。中值可以计算如下M-V&RightArrow;pred=Median(Ave(M-V&RightArrow;C1,M-V&RightArrow;C2,),Ave-(M-V&RightArrow;A1,M-V&RightArrow;A2),M-V&RightArrow;B)]]>对中值行/列计算，中值可以计算为M-V&RightArrow;pred=Median(Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D),…Median(M-V&RightArrow;D,M-V&RightArrow;A1,M-&RightArrow;V&RightArrow;C2),Median(M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2))]]>另一个可能的解决方案是一个中值5解决方案。这可能是最复杂的解决方案由于计算(例如可以使用快速排序或冒泡排序)，但可能产生最好的结果。如果考虑4×4的块，例如，那么也可以使用中值9M-V&RightArrow;pred=Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D,M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2)]]>考虑JVT允许内编码的子块存在于一个间大块(例如，树状大块结构)，这也可以考虑在移动预测中。如果一个被用来做MV预测的子块(例如，仅来自于上面或左边的大块)是内编码的，那么相邻的子块可以用来代替。因此，如果A1是内编码的而A2不是，那么A1可以被A2替代用在预测中。进一步的可能性是用来自左上位置的MV预测器替换一个缺少的内编码大块。在图17a中，例如，如果C1是缺少的那么可以使用D来代替。
在上面的部分，展示了B图像直接模式和移动向量预测的几个改进。展示了空间预测也可以用于直接模式大块；其中为了更准确的预测，移动向量预测应考虑时间距离和子块信息。这样的考虑会显著的改进任何适用的视频编码系统的性能。
结论虽然上面的说明使用了特定于结构特性和/或方法论的动作的语言，应理解在所附的权利要求中定义的发明并不局限于上述特定的特性或动作。更确切地，特定的特性和动作以应用本发明的示范性的形式在这里揭示。
权利要求
1.一种用于编码一个视频帧序列中的视频数据的方法，其特征在于，所述方法包括标识至少一个视频帧的至少一个部分为一个双向预测(B)图像；及至少使用空间预测来编码至少一个和所述B图像相关的移动参数对所述B图像选择性地编码。
2.按照权利要求1的所述方法，其特征在于，所述B图像包括一个大块。
3.按照权利要求2的所述方法，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码产生一个直接大块。
4.按照权利要求1的所述方法，其特征在于，所述B图像包括一个片段。
5.按照权利要求1的所述方法，其特征在于，所述B图像包括一个大块的至少一个部分。
6.按照权利要求1的所述方法，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行线性移动向量预测。
7.按照权利要求1的所述方法，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行非线性移动向量预测。
8.按照权利要求1的所述方法，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少两个都为所述视频帧的部分的参照图像进行中值移动向量预测。
9.按照权利要求1的所述方法，其特征在于，所述至少一个移动参数包括至少一个移动向量。
10.按照权利要求1的所述方法，其特征在于，所述至少一个其他视频帧的至少一个其他部分被处理以进一步使用时间预测来编码至少一个和所述B图像关联的基于时间的移动参数来选择性地编码所述B图像。
11.按照权利要求10的所述方法，其特征在于，所述时间预测包括双向时间预测。
12.按照权利要求10的所述方法，其特征在于，所述至少一个其他视频帧是一个预测(P)帧。
13.按照权利要求10的所述方法，其特征在于，进一步包括至少部分基于一个在所述其他视频帧和所述包含所述B图像的帧之间的时间距离，选择性地缩放所述至少一个基于时间的移动参数。
14.按照权利要求13的所述方法，其特征在于，所述时间距离信息被编码在一个和所述已编码的B图像关联的头中。
15.按照权利要求10的所述方法，其特征在于，所述至少一个其他部分包括所述至少一个其他视频帧中的一个大块的至少一个部分。
16.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，所述计算机可读媒体包括访问一个视频帧序列的数据；标识至少一个视频帧的至少一个部分为一个双向预测(B)图像；及至少使用空间预测来编码至少一个和所述B图像相关的移动参数对所述B图像选择性地编码。
17.按照权利要求16的所述计算机可读媒体，其特征在于，所述B图像包括一个大块。
18.按照权利要求17的所述计算机可读媒体，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码产生一个直接大块。
19.按照权利要求16的所述计算机可读媒体，其特征在于，所述B图像包括一个片段。
20.按照权利要求16的所述计算机可读媒体，其特征在于，所述B图像包括一个大块的至少一个部分。
21.按照权利要求16的所述计算机可读媒体，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行线性移动向量预测。
22.按照权利要求16的所述计算机可读媒体，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行非线性移动向量预测。
23.按照权利要求16的所述计算机可读媒体，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码进一步包括对所述B图像基于至少两个都为所述视频帧的部分的参照图像进行中值移动向量预测。
24.按照权利要求16的所述计算机可读媒体，其特征在于，所述至少一个移动参数包括至少一个移动向量。
25.按照权利要求1的所述计算机可读媒体，其特征在于，所述至少一个其他视频帧的至少一个其他部分被处理以进一步使用时间预测来编码至少一个和所述B图像关联的基于时间的移动参数来选择性地编码所述B图像。
26.按照权利要求25的所述计算机可读媒体，其特征在于，所述时间预测包括双向时间预测。
27.按照权利要求25的所述计算机可读媒体，其特征在于，所述至少一个其他视频帧是一个预测(P)帧。
28.按照权利要求25的所述计算机可读媒体，有着配置至少一个处理单元来执行动作的计算机可执行指令，其特征在于，包括至少部分基于一个在所述其他视频帧和所述包含所述B图像的帧之间的时间距离，选择性地缩放所述至少一个基于时间的移动参数。
29.按照权利要求28的所述计算机可读媒体，其特征在于，所述时间距离信息被编码在一个和所述已编码的B图像关联的头中。
30.按照权利要求25的所述计算机可读媒体，其特征在于，所述至少一个其他部分包括所述至少一个其他视频帧中的一个大块的至少一个部分。
31.一种用于编码一个视频帧序列中的视频数据的装置，其特征在于，所述装置包括操作上配置为访问一个视频帧序列的视频数据，标识至少一个视频帧的至少一个部分为一个双向预测(B)图像，并至少使用空间预测来编码至少一个和所述B图像相关的移动参数对所述B图像选择性地编码的逻辑电路。
32.按照权利要求31的所述装置，其特征在于，所述B图像包括一个大块。
33.按照权利要求32的所述装置，其特征在于，所述至少使用空间预测来编码至少一个移动参数对所述B图像选择性地编码产生一个直接大块。
34.按照权利要求31的所述装置，其特征在于，所述B图像包括一个片段。
35.按照权利要求31的所述装置，其特征在于，所述B图像包括一个大块的至少一个部分。
36.按照权利要求31的所述装置，其特征在于，所述逻辑电路进一步配置为对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行线性移动向量预测。
37.按照权利要求31的所述装置，其特征在于，所述逻辑电路进一步配置为对所述B图像基于至少一个为所述视频帧的至少另一部分的参照图像进行非线性移动向量预测。
38.按照权利要求31的所述装置，其特征在于，所述逻辑电路进一步配置为对所述B图像基于至少两个都为所述视频帧的部分的参照图像进行中值移动向量预测。
39.按照权利要求31的所述装置，其特征在于，所述至少一个移动参数包括至少一个移动向量。
40.按照权利要求31的所述装置，其特征在于，所述逻辑电路进一步配置为处理至少一个其他视频帧的至少一个其他部分并使用时间预测来编码至少一个和所述B图像关联的基于时间的移动参数来选择性地编码所述B图像。
41.按照权利要求40的所述装置，其特征在于，所述时间预测包括双向时间预测。
42.按照权利要求40的所述装置，其特征在于，所述至少一个其他视频帧是一个预测(P)帧。
43.按照权利要求40的所述装置，其特征在于，所述逻辑电路进一步配置为至少部分基于一个在所述其他视频帧和所述包含所述B图像的帧之间的时间距离，选择性地缩放所述至少一个基于时间的移动参数。
44.按照权利要求43的所述装置，其特征在于，所述逻辑电路进一步配置为包括时间距离信息在一个和所述已编码的B图像关联的头中。
45.按照权利要求40的所述装置，其特征在于，所述至少一个其他部分包括所述至少一个其他视频帧中的一个大块的至少一个部分。
46.一种编码视频数据的方法，其特征在于，所述方法包括标识至少一个视频帧的至少一个部分以一个增强的直接模式编码；及至少使用和在所述至少一个视频帧中的所述部分关联的空间信息以所述增强的直接模式编码所述部分。
47.按照权利要求46的所述方法，其特征在于，所述以所述增强的直接模式编码所述部分进一步包括使用和所述部分相关的时间信息及至少一个其他视频帧的至少一个其他部分。
48.按照权利要求46的所述方法，其特征在于，所述以所述增强的直接模式编码所述部分进一步包括使用基于在所述至少一个视频帧中的至少一个其他部分的移动向量预测。
49.按照权利要求48的所述方法，其特征在于，所述移动向量预测包括中值预测。
50.按照权利要求46的所述方法，其特征在于，所述增强直接模式包括基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的线性函数，使用空间预测来计算所述空间信息。
51.按照权利要求46的所述方法，其特征在于，所述增强直接模式包括基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的非线性函数，使用空间预测来计算所述空间信息。
52.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，所述计算机可读媒体包括通过标识至少一个视频帧的至少一个部分以一个增强的直接模式编码视频数据，及至少使用和在所述至少一个视频帧中的所述部分关联的空间信息以在所述增强的直接模式编码所述部分，来编码视频数据。
53.按照权利要求52的所述计算机可读媒体，其特征在于，所述以所述增强的直接模式编码所述部分进一步包括使用和所述部分相关的时间信息及至少一个其他视频帧的至少一个其他部分。
54.按照权利要求52的所述计算机可读媒体，其特征在于，所述以所述增强的直接模式编码所述部分进一步包括使用基于在所述至少一个视频帧中的至少一个其他部分的移动向量预测。
55.按照权利要求54的所述计算机可读媒体，其特征在于，所述移动向量预测包括中值预测。
56.按照权利要求52的所述计算机可读媒体，其特征在于，所述增强直接模式包括基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的线性函数，使用空间预测来计算所述空间信息。
57.按照权利要求52的所述计算机可读媒体，其特征在于，所述增强直接模式包括基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的非线性函数，使用空间预测来计算所述空间信息。
58.一种装置，其特征在于，所述装置包括操作上配置为通过标识至少一个视频帧的至少一个部分以一个增强的直接模式编码，及至少使用和在所述至少一个视频帧中的所述部分关联的空间信息以所述增强的直接模式编码所述部分，来编码视频数据的逻辑电路。
59.按照权利要求58的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为使用和所述部分相关的时间信息及至少一个其他视频帧的至少一个其他部分来以所述增强的直接模式编码所述部分。
60.按照权利要求58的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为使用基于在所述至少一个视频帧中的至少一个其他部分的移动向量预测信息来以所述增强的直接模式编码所述部分。
61.按照权利要求60的所述装置，其特征在于，所述移动向量预测包括中值预测。
62.按照权利要求56的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的线性函数，使用空间预测来计算所述空间信息。
63.按照权利要求56的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为基于至少一个考虑所述至少一个视频帧的至少一个其他部分的移动信息的非线性函数，使用空间预测来计算所述空间信息。
64.一种在直接模式视频编码中预测一个参照图像的方法，其特征在于，所述方法包括从包括对要编码的视频帧的至少一个部分相关的多个预测的最小参照图像，对所述多个预测的中值参照图像，及基于单向预测的当前参照图像的一个组中选择参照图像；及基于选中的参照图像，编码所述视频帧的所述至少一个部分。
65.按照权利要求64的所述方法，其特征在于，所述选择所述参照图像进一步包括选择至少一个空间相关的预测。
66.按照权利要求64的所述方法，其特征在于，所述选择所述参照图像进一步包括选择至少一个时间相关的预测。
67.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，所述计算机可读媒体包括从包括一个对一个要编码的视频帧的至少一个部分相关的多个预测的最小参照图像，对所述多个预测的中值参照图像，及基于单向预测的当前参照图像的一个组中选择参照图像；及基于选中的参照图像，编码所述视频帧的所述至少一个部分。
68.按照权利要求67的所述计算机可读媒体，其特征在于，所述选择所述参照图像进一步包括选择至少一个空间相关的预测。
69.按照权利要求67的所述计算机可读媒体，其特征在于，所述选择所述参照图像进一步包括选择至少一个时间相关的预测。
70.一种装置，其特征在于，所述装置包括操作上配置为从包括对要编码的视频帧的至少一个部分相关的多个预测的最小参照图像，对所述多个预测的中值参照图像，及基于一个单向预测的当前参照图像的组中选择参照图像，及基于选中的参照图像，编码所述视频帧的所述至少一个部分的逻辑电路。
71.按照权利要求70的所述装置，其特征在于，所述逻辑电路操作上配置为选择至少一个空间相关的预测。
72.按照权利要求70的所述装置，其特征在于，所述选择逻辑电路操作上配置为选择至少一个时间相关的预测。
73.一种选择时间预测、空间预测，或时间和空间预测两者中之一来在一个增强的直接模式中编码至少一个视频帧的至少一部分的方法，其特征在于，所述方法包括如果至少一个所述视频帧的一个比较部分的移动向量为0，那么选择时间预测；如果在所述视频帧中周围的部分使用和一个比较参照图像不同的参照图像，那么只选择空间预测；如果和所述视频帧的所述部分相关的移动流本质上不同于和参照图像相关的移动流，那么选择空间预测；如果直接模式的时间预测用信号表示在一个图像头中，那么选择时间预测；及如果直接模式的空间预测用信号表示在一个图像头中，那么选择空间预测。
74.按照权利要求73的所述方法，其特征在于，进一步包括基于空间信息修正至少一个时间预测参数。
75.按照权利要求73的所述方法，其特征在于，进一步包括基于时间信息修正至少一个空间预测参数。
76.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，所述动作包括选择时间预测、空间预测，或时间和空间预测两者中之一来在增强的直接模式中编码至少一个视频帧的至少一部分，使得如果至少一个所述视频帧的一个比较部分的移动向量为0，那么选择时间预测；如果在所述视频帧中周围的部分使用和一个比较参照图像不同的参照图像，那么只选择空间预测；如果和所述视频帧的所述部分相关的移动流本质上不同于和参照图像相关的移动流，那么选择空间预测；如果直接模式的时间预测用信号表示在一个图像头中，那么选择时间预测；及如果直接模式的空间预测用信号表示在一个图像头中，那么选择空间预测。
77.按照权利要求76的所述计算机可读媒体，其特征在于，进一步包括基于空间信息修正至少一个时间预测参数。
78.按照权利要求76的所述计算机可读媒体，其特征在于，进一步包括基于时间信息修正至少一个空间预测参数。
79.一种装置，其特征在于，所述装置包括配置为选择时间预测、空间预测，或时间和空间预测两者中之一来在一个增强的直接模式中编码至少一个视频帧的至少一部分的逻辑电路，其特征在于，所述逻辑电路如果至少一个所述视频帧的一个比较部分的移动向量为0，那么选择时间预测；如果在所述视频帧中周围的部分使用和一个比较参照图像不同的参照图像，那么只选择空间预测；如果一个和所述视频帧的所述部分相关的移动流本质上不同于和参照图像相关的移动流，那么选择空间预测；如果直接模式的时间预测用信号表示在图像头中，那么选择时间预测；及如果直接模式的空间预测用信号表示在所述图像头中，那么选择空间预测。
80.按照权利要求79的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为基于空间信息修正至少一个时间预测参数。
81.按照权利要求79的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为基于时间信息修正至少一个空间预测参数。
82.一种编码视频数据的方法，其特征在于，所述方法包括在一个未来视频帧中选择对前面的视频帧的至少一个部分的参照部分作为B图像；使用和所述参照帧相关的移动向量来计算和所述至少一个部分相关的移动向量；及基于所述计算出的和所述至少一个部分相关的移动向量，编码所述至少一个部分。
83.按照权利要求82的所述方法，其特征在于，所述使用和所述参照帧相关的移动向量来计算和所述至少一个部分相关的移动向量进一步包括通过投影和反转参照部分的反向和正向移动向量，估计至少一个使用于直接模式编码的可能的预测。
84.按照权利要求83的所述方法，其特征在于，基于所述与至少一个部分相关的计算出的移动向量编码所述至少一个部分进一步包括基于至少一个和关于至少一个部分的所述参照部分相关的时间参数，应用选择性的投影和反转。
85.按照权利要求82的所述方法，其特征在于，所述唯一的参照部分当在直接模式中编码时，被用作B图像。
86.按照权利要求82的所述方法，其特征在于，所述使用与所述至少一个部分相关的计算出的移动向量编码至少一个部分进一步包括在直接模式中，基于至少一个在两个不同的参照图像中引用至少两个参照部分的投影的移动向量，编码所述至少一个所述计算出的移动向量。
87.按照权利要求82的所述方法，其特征在于，所述使用与所述至少一个部分相关的计算出的移动向量编码所述至少一个部分进一步包括在直接模式中，基于和所述参照部分相关的空间预测，编码所述至少一个所述计算出的移动向量。
88.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，包括在一个未来视频帧中选择对一个前面的视频帧的至少一个部分的一个参照部分作为B图像；使用和所述参照帧相关的移动向量来计算和所述至少一个部分相关的移动向量；及基于所述计算出的和所述至少一个部分相关的移动向量，编码所述至少一个部分。
89.按照权利要求88的所述计算机可读媒体，其特征在于，所述使用和所述参照帧相关的移动向量来计算和所述至少一个部分相关的移动向量进一步包括通过投影和反转参照部分的反向和正向移动向量，估计至少一个使用于直接模式编码的可能的预测。
90.按照权利要求89的所述计算机可读媒体，其特征在于，基于与所述至少一个部分相关的计算出的移动向量编码所述至少一个部分进一步包括基于至少一个和关于至少一个部分的所述参照部分相关的时间参数，应用选择性的投影和反转。
91.按照权利要求88的所述计算机可读媒体，其特征在于，所述唯一的参照部分当在直接模式中编码时，被用作B图像。
92.按照权利要求88的所述计算机可读媒体，其特征在于，基于与所述至少一个部分相关的计算出的移动向量编码所述至少一个部分进一步包括在直接模式中，基于至少一个在两个不同的参照图像中引用至少两个参照部分的投影的移动向量，编码所述至少一个所述计算出的移动向量。
93.按照权利要求88的所述计算机可读媒体，其特征在于，基于与所述至少一个部分相关的计算出的移动向量编码所述至少一个部分进一步包括在直接模式中，基于和所述参照部分相关的空间预测，编码所述至少一个所述计算出的移动向量。
94.一种装置，其特征在于，所述装置包括操作上配置为在一个未来视频帧中选择对一个前面的视频帧的至少一个部分的一个参照部分作为一个B图像，使用和所述参照帧相关的移动向量来计算和所述至少一个部分相关的移动向量，及基于所述计算出的和所述至少一个部分相关的移动向量，编码所述至少一个部分的逻辑电路。
95.按照权利要求94的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为通过投影和反转参照部分的反向和正向移动向量，估计至少一个使用于直接模式编码的可能的预测。
96.按照权利要求95的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为基于至少一个和关于至少一个部分的所述参照部分相关的时间参数，应用选择性的投影和反转。
97.按照权利要求94的所述装置，其特征在于，所述唯一的参照部分当在直接模式中编码时，被用作B图像。
98.按照权利要求94的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为在直接模式中，基于至少一个在两个不同的参照图像中引用至少两个参照部分的投影的移动向量，编码所述至少一个所述计算出的移动向量。
99.按照权利要求94的所述装置，其特征在于，所述逻辑电路进一步在操作上配置为在直接模式中，基于和所述参照部分相关的空间预测，编码所述至少一个所述计算出的移动向量。
100.一种用来在视频编码中确定移动向量的方法，其特征在于，所述方法包括选择至少三个每个使用一个不同的参照图像，各自有着相关的时间距离TRA，TRB和TRC及一个移动向量MVA，MVB和MVC的预测器A、B和C；及预测和一个有着一个等于TR的时间距离的当前参照图像相关的一个中值移动向量MVpred。
101.按照权利要求100的所述方法，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=TR×Median(M-V&RightArrow;ATRA,M-V&RightArrow;BTRB,M-V&RightArrow;CTRC)]]>
102.按照权利要求100的所述方法，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(Ave(M-V&RightArrow;C1,M-V&RightArrow;C2),Ave(M-V&RightArrow;A1,M-V&RightArrow;A2),M-V&RightArrow;B)]]>
103.按照权利要求100的所述方法，其特征在于，进一步包括选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D),…Median(M-V&RightArrow;D,M-V&RightArrow;A1,M-V&RightArrow;C2),Median(M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2))]]>
104.按照权利要求100的所述方法，其特征在于，进一步包括选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D,M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2)]]>
105.按照权利要求100的所述方法，其特征在于，进一步包括选择性地用一个参照帧相邻的一个部分替换所述参照帧的一个选中的部分，以用于当使用内编码时确定移动向量预测。
106.一种包含配置至少一个处理单元来执行动作的计算机可执行指令的计算机可读媒体，其特征在于，包括选择至少三个每个使用一个不同的参照图像，各自有着相关的时间距离TRA，TRB和TRC及一个移动向量MVA，MVB和MVC的预测器A、B和C；及预测和一个有着一个等于TR的时间距离的当前参照图像相关的一个中值移动向量MVpred。
107.按照权利要求106的所述计算机可读媒体，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=TR×Median(M-V&RightArrow;ATRA,M-V&RightArrow;BTRB,M-V&RightArrow;CTRC)]]>
108.按照权利要求106的所述计算机可读媒体，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(Ave(M-V&RightArrow;C1,M-V&RightArrow;C2),Ave(M-V&RightArrow;A1,M-V&RightArrow;A2,),M-V&RightArrow;B)]]>
109.按照权利要求106的所述计算机可读媒体，其特征在于，进一步包括选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Mredian(Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D),…Median(M-V&RightArrow;D,M-V&RightArrow;A1,M-V&RightArrow;C2),Median(M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2))]]>
110.按照权利要求106的所述计算机可读媒体，其特征在于，进一步包括选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D,M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2)]]>
111.按照权利要求106的所述计算机可读媒体，其特征在于，进一步包括选择性地用一个参照帧相邻的一个部分替换所述参照帧的一个选中的部分，以用于当使用内编码时确定移动向量预测。
112.一种装置，其特征在于，所述装置包括操作上配置为选择至少三个每个使用一个不同的参照图像，各自有着相关的时间距离TRA，TRB和TRC及一个移动向量MVA，MVB和MVC的预测器A、B和C，及预测和一个有着一个等于TR的时间距离的当前参照图像相关的一个中值移动向量MVpred的逻辑电路。
113.按照权利要求112的所述装置，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=TR×Median(M-V&RightArrow;ATRA,M-V&RightArrow;BTRB,M-V&RightArrow;CTRC)]]>
114.按照权利要求112的所述装置，其特征在于，所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(Ave(M-V&RightArrow;C1,M&OverBar;V&RightArrow;C2)Ave(M-V&RightArrow;A1,M-V&RightArrow;A2),M-V&RightArrow;B)]]>
115.按照权利要求112的所述装置，其特征在于，所述逻辑电路进一步操作上配置为选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D),…Median(M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;C2),Meedian(M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2))]]>
116.按照权利要求112的所述装置，其特征在于，所述逻辑电路进一步操作上配置为选择至少一个有着相关的时间距离TRD和一个移动向量MVD的第四个预测器，及所述中值预测器MVpred计算为M-V&RightArrow;pred=Median(M-V&RightArrow;C1,M-V&RightArrow;C2,M-V&RightArrow;D,M-V&RightArrow;B,M-V&RightArrow;A1,M-V&RightArrow;A2)]]>
117.按照权利要求112的所述装置，其特征在于，所述逻辑电路进一步操作上配置为选择性地用一个参照帧相邻的一个部分替换所述参照帧的一个选中的部分，以用于当使用内编码时确定移动向量预测。
全文摘要
提供了在一个视频序列中使用双向预测(B)图像的几个改进方案。在某些改进方案中通过使用空间预测技巧来增强直接模式编码和/或移动向量预测。在其他改进方案中移动向量预测包括时间距离和子块信息，例如，为了得到更准确的预测。这样的改进和其他这里展示的改进显著地提高了任何适用的视频编码系统/逻辑的性能。
文档编号H04N7/36GK1471320SQ0314127
公开日2004年1月28日申请日期2003年6月3日优先权日2002年6月3日
发明者A·图雷皮斯, A 图雷皮斯, S·李, F·吴申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·图雷皮斯、S·李、F·吴
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。