基于感兴趣区域的3d视频译码的制作方法

文档序号：7994922阅读：223来源：国知局

基于感兴趣区域的3d视频译码的制作方法
【专利摘要】描述了包括对于基于感兴趣区域的3D视频译码的操作的系统、设备、物品，以及方法。
【专利说明】基于感兴趣区域的3D视频译码
进旦冃月^
[0001]视频编码器压缩视频信息，以便可以通过给定带宽发送更多信息。然后，可以将压缩信号传输到接收器，该接收器在显示之前解码或解压缩信号。
[0002]3D视频已经变为可以比传统的2D视频提供更丰富的视觉体验的新兴媒体。潜在的应用包括自由视点视频(FVV)、自由视点电视(FTV)、3D电视(3DTV)、IMAX电影院、沉浸式电话会议，监测等等。为支持这些应用，视频系统通常从不同的视点捕捉场景，这会导致同时从不同的相机生成多个视频序列。
[0003]3D视频译码(3DVC)是指以服务于各种3D显示器为目标的新视频压缩标准。3DVC正在由IS0/IEC运动图像专家组(MPEG)开发。目前，基于最新的常规视频译码标准——高效率视频译码(High Efficient Video Coding:HEVC),来构建3DVC的一个分支,计划在2012年末之前完成。3DVC的其他分支基于H.264/AVC构建。
[0004]IS0/IEC运动图像专家组(MPEG)现在进行3D视频译码(3DVC)的标准化。新3DVC标准可能允许从有限量的输入数据生成许多高质量视图。例如，可以使用多视图视频加深度(Multiview Video plus Depth:MVD)概念来从有限量的输入数据生成这样的高质量视图。进一步地，可以使用3DVC来用于高级立体处理功能，并用来支持自动立体显示器和FTV,自动立体显示器和FTV允许用户具有3D视觉体验，同时在3D显示器前面自由地改变他们的位置。
[0005]多视图视频加深度(MVD)概念常常用于表示3D视频内容，其中，若干个视图和相关联的深度图通常被编码和多路复用为比特流。每一个视图的相机参数通常也压缩到比特流，以便进行视图合成。通常也称为基础视图或独立视图的视图中的一个，通常独立于其他视图被译码。对于依赖的视图，可以从其他视图的画面或同一个视图中的预先译码的画面，来预测视频和深度。根据特定的应用，可以通过丢弃非必需的比特流分组，来在解码器侧提取子比特流。
附图简述
[0006]此处所描述的材料是作为示例说明的，而不仅限于各个附图的图形。为说明简单和清楚起见，图形中所示出的元件不一定是按比例绘制的。例如，为了清楚起见，某些元件的尺寸可以相对于其他元件而放大。此外，在合适的情况下，在不同的图形中参考标签重复使用，以表示对应的或类似的元件。在图形中:
[0007]图1是示例3D视频译码系统的说明图；
[0008]图2是示例3D视频译码系统的说明图；
[0009]图3是示出了示例3D视频译码过程的流程图；
[0010]图4是在操作中的示例3D视频译码过程的说明图；
[0011]图5是示例感兴趣区域提取的说明图；
[0012]图6是不例3D视频译码系统的说明图；
[0013]图7是示例系统的说明图；以及
[0014]图8是示例系统的说明图，所有都是根据本发明的至少某些实现配置的。详细描述
[0015]现在将参考所附的图形来描述一个或多个实施例或实现。尽管讨论了特定配置和布局，但是，应该理解，这只是为了说明。那些精通相关技术的人员将认识到，在不偏离描述的精神和范围的情况下，可以使用其他配置和布局。对于那些精通相关技术的人来说显而易见的是，此处所描述的技术和/或布局也可以用于除此处所描述的以外的各种其他系统和应用中。
[0016]尽管下列描述阐述了可以在诸如，例如，片上系统(SoC)体系结构之类的体系结构中表现的各种实现，但是，此处所描述的技术和/或布局的实现不局限于特定体系结构和/或计算系统，并可以通过用于类似的目的的任何体系结构和/或计算系统来实现。例如，使用，例如，多个集成电路(1C)芯片和/或封装，和/或各种计算设备和/或消费者电子(CE)设备(诸如机顶盒、智能电话等等)的各种体系结构都可以实现此处所描述的技术和/或布局。进一步地，尽管下列描述可以阐述诸如逻辑实现、系统组件的类型和相互关系、逻辑划分/集成选择等等之类的很多具体细节，但是，所要求保护的主题可以在没有这些具体细节的情况下实施。在其他情况下，没有详细示出诸如，例如，控制结构和完全软件指令序列之类的某些材料，以便不至于使此处所公开的材料变得模糊。
[0017]此处所公开的材料可以以硬件、固件、软件，或其任何组合来实现。此处所公开的材料还可实现为存储在机器可读取的介质中的可以由一个或多个处理器读取和执行的指令。机器可读的介质可以包括用于以机器(例如，计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如，机器可读的介质可以包括，只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质；光存储介质；闪存设备；电的、光学的、声音或其他形式的传播信号(例如，载波、红外信号、数字信号等等)；及其他。
[0018]说明书中对“一个实现”、“实现”、“示例实现”等等的引用指示所描述的实现可包括特定特征、结构或特性，但是，每一个实现可以不一定包括该特定特征、结构或特征。此夕卜，这样的短语不一定是指同一个实现。此外，当结合一个实现描述特定特征、结构或特性时，认为在本领域技术人员学识范围内，可以与其他实现一起实施这样的特征、结构或特性，无论是否对此明确描述。
[0019]下面将描述包括对于基于感兴趣区域的3D视频译码的操作的系统、设备、物品，以及方法。
[0020]如上文所描述的，在某些情况下，在常规3D视频压缩编码中，可以在比特流中译码两个或三个视图和相关联的深度图，以支持各种3D视频应用。在解码器端，可以通过使用基于深度图像的呈现技术，来生成某些视点的虚拟合成视图。然而，与单视图视频相比，巨量的3D视频数据推高所需的带宽。因此，可能需要更有高效地压缩3D视频数据。根据人类视觉系统的属性，用户可能对画面中诸如前景、较亮区域等等之类的感兴趣区域更敏感。然而，在常规3D视频压缩中，译码不利用人类视觉系统对画面的感兴趣区域更敏感的趋势来更有高效地压缩3D视频。
[0021]如下文比较详细地描述的，用于3D视频译码的操作可以提取感兴趣区域和不感兴趣区域，然后，以不同的方式译码这样的变化的区域，以便实现更高的压缩性能。在这样的基于感兴趣区域的3D视频译码框架中，在通过使用深度图和相机参数来将画面分区为若干个感兴趣区域和不感兴趣区域之后，可以使用不同的译码设置来压缩不同的区域。这样的基于感兴趣区域的3D视频译码框架可以改善3D视频译码系统和方法的译码效率和灵活性。
[0022]图1是根据本发明的至少某些实现配置的示例3D视频译码系统100的说明图。在所示出的实现中，3D视频译码系统100可以包括一种或多种类型的显示器(例如，N视图显示器140、立体显示器142、2D显示器144等等)、一个或多个成像设备(未示出)、3D视频译码器103、3D视频解码器105、立体视频解码器107、2D视频解码器109，和/或比特流提取器110。
[0023]在某些示例中，3D视频译码系统100可以包括为了清楚起见而在图1中没有示出的额外的项目。例如，3D视频译码系统100可以包括处理器、射频类型(RF)收发器，和/或天线。进一步地，3D视频译码系统100还可以包括为了清楚起见而在图1中没有示出的额外的项目，诸如扬声器、麦克风、加速度计、存储器、路由器、网络接口逻辑等等。
[0024]如此处所使用的，术语“译码器(coder) ”可以是指编码器(encoder)和/或解码器(decoder)。类似地，如此处所使用的，术语“译码(coding) ”可以是指通过编码器来编码和/或通过解码器来解码。例如，3D视频编器103和3D视频解码器105两者都可以是能够进行3D译码的译码器的示例。
[0025]在某些示例中发送器102可以从多个成像设备(未示出)接收多个视图。用于3D编码器103的输入信号可以包括多个视图(例如，视频画面112和113)、相关联的深度图(例如，深度图114和115)，以及对应的相机参数(未示出)。然而，还可以在没有深度数据的情况下，操作3D视频译码系统100。通过使用3D视频编码器103，输入分量信号被编码为比特流，其中，可以使用2D视频编码器，例如，H264/AVC编码器或高效率视频译码(HEVC)编码器，来编码基础视图。如果通过3D接收器104使用3D视频解码器105来解码来自比特流提取器110的比特流，则可以在给定保真度下重构视频(例如，视频画面116和117)、深度数据(例如，深度图118和119)，和/或相机参数(未示出)。
[0026]在其他示例中，如果通过立体接收器106解码来自比特流提取器110的比特流，来供在自动立体显示器(例如，立体显示器142)上显示3D视频，则可以使用重构的视图和深度数据，通过基于深度图像的呈现(DIBR)算法，来生成额外的中间视图(例如，两个视图画面120和121)。如果3D视频解码器103被连接到常规立体显示器(例如，立体显示器142)，贝U中间视图合成130也可以生成一对立体视图，以防这样的对不实际存在于来自比特流提取器110的比特流中。
[0027]在进一步的示例中，如果通过2D接收器108解码来自比特流提取器110的比特流，则解码的视图(例如，独立视图图像122)中的一个或任意虚拟相机位置处的中间视图也可以用于在常规2D显示器(例如，2D显示器144)上显示单个视图。
[0028]如下面比较详细地讨论的，可以使用3D视频译码系统100来执行下文参考图3和/或4所讨论的各种功能中的某些或全部。
[0029]图2是根据本发明的至少某些实现配置的示例3D视频译码200的说明图。在所示出的实现中，3D视频译码系统200可以包括3D编码器203和/或3D解码器205。进一步地，3D视频译码系统200可以包括为了清楚起见在图2中而没有示出的额外的项目。
[0030]用于3D编码器203的输入信号可以包括多个视图(例如，视频画面)、相关联的深度图，以及对应的相机参数。感兴趣区域(R0I)提取逻辑模块202可以被配置成提取视频画面的感兴趣区域模式，其中，至少部分地基于与所述视频画面相关联的一个或多个相机参数和深度图，提取所述感兴趣区域模式。
[0031]画面感兴趣区域(R0I)分区逻辑模块212可以通信地耦合到感兴趣区域提取逻辑模块202。画面感兴趣区域分区逻辑模块212可以被配置成至少部分地基于所提取的感兴趣区域模式，来分区视频画面。已分区的视频画面可以包括一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分。在编码期间，视频画面的分区可以涉及至少部分地基于感兴趣区域模式，将视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分。
[0032]3D编码器203可以编码一个或多个感兴趣区域画面部分214、一个或多个不感兴趣区域画面部分216、相关联的深度图206，以及对应的相机参数204，并在模块210中复用为比特流。
[0033]3D解码器205可以在模块230解复用比特流并解码一个或多个感兴趣区域画面部分234、一个或多个不感兴趣区域画面部分236、相关联的深度图226，以及对应的相机参数224。
[0034]感兴趣区域(R0I)提取逻辑模块222可以被配置成至少部分地基于与视频画面相关联的一个或多个相机参数224和深度图226，提取视频画面的感兴趣区域模式。
[0035]感兴趣画面区域(R0I)分区逻辑模块232可以通信地耦合到感兴趣区域提取逻辑模块222。画面感兴趣区域分区逻辑模块232可以被配置成至少部分地基于所提取的感兴趣区域模式，来分区视频画面。已分区的视频画面可以包括一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分。在解码过程中，视频画面的分区可以涉及从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装视频画面。
[0036]在操作中，3D视频译码系统200可以实现用于3D视频译码的操作，包括基于深度的感兴趣区域提取。如下文比较详细地描述的，这样的基于深度的感兴趣区域提取可以在3DVC框架下操作。所呈现的3DVC框架可以计及人类视觉系统(HVS)通常对画面的给定感兴趣区域(R0I)更敏感，但是，对画面的不感兴趣区域(R0NI)不太敏感。可以将视图的画面分区为R0I和R0NI，然后，以不同的方式译码。可以基于对应于当前译码视图的深度图和相机参数，提取R0I和R0NI。
[0037]在3D编码器203端，可以通过使用深度图和相机参数，来导出区域分区模式。然后，可以将画面分区为R0I和R0NI，可以通过使用不同的译码设置，来压缩R0I和R0NI。同时，还可以压缩深度图和相机参数。最后，可以将R01、R0N1、深度图和相机参数的经过编码的数据封装为比特流，并传输到3D解码器205。
[0038]在3D解码器205侧，可以首先从比特流中提取R01、R0N1、深度图，以及相机参数的数据。然后，可以解码并重构深度图和相机参数。然后，可以通过以与由3D编码器203执行的相同或类似的方式使用重构的深度图和相机参数，来导出区域分区模式。可以分开地解码R0I图像部分和R0NI图像部分，并最后至少部分地基于区域分区模式，将它们组装为整体图像。
[0039]如下面比较详细地讨论的，可以使用3D视频译码系统200来执行下文参考图3和/或4所讨论的各种功能中的某些或全部。
[0040]图3是示出了根据本发明的至少某些实现配置的示例3D视频译码过程300的流程图。在所示出的实现中，过程300可以包括一个或多个操作、功能或动作，如框302、304，和/或306中的一个或多个所示出的。作为非限制性示例，此处将参考图1，2和/或6的示例3D视频译码系统100来描述过程300。
[0041]过程300可以被用作用于基于感兴趣区域的3D视频译码的计算机实现方法。过程300可以从框302开始，“至少部分地基于深度图和相机参数，提取R0I模式”，其中，可以至少部分地基于相机参数和深度图，提取感兴趣区域模式。例如，可以至少部分地基于与视频画面相关联的一个或多个相机参数和深度图，提取视频画面的感兴趣区域模式。
[0042]处理可以从操作302持续到操作304，“至少部分地基于所提取的R0I模式，将图像分区为感兴趣区域画面部分和不感兴趣区域画面部分”，其中，可以至少部分地基于所提取的感兴趣区域模式，分区视频画面。例如，可以至少部分地基于所提取的感兴趣区域模式，将视频画面分区为一个或多个感兴趣区域和一个或多个不感兴趣区域。
[0043]处理可以从操作304持续到操作306，“译码感兴趣区域画面部分和不感兴趣区域画面部分”，其中，可以译码一个或多个感兴趣区域和一个或多个不感兴趣区域。例如，在编码和/或解码过程中，可以译码一个或多个感兴趣区域和一个或多个不感兴趣区域。
[0044]在某些示例中，在编码期间，视频画面的分区可以包括至少部分地基于感兴趣区域模式，将视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分。在某些示例中，在解码期间，视频画面的分区可以包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装视频画面。
[0045]可以在下文参考图4比较详细地讨论的实现的一个或多个示例中示出涉及过程300的某些额外的和/或替换的细节。
[0046]图4是根据本发明的至少某些实现配置的在操作中的示例3D视频译码系统100和3D视频译码过程400的说明图。在所示出的实现中，过程400可以包括一个或多个操作、功能或动作，如动作412、414、416、418、420、422、424、426，和/或430中的一个或多个所示出的。作为非限制性示例，此处将参考图1，2和/或5的示例3D视频译码系统100来描述过程400。
[0047]在所示出的实现中，3D视频译码系统100可以包括逻辑模块406，等等，和/或其组合。例如，逻辑模块406可以包括R0I提取逻辑模块408、图像R0I分区逻辑模块410等等，和/或其组合。虽然3D视频译码系统100，如图4所示，可以包括与特定模块相关联的一个特定组的框或动作，但是，这些框或动作可以与这里所示出的特定模块之外的不同的模块相关联。
[0048]过程400可以从框412开始，“确定相机焦点”，其中，可以确定相机焦点。例如，可以至少部分地基于相机参数，确定相机焦点。
[0049]虽然过程400，如图所示，涉及解码，但是，可以以与一般而言的译码(包括编码)相同或类似的方式应用所描述的概念和/或操作。
[0050]过程可以从操作412持续到操作414，“确定检查窗口”，其中，可以确定检查窗口。例如，可以至少部分地基于相机焦点，确定与视频画面的一部分相关联的检查窗口。
[0051]过程可以从操作414持续到操作416，“确定在检查窗口外面”，其中，可以作出任何区域单元是否位于检查窗口外面的判断。例如，可以将位于检查窗口外面的任何区域单元例指定为感兴趣区域模式的不感兴趣区域。
[0052]过程可以从操作416持续到418，“确定焦点区域”，其中，可以确定焦点区域单元。例如，可以至少部分地基于相机焦点，确定焦点区域单元。
[0053]过程可以从操作418持续到420，“确定特征焦点深度值”，其中，可以确定焦点区域单元的特征焦点深度值。例如，可以至少部分地基于深度图，确定焦点区域单元的特征焦点深度值。
[0054]过程可以从操作420持续到操作422，“确定区域单元深度值”，其中，可以确定区域单元深度值。例如，可以确定位于检查窗口内的单个区域单元的区域单元深度值。
[0055]过程可以从操作422持续到操作424，“指定R0I模式”，其中，可以指定感兴趣区域模式。例如，可以至少部分地基于与视频画面相关联的一个或多个相机参数和深度图，提取视频画面的感兴趣区域模式。在某些示例中，可以至少部分地基于确定的区域单元深度值与特征焦点深度值的比较，将位于检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域。
[0056]过程可以从操作424持续到操作426，“指定R0I索引类型”，其中，可以指定感兴趣区域索引类型。例如，可以至少部分地基于所述确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多索引类型。
[0057]过程可以从操作426持续到操作428，“传输包括R0I索引类型的R0I模式”，其中，可以传输感兴趣区域模式。例如，可以将感兴趣区域模式从R0I提取逻辑模块408传输到图像R0I分区逻辑模块410。
[0058]过程可以从操作426和/或428持续到操作430，“分区图像”，其中，可以分区视频画面。例如，可以至少部分地基于所提取的感兴趣区域模式，将视频画面分区为一个或多个感兴趣区域和一个或多个不感兴趣区域。
[0059]在操作中，R0I分区逻辑模块410可以进一步被配置成区分第一类型的区域单元和不同于第一类型的第二类型的区域单元。例如，第一和第二类型的区域单元可以基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则、视图级别准则等等，和/或其组合。在这样的示例中，R0I可以至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用与所述确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值，等等，和/或其组合。
[0060]在某些示例中，在译码期间，可以通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，译码一个或多个不感兴趣区域画面部分。在这样的示例中，所述第二标准可以包括应用于一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于一个或多个感兴趣区域画面部分的第二索引类型的第二子标准。
[0061]在某些示例中，第一标准、第二标准、第一子标准和/或第二子标准可以至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，不同的译码策略，等等，和/或其组合。不同的译码工具可以至少部分地基于下列准则中的一个或多个而不同:将无损对有损(lossless versus lossy)译码应用到不同的区域，以及将整数运动补偿对分数运动补偿(integer mot1n compensat1n versus fract1nal mot1ncompensat1n)应用到不同的区域，等等，和/或其组合。不同的约束可以至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，以及将不同的预测和变换大小应用到不同的区域，等等，和/或其组合。不同的译码策略可以至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，以及将不同的量化参数应用到不同的区域，等等，和/或其组合。
[0062]在操作中，示例过程300和400，如图3和4所示，可以使用区域单元(RU)来指示用于分区和译码的画面的最小单元。首先，图像可以被分成RU，其中，每一个RU都包含KxL个像素。其次，对于每一个RU，可以确定区域分区模式，诸如区域类型和区域索引。注意，还可以进一步将R0I分割成多个子R0I，以便应用更细的译码精度。假设可以将R0I分成N个子R0I,每一个RU的Reg1nType (区域类型)和Reg1nldx(区域索引)可以被定义为如下:
[0063]1.在Reg1nType等于1的情况下，这可以指定当前RU可以是R0I。在Reg1nType等于0的情况下，这可以指定当前RU可以是R0NI。
[0064]2.Reg1nldx可以指定当前RU所属的子R0I索引。当Reg1nType等于1时，Reg1nldx的值可以在0到N-1范围之内。
[0065]在此方案中，可以使用深度图和相机参数来导出RU的分区模式。基本流程可以被示为如下:
[0066]1.可以导出相机焦点和检查窗口。可以通过诸如焦距和相机位置之类的相机参数来生成相机的焦点。可以将焦点处的RU表示为RUfocal。在焦点周围，可以获得RU对齐的矩形检查窗口。位于检查窗口外面的RU可以全部设置为R0NI。检查窗口的大小可以是预定义的，可以是固定值，或在编码器处被导出，然后被传输到解码器，或由编码器和解码器自适应地确定。
[0067]2.可以在下面的步骤中进一步处理位于检查窗口内的RU。对于检查窗口中的每一个RU，可以导出特征深度值。对于大小等于KxL的RU，可以从深度图中找到带有大小等于K/ xL/的其对应的深度块。可以导出每一个RU的特征深度值，并将其表示为cbpth(RU)。可以使用各种方法来导出特征深度值，例如，Γ xU深度块的平均值、Γ xU深度块的中值，等等，和/或其组合。当当前画面的深度图数据可能不可用时，也可以使用估计的深度数据来推导特征深度值。
[0068]3.可以确定检查窗口中的每一个RU的Reg1nType。可以使用RU的特征深度值来判断当前 RU 属于 R0I 还是 R0NI。如果 THlow < depth (RU) -depth (RUfocal) < THhigh,那么，当前RU属于R0I,可以将其Reg1nType设置为1。如果depth (RU)-depth (RUfocal)< THlow 或 cbpth(RU)-d印th (RUfocal) > THhigh，那么，当前 RU 属于 R0NI，且可以将其Reg1nType设置为0。这里，可以使用两个阈值，THlow和THhigh，来控制R0I和R0NI的范围。THlow和THhigh可以是预定义的，可以是固定值，或在编码器处被导出，然后被传输到解码器，或由编码器和解码器自适应地确定。
[0069]4.可以为检查窗口中的每一个RU确定Reg1nldx。为了进一步分割R0I,可以将范围[THlow, THhigh]被分成N个间隔。如果depth (RU)-depth (RUfocal)可以在第i个间隔，则当前RU属于第i个子R0I，且其Reg1nldx可以设置为i。这里，可以使用[THlow，THhigh]的间隔模式来控制每一个较精细的子R0I的范围。间隔模式可以是预定义的，可以是固定值，或在编码器中被导出，然后被传输到解码器，或由编码器和解码器自适应地确定。
[0070]尽管如图3和4所示的示例过程300和400的实现可以包括按所示出的顺序执行所示出的全部框，但是，本发明在这方面不受限制，在各示例中，过程300和400的实现可以包括只执行所示出的框的子集和/或以所示出的不同的顺序来执行。
[0071]另外，可以响应于由一个或多个计算机程序产品所提供的指令，执行图3和4的框中的任何一个或多个。这样的程序产品可以包括提供指令的信号承载介质，所述指令当由例如，处理器执行时，可以提供此处所描述的功能。计算机程序产品可以以任何形式的计算机可读介质来提供。如此，例如，包括一个或多个处理器核的处理器可以响应于由计算机可读介质传输到处理器的指令，执行图3和4所示出的框中的一个或多个。
[0072]如此处所描述的任何实现中所使用的，术语“模块”是指被配置成提供此处所描述的功能的软件、固件和/或硬件的任何组合。软件可以作为软件程序包、代码和/或指令集或指令来实现，而此处所描述的任何实现中所使用的“硬件”可以包括，例如，单独地或以任何组合的硬连线的电路、可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件。模块可以共同地或分别地被实现为构成较大的系统的一部分的电路，例如，集成电路(1C)、芯片上系统(SoC)等等。
[0073]图5是根据本发明的至少某些实现的示例感兴趣区域提取的说明图。在所示出的实现中，示出了 R0I和R0NI提取的示例，其中，一个R0I和一个R0NI用于译码画面500。示出了四个区域单元(RU)——RU焦点508、检查窗口之外的RONI RU 510、ROI RU 512，以及RONI RU 514，以例示提取的过程。RU焦点508是RUfocal，这是检查窗口的中心。由于检查窗口之外的RONI RU 510位于检查窗口 502之外，因此，RU 510被设置为R0NI的一部分。对于ROI RU 512和RONI RU 514，可以对照RU焦点508检查它们的深度信息，以查看是否满足提取规则。结果，可以分别将RU 512和RU 514设置为R0I和R0NI。
[0074]例如，在从画面中提取R0I画面部分和R0NI画面部分之后，与R0NI图像部分相t匕，可以将不同的译码设置应用于R0I画面部分。不同的译码设置可以包括，但不仅限于，使用不同的译码工具，使用不同的约束，使用不同的编码策略等等，和/或其组合。例如，这样的不同的译码工具可以包括对诸如R0I之类的区域应用无损译码工具，对诸如R0NI之类的其他区域(和/或不同的感兴趣子区域)应用有损译码工具。在另一个示例中，这样的不同的译码工具可以包括针对对不同的区域(和/或不同的感兴趣子区域)的补偿，应用不同的运动矢量分辨率。例如，这样的不同的约束可以包括对不同的区域(和/或不同的感兴趣子区域)应用不同的参考图像数字限制。在另一个示例中，不同的约束可以包括对不同的区域(和/或不同的感兴趣子区域)应用不同的预测和变换大小。例如，这样的不同的编码策略可以包括针对对不同的区域(和/或不同的感兴趣子区域)的运动估计，应用不同的搜索范围。在另一个示例中，这样的不同的编码策略可以包括对不同的区域(和/或不同的感兴趣子区域)应用不同的量化参数(QP)值。
[0075]图6是根据本发明的至少某些实现配置的示例3D视频译码100的说明图。在所示出的实现中，3D视频译码系统100可以包括显示器602、成像设备604、3D视频编码器103、3D视频解码器105，和/或逻辑模块406。逻辑模块406可以包括R0I提取逻辑模块408、画面R0I分区逻辑模块410等等，和/或其组合。
[0076]如图所示，显示器602、3D视频解码器105、处理器606和/或存储器存储608可以能够彼此进行通信和/或与逻辑模块406的某些部分进行通信。类似地，成像设备604和3D视频编码器103可以能够彼此进行通信和/或与逻辑模块406的某些部分进行通信。相应地，3D视频解码器105可以包括逻辑模块406的全部或某些部分，而3D视频编码器103可以包括类似的逻辑模块。虽然3D视频译码相同100，如图6所示，可以包括与特定模块相关联的一个特定组的框或动作，但是，这些框或动作可以与这里所示出的特定模块之外的不同的模块相关联。
[0077]在某些示例中，显示设备602可以被配置成呈现视频数据。处理器606可以通信地耦合到显示设备602。存储器存储608可以通信地耦合到处理器606。R0I提取逻辑模块408可以通信地耦合到处理器606，并可以被配置成提取视频画面的感兴趣区域模式，其中，至少部分地基于与视频画面相关联的一个或多个相机参数和深度图，提取感兴趣区域模式。图像R0I分区逻辑模块410可以通信地耦合到R0I提取逻辑模块408，并且可以被配置成至少部分地基于所提取的感兴趣区域模式，分区视频画面，其中，已分区的视频画面可以包括一个或多个感兴趣区域和一个或多个不感兴趣区域。译码器(例如，3D视频解码器105或3D视频编码器103)可以通信地耦合到图像R0I分区逻辑模块410，并可以被配置成译码一个或多个感兴趣区域和一个或多个不感兴趣区域。
[0078]在各实施例中，R0I提取逻辑模块408可以以硬件实现，而软件可以实现画面R0I分区逻辑模块410。例如，在某些实施例中，R0I提取逻辑模块408可以通过专用集成电路(ASIC)逻辑来实现，而画面R0I分区逻辑模块410可以通过由诸如处理器606之类的逻辑执行的软件指令来提供。然而，本发明在这方面不受限制，R0I提取逻辑模块408和/或画面R0I分区逻辑模块410可以通过硬件、固件和/或软件的任何组合来实现。另外，存储器存储608可以是任何类型的存储器，诸如易失性存储器(例如，静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)，等等)或非易失性存储器(例如，闪存等等)等等。在非限制性示例中，存储器存储608可以通过缓存存储器来实现。
[0079]图7示出了根据本发明的示例系统700。在各实现中，系统700可以是媒体系统，虽然系统700不仅限于此上下文。例如，系统700可被纳入到个人计算机(PC)、膝上计算机、超薄笔记本电脑、平板计算机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合式蜂窝电话/PDA、电视机、智能设备(例如智能电话、智能平板计算机或智能电视机)、移动互联网设备(MID)、发消息设备、数据通信设备等中。
[0080]在各实现中，系统700包括耦合到显示器720的平台702。平台702可以从诸如内容服务设备730、或内容递送设备740之类的内容设备或其他类似的内容源接收内容。包括一个或多个导航特征的导航控制器750可以被用来与例如平台702和/或显示器720进行交互。下面将更详细地描述这些组件中的每一个。
[0081]在各实现中，平台702可以包括芯片组705、处理器710、存储器712、存储714、图形子系统715、应用程序716、和/或无线电718的任何组合。芯片组705可以在处理器710、存储器712、存储714、图形子系统715、应用程序716和/或无线电718之间提供相互通信。例如，芯片集705可包括能够提供与存储714的相互通信的存储适配器(未示出)。
[0082]处理器710可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核，或任何其他微处理器或中央处理单元(CPU)。在各实现中，处理器710可以是双核处理器、双核移动处理器等等。
[0083]存储器712可以实现为易失性存储器设备，诸如，但不仅限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)，或静态RAM (SRAM)。
[0084]存储714可实现为非易失性存储设备，例如但不限于，磁盘驱动器、光盘驱动器、磁带驱动器、内部存储设备、附属存储设备、闪存、电池应急SDRAM(同步DRAM)和/或网络可访问存储设备。在各实现中，存储714可以包括当例如包括多个硬盘驱动器时，提高存储器性能或对有价值的数字媒体的增强的保护的技术。
[0085]图形子系统715可执行对例如静止图像或视频的图像的处理以供显示。图形子系统715可以例如是图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可用于通信地耦合图形子系统715和显示器720。例如，接口可以是高清多媒体接口(HDMI)、显示器端口、无线HDMI和/或无线HD适应技术中的任何一种。图形子系统715可以被集成到处理器710或芯片组705中。在一些实现中，图形子系统715可以是可通信地耦合到芯片组705的独立卡。
[0086]本文中所描述的图形和/或视频处理技术可在各种硬件体系结构中实现。例如，图形和/或视频功能可被集成在芯片集中。替代地，可使用分立的图形和/或视频处理器。作为再一个实现，图形和/或视频功能可以通过通用处理器(包括多核处理器)来提供。在进一步的实施例中，功能可以在消费电子产品中实现。
[0087]无线电718可以包括能够使用各种合适的无线通信技术传输和接收信号的一个或多个无线电。这些技术可涉及跨一个或多个无线网络的通信。示例无线网络包括(但不仅限于)无线局域网(WLAN)、无线个人局域网(WPAN)、无线城域网(WMAN)、蜂窝网络，以及卫星网络。在跨这样的网络的通信中，无线电718可以根据任何版本的一个或多个适用的标准来操作。
[0088]在各实现中，显示器720可以包括任何电视机类型监视器或显示器。显示器720可以包括，例如，计算机显示器屏幕、触摸屏显示器、视频监视器、类似于电视机的设备，和/或电视机。显示器720可以是数字和/或模拟的。在各实现中，显示器720可以是全息显示器。此外，显示器720还可以是可接收视觉投影的透明表面。这样的投影可以传达各种形式的信息、图像，和/或对象。例如，这样的投影可以是用于移动增强的现实(MAR)应用程序的视觉覆盖。在一个或多个软件应用程序716的控制下，平台702可以在显示器722上显示用户界面720。
[0089]在各实现中，内容服务设备730可以由任何国家的，国际的和/或独立的服务来主存(host)，并由此可以被平台702例如通过因特网来访问。内容服务设备730可耦合到平台702和/或显示器720。平台702和/或内容服务设备730可耦合到网络760以向网络760传递媒体信息并对来自网络760的媒体信息进行传递(例如，发送和/或接收)。内容传递设备740也可耦合到平台702和/或显示器720。
[0090]在各实现中，内容服务设备730可以包括有线电视盒、个人计算机、网络、电话、启用因特网的设备或能够分发数字信息和/或内容的电器，以及能够通过网络760或直接在内容提供商和平台702和/或显示器720之间单方向地或双向地传递内容的任何其他类似的设备。将能理解，内容可经由网络760单向和/或双向地传递到和传递自系统700中的各组件中的任一个和内容提供者。内容的示例可包括任何媒体信息，包括例如视频、音乐、医疗和游戏?目息等等。
[0091]内容服务设备730可以接收内容，诸如有线电视节目，包括媒体信息、数字信息和/或其他内容。内容提供者的例子可包括任何有线或卫星电视或无线电，或者互联网内容提供者。所提供的示例不以任何方式限制根据本发明的各实现。
[0092]在各实现中，平台702可以从具有一个或多个导航特征的导航控制器750接收控制信号。控制器750的导航特征可以被用来，例如，与用户界面722进行交互。在各实施例中，导航控制器750可以是指示设备，该指示设备可以是计算机硬件组件(具体地，人机接口设备)，可使用户向计算机中输入空间(例如，连续的和多维)数据。许多系统——例如图形用户接口(GUI)以及电视机和监视器——允许用户使用身体姿势控制并将数据提供给计算机或电视机。
[0093]控制器750的导航特征的移动可以通过指针、光标、焦点环，或显示在显示器上的其他可视指示器，在显示器(例如，显示器720)上复制。例如，在软件应用716的控制下，位于导航控制器750上的导航特征可以被映射到例如用户界面722上显示的虚拟导航特征。在各实施例中，控制器750可以不是单独的组件，而是可以集成到平台702和/或显示器720中。然而，本发明不仅限于在所示出的或此处所描述的上下文中的元件。
[0094]在各实现中，驱动程序(未示出)可以包括允许用户立即打开和关闭平台702的技术，类似于电视机，例如，当启用时，在初始引导之后，按下按钮。程序逻辑可以允许平台702甚至在平台被“关闭”时向媒体适配器或其他内容服务设备730或内容分发设备740流式播放内容。另外，芯片组705还可以包括，例如，对于(6.1)环绕声音频和/或高清晰度(7.1)环绕声音频的硬件和/或软件支持。驱动器可包括用于集成的图形平台的图形驱动器。在一些实施例中，图形驱动器可包括快速外围组件互连(PCI)图形卡。
[0095]在各实现中，可以集成系统600所示出的组件的任何一个或更多。例如，平台602和内容服务设备630可被集成，或者平台602和内容传递设备640可被集成，或者平台602、内容服务设备630和内容传递设备640可被集成。在各实施例中，平台602和显示器620可以是集成单元。例如，显示器620和内容服务设备630可被集成，或者显示器620和内容传递设备640可被集成。这些示例不限制本发明。
[0096]在各实施例中，系统600可实现为无线系统、有线系统或两者的组合。当实现为无线系统时，系统600可包括适于在无线共享介质上通信的组件和接口，例如一个或多个天线、发射机、接收机、收发机、放大器、过滤器、控制逻辑等等。无线共享媒体的一个例子可包括无线频谱的一些部分，例如RF频谱等。当实现为有线系统时，系统600可以包括适用于通过有线通信介质进行通信的组件和接口，诸如输入/输出(I/O)适配器、将I/O适配器与相应的有线通信介质连接的物理连接器、网络接口卡(NIC)、光盘控制器、视频控制器、音频控制器等等。有线通信介质的示例可包括，线路、电缆、金属导线、印刷电路板(PCB)、后板、交换机结构、半导体材料、双绞线、同轴电缆、光纤等等。
[0097]平台602可建立一个或多个逻辑或物理通道以交换信息。该信息可包括媒体信息和控制信息。媒体信息可指代表针对用户的内容的任何数据。内容的示例可以包括，例如，来自语音谈话、视频会议、流式视频、电子邮件消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等等的数据。来自语音会话的数据可以是，例如，语音信息、静默时间长度、背景噪声、舒适噪声、音调等等。控制信息可以是指表示用于自动化系统的命令、指令或控制字的任何数据。例如，控制信息可用于使媒体信息路由通过系统，或指示节点以预定方式处理该媒体信息。然而，各实施例不限于图6中所示出的或所描述的上下文中的元件。
[0098]如前所述，系统600可表现为不同的物理样式或形状因数。图8示出其中可体现系统600的小尺寸因数设备800的实现。在一些实施例中，例如设备800可被实现为具有无线能力的移动计算设备的一部分。移动计算设备可指具有处理系统以及移动电源或供电(诸如一个或多个电池)的任何设备。
[0099]如前所述，移动计算设备的例子可包括个人计算机(PC)、膝上计算机、超薄笔记本电脑、平板计算机、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合式蜂窝电话/PDA、电视机、智能设备(例如智能电话、智能平板计算机或智能电视机)、移动互联网设备(MID)、发消息设备、数据通信设备等。
[0100]移动计算设备的例子也可包括被配置成由人们佩戴的计算机，例如手腕式计算机、手指式计算机、戒指式计算机、眼镜式计算机、皮带夹计算机、腕带式计算机、鞋式计算机、服饰式计算机以及其它可佩戴计算机。例如，在各实施例中，移动计算设备可以实现为能够执行计算机应用程序以及语音通信和/或数据通信的智能电话。尽管已经以实现为智能电话的移动计算设备为例描述了一些实施例，但可理解其他实施例也可利用其他无线移动计算设备来实现。这些实施例不限于这种背景。
[0101]如图8所示，设备800可以包括外壳802、显示器804、输入/输出(I/O)设备806，以及天线808。设备800还可以包括导航特征812。显示器804可以包括用于显示适合于移动计算设备的信息的任何合适的显示单元。I/O设备806可以包括用于向移动计算设备中输入信息的任何合适的I/O设备。I/O设备806的示例可以包括字母数字键盘、数字键区、触摸板、输入键、按钮、开关、往复式开关、话筒、扬声器、语音识别设备以及软件等等。信息还可以通过话筒(未示出)输入到设备800中。这样的信息可以通过语音识别设备(未示出)来数字化。这些实施例不限于这种背景。
[0102]各个实施例可利用硬件部件、软件部件或两者的组合来实现。硬件部件的例子可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片集等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、程序、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或它们的任意组合。判断一个实施例是否使用硬件元件或软件元件来实现可以根据任意数量的因素而不同，如所希望的计算速率、功率级别、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度，及其他设计或性能约束。
[0103]至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表征性指令来实现，该指令表示处理器中的各种逻辑，该指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这样的表示可以存储在有形的机器可读介质中，并提供给各种客户或生产设施，以加载到实际制造逻辑或处理器的制造机器中。
[0104]尽管参考各种实现描述了此处所阐述的某些特征，但是，此描述不旨在以限制性方式来解释。因此，对本发明涉及的所属【技术领域】的专业人员显而易见的对此处所描述的实现的各种修改，以及其他实现被认为在本发明的精神和范围内。
[0105]下列示例涉及进一步的实施例。
[0106]在一个示例中，一种用于视频译码的计算机实现的方法可以包括提取视频画面的感兴趣区域模式，其中至少部分地基于与所述视频画面相关联的一个或多个相机参数和深度图，提取所述感兴趣区域模式。可以至少部分地基于所述所提取的感兴趣区域模式，分区所述视频画面，其特征在于，所述经分区的视频画面包括一个或多个感兴趣区域和一个或多个不感兴趣区域。可以译码所述一个或多个感兴趣区域和所述一个或多个不感兴趣区域。
[0107]在另一个示例中，用于视频译码的计算机实现的方法还可以包括提取感兴趣区域模式，进一步包括:至少部分地基于所述相机参数，确定相机焦点，至少部分地基于所述相机焦点，确定与所述视频画面的一部分相关联的检查窗口，将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域，至少部分地基于所述相机焦点，确定焦点区域单元，至少部分地基于所述深度图，确定所述焦点区域单元的特征焦点深度值，确定位于所述检查窗口内的单个区域单元的区域单元深度值，至少部分地基于所述确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及，至少部分地基于所述确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域单元指定为属于两个或更多索引类型。所述视频画面的所述分区还可以包括:区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及，至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值；以及，其特征在于，在编码期间，所述视频画面的所述分区包括至少部分地基于所述感兴趣区域模式，将所述视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分；以及，其中在解码期间，所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装所述视频画面。在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，译码所述一个或多个不感兴趣区域画面部分，并且其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准。所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其中所述不同的译码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，将整数运动补偿对分数运动补偿应用到不同的区域；其中所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，将不同的预测和变换大小应用到不同的区域；并且其中所述不同的译码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，将不同的量化参数应用到不同的区域。
[0108]在其他示例中，一种用于在计算机上进行视频译码的系统可以包括显示设备、一个或多个处理器、一个或多个存储器存储、感兴趣区域提取逻辑模块、画面感兴趣区域分区逻辑模块等等，和/或其组合。显示设备可以被配置成呈现视频数据。一个或多个处理器可以通信地耦合到显示设备。感兴趣区域提取逻辑模块可以通信地耦合到一个或多个处理器。感兴趣区域提取逻辑模块可以被配置成提取视频画面的感兴趣区域模式，其中至少部分地基于与所述视频画面相关联的一个或多个相机参数和深度图，提取所述感兴趣区域模式。画面感兴趣区域分区逻辑模块可以通信地耦合到感兴趣区域提取逻辑模块。画面感兴趣区域分区逻辑模块可以被配置成至少部分地基于所述所提取的感兴趣区域模式，分区所述视频画面，其中所述经分区的视频画面包括一个或多个感兴趣区域和一个或多个不感兴趣区域。译码器可以通信地耦合到画面感兴趣区域分区逻辑模块。译码器可以被配置成译码一个或多个感兴趣区域和一个或多个不感兴趣区域。
[0109]在另一个示例中，一种用于在计算机上进行视频译码的系统，其中感兴趣区域模式逻辑模块的提取可以进一步被配置成:至少部分地基于所述相机参数，确定相机焦点；至少部分地基于所述相机焦点来确定与所述视频画面的一部分相关联的检查窗口；将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣的区域；至少部分地基于所述相机焦点，确定焦点区域单元；至少部分地基于所述深度图来确定所述焦点区域单元的特征焦点深度值；确定位于所述检查窗口内的单个区域单元的区域单元深度值；至少部分地基于所述确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及，至少部分地基于所述确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域单元指定为属于两个或更多个索引类型。画面感兴趣区域分区逻辑模块可以进一步被配置成:区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及，至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所述确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值；以及，在编码期间，所述视频画面的所述分区包括至少部分地基于所述感兴趣区域模式，将所述视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分；并且其中在解码期间，所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装所述视频画面。在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，编码所述一个或多个不感兴趣区域画面部分，并且其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准。所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其特征在于，所述不同的编码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，将整数运动补偿对分数运动补偿应用到不同的区域；其特征在于，所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，将不同的预测和变换大小应用到不同的区域；并且其中所述不同的编码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，将不同的量化参数应用到不同的区域。
[0110]在另一个示例中，至少一个机器可读介质可以包括多个指令，响应于在计算设备上被执行，所述指令导致所述计算设备执行根据上述示例中任一项所述的方法。
[0111]在更进一步的示例中，设备可以包括用于执行根据上述示例中的任何一个所述的方法的装置。
[0112]上述示例可以包括特征的特定的组合。然而，这样的上述示例在这方面不受限制，在各实现中，上述示例可以包括只执行这样的特征的子集，执行这样的特征的不同的顺序，执行这样的特征的不同的组合，和/或执行显式地列出的那些特征之外的附加特征。例如，参考示例方法所描述的所有特征可以相对于示例设备、示例系统，和/或示例物品来实现，反之亦然。
【权利要求】
1.一种用于视频译码的计算机实现的方法，包括: 提取视频画面的感兴趣区域模式，其中至少部分地基于与所述视频画面相关联的一个或多个相机参数和深度图，提取所述感兴趣区域模式；至少部分地基于所提取的感兴趣区域模式，分区所述视频画面，其中所述经分区的视频画面包括一个或多个感兴趣区域和一个或多个不感兴趣区域；以及译码所述一个或多个感兴趣区域以及所述一个或多个不感兴趣区域。
2.如权利要求1所述的方法，其特征在于，所述预测单元的所述译码包括3D解码。
3.如权利要求1所述的方法，其特征在于，在编码期间，对所述视频画面的所述分区包括将所述视频画面拆分为一个或多个感兴趣区域画面部分以及一个或多个不感兴趣区域画面部分。
4.如权利要求1所述的方法，其特征在于，在编码期间，对所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分以及一个或多个不感兴趣区域画面部分组装所述视频画面。
5.如权利要求1所述的方法，其特征在于，所述感兴趣区域模式的所述提取还包括: 至少部分地基于所述相机参数，确定相机焦点，至少部分地基于所述相机焦点，确定与所述视频画面的一部分相关联的检查窗口，以及将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域。
6.如权利要求1所述的方法，其特征在于，所述感兴趣区域模式的所述提取还包括: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定焦点区域单元的特征焦点深度值，确定个体区域单元的区域单元深度值，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域。
7.如权利要求1所述的方法，其特征在于，所述感兴趣区域模式的所述提取还包括: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图，确定焦点区域单元的特征焦点深度值，确定个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多索引类型。
8.如权利要求1所述的方法，其特征在于，所述感兴趣区域模式的所述提取还包括: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点，确定与所述视频画面的一部分相关联的检查窗口，将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣的区域，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定焦点区域单元的特征焦点深度值，确定位于所述检查窗口内的个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多个索引类型。
9.如权利要求1所述的方法，其特征在于，在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分。
10.如权利要求1所述的方法，其特征在于，在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分，并且其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准；以及其中所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其中所述不同的译码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，以及将整数运动补偿对分数运动补偿应用到不同的区域；其中所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，以及将不同的预测和变换大小应用到不同的区域；以及，其中所述不同的译码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，以及将不同的量化参数应用到不同的区域。
11.如权利要求1所述的方法，其特征在于，进一步包括: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及至少部分地基于区域单元的所述类型，选择性地分区所述视频画面。
12.如权利要求1所述的方法，其特征在于，进一步包括: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值。
13.如权利要求1所述的方法，其特征在于，进一步包括: 其中所述感兴趣区域模式的所述提取还包括: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定与所述视频画面的一部分相关联的检查窗口，将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定所述焦点区域单元的特征焦点深度值，确定位于所述检查窗口内的个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多个索引类型；其中所述视频画面的所述分区还包括: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则，至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值，以及其中在编码期间，所述视频画面的所述分区包括至少部分地基于所述感兴趣区域模式，将所述视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分；以及其中在解码期间，所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装所述视频画面；其中在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分，以及，其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准；其中所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其中所述不同的译码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，以及将整数运动补偿对分数运动补偿应用到不同的区域；其中所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，以及将不同的预测和变换大小应用到不同的区域；以及，其中所述不同的译码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，以及将不同的量化参数应用到不同的区域。
14.一种用于在计算机上进行视频译码的系统，包括: 被配置成呈现视频数据的显示设备；通信地耦合到所述显示设备的一个或多个处理器；通信地耦合到所述一个或多个处理器的一个或多个存储器存储；感兴趣区域提取逻辑模块，其通信地耦合到所述一个或多个处理器并被配置成提取视频画面的感兴趣区域模式，其中至少部分地基于与所述视频画面相关联的一个或多个相机参数和深度图，提取所述感兴趣区域模式；画面感兴趣区域分区逻辑模块，其通信地耦合到所述感兴趣区域提取逻辑模块并被配置成至少部分地基于所提取的感兴趣区域模式来分区视频画面，其中所述经分区的视频画面包括一个或多个感兴趣区域和一个或多个不感兴趣区域；以及译码器，其通信地耦合到所述画面感兴趣区域分区逻辑模块并被配置成译码所述一个或多个感兴趣区域和所述一个或多个不感兴趣区域。
15.如权利要求14所述的系统，其特征在于，所述译码器包括3D解码器。
16.如权利要求14所述的系统，其特征在于，在编码期间，对所述视频画面的所述分区包括将所述视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分。
17.如权利要求14所述的系统，其特征在于，在编码期间，对所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装所述视频画面。
18.如权利要求14所述的系统，其特征在于，所述感兴趣区域提取逻辑模块进一步被配置成: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点，确定与所述视频画面的一部分相关联的检查窗口，以及将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域。
19.如权利要求14所述的系统，其特征在于，所述感兴趣区域提取逻辑模块进一步被配置成: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图，确定焦点区域单元的特征焦点深度值，确定个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域。
20.如权利要求14所述的系统，其特征在于，所述感兴趣区域提取逻辑模块进一步被配置成: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定焦点区域单元的特征焦点深度值，确定个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多个索引类型。
21.如权利要求14所述的系统，其特征在于，所述感兴趣区域提取逻辑模块进一步被配置成: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定与所述视频画面的一部分相关联的检查窗口，将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定焦点区域单元的特征焦点深度值，确定位于所述检查窗口内的个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多个索引类型。
22.如权利要求14所述的系统，其特征在于，在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分。
23.如权利要求14所述的系统，其特征在于，在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分，并且其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准；以及其中所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其中所述不同的编码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，以及将整数运动补偿对分数运动补偿应用到不同的区域；其中所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，以及将不同的预测和变换大小应用到不同的区域；并且其中所述不同的译码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，以及将不同的量化参数应用到不同的区域。
24.如权利要求14所述的系统，其特征在于，所述画面感兴趣区域分区逻辑模块进一步被配置成: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及至少部分地基于区域单元的所述类型，选择性地分区所述视频画面。
25.如权利要求14所述的系统，其特征在于，所述画面感兴趣区域分区逻辑模块进一步被配置成: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则；以及至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值。
26.如权利要求14所述的系统，其特征在于，进一步包括: 其中所述感兴趣区域模式逻辑模块的所述提取进一步被配置成: 至少部分地基于所述相机参数确定相机焦点，至少部分地基于所述相机焦点确定与所述视频画面的一部分相关联的检查窗口，将位于所述检查窗口外面的任何区域单元指定为所述感兴趣区域模式的不感兴趣区域，至少部分地基于所述相机焦点确定焦点区域单元，至少部分地基于所述深度图确定所述焦点区域单元的特征焦点深度值，确定位于所述检查窗口内的个体区域单元的区域单元深度值，至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的比较，将位于所述检查窗口内的任何区域单元指定为所述感兴趣区域模式的感兴趣区域或不感兴趣区域，以及至少部分地基于所确定的区域单元深度值与所述特征焦点深度值的所述比较，进一步将所述感兴趣区域模式的感兴趣区域区域单元指定为属于两个或更多个索引类型；其中所述画面感兴趣区域分区逻辑模块进一步被配置成: 区分第一类型的区域单元和不同于所述第一类型的第二类型的区域单元，其中所述第一和第二类型的区域单元基于下列准则中的一个或多个而不同:切片级别准则、画面级别准则，以及视图级别准则，至少部分地基于下列准则中的一个或多个，至少部分地基于区域单元的所述类型，选择性地分区所述视频画面:应用分区对不应用分区，应用不同的区域单元大小，应用不同的检查窗口大小，以及应用同所确定的区域单元深度值与所述特征焦点深度值的所述比较相关联的不同的阈值，以及，其中在编码期间，所述视频画面的所述分区包括至少部分地基于所述感兴趣区域模式，将所述视频画面拆分为一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分；并且其中在解码期间，所述视频画面的所述分区包括从一个或多个感兴趣区域画面部分和一个或多个不感兴趣区域画面部分组装所述视频画向；其中在译码期间，通过与应用于所述一个或多个感兴趣区域画面部分的第二标准不同的第一标准，来译码所述一个或多个不感兴趣区域画面部分，并且其中所述第二标准包括应用于所述一个或多个感兴趣区域画面部分的第一索引类型的第一子标准和应用于所述一个或多个感兴趣区域画面部分的第二索引类型的第二子标准；并且其中所述第一标准、所述第二标准、所述第一子标准和/或所述第二子标准至少部分地基于下列准则中的一个或多个而不同:不同的译码工具、不同的约束，以及不同的译码策略；其中所述不同的编码工具至少部分地基于下列准则中的一个或多个而不同:将无损对有损译码应用到不同的区域，将整数运动补偿对分数运动补偿应用到不同的区域；其中所述不同的约束至少部分地基于下列准则中的一个或多个而不同:将不同的参考画面数量限制应用到不同的区域，以及将不同的预测和变换大小应用到不同的区域；并且其中所述不同的编码策略至少部分地基于下列准则中的一个或多个而不同:将用于运动估计的不同的搜索范围应用到不同的区域，以及将不同的量化参数应用到不同的区域。
27.至少一个机器可读介质，包括: 多个指令，响应于在计算设备上执行，所述多个指令导致所述计算设备执行如权利要求1-13中的任一项所述的方法。
28.—种设备,包括: 用于执行如权利要求1-13中的任一项所述的方法的装置。
【文档编号】H04N13/00GK104335588SQ201280073710
【公开日】2015年2月4日申请日期:2012年7月4日优先权日:2012年7月4日
【发明者】张文豪, 邱怡仁, 徐理东, 韩钰, 邓智玭, 蔡晓霞申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文豪;邱怡仁;徐理东;韩钰;邓智玭;蔡晓霞
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。