用于有损和无损图像压缩的基于形状自适应模型的编解码器的制作方法

文档序号：15885977发布日期：2018-11-09 18:53阅读：173来源：国知局

本申请要求2016年2月26日提交的序列号为62/300,502的美国临时申请的权益，所述美国临时申请据此通过引用以其全部被并入，包括任何图、表格或附图。

本发明涉及在诸如电视广播或电影之类的场景中的视频序列内的对象中的形状信息的压缩，所述形状信息诸如二进制形状、抠像（matte）或软分割图像。它提供形状信息的无损和有损编码二者，并且因而允许在比特率和形状表示准确性（分辨率）之间的折衷。帧内和帧间编码还可用于进一步改善压缩中的编码效率。

背景技术

形状中的主要不连续性一般以形状图像的形式表示，所述形状图像中的每一个是对由主要不连续性所限定的前景和背景的量进行指示的图像。这也被称为抠像或软分割图像，并且在蓝屏技术中通常用于限定特定像素位置处的前景的量。它可以是具有范围从0到255的值的8位图像，该值指示此像素的软成员关系或不透明度，其中0没有贡献（即透明）并且255具有全贡献（即完全被看到）。如果仅仅需要对象的几何形状，那么形状图像可以被简化成二进制图像，其具有取值0或1的像素，这也被称为二进制形状/二进制阿尔法平面。该后者在可用比特率受限的时候在数据压缩中是令人感兴趣的。

迄今为止，不存在特别地特制用于对抠像和软分割图像进行编码的形状编解码器。它们通常被看作灰度图像，并且通过使用图像压缩算法来被编码。这样的途径不能在压缩中利用抠像和软分割图像的结构冗余性。对于二进制形状，存在两种现有技术编码途径，即基于轮廓的方法以及基于块的方法。在基于轮廓的方法中，形状的轮廓首先被顺时针（或逆时针）追踪，并且被分割成多个线段，作为最小处理单元。编码和解码过程顺序地被应用到每个单元使得形成轮廓。这后面是填充过程，用于重构原始形状信息。然而，基于轮廓的方法的主要缺点是它们需要相当大的预处理；然而，它们的压缩比低于基于块的方法在其无损模式中的压缩比。结果，基于块的方法更普及。

在基于块的途径中，二进制形状由相同大小的矩形所限制，所述相同大小的矩形包括视频对象平面（vop）、亦称限位框（boundingbox）的形状。这样的矩形将稍后被划分成规则的宏块、亦称微处理单元，在其中的每一个中，像素的阿尔法值通过使用熵编码方法被编码/解码。然而，基于块的途径的主要限制是采用具有相同大小的块，并且它们在相同的方向中被对准。因此，块中的一些可能不可避免地不包含任何涉及轮廓的信息，但是它们仍消耗存储空间（冗余块）。这些冗余通常限制基于块的方法的压缩比，尤其是在高分辨率图像中。

技术实现要素：

本发明被设计成提供一种用于视频形状编解码器的解决方案，其需要更多的比特率灵活性并且还提供更好的视觉品质以及形状细节。存在本发明的许多应用，包括深度图（depthmap）压缩以用于在3d视频处理中的视图合成。通过应用本发明的技术，经重构的边缘的不准确性可以进一步根据其纹理而被调节。特别地，本发明的形状编解码器可以调节比特率，而同时最小化形状边界上的不准确性，所述形状边界上的不准确性引起视觉伪像（artifact），尤其是在图像包含复杂纹理的情况下。在这样的情况中，形状边界（如果形状伴随有纹理的话）可以根据其纹理而利用不同的准确性水平来被编码，用于减小伪像的数目。

在许多应用、诸如视频压缩中，对象形状必须被压缩。mpeg-4中的常规形状编码基于如下编码：基于上下文的算术编码（cae），其是用于对待编码的所期望对象形状的二进制阿尔法平面进行压缩的高效无损方法。然而，如以上所指出的，基于块的途径的主要限制是采用具有相同形状的块，并且它们在相同的方向中被对准。因此，块中的一些可能不可避免地包含全0或255。尽管一些基于块的方法可以用于压缩这样的数据，但是相当大量的冗余将仍留在所传输的数据中。在诸如1080p或4k分辨率的hd视频中，这样的冗余可能很大，并且因而需要许多存储空间。在有损压缩模式中，它们使宏块的分辨率降级并且减少待存储的信息。这导致令人烦扰的阶梯效应（混叠）。另一方面，轮廓途径仅仅使用顶点和参数曲线来近似对象形状。作为结果，它不能捕获非平滑边缘的不可预测的或随机的波动。

相比于这些常规方法，本发明所提出的基于形状自适应模型（sam）的编解码器不仅支持原始形状的参数模型表示，而且还允许通过使用差分脉冲码调制（dpcm）或其它基于块的方法来对残余误差进行编码。作为结果，本发明通过将二进制阿尔法平面划分成确定性和随机性的分量能够实现高压缩品质，并且提供在无损和有损压缩模式之间进行选择的灵活性。此外，其确定性分量在需要平滑过渡的许多图像/视频应用中也是有效的。

不像常规方法，本发明的基于形状自适应模型的编解码器（sam）可以具有以下区别性特征中的一些或全部：

1.不像仅仅支持二进制形状/二进制阿尔法平面的常规形状编解码器，本发明能够对二进制形状、抠像和软分割图像进行编码。为了在二进制形状图像的情况中支持半透明对象，所提出的发明还包括对象的均值不透明度。将根据输入以及辅助数据的其它基本信息来估计边界处的确切不透明度。通常，在二进制形状图像的情况中可以包括不透明度的更多简化。在对实值抠像和软分割图像进行编码中，如果抠像的变化非常小，则它将仅仅通过使用均值来被表示并且将以与二进制形状类似的方式被编码。否则，可以通过使用基于块的图像编码技术被编码的非重叠的块将用于通过使用所提出的sam来对实值抠像进行编码。用于对抠像和软分割数据进行编码的能力允许前景和背景中对象的重叠。这为用户提供更多的灵活性来应对对象的遮挡，例如通过使用经修复（in-painted）的数据，这导致3d渲染中对象的更佳的重构。

2.形状被分解成确定性和随机性的分量以用于灵活的有损和无损的编码。并非是无损且依赖于概率途径的常规二进制阿尔法平面编码，所提出的编解码器将形状分解成确定性和类任意（random-like）的随机性分量。前者产生于对象、诸如人造对象的几何性质，所述人造对象可以通过参数模型、比如样条曲线和多边形来被更好地表示；而对于后者，它用于表示类任意的分量，诸如羽毛、毛发等等。

3.提出了一种用于标识确定性和随机性的分量的灵活过程。特别地，提出了一种方法用于根据对象的形状来标识确定性和随机性的分量及其块大小。此外，它提供了用于为每个分量在无损和有损压缩模式之间进行选择的灵活性。不像常规方法，本发明允许在针对每个分量的压缩比和品质之间的折衷，这在高分辨率应用中是必要的。

4.在预设的准确性内对形状的轮廓进行建模的确定性分量不仅提供形状的压缩表示，而且还允许类似形状的有效配准。参数模型的连续性质此外允许在比如图像超分辨率、帧率上转换、形状变形等等之类的应用中的平滑过渡。

5.如果需要无损压缩，则可以通过使用算术编码或其它方法来对随机分量进行编码。可替换地，形状可以被抽取成较低分辨率形状图像并且在上转换之前被编码。该过程是有损的但是一般导致较高的压缩比。特别地，提议当基于块的方法被应用于压缩随机分量的时候采用旋转微处理单元。这能够导致在随机分量压缩比中的显著增加。

6.本发明允许执行相关形状的预测和编码的能力，所述相关形状例如在邻近的视图或时刻处。这通过探索类似形状之间的统计冗余性而允许所提出的编解码器改善压缩比。

附图说明

当结合以下详细描述和所附附图来被考虑的时候，本发明的前述和其它目的以及优点将变得更明显，在所述附图中，同样的名称在各个视图中标明同样的元素，并且其中：

图1是前景或背景的修复的示例，其中图1（a）示出了原始前景；图1（b）示出了未知区域处的经修复的前景；图1（c）示出了原始背景；并且图1（d）示出了未知区域处的经修复的背景；

图2是在将形状一个接一个地插入到sam形状编解码器中用于压缩之前将输入形状划分成形状层的示例；

图3是本发明的sam编解码器的概览；

图4图示了用于标识二进制形状的确定性和随机性分量的过程；

图5示出了如在本发明的情况下使用的帧间预测的示例；

图6是本发明的离散随机分量的示例；

图7是本发明的数据结构的示例；以及

图8图示了用于证明本发明的概念应用的数据集内的若干图像。

具体实施方式

图像是视觉感知的表示，其可以是二维（2d）的，诸如照片或屏幕显示。它还可以是三维（3d）的，诸如立体图像。通常，3d图像也可以被表示为多个2d图像，或具有变形/深度图的2d图像。因此，为了简单可以针对2d图像来考虑本发明的形状处理。然而，通常，这些处理技术还可以被扩展到3d或立体图像的处理。

为了理解本发明的技术，理解修复是有帮助的。图1是演示了此概念的事物的图示。修复（也已知为图像内插或视频内插）指的是应用复杂的算法来替代图像数据的丢失或受损的部分（主要是小区或小缺陷）。图1（a）和（c）分别示出了原始的前景和背景。注意到在前景和背景二者上都存在已经缺失的一些区域。这可能由用于处理图像的抠像或分割工具所引起。为了估计这些区域的可能的前景和背景纹理，采用图像修复来创建对应的纹理，如图1（b）和（d）中所示。因而，图1（a）示出了原始的前景，而图1（b）示出了某些区域处的经修复的前景。注意在狗脸右侧以及在狗腿左侧的附加前景元素。图1（c）示出了具有在左侧和右侧的随机缺陷的原始背景。图1（d）示出了用于移除那些缺陷的修复。

图2示出了输入形状的示例。从图中，可以看到二进制形状可以被划分成不同的层，所述不同的层可以包含多个对象。每个对象可以被表示为形状和孔洞。

图3示出了所提出的编解码器的概览。其编码过程一般可以被划分成如下的三个主要步骤：

1.将输入形状分离成不同的层和对象：给定二进制阿尔法平面（图3中的二进制形状输入），所述二进制阿尔法平面可以可能地包含指示具有预定义索引的若干对象的多层，输入形状信息可以首先被分离成多层。在每个层（图3中的层1,2…k…k）内，可存在一些孤立的对象（非0并且拓扑地未连接、既不4-连接也不8-连接的区）。在这样的情况中，对象可以被分离并且被顺序地处理。对于包含孔洞（图3中的孔洞1,…n）的对象中的每一个，可以从表示中减去这些孔洞，如我们从图1的图像中可以看到的。

更精确地，对象的表示可以被给出为：

(1)

其中是第m个对象的形状，，由原始形状的外边界所限定，其等同于已经经历形态学填充过程的原始形状，是第m个对象内的孔洞，其是在先前提及的形态学填充过程下被填充的区，并且根据其大小被以降序布置。

2.标识确定性和随机性分量：在获得了形状和孔洞之后，如图2中所示，提出一种方法来根据对象的形状来标识确定性和随机性分量及其块大小。以下讨论关于如何标识这些分量的细节。

3.对确定性和随机性分量进行编码：不同的方法可以用于进一步压缩所述确定性和随机性分量。前者产生于对象、诸如人造对象的几何性质，所述人造对象可以通过参数模型、比如样条曲线和多边形来被更好地表示。而对于后者，它用于表示类任意的分量，诸如羽毛、毛发等等。特别地，当基于块的方法被应用于压缩随机性分量的时候，本发明采用旋转微处理单元。以下讨论如何可以对确定性和随机性分量进行编码的细节。

标识确定性和随机性分量

在根据本发明的方法中，第一步骤可以是获得固体形状的边界。例如，可以通过如下来在形状上执行形态学滤波：移除在该处其4-连接的邻居是非零的所有像素，因而留下8-连接的边界像素。边界上的所有顶点可以被遍历并且被存储在点列表中。可以根据点列表的集合而生成线段。然后，可以执行以下两个步骤来获得确定性和随机性的分量：

1.从对象中提取线段：可以通过使用多边形拟合过程、例如迭代地使用多边形拟合过程来获得线段，包括顶点，直到线拟合误差超过某个容差为止。然而，优选地，该过程应当被直接地应用到该问题，因为随机性分量可具有大拟合误差，其可超过所指定的容差。为了克服该限制，根据本发明的新方法可以用于如下对形状轮廓进行分割：

a.对于形状轮廓上的每个像素，可以采用滑动的窗口来包括其邻居像素使得由像素及其邻居所形成的线段的平滑度可以被测量，例如通过比较其最小二乘拟合误差。因而，该拟合误差可以被指派给像素，作为平滑度。

b.从每个像素获得的平滑度然后可以被聚类成两个群组。相同群组中的邻近像素可以被连接在一起以形成线段。

2.标识确定性和随机性分量：在获得了线段之后，参数模型、诸如多边形、分段多项式、b-样条等等可以用于对线段进行拟合。由于确定性分量一般是平滑的并且可以由参数模型更好地表示，所以结果得到的近似误差一般将比随机性分量的近似误差小得多。通过比较近似误差与某个阈值，线段可以被分离成确定性和随机性分量。图4示出了利用近似误差测量来对确定性和随机性分量进行标识的示例，所述近似误差测量诸如误差与段长比（elr），分别通过和来被标明。如图4中所示，利用线段来对不规则形状的边界进行绘制。利用中度和高度放大二者来示出边界的一部分。在其中在线段和对象边界之间的差异很小的情况中，分量是确定性的（确定性分量中的箭头）。在其中差异很大的情况中，分量是随机性的（随机性分量中的箭头）。

标识分量的关键是确定合适的阈值（在图4中以很大程度被放大的视图中箭头示出了差异）。为此，采用统计检测测试、诸如z-测试来确定这些阈值。阈值可以被选择为，其中是根据统计测试所确定的自适应阈值，并且是用户指定的最大容差误差以确保某种压缩品质。选择自适应和用户指定的阈值中的最小值、即的优点是它提供在自适应和用户指定的阈值之间切换的灵活性。当对象的形状一般是类任意的时候，可以甚至大于用户指定的容差。一般将有益的是盖写自适应阈值并且将线段中的大多数标注为随机性分量。这确保所有分量将能够满足所指定的容差，因为超过所指定容差的随机性分量可以利用无损压缩被编码，而确定性分量可以由参数模型的参数来被表示，并且近似误差将小于所指定的容差的近似误差。否则，当对象一般是平滑的并且可以由参数模型很好地表示的时候，将很小，并且线段中的大多数将被标识为确定性的，除了某些偶然的类任意的线段，其将具有超过阈值的elr。

更特别地，假设存在个对象，对象中的每一个包含个顶点，并且在滑动窗口中执行了最小二乘拟合之后，像素中的每一个被指派有均方误差。执行聚类以将划分成两个群组。属于相同群组的邻近像素被接合以形成线段，并且这些像素的的均值、其被标明为，是结果得到的线段的平滑性度量。假设为对象中的每一个获得个段，取以下的度量以用于标识确定性和随机性分量，即误差与段长比（elr），

(2)

其中是第k个线段的顶点的总数目。当线段可以由参数模型、比方说b-样条、贝塞尔曲线等等很好地表示的时候，将很小，并且段中包括的顶点的数目可以很大。这将导致小的elr，并且因此它可以被视为确定性分量。否则，类任意的段、诸如羽毛或毛发将具有大的近似误差，并且于是应当被视为随机性分量。

统计检测测试、诸如位置测试可以用于确定第k个线段是确定性的还是随机性的。例如，elr可以被写为，其中并且，以及自适应阈值，其可以根据对象的平滑性被更新并且被获得作为。

，以及(3)

(4)

其中是第m个对象的的鲁棒尺度估计，是遗忘因子，并且是与高斯分布的上百分位相对应的阈值四分位数参数。因此，参数的概率。对于0.05的显著性水平，可以选择。是中值运算符。可以采用以下的鲁棒z-测试作为用于标识确定性或随机性分量的判定规则。

如果，

则第k个线段是随机性的。(5)

其中阈值提供从自适应阈值或用户指定的阈值切换的灵活性。

确定性分量的编码

在标识了确定性分量之后，确定性分量的形状可以进一步通过使用参数模型、比方说多边形、分段多项式、b-样条等等来被表示。更特别地，第k个线段上的像素的坐标，可以被建模为

(6)

其中是对顶点数目j与第j个顶点的坐标之间的关系进行描述的函数。通常，此概念可以被一般化成较高维度中的顶点，诸如3d坐标。是一向量，其包含针对第k个线段的函数的参数。例如，如果使用样条模型，则可以包含样条曲线的控制结以及所选次序。是近似误差，并且它可以用于标识确定性和随机性分量。第k个确定性分量可以由参数表示。

可以执行邻近分量的参数的帧内/帧间预测以进一步增大压缩比。例如，如果参数是整数，诸如顶点的定位，则它们可以被顺序地编码并且其定位因而可以被表示为其在先顶点的定位加上位移。通常，如果位移的大小比顶点的坐标的大小（范围从0到图像的大小）小得多，则将需要较少的位来对位移进行编码，并且这将在实践中减小存储。帧内预测类似于帧间预测，但是以如下方式不同：位移被检索。在该情况中，位移由p帧中的当前顶点与i帧中的最近顶点的坐标之间的差来限定。在实践中，在帧间模式和帧内模式之间的选择将由位移值来确定。帧间顶点预测类似于帧内预测的，除了在帧间预测中参考顶点不是以顺序的次序而是通过使用迭代最近点（icp）或自由形式变形（ffd）来被计算为参考帧中的最近对应顶点。给定对应的参考顶点，预测的顶点可以被表示为参考顶点加上位移，类似于在帧内顶点预测中的。

而对于邻近分量的实值参数、例如参数模型的系数的帧内/帧间预测，当前分量的实值参数被视为参考参数，用于预测后续分量的系数。然后，预测残差被编码并且被存储，而不是原始系数。如果预测残差的范围比原始系数的范围小得多，则可以实现高压缩比。更精确地，可以首先对实值参数进行缩放并且将其量化成定点整数。然后，预测残差、即在当前分量的参数与后续分量的参数之间的差被计算并且存储。例如，可以采用可变尺度以及差分类别编码途径以用于浮点参数的类别的帧内预测，其探索参数的次序之间的冗余，并且能够进一步改善帧内预测的压缩比。参数模型系数的帧间预测可以类似地被实现。

参数表示、也已知为确定性分量，给出形状有损压缩中的更多灵活性。形状可以容易地被下采样和上采样而不生成阶梯效应或块伪像。此外，边界的参数表示是连续的。因此，它不仅允许曲线内的任意数目的内插边界点，而且它在用于平滑形状过渡的形状配准中也是有效的。作为结果，它可以在诸如无线网络和移动电话网络上的视频流传输和实况广播之类的应用中被采用，所述无线网络和移动电话网络与有线网络的带宽相比具有低得多的带宽，并且因此需要视频内容的高压缩比来实现流传输中的低等待时间。此外，还可以通过使用形状的参数表示来直接地实现比如超分辨率或变形之类的图像和视频处理技术。

随机性分量的编码

在本发明的sam编解码器中，随机性分量可以通过使用例如基于块的方法或链式码来被编码。类似于确定性分量的，取决于所选的编码方法，例如基于内容的算术编码，用户可以指定块大小以实现所期望的无论什么编码性能。因而，在编码开始之前，程序应当进一步打断每个随机性分量以拟合于块大小bs。

如果随机性分量通过使用基于块的方法（图6）被编码，则可以使用具有可变大小的旋转微处理单元。单元的定向可以被优化以用于实现针对基于块的方法、诸如熵编码或基于内容的算术编码算法的高压缩比。这与常规基于块的方法形成对比，其中的微处理单元被水平地或垂直地对准，并且因此由于一些不包含形状信息这一事实，在微处理单元之间存在更多的冗余。其它方法、比如链式码或dpcm也可以被应用于对残差进行编码。随机性分量中的编码方法的该可互换的性质给予本发明的编解码器在不同应用中的比特率控制的更多灵活性。

随机性分量的编码允许用户在无损或有损压缩模式之间进行选择。在需要无损压缩中，它可以通过使用算术编码或其它方法来被编码。可替换地，形状可以被抽取成更低分辨率形状图像并且在上转换之前被编码。该过程是有损的，但是通常导致更高的压缩比。

对于随机性分量的帧间/帧内预测，可以执行与针对确定性分量的顶点预测相类似的预测，用于估计分量区的起始点和终点的定位。通过链式码或基于块的方法被编码的分量本身可以应用其帧间预测方法。特别地，为了压缩时间和空间冗余性，分量区的定位可以通过先前编码的值来被预测，如帧内/帧间预测。根据本发明的编解码器可以使用任何常规的编码方法来压缩随机性和确定性分量，诸如链式码或基于块的方法。例如，如果cae被应用于随机性分量压缩，则可以采用用于帧间预测的块匹配方法。

模式选择

在本发明的sam编解码器中，形状可以被分离成两个主要分量：随机性分量和确定性分量。通常，对于形状边界中的每个分量，用户自由地在无损和有损压缩模式之间进行选择。例如，可以做出选择以在有损模式中对确定性分量进行编码并且在无损模式中对随机性分量进行编码。因而，将在具有波动的长曲线上获得平滑边界，而仍维持复杂边界，其也称为随机性分量。另一方面，如果不允许形状信息的任何损失，则用户可以选择编解码器的无损模式。在该情况中，为了简化，编解码器将所有线段视为随机性分量。

数据结构

图7示出了压缩数据的数据结构。它包括开销和随机性分量。开销包含报头文件、微处理单元（即分量）的起始点和终点，以及其它信息，诸如均值不透明度。如果选择确定性分量，则分量内容将包含参数模型的参数。否则，它将包含从针对随机性分量的所选编码算法中获得的经编码的数据。

实验结果

表1示出了在本发明的sam编解码器和cae方法之间的无损压缩的实验结果，所述cae方法是用于压缩的现有技术无损算法。为了做出公平的比较，仅仅将sam编解码器的无损压缩模式与cae方法进行比较，因为它是无损算法。本发明的编解码器可以具有的区别性特征是在无损和有损压缩模式之间进行选择中的灵活性。

在实验中，线性模型用于确定性分量建模，因而在标识之后将不存在任何确定性分量，而是通过边界分割所分离的随机性分量。随机性分量进一步被分离成更小的块，并且cae用于随机性分量编码。块大小、bs在实验中被设置成10个像素。实验比较在mpeg4中使用cae方法。从表i中可以看到本发明的无损压缩具有比cae方法一般更好的性能。

表1.无损压缩结果（字节）

虽然本发明已经参考其优选实施例被特别地示出和描述，但是本领域技术人员将理解的是可以在其中做出形式和细节中的各种改变而不偏离本发明的精神和范围。另外，可以做出许多修改来将特定情形适配到所要求保护的主题的教导，而不偏离本文中所述的中心概念。因此，意图的是：所要求保护的主题不被限于所公开的特定示例，而是这样的被要求保护的主题还可以包括落入所附权利要求的范围内的所有实现方式，及其等同物。

参考文献

以下文献通过引用在如下程度上被并入：它们不与本文中公开的教导不一致。

ostermann,j.“coreexperimentsonmpeg-4videoshapecoding,”internationalstandardsorganization（国际标准组织）,iso/iec/jtci/sc29/wg11n1584(1997).

rabbani等人,“digitalimagecompressiontechniques,”spie,int.soc.opt.eng.,(1991).

brandy等人,“context-basedarithmeticencodeof2dshapesequences,”specialsessiononshapecoding（关于形状编码的特别会议）,icip97(1997).

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈成就;林舟驰;廖晏羚
技术所有人：港大科桥有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。