对帧内预测使用自适应dct/dst的低复杂度变换编码的制作方法

文档序号:7884978阅读:257来源:国知局
专利名称:对帧内预测使用自适应dct/dst的低复杂度变换编码的制作方法
技术领域
本申请总体上涉及一种视频编码器/解码器(编解码器),更具体地说,涉及一种用于实现基于模式的DCT/DST视频编解码器的方法和设备,其中,离散余弦变换(DCT)和离散正弦变换(DST)基于帧内预测残差能量或简单地基于帧内预测模式而被选择。
背景技术
大多数现有的图像和视频编码标准(诸如JPEG、H.264/AVC、VC-1以及即将到来的下一代视频编解 码器标准HEVC (高效率视频编码))采用基于块的变换编码作为工具来有效地压缩输入图像和视频信号。以逐块为基础使用变换处理来将像素域数据变换到频域。对于典型的图像,大部分能量被集中在低频变换系数中。在变换之后,更大步长的量化器可被用于更高频率的变换系数,以便更有效地压缩能量并获得更好的压缩。因此,需要为每个图像块设计最佳变换来对变换系数完全去相关。卡胡南-洛夫(Karhunen Loeve)变换(KLT)在例如高斯信号的高分辨率量化和变换系数的完全去相关方面具有若干有吸引力的特性。然而,由于KLT的高计算复杂度,KLT的实际使用受到限制,并且,已由K.R.Rao和P.Yip(1990)在“Discrete cosine transform-algorithms, advantages and applications,,中示出离散余弦变换(DCT)在接近于KLT的能量压缩和性能方面提供对于KLT的有吸引力的替代。但是随着帧内预测的出现,不再是这种情况,并且最佳变换应该适用于帧内预测模式。在正在进行的HEVC的标准化中,除了标准DCT之外,非传统变换正被研究以用于中贞内预测残差(Robert Cohen 等人,“Tool Experiment :MDDT Simplification,,,ITU-TJCTVC-B307,瑞士,日内瓦,2010年7月)。这些变换可大致被分类为两种类别:(a)基于训练的变换和(b)基于模型的变换。在基于训练的变换之中突出的是基于模式的方向变换(MDDT) (Y.Ye 和 M.Karczewicz, “Improved Intra coding”,ITU-T Q.6/SG-16VCEG,VCEG-AG11,中国,深圳,2007年10月)。在MDDT中,为每个帧内预测模式收集误差残差的大的训练集,然后使用残差训练集来计算最佳变换矩阵。然而,MDDT需要大量的变换矩阵——在块大小N=4和N=S的情况下需要多达18个变换矩阵。另一种类别的基于模型的变换假设视频信号将被建模为一阶高斯-马尔可夫过程,然后分析得出最佳变换。这些基于模型的变换在块大小下需要两个变换矩阵。在 J.Han、A.Saxena 和 K.Rose,“Towards jointly optimal spatial predictionand adaptive transform in video/image coding,,,IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP), 726-729 页,2010 年 3 月中,如在 H.264/AVC 中的巾贞内预测(T.Wiegland、G.J.Sullivan, G、Bjontegaard 和 A.Luthra,“Overview of the H.264/AVC video coding standard”,IEEE Transactions on Circuitsand Systems for Video Technology, 2003年7月)中,当边界信息在一个方向上可用时,针对一阶高斯-马尔可夫模型以不同于传统DCT的频率和相位分量来分析得出离散正弦变换(DST)0它们还表明:如果没有沿特定方向执行预测,则DCT性能接近于KLT。此构思被应用到H.264/AVC中的帧内预测中的垂直模式和水平模式,并且所提出的DST和传统DCT的组合被适应性地使用。已通过将DST和DCT的组合应用到H.264/AVC中的其它七种预测模式来在没有理论证实的情况下尝试实验性地扩展类似的构思,且所述尝试已表明:与MDDT相比,性能方面仅存在较小的损失(C.Yeo、Y.H.Tan、Z.Li 和 S.Rahardja, “Mode-dependentfast separable KLT for block-based intra coding”,ITU-T JCTVC-B024,瑞士,日内瓦,2010 年 7 月)。此外,DST矩阵应被适当地缩放以考虑量化缩放矩阵的影响。现有技术没有描述在HEVC中的实现中对DST矩阵系数的改变以使得缩放与DCT匹配。因此,本领域中需要提高压缩效率并采用低复杂度变换的改进视频编解码器。

发明内容
技术问题在正在进行的HEVC的标准化中,除了标准DCT之外,非传统变换正被研究以用于中贞内预测残差(Robert Cohen 等人,“Tool Experiment :MDDT Simplification,,,ITU-TJCTVC-B307,瑞士,日内瓦,2010年7月)。这些变换可大致被分类为两种类别:(a)基于训练的变换和(b)基于模型的变换。在基于训练的变换之中突出的是基于模式的方向变换(MDDT) (Y.Ye 和 M.Karczewicz, “Improved Intra coding”,ITU-T Q.6/SG-16VCEG,VCEG-AG11,中国,深圳,2007年10月)。在MDDT中,为每个帧内预测模式收集误差残差的大的训练集,然后使用残差训练集来计算最佳变换矩阵。然而,MDDT需要大量的变换矩阵——在块大小N=4和N=S的情况下需要多达18个 变换矩阵。另一种类别的基于模型的变换假设视频信号将被建模为一阶高斯-马尔可夫过程,然后分析得出最佳变换。这些基于模型的变换在块大小下需要两个变换矩阵。在 J.Han、A.Saxena 和 K.Rose,“Towards jointly optimal spatial predictionand adaptive transform in video/image coding,,,IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP), 726-729 页,2010 年 3 月中,如在 H.264/AVC 中的巾贞内预测(T.Wiegland、G.J.Sullivan, G、Bjontegaard 和 A.Luthra,“Overview of the H.264/AVC video coding standard”,IEEE Transactions on Circuitsand Systems for Video Technology, 2003年7月)中,当边界信息在一个方向上可用时,针对一阶高斯-马尔可夫模型以不同于传统DCT的频率和相位分量来分析得出离散正弦变换(DST)0它们还表明:如果没有沿特定方向执行预测,则DCT性能接近于KLT。此构思被应用到H.264/AVC中的帧内预测中的垂直模式和水平模式,并且所提出的DST和传统DCT的组合被适应性地使用。已通过将DST和DCT的组合应用到H.264/AVC中的其它七种预测模式来在没有理论证实的情况下尝试实验性地扩展类似的构思,且所述尝试已表明:与MDDT相比,性能方面仅存在较小的损失(C.Yeo、Y.H.Tan、Z.Li 和 S.Rahardja, “Mode-dependentfast separable KLT for block-based intra coding”,ITU-T JCTVC-B024,瑞士,日内瓦,2010 年 7 月)。此外,DST矩阵应被适当地缩放以考虑量化缩放矩阵的影响。现有技术没有描述在HEVC中的实现中对DST矩阵系数的改变以使得缩放与DCT匹配。因此,本领域中需要提高压缩效率并采用低复杂度变换的改进视频编解码器。
技术方案根据本公开的一方面,提供一种用于解码视频的方法。从输入视频比特流确定帧内预测模式。根据输入视频比特流的帧内预测模式,将输入视频比特流的系数映射到MXN变换系数矩阵。根据帧内预测模式,对于变换系数矩阵,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为逆垂直变换,并确定应用DCT和DST中的第二个作为逆水平变换。通过将DCT和DST中的第一个用于逆垂直变换并将DCT和DST中的第二个用于逆水平变换来执行包括逆垂直变换和逆水平变换的逆变换,以计算将被用于重建视频的图像的误差预测残差的近似值。有益效果本公开旨在针对在用于视频的帧内编码中的各种预测模式在离散正弦变换(DST)和离散余弦变换(DCT)之间进行选择。基于帧内预测模式在DST和传统DCT之间进行选择将最佳地产生实质性的压缩增益。本公开的实施例使用低复杂度变换并仅需要一个DST变换矩阵,这将促使DST的快速实现。尽管将参照HEVC (高效率视频编码)标准来描述本公开的实施例,但是本领域的普通技术人员将认识到实施例也可适用于H.264/AVC标准。


为了更完整地理解本公开及其优点,现结合附图参考以下描述,其中,相同参考标号表不相同部件:图1A示出根据本公开的实施例的视频编码器的高层框图;图1B示出根据本公开的实施例的视频解码器的高层框图;图2是根据本公开的实施例的视频编码器的一部分的框图;图3A和图3B是示出根据本公开的实施例的使用类别I斜向模式预测图像像素的示图;图4是示出根据本公开的实施例的使用类别2斜向模式预测图像像素的示图;图5是示出根据本公开的实施例的使用DC预测模式预测图像像素的示图;图6是示出根据本公开的实施例的得出用于类别I斜向模式的变换的示图;图7A和图7B是示出根据本公开的实施例的得出用于类别2斜向模式的变换的示图;图8示出根据实施例的用于通过对帧内预测使用DCT/DST来编码视频比特流的处理;图9是根据本公开的实施例的视频解码器的一部分的框图;图10示出根据实施例的用于使用DCT/DST来解码视频比特流的处理;图11是示出根据本公开的实施例的通过将列划分为两个区域来使用类别2斜向模式预测像素的示图;图12是示出根据本公开的实施例的当列被划分为两个区域时得出用于类别2斜向模式的变换的示图;图13示出根据本公开的实施例的用于4点DST的DST类型4和DST类型7的基函数的图表;图14示出根据本公开的实施例的用于8点DST的DST类型4和DST类型7的基函数的图表。
具体实施例方式根据本公开的一方面,提供一种用于解码视频的方法。从输入视频比特流确定帧内预测模式。根据输入视频比特流的帧内预测模式,将输入视频比特流的系数映射到MXN变换系数矩阵。根据帧内预测模式,对于变换系数矩阵,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为逆垂直变换,并确定应用DCT和DST中的第二个作为逆水平变换。通过将DCT和DST中的第一个用于逆垂直变换并将DCT和DST中的第二个用于逆水平变换来执行包括逆垂直变换和逆水平变换的逆变换,以计算将被用于重建视频的图像的误差预测残差的近似值。根据本公开的另一方面,提供一种用于编码视频的方法。基于帧内预测模式对MXN的输入图像块(X)的输入矩阵执行帧内预测以产生预测/\_并获得MXN帧内预测残差矩阵(E)。根据帧内预测模式,对于E,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为水平变换,并确定应用DCT和DST中的第二个作为垂直变换。通过将DCT和DST中的第一个用作水平变换并将DCT和DST中的第二个用作垂直变换来执行包括水平变换和垂直变换的正变换,以计算变换系数矩阵(E2)。根据本公开的另一方面,提供一种用于解码视频的设备。所述设备包括反量化器和逆变换单元。反量化器根据输入视频比特流的帧内预测模式将从输入视频比特流获得的量化的变换系数索引映射到MXN变换系数矩阵。使用MXN变换系数矩阵和从输入视频比特流获得的帧内预测模式,逆变换单元根据帧内预测模式,对于变换系数矩阵,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为逆垂直变换,确定DCT和DST中的第二个作为逆水平变换,并通过将DCT和DST中的第一个用于逆垂直变换并将DCT和DST中的第二个用于逆水平变换来执行包括逆垂直变换和逆水平变换的逆变换,以计算误差预测残差的近似值。其中,逆变换单元被进一步配置为用于使用DCT和DST中的第一个对变换系数矩阵的N个列中的每一列执行逆垂直变换,并使用DCT和DST中的第二个对逆垂直变换的输出的M个行中的每一行执行逆水平变换,以计算误差预测残差的近似值。其中,逆变换单元被进一步配置为用于使用DCT和DST中的第二个对变换系数矩阵的M个行中的每一行执行逆水平变换,并使用DCT和DST中的第一个对逆水平变换的输出的N个列中的每一列执行逆垂直变换,以计算误差预测残差的近似值。其中,逆变换单元被进一步配置为用于当将DST用于逆垂直变换和逆水平变换中的至少一个时执行逆DST类型4。其中,逆变换单元被进一步配置为用于当将DST用于逆垂直变换和逆水平变换中的至少一个时执行逆DST类型7。其中,逆DST类型7是具有八次乘法的4X4逆DST类型7的快速实现。其中,调整逆DST类型7矩阵中的多个元素中的至少一个元素,使得所述多个元素共用公因子,将乘法的数量减少到五次。根据本公开的又一方面,提供一种用于编码视频的设备。所述设备包括统一帧内预测单元和变换单元。统一帧内预测单元基于帧内预测模式对MXN输入图像块(X)的输入矩阵执行帧内预测以产生交,并获得MXN帧内预测残差矩阵(E)。变换单元根据帧内预测模式,对于E,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为水平变换,确定应用DCT和DST中的第二个作为垂直变换,并通过将DCT和DST中的第一个用作水平变换并将DCT和DST中的第二个用于垂直变换来执行包括水平变换和垂直变换的正变换,以计算变换系数矩阵(E2)。其中,变换单元被进一步配置为用于使用DCT和DST中的第一个对E的M个行中的每一行执行水平变换,并使用DCT和DST中的第二个对水平变换的输出的N个列中的每一列执行垂直变换,以计算变换系数矩阵(E2)。其中,变换单元被进一步配置为用于使用DCT和DST中的第二个对E的N个列中的每一列执行垂直变换,并使用DCT和DST中的第一个对垂直变换的数据的输出的M个行中的每一行执行水平变换,以产生变换系数矩阵(E2)。其中,变换单元被进一步配置为用于当将DST用于水平变换和垂直变换中的至少一个时执行DST类型4。其中,变换单元被进一步配置为用于当将DST用于水平变换和垂直变换中的至少一个时执行DST类型7。其中,DST类型7是具有九次乘法的4X4DST类型7的快速实现。其中,调整DST类型7矩阵中的多个元素中的至少一个元素,使得所述多个元素共用公因子,将乘法的数量减少到五次。在进行以下的“本发明的模式”之前,阐明贯穿本专利文档使用的某些词语和短语的定义会是有利的:术语“包括”和“包含”及其派生词表示包括但不限于;术语“或”是包括的,表示和/或;短语“与…相关”和“与其相关”及其派生词可表示包括、被包括在内、与…互连、包含、被包含在内、被连接到或与…连接、结合到或与…结合、可与…通信、与…协作、交织、并列、接近、被绑定到或与…绑定、具有、具有…的特性等;并且术语“控制器”表示控制至少一个操作的任何装置、系统或其部件,这样的装置可利用硬件、固件或软件或它们之中的至少两项的一些组合来实施。应注意:与任何特定控制器关联的功能可按本地或远程的方式被集中或被分布。贯穿本专利文档,某些词语和短语的定义被提供,本领域的普通技术人员应该理解:在许多情况下(如果不是大多数情况下),这些定义适用于如此定义的词语和短语在以前和将来的使用。本发明的模式本申请涉及于2010年9月8日提`交的名为“LOW COMPLEXITY TRANSFORM CODINGUSING ADAPTIVE DCT/DST FOR INTRA PREDICTION” 的第 61/380991 号美国临时专利申请、于 2010 年 12 月 28 日提交的名为 “ON OPTIMALITY OF INTRA-PREDICTION MODE MAPPINGSAND LOCATION SPECIFIC CHOICE FOR ADAPTIVE DCT/DST” 的第 61/427758 号美国临时专利申请、于 2011 年 2 月 17 日提交的名为 “LOW COMPLEXITY ALTERNATE TO DST TYPE7INMODE-DEPENDENT DCT/DST FOR INTRA PREDICTION IN VIDEO CODING”的第 61/444045 号美国临时专利申请、于2011年3月4日提交的名为“FAST IMPLEMENTATION TO DST TYPE7INMODE-DEPENDENT DCT/DST FOR INTRA PREDICTION IN VIDEO CODING”的第 61/449484 号美国临时专利申请、于2011年4月7日提交的名为“FAST IMPLEMENTATION FOR DST TYPE7”的第61/473047号美国临时专利申请、于2011年4月13日提交的名为“FAST IMPLEMENTATIONFOR FORWARD AND INVERSE DST TYPE7”的第61/475120号美国临时专利申请。第61/380991号、第 61/427758 号、第 61/444045 号、第 61/449484 号、第 61/473047 号和第 61/475120号临时专利申请被转让给本申请的受让人,并由此通过引用被合并到本申请中,犹如在本文中被完全阐述。本申请由此要求第61/380991号、第61/427758号、第61/444045号、第61/449484号、第61/473047号和第61/475120号美国临时专利申请的优先权。下面讨论图1A至图14以及用于在本专利文档中描述本公开的原理的各种实施例仅是作为说明,且不应该以任何方式被解释为用于限制本公开的范围。本领域的技术人员将理解:本公开的原理可被实施在任何适当布置的视频编码器或解码器中。本公开旨在针对在用于视频的帧内编码中的各种预测模式在离散正弦变换(DST )和离散余弦变换(DCT)之间进行选择。基于帧内预测模式在DST和传统DCT之间进行选择将最佳地产生实质性的压缩增益。本公开的实施例使用低复杂度变换并仅需要一个DST变换矩阵,这将促使DST的快速实现。尽管将参照HEVC (高效率视频编码)标准来描述本公开的实施例,但是本领域的普通技术人员将认识到实施例也可适用于H.264/AVC标准。视频编码联合协作小组(JCT-VC)正在考虑“考虑中的测试模型(TMuC)”(“TestModel under Consideration, ”ITU_T JCTVC_B205_draft002,瑞士,日内瓦,2010 年 7 月),以用于HEVC视频编解码器的标准化。图1A示出根据本公开的实施例的视频编码器的高层框图。根据本发明的实施例,编码器100基于编码单元。帧内预测单元111对在当前帧105中的帧内模式的预测单元执行帧内预测,并且运动估计器112和运动补偿器115使用当前帧105和参考帧145对帧间预测模式的预测单元执行帧间预测和运动补偿。基于从帧内预测单元111、运动估计器112和运动补偿器115输出的预测单元产生残差值。产生的残差值经过变换单元120和量化器122被输出为量化的变换系数。量化的变换系数经过反量化器130和逆变换单元132被恢复为残差值,并且恢复的残差值经过去块单元135和环路滤波单元140被后处理,并输出为参考帧145。量化的变换系数可经过熵编码器125被输出为比特流127。图1B是根据本公开的实施例的基于编码单元的视频解码器的高层框图。比特流155经过解析器160,使得将被解码的编码图像数据和解码所必需的编码信息被解析。编码图像数据经过熵解码器162和反量化器165被输出为反量化的数据,并经过逆变换单元170被恢复为残差值。通过将残差值添加到帧内预测单元172的帧内预测结果或运动补偿器175的运动补偿结果,残差值根据矩形块编码单元被恢复。恢复的编码单元经过去块单元180和环路滤波单元182被用于下一编码单元或下一帧的预测。为了基于根据本发明的实施例的解码方法执行解码,图像解码器150的组件(SP,解析器160、熵解码器162、反量化器165、逆变换单元170、帧内预测单元172、运动补偿器175、去块单元180和环路滤波单元182)执行图像解码处理。现在将描述每个功能的方面。帧内预测(111/172 ):帧内预测利用每一帧中的空间相关性来减少表示图片所必需的传输数据的量。帧内帧(Intra-frame)本质上是编码的第一帧,但具有较少的压缩量。另外,在帧间帧(inter frame)中可存在一些帧内块。帧内预测涉及在帧内进行预测,而帧间预测涉及在帧之间进行预测。本公开主要集中在帧内预测。运动估计(112):视频压缩中的基本概念是当帧间预测被执行时仅存储帧之间的增量变化。在两巾贞中的块之间的差异由运动估计工具(MotionEstimation tool)提取。这里,预测的块被减小为运动矢量和帧间预测残差的集合。运动补偿(115/175):运动补偿将解码由运动估计编码的图像。通过接收的运动矢量以及参考帧中的块来完成对图像的这种重建。变换(120/132/170):变换单元被用于在帧间帧或帧内帧中压缩图像。最常用的变换是离散余弦变换(DCT)。
量化(122/130/165):量化阶段通过将每个变换系数除以特定数值来减少信息的量,以减少每个变换系数值可具有的可能值的量。因为这使得所述值落入更窄的范围,所以其允许熵编码更加简短地表示所述值。去块和环路滤波器(135/140/182):去块的作用是用于去除由图像的逐块编码引起的编码伪影(artifact)。去块滤波器作用于图像块的边界,并去除块伪影。环路滤波器的作用是用于最小化原始图像像素和重建图像像素之间的均方差。在某种程度上,环路滤波器设法最小化由逐块编码引起的方向伪影。这里,编码器和解码器的一部分已经被示出为独立的单元。然而,这并不旨在限制本公开的范围。如图所示,编码器100和解码器150包括若干公共部件。在一些实施例中,编码器和解码器可被实现为集成单元,例如,编码器的一个或多个部件可被用于解码。此夕卜,编码器和解码器的一个或多个部件可被实现在一个或多个现场可编程门阵列(FPGA)、专用集成电路(ASIC)、处理器、微控制器或它们的组合中。图2是根据本公开的实施例的视频编码器的一部分的框图。帧内预测单元(在此文档中也被称为“统一帧内预测单元111”)采用像素的矩形块作为输入,并使用来自已被重建的块的重建的像素和根据Min等人的“Unification of the Directional IntraPrediction Methods in TMuC”,ITU_T JCTVC_B100_revision02,瑞士,日内瓦,2010 年7月(以下被称为“ITU-T JCTVC-B100_revision02”)的预测方向来预测这些像素。存在不同数量的可用帧内预测模式,其中,所述可用帧内预测模式具有来自如由“UnifiedDirectional Intra Prediction (ITU-T JCTVC_B100_revision02)” 规定的用于各种预测单元的帧内预测方向(例如,用于4X4预测单元的17种帧内预测方向、用于8X8、16X 16和32X32预测单元的34种帧内预测方向、用于64X64预测单元的5种预测方向)的一对一的映射。然而,由于本公开的范围不限于此,因此这些仅是示例。各种帧内预测模式将在下面被进一步描述。在预测之后,变换单元120沿水平方向和垂直方向两者来应用变换(例如,DCT/DST)。根据帧内预测模式,所述变换(沿水平方向和垂直方向)可以是传统DCT或所提出的DST。变换之后为量化器122,其中,量化器122通过将每个变换系数除以特定数值来减少信息的量,以减少变换系数可具有的可能值的量。因为这使得所述值落入更窄的范围,所以其允许熵编码更加简短地表示所述值并有助于压缩。在帧内预测单元110中,当从沿由帧内预测方向模式(例如,“Test Model underConsideration”,ITU-T JCTVC_B205_draft002,瑞士,日内瓦,2010 年 7 月(以下被称为“ITU-T JCTVC-B205_draft002”)和 ITU-T JCTVC_B100_revision02”)规定的方向的像素执行帧内预测时,帧内预测模式可被划分为三种类别。本公开将描述针对所有的以下三种类别来得出新的自适应最佳变换:1、类别I斜向模式(图3A和图3B):这里,完全从来自以下项中的任何一项的解码像素执行预测:第一行(例如,顶行)像素或第一列(例如,左侧列)像素。如ITU-TJCTVC-B205_draft002中所述的垂直模式“O”和水平模式“ I ”是此斜向模式的特殊情况。2、类别2斜向模式(图4):这里,从第一行(例如,顶行)像素和第一列(例如,左侧列)像素两者执行预测。3、DC模式(图5):这里,从所有可用的解码像素的平均值执行预测,这类似于H.264/AVC,也在 ITU-T JCTVC-B205_draft002 中有如此规定。将参照图6至图11进一步解释帧内预测方向模式的所述三种类别。图6是示出根据本公开的实施例的得出用于类别I斜向模式的变换的示图。这里,沿由箭头示出的方向从第一行(例如,顶行)执行预测。在另一实施例中,第一行可不必是顶行。在可选择的实施例(类似于图3B)中,可从第一列(例如,左侧行)执行预测。具体说来,(dx,dy)对分别指示水平距离和垂直距离,并可指示预测方向。下面的等式I假设高斯-马尔可夫模型用于一维线(行或列)背景下的图像像素(在以下讨论中,当我们意指一维线时我们使用“列”):Xk=PXk-Jek[等式 I]其中,P是像素之间的相关系数,ek是具有零均值和方差1-P2的白噪声过程,并且行/列索引k=0…N。这里,Xtl指示边界像素,并且X1至xN是将被编码的像素。像素Xk和像素X1之间的相关性由等式2给出:Rkl=P lk^1'[等式 2]其中,Rkl (也被解释为Riu)指示像素Xk和像素X1之间的相关性,I和k指示列索弓I。对于2D图像情况,我们假设沿水平方向和垂直方向的可分离模型。因此,根据等式3指示像素Xij和像素X.(也被表示为Xiij和xm,n)之间的相关性:P li^ml P lj_n|= P[等式 3]其中,i指示像素Xu的行索引,m指示像素Xnm的行索引,j指示像素Xu的列索引,并且η指示像素Xmn的列索引。在图6中,像素Xqq、Xtll、Xtl2、…Xqn和Xltl、X2tl、…Xnq指示已经被编码的边界像素(例如,第一行和第一列)。像素Xu (i,je U..N})指示将被编码的像素。设根据下面的等式4给出对像素的预测:
Xij = Χ0(β+β[等式 4]其中,Sy指示对像素Xu的预测,并且α (非负数)指示从像素Χ(Κα+Λ (像素χ0(α+β
为第一行上用于预测Xij的像素)到像素Xij的水平距离。应注意:当a不是整数时,像素x0(a+J)以任何方式(例如,如在ITU-T JCTVC-B205_draft002中所规定的,从相邻的两个相邻像素)被插入,但为了简单起见,我们仅将预测值保持为χ+Μ,以用于分析目的。通过相似三角形的属性,我们可得出等式5:α = ^1 [等式 5]
yy)因此,根据等式6给出预测误差残差:€y = Xij — Xi = Xij — X0( +i)[等式 6]根据等式7给出用于MXN图像块的误差残差的整体矩阵:E = X-X[等式 7]其中,X是原始MXN图像块,并且芡是其预测。根据等式6给出矩阵E的元素“ij”。假设可分离的像素模型,我们设法找到针对以上预测残差矩阵沿垂直方向和水平方向两者的最佳变换。具体地,为了找到E的列的垂直变换,确定使相应列的自相关矩阵对角化的矩阵。类似地,对于用于E的特定行的水平变换,我们寻找使所述特定行的自相关矩阵对角化的矩阵。例如,我们首先根据等式8考虑E的列“ j”:
权利要求
1.种用于解码视频的方法,包括: 根据输入视频比特流的帧内预测模式,将输入视频比特流的系数映射到MXN变换系数矩阵; 根据帧内预测模式,对于变换系数矩阵,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为逆垂直变换,并确定应用DCT和DST中的第二个作为逆水平变换; 通过将DCT和DST中的第一个用于逆垂直变换并将DCT和DST中的第二个用于逆水平变换来执行包括逆垂直变换和逆水平变换的逆变换,以计算误差预测残差的近似值。
2.权利要求1所述的方法 ,其中,执行逆变换的步骤包括: 使用DCT和DST中的第一个对变换系数矩阵的N个列中的每一列执行逆垂直变换; 使用DCT和DST中的第二个对所述逆垂直变换的输出的M个行中的每一行执行逆水平变换,以计算误差预测残差的近似值。
3.权利要求1所述的方法,其中,执行逆变换的步骤包括: 使用DCT和DST中的第二个对变换系数矩阵的M个行中的每一行执行逆水平变换; 使用DCT和DST中的第一个对所述逆水平变换的输出的N个列中的每一列执行逆垂直变换,以计算误差预测残差的近似值。
4.权利要求1所述的方法,其中,执行DST的步骤包括执行逆DST类型4。
5.权利要求1所述的方法,其中,执行DST的步骤包括逆DST类型7,其中,逆DST类型7是具有八次乘法的4X4逆DST类型7的快速实现。
6.权利要求5所述的方法,其中,调整逆DST类型7矩阵中的多个元素中的至少一个元素,使得所述多个元素共用公因子,将乘法的数量减少到五次。
7.种用于编码视频的方法,包括: 基于帧内预测模式对MXN输入图像块(X)的输入矩阵执行帧内预测,以产生X并获得MXN帧内预测残差矩阵(E); 根据帧内预测模式,对于E,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为水平变换,并确定应用DCT和DST中的第二个作为垂直变换; 通过将DCT和DST中的第一个用作水平变换并将DCT和DST中的第二个用于垂直变换来执行包括水平变换和垂直变换的正变换,以计算变换系数矩阵(E2)。
8.权利要求7所述的方法,其中,执行正变换的步骤包括: 使用DCT和DST中的第一个对E的M个行中的每一行执行水平变换; 使用DCT和DST中的第二个对所述水平变换的输出的N个列中的每一列执行垂直变换,以计算变换系数矩阵(E2)。
9.权利要求7所述的方法,其中,执行正变换的步骤包括: 使用DCT和DST中的第二个对E的N个列中的每一列执行垂直变换; 使用DCT和DST中的第一个对所述垂直变换的输出的M个行中的每一行执行水平变换,以计算变换系数矩阵(E2)。
10.权利要求7所述的方法,其中,执行DST的步骤包括执行DST类型4。
11.权利要求7所述的方法,其中,执行DST的步骤包括执行DST类型7,其中,DST类型7是具有九次乘法的4X4DST类型7的快速实现。
12.权利要求11所述的方法,其中,调整DST类型7中的多个元素中的至少一个元素,使得所述多个元素共用公因子,将乘法的数量减少到五次。
13.种用于解码视频的设备,包括: 反量化器,被配置为用于根据输入视频比特流的帧内预测模式将从输入视频比特流获得的量化的变换系数索引映射到MXN变换系数矩阵; 逆变换单元,被配置为用于根据帧内预测模式,对于变换系数矩阵,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为逆垂直变换,并确定应用DCT和DST中的第二个作为逆水平变换,通过将DCT和DST中的第一个用于逆垂直变换并将DCT和DST中的第二个用于逆水平变换来执行包括逆垂直变换和逆水平变换的逆变换,以计算误差预测残差的近似值。
14.种用于编码视频的设备,包括: 统一帧内预测单元,被配置为用于基于帧内预测模式对MXN输入图像块(X)的输入矩阵执行帧内预测,以产生f并获得MXN帧内预测残差矩阵(E); 变换单元,被配置为用于根据帧内预测模式,对于E,确定应用离散余弦变换(DCT)和离散正弦变换(DST)中的第一个作为水平变换,并确定应用DCT和DST中的第二个作为垂直变换,并通过将DCT和DST中的第一个用作水平变换并将DCT和DST中的第二个用作垂直变换来执行包括 水平变换和垂直变换的正变换,以计算变换系数矩阵(E2)。
全文摘要
一种方法和设备通过确定是否将离散余弦变换(DCT)和DST用于水平变换和垂直变换中的每一个来编码并解码视频。在编码期间,基于为M×N输入图像块确定的帧内预测模式来执行帧内预测以获得M×N帧内预测残差矩阵(E)。基于帧内预测模式,根据帧内预测模式使用DCT和DST中的一个来执行水平变换和垂直变换中的每一个。在解码期间,从输入视频比特流确定帧内预测模式。使用反量化器从视频比特流获得误差残差的M×N变换系数矩阵。基于帧内预测模式,对于逆垂直变换和逆水平变换中的每一个执行DCT和DST中的一个。
文档编号H04N7/34GK103098473SQ201180043432
公开日2013年5月8日 申请日期2011年9月8日 优先权日2010年9月8日
发明者安克·塞克森纳, 费利克斯·卡洛斯·费尔南德斯 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1