用于译码/解码图片数据的方法和装置与流程

文档序号:29058678发布日期:2022-02-26 01:38阅读:264来源:国知局
用于译码/解码图片数据的方法和装置与流程
用于译码/解码图片数据的方法和装置
1.技术领域
1.本发明的实施方式主要涉及图片数据的编码(encoding)/解码(decoding)。
2.

背景技术:

2.本部分旨在向读者介绍可能与下面描述和/或要求保护的本发明的实施例中的至少一个的各方面相关的技术的各方面。相信该讨论有助于向读者提供背景信息,以便于更好地理解至少一个实施例的各个方面。因此,应当理解,这些陈述应就此而论地阅读。
3.为了实现高压缩效率,视频译码(coding)方案通常采用预测和变换以利用视频内容中的空间和时间冗余。通常,帧内或帧间预测用于利用帧内或帧间相关性。然后,对视频的原始图片和预测图片之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵译码。为了重构所述图片,通过与所述预测、变换、量化和熵译码对应的逆处理来解码压缩数据。
3.

技术实现要素:

4.本公开的一些实施例使得能够通过提出一种用于对图像数据进行编码的方法来解决至少一个缺点,该方法包括:帧内预测,或者通过组合帧间预测和帧内预测来进行预测。本公开还涉及对应的解码方法、设备和介质。
4.附图说明
5.图1示出了根据至少一个实施例的示例性编码器的简化框图;
6.图2示出了根据至少一个实施例的示例性解码器的简化框图;
7.图3示出了示例性参考样本生成过程;
8.图4示出了用于正方形块的示例性预测方向;
9.图5示出了用于针对不同的块形状导出mpm列表的示例性顶部和左侧cu位置。
10.图6示出了示例性mpm信令;
11.图7示出了示例性mpm导出;
12.图8示出了vtm-5.0中当multirefidx>0时的示例性mpm信令;
13.图9示出了用于4
×
4块的示例仿射线性加权帧内预测过程;
14.图10示出了用于8
×
4块的示例仿射线性加权帧内预测过程;
15.图11示出了用于16
×
16块的示例仿射线性加权帧内预测过程;
16.图12示出了当mipflag被置于用信号通知第一mpm的比特之前时的示例性mpm信令;
17.图13示出了当mipflag被置于用信号通知第一mpm的比特之前时的示例性mpm信令;
18.图14示出了在当smip被放入mpm列表中dc之前时的示例性mpm导出;
19.图15示出了当smip被放入mpm列表中dc之前时的示例性mpm导出;
20.图16示出了当将smip放入mpm列表中dc之后时的示例性mpm导出;
21.图17示出了示例性预测图;
22.图18示出了当前块的示例性预测;
23.图19示出了4
×
4块的u2,u18,u34和u50的示例值;
24.图20示出了和的示例性图示;
25.图21示出了和的示例性图示;
26.图22示出了和的示例性图示;以及
27.图23示出了可以在其中实现各个方面和实施例的系统的示例的框图。
28.应注意,图式说明了示例性实施例且本发明的实施例不限于所图示的实施例
5.具体实施方式
29.本详细描述示出了本发明实施例的原理。因此,将理解,本领域技术人员将能够设计出虽然未在本文中明确描述或示出但体现本实施例的原理并且包括在其范围内的各种布置。
30.本文所述的所有示例和条件语言旨在用于教示目的,以帮助读者理解本发明实施例的原理以及发明人为了促进本领域而贡献的概念,并且应被解释为不限于此类具体所述的示例和条件。
31.此外,本文中叙述本公开的原理、方面和实施例的所有陈述及其具体示例旨在涵盖其结构和功能等同物这两者。另外,这些等同物旨在包括当前已知的等同物以及将来开发的等同物,即,所开发的执行相同功能的任何元件,而不管结构如何。
32.因此,例如,本领域技术人员将理解,这里呈现的框图表示体现本实施例的原理的说明性电路的概念图。类似地,将理解,任何流程图、流图、状态转移图、伪代码等表示可基本上在计算机可读介质中表示并因此由计算机或处理器执行的各种过程,而不管是否明确示出了这样的计算机或处理器。
33.以下将参照附图更全面地描述本发明,其中示出了所述本发明的示例。然而,实施例可以以许多替代形式来体现,并且不应被解释为限于本文阐述的示例。因此,应当理解,不旨在将实施例限于所公开的特定形式。相反,本发明的实施例旨在覆盖落入本技术的精神和范围内的所有修改、等同物和替代物。
34.当附图被呈现为流程图时,应当理解,它还提供了对应装置的框图。类似地,当附图被呈现为框图时,应当理解,它还提供了对应的方法/过程的流程图。
35.可以通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供图中所示的各种元件的功能。当由处理器提供时,所述功能可以由单个专用处理器、单个共享处理器或多个单独的处理器(其中一些可以被共享)提供。此外,术语“处理器”或“控制器”的明确使用不应被解释为排他性地指代能够执行软件的硬件,并且可以隐含地包括但不限于数字信号处理器(dsp)硬件、用于存储软件的只读存储器(rom)、随机存取存储器(ram)和非易失性存储装置。也可以包括其它常规和/或定制的硬件。类似地,图中所示的任何开关仅是概念性的。它们的功能可以通过程序逻辑的操作、通过专用逻辑、通过程序控制和专用逻辑的交互、或者甚至手动地来执行,如从上下文中更具体地理解的,特定技术可由实现者
选择。
36.图中相似或相同的元素用相同的参考数字表示。一些图表示在视频压缩标准的规范中广泛使用的语法表,用于定义符合所述视频压缩标准的比特流的结构。在这些语法表中,术语
“…”
表示相对于在视频压缩标准的规范中给出的公知定义的语法的未改变部分,并且在图中被去除以便于阅读。语法表中的粗体项指示该项的值是通过解析比特流获得的。语法表的右列指示用于编码语法元素的数据的比特的数目。例如,u(4)指示4比特用于编码数据,u(8)指示8比特,ae(v)指示上下文自适应算术熵译码的语法元素。
37.在其权利要求中,被表达为用于执行指定功能的装置的任何元件旨在包含执行该功能的任何方式,这其中包括例如a)执行该功能的电路元件的组合,或者b)任何形式的软件,因此这其中包括固件或微代码等,与用于执行该软件以执行该功能的适当电路相组合。由这些权利要求限定的本实施例在于以下事实:由各种所述装置提供的功能以权利要求所要求的方式被组合和集合。因此,认为可以提供那些功能的任何装置都等效于这里所示的那些装置。
38.应当理解,附图和描述已经被简化以示出与清楚理解本实施例相关的元素,同时为了清楚起见,去除了在典型的编码和/或解码设备中发现的许多其它元件。
39.应当理解,尽管术语第一和第二在本文中可以用于描述各种元素,但是这些元素不应当受这些术语限制。这些术语仅用于将一个元素与另一个元素区分。上文描述了各种方法,并且每个方法包括用于实现所描述的方法的一个或多个步骤或动作。除非方法的正确操作需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或使用。
40.在以下章节中,词语“重构”和“解码”可互换使用。通常但不是必须地,“重构”用在编码器侧,而“解码”用在解码器侧。此外,词语“译码”和“编码”可互换使用。此外,词语“图像”、“图片”和“帧”可以互换使用。此外,词语“译码”、“源译码”和“压缩”可以互换使用。
41.应当理解,对本公开的“一个实施例”或“实施例”或“一个实现方式”或“实现方式”及其它变型的引用意味着结合该实施例描述的特定特征、结构、特性等被包括在本公开的至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”或“在实施例中”或“在一个实现方式中”或“在实现方式中”以及任何其他变型的出现不一定都指同一实施例。
42.另外,本实施例或其权利要求可以涉及“确定”各种信息。确定、导出所述信息可以包括以下一者或多者:例如,估计所述信息、计算所述信息、预测所述信息或从存储器检索所述信息。此外,本技术或其权利要求可以涉及“提供”各种信息。提供所述信息可以包括以下一者或多者:例如,输出所述信息、存储所述信息、传输所述信息、发送所述信息、显示所述信息、示出所述信息或移动所述信息。此外,本技术或其权利要求可以涉及“访问”各种信息。访问所述信息可以包括以下一者或多者:例如,接收所述信息、检索所述信息(例如,从存储器)、存储所述信息、处理所述信息、移动所述信息、复制所述信息、擦除所述信息、计算所述信息、确定所述信息、预测所述信息或估计所述信息。此外,本技术或其权利要求可以涉及“接收”各种信息。如同“访问”一样,接收旨在是广义的术语。接收所述信息可以包括例如访问所述信息或(例如从存储器)检索所述信息中的一个或多个。此外,在诸如存储所述信息、处理所述信息、发送所述信息、移动所述信息、复制所述信息、擦除所述信息、计算所
述信息、确定所述信息、预测所述信息或估计所述信息的操作期间,通常以一种方式或另一种方式涉及“接收”。
43.应当理解,所示和所述的各种特征是可互换的。除非另有说明,一个实施例中所示的特征可以结合到另一个实施例中。此外,在各个实施例中描述的特征可以组合或分离,除非另外指示为不能分离或不能组合。
44.如前所述,可以通过使用专用硬件以及能够执行与适当软件相关联的软件的硬件来提供图中所示的各种元件的功能。而且,当由处理器提供时,所述功能可以由单个专用处理器、单个共享处理器或多个单独的处理器(其中一些可以被共享)提供。
45.还应当理解,因为附图中描述的一些组成系统组件和方法优选地以软件实现,所以系统组件或处理功能块之间的实际连接可以根据本公开的处理被编程的方式而不同。在这里给出的教导的情况下,相关领域的普通技术人员将能够设想本公开的这些和类似的实现方式或配置。
46.尽管这里已经参考附图描述了说明性实施例,但是应当理解,本公开不限于这些精确的实施例,并且相关领域的普通技术人员可以在其中实现各种改变和修改,而不脱离本公开的范围。此外,在不脱离本公开的范围的情况下,可以组合各个实施例。所有这些改变和修改都旨在包括在如所附权利要求中阐述的本公开的范围内。
47.应当理解,例如在“a/b”、“a和/或b”以及“a和b中的至少一个”的情况下,使用以下“/”、“和/或”以及“中的至少一个”中的任意者旨在涵盖仅对第一列出的选项(a)的选择、或仅对第二列出的选项(b)的选择、或对两个选项(a和b)的选择。作为进一步的例子,在“a、b和/或c”和“a、b和c中的至少一个”的情况下,这样的措词旨在包括仅选择第一个列出的选项(a),或者仅选择第二个列出的选项(b),或者仅选择第三个列出的选项(c),或者仅选择第一个和第二个列出的选项(a和b),或者仅选择第一个和第三个列出的选项(a和c),或者仅选择第二个和第三个列出的选项(b和c),或者选择所有三个选项(a和b和c)。这可以扩展到所列的许多项,这对于本领域和相关领域的普通技术人员来说是显而易见的。
48.如本领域技术人员将明白的,实现方式可以产生被格式化以携带例如可以被存储或发送的信息的各种信号。该信息可以包括例如用于执行方法的指令,或者由所描述的实现方式之一产生的数据。例如,信号可以被格式化以携带所描述的实施例的比特流。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。所述格式化可以包括例如编码数据流和用编码数据流调制载波。所述信号携带的所述信息可以是例如模拟或数字信息。如已知的,所述信号可以通过各种不同的有线或无线链路来传输。该信号可以存储在处理器可读介质上。
49.应理解,图片(也表示图像或帧)可为单色格式的亮度样本阵列,或4:2:0、4:2:2或4:4:4颜色格式的亮度样本阵列和两个对应的色度样本阵列,或三个颜色分量(例如,rgb)的三个阵列。
50.在视频压缩标准中,图片被分区成可能具有不同大小和/或不同形状的块。应当理解,块是二维阵列或矩阵。水平或x方向(或轴)表示宽度,垂直或y方向(或轴)表示高度。索引开始于0。所述x方向表示列,所述y方向表示行。最大x索引是所述宽度-1,最大y索引是所述高度-1。
51.编码
52.图1示出了根据至少一个实施例的示例性编码器100的简化框图。编码器100可以被包括在通信系统中的发射机或头端中。
53.为了编码具有一个或多个图片的视频序列,将图片分区成可能不同大小和/或不同形状的块(模块110)。例如,在hevc(“itu-t h.265 telecommunication standardization sector of itu(itu的itu-t h.265)电信标准部分(10/2014),series h:audiovisual and multimedia systems(视听及多媒体系统),infrastructure of audiovisual services

coding of moving video,high efficiency video coding,recommendation itu-t h.265(视听服务的基础设施-运动视频的译码、高效视频译码,itu-t h.265推荐)”)中,图片可以被分区成具有可配置大小的正方形ctu(译码树单元)。ctu的连续集合可以被分组为切片(slice)。ctu是划分成译码单元(cu)的四叉树的根。
54.在示例性编码器100中,如下所述,通过基于块的编码模块对图片进行编码。使用帧内预测模式或帧间预测模式来编码每一块。当在帧内预测模式中编码块时(模块160),编码器100基于相同图片中的一个块的至少一个样本(或基于所述图片或切片的第一块的预定义值)执行帧内预测(也表示为空间预测)。作为示例,通过从重构的相邻样本对块进行帧内预测来获得预测块。
55.当在帧间预测模式中编码块时,编码器100基于至少一个参考图片或切片(其被存储在参考图片缓冲器中)的至少一个参考块来执行帧间预测(也称为时间预测)。
56.通过对存储在参考图片缓冲器180中的参考块执行运动估计(模块175)和运动补偿(模块170)来执行帧间预测译码。在单帧间预测(又名单向预测)模式中,预测块可大体上(但不一定)基于较早参考图片。在双帧间预测(又称为双向预测)模式中,预测块通常可以(但不一定)基于较早的图片和较晚的图片。
57.编码器100决定(模块105)使用帧内预测模式或帧间预测模式中的哪一者来编码块,且通过预测模式语法元素指示所述帧内/帧间决策。
58.通过从所述块中减去(模块120)所述预测块(也称为预测子(predictor))来计算预测残差块。该预测残差块被变换(模块125)和量化(模块130)。所述变换模块125可将所述预测残余块从像素(空间)域变换到变换(频率)域。所述变换可以是例如余弦变换、正弦变换、小波变换等。量化(模块130)可以根据例如速率失真标准来执行。
59.对量化的变换系数以及运动向量和其它语法元素进行熵译码(模块145)以输出比特流。所述熵译码可以是例如上下文自适应二进制算术编码(cabac)、上下文自适应可变长度编码(cavlc)、霍夫曼、算术、exp-golomb等。
60.所述编码器还可跳过所述变换,并将量化直接应用于未变换的预测残差块。所述编码器还可绕过变换和量化这两者,即,直接译码所述预测残余块而不应用所述变换或量化过程。
61.在直接pcm译码中,不应用预测,并且块样本被直接译码到比特流中。
62.所述编码器100包括解码环路,并且因此对编码块进行解码以提供用于进一步预测的参考。量化的变换系数被去量化(又称作逆量化)(模块140)和逆变换(模块150)以解码预测残差块。然后,通过组合(模块155)所解码的预测残差块和所述预测块来对块进行重构。一个或多个环内滤波器(165)可以应用于重构的图片,例如,执行去块化/样本自适应偏移(sao)滤波以减少译码伪像。经滤波的图片被存储在参考图片缓冲器180中。
63.所述编码器100的模块可以用软件实现并由处理器执行,或者可以使用压缩领域的技术人员公知的电路组件来实现。特别地,视频编码器100可以被实现为集成电路(ic)。
64.解码
65.图2示出了根据至少一个实施例的示例性解码器200的简化框图。解码器200可以包括在通信系统的接收机中。解码器200通常执行与如图1中所描述的编码器100所执行的编码过程互逆的解码过程,但并非解码器中的所有操作都是编码过程的逆操作(例如,帧内预测和帧间预测)。特别地,解码器200的输入包括视频比特流,其可以由编码器100生成。
66.首先对所述视频比特流进行熵解码(模块230),以获得例如变换系数、运动向量mv、图片分区信息、可能的预测模式标志、语法元素和其它解码数据。举例来说,在hevc中,所述图片分区信息指示所述ctu的大小,且ctu被划分成cu的方式。因此,解码器可以根据所述图片分区信息,将所述图片划分(235)为ctu,并且将每个ctu划分为cu。
67.所述变换系数被去量化(模块240)和逆变换(模块250)以解码预测残差块。然后,将所解码的预测残差块与预测块(也称为预测子)组合(模块255),以获得解码/重构块。
68.可能取决于预测模式标志,可从帧内预测(模块260)或运动补偿预测(即,帧间预测)(模块270)获得预测块(模块205)。可以将环内滤波器(模块265)应用于重构的图片。该环路内滤波器可包括去块化滤波器和/或sao滤波器。经滤波的图片存储在参考图片缓冲器280中。
69.解码器200的模块可以用软件实现并由处理器执行,或者可以使用压缩领域的技术人员公知的电路组件来实现。特别地,解码器200可以被实现为集成电路(ic),其可以是单独的或与编码器100组合作为编解码器。
70.本实施例解决了通用视频译码(vvc)vtm 5.0中的帧内预测。在2019年3月份的日内瓦中所举行的jvet会议中,同意使用矩阵帧内预测(mip),这是帧内预测的仿射变换集合。使用mip,vtm-5.0中的帧内预测现在基于使用多个参考线的帧内预测(mrl)、使用子分区的帧内预测(isp)、传统的67个帧内预测模式(平面、dc和65个方向模式)和mip。本实施例提出将该仿射变换集合减少为单个仿射变换。用于帧内预测的这种单个仿射变换在这里表示为smip。这将在编码器和解码器两侧上的存储器占用减小了7.92的因子。
71.h.266/vvc中的帧内预测过程包括收集参考样本、处理它们、导出当前块的样本的实际预测、以及最后对预测样本进行后处理。所述参考样本生成过程在图3中说明。更准确地说,图3示出了在w=h=n的正方形当前块的情况下用于h.266/vvc中的帧内预测的示例性参考样本,其中坐标(x,y)处的像素值在图中由p(x,y)指示。从当前块的先前重构的顶部及顶部右侧像素,形成上方的2w个像素的阵列,其中w表示块宽度。类似地,从重构的左侧和左下像素形成左侧的一列2h个样本,其中h表示块高度。顶部左侧位置的角像素也用于填充顶行与左列参考之间的间隙。如果顶部或左侧上的样本中的一些不可用(由于对应译码单元(cu)不在相同切片中或当前cu在帧边界处),则执行称为参考样本替代的方法,其中在顺时针方向上从可用样本复制缺失样本。接着,取决于当前cu大小和预测模式,使用指定滤波器对所述参考样本进行滤波。
72.h.266/vvc包括从h.265/hevc中的预测模型导出的预测模型范围。平面和dc预测模式用于预测平滑和逐渐变化的区域,而角度预测模式用于捕获不同的方向结构。存在65个方向预测模式,其针对每一矩形块形状而不同地组织。这些预测模式对应于如图4所示的不同预测方向。帧内预测进一步利用工具扩展,例如利用多个参考线的帧内预测(mrl)和利
用子分区的帧内预测(isp)。
73.在编码器侧,选择根据速率失真标准的最佳帧内预测模式,并且将其索引从编码器传送到解码器。为了经由熵译码执行关于选定模式索引的信令,建立最可能模式(mpm)的列表。
74.在vtm-5.0中,mpm列表含有用于用信号通知当前块的帧内预测模式的6个帧内预测模式[1]。所述mpm列表是从当前cu的顶部和左侧的经帧内译码的cu的预测模式和一些默认模式创建的。如图5所示,顶部和左侧cu在当前块的右边缘和底边缘。
[0075]
l≡左侧cu的预测模式(处于[0

66]范围内的值)
[0076]
a≡上方cu的预测模式(处于[0

66]范围内的值)
[0077]
offset=61
[0078]
mod=64
[0079]
mpm列表的初始化:
[0080]
mpm[0]=planar_idx
[0081]
mpm[1]=dc_idx
[0082]
mpm[2]=ver_idx
[0083]
mpm[3]=hor_idx
[0084]
mpm[4]=ver_idx-4
[0085]
mpm[5]=ver_idx+4
[0086]
building of the mpm list:
[0087]
if(l=a)
[0088]
if(l》dc_idx)
[0089]
mpm[0]=planar_idx
[0090]
mpm[1]=l
[0091]
mpm[2]=((l+offset)%mod)+2
[0092]
mpm[3]=((l

1)%mod)+2
[0093]
mpm[4]=dc_idx
[0094]
mpm[5]=((l+offset-1)%mod)+2
[0095]
else
[0096]
use initialized values
[0097]
else
[0098]
if((l》dc_idx)&&(a》dc_idx))
[0099]
mpm[0]=planar_idx
[0100]
mpm[1]=l
[0101]
mpm[2]=a
[0102]
mpm[3]=dc_idx
[0103]
mpm[4]=((max(l,a)+offset)%mod)+2if l and a are not adjacent
[0104]
=((max(l,a)+offset-1)%mod)+2,otherwise
[0105]
mpm[5]=((max(l,a)-1)%mod)+2if l and a are not adjacent
[0106]
ꢀꢀꢀꢀꢀꢀ
=((max(l,a)-0)%mod)+2otherwise
[0107]
else if(l+a》=2)
[0108]
mpm[0]=planar_idx
[0109]
mpm[1]=max(l,a)
[0110]
mpm[2]=dc_idx
[0111]
mpm[3]=((max(l,a)+offset)%mod)+2
[0112]
mpm[4]=((max(l,a)-1)%mod)+2
[0113]
mpm[5]=((max(l,a)+offset-1)%mod)+2
[0114]
else
[0115]
use initialized values
[0116]
using circular adjacency over the range[2

66],it can be equivalently written
[0117]
((l+offset)%mod)+2≡l
–1[0118]
((l+offset-1)%mod)+2≡l
–2[0119]
((l

1)%mod)+2≡l+1
[0120]
((l

0)%mod)+2≡l+2
[0121]
使用上述关系,可以示出所述mpm列表导出是图6中的导出。
[0122]
在常规帧内预测中,如果当前块的预测模式对应于六个mpm模式中的一者,那么经由具有值1的mpmflag且接着通过使用图7中所示的可变长度译码方案从mpm列表用信号通知候选模式来用信号通知此预测模式。a和l在图7中分别表示上方cu和左侧cu的预测模式。否则,mpmflag等于0,并且剩余61个模式的集合中的候选索引被用5或6比特截短-二进制编码。
[0123]
对于利用mrl的帧内预测,利用标志multirefidx来发信号通知用于预测的参考行。multirefidx的有效值为0、1和3,其用信号通知第一、第二或第四参考行。当multirefidx为非零时(意味着使用第二或第四参考行),预测模式总是属于mpm列表。因此,不用信号通知mpmflag。此外,平面模式被排除在所述列表之外。这意味着,当multirefidx为非零时,仅五个预测模式可用作可能的候选。当multirefidx为非零时,如图8所示发信号通知预测模式。
[0124]
对于利用isp的帧内预测,用于cu的分区的类型利用被称为ispmode的标志来发信号通知。ispmode仅在multirefidx等于0时才被编码。ispmode的有效值为0、1和2,这分别表示无分区、水平分区和垂直分区。如果ispmode为非零,即,如果目标cu被分区,则预测模式总是属于所述mpm列表。因此,在这种情况下,不用信号通知mpmflag。使用图7对预测模式进行编码。
[0125]
在中国澳门的第12次jvet会议中,同意将组合的帧内预测(ciip)集成在vvc中。然后用[3]简化该工具。在ciip的简化版本中,合并模式线性地对平面预测和一个合并索引的预测进行组合。用于组合帧内预测样本和帧间预测样本的帧内权重和帧间权重取决于相邻帧内译码块的数量。重新使用图5中的符号,
[0126]
如果(topcu和leftcu是帧内译码的)
[0127]wintra
=3
[0128]winter
=1
[0129]
否则如果(topcu或leftcu是帧内译码的)
[0130]wintra
=2
[0131]winter
=2
[0132]
否则,
[0133]wintra
=1
[0134]winter
=3
[0135]
mip(如在h.266/vvc的当前版本中采用的)在[2]中被描述。对于mip,参考样本生成过程在于专门地获取重构的w个顶部像素和h个重构的左侧像素。这些参考样本不被滤波。对所述参考样本求平均,从而产生在w=h=4的情况下的具有4个值的向量,以及在较大块的情况下的具有8个值的向量。将平均参考样本的向量乘以权重矩阵,并加上偏差(biases)向量。最后,通过线性内插所述结果来获得当前块的预测。初始参考样本用于内插边界。
[0136]
三个集合的矩阵和向量(s0,s1,s2)可供编码器选择。对于大小4
×
4的块,集合s0包含大小分别为16
×
4和16的18个矩阵和偏差向量。用于大小为4
×
8,8
×
4和8
×
8的块,s1包含10个大小为16
×
8的矩阵和大小为16的偏差。最后,对于所有其它块形状,集合s2包含7个大小为64
×
8的矩阵和6个大小为64的偏差向量。
[0137]
根据所述模式和块形状,作者称之为“简化边界”的bdry
red
的输入向量被重新排列如下:
[0138][0139]
其中和分别表示和描述了在顶部和左侧的平均边界样本,如图9所示。
[0140]
然后,预测块的样本的输出的减少的样本集合pred
red
被生成为pred
red
=a
·
bdry
red
+b。
[0141]
根据所述模式和块的形状,在集合s0,s1,s2中选择权重矩阵a和偏移向量b作为其中
[0142][0143]

[0144][0145]
在8
×
8和8
×
4块的情况下,在pred
red
上执行的内插处理分别在图10和图11中示出。
[0146]
对于较大的块,所述参考样本被分组和平均,使得输入向量是8个样本长,如图12中对于16
×
16块所示。
[0147]
该方法需要存储集合s0,s1,s2,其对应于
[0148]-18个大小为16
×
4的矩阵和18个大小为16的偏移
[0149]-10个大小为16
×
8的矩阵和10个大小为16的偏移
[0150]-6个大小为64
×
8的矩阵和6个大小为64的偏移
[0151]
其表示要译码的6336个参数,当作为10比特值存储时,其对应于7.92千字节的数据。
[0152]
mip模式首先以被称为mipflag的标志来发信号通知,值1意味着mip模式用于预测当前块,而值0意味着使用所述67个传统帧内预测模式中的一个。当mipflag等于1时,multirefidx必须等于0,这意味着使用第一参考行,并且ispmode等于0,即,不存在目标cu分区。因此,当mipflag等于1时,不写入multirefidx和ispmode。如果mipflag等于1,则随后基于具有3个mpm的列表经由二元决策树来用信号通知所述mip模式。
[0153]
为了处理用于预测当前块的帧内预测模式为所述67个传统帧内预测模式中的一者,且用于预测所述当前块的右侧的cu的模式或用于预测当前块底部边缘的cu的模式为mip模式的情况,每一mip模式与所述传统模式中的一者之间的映射可使该mip模式被其映射后的传统模式取代。该映射还使得能够用其映射的mip模式来代替路线循环(way round),即,传统模式。
[0154]
在本实施例中,不使用针对块大小4
×
4的集合s0,而是使用大小分别为16
×
4和16的单个矩阵m0和偏差向量b0。不使用针对块大小4
×
8,8
×
4和8
×
8的集合s1,而是使用大小分别为16
×
8和16的单个矩阵m1和偏差向量b1。不使用针对所有其它块形状的集合s2,而是使用大小分别为64
×
8和64的单个矩阵m2和偏差向量b2。这相当于要译码的800个参数,当存储为10比特值时,其对应于1.0千字节。
[0155]
根据一些实施例,使用h.266/vvc的一些上述元素的smip的信令可以经由mipflag来完成,值1现在意味着单个mip模式。取决于当前块的形状,(m0,b0),(m1,b1)or(m2,b2)可被用于预测当前块。
[0156]
现在,上述映射归结为smip到平面。
[0157]
上述smip信令的第一变型是将mipflag置于mpmflag之后以及用信号通知第一mpm的比特之前。现在,如果mipflag等于1,则使用图13中所示的可变长度译码方案从mpm列表
用信号通知候选模式。
[0158]
第二变型是将mipflag置于用信号通知第一mpm的比特之后以及用信号通知第二mpm的比特之前。现在,如果mipflag等于1,则使用图14中所示的可变长度译码方案从mpm列表用信号通知候选模式。
[0159]
在第三变型中,代替使用mipflag,可以在dc之前将smip放入mpm列表中。mpm导出变为图15中描述的那个。
[0160]
在第四变型中,代替使用mipflag,smip也可以在dc之后被放入mpm列表中。mpm导出变为图16中描述的那个。
[0161]
在第五变型中,如上所述(第三和第四变型),不使用mipflag。smip代替了平面,这意味着smip具有关于平面的信令。
[0162]
在第六变型中,如上所述(第三、第四和第五变型),不使用mipflag,并且smip替换dc,这意味着smip拥有关于dc的信令。
[0163]
第七变型可以与上述smip信令的任何变型组合。在编码器侧,当选择smip作为用于预测当前块的帧内预测模式时,可以去激活多重变换选择(mts)和/或非可分离二次变换(nsst)变换,这意味着对于所禁用的变换,信令标记不被写入比特流。在解码器侧,在解码用于帧内预测的信令标志之后,如果选择smip作为用于预测当前块的帧内预测模式,则不对去激活的变换的标志进行解码。
[0164]
平面模式是上述ciip的简化版本中系统使用的唯一帧内预测模式,其可以由smip代替。
[0165]
由于smip具有很少的参数(800),因此这些参数可以被在线学习(例如,当对帧进行编码时)并被发送。更准确地说,在编码器侧,对于每组n个帧,smip的参数可以首先在从n个亮度通道提取的对(pairs)(解码参考样本,块)上学习。然后,编码所学习的参数。最后,使用所学习的参数来编码所述具有n个帧的组。在解码器侧,对于每组n个帧,首先解码smip的参数。然后,使用学习的参数对该组进行解码。
[0166]
下面描述的smip的训练方法可以应用于如上所述的在线训练或离线训练。结合图17描述了smip的训练方法,该图示出了用于通过smip以及用于4
×
4块的h.266/vvc中的67种传统帧内预测模式中的每一种(一般化到8
×
8块和16
×
16块是很简单的)从其相邻参考样本预测当前块y的示例性图。根据本发明的一些实施例,通过定义图17中的图并经由反向传播最小化权重矩阵mi和偏差向量bi上的目标函数,与h.266/vvc中的传统帧内预测模式协作地训练每对权重矩阵和偏差向量(mi,bi),被称为“smip预测”的图组件是图9、图10或图12中描述的平均、仿射变换和线性内插,这取决于正在学习的加权矩阵和偏差向量的块大小。被称为“传统预测”的图组件为经由h.266/vvc中的64个传统帧内预测中的每一者的预测,如图18所示。图18示出了对于4
×
4块(一般化到8
×
8块和16
×
16块是很简单的),经由h.266/vvc中67个帧内预测模式中的每一个对当前块y进行示例性预测。
[0167]
在图18中,参考样本被向量化。然后,将索引i的模式的预测表示为参考样本的向量和模式矩阵ui,i=dc,planar,2,3,

,66之间的点积。作为点积的模式预测是适合于用于训练的图形形式。作为示例,在图19中描绘了对于4
×
4块的u2,u
18
,u
34
以及u
50

[0168]
在训练期间,如图17所示,限幅所述smip预测。由于用于训练的所有对(参考样本、块)的像素强度被从归一化到[-1.0,1.0],因此用于限幅的最小值是-1.0,最大
值是1.0。在反向传播期间,限幅函数的输出相对于其输入的梯度被恒等的梯度所代替,即,恒等函数为了在h.266/vvc中训练帧内快速选择过程期间进行仿真,在权重矩阵mi和偏差向量上要被最小化的目标函数组合了当前块y和每个模式预测之间的sad以及每个模式估计的信令成本(见等式(1):用于学习(mi,bi)的最小化)。
[0169][0170]
s={dc,planar,2,3,

,66,smip}
[0171]
该因子511.5补偿了上述训练期间的从到[-1.0,1.0]的像素强度的归一化。
[0172]
在上述最小化中,通过对用于训练的所有对(参考样本、块)的平均来估计期望。
[0173]cj
=αj(1<<15)是索引j的模式的估计信令成本。
[0174]
α
planar
=2
[0175]
α
dc
=3
[0176]
α2=α
18
=α
50
=α
66
=5
[0177][0178]
α
smip
=1
[0179]
γ=0.001
[0180][0181]
随着训练的进行,σ从0平滑地减小到-10.0。
[0182]
在运行上述训练算法之后,通过等式(2)(用于补偿训练期间像素强度的归一化的学习的偏差的变换)来变换所学习的偏差,以补偿在训练阶段期间而不是在h.266/vvc内部的测试阶段期间应用的从到[-1.0,1.0]的像素强度的上述归一化。
[0183]bi,j

511.5-∑km
i,jk
+b
i,j
+1.0)
ꢀꢀ
(2)
[0184]mi,kj
表示在权重矩阵mi中的位置(j,k)处的系数。
[0185]bi,j
表示在偏差向量bi中的位置j处的系数。
[0186]
然后,每个学习的权重乘以β=1<<p,其中取决于在h.266/vvc内部的测试时间处smip仿射变换中涉及的比特移位。最后,将得到的权重和偏差都四舍五入到最接近的整数,产生量化的权重矩阵和量化的偏差向量
[0187]
在上述训练方法之后,在图20中显示了和在图21中显示了和在图22中显示了和
[0188]
图23示出了其中实现了各个方面和实施例的系统的示例的框图。系统2300可以被实现为包括以下描述的各种组件的设备,并且被配置为执行本文中描述的一个或多个方
面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录系统、连接的家用电器和服务器。系统2300的元件可以单独地或组合地被实现在单个集成电路(ic)、多个ic和/或分立组件中。例如,在至少一个实施例中,系统2300的处理和编码器/解码器元件分布在多个ic和/或分立组件上。在各种实施例中,所述系统2300经由例如通信总线或通过专用输入和/或输出端口而被通信地耦合到一个或多个其他系统或其他电子设备。在各种实施例中,所述系统2300被配置为实现本文中描述的一个或多个方面。
[0189]
所述系统2300包括至少一个处理器2310,其被配置为执行加载在其中的指令,以用于实现例如本文中描述的各个方面。处理器2310可以包括嵌入式存储器、输入输出接口和本领域已知的各种其它电路。所述系统2300包括至少一个存储器2320(例如,易失性存储器设备和/或非易失性存储器设备)。系统2300包括存储设备2340,其可以包括非易失性存储器和/或易失性存储器,这其中包括但不限于电可擦除可编程只读存储器(eeprom)、只读存储器(rom)、可编程只读存储器(prom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,所述存储设备2340可以包括内部存储设备、附接的存储设备(包括可拆卸的存储设备和不可拆卸的存储设备)和/或网络可访问的存储设备。
[0190]
系统2300包括编码器/解码器模块2330,其被配置为例如处理数据以提供所编码的视频或所解码的视频,并且所述编码器/解码器模块2330可以包括其自己的处理器和存储器。所述编码器/解码器模块2330表示可包括在设备中以执行编码和/或解码功能的模块(一个或多个)。如已知的,设备可以包括所述编码模块和解码模块中的一个或两个。另外,编码器/解码器模块2330可实施为系统2300的单独元件或可并入处理器2310内作为如所属领域的技术人员已知的硬件与软件的组合。要加载到处理器2310或编码器/解码器2330上以执行本文档中描述的各个方面的程序代码可以存储在存储设备2340中,并且随后加载到存储器2320上以供处理器2310执行。根据各种实施例,处理器2310、存储器2320、存储设备2340和编码器/解码器模块2330中的一者或多者可以在执行本文中描述的过程期间存储各种项中的一者或多者。这些存储的项可以包括但不限于输入视频、所解码的视频或该解码的视频的部分、比特流、矩阵、变量以及来自方程式、公式、运算和运算逻辑的处理的中间或最终结果。
[0191]
在一些实施例中,所述处理器2310和/或所述编码器/解码器模块2330内的存储器用于存储指令,并且提供用于在编码或解码期间需要的处理的工作存储器。然而,在其它实施例中,所述处理设备(例如,所述处理设备可为所述处理器2310或所述编码器/解码器模块2330)外部的存储器用于这些功能中的一者或多者。外部存储器可以是存储器2320和/或存储设备2340,例如,动态易失性存储器和/或非易失性闪存。在几个实施例中,外部非易失性闪存用于存储例如电视的操作系统。在至少一个实施例中,诸如ram的快速外部动态易失性存储器被用作视频译码和解码操作的工作存储器,诸如用于mpeg-2(mpeg是指运动图像专家组,mpeg-2也被称为iso/iec13818,并且13818-1也被称为h.222,并且13818-2也被称为h.262)、hevc(hevc是指高效视频译码,也被称为h.265和mpeg-h部分2)、或vvc(通用视频译码,由联合视频团队专家jvet开发的新标准)的工作存储器。
[0192]
如框2330中所示,可以通过各种输入设备来提供对系统2300的元件的输入。这样
的输入设备包括但不限于:(i)接收例如由广播者通过空中传输的射频(rf)信号的rf部分,(ii)分量(comp)输入端子(或一组分量输入端子),(iii)通用串行总线(usb)输入端子,和/或(iv)高清晰度多媒体接口(hdmi)输入端子。图23中未示出的其它示例包括合成视频。
[0193]
在各种实施例中,框2430的输入设备具有本领域已知的相关联的相应输入处理元件。例如,所述rf部分可以与适合于以下的元件相关联:(i)选择期望频率(也称为选择信号,或将信号频带限制到一频带),(ii)将所选择的信号下变频,(iii)再次将频带限制到较窄频带,以选择(例如,)在某些实施例中可以称为信道的信号频带,(iv)解调所述下变频且频带限制的信号,(v)执行纠错,和(vi)解复用以选择期望的数据分组流。各种实施例的rf部分包括一个或多个元件以执行这些功能,例如,频率选择器、信号选择器、限带器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。所述rf部分可以包括执行各种这些功能的调谐器,这些功能包括例如将所接收的信号下变频到较低频率(例如,中频或近基带频率)或基带。在一个机顶盒实施例中,所述rf部分及其相关的输入处理元件接收通过有线(例如,电缆)介质发送的rf信号,并通过滤波、下变频和再次滤波来执行到期望频带的频率选择。各种实施例重新安排上述(和其它)元件的顺序,移除这些元件中的一些,和/或添加执行类似或不同功能的其它元件。添加元件可以包括在现有元件之间插入元件,例如插入放大器和模数转换器。在各种实施例中,所述rf部分包括天线。
[0194]
另外,usb和/或hdmi终端可以包括用于通过usb和/或hdmi连接将系统2300连接到其它电子设备的相应接口处理器。应当理解,输入处理的各个方面(例如,所罗门纠错)可以根据需要在例如单独的输入处理ic或处理器2310内实现。类似地,usb或hdmi接口处理的各方面可以根据需要在单独的接口ic内或在处理器2310内实现。解调、纠错和解复用的流被提供给各种处理元件,这其中包括例如处理器2310和编码器/解码器2330,其与存储器和存储元件结合操作以根据需要来处理所述数据流以便在输出设备上呈现。
[0195]
系统2300的各种元件可以设置在集成壳体内。在该集成壳体内,各种元件可以使用合适的连接布置(例如,本领域已知的内部总线,包括ic间(i2c)总线、布线和印刷电路板)互连并在其间传输数据。
[0196]
所述系统2300包括通信接口2350,其使得能够经由通信信道2360与其他设备通信。所述通信接口2350可以包括但不限于被配置为通过通信信道2360发送和接收数据的收发器。所述通信接口2350可以包括但不限于调制解调器或网卡,并且所述通信信道2360可以例如在有线和/或无线介质内实现。
[0197]
在各种实施例中,使用无线网络(例如,wi-fi网络,例如ieee 802.11(ieee是指电气和电子工程师协会)),将数据流式传输或以其他方式提供给所述系统2300。这些实施例的wi-fi信号通过适用于wi-fi通信的通信信道2360和通信接口2350来接收。这些实施例的通信信道2360通常连接到接入点或路由器,所述接入点或路由器提供对包括因特网的外部网络的接入以允许流式传输应用和其它云上通信。其它实施例使用通过输入框2330的hdmi连接来传递数据的机顶盒而向系统2300提供流式传输的数据。还有一些实施例使用输入框2330的rf连接而向所述系统2300提供流式传输的数据。如上所述,各种实施例以非流式传输方式提供数据。另外,各种实施例使用除wi-fi之外的无线网络,例如,蜂窝网络或蓝牙网络。
[0198]
所述系统2300可以向各种输出设备(包括显示器2400、扬声器2410和其他外围设
备2420)提供输出信号。各种实施例的显示器2400包含以下中的一者或多者:例如触摸屏显示器、有机发光二极管(oled)显示器、弯曲显示器和/或可折叠显示器。所述显示器2400可以用于电视、平板电脑、膝上型计算机、蜂窝电话(移动电话)或其他设备。所述显示器2400还可与其它组件集成(例如,如在智能电话中),或是单独的(例如,用于膝上型计算机的外部监视器)。在各实施例的各示例中,所述其它外围设备2420包括以下中的一者或多者:独立数字视频盘(或数字多功能盘)(dvr,针对这两项)、盘播放器、立体声系统和/或照明系统。各种实施例使用一个或多个外围设备2420,其基于系统2300的输出来提供功能。例如,盘播放器执行播放所述系统2300的输出的功能。
[0199]
在各种实施例中,使用信令(诸如,av.link(av.链路)、消费电子控制(cec)、或在有或没有用户干预的情况下实现设备到设备控制的其他通信协议)在系统2300和显示器2400、扬声器2410或其它外围设备2420之间传送控制信号。所述输出设备可以经由通过相应接口2370、2380和2390的专用连接而通信地耦合到系统2300。作为替代,所述输出设备可以使用通信信道2360经由通信接口2350连接到系统2300。所述显示器2400和扬声器2410可以与系统2300的其它组件一起集成在电子设备(例如,电视机)中的单个单元中。在各种实施例中,显示接口2370包括显示驱动器,例如定时控制器((t con)芯片。
[0200]
例如,如果输入2430的rf部分是单独机顶盒的一部分,则所述显示器2400和扬声器2410可以备选地与其它组件中的一个或多个分离。在所述显示器2400和扬声器2410是外部组件的各种实施例中,所述输出信号可以经由专用输出连接来提供,所述专用输出连接例如包括hdmi端口、usb端口或comp输出。
[0201]
这里描述的实现方式可以在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单一形式的实现的上下文中讨论(例如,仅作为方法讨论),所讨论的特征的实现也可以以其他形式(例如,装置或程序)来实现。例如,可以以适当的硬件、软件和固件来实现装置。所述方法可以在例如诸如处理器的装置中实现,所述处理器通常指处理设备,这其中包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,例如计算机、蜂窝电话、便携式/个人数字助理(pda)和便于终端用户之间的信息通信的其他设备。
[0202]
根据本发明实施例的一方面,提供一种用于视频编码和/或解码的设备2100,所述设备包含处理器2310及耦合到所述处理器的至少一个存储器2320、2340,所述处理器2310经配置以执行上文所描述的方法的实施例中的任一者。
[0203]
如本领域技术人员将明白的,实现方式可以产生被格式化以携带例如可以被存储或发送的信息的各种信号。该信息可以包括例如用于执行方法的指令,或者由所描述的实现方式之一产生的数据。例如,信号可以被格式化以携带所描述的实施例的比特流。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。所述格式化可以包括例如编码数据流和用编码数据流调制载波。所述信号携带的信息可以是例如模拟或数字信息。如已知的,所述信号可以通过各种不同的有线或无线链路来传输。该信号可以存储在处理器可读介质上。
[0204]
此外,任何方法可以被实现为(独立地或联合地)包括可以由处理器执行的计算机可执行指令的计算机程序产品。具有所述计算机可执行指令的计算机程序产品可以存储在系统2300、编码器100和/或解码器200的相应的暂时性或非暂时性计算机可读存储介质中。
[0205]
重要的是注意,在一些实施例中,所述过程中的一个或多个元素可以被组合、以不同顺序被执行、或被排除,同时仍实现本公开的各方面。可以并行地执行其他步骤,其中所述处理器在开始另一步骤之前不等待一个步骤的完全完成。
[0206]
此外,本实施例的各方面可以采用计算机可读存储介质的形式。可以利用一个或多个计算机可读存储介质的任何组合。计算机可读存储介质可以采取计算机可读程序产品的形式,该计算机可读程序产品被包含在一个或多个计算机可读介质中,并且具有包含在其上的计算机可读程序代码,该计算机可读程序代码可由计算机执行。如本文所使用的计算机可读存储介质被认为是非暂时性存储介质,其被赋予在其中存储信息的固有能力以及提供从其检索信息的固有能力。计算机可读存储介质可以是例如但不限于:电、磁、光、电磁、红外或半导体系统、装置或设备、或前述的任何合适的组合。
[0207]
应当理解,以下列表虽然提供了可以应用本公开的计算机可读存储介质的更具体的示例,但是仅是说明性的而不是如本领域普通技术人员容易理解的穷举列表。所述示例列表包括便携式计算机盘、硬盘、rom、eprom、闪存、便携式光盘只读存储器(cd-rom)、光存储设备、磁存储设备或前述的任何合适的组合。
[0208]
根据本发明实施例的一个方面,提供了一种承载软件程序的计算机可读存储介质,所述软件程序包括用于执行包括上述方法的本发明实施例的任何方法的任何实施例的程序代码指令。
[0209]
如上文所详述,在本发明中,一些方面涉及一种包括适于编码图像数据的至少一个处理器的设备、或一种用于编码图像数据的方法,所述至少一个处理器适于或所述方法包括:通过使用帧内预测模式来对所述图像数据的至少一个第一块进行帧内预测,所述帧内预测模式使用第一单个变换,所述第一单个变换是通过考虑所述第一块大小而获得的。所述图像数据可以是例如图像帧。根据一些实施例,所述帧内预测模式使用所述第一单个变换来预测所述图像数据的具有所述第一块大小的块。根据一些实施例,所述第一单个变换是从包括单个矩阵和单个偏差向量的集合获得的。根据一些实施例,所述帧内预测模式使用第二单个变换来对所述图像数据的具有与所述第一块大小不同的大小的第二块进行帧内预测。
[0210]
根据一些实施例,当所述块大小是4
×
4像素时,所述单个矩阵具有16
×
4像素大小和/或所述单个向量具有16像素大小。根据一些实施例,当所述块大小是4
×
8像素、8
×
4像素或8
×
8像素时,所述单个矩阵具有16
×
8像素大小和/或所述单个向量具有16像素大小。根据一些实施例,当所述块大小不同于4
×
4像素、4
×
8像素、8
×
4像素或8
×
8像素时,所述单个矩阵具有64
×
8像素大小和/或所述单个向量具有64像素大小。
[0211]
根据一些实施例,所述至少一个处理器适于或所述方法包括:将用信号通知所述帧内预测模式的使用的信息编码在比特流中。根据一些实施例,使用可变译码长度来在所述比特流中用信号通知多个预测模式(mpm),所述可变译码长度对所述预测模式进行排序,并且所述信息被编码为所述多个预测模式中的一个预测模式。根据一些实施例,所述多个预测模式包含至少一个常规帧内预测模式。根据其中所述多个预测模式包含用信号通知dc帧内预测模式的至少一个dc元素的一些实施例,所述信息在所述dc元素中的至少一个之前、之后和/或被替代地译码。根据其中所述多个预测模式包含用信号通知平面帧内预测模式的至少一个平面元素的一些实施例,所述信息在所述平面元素中的至少一者之前、之后
和/或被替代地译码。
[0212]
根据一些实施例,所述至少一个处理器适于或所述方法包括:在比特流中(例如在帧级别)编码所述第一和/或第二单个变换的至少一个参数。根据一些实施方式,所述参数通过训练深度神经网络获得。
[0213]
本公开的一些方面涉及一种包括适于对图像数据进行编码的至少一个处理器设备、或者一种用于对图像数据进行编码的方法,其中,使用可变译码长度来通过所述编码以信号形式发送多个预测模式,所述至少一个处理器适于或者所述方法包括:
[0214]-通过使用帧内预测模式来对所述图像数据的至少一个第一块进行帧内预测,所述帧内预测模式使用至少一个第一变换,所述至少一个第一变换是通过考虑所述第一块大小而获得的,
[0215]-将表示所述帧内预测模式的使用的信息编码在比特流中,所述信息被编码为所述多个预测模式中的一个。
[0216]
一些实施例涉及一种用于对图像数据进行编码的方法、或一种包括适于对图像数据进行编码的至少一个处理器的设备,该方法包括或所述处理器适于:通过使用帧内预测模式对所述图像数据的至少一个第一块进行帧内预测或通过组合帧间预测和帧内预测来进行预测,所述帧内预测模式使用第一单个变换来预测所述第一块大小的块,所述帧内预测模式使用第二单个变换来对所述图像数据的与所述第一块大小不同的大小的第二块进行帧内预测。
[0217]
本公开的一些方面涉及一种包括至少一个处理器的设备或方法,所述至少一个处理器适于或所述方法包括:通过使用用信号通知使用第一单个变换的帧内预测模式来重构在比特流中编码的图像数据的至少一个第一块,所述第一单个变换考虑所述第一块大小。
[0218]
根据一些实施例,根据所述帧内预测模式,通过使用用于预测的所述第一单个变换对所述图像数据的具有所述第一块大小的块进行帧内预测。根据一些实施例,根据所述帧内预测模式,通过使用第二单个变换对所述图像数据的具有与所述第一块大小不同的大小的块进行帧内预测。
[0219]
根据一些实施例,所述第一单个变换是从包括单个矩阵和单个偏差向量的集合获得的。
[0220]
根据一些实施例,当所述块大小是4
×
4像素时,所述单个矩阵具有16
×
4像素大小和/或所述单个向量具有16像素大小。根据一些实施例,当所述块大小是4
×
8像素、8
×
4像素或8
×
8像素时,所述单个矩阵具有16
×
8像素大小和/或所述单个向量具有16像素大小。根据一些实施例,其中当所述块大小不同于4
×
4像素、4
×
8像素、8
×
4像素或8
×
8像素时,所述单个矩阵具有64
×
8像素大小和/或所述单个向量具有64像素大小。
[0221]
根据一些实施例,使用可变译码长度来在所述比特流中用信号通知多个预测模式(mpm),所述可变译码长度对所述预测模式进行排序,并且所述信息被编码为所述多个预测模式中的一个预测模式。根据一些实施例,所述多个预测模式包含至少一个常规帧内预测模式。根据一些实施例,当所述多个预测模式包含用信号通知dc帧内预测模式的至少一个dc元素时,在所述dc元素中的至少一者之前、之后和/或替代地对所述信息进行译码。根据一些实施例,当所述多个预测模式包含用信号通知平面帧内预测模式的至少一个平面元素时,在所述平面元素中的至少一者之前、之后和/或替代地对所述信息进行译码。
[0222]
根据一些实施例,该方法包括:在比特流中(例如在帧级别)编码所述第一和/或第二单个变换的至少一个参数。根据一些实施例,所述至少一个参数是通过训练深度神经网络获得的
[0223]
本公开的一些方面涉及一种包括至少一个处理器的设备、或方法,所述至少一个处理器适于或所述方法包括:对图像数据进行解码,可变译码长度用于用信号通知对用于对所述图像数据进行编码的多个预测模式的使用,所述处理器适于或所述方法包括:
[0224]-通过使用帧内预测模式来重构所述图像数据的至少一个第一块,所述帧内预测模式用信号通知考虑所述第一块大小的至少一个第一变换的使用,
[0225]-对在比特流中用信号通知所述帧内预测模式的使用的信息进行解码,所述信息被编码为所述多个预测模式中的一个预测模式。
[0226]
一些方面涉及一种计算机可读的非暂时性程序存储设备,其在其实施例中的任意者中有形地体现可由计算机执行以执行本发明的以上方法中的任一者的指令程序。
[0227]
[1]a.m.kotra,b.wang,s.esenlik,h.gao,j.chen,m.g.sarwer,g.w.hsu,y.w.huang,s.m.lei,l.li,j.heo,j.choi,s.yoo,j.lim,s.kim,a.k.ramasubramonian,g.van der auwera,m.karczewicz.jvet-l0222 ce3 6.6.1:a simple 6-mpm list construction with truncated binary coding for non-mpm signaling(一种用于非mpm信令的具有截短二进制译码的简单6-mpm列表构造).joint video exploration team(联合视频探索小组)(jvet)of itu-t sg 16wp 3and iso/iec jtc 1/sc 29/wg 11,中国澳门第12次会议,2018年10月3-12日.
[0228]
[2]jonathan pfaff,stallenberger,michaelphilipp merkle,philipp helle,tobias hinz,heiko schwarz,detlev marpe,thomas wiegand.jvet-n0217 ce3:affine linear weighted intra prediction(仿射线性加权帧内预测)(ce3-4.1,ce3-4.2).joint video exploration team(联合视频探索小组)(jvet)of itu-t sg 16wp 3and iso/iec jtc 1/sc 29/wg 11,瑞士日内瓦第14次会议,2019年3月19-27日.
[0229]
[3]luong pham van,geert van der auwera,adarsh k.ramasubramonian,vadim seregin,marta karczewicz.jvet-n0302 ce10:ciip with position-independent weights(具有位置无关权重的ciip).joint video exploration team(联合视频探索小组)(jvet)of itu-t sg 16wp 3and iso/iec jtc 1/sc 29/wg 11,瑞士日内瓦第14次会议,2019年3月19-27日。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1