用于多声道编码中的立体声填充的装置和方法与流程

文档序号：36219191发布日期：2023-11-30 10:10阅读：177来源：国知局

本发明涉及音频信号编码，具体而言，涉及用于多声道编码中的立体声填充的装置和方法。

背景技术：

1、音频编码属于压缩领域，涉及利用音频信号中的冗余和不相关性。

2、在mpeg usac中(参见例如[3])，使用复数预测、mps2-1-2或具有频带受限或全频带残余信号的统一立体声来执行两个声道的联合立体声编码。mpeg环绕(参见例如[4])分层地组合一对二(ott)和二对三(ttt)框，用于多声道音频的联合编码，而无论有或没有残差信号的传输。

3、在mpeg-h中，四声道元素分层地应用mps2-1-2立体声框，然后是复数预测/ms立体声框，构建固定的4×4再混合树(参见例如[1])。

4、ac4(参见例如[6])引入了新的3声道元素、4声道元素和5声道元素，其允许仅有发送的混合矩阵和随后的联合立体声编码信息来重新混合所发送的声道。此外，先前公开文献提出使用诸如karhunen-loeve变换(klt)之类的正交变换用于增强型多声道音频编码(参见例如[7])。

5、例如，在3d音频情况下，扬声器声道分布在若干高度层，结果产生水平和垂直声道对。如在usac中定义，仅两个声道的联合编码不足以考虑声道之间的空间和感知关系。在附加前处理/后处理步骤中应用mpeg环绕，在不可能进行联合立体声编码的情况下个体地发送残差信号，例如以利用左垂直残差信号和右垂直残差信号之间的相依性。在ac-4中引入了专用n-声道元素，其允许联合编码参数的有效编码，但未能用于针对新的沈浸式回放情境(7.1+4、22.2)所提出的具有较多声道的一般性扬声器设置。mpeg-h四声道元素也限于仅4个声道并且无法动态地应用于任意声道，而仅应用于预先配置且固定数量的声道。

6、mpeg-h多声道编码工具允许产生离散编码立体声框子(亦即联合编码声道对)的任意树，参考[2]。

7、音频信号编码中常见的问题是因量化(例如，频谱量化)而引起的。量化可能导致频谱空穴。例如，在特定频带中的所有频谱值可以在编码器侧被设置为零，作为量化结果。例如，这种谱线的确切值在量化之前可以相当低并且然后量化可能会导致如下情况，其中例如特定频带内的所有谱线的频谱值已被设置为零。当解码时，在解码器侧，这可能导致非期望的频谱空穴。

8、现代频域语音/音频编码系统(例如，ietf的opus/celt编解码器[9]、mpeg-4(he-)aac[10]、或特别地mpeg-d xhe-aac(usac)[11])提供了取决于信号的时间稳定性而使用一个长变换-长区块-或八个顺序短变换-短区块-来编码音频帧的手段。此外，对于低比特率编码，这些方案提供了使用相同声道的伪随机噪声或低频系数来重构声道的频率系数的工具。在xhe-aac中，这些工具分别称作噪声填充和频谱带复制。

9、然而，对于非常有音调或瞬时的立体声输入，单独噪声填充和/或频谱带复制限制了在极低比特率下可以达到的编码质量，这主要是因为需要明确地发送两个声道的许多频谱系数。

10、mpeg-h立体声填充是参数工具，其通过使用先前帧的降混以改善在频域中因量化引起的频谱空穴的填充。类似噪声填充，立体声填充直接在mpeg-h核心编码器的mdct域中操作，参考[1]、[5]、[8]。

11、然而，在mpeg-h中使用mpeg环绕和立体声填充受限于固定的声道对元素，因此无法利用时变声道间相依性。

12、mpeg-h中的多声道编码工具(mct)允许适应各种声道间相依性，但由于典型操作配置中使用单个声道元素，因此不允许立体声填充。现有技术并未公开感知优化的方法以在时变的任意联合编码声道对的情况下生成先前帧的降混。组合mct使用噪声填充作为立体声填充的替代以填充频谱空穴将导致噪声伪影，特别是对于调性信号尤为如此。

技术实现思路

1、本发明的目的是提出改善的音频编码构思。由根据本技术示例实施例的用于解码的装置、由根据本技术示例实施例的用于编码的装置、由根据本技术示例实施例的用于解码的方法、由根据本技术示例实施例的用于编码的方法、由根据本技术示例实施例的计算机程序并通过根据本技术示例实施例的编码的多声道信号来实现本发明的目的。

2、提出一种用于对当前帧的编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置。多声道处理器适于根据第一多声道参数从三个或更多个解码的声道中选择两个解码的声道。此外，所述多声道处理器适于基于所述所选声道生成第一组两个或更多个处理的声道。噪声填充模块适于针对所述所选声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带，并且适于根据辅助信息使用已解码的的三个或更多个先前音频输出声道的适当子集来生成混合声道，并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的频带的谱线。

3、根据实施例，提出一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的装置。

4、所述装置包括接口、声道解码器、用于生成所述三个或更多个当前音频输出声道的多声道处理器、以及噪声填充模块。

5、所述接口适于接收所述当前编码的多声道信号，并且适于接收包括第一多声道参数的辅助信息。

6、所述声道解码器适于对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道集合。

7、所述多声道处理器适于根据所述第一多声道参数从所述三个或更多个解码的声道的集合中选择第一所选两个解码的声道对。

8、此外，所述多声道处理器适于基于所述第一所选两个解码的声道对生成第一组两个或更多个处理的声道，以获得更新后的三个或更多个解码的声道集合。

9、在所述多声道处理器基于所述第一所选两个解码的声道对生成所述第一对两个或更多个处理的声道之前，所述噪声填充模块适于针对所述第一所选两个解码的声道对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带，并且适于使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道，并且适于以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线，其中，所述噪声填充模块适于根据所述辅助信息从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。

10、具体说明如何生成和填充噪声的噪声填充模块可以采用的实施例的具体构思被称作立体声填充。

11、此外，提出一种用于对具有至少三个声道的多声道信号进行编码的装置。

12、所述装置包括迭代处理器，适于在第一迭代步骤中，计算所述至少三个声道中的每对声道之间的声道间相关值，用于在所述第一迭代步骤中，选择具有最高值或具有高于阈值的值的声道对，并且用于使用多声道处理操作处理所选声道对，以导出所选声道对的初始多声道参数并导出第一处理的声道。

13、所述迭代处理器适于在第二迭代步骤中使用所述处理的声道中的至少一个处理的声道进行所述计算、所述选择和所述处理以导出其它的多声道参数和第二处理的声道。

14、此外，所述装置包括声道编码器，适于对通过所述迭代处理器执行的迭代处理所得的声道进行编码以获得编码的声道。

15、此外，所述装置包括输出接口，适于生成编码的多声道信号，所述编码的多声道信号具有所述编码的声道、所述初始多声道参数和所述其它的多声道参数，并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息，所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。

16、此外，提出一种用于对先前帧的先前编码的多声道信号进行解码以获得三个或更多个先前音频输出声道并且用于对当前帧的当前编码的多声道信号进行解码以获得三个或更多个当前音频输出声道的方法。所述方法包括：

17、-接收所述当前编码的多声道信号，并且接收包括第一多声道参数的辅助信息。

18、-对所述当前帧的所述当前编码的多声道信号进行解码以获得所述当前帧的三个或更多个解码的声道集合。

19、-根据所述第一多声道参数从所述三个或更多个解码的声道的集合中选择第一所选两个解码的声道对。

20、-基于所述第一所选两个解码的声道对生成第一组两个或更多个处理的声道，以获得更新后的三个或更多个解码的声道集合。

21、在基于所述第一所选两个解码的声道对生成所述第一对两个或更多个处理的声道之前，进行以下步骤：

22、-针对所述第一所选两个解码的声道对的两个声道中的至少一个声道来标识其内部所有谱线被量化为零的一个或多个频带，并且使用所述三个或更多个先前音频输出声道中的两个或更多个但非所有声道生成混合声道，并且以使用所述混合声道的谱线生成的噪声来填充其内部所有谱线被量化为零的所述一个或多个频带的谱线，其中，根据所述辅助信息进行从所述三个或更多个先前音频输出声道中选择用于生成所述混合声道的两个或更多个先前音频输出声道。

23、此外，提出一种用于对具有至少三个声道的多声道信号进行编码的方法。所述方法包括：

24、-在第一迭代步骤中，计算所述至少三个声道中的每对声道之间的声道间相关值，用于在所述第一迭代步骤中，选择具有最高值或具有高于阈值的值的声道对，并且使用多声道处理操作处理所选声道对以导出用于所选声道对的初始多声道参数并导出第一处理的声道。

25、-在第二迭代步骤中，使用所述处理的声道中的至少一个声道进行所述计算、所述选择和所述处理以导出其它的多声道参数和第二处理的声道。

26、-对通过所述迭代处理器执行的迭代处理所得的声道进行编码以获得编码的声道。以及

27、-生成编码的多声道信号，所述编码的多声道信号具有所述编码的声道、所述初始多声道参数和所述其它的多声道参数，并且具有指示用于解码的装置是否须以基于先前解码的音频输出声道所生成的噪声填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息，所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。

28、此外，提出一种计算机程序，其中所述计算机程序中的每个被配置为当在计算机或信号处理器上执行时用于实施上述方法之一，使得通过所述计算机程序之一实施上述方法中的每种方法。

29、此外，提出一种编码的多声道信号。所述编码的多声道信号包括编码的声道和多声道参数以及指示所述用于解码的装置是否须以基于先前解码的音频输出声道所生成的频谱数据填充其内部所有谱线被量化为零的一个或多个频带的谱线的信息，所述先前解码的音频输出声道先前已经被所述用于解码的装置解码。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：萨沙
技术所有人：弗劳恩霍夫应用研究促进协会
我是此专利的发明人