用于改善对多声道音频信号的呈现的方法和设备的制作方法

文档序号：2827191阅读：182来源：国知局

用于改善对多声道音频信号的呈现的方法和设备的制作方法
【专利摘要】传统的音频压缩技术执行标准化的信号变换，与内容的类型无关。多声道信号被分解为它们的信号分量，随后进行量化和编码。由于缺少对场景构成的特性的了解，所述方法是不利的，尤其对于例如多声道音频或高阶立体声(HOA)内容。一种用于对预处理处理的音频数据进行编码的改善方法包括：对预处理的音频数据进行编码；以及对辅助数据进行编码，所述辅助数据表示特定的音频预处理。一种用于对编码的音频数据进行解码的改善方法包括：确定在编码之前是否已经对音频数据进行预处理；对音频数据进行解码；从接收到的数据提取与预处理有关的信息；以及根据所提取的预处理的信息，对解码的音频数据进行后处理。
【专利说明】用于改善对多声道音频信号的呈现的方法和设备

【技术领域】
[0001 ] 本发明的领域为音频压缩，具体地多声道音频信号和以声场为导向的音频场景的压缩，例如高阶立体声（HOA)。

【背景技术】
[0002] 目前，多声道音频信号的压缩方案不能明确地考虑输入的音频材料是如何制作或混合的。因此，已知的音频压缩技术无法获知他们将进行压缩的内容的原始/混合类型。在已知方法中，执行"盲"信号变换，通过所述变换将多声道信号分解为随后进行量化和编码的信号分量。这种方法的缺点在于对上述信号分解的计算是要求计算能力的，针对给定片段的音频场景，寻找最适合的和最有效的信号分解是困难的并且易于出错。

【发明内容】

[0003] 本发明涉及一种用于改善多声道音频呈现的方法和设备。
[0004] 发现至少一部分上述缺点是由于缺少关于场景组成的特性的先验知识而导致的。尤其对于空间音频内容（例如，多声道音频或高阶立体声（HOA)内容），这种现有信息有助于采用压缩方案。例如，压缩算法中的通用预处理步骤是音频场景分析，目的是从原始内容或原始内容混合中提取定向的音频源或音频对象。可以与残余空间音频分量分离地对这种定向的音频源或音频对象进行编码。
[0005] 在一个实施例中，用于对预处理的音频数据进行编码的方法包括以下步骤：对预处理的音频数据进行编码；以及对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理。
[0006] 在一个实施例中，本发明涉及一种用于对编码的音频数据进行解码的方法，包括以下步骤：确定在编码之前是否已经对音频数据进行预处理；对音频数据进行解码；从接收到的数据提取与预处理有关的信息；以及根据所提取的预处理信息，对解码的音频数据进行后处理。可以通过分析音频数据或通过分析伴随的元数据，来实现所述确定在编码之前是否已经对音频数据进行预处理的步骤。
[0007] 在本发明的一个实施例中，用于对预处理的音频数据进行编码的编码器包括：第一编码器，用于对预处理的音频数据进行编码；以及第二编码器，用于对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理。
[0008] 在本发明的一个实施例中，用于对编码的音频数据进行解码的解码器包括：分析器，用于确定在编码之前是否已经对音频数据进行预处理；第一解码器，用于对所述音频数据进行解码；数据流解析单元或数据流提取单元，用于从接收到的数据提取与预处理有关的信息；以及处理单元，用于根据所提取的预处理信息对解码的音频数据进行后处理。
[0009] 在本发明的一个实施例中，计算机可读介质将可执行指令存储在其上，以便引起计算机执行根据上述方法中的至少一个的方法。
[0010] 本发明的总体构思是基于对多声道音频压缩系统的以下扩展中的至少一个的：
[0011] 根据一个实施例，多声道音频压缩和/或呈现系统具有接口，所述接口包括多声道音频信号流（例如，PCM流）、声道或相应扬声器的相关空间位置以及表示向多声道音频信号流施加的混合的类型的元数据。混合类型表示例如（在先）使用或配置和/或HOA或 VBAP平移的任何详情、特定记录技术或等同信息。所述接口可以是信号传输链的输入接口。在HOA内容的情况下，扬声器的空间位置可以是虚拟扬声器的位置。
[0012] 根据一个实施例，多声道压缩编解码器的比特流包括信令信息和后续的呈现算法，所述信令信息向解码器传输与虚拟或实际扬声器位置和原始混合信息有关的上述元数据。从而，可以调整任何施加在解码侧上的任何呈现技术，以便适应所述具体传输内容的编码侧上的特定混合特性。
[0013] 在一个实施例中，元数据的使用是可选的并且是可以接通或关断的。即，可以按照不使用元数据的简单模式来解码和呈现音频内容，但是在所述简单模式下，所述解码和/ 或呈现不是优化的。在增强模式下，可以通过使用元数据实现优化的解码和/或呈现。在该示例中，解码器/呈现器可以在两个模式之间切换。

【专利附图】

【附图说明】
[0014] 参考附图描述了本发明的有利示例实施例，附图中：
[0015] 图1是已知多声道传输系统的结构；
[0016] 图2是根据本发明的一个实施例的多声道传输系统的结构；
[0017] 图3是根据本发明的一个实施例的智能解码器；
[0018] 图4是针对HOA信号的多声道传输系统的结构；
[0019] 图5是DSHT的空间采样点；
[0020] 图6是针对在编码器和解码器结构框中使用的码本的球面采样位置的示例；以及
[0021] 图7是特别改善的多声道音频编码器的示例实施例。

【具体实施方式】
[0022] 图1示出了多声道音频编码的已知方法。在多声道音频编码器20中对来自音频制作阶段10的音频数据进行编码，并在多声道音频解码器30中对其进行传输和解码。可以明确地传输元数据（或可以隐含地包括它们的信息），所述元数据与空间音频成份相关。这种传统元数据局限于与扬声器的空间位置有关的信息，例如特定格式的形式（例如，立体声或ITU-R BS. 775-1，也称作"5. 1环绕声"）或具有扬声器位置的表格。不向多声道音频编码器20传送与如何产生特定空间音频混合/记录有关的信息，因此当在多声道音频编码器20内压缩信号时无法采用或利用这种信息。
[0023] 然而，可以认识到，如果多声道空间音频编码器处理源自高阶立体声（HOA)格式的内容、用任意固定麦克风设备进行的记录以及用任意特定平移算法进行的多声道混合中的至少一个，则由于在这些情况下压缩方案可以采用特定的混合特性，对内容的原始类型和混合类型中的至少一个的了解是十分重要的。此外，附加混合信息指示可能对原始多声道音频内容有帮助。有利的是指示例如所用平移方法（例如，基于矢量的幅度平移（VBAP)) 或其任何细节，以便改善编码效率。有利地，可以根据所述信息来调整音频场景分析的信号模型以及后续的编码步骤。这样导致在速率失真性能和计算工作量方面更高效的压缩系统。
[0024] 在HOA内容的具体情况下，存在以下问题：存在多种不同惯例，例如，复数值的vs 实数值的球面谐波、多个/不同规范化方案等。为了避免不同产生的HOA内容之间的不兼容，有用的是定义通用格式。通过使用例如离散球面谐波变换（DSHT)的变换来将HOA时域系数变换为等同的空间表示（多声道表示），来实现该目的。根据空间采样位置的规则球面分布来创建DSHT，其中可以认为所述空间采样位置与虚拟扬声器位置等同。下文给出了与DSHT有关的更多定义和详情。使用HOA的另一定义的任何系统能够从这种在空间域内定义的通用格式，导出它自己的HOA系数表示。如下文所详述，关于虚拟扬声器信号表现原始HOA信号的先验知识对于压缩所述通用格式的信号是相当有益的。
[0025] 此外，这种混合信息等对于解码器和呈现器同样是有用的。在一个实施例中，将所述混合信息等包括在比特流中。可以调整所用的呈现算法以便适应原始混合（例如，HOA或 VBAP)，从而允许向灵活的扬声器位置更好地进行混缩或呈现。
[0026] 图2根据本发明的一个实施例的示出了多声道音频传输系统的扩展。通过添加对在音频内容的制作阶段10所施加的混合类型、记录类型、编辑类型、合成类型等中的至少一个进行描述的元数据，来实现所述扩展。解码器输出携带这种信息，并可以在多声道压缩编解码器40、50中使用所述信息，以便改善效率。向多声道音频编码器40传达与如何产生特定的空间音频混合/记录有关的信息，因此可以在压缩所述信号中采用或利用这种信息。
[0027] 可以如何使用这种元数据信息的一个示例在于：可以依赖于于输入材料的混合类型，由多声道编解码器激活不同编码模式。例如，在一个示例中，如果在编码器输入处表示 HOA混合，则将编码模式切换为如下所述（相对等式（3)-(16))的HOA专用编码/解码原理 (Η0Α模式），然而如果输入信号的混合类型不是HOA或是未知的，则使用不同的（例如，更传统的）多声道编码技术。在HOA模式下，在一个实施例中所述编码以DSHT块开始，其中 DSHT在开始HOA专用编码处理之前恢复原始HOA系数。在另一实施例中，使用除了 DSHT之外的不同离散变换，以便进行比较。
[0028] 图3示出了根据本发明的一个实施例的"智能"呈现系统，所述系统使用本发明的元数据来完成向存在于解码器端子处的M个扬声器的灵活地下混合（down-mix)、上混合 (up-mix)或重新混合（re-mix)经过解码的N个声道。可以将与混合类型、记录等的元数据用于选择多个模式之一，以便完成高效的、高质量的呈现。多声道编码器50根据与输入音频数据的混合类型有关的元数据，使用优化编码，且不仅对N个经过编码的音频声道和与扩音器位置有关的信息进行编码/将其提供给解码器60,而且还对例如"混合类型"信息进行编码/将其提供给解码器60。解码器60(在接收侧）使用在接收侧可用的扬声器的实际扬声器位置，以便产生针对M个音频声道的输出信号，其中所述扬声器的实际扬声器位置是在发送侧（即，解码器）处是未知的。在一个实施例中，N与M不同。在一个实施例中，N 等于M或不同于M，但是，接收侧处的实际扬声器位置与在编码器50中和在音频制作10中假定的扬声器位置不同。编码器50或音频制作10可以假定例如标准化的扬声器位置。
[0029] 图4示出了如何将本发明用于高效地传输HOA内容。通过逆DSHT(iDSHT)410将输入的HOA系数变换为空间域。将得到的N个音频声道、它们（虚拟）的空间位置以及指示（例如，如"Η0Α混合"标志的标志）提供给多声道音频编码器420,所述多声道音频编码器420是压缩编码器。因此，压缩编码器可以使用其输入信号是由HOA衍生的先验知识。音频编码器420和音频解码器430或音频呈现器之间的接口包括N个音频声道、它们（虚拟）的空间位置和所述指示。在解码侧执行逆处理，即，可以通过在解码430之后应用DSHT 440来恢复HOA表示，其中所述DSHT 440使用在对所述内容进行编码之前应用的相关操作的知识。根据本发明，通过所述接口接收这种元数据形式的知识。
[0030] 一些类型的（但不必是所有类型的）元数据（具体地，在本发明的范围内）应是例如以下内容中的至少一个：
[0031] -从HOA内容得到原始内容的指示加上以下内容中的至少一个：
[0032] 〇HOA表示的阶次
[0033] 〇2D、3D或半球面表示的指示；以及
[0034] 〇空间采样点（适应性的或固定的）的位置
[0035] -使用VBAP合成混合原始数据的指示加上对成对VBAP (双）或三个一组扬声器的分配；以及
[0036] -用固定分散的麦克风记录原始内容的指示加上以下内容中的至少一个：
[0037] 〇一个或更多个麦克风在记录设备上的一个或更多个位置和方向；以及
[0038] 〇一个或更多个类型的麦克风，例如，心脏形的vs全方位的vs超心脏形的等。
[0039] 本发明的主要优点在于以下方面。
[0040] 通过对输入材料的信号特性的更好的先验知识，获得更高效的压缩方案。编码器可以将这种先验知识用于改善音频场景分析（例如，可以采用混合内容的源模型）。混合内容的源模型的示例是在音频制作阶段10修改、编辑或合成信号源的情况。这种音频制作阶段通常被用于制作多声道音频信号，通常位于多声道音频编码器块20之前。同样在图2 中假定（未示出）这种音频制作阶段10在新的编码块40之前。通常，丢失所述编辑信息而不传递给编码器，因此无法采用所述信息。本发明实现保留这种信息。音频制作阶段10 的示例包括记录并混合合成声音或多个麦克风信息，例如合成地映射到扬声器位置的多个声音源。
[0041] 本发明的另一优点在于可以明显改善对所传送的并经过解码的内容的呈现，具体地，对于病态场景和扬声器位置易变的场景，在所述病态场景中可用扬声器的数量与可用声道的数量不同（所谓的缩混和上混合场景）。后者需要根据扬声器位置进行重新映射。
[0042] 另一优点在于可以在基于声道的音频传输系统中传输声场相关格式的音频数据 (例如，Η0Α)，而不丢失高质量呈现所需的重要数据。
[0043] 根据本发明的对元数据的传输允许在解码侧进行优化解码和/或呈现，具体地，当执行空间分解时。尽管可以通过多种方法（例如，Karhunen-Loeve变换（KLT))获得一般空间分解，然而，优化分解（根据本发明，使用元数据进行的分解）是计算成本较小的，与此同时提供更好质量的多声道输出信号（例如，在呈现期间，可以更易于将单个声道调整或映射到扬声器位置，所述映射是更准确的）。如果在呈现期间的混合（矩阵化）阶段修改（增加或减少）声道的数量，或如果修改一个或更多个扬声器位置（特别在调整多个声道中的每个声道以适应特定扬声器位置的情况下），则该方法是特别有利的。
[0044] 在下文中，描述了高阶立体声（HOA)和离散球面谐波变换（DSHT)。
[0045] 在用感知编码器进行压缩之前，例如可以通过离散球面谐波变换（DSHT)来将 HOA信号变换为空间域。传输或存储这种多声道音频信号表示通常需要适合的多声道压缩技术。通常，在将所述I个经过解码的信号(i = 1，...I)最终矩阵化为J个新信号 Pj(I) (j = 1，，.J)之前，执行声道独立的感知解码。术语矩阵化意味着以加权的方式添加或混合解码的信号根据以下方式矢量排列所有信号Αα) α = ι，...ι)以及所有新信号f』·? (j = 1，...J):

【权利要求】
1. 一种用于对预处理的音频数据进行编码的方法，包括w下步骤： -对音频数据进行编码；W及 -对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频预处理。
2. 根据权利要求1所述的方法，其中所述音频数据是HOA格式。
3. 根据权利要求1或2所述的方法，其中所述编码包括使用自适应逆DSHT (423)。
4. 根据权利要求1-3之一所述的方法，其中所述辅助数据表示根据HOA内容得到所述音频内容加上W下内容中的至少一个；HOA内容表示的阶次，2D、3D或半球面表示W及空间采样点的位置。
5. 根据权利要求1-4之一所述的方法，其中所述辅助数据表示使用VBAP合成地混合音频内容，加上对VBAP成对扬声器或=个一组扬声器的分配。
6. 根据权利要求1-5之一所述的方法，其中所述辅助数据表示用固定分散的麦克风记录所述音频内容加上W下内容中的至少一个：一个或更多个麦克风在记录设备上的一个或更多个位置和方向；W及一个或更多个类型的麦克风。
7. -种用于对编码的音频数据进行解码的方法，包括W下步骤： -确定在编码之前是否已经对音频数据进行预处理； -对音频数据进行解码； -从接收到的数据提取与预处理有关的信息；W及 -根据所提取的预处理信息，对解码的音频数据进行后处理。
8. 根据权利要求7所述的方法，其中所述与预处理有关的信息表示根据HOA内容得到音频内容加上W下内容中的至少一个；HOA内容表示的阶次，2D、3D或半球面表示W及空间采样点的位置。
9. 根据权利要求1-8之一所述的方法，其中所述与预处理有关的信息表示使用VBAP合成地混合音频内容加上对成对VBAP或=个一组扬声器的分配。
10. 根据权利要求1-9之一所述的方法，其中所述与预处理有关的信息指示用固定分散的麦克风记录所述音频内容加上W下内容中的至少一个：一个或更多个麦克风在记录设备上的一个或更多个位置和方向；W及一个或更多个类型的麦克风。
11. 一种用于对预处理的音频数据进行编码的编码器，包括： -第一编码器，用于对音频数据进行编码；W及 -第二编码器，用于对辅助数据进行编码，所述辅助数据表示对音频数据的特定音频进行预处理。
12. 根据权利要求11所述的编码器，其中所述编码器包括自适应逆DSHT块。
13. -种用于对编码的音频数据进行解码的解码器，包括： -分析器，用于确定在编码之前是否已经对音频数据进行预处理； -第一解码器，用于对所述音频数据进行解码； -数据流解析/提取单元，用于从接收的数据提取与预处理有关的信息；W及 -处理单元，用于根据所提取的预处理信息对解码的音频数据进行后处理。
14. 根据权利要求13所述的解码器，其中所述与预处理有关的信息包括对麦克风设置的表示或用于混合所述音频数据的平移算法。
15. -种适于呈现HOA信号的音频呈现器，所述音频呈现器包括接口，所述接口包括：多个输入声道，用于接收多声道音频数据和输入声道的空间位置信息，w及用于接收元数据的至少一个声道，所述元数据规定了已经向多声道音频数据施加的音频混合的类型。
16.根据权利要求15所述的音频呈现器，其中所述元数据规定了麦克风设置或已经用于混合音频数据的平移算法。
【文档编号】G10L19/008GK104471641SQ201380038438
【公开日】2015年3月25日申请日期:2013年7月19日优先权日:2012年7月19日
【发明者】奥利弗·威伯特, 约翰内斯·伯姆, 彼得·杰克斯申请人:汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥利弗·威伯特;约翰内斯·伯姆;彼得·杰克斯;
技术所有人：汤姆逊许可公司;
我是此专利的发明人