用于在空间音频对象编码中适配音频信息的设备和方法

文档序号：8385999阅读：571来源：国知局

用于在空间音频对象编码中适配音频信息的设备和方法
【专利说明】用于在空间音频对象编码中适配音频信息的设备和方法
[0001] 本发明涉及音频信号解码和音频信号处理，更具体地，涉及用于在空间音频对象编码（SAOC)中将音频信息进行适配的解码器和方法。
[0002] 在现代数字音频系统中，允许在接收方侧对所传输的内容进行与音频对象相关的修改是主要趋势。这些修改包括对在经由空间分布的扬声器进行多声道回放的情况下对专用音频对象的空间重定位和/或音频信号的所选择的部分的增益修改。这可以通过单独地将音频内容的不同部分递送到不同的扬声器来实现。
[0003] 换言之，在音频处理、音频传输以及音频存储领域中，越来越期望允许对面向对象的音频内容回放进行用户交互，并且还需要利用多声道回放的扩展的可能性以单独地呈现音频内容或者部分音频内容，以便改进听觉感受。由此，多声道音频内容的使用为用户带来显著的改进。例如，可以获得三维听觉感受，这在娱乐应用中带来改进的用户满意度。然而，多声道音频内容在专业环境中例如电话会议应用中也是有用的，因为可以通过使用多声道音频回放来改进讲话者清晰度。另一可能的应用是给音乐作品的听者提供不同部分（也称为"音频对象"）或音轨如人声部分或者不同乐器的单独调整回放级别和/或空间位置。用户可以为了个人品味、为了从音乐作品中更容易地改编一个或更多个部分、为了教学目的、卡拉0K、排练等原因而进行这种调整。
[0004] 对如以脉冲编码调制（PCM)数据或者甚至是压缩音频格式的形式的全数字多声道或多对象音频内容的直接的分离传输要求非常高的比特率。然而，以高比特率效率的方式来传输和存储音频数据也是理想的。因此，为了避免由多声道/多对象应用导致的过度资源负荷，人们乐于在音频质量与比特率要求之间接受合理的折衷。
[0005] 近来，在音频编码领域中，由如运动图像专家组（MPEG)等提出了用于对多声道/ 多对象音频信号的比特率效率的传输/存储的参数化技术。一个示例是作为面向声道的方法[MPS、BCC]的MPEG环绕声（MPS)，或者作为面向对象的方法[JSC、SAOC、SAOCl、SAOC2]的 MPEG空间音频对象编码（SAOC)。另一种面向对象的方法称为"通知源分离" [ISS1、ISS2、 ISS3、ISS4、ISS5、ISS6]。这些技术旨在音频场景中基于对声道/对象以及附加的辅助信息的缩混来重现期望的输出音频场景或者期望的音频源对象，其中辅助信息描述所传输的 /存储的音频场景和/或音频源对象。
[0006] 对这样的系统中的与声道/对象相关的辅助信息的估计和应用以时间-频率选择方式来完成。因此，这样的系统采用时间-频率变换如离散傅里叶变换（DFT)、短时傅里叶变换（STFT)或者滤波器组如正交镜像滤波器（QMF)组等。在图3中，使用MPEGSAOC为例来描绘这样的系统的基本原理。
[0007] 在STFT的情况下，时间维度由时间块编号来表示，而频谱维度由频谱系数（"格子 (bin)"）的编号来获得。在QMF的情况下，时间维度由时隙编号来表示，而频谱维度由子频带编号来获得。如果QMF的频谱分辨率由随后应用第二滤波器阶段来改进，则整个滤波器组称为混合QMF，并且高分辨率子频带称为混合子频带。
[0008] 如上所述，如图3所示，在SAOC中，通常以时间-频率选择方式来进行处理，并且在每个频带内可以被描述如下：
[0009]-使用由元素dN，P构成的缩混矩阵将N个输入音频对象信号ssN混缩成 P个声道Xl~xP以作为编码器处理的一部分，另外，编码器对描述输入音频对象的特性的辅助信息（辅助信息估计器（SIE)模块）进行提取。对于MPEGSAOC，关于彼此的对象能量的关系是这种辅助信息的最基本的形式。
[0010] - 一个或更多个缩混信号和辅助信息被传输/存储。为此，可以如使用众所周知的感知音频编码器如MPEG-l/2LayerII或者III(aka. mp3)、MPEG-2/4增强音频编码（AAC) 等来将一个或更多个缩混音频信号进行压缩。
[0011] -在接收端，解码器概念上试图使用所传输的辅助信息来从（经解码的）缩混信号中恢复原始的对象信号（"对象分离")。然后，在图3中，使用由系数! 1，1-1*"描述的呈现矩阵来将这些近似的对象信号A...知混音成由M个音频输出声道f/ ... 表示的目标场景。在极端情况下，期望的目标场景可以是从混合音中仅呈现出一个源信号（源分离情景），但是也可以是由所传输的对象构成的任何其他任意声学场景。例如，输出可以是单声道、2声道立体声或者5. 1多声道目标场景。
[0012] 图6示意性地描绘了音频编码/解码方案的原理。具体而言，图6是音频编码/ 解码链的原理描述。
[0013] 在编码侧，音频信号通过音频编码方案（通常利用感知效果）进行压缩，并且计算了参数化辅助信息（PSI)(参见编码器601)。得到的由编码的音频信号和PSI构成的比特流被存储（或者被传输）到解码器侧，在解码器侧，图6中标为等的各种解码器实例620、621、622可以将该比特流解码。这些解码器实例可以彼此不同（如在标准规格、应用或者实现限制等中的不同复杂度级别）[SAOC、SAOC1、SAOC2]。
[0014]目前的技术水平的编码方案不能以有效的方式使PSI适应特定目标应用情景或者平台。这可能导致解码器侧处的计算复杂度更高（高于必要的计算复杂度）或者可能造成兼容问题。
[0015] 本发明的目的是为音频对象编码提供改进的构思。本发明的目的通过以下来解决：由根据权利要求1的解码器、由根据权利要求14的用于编码的方法以及由根据权利要求15的计算机程序。
[0016] 提供了一种用于将编码了一个或更多个音频对象的输入音频信息进行适配以获得经适配的音频信息的设备。输入音频信息包括两个或更多个输入音频缩混声道并且进一步包括输入参数化辅助信息。经适配的音频信息包括一个或更多个经适配的音频缩混声道并且进一步包括经适配的参数化辅助信息。
[0017] 该设备包括缩混信号修改器，用于取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道。
[0018] 而且，该设备包括参数化辅助信息适配器，用于取决于适配信息而将输入参数化辅助信息进行适配以获得经适配的参数化辅助信息。
[0019] 根据实施方式，缩混信号修改器可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配，使得一个或更多个经适配的音频缩混声道的数目小于两个或更多个输入音频缩混声道的数目。
[0020] 在实施方式中，适配信息可以取决于解码器实例。缩混信号修改器可以配置成取决于解码器实例而将两个或更多个输入音频缩混声道进行适配。在此处以及在下文中，术语"解码器"和"解码器实例"具有相同的含义。
[0021] 根据实施方式，解码器实例最多能够将最大数目个缩混声道进行解码。适配信息可以取决于缩混声道的所述最大数目。而且，缩混信号修改器可以配置成取决于适配信息而将两个或更多个输入音频缩混声道进行适配以获得一个或更多个经适配的音频缩混声道，使得一个或更多个经适配的缩混声道的数目等于缩混声道的所述最大数目。
[0022] 根据实施方式，适配信息可以包括适配矩阵（)。
[0023] 在实施方式中，缩混信号修改器可以配置成取决于适配矩阵（Dff)而将两个或更多个输入音频缩混声道< >进行适配以获得一个或更多个经适配的音频缩混声道(X=)。
[0024] 根据实施方式，缩混信号修改器可以配置成取决于适配矩阵Dff来将两个或更多个输入音频缩混声道X=进行适配以通过应用下式来获得一个或更多个经适配的音频缩混声道xZf: I^zDSM nDSM ^rENC
[0025] \imx =D^7, 〇
[0026] 在实施方式中，参数化辅助信息适配器可以配置成取决于适配矩阵（Dff)而将输入参数化辅助信息（Dff)进行适配以获得经适配的参数化辅助信息（h
[0027] 根据实施方式，参数化辅助信息适配

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托尔斯滕·卡斯特纳;于尔根·赫勒;莱昂·特伦提夫;奥利弗·赫尔穆特;约尼·保卢斯;法尔科·里德布施;
技术所有人：弗兰霍菲尔运输应用研究公司;
我是此专利的发明人

上一篇：基于多声道音频内容分析的上混检测的制作方法
上一篇：使用分类器将音频话语映射至动作的制作方法