基于对象的音频编码系统中利用旁路音频对象信号的通知响度估计的解码器、编码器及方法_3

文档序号：9422874阅读：来源：国知局

例中，音频输入信号包括两个音频对象信号，且在两个示例，通过应用呈现信息，音频对象信号中的第一个的能量增大50%。
[0125] 在第一示例中，第一音频对象信号贡献音频输入信号总能量的20%且第二音频对象信号贡献音频输入信号总能量的80 %。然而，在第二示例中，第一音频对象，第一音频对象信号贡献音频输入信号总能量的40%且第二音频对象信号贡献音频输入信号总能量的 60%。在两个示例中，可W自关于音频对象信号的响度信息得出运些贡献，因为响度与能量之间存在直接关系。
[0126] 在第一示例中，第一音频对象的能量的50%的增大导致通过将呈现信息应用于音频输入信号而产生的经修改音频信号具有的总能量为音频输入信号的能量的1. 5X20% +80%= 110%。
[0127] 在第二示例中，第一音频对象的能量的50%的增大导致通过将呈现信息应用于音频输入信号而产生的经修改音频信号具有的总能量为音频输入信号的能量的1. 5X40% +60%= 120%。
[012引因此，在将呈现信息应用于音频输入信号之后，在第一示例中，经修改音频信号的总能量仅须减小9% (10/110)W在音频输入信号与音频输出信号两者中获得相等能量，而在第二示例中，经修改音频信号的总能量须减小17% (20/120)。为此，可W计算响度补偿值。
[0129]例如，响度补偿值可为应用于音频输出信号的所有音频输出声道的标量。
[0130] 根据一实施方式，信号处理器被配置成通过根据呈现信息修改或衰减音频输入信号的音频对象信号而修改音频输入信号来产生经修改音频信号。此外，信号处理器被配置成通过将响度补偿值应用于经修改音频信号而产生音频输出信号，使得音频输出信号的响度等于音频输入信号的响度，或使得音频输出信号的响度比经修改音频信号的响度更接近于音频输入信号的响度。
[0131]例如，在上文第一示例中，响度补偿值lev可例如设定为值lev= 10/11，且可将放大因子10/11应用于根据呈现信息呈现音频输入声道而产生的所有声道。
[0132] 因此，例如，在上文第二示例中，响度补偿值lev可例如设定为值lev=10/12= 5/6,且可将放大因子5/6应用于根据呈现信息呈现音频输入声道而产生的所有声道。
[0133] 在其他实施方式中，可W将音频对象信号中的每个指派给多个组中的一个，且可针对组中的每个传输指示该组的音频对象信号的总响度值的响度值。如呈现信息指定该等组中的一个的能量被衰减或放大，例如，如上所述放大了 50%，则可计算总能量增加，且可如上所述确定响度补偿值。
[0134] 例如，根据一实施方式，音频输入信号的音频对象信号中的每个被指派给作为两个或更多个组的确切的两个组中的确切的一个组。音频输入信号的音频对象信号中的每个被指派给所述确切的两个组中的前景对象组或所述确切的两个组中的背景对象组。接收接口 110被配置成接收前景对象组的一个或更多个音频对象信号的原始总响度。此外，接收接口 110被配置成接收背景对象组的一个或更多个音频对象信号的原始总响度。此外，接收接口 110被配置成接收针对所述确切的两个组中的至少一个组通过指示该组的一个或更多个音频对象信号的经修改总响度而指示所述至少一个组中的每个的一个或更多个音频对象信号是否应放大或衰减的呈现信息。
[0135] 在此实施方式中，信号处理器120被配置成取决于所述至少一个组中的每个的经修改总响度、取决于前景对象组的一个或更多个音频对象信号的原始总响度且取决于背景对象组的一个或更多个音频对象信号的原始总响度来确定响度补偿值。此外，信号处理器 120被配置成取决于所述至少一个组中的每个的经修改总响度且取决于该响度补偿值而自音频输入信号产生音频输出信号的一个或更多个音频输出声道。
[0136] 根据一些实施方式，音频对象信号中的每个被指派给=个或更多个组中的一个，且接收接口可W被配置成接收=个或更多个组中的每个的响度值，该响度值指示该组的音频对象信号的总响度。
[0137] 根据一实施方式，为确定两个或更多个音频对象信号的总响度值，例如，针对每一音频对象信号确定对应于响度值的能量值，对所有响度值的能量值求和W获得能量总和，且将对应于该能量总和的响度值确定为两个或更多个音频对象信号的总响度值。例如，可使用下式
[013 引
[0139] 在一些实施方式中，针对音频对象信号中的每个传输响度值，或将音频对象信号中的每个指派给一个或两个或更多个组，其中针对组中的每个，传输响度值。
[0140] 然而，在一些实施方式中，对于一个或更多个音频对象信号或对于包括音频对象信号的组中的一个或更多个，不传输响度值。替代地，解码器可W例如假定未传输其响度值的音频对象信号或音频对象信号组具有预定义响度值。例如，解码器可W使所有进一步的确定基于此预定义响度值。
[0141] 根据一实施方式，接收接口 110被配置成接收包括一个或更多个下混声道的下混信号作为音频输入信号，其中一个或更多个下混声道包括音频对象信号，且其中音频对象信号的数目小于一个或更多个下混声道的数目。接收接口 110被配置成接收指示音频对象信号如何在一个或更多个下混声道内混合的下混信息。此外，信号处理器120被配置成取决于该下混信息、取决于该呈现信息且取决于该响度补偿值而自该音频输入信号产生音频输出信号的一个或更多个音频输出声道。在特定实施方式中，例如，信号处理器120可W被配置成取决于下混信息而计算响度补偿值。
[0142] 例如，下混信息可W是下混矩阵。在一实施方式中，解码器可W是SAOC解码器。在运样的实施方式中，例如，接收接口 110可W进一步被配置成接收协方差信息，例如，如上文所述的协方差矩阵。
[0143] 关于指示音频对象信号中的一个或更多个是否应放大或衰减的呈现信息，应注意，例如，指示音频对象信号中的一个或更多个应如何放大或衰减的信息为呈现信息。例如，呈现矩阵R，例如，SAOC的呈现矩阵为呈现信息。
[0144] 图3图示了根据一实施方式的系统。
[0145] 该系统包括根据上述实施方式中的一个的编码器310,其用于编码多个音频对象信号W获得包括该多个音频对象信号的编码音频信号。
[0146] 此外，该系统包括根据上述实施方式中的一个的解码器320,其用于产生包括一个或更多个音频输出声道的音频输出信号。该解码器被配置成接收作为音频输入信号的编码音频信号及响度信息。此外，解码器320被配置成还接收呈现信息。此外，解码器320被配置成取决于响度信息且取决于呈现信息来确定响度补偿值。此外，解码器320被配置成取决于该呈现信息且取决于该响度补偿值而自音频输入信号产生音频输出信号的一个或更多个音频输出声道。
[0147] 图7图示了根据一实施方式的通知响度估计。在传输流730的左方，图示了基于对象的音频编码编码器的组件。具体地，图示了基于对象的编码单元710 ("基于对象的音频编码器"）及对象响度编码单元720 ("对象响度估计"）。
[014引传输流730自身包括响度信息L下混信息D及基于对象的音频编码器710的输出B。
[0149] 在传输流730的右方，图示了基于对象的音频编码解码器的信号处理器的组件。未示出解码器的接收接口。描绘了输出响度估计器740及基于对象的音频解码单元750。输出响度估计器740可W被配置成确定响度补偿值。基于对象的音频解码单元750可W被配置成通过应用呈现信息R而自输入至解码器的音频信号确定经修改音频信号。图7中未示出将响度补偿值应用于经修改音频信号W补偿由呈现引起的总响度改变。
[0150] 至编码器的输入至少是由输入对象S组成。该系统例如通过对象响度编码单元 720估计每个对象的响度（或某其他响度相关信息，例如对象能量），且对信息L进行传输和/或储存。（也可W将对象的响度提供为至系统的输入，且可省略系统内的估计步骤）。
[0151] 在图7的实施方式中，解码器接收至少对象响度信息及例如呈现信息R，呈现信息 R描述对象至输出信号的混合。基于运些信息，例如输出响度估计器740估计输出信号的响度且将此信息提供为其输出。
[0152] 下混信息D可提供为呈现信息，在此情况下，响度估计提供对下混信号响度的估计。还可W将下混信息提供为至对象响度估计的输入，且连同对象响度信息传输和/或储存该信息。然后，输出响度估计可W同时估计下混信号的响度及所呈现的输出，且将运两个值或其差异提供为输出响度信息。差异值（或其倒数）描述所需补偿，所需补偿应该应用于所呈现输出信号W使得其响度类似于下混信号的响度。对象响度信息可另外包含关于各个对象之间的相关系数的信息，且此相关信息可用于输出响度估计中W用于更准确的估计。
[0153] 下文中，描述用于对话增强应用的优选实施方式。
[0154] 在对话增强应用中，如上文所述，将输入音频对象信号分组且部分地下混W形成两个元对象FGO及BG0,然后，可WW普通方式对运两个元对象FGO及BGO求和W获得最终下混信号。
[01财遵循SAOC[SAO幻的描述，将N个输入对象信号表示为大小为NXN样本的矩阵S，且将下混信息表示为大小为MXN的矩阵D。则下混信号可W获得为X=DS。
[0156] 现在，下混信息D对于元对象可分成两个部分
[0157] D=Dfg〇+Dbg〇。
[015引由于矩阵D的每一列对应于原始音频对象信号，可通过将对应于其他元对象的列设定为零（假定无原始对象可存在于两个元对象上）而获得两个分量下混矩阵。换言之，对应于元对象BGO的列在EUo中设定为零，且对应于元对象FGO的列在Dee。中设定为零。
[0159] 运些新下混矩阵描述可W自输入对象获得两个元对象的方式，即：
[0160] SpgQ-Dfg〇S且Sbgo- 〇bg〇Sj
[0161] 且实际下混简化为 [016引X-Sfgo+Sbgo。
[0163] 也可W认为对象（例如，SAOC)解码器试图重构元对象：
[0164]
[0165] 且DE特定呈现可写为运两个元对象重构的组合：
[0166]
[0167] 对象响度估计将两个元对象Sp"3及SBGO接收为输入，且估计其中每个的响度：L 为Sp。。的（总/总体）响度，且LBW为SBW的（总/总体）响度。传输和/或储存运些响度值。
[0168] 替代地，使用元对象中的一个例如FGO作为基准，可W将运两个对象的响度差异计算为例如
[016引 ALfgo-Lbgo-Lf抑。
[0170] 然后，传输和/或储存此单个值。
[0171] 图8图示了根据另一实施方式的编码器。图8的编码器包括对象下混器811及对象边信息估计器812。此外，图8的编码器还包括对象响度编码单元820。此外，图8的编码器包括元音频对象混合器805。
[0172] 图8的编码器使用中间音频元对象作为至对象响度估计的输入。在实施方式中，图8的编码器可W被配置成产生两个音频元对象。在其他实施方式中，图8的编码器可W 被配置成产生=个或更多个音频元对象。
[0173] 特别地，所提供的构思提供了下述新特征：编码器可W例如估计所有输入对象的平均响度。对象可W例如在所传输的下混信号内混合。此外，所提供的构思提供了下述新特征：可将对象响度及下混信息例如包含在所传输的对象编码边信息中。
[0174] 例如，解码器可使用对象编码边信息来（虚拟地）分离对象，且使用呈现信息重新组合对象。
[01巧]此外，所提供的构思提供了下述新特征：可W使用下混信息来估计默认下混信号的响度；可W使用呈现信息及所接收对象响度来估计输出信号的平均响度；并且/或者可自运两个值估计响度改变。或者，可使用下混及呈现信息自默认下混估计响度改变，运是所提供的构思的另一新特征。
[0176]此外，所提供的构思提供了下述新特征：可修改解码器输出W补偿响度改变W使得经修改信号的平均响度匹配默认下混的平均响度。
[0177] 图9中图示了与SAOC-DE有关的特定实施方式。系统接收输入音频对象信号、下混信息、W及对象至元对象的分组信息。基于运些信息，元音频对象混合器905形成两个元对象Spe。及See。。有可能用SAOC处理的信号部分不构成整个信号。例如，在5. 1声道配置中，SAOC可W部署于声道的子集中，例如部署于前声道（左、右及中央），而其他声道（左环绕、右环绕及低频效果）绕开（旁路）SAOC且如此递送。未经SAOC处理的运些声道表示为 XeYPASS。需要提供可能的旁路声道W使编码器更准确地估计响度信息。
[0178] 可W多种方式处置旁路声道。
[0179]例如，旁路声道可W例如形成独立元对象。运允许限定呈现W使得所有=个元对象独立地进行按比例调整。
[0180] 或者，例如，旁路声道可W例如与其他两个元对象中的一个组合。该元对象的呈现设定也控制旁路声道部分。例如，在对话增强场景中，将旁路声道与背景元对象进行合并可 W是有思义的：Xbg。一Sbgd+XbypasS。
[0181] 或者，例如，可W例如忽略旁路声道。<

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6