基于对象的音频编码系统中利用旁路音频对象信号的通知响度估计的解码器、编码器及方法_2

文档序号：9422874阅读：来源：国知局

[0056] 其中常数值C= -0.691。因此是W"LKFS"(响度，经K加权，相对于全标度）为单位来表示输出，其标度类似于分贝标度。
[0057] 在上式中，对于声道中的一些声道，Gi可W例如等于1，而对于一些其他声道Gi可 W例如为1. 41。例如，若考虑左声道、右声道、中央声道、左环绕声道及右环绕声道，则相应的权重Gi对于左声道、右声道及中央声道可W例如为1，而对于左环绕声道及右环绕声道可 W例如为1.41，参见[ITU]。
[0058] 可W看出，响度值L与信号能量的对数紧密相关。
[0059] 下文中，描述空间音频对象编码。
[0060] 基于对象的音频编码构思允许在链的解码器侧具有很大灵活性。基于对象的音频编码构思的示例为空间音频对象编码（SAOC)。
[006。图4图示了包括空间音频对象编码（SAOC)编码器410及SAOC解码器420的SAOC系统。
[0062]SAOC编码器410接收N个音频对象信号Si,…，Sj乍为输入。此外，SAOC编码器 410还接收指令"混合信息D":应如何组合运些对象W获得包括M个下混声道Xi,…，Xm的下混信号。SAOC编码器410自对象及下混过程提取一些边信息，且传输此边信息和/或将其与下混信号一起储存。
[0063]SAOC系统的主要特性为：包括下混声道Xi,…，Xm的下混信号X形成语义上有意义的信号。换言之，可W听取下混信号。例如，若接收器不具有SAOC解码器功能性，则接收器也仍然可W始终将下混信号提供为输出。
[0064] 图5图示了包括边信息解码器510、对象分离器520及呈现器530的SAOC解码器。图5示出的SAOC解码器例如自SAOC编码器接收下混信号及边信息。下混信号可视为包括音频对象信号的音频输入信号，运是因为音频对象信号在下混信号内混合（音频对象信号在下混信号的一个或更多个下混声道内混合）。
[006引然后，SAOC解码器可W例如试图（虚拟地）重构原始对象，例如通过使用对象分离器520,例如使用解码边信息。然后，运些（虚拟）对象重构....(例如，重构的音频对象信号）基于呈现信息（例如呈现矩阵时组合W产生音频输出信号Y的K个音频输出声道Yi,…，Yk。
[006引通常，在SAOC中，例如，音频对象信号例如通过使用自SAOC编码器传输至SAOC解码器的协方差信息例如信号协方差矩阵E加W重构。
[0067] 例如，可使用下式来在解码器侧重构音频对象信号：
[0068] S=GX其中G>E〇h值邸H) -1
[006引其中
[0070] N音频对象信号的数目
[007。音频对象信号的所考虑样本的数目
[007引 M 下混声道的数目，
[0073] X下混首频f目号，大小为MXN样本，
[0074] D 下混矩阵，大小为MXN
[00巧]E定义为E=XX"的大小为NXN的信号协方差矩阵
[0076] S 参数重构的N个音频对象信号，大小为NXN样本
[0077] ( ? )H自伴（赫密特）算子，其表示（?）的共辆转置
[0078] 接着，可将呈现矩阵R应用于经重构的音频对象信号SW获得音频输出信号Y的音频输出声道，例如根据下式：
[0079] Y=RS
[0080] 其中
[0081] K音频输出信号Y的音频输出声道Yi,…，Yk的数目。
[0082] R 大小为KXN的呈现矩阵
[0083] Y 包括K个音频输出声道的音频输出信号，大小为KX%*
[0084] 在图5中，例如由对象分离器520进行对象重构的过程加上了标记"虚拟"或"可选"，因为其不是必须发生，但是可W通过在参数域中组合重构与呈现步骤（即，将等式进行组合）而获得希望的功能性。
[0085] 换言之，替代首先使用混合信息D及协方差信息E重构音频对象信号且接着将呈现信息R应用于经重构的音频对象信号W获得音频输出声道Yi,…，Yk,可将两个步骤在单一步骤中进行，W使得直接自下混声道产生音频输出声道Yi,…，Y><。
[0086] 例如，可使用下式：
[0087] Y=RGX其中G>E〇h值邸H) -1。
[0088] 原理上，呈现信息R可请求原始音频对象信号的任何组合。然而，在实际中，对象重构可能包括重构误差，且所请求的输出场景可能未必能达到。作为涵盖许多实际情况的大致一般规则，所请求的输出场景与下混信号差异愈大，可听到的重构误差将愈大。
[0089] 下文中，描述对话增强值巧。可W例如使用SAOC技术来实现场景。应注意，虽然名称"对话增强"提示着重于面向对话的信号，但是相同原理亦可用于其他信号类型。
[0090] 在DE场景中，系统中的自由度受限于该一般情况。
[0091] 例如，音频对象信号Si, ...，Sw=S分组（且可能混合）为两个元对象：前景对象 (FGO)Sfgd及背景对象度GO)SBG0。
[009引此外，输出场景Yi, ...，Yk=Y类似于下混信号X1，...，Xm=X。更具体地，两个信号具有相同维度，即K=M，且最终用户可W仅控制两个元对象FGO及BGO的相对混合水平。更确切而言，通过用一些标量权重来对FGO与BGO进行混合而获得下混信号
[0093] X-hpQQSpQQ+hgQQSBQQ,
[0094] 且类似地通过对FGO与BGO的标量加权而获得输出场景：
[009引Y-扣g0Sfgo+拥抑Sbgo。
[0096] 取决于混合权重的相对值，FGO与BGO之间的平衡可能改变。例如，对于设定
[0097]
[0098] 可W在混合中增大FGO的相对水平。若FGO为对话，则此设定提供了对话增强功能性。
[0099] 作为使用情况示例，BGO可W为体育场噪音及体育赛事期间的其他背景声音，而 FGO为解说员的语音。DE功能性允许最终用户相对于背景放大或衰减解说员的水平。
[0100] 各实施方式基于W下发现：在广播场景中利用SAOC技术（或类似技术）能够向最终用户提供扩展的信号操纵功能性。提供了比仅改变声道及调整播放音量更多的功能性。
[0101] 上文简要描述了使用DE技术的一个可能性。若作为用于SAOC的下混信号的广播信号例如根据R128而在水平上规范化，则在不施加（SAOC)处理（或呈现描述与下混描述相同）时，不同节目具有类似的平均响度。然而，当施加某一（SAOC)处理时，输出信号不同于默认下混信号，且输出信号的响度可不同于默认下混信号的响度。自最终用户的角度而言，此可导致W下情形：声道或节目之间的输出信号响度可再次具有不期望的跳跃或差异。换言之，部分地失去了通过广播台施加的规范化的益处。
[0102] 此问题并非SAOC或DE场景所独有，而是在允许最终用户与内容互动的其他音频编码构思中亦可能发生。然而，在许多情况下，若输出信号与默认下混具有不同的响度，其并不造成任何伤害。
[0103] 如上所述，音频输入信号节目的总响度应等于指定水平，允许有小的偏差。然而，如已经概述的那样，此在进行音频呈现时导致显著问题，因为呈现对所接收音频输入信号的总体/总响度可具有显著影响。然而，尽管进行场景呈现，所接收音频信号的总响度应保持相同。
[0104] 一种方法是在播放信号时估计信号的响度，且通过适当的时间整合构思，在某一时间之后该估计可W收敛至真实的平均响度。然而，收敛所需的时间从最终用户的角度来说是个问题。当即使在没有对信号施加改变时改变了响度估计，响度改变补偿也会起作用且改变其行为。此将导致输出信号具有时变平均响度，其在感觉上相当恼人。
[0105] 图6图示了响度改变时的输出信号响度估计行为。尤其描绘了基于信号的输出信号响度估计，其图示了刚刚描述的解决方案的效果。该估计相当缓慢地接近正确估计。替代基于信号的输出信号响度估计，立即正确地确定输出信号响度的通知输出信号响度估计是优选的。
[0106] 具体地，在图6中，用户输入（例如，对话对象的水平）通过增大其值而在时刻T 改变。真实输出信号水平及相应地响度在同一时刻改变。当利用某一时间整合的时间自输出信号进行输出信号响度估计时，该估计将逐渐变化且在某一延迟之后达到正确值。在此延迟期间，估计值不断变化，因此不能可靠地用于进一步处理输出信号，例如，用于响度水平校正。
[0107] 如已经描述的，期望的是具有无延迟地输出平均响度或平均响度改变的准确估计，且当节目不改变或呈现场景不改变时，平均响度估计亦应保持静态。换言之，当应用某一响度改变补偿时，补偿参数应仅在节目改变或存在某用户互动时才改变。
[010引图6的最下图解图示了希望的行为（通知输出信号响度估计）。输出信号响度估计应在用户输入改变时即刻改变。
[0109] 图2图示了根据一实施方式的编码器。
[0110] 该编码器包括基于对象的编码单元210,其用于编码多个音频对象信号W获得包括所述多个音频对象信号的编码音频信号。
[0111] 此外，该编码器包括对象响度编码单元220,其用于对关于该音频对象信号的响度信息进行编码。该响度信息包括一个或更多个响度值，其中一个或更多个响度值中的每个取决于音频对象信号中的一个或更多个。
[0112] 根据一实施方式，编码音频信号的音频对象信号中的每个被指派给两个或更多个组中的确切的一个组，其中两个或更多个组中的每个包括编码音频信号的音频对象信号中的一个或更多个。该对象响度编码单元220被配置成通过确定两个或更多个组中的每一个组的响度值来确定该响度信息中的一个或更多个响度值，其中该组的响度值指示该组的一个或更多个音频对象信号的原始总响度。
[0113] 图1图示了根据一实施方式的用于产生包括一个或更多个音频输出声道的音频输出信号的解码器。
[0114] 该解码器包括接收接口 110,其用于接收包括多个音频对象信号的音频输入信号，用于接收关于该音频对象信号的响度信息，且用于接收指示音频对象信号中的一个或更多个是否应放大或衰减的呈现信息。
[0115] 此外，该解码器包括信号处理器120,其用于产生音频输出信号的一个或更多个音频输出声道。信号处理器120被配置成取决于响度信息且取决于呈现信息来确定响度补偿值。此外，信号处理器120被配置成取决于呈现信息且取决于响度补偿值而自音频输入信号产生音频输出信号的一个或更多个音频输出声道。
[0116] 根据一实施方式，信号处理器110被配置成取决于呈现信息且取决于响度补偿值而自音频输入信号产生音频输出信号的一个或更多个音频输出声道，使得音频输出信号的响度等于音频输入信号的响度，或使得音频输出信号的响度比经修改音频信号的响度更接近于音频输入信号的响度，该经修改音频信号是通过根据呈现信息修改或衰减音频输入信号的音频对象信号而修改该音频输入信号而产生的。
[0117] 根据另一实施方式，音频输入信号的音频对象信号中的每个被指派给两个或更多个组中的确切的一个组，其中两个或更多个组中的每个包括音频输入信号的音频对象信号中的一个或更多个。
[0118] 在此实施方式中，接收接口 110被配置成接收两个或更多个组中的每一个组的响度值作为响度信息，其中该响度值指示该组的一个或更多个音频对象信号的原始总响度。此外，接收接口 110被配置成接收对于两个或更多个组中的至少一个组通过指示该组的一个或更多个音频对象信号的经修改总响度而指示该组的一个或更多个音频对象信号是否应放大或衰减的呈现信息。此外，在此实施方式中，信号处理器120被配置成取决于两个或更多个组中的所述至少一个组中的每个的经修改总响度且取决于两个或更多个组中的每个的原始总响度来确定响度补偿值。此外，信号处理器120被配置成取决于两个或更多个组中的所述至少一个组中的每个的经修改总响度且取决于该响度补偿值而自该音频输入信号产生音频输出信号的一个或更多个音频输出声道。
[0119] 在特定实施方式中，两个或更多个组中的至少一个组包括音频对象信号中的两者或更多。
[0120] 音频对象信号i的能量与音频对象信号i的响度L1之间根据下式存在直接关系：
[0121]
[0122] 其中C为常数值。
[0123] 实施方式基于W下发现：音频输入信号的不同音频对象信号可具有不同响度且因此具有不同能量。例如，若用户想要增大音频对象信号的响度，则可W相应地调整呈现信息，且此音频对象信号的响度增大增大了此音频对象的能量。此将导致音频输出信号的响度增大。为保持总响度恒定，需要进行响度补偿。换言之，需要调整将呈现信息应用于音频输入信号而产生的经修改音频信号。然而，音频对象信号中的一个的放大对经修改音频信号的总响度的确切影响取决于经放大音频对象信号例如响度增大的音频对象信号的原始响度。若此对象的原始响度对应于相当低的能量，则对音频输入信号的总响度的影响将微乎其微。然而，若此对象的原始响度对应于相当高的能量，则对音频输入信号的总响度的影响将是显著的。
[0124] 可考虑两个示例。在两个示

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6