用于多声道音频编码的噪声填充的制作方法_3

文档序号:9925379阅读:来源:国知局
/或42的频谱46及/或48的比例因子频带,来开启或关闭MS解码,其中 假设定义了两声道的比例因子频带的相同边界。
[0047] 如图1所示,在任何声道间处理(例如声道间预测58或使用MS解码器26进行的MS解 码)之后,也可W执行逆TNS滤波器28进行的逆TNS滤波。在前面或下面的性能中,对于在数 据流30的每一帖或在在间隔尺寸的其它水平,可W通过各个信号作用来固定或控制声道间 处理。无论在何处进行逆TNS滤波,对于当前的频谱46,出现于数据流的各个TNS滤波系数系 控制TNS滤波器,即沿着频谱方向运行的线性预测滤波器,W将入站频谱线性地滤波至各个 逆TNS滤波模块28a及/或28b。
[004引因此,在逆变换器18的输入端到达的频谱46可已经使用刚描述的进一步的处理。 再次,W上描述不意味着W运样的方式来理解,所有运些可选工具并存或不并存。运些工具 可部分地或全部地存在于解码器10中。
[0049] 在任何情况中,在逆变换器的输入端产生的频谱代表声道的输出信号的最终重 建,并且形成上述的用于当前帖的降混的基底,如所描述的复数预测58,该基底作为待解码 的下一帖的虚部估计的基底。除了在图1中的元件34,它还可作为用于声道间预测另一声道 的最终重建。
[0050] 通过由降混供应器31将最终的频谱46与频谱48的各个最终版本组合形成各个降 混。后者,即频谱48的各个最终版本系形成预测器24中的复声道间预测的基底。
[0051] 先前帖的频谱共置频谱线的降混代表声道间噪声填充的基底,图4示出在运个范 围内的相对于图1的另一种可选情况,使得在使用复数声道间预测的可选情况中,该复声道 间预测的来源被使用两次,作为声道间噪声填充的来源,W及作为在复声道间预测中的虚 部估计的来源。图4示出解码器10,解码器10包含部分70W及上述之其它部分%的内部结 构,部分70设及频谱46所属于的第一声道的解码,部分34设及其它声道的解码,包括频谱 48。一方面部分70及另一方面部分34的内部元件使用相同的标号。可W看到两部分的结构 是相同的。在输出端32,立体声频信号的一个声道为输出,W及在第二解码部分34的逆变换 18的输出端处,立体声频信号的另一个(输出)声道产生标号74指示的运个输出。此外,上述 实施例可W容易地转换为使用两个W上声道的情况。
[0052] 部分70及34共享降混供应器31,降混供应器31接收频谱图40及42的时序共置频谱 48及46W形成降混,据此频谱线基底将运些频谱叠加于频谱线上,潜在地通过在每个频谱 线的总值除W降混声道的数量W形成此平均值,即图4的情况中的两种。在降混供应器31的 输出端,先前帖的降混经由此方法产生。值得注意的是,如果先前帖包含频谱图40及42中之 一的一个W上的频谱,则关于降混供应器31如何在那种情况下操作存在不同的可能性。举 例来说,在那种情况下,降混供应器31可W使用当前帖的尾部变换的频谱,或是可W使用频 谱图40及42的当前帖的交错所有频谱线系数的交错结果。图4中示出的连接至降混供应器 31的输出端的延迟元件74示出,因此在降混供应器31的输出端提供的降混形成先前帖76的 降混(分别参照图3关于声道间噪声填充56及复数预测58)。因此,延迟元件74的输出端一方 面连接至解码器部分34及70的声道间预测器24的输入端,另一方面连接至解码器部分34及 70的噪声填充器16的输入端。
[0053] 也就是说,在图1中,噪声填充器16接收同一个当前帖的其它声道的最终重建的时 序共置频谱48, W作为声道间噪声填充的基底,在图4中,取代基于由降混供应器31提供的 先前帖的降混,而是进行声道间噪声填充。也就是说,在图1的情况中,从当前帖的其它声道 的频谱的各个频谱中攫取频谱共置部分,从先前帖中获得的大部分或完全解码的最终频谱 代表先前帖的降混,在图4的情况中,将相同"源"部分加入至待噪声填充的比例因子频带内 的频谱线(例如图3的50d),频谱线根据各个比例因子频带的比例因子确定的目标噪声水平 而被按比例调整。
[0054] 从描述在音频解码器中的声道间噪声填充的实施例的上述描述可用得出,对本领 域技术人员而言是明显的,在将"源"频谱的攫取出的频谱或时序共置部分加入至"目标"比 例因子频带的频谱线之前,可W在不脱离声道间填充的一般概念下将一定的预处理应用至 "源"频谱线。尤其是,将滤波操作(例如频谱平坦化或倾斜去除)施加至待添加至"源"比例 因子频带的"源"区域的频谱线,如图3中的50d,W改进声道间噪声填充过程的音频质量。同 样地,作为大部分地(而非全部地)已解码的频谱的示例,前述"源"部分可W从尚未经过逆 TNS (即合成)滤波器过滤的频谱获得。
[0055] 因此,上述实施例是关于声道间噪声填充的概念。在下文中,描述了上述声道间噪 声填充的概念如何W半向后兼容的方式内置于现有的编解码器(即X皿-AAC)的可能性。尤 其是,下文描述上述实施例的较佳的实施方式,据此,立体声填充工具被W半向后兼容的信 号化方式内置至基于X肥-AAC的音频编解码器。通过运用W下进一步描述的实施方式,对于 一定的立体声信号,基于MPEG-D X肥-AA(XUSAC)的音频编解码器中的两个声道中的任何一 个中的变换系数的立体声填充是可行的,从而改善一定的音频信号的编码质量,尤其是低 比特率的音频信号。立体声填充工具被半向后兼容地信号化,W使传统的址E-AAC解码器能 够解析及解码比特流而没有明显的音频错误或压降。如上面已经描述的,如果音频编码器 能够使用两个音频声道的先前已解码/量化的系数的组合来重建任一个当前已解码的声道 的零量化(非变换)系数,则能够实现较佳的整体质量。因此,除了音频编码器中的频带复制 (从低频率到高频率的声道系数)W及噪声填充(从不相关的伪随机源),也希望允许运样的 立体声填充(从先前的声道系数到当前的声道系数),尤其是址E-AAC或基于址E-AAC的编码 器。
[0056] 为了允许已编码的比特流具有被传统的xHE-AAC解码器读取及解析的立体声填 充,所期望的立体填充工具应W半向后兼容的方式被使用:它的存在不应该引起传统的解 码器停止或者甚至无法启动解码。通过X皿-AAC基础结构来读取比特流亦也可W增进市场 的采用。
[0057] 为达到上述址E-AAC的上下文中或其潜在推导中的立体声填充工具的半向后兼容 性的期望,下述实施方式设及立体声填充的功能,W及在实际上关于噪声填充的数据流中 通过语法对立体声填充进行信号化的能力。噪声填充工具将符合上述描述。在具有共有窗 口配置的声道对中,当立体声填充工具被启用时,零量化比例因子频带的系数是噪声填充 的替代(或者是如上所述除了噪声填充的可选择项),此系数通过两声道中的任一个声道 (优选地为右声道)中的先前帖的系数的和或差值来重建。立体声填充类似于噪声填充。将 通过X皿-AAC的噪声填充信号化来完成信号化。立体声填充通过8-比特噪声填充侧信息来 进行。即使所施加的噪声填充级为零,但由于MPEG-D USAC标准[4 ]指出所有8-比特被传输, 故此方式为可实行的。而在运种情况下,噪声填充比特可W重新被用于立体声填充工具。
[0058] W下可W确保关于通过传统xHE-AAC解码器的比特流解析及重放的半向后兼容 性。立体声填充通过零噪声水平(即均具有零值的前=个噪声填充比特)来发出信号,该零 噪声水平之后是包含用于立体声填充工具和丢失的噪声水平的侧信息的五个非零比特(其 传统地表示噪声补偿)。由于当3-比特噪声水平为零时,传统址E-AAC解码器忽视5比特噪声 补偿的值,故立体声填充工具信号化的存在对于传统解码器中的噪声填充仅有一个影响: 由于前=个比特值为零,故噪声填充被关闭,剩余的解码操作仍如预期的进行。尤其是,由 于立体声填充用类似于被退激活的噪声填充过程来操作,故不进行运样的立体声填充。因 此,传统解码器仍提供增强比特流30的"完美"解码,因为当到达具有开启的立体填充的帖 时,运不需要消除输出信号或甚至中止解码。当然,传统解码器不能提供立体声填充线系数 的校正的预期重建,与通过能够合适地处理新立体声填充工具的合适的解码器进行的解码 相比,导致受影响的帖的质量恶化。尽管如此,假设打算使用立体声填充工具,即,仅在低比 特率的立体声输入端,如果受影响的帖将因为静音而退出或导致其它明显的重放错误,通 过址E-AAC解码器的质量应当比运更好。
[0059] 在下文中详细描述了立体声填充工具如何可W作为扩展内置于xHE-AAC编解码 器。
[0060] 当被内置于标准时,立体声填充工具可描述如下。尤其是,该立体声填充(SF)工具 将代表MPEG-H 3D音频的频域(抑)部分的新工具。根据上述讨论,运种立体声填充工具的目 的在于低比特率的MDCT频谱系数的参数化重建,类似于利用根据在文献[4]描述的标准的 7.2节中的噪声填充已经能够实现的参数化重建。然而,不同于使用伪随机噪声源用于生成 任何FD声道的MDCT频谱的噪声填充,使用先前帖的左MDCT频谱及右MDCT频谱的降混,SF也 将可用于重建联合编码立体声对声道的右声道的MDCT值。根据下面列出的实施例,SF通过 噪声填充侧信息的方式被半向后兼容地发出信号,其中噪声填充侧信息能够被传统的 MPEG-D USAC解码器正确地解析。
[0061] 该工具的描述如下。当SF启用在联合立体声FD帖中时,右(第二个)声道(例如50d) 的空(即完全零量化)比例因子频带的MDCT系数被先前帖(假设FD)的相应的已解码的左声 道及右声道的MDCT系数的和或差值所取代。如果传统的噪声填充启用于第二声道,则伪随 机值也被添加至每个系数。每个比例因子频带产生的系数接着被按比例调整,使得每个频 带的RMS(平均系数的均方根)匹配经由频带的比例因子传输的值。请参阅在文献[4]的标准 的第7.3节。
[0062] 对于在MPEG-D USAC标准中的新SF工具的使用,可W提供一些操作上的限制。举例 来说,SF工具只可W用于在共同的FD声道对的右FD声道中的用途,也就是说,声道对元件对 common_window= = 1传输StereoCoreToolInfo()。除此之外,由于半向后兼容信号化,SF工 具只可W当在语法容器UsacCoreConf ig()中noiSeFiIling= = 1时使用。如果声道对中任 一个声道为LPD core_mode,即使右声道为抑模式,SF工具亦不可使用。
[0063] 下文使用下列术语和定义W更清楚地描述如文献[4]中所描述的标准的扩展。
[0064] 尤其是,就数据元素而言,新引入W下数据元素: stereo_fllling 二进制标志,指示SF是否被用于当前顿及声道 更迸--步,引入新辅助元件: noise_oiIset 噪声填充补偿W修正零量化带的比例因子频带(第7.2节)
[00 化] noiseJevel 噪声填充水平代表添加的频谱噪声的振幅(第7.2节) downmix_prev[] 先前i侦的左声道及右声道的降混(即和或差值) SfJnd妨阁[S化] 用于窗口组g及频带S化的比例因子指数(即传输的整数)
[0066] 标准的解码过程将W下面的方式进行扩展。尤其是,使用SF工具的联合立体声编 码的抑声道的解码被启用执行下面S个连续步骤:
[0067] 首先,将进行 stereo_f i 11 ingf lag 的解码。
[0068] stereo_f illing不代表独立的比特流元件,但是可由在UsacQiannelPai;rElement ()中的噪声填充元件,noise_offset及noise_level?及在StereoCoreToolInfo()中的 common-windowflag 导出。女日果 noiseFilling= =0 或 common-window= =0 或是当前声道为 元件中的左(第一)声道,则stereo_filling为零,并且立体声填充过程结束。
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1