用以使用混叠切换方案将音频信号编码/解码的装置与方法

文档序号:2823162阅读:321来源:国知局
专利名称:用以使用混叠切换方案将音频信号编码/解码的装置与方法
技术领域
本发明涉及音频编码,更特别地,涉及低比特率音频编码方案。
背景技术
在现有技术中,已知频域编码方案,诸如MP3或AAC。这些频域编码器基于时域/ 频域变换;随后是量化级,其中使用来自心理声学模块的信息控制量化误差;及编码级,其 中使用码表对该已量化的频谱系数及相对应辅助信息进行熵编码。另一方面,存在极为适合用于语音处理的编码器,诸如AMR-WB+,在3GPP TS 沈.290对此进行了说明。这种语音编码方案执行时域信号的线性预测滤波。这种LP滤波 是由该输入的时域信号的线性预测分析所导出。然后,所得的LP滤波系数经量化/编码, 并作为辅助信息传输。该方法称作为线性预测编码(LPC)。在滤波器的输出端,使用ACELP 编码器的合成-分析级,或另外地,使用变换编码器,对预测残留信号或预测误差信号(也 称作为激励信号)进行编码,该变换编码器使用具有重叠的傅立叶变换。ACELP编码与变换 编码激励编码(也称作为TCX编码)间的判定是使用闭环或开环算法进行的。组合AAC编码方案及频带复制技术的频域音频编码方案(诸如高效率-AAC编码 方案)也可与借助于术语“MPEG环绕”一词而已知的联合立体声编码工具或多声道编码工 具组合。另一方面,语音编码器(诸如AMR-WB+)也有高频加强级及立体声功能。频域编码方案的优点在于,其对于音乐信号,以低比特率显示高质量,但问题在于 低比特率的语音信号的质量。语音编码方案即使以低比特率也对语音信号显示高质量,但对音乐信号,以低比 特率显示的质量不佳。频域编码方案经常使用所谓的MDCT(MDCT =修改型离散余弦变换)。MDCT最初 在 J. Princen, A. Bradley 的“Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation (基于时域混叠抵消的分析/合成滤波器组设计)”,IEEE Trans. ASSP,ASSP-34(5) :1153-1161,1986 中进行了说明。MDCT 或MDCT 滤波器组广泛用于 近代且有效的音频编码器。这种信号处理提供下列优点各处理块间的平滑交叉衰减即使各个处理块的信号有不同变化(例如由于频谱 系数的量化),但由于窗口化重叠/加法操作,故不会因块之间的突然转换,造成遮蔽伪像。临界采样滤波器组的输出端的频谱值的数目等于其输入端的时域输入值与必须 传输的额外开销值的数目。MDCT滤波器组提供高频率选择性及编码增益。利用时域混叠抵消技术,可实现这些重大性质。时域混叠抵消是通过对两相邻已 窗口化信号进行重叠相加而在合成时进行的。如果在MDCT的分析级与合成级间未施加量 化,则获得原始信号的完美重建。但该MDCT是用于特别适合音乐信号的编码方案的。如前文所述,这些频域编码方案对于语音信号在低比特率下具有较低的质量,而特别适配的语 音编码器与频域编码方案相比,在相似的比特率下具有较高质量,甚至对于相同质量具有 显著更低的比特率。语音编码技术(诸如定义于“Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec (延伸的适应性多速率-宽带(AMR-WB+)编码解码 器),3GPP TS 26. 290 V6. 3. 0,2005-06,技术规范”的所谓的AMR-WB+编码解码器)并未应 用MDCT,因此无法由MDCT的优异性质获得任何优势,特别地,MDCT 一方面仰赖临界采样处 理,而另一方面仰赖由一个块至另一个块的跨越。因此,通过MDCT所得的由一个块至另一 个块的跨越就比特率而言不会有任何牺牲,因此尚未在语音编码器中获得MDCT的临界采 样性质。当将语音编码器及音频编码器组合于单一混合编码方案中时,仍然存在以下问 题如何以低比特率及高质量获得由一种编码模式至另一种编码模式的切换。

发明内容
本发明的目的是提供一种改良式编码/解码构想。本目的是通过如权利要求1的用于编码音频信号的装置、如权利要求8的用于解 码已编码音频信号的装置、如权利要求14的已编码音频信号、如权利要求15的用于编码音 频信号的方法、如权利要求16的用于解码已编码音频信号的方法、或如权利要求17的计算 机程序达成。本发明的一个方面在于应用混合编码方案,其中应用特别适合某些信号并操作于 一个域的第一编码模式,并且,共同使用特别适合其它信号并操作于不同域的另一编码模 式。在本编码/解码构想中,由一个编码模式至另一个编码模式的临界采样切换为可能在 于,在编码器端,已经由一次窗口化操作所产生的音频采样的同一个块是以不同方式处理 的。特别地,音频信号的该块的混叠部的处理方式是在将与窗口的混叠部相关的子块窗口 化之后,将该子块由一个域变换至另一域;而在对相同窗口化操作所得的不同子块使用分 析窗口窗口化之前,将该不同子块由一域变换至另一域。已处理的第一子块及已处理的第二子块随后使用相同块变换规则变换成又一域, 来获得该音频信号的已变换的第一块,其然后可使用众所周知的数据压缩算法(诸如量 化、熵编码等)中的任一种进一步进行处理。在解码器端,基于处理了该块的混叠部还是该块的其它另一部,以不同方式再度 处理此块。混叠部是在进行合成窗口化之前被变换到目标域的,而另一部是在变换至目标 域之前接受合成窗口化处理的。此外,为了获得临界采样性质,进行时域混叠抵消,其中在 另一已编码的音频信号块的混叠部变换至目标域之后组合该音频数据的窗口化混叠部及 该另一已编码块的窗口化混叠部,因此获得与该第一块的混叠部相对应的已解码音频信 号。有鉴于此,一个窗口确实存在有两个子块/部分。一个部分/子块(混叠子块)具有 混叠分量,其与在不同域中编码的第二块重叠;及第二子块/部分(另一子块)可具有或可 未具有混叠分量,其与第二块或不同于第二块的一块重叠。优选地,引入彼此相对应但在不同域中编码的某些部分的混叠可优异地用于通过 以不同方式处理音频采样的同一个已窗口化块内部的混叠部及另一部,而获得由一种编码模式至另一种编码模式的临界采样切换。此点与基于分析窗口及合成窗口的现有技术处理相反,原因在于至目前为止,通 过应用分析窗口所得的完整数据块接受相同处理。但根据本发明,已窗口化块的混叠部是 以与本块的另一部不同的方式处理的。当使用特定开始/停止窗口时,另一部可包含非混叠部。另外,另一部包含与相邻 窗口化处理所得的部分重叠的混叠部。然后,另一(混叠)部与在当前帧的另一(混叠) 部相同的域中处理的邻近帧的混叠部重叠,而混叠部与在当前帧的混叠部不同的域中处理 的邻近帧的混叠部重叠。依据不同的实现,另一部及混叠部共同形成对音频采样的块应用窗口函数的完整 结果。另一部可完全不含混叠,或可完全混叠,或可包括一混叠子部及一无混叠子部。此外, 可任意选择这些子部的顺序以及混叠部和另一部的顺序。在切换音频编码方案的较佳实施例中,输入信号的相邻分段可在两个不同 域中处理。举例而言,AAC在信号域计算MDCT,而MTPC (Sean A. Ramprashad,"The Multimode Transform predictive Coding Paradigm(多模式变换预测编码范例)”,IEEE Transaction on Speech and Audio Processing,第 11 卷,第 2 其月,2003 年 3 月)在 LPC 残 留域计算MDCT。由于MDCT的使用,当重叠区具有时域混叠分量时特别成问题。事实上,由 一个编码器转换至另一个编码器时,时域混叠无法抵消,原因在于它们是在两个不同域中 产生的。一种解决方案是以无混叠的交叉衰减窗口化信号进行转换。然后,已切换的编码 器不再经过临界采样,并产生信息的开销。实施例允许通过抵消由于操作于两个不同域所 计算的时域混叠分量,而维持临界采样的优点。在本发明的较佳实施例中,顺序提供两个开关,其中,第一开关在使用频域编码器 在频谱域进行编码和在LPC域进行编码(亦即在LPC分析级的输出端处理该信号)之间进 行判定。第二开关设置用于在LPC域切换,以便在LPC域对该LPC域信号(诸如使用ACELP 编码器)进行编码;或在LPC频谱域对该LPC域信号进行编码,这需要用于将该LPC域信号 变换至LPC频谱域的变换器,由于LPC频谱域展现出LPC已滤波信号的频谱而非时域信号 的频谱,故LPC频谱域与频谱域不同。第一开关在两个处理分支之间进行判定,此处一个分支主要是由宿(sink)模型 及/或心理声学模型(亦即,通过听觉遮蔽)激励;而另一分支主要是由源(source)模型 及分段SNR计算激励。举例而言,一个分支具有频谱域编码器,而另一个分支具有基于LPC 的编码器(诸如语音编码器)。源模型通常为语音处理,因此通常使用LPC。第二开关再度在两个处理分支之间进行判定,但是在与该“外部(outer) ”第一分 支域不同的域。再次,一个“内部(inner)”分支主要是由源模型或SNR计算激励,而另一个 “内部”分支可由宿模型及/或心理声学模型(亦即,通过遮蔽或至少包括频率/频谱域编 码方面)来激励。举例而言,一个“内部”分支具有频域编码器/频谱变换器,而另一个分 支具有在另一域(诸如LPC域)进行编码的编码器,其中这种编码器例如是CELP或ACELP 量化器/定标器,其处理输入信号而未作频谱变换。又一较佳实施例是一种音频编码器,包含第一信息宿导向的编码分支,诸如频谱 域编码分支;第二信息源或SNR导向编码分支,诸如LPC域编码分支;及用于在该第一编码 分支与该第二编码分支间切换的开关,其中,该第二编码分支包含变换器,用于变换成与时域不同的特定域,诸如LPC分析级,以产生激励信号;其中,该第二编码分支进一步包含特 定域(诸如LPC域)处理分支及特定频谱域(诸如LPC频谱域)处理分支;及用于在该特 定域编码分支与该特定频谱域编码分支间切换的另一开关。本发明的又一个实施例是一种音频解码器,包含第一域,诸如频谱域解码分支; 第二域,诸如用于对第二域的信号(诸如激励信号)进行解码的LPC域解码分支;及第三 域,诸如用于对第三域(诸如LPC频谱域)的信号(诸如激励信号)进行解码的LPC频谱 解码器分支,其中,该第三域是通过执行从第二域的频率变换获得的,其中,设置用于第二 域信号及第三域信号的第一开关,及其中,设置用于在该第一域解码器与针对第二域或第 三域的解码器间切换的第二开关。


随后将就附图来说明本发明的较佳实施例,附图中图IA是用于对音频信号进行编码的较佳装置或方法的示意代表图;图IB是由MDCT-TCX转换至AAC的示意代表图;图IC是由AAC转换至MDCT-TCX的示意代表图;图ID是本发明的构想的较佳实施例作为流程图的示例说明;图2是用于示例说明发生于本发明的实施例的四个不同域及其关系的示意代表 图;图3A是示例说明用于对音频信号进行解码的本发明的装置/方法的方案;图;3B是根据本发明的实施例的解码方案的进一步示例说明;图4A示意了诸如应用于两种编码模式的MDCT的混叠变换的细节;图4B示意了与图4A的窗口函数类似但具有混叠部及非混叠部的窗口函数;图5是在诸如AAC-MDCT编码模式的一种编码模式中编码器及解码器的示意代表 图;图6是在AMR-WB+中的TCX编码的上下文中,在诸如LPC域的不同域应用MDCT的 编码器及解码器的代表图;图7是在AAC与AMR-WB+间转换的窗口的特定序列;图8A是在由TCX模式切换至AAC模式的上下文中,用于编码器及解码器的较佳实 施例的代表图;图8B是用于示意由AAC转换至TCX的编码器及解码器的较佳实施例;图9A是可应用本发明的较佳混合切换编码方案的方框图;图9B是示例说明在图9A的控制器中执行的处理的流程图;图IOA是在混合切换编码方案中的解码器的较佳实施例;图IOB是用于示例说明在图IOA的转换控制器中执行的过程的流程图;图IlA示意了其中优选地应用本发明的编码器的较佳实施例;及图IlB示意了其中优选地应用本发明的较佳解码器。
具体实施例方式图IlA标示意了具有两个级联开关的本发明的一个实施例。单声信号、立体声信号、或多声道信号被输入开关200。开关200由判定级300控制。判定级接收输入模块200 的信号,作为输入信号。另外,判定级300也接收辅助信息,该辅助信息被含括于该单声信 号、立体声信号、或多声道信号中,或至少是与这些信号关联,此处存在有信息,而该信息例 如是在最初产生该单声信号、立体声信号、或多声道信号时生成的。判定级300激励开关200,以便将信号馈送至图IlA的上分支示意出的频率编码部 400,或馈送至图IlA的下分支示意出的LPC域编码部500。频域编码部的关键组件是频谱 变换模块411,该模块411操作用于将公共预处理级输出信号(容后详述)变换至频谱域。 频谱域变换模块可包括MDCT算法、QMF、FFT算法、小波分析或滤波器组,诸如具有某个数目 的滤波器组声道的经临界采样(critically sampled)的滤波器组,此处滤波器组中的子频 带信号可为实值信号或复值信号。使用频谱音频编码器421对频谱变换模块411的输出进 行编码,这可包括如由AAC编码方案所已知的处理模块。通常,分支400中的处理是基于感官模型或信息宿模型的处理。如此,该分支对接 收声音的人类听觉系统进行建模。相反地,分支500中的处理用于产生激励域、残留域或 LPC域的信号。大致上,分支500中的处理为语音模型或信息产生模型的处理。对于语音信 号,该模型为产生声音的人类语音/声音产生系统的模型。但若欲编码来自要求不同声音 产生模型的不同源的声音,则分支500中的处理可不同。对于下编码分支500,关键组件为LPC装置510,其输出用于控制LPC滤波器的特 性的LPC信息。这种LPC信息被传输至解码器。LPC级510输出信号是由激励信号及/或 加权信号所组成的LPC域信号。LPC装置通常输出LPC域信号,其可为LPC域的任一信号,诸如激励信号或加权 (TCX)信号,或通过将LPC滤波系数应用于音频信号所产生的任何其它信号。此外,LPC装 置也可决定这些系数,还可量化/编码这些系数。判定级的判定可以是信号适应性判定,因此判定级执行音乐/语音鉴别,且控制 开关200,以使得音乐信号被输入上分支400,而语音信号被输入下分支500。在一个实施例 中,判定级将其判定信息馈入输出比特流,以使得解码器可使用该判定信息来执行正确的 解码操作。这种解码器示意于图11B。由频谱音频编码器421所输出的信号在传送后被输入 频谱音频解码器431。频谱音频解码器431的输出被输入时域变换器440。同理,图IlA的 LPC域编码分支500的输出被解码器端接收且由组件536及537处理,以获得LPC激励信 号。该LPC激励信号被输入LPC合成级M0,该级540接收由相对应的LPC分析级510所产 生的LPC信息作为另一输入。时域变换器440的输出及/或LPC合成级540的输出被输入 开关600。开关600是通过开关控制信号控制的,该开关控制信号例如是由判定级300所产 生,或由外部提供,例如由原始单声信号、立体声信号或多声道信号的形成器所提供。开关 600的输出是完整单声信号、立体声信号或多声道信号。输入开关200及判定级300的输入可以是单声信号、立体声信号或多声道信号,或 通称为音频信号。依据可由开关200的输入信号导出的或由任何外部源(诸如输入级200 的信号隐含的原始音频信号的产生器)导出的判定,开关在频率编码分支400与LPC编码 分支500间切换。频率编码分支400包含频谱变换级411及随后连接的量化/编码级421。 量化/编码级包括由近代频域编码器(诸如AAC编码器)已知的任一项功能。此外,可通过心理声学模块控制量化/编码级421的量化操作,该心理声学模块产生心理声学信息,诸 如频率上的心理声学遮蔽阈值,此处此项信息被输入级421。在LPC编码分支,开关输出信号经由LPC分析级510处理而产生LPC辅助信息及 LPC域信号。激励编码器包含另一开关521,该开关用于在LPC域的量化/编码操作5 或 处理LPC频谱域的数值的量化/编码级527间切换LPC域信号的进一步处理。为了达成此 项目的,设置频谱变换器527。依据特定设定值而定,例如说明于AMR-WB+技术规范,以开环 方式或闭环方式控制开关521。针对闭环控制模式,编码器还步包括用于LPC域信号的逆量化器/编码器、用于 LPC频谱域信号的逆量化器/编码器、及用于该逆量化器/编码器的输出的频谱逆变换器。 第二编码分支的处理分支中的已编码且再度已解码的信号被输入开关控制装置。在该开关 控制装置中,这两个输出信号彼此比较及/或与目标函数比较,或计算目标函数,该目标函 数的计算可基于两个信号的失真的比较,使得具有较低失真的信号被用于判定开关521须 采取哪一种位置。可选地,当两个分支提供非恒定比特率时,可选择用于提供较低比特率的 分支,即使此分支的信号与噪声之比低于另一分支的信号与噪声之比。可选地,目标函数可 使用各个信号的信号与噪声之比及各个信号的比特率及/或额外标准,作为输入,来找出 针对特定目的的最佳判定。例如,如果目的是比特率须尽可能地低,则目标函数极其仰赖由 逆量化器/编码器及频谱逆变换器输出的两个信号的比特率。但当主要目的是对某个比特 率具有最佳质量时,开关控制将抛弃高于容许比特率的各信号;而当两个信号低于容许比 特率时,开关控制将选择具有较佳信号与噪声之比(亦即具有较小的量化/编码失真)的 信号。如前文说明,根据本发明的解码方案示意于图11B。针对三种可能的输出信号中 的每一种,存在特定解码/再量化级431、536或537。当级431输出频谱(也称作为“时频 谱”(时域信号的频谱),且被使用频率/时间变换器440变换至时域)时,级536输出LPC 域信号,级537接收该LPC域信号的频谱(也称作为“LPC谱”)。为了确定输入开关532的 输入信号皆是LPC域的,在LPC域设置频率/时间变换器537。开关532的输出数据被使用 LPC合成级540变换回时域,该LPC合成级540是经由编码器端所产生的且所传输的LPC信 息而控制的。然后,在模块540之后,两个分支具有时域信息,该时域信息根据开关控制信 号切换,以便最终获得音频信号,诸如单声信号、立体声信号或多声道信号,这取决于输入 图IlA的编码方案的信号。因此,图IlA示意了根据本发明的较佳编码方案。连接至开关200输入端的公共预 处理方案包含环绕/联合立体声模块101,其产生联合立体声参数及单声输出信号,作为输 出信号,该单声输出信号是通过将具有两个或多个声道的输入信号下混频而产生的。大致 上,模块101的输出端的信号也可为具有多个声道的信号,但由于模块101的下混频功能, 模块101的输出端的声道数目将少于输入模块101的声道的数目。替代模块101或除了模块101之外,公共预处理方案可包含带宽延伸级102。在图 IlA的实施例中,模块101的输出被输入带宽延伸级102,在图IlA的编码器中,带宽延伸级 102在其输出端输出一带限信号,诸如低频带信号或低通信号。优选的,此信号也经过下采 样(例如通过因子2的下采样)。此外,针对输入模块102的信号的高频带,产生带宽延伸 参数,诸如频谱包络参数、反相滤波参数、噪声本底参数等(如由MPEG-4的HE-AAC简介所知的),且将其转发至比特流复用器800。优选地,判定级300接收输入模块101或输入模块102的信号,以便在音乐模式 或语音模式间作判定。在音乐模式中选择上编码分支400,而在语音模式选择下编码分支 500。优选地,判定级还控制联合立体声模块101及/或带宽延伸模块102,来将这些模块 的功能调整以适合特定信号。如此,当判定级判定输入信号的某个时间部分具有第一模式 (诸如音乐模式)时,模块101及/或模块102的特定特性可由判定级300控制。可选地, 当判定级300判定信号是语音模式或一般而言是第二 LPC域模式时,模块101及102的特 定特性将根据判定级的输出而控制。优选地,编码分支400的频谱变换是使用MDCT操作进行的,MDCT操作又优选地为 时间翘曲的MDCT操作,此处强度或一般而言为翘曲强度被控制在零翘曲强度与高翘曲强 度间。在零翘曲强度中,模块411的MDCT操作是本领域已知的直接式MDCT操作。时间翘 曲强度连同时间翘曲辅助信息可被传输/输入比特流复用器800,作为辅助信息。在LPC编码分支,LPC域编码器可包括ACELP核心526,其计算音高增益、音高滞后 及/或码本信息,诸如码本指数及增益。由3GPP TS^. 290已知的TCX模式引起变换域的 感官加权信号的处理。傅立叶已变换且已加权的信号被使用带有噪声因数量化的分割多速 率格状量化(代数VQ)而量化。以10对、512、或256个采样窗口计算变换。通过反相加权 滤波器对该已量化且已加权的信号进行反相滤波,恢复激励信号。在第一编码分支400中,频谱变换器优选地包含特别调整的MDCT操作,其具有某 些窗口功能、接着是量化/熵编码级,该级可包含单一向量量化级,但优选地为类似于频域 编码分支中的量化器/编码器(亦即图IlA的项目421)的组合式标量量化器/熵编码器。在第二编码分支中,存在LPC模块510,接着是开关521,再度接着是ACELP模块 526 或 TCX 模块 527。ACELP 被描述于 3GPP TS 26. 190,TCX 被描述于 3GPP TS 26.290。通 常,ACELP模块5 接收LPC激励信号。TCX模块527接收加权信号。在TCX中,变换施加至通过基于LPC的加权滤波器对输入信号进行滤波而得的已 加权信号。本发明的较佳实施例使用的加权滤波器由α-Α^/γυ/α-μζ—1)表示。如此, 已加权信号为LPC域信号,其变换至LPC频谱域。由ACELP模块5 处理的信号为激励信 号,且与由模块527处理的信号不同,但两个信号皆在LPC域。激励信号是通过分析滤波器 (l-A(z/y))对输入信号进行滤波获得的。在图IlB的解码器端,在模块537的频谱逆变换之后,施加加权滤波器的倒数,亦 即(l-yzl/d-Ab/Y))。任选地,信号可额外通过(l-A(z))滤波来进入LPC激励域。
如此,经由?―广,)、、(1 - 40))滤波,来自TCF1模块537的信号可由加权域变换至
激励域,然后用于模块536。在最后编码被选择用于下一个帧的情况下,该典型滤波是在 AMR-WB+中在反相TCX (537)末端进行的,用于馈送ACELP的适应性码本。虽然图IlA的项目510示意了单一模块,但模块510也可输出不同信号,只要这些 信号是在LPC域即可。模块510的实际模式(诸如激励信号模式或加权信号模式)可取决 于实际切换状态。可选地,模块510可具有两个并联处理装置。如此,模块510的输出端的 LPC域可表示LPC激励信号或LPC加权信号或任何其它LPC域信号。在图Ila或图lib的第二编码分支(ACELP/TCX)中,优选地在编码前通过滤波器1-0. 68Z—1对信号进行预加强。在图IlB中的ACELP/TCX解码器处,使用滤波器1/ (1-0. 68Z-1)对已合成的信号进行解除加强。预加强可构成LPC模块510的一部分,此处在 分析与量化之前,对信号进行预加强。同理,解除加强可构成LPC合成模块LPr1S^的一部 分。在较佳实施例中,第一开关200(参考图11A)是经由开环判定控制的,而第二开关 是经由闭环判定控制的。举例而言,可能存在下述情况在第一处理分支,第一 LPC域表示LPC激励信 号;而在第二处理分支,第二 LPC域表示LPC加权信号。换言之,第一 LPC域信号是通过 (l-A(z))滤波而变换至LPC残留域获得的;而第二 LPC域信号是通过滤波器(1-Α(ζ/γ))/ (l-μζ-1)而变换至LPC加权信号获得的。在较佳模式中,μ等于0.68。图IlB示意了与图IlA的编码方案相对应的解码方案。图IlA中由比特流复用器 800产生的比特流被输入比特流解复用器900。依据例如由模式检测模块601从比特流导 出的信息,解码器端开关600被控制用于将来自上分支的信号或来自下分支的信号转发至 带宽延伸模块701。带宽延伸模块701接收来自比特流解复用器900的辅助信息,并基于此 辅助信息及模式判定601的输出,基于由开关600输出的低频带而重建高频带。模块701产生的全频带信号被输入联合立体声/环绕处理级702,其重建两个立 体声声道或数个多声道。通常模块702将输出比输入本模块更多的声道。依据应用用途而 定,输入模块702的信号甚至可以包括两个声道,诸如立体声模式,并且甚至可以包括更多 个声道,只要本模块的输出具有比本模块的输入更多个声道即可。已经显示开关200在两个分支间切换,故只有一个分支接收信号进行处理,而另 一分支并未接收信号来处理。但在另一个可选实施例中,开关也可以配置在例如频域编码 器421及LPC域编码器510、521、526、527之后,表示两个分支400、500并行处理相同信号。 但为了不致于使比特率加倍,只有由这些编码分支400或500中的一个输出的信号被选择 用于写入输出比特流。然后判定级操作,使得写入比特流的信号最小化某个代价函数,此处 该代价函数可以是所产生的比特率、或所产生的感官失真、或比特率/失真的组合代价函 数。因此在该模式中或在附图所示的模式中,判定级也可以在闭环模式下操作,以便确保最 后只有对给定感官失真有最低比特率、或对给定比特率有最低感官失真的编码分支输出被 写入该比特流。在有二个开关的实施例中,亦即第一开关200及第二开关521,优选地,第一开关 的时间分辨率低于第二开关的时间分辨率。换言之,通过开关操作而切换的输入第一开关 的输入信号块大于在LPC域操作的第二开关所切换的块。举例而言,频域/LPC域开关200 可切换长IOM个采样的块,而第二开关521可切换各自有256个或512个采样的块。大致上用于第一编码分支400的音频编码算法反映出音频宿情况且对其进行建 模。音频信息的宿通常为人耳。人耳可被建模为频率分析器。因此,第一编码分支输出已 编码的频谱信息。优选地,第一编码分支进一步包括心理声学模型,用于额外施加心理声学 遮蔽阈值。在量化音频频谱值时使用这种心理声学遮蔽阈值,此处优选地进行量化以使得 通过量化隐藏于心理声学遮蔽阈值下方的频谱音频值而导入量化噪声。第二编码分支表示信息源模型,反映出音频声音的产生。因此,信息源模型包括语 音模型,其由LPC分析级反映,亦即通过将时域信号变换至LPC域、且随后处理该LPC残留信号(亦即激励信号)而反映。但另一种声音源模型是表示某种乐器或任何其它声音产生 器(诸如存在于实际世界的特定声音源)的声音源模型。不同声音源模型间的选择可在有 数个声音源模型可用时进行,例如基于SNR计算,亦即基于计算来选出哪一个源模型最适 合用于编码音频信号的某个时间部分及/或频率部分。但优选地,编码分支间的切换是在 时域进行的,换言之,某个时间部分是使用一种模型编码的,而中间信号的某个不同时间部 分是使用另一个编码分支编码的。信息源模型以某些参数表示。关于语音模型,当考虑诸如AMR-WB+的现代语音编 码器时,参数为LPC参数及已编码的激励参数。AMR-WB+包含ACELP编码器及TCX编码器。 这种情况下,已编码激励参数可为整体增益、噪声本底、及可变长度码。图IlA的音频输入信号是存在于第一域,该域例如可为时域,但也可为任何其它 域,诸如频域、LPC域、LPC频谱域或任何其它域。通常由一个域变换至另一个域是通过诸如 众所周知的时间/频率变换算法或频率/时间变换算法中的任一者的变换算法进行的。由时域到例如LPC域的另一种变换是对时域信号进行LPC滤波,结果导致LPC残 留信号或激励信号。任何其它滤波操作产生已滤波信号,其在变换可用作变换算法(视情 况而定)之前,对相当大量信号采样有影响。因此,使用基于LPC的加权滤波器来加权音频 信号是又一种变换,其产生LPC域的信号。在时间/频率变换中,在变换前对单一频谱值的 修改将对全部时域值有影响。类似地,任何时域采样的修改将对各个频域采样有影响。同 理,由于LPC滤波器的长度,在LPC域情况中激励信号采样的修改将在LPC滤波之前对相当 大量的采样有影响。同理,LPC变换前的采样修改将对通过此LPC变换所得的多个采样有 影响,原因在于LPC滤波器特有的记忆效应。图IA示意了用于编码音频信号10的装置的较佳实施例。该音频信号优选地被导 入具有诸如图IlA中400的第一编码分支的编码装置,用于在第三域对该音频信号进行编 码,第三域例如可为直接(straightforward)频域。该编码器还可包含用于基于第四域来 对该音频信号进行编码的第二编码分支,该第四域例如为图IlA的TCX模块527所得的LPC 频域。优选地,本发明装置包含窗口化器11,用于使用具有分析窗口形状的第一分析窗 口来窗口化第一域的该音频信号的第一块,该分析窗口具有如在图8A及图8B或其它图所 讨论的混叠部(诸如Lk或、及如图5或其它图所示意的非混叠部(诸如Mk)。该装置还包含处理器12,用于处理与该分析窗口的混叠部相关联的该音频信号的 第一子块,通过在对第一子块窗口化之后,将该子块从第一域(诸如信号域或直接时域)变 换至第二域(诸如LPC域)来获得已处理的第一子块;以及用于处理与该分析窗口的另一 部相关联的该音频信号的第二子块,通过在对第二子块窗口化之前,将该第二子块从第一 域(诸如直接时域)变换至第二域(诸如LPC域)来获得已处理的第二子块。本发明装置 还包含变换器13,用于使用相同的块变换规则,将该已处理的第一子块及已处理的第二子 块由第二域变换至第四域(诸如LPC频域)来获得已变换的第一块。然后,此已变换的第 一块可在另一处理级14被进一步处理,来进行数据压缩。优选地,进一步处理还接收与该第一块重叠的第一域的音频信号的第二块作为输 入,其中第一域(诸如时域)的音频信号的第二块是使用第二分析窗口在第三域(亦即直 接频域)处理的。这种第二分析窗口具有混叠部,该混叠部与第一分析窗口的混叠部相对应。第一分析窗口的混叠部及第二分析窗口的混叠部优选地与窗口化之前的原始音频信号 的相同音频采样相关,这些部分经过时域混叠抵消,亦即解码器端的重叠-加法过程。图IB示意了当进行从在第四域(例如LPC频域)编码的块变换至第三域(诸如 频域)时发生的情况。在一个实施例中,第四域为MDCT-TCX域,第三域为AAC域。施加在 于MDCT-TCX域编码的音频信号的窗口具有混叠部20及非混叠部21。该相同块(在图IB 中称为“第一块”)可具有或可不具有又一混叠部22。对于非混叠部亦为真。其可存在或 可不存在。在另一域(诸如AAC域)编码的该音频信号的第二块包含相对应的混叠部23,视 情况而定,此第二块可包括另一部,诸如非混叠部或混叠部,在图IB中指示为24。因此,图 IB示意了音频信号的重叠处理,使得窗口化之前第一块的混叠部20中的音频采样与窗口 化之前第二块的相对应混叠部23的音频采样相同。如此,第一块的音频采样是经由将分析 窗口施加至属于音频采样流的音频信号而获得;第二块是经由将第二分析窗口施加至多个 音频采样而获得,这些多个音频采样包括第二块的相对应混叠部23的采样及另一部M的 采样。因此,混叠部20的音频采样为与混叠部20相关联的音频信号的第一块,音频信号的 另一部21的音频采样与同该另一部21相关联的音频信号的第二子块相对应。图IC示意了如图IB的类似情况,但是由AAC(亦即第三域)转换至MDCT-TCX域 (亦即第四域)。图IB与图IC间的差异大致上为图IB的混叠部20包括在时间上出现在另一部 21的音频采样之后的采样;而图IC中,混叠部20的音频采样在时间上是出现在另一部21 的音频采样之前。图ID示意了使用音频采样的同一个窗口化块的第一子块及第二子块中的音频采 样进行的步骤的细节代表图。大致上,窗口有递增部及递减部,依据窗口形状而定,可有或 无相对恒定的中部。在第一步骤30,进行块形成操作,其中从音频采样流取得某个数目的音频采样。特 定而言,块形成操作30将定义哪些音频采样属于图IB及图IC中的第一块及哪些音频采样
属于第二块。混叠部20的音频采样在步骤31a经窗口化。但重要的是,在较佳实施例中,非混 叠部(亦即于第二子块)的音频采样在步骤32变换至第二域,亦即LPC域。然后,在转变 第二子块的音频采样后,进行窗口化操作31b。窗口化操作31b所得的音频采样形成采样, 这些采样输入至第四域的块变换操作,这在图ID中示意为项目35。模块31a、31b的窗口化操作可包括或可未包括如就图8A、8B、9A、10A所讨论的折 叠操作。优选地,窗口化操作31a、31b额外包含折叠操作。但在模块33中,混叠部被变换至第二域(诸如LPC域)。如此,要变换至第四域 (指示于34)的采样块完成,模块34组成一个数据块,该一个数据块被输入一个块变换操 作,诸如时间/频率操作。因于在优选实施例中,第二域为LPC域,故步骤35的块变换操作 的输出将在第四域,亦即LPC频域。由块变换35所产生的此块是已转换的第一块36,其然 后首先在步骤37处理,以便应用任一种数据压缩,例如包含在AMR-WB+编码器中施加至TCX 数据的数据压缩操作。当然,所有其它数据压缩操作也可在模块37进行。因此,模块37与 图IA的项目14相对应,图ID的模块35与图IA图的项目13相对应,及窗口化操作相当于图ID的31b及31a,与图IA的项目11相对应,对另一部及混叠部而言不同的变换与窗口化 间的顺序调度是由图IA的处理器12进行的。图ID示意了其中另一部是由图IB或图IC的非混叠子部21及混叠子部22所组 成的情况。可选地,另一部可只包括混叠部而不含非混叠部。在这种情况下,图IB及图IC 的21不存在,而22将由该块的边界延伸至混叠部20的边界。总而言之,另一部/另一子 块是以相同方式处理(而与完全无混叠或完全混叠或具有混叠子部或非混叠子部无关), 但该处理方式与混叠子块的处理方式不同。图2示意了在本发明的较佳实施例中发生的不同域的综论。通常音频信号将在第一域40,例如为时域。但本发明实际上应用于将在两个不 同域对音频信号进行编码时的情况,并应用于必须以比特率最佳化方式(亦即使用临界采 样)进行由一个域切换至另一个域时的全部情况。在较佳实施例中,第二域为LPC域41。由第一域变换至第二域将通过如图2指示 的LPC滤波器/变换进行。在较佳实施例中,第三域为直接频域42,这是通过众所周知的时间/频率变换的 任一种方式获得的,该时间/频率变换是诸如DCT (离散余弦变换)、DST (离散正弦变换)、 傅立叶变换或快速傅立叶变换或任何其它时间/频率变换。相对应地,由第二域变换至第四域43 (诸如LPC频域,或一般而言的,关于第二域 41的频域)也可通过诸如DCT、DST、FT、FFT的众所周知的时间/频率变换算法中的任一者获得。然后,将图2与图IlA或图IlB作比较,模块421的输出将具有第三域的信号。此 外,模块5 的输出将具有第二域的信号,模块527的输出将包含第四域的信号。输入开关 200的其它信号(或一般而言,输入判定级300或环绕/联合立体声级101的其它信号)将 在第一域,诸如时域。图3A示意了用于对具有音频数据的已编码第一块50的编码音频信号进行解码的 本发明装置的较佳实施例,此处,已编码块具有混叠部及另一部。本发明的解码器还包含处 理器51,用于处理该混叠部,通过将该混叠部变换至目标域,以执行合成窗口化,来获得已 窗口化混叠部52 ;以及用于在将另一部变换至目标域之前,执行该另一部的合成窗口化。因此,在解码器端,属于同一个窗口的块的各部分是以不同方式处理。类似处理应 用于编码器端,以允许不同域间切换的临界采样开关。本发明解码器还包含时域混叠抵消器53,用于在已编码第二块的混叠部变换至目 标域之后,组合第一块的已窗口化混叠部(亦即输入5 与音频数据的已编码第二块的已 窗口化混叠部,来获得已解码音频信号55,其与第一块的混叠部相对应。已编码第二块的已 窗口化混叠部经由M而输入时域混叠抵消器53。优选地,时域混叠抵消器53被实现为重叠/加法装置,例如施加50%的重叠。这 意味着,一个块的合成窗口的结果与音频数据的相邻已编码块的合成窗口处理结果重叠, 此处,此重叠优选地包含该块的50%。这意味着,在前块的合成已窗口化音频数据的第二部 以逐一采样方式被加至已编码音频数据的在后第二块的第一部,故最终,已解码音频数据 为两个相邻块的相对应已窗口化采样之和。在其它实施例中,重叠范围可多于或少于50%。 这种时域混叠抵消器的组合特征提供了由一个块至下一个块的连续交叉衰减,完全消除了出现在任何基于块的变换编码方案中的任何遮蔽伪像。由于实际上不同域的混叠部可通过 本发明组合,所以获得了由一个域的块至另一个域的块的临界采样切换操作。与进行由一个块至另一个块的硬切换的不含任何交叉衰减的开关编码器相比较, 本发明的过程改良了音频质量,原因在于,硬切换无可避免地将导致块边界的遮蔽伪像,诸 如可听闻的爆裂或任何其它非期望的杂音。但与确实将去除块边界的这种非期望的尖锐杂音的非临界采样交叉衰减相比较, 本发明不会因切换导致任何数据率增加。在先前技术中,当相同音频信号经由第一编码分 支编码为第一块、且经由第二编码分支编码为第二块时,若在不引入混叠的情况下处理,则 在二个编码分支编码的采样量将耗用比特率。但根据本发明,在块边界引入混叠。但这种 混叠引入是通过采样减少而获得的,结果导致可能通过时域混叠抵消器53应用交叉衰减 操作,而不会有比特率增高或非临界采样切换的损失。在最佳实施例中,进行真正临界采样切换。但在某些情况下,也存在低效实施例, 其中只引入某个量的混叠,而允许一定量的比特率开销。但由于实际上使用且组合混叠部, 虽言如此,全部这些低效实施例总是优于带有交叉衰减的完全无混叠转换;或就质量方面 而言优于由一个编码分支硬切换至另一个编码分支。在该上下文中,须了解,TCX中的非混叠部仍然产生临界采样的已编码采样。添加 TCX中的非混叠部不会对临界采样造损害,但是危害转换质量(较低切换)及频谱呈示质量 (较低能量压缩)。有鉴于此,优选地,使TCX中的非混叠部尽可能地小或甚至接近于零,故 该另一部完全混叠,而不具有不含混叠的子部。随后将讨论图;3B来示意图3A的过程的较佳实施例。在步骤56,进行处于例如第四域的该已编码的第一块的解码器处理。这种解码器 处理可为熵解码,诸如霍夫曼解码,或与图IA的模块14在编码器端的额外处理操作相对应 的算术解码。在步骤57,进行如步骤57所指示的完整第一块的频率/时间变换。根据图 2,步骤57的该过程获得第二域的完整第一块。现在,根据本发明,第一块的各部分以不同 方式处理。特定而言,混叠部(亦即步骤57的输出的第一子块)将在使用合成窗口进行窗 口化操作前变换至目标域。这由变换步骤58a及窗口化步骤59a的顺序指示。如59b指示 的,第二子块(亦即无混叠子块)按原样(亦即未经图3B的项目58a的变换操作)使用合 成窗口而窗口化。模块59a或59b的窗口化操作可包含或可未包含折叠(展开)操作。但 优选地,窗口化操作包含折叠(展开)操作。依据与另一部相对应的第二子块实际上是混叠子块还是非混叠子块,进行如59b 指示的变换至目标域的操作,而在第二子块为非混叠子块的情况下,不进行TDAC操作/组 合操作。但当第二子块为混叠子块时,在步骤59b变换至目标域的变换操作之前,进行与另 一个块的相对应部的TDAC操作,亦即组合操作60b,以算出第二块的已解码音频信号。在另一分支,亦即对于第一子块相对应的混叠部,步骤59a的窗口化操作结果被 输入组合级60a。该组合级60a还接收第二块的混叠部作为输入信号,该第二块亦即已经在 其它域(例如图2的实例中的AAC域)编码的块。然后,模块60a的输出组成第一子块的 已解码音频信号。比较图3A与图:3B,显然组合操作60a是与图3A的模块53进行的处理相对应。此 外,处理器51进行的变换操作及窗口化操作就变换操作而言是与项目58a、58b相对应,而就窗口化操作而言是与59a及59b相对应,此处图3A的处理器51进一步确保维持混叠部 与另一部(亦即第二子块)的正确顺序。在较佳实施例中,施用修改型离散余弦变换(MDCT)来获得由一个域的编码操作 切换至不同的另一域的编码操作的临界采样。但也可施用所有其它变换。但因MDCT为较 佳实施例,将就图4A及图4B讨论MDCT的进一步细节。图4A示意了窗口 70,其具有朝左的递增部及朝右的递减部,此处可将此窗口划分 成为四部分a、b、c、及d。由该图可知,窗口 70在示出的50%重叠/加法情况下只有混叠 部。特定而言,具有由零至N采样的第一部是与前一个窗口 69的第二部相对应,延伸于窗 口 70的采样N至采样2N间的第二半个部分与窗口 71的第一部重叠,窗口 71在所示实施 例中为窗口 i+Ι,而窗口 70为窗口 i。可见MDCT操作为折叠操作与随后变换操作及特别为接着DCT操作的级联,此处应 用IV型DCT (DCT-IV)。特定而言,经由将折叠块的第一部N/2计算为-cK-d,及折叠输出的 第二部N/2采样计算为a_bK,此处R为倒序,获得折叠操作。如此,折叠操作获得N个输出 值,而接收2N个输入值。也在图4A以方程式形式示意了解码器端的相对应的展开操作。大致上,对(a, b,c, d)的MDCT操作恰好获得与如图4A指示的(-cR-d, a-bE)的 DCT-IV相同的输出值。相对应地且使用展开操作,IMDCT操作获得施加至DCT-IV逆变换的输出的展开操 作的输出。因此,经由在解码器端执行折叠操作,引入了时间混叠。然后使用需要N个输入值 的DCT-IV块变换,将折叠操作结果变换至频域。在解码器端,使用DCT-IV—1操作,将N个输入值变换回时域,这种逆变换操作的输 出改变为展开操作,而获得2N个输出值,但这些输出值为混叠输出值。为了移除已经由折叠操作引入并在展开操作之后仍然存在的混叠,需要通过图3A 的时域混叠抵消器53进行重叠/加法操作。因此,当展开操作的结果与重叠半数的先前IMDCT结果相加时,在图4A底部的方 程式中,反相项抵消,而只获得例如b及d,如此恢复了原始数据。为了对已窗口化的MDCT获得TDAC,存在有一种要求,被称作为“普林生-布拉利 (Princen-Bradley) ”条件,表示对于时域混叠抵消器中组合的相对应采样的窗口系数升至 平方,从而针对各个采样获得一单位(1)。图4A示意了例如对长窗口或短窗口、在AAC-MDCT中应用的窗口序列;图4D示意 了不同的窗口函数,其除了混叠部之外,还具有非混叠部。图4D示意了分析窗口函数72具有零部 及d2、具有混叠部72a、72b并具有非混 叠部72c。延伸在c2、Cl1上的混叠部72b具有随后窗口 73的相对应混叠部,以7 指示。相 对应地,窗口 73还包含非混叠部73a。将图4B与图4A比较,显然,由于窗口 72有零部 、 Cl1或窗口 73有零部C1,两个窗口获得非混叠部,并且混叠部的窗口函数比图4A更陡峭。有 鉴于此,在图4B中,混叠部7 对应于Lk,非混叠部72c对应于Mk部,及混叠部72b对应于Rk。
当折叠函数施用于通过窗口 72而窗口化的采样块时,获得如图4B所示的情况。延 伸在前N/4个采样上的左部具有混叠。延伸在N/2个采样上的第二部不含混叠,原因在于 折叠操作是应用于具有零值的窗口部分,最后N/4个采样再度具有混叠。由于折叠操作,故 折叠操作的输出值数目等于N,而输入值数目为2N,但实际上,因使用窗口 72进行窗口化操 作,本实施例的N/2个值被设定为零。现在将DCT IV应用于折叠操作的结果,但重要的是,由一个编码模式转换至另一 个编码模式的混叠部72是以与非混叠部不同的方式处理,尽管这两个部分是属于音频采 样的同一块,重要的是,这两个部分被输入图IA中由变换器30所执行的相同块变换操作。图4B还示意了窗口 72、73、74的窗口序列,此处窗口 73为由确实存在有非混叠部 的情况转换至只存在有混叠部的情况的转换窗口。这是由非对称地形成窗口函数形状而获 得的。窗口 73的右部是类似于图4A的窗口序列中窗口的右部,而左部具有非混叠部及相 对应的零部(位于q)。因此,图4B示意了当欲使用完全重叠窗口进行AAC时,由MDCT-TCX 至AAC的转换;或可选地,示意了当窗口 74以完全重叠方式窗口化TCX数据块时、由AAC至 MDCT-TCX的转换,当并无理由由一种模式切换至另一种模式时,此乃一方面为MDCT-TCX的 常规操作,另一方面为MDCT-AAC的常规操作。因此,窗口 73被称为“开始窗口”或“停止窗口”,其额外具有的较佳特性为本 窗口长度是与至少一个邻近窗口的长度相等,因此当一块被设定为具有与窗口系数相等数 目,亦即图4D或图4A的实例中的2η个采样时,维持一般块格栅(raster)或帧格栅。随后,就图5讨论编码器端及解码器端的AAC-MDCT过程。在窗口化操作80中,应用如81示意的窗口函数。该窗口函数具有两个混叠部Lk 及&及非混叠部Mk。因此,窗口函数81类似于图4B的窗口函数72。应用该窗口函数至相 对应的多数音频采样,结果产生具有对应于IVlk的混叠子块及对应于Mk的非混叠子块的 音频采样的已窗口化块。如图4B所指示的,执行以82示意的折叠操作,获得N个输出,表示Lk部、&部减 少成具有较少数采样。然后如结合图4A的MDCT方程式所讨论的,执行DCT IV 83。通过任何可利用的数 据压缩器(诸如量化器84)或任何其它执行众所周知的AAC工具的装置,进一步处理MDCT 输出。在解码器端,执行逆处理85。然后,通过DCr1IV 86,执行由第三域变换至第一域。 然后如图4A所讨论的,执行展开操作87。然后在模块88,执行合成窗口化操作,项目89a及 89b共同执行时域混叠抵消。项目89b为应用采样延迟的延迟装置,以便获得如结合 图4A所讨论的重叠;加法器89执行音频信号的当前部分的组合,诸如当前窗口输出的第一 部Lk与前一个窗口的最末部Rlri的组合。如90所指示的,结果产生无混叠部Lk及Mk。须 注意,Mk由一开始即为无混叠,但通过装置89a、89b的处理已经抵消了混叠部Lk中的混叠。在较佳实施例中,AAC-MDCT也可施加以只有混叠部的窗口,如图4A所指示的,但 对一种编码模式至另一种编码模式的切换,优选地,应用具有混叠部并具有非混叠部的AAC 窗口。本发明的实施例是用于在AAC与AMR_WB+[4]间切换的切换音频编码。如图5所述,AAC使用MDCT。AAC极为适合用于音乐信号。当在先前处理中检测得到输入信号为音乐或由使用者标示为音乐时,切换编码使用AAC。输入信号帧k是通过尺寸为Lk、Mk& &的三部分窗口而窗口化。在将信号变换至 执行量化的频域之前,MDCT引入时域混叠分量。在加上大小Rlri = Lk的重叠前一个窗口化 信号之后,若引入了任何量化误差,则可恢复原始信号帧的头Lk+Mk采样。时域混叠被抵消。随后,就图6讨论本发明的TCX-MDCT过程。与图5的编码器相反,变换至第二域是由项目92执行。项目92为产生LPC残留 信号或加权信号的LPC变换器,该加权信号可使用如由TCX处理已知的加权滤波器,经由对 LPC残留信号进行加权而计算出。当然,该TCX信号也可使用单一滤波器计算,通过对时域 信号滤波,获得TCX信号,该TCX信号是LPC域的信号或概括言而言是第二域的信号。因此, 第一域/第二域变换器92在其输出端提供输入窗口化装置80的信号。除了变换器92的 外,图6的编码器中的过程是类似图5的编码器中的过程。当然,在图5及图6的模块84 可应用不同的数据压缩算法,当比较AAC编码工具与TCX编码工具时,这是显而易见的。在解码器端,执行如结合图5讨论的相同步骤,但这些步骤并非对直接频域(第三 域)的已编码信号执行,而是对在第四域(亦即LPC频域)所产生的已编码信号执行。因此,图6中装置89a、89b的重叠加法过程是在第二域执行的,而非如图5所示在 第一域执行的。AMR-WB+是基于语音编码ACELP及基于变换的编码TCX。对IOM个采样的各个超 帧而言,AMR-WB+是用闭环判定在TCX与ACELP的17种不同的组合间作选择。使用kgSNR 客观评估,根据闭环判定选出最佳者。AMR-WB+适合用于语音及语音/音乐信号。原先的 TCX的DFT由MDCT置换来享有其重要性质。然后,AMR-WB+的TCX等于MPTC编码,但量化 除外,量化仍然存在。当输入信号被检测或被标示为语音或语音/音乐时,由已切换的音频 编码器使用修改型AMR-WB+。TCX-MDCT并非直接对信号域执行MDCT,而是在基于LPC系数通过分析滤波器W (ζ) 对该信号滤波后执行MDCT。滤波器被称作为加权分析滤波器,允许TCX同时白化该信号且 按照符合心理声学理论的基于共振峰(formant)的曲线来对量化噪声进行整形。图5示意的处理是对直接AAC-MDCT模式执行的,不使用图4A的完全重叠窗口切 换至TCX模式或任何其它模式。但当检测到转换时,应用特定窗口,该窗口为用于转换至其 它编码模式的AAC开始窗口,或为用于由其它编码模式转换至AAC模式的AAC停止窗口,如 图7所示。AAC停止窗口 93具有混叠部(示于93b)及非混叠部(示于93a),亦即在图中 示为窗口 93的水平部分。相对应地,AAC停止窗口 94被示为具有混叠部94b及非混叠部 94a。在AMR-WB+部中,应用类似于图4B的窗口 72的窗口,此处该窗口具有混叠部7 及非 混叠部72c。虽然图7示出有单一 AMR-WB+窗口,可看作开始/停止窗口,但可存在多个优 选具有50 %重叠的窗口,因此可类似于图4A的窗口。通常AMR-WB+中的TCX不使用50 % 重叠。只采用小量重叠,以能够使用特有的矩形窗口,亦即0%重叠,敏捷地切换至ACELP/ 从ACELP切换。但当进行转换时,如图7的左中位置所示的,应用AMR-WB+开始窗口 ;当判定欲执 行由AMR-WB+切换至AAC时,应用AMR-WB+停止窗口。开始窗口在左侧具有混叠部,而停止 窗口在右侧具有混叠部,此处这些混叠部示于72a,及此处这些混叠部与示于9 或94b的 邻近AAC开始/停止窗口的混叠部相对应。
在图7的1 个采样的两个重叠区进行特殊处理。为了抵消AAC的时域混叠, AMR-WB+分段的第一个帧及最后一个帧被强制变成TCX而非ACELP。这可通过在闭环判定 中对kgSNR分数进行偏移来进行。此外,特别地,如图8A所示来处理TCX-MDCT的前1 个采样,此处Lk = 128。如图8B所示来处理AMR-WB+的最末1 个采样,此处& = 128。图8A示意了混叠部&朝非混叠部右侧的处理,用于由TCX转换至AAC ;图8B示意 了混叠部Lk朝非混叠部左侧的特殊处理,用于由AAC转换至TCX。该处理与图6相似,但加 权操作(亦即由第一域变换至第二域)的位置不同。特定而言,图6中,变换是在窗口化之 前进行;而图8B中,变换92是于窗口化80 (及折叠8 之后进行,亦即以“TDA”指示的时 域混叠引入操作。再度,在解码器端,进行如图6的相当类似的处理步骤;但再度,混叠部的反相加 权位置是位于窗口化88之前(及展开87之前),而在图8A以86指示的由第一域变换至第 二域之后。因此,根据本发明的较佳实施例,如图IA或图IB所指示地处理TCX的转换窗口的 混叠部,而根据图6处理该窗口的非混叠部。任何AAC-MDCT窗口的处理维持相同,除了转换时选择开始窗口或停止窗口之外。 但在其它实施例中,TCX处理维持相同,AAC-MDCT窗口的混叠部与非混叠部相比较以不同 方式处理。此外,视情况而定,两个窗口(亦即AAC窗口或TCX窗口)的两个混叠部可以以与 其非混叠部不同的方式处理。但在较佳实施例中,优选地AAC处理就照现在的样子进行;原 因在于由图5显然易知,在重叠-加法过程之后AAC处理已经在信号域;以及针对TCX转 换窗口,对非混叠部是如图6的上下文所示地处理,而对混叠部是如图8A或图8B所示地处理。接着讨论图9A,其中图IA的处理器12示为控制器98。图9A中具有与图IlA的各项相对应的附图标记的装置具有类似的功能而不再讨 论。特别地,图9A示出的控制器98如图9B所示地进行操作。在步骤98a,检测到转 换,此处此转换是由判定级300指示。然后控制器98启动而偏移开关521,使得开关521选 择替代(2b)。然后由控制器98执行步骤98b。特别地,控制器进行操作而取混叠部的数据,不将 该数据直接馈至LPC 510,而在LPC滤波器510之前,将该数据直接馈至TDA模块527a,未 通过LPC滤波器加权。然后由控制器98取得此数据并加权,然后在已经通过控制器98输 出端的加权滤波器加权后,馈至DCT模块527b。控制器98的加权滤波器在信号分析后使 用在LPC模块510计算出的LPC系数。LPC模块可馈至ACELP或TCX,此外,执行LPC分析 来获得LPC系数。MDCT装置的DCT部分527b是由TDA装置527a及DCT装置527b组成。 控制器98输出端的加权滤波器具有与LPC模块510的滤波器及可能存在的额外加权滤波 器(诸如AMR-WB+TCX处理中的感官滤波器)相同的特性。如此,在步骤98b,照此顺序进行 TDA-、LPC-、及 DCT 处理。另一部分的数据馈入LPC模块510,及随后如图9A的正常信号路径所示,馈至MDCT模块527a、527b。在这种情况下,TCX加权滤波器并未明示于图9A,原因在于其属于 LPC 模块 510。如前述,如图8A指示,混叠部的数据在模块527a窗口化,在模块527内部产生的 已窗口化数据在控制器输出端经LPC滤波,然后LPC滤波结果被应用至MDCT模块527的变 换部527b。用于加权由LPC装置510所产生的LPC残留信号的TCX加权滤波器未显示在图 9A中。此外,如结合图8A所讨论的,装置527a包括窗口化级80及折叠级82 ;装置527b包 括DCT IV级83。然后DCT IV级83/527b接收处理后的混叠部及相对应处理后的另一部 分,进行公共的MDCT操作,随后如图9B中步骤98d所指示地,进行模块5 中的数据压缩。 因此,在就图9A所讨论的有线编码器或软件控制编码器的情况下,如图9D所指示的,控制 器98在不同模块510与527a、527b间进行数据调度。在解码器端,除了图IlB所指示的模块之外,设置转换控制器99,如前文说明。转换控制器99的功能将就图IOB进行讨论。一旦如图IOB的步骤99a所摘述,转换控制器99检测到转换,在数据解压缩器 537a的数据解压缩后,整个帧被馈至MDCr1级537b。此过程指示于图IOB的步骤99b。然 后如步骤99c所指示,在进行TDAC处理之前,混叠部被直接馈至LPCT1级。但混叠部并未接 受完整“MDCT”处理,而如图8B所示,只接受由第四域至第二域的反相变换。在图8B的DCr1IV级86/级537b之后,混叠部被馈至图IOA的额外LPC—1级537d, 确保由第二域变换至第一域,随后,在模块537c进行图8B的展开操作87及窗口化操作88。 因此,在级86的DCT1操作后,转换控制器99接收来自模块537b的数据,然后将此数据馈 至LPCT1模块537d。然后本过程的输出信号被馈入模块537d来进行展开87及窗口化88。 然后混叠部的窗口化结果被转发至TDAC模块440b,以便执行与AAC-MDCT块的相对应混叠 部的重叠-加法操作。有鉴于此,混叠块的处理顺序为537a中的数据解压缩,537b中的 DCT1,537d中的反相LPC及反相TCX感官加权(共同表示反相加权),537c中的TDA—1处理 及然后440b中的重叠及加法。虽言如此,当忽略与模块99连接的箭头时,帧的其余部分在540中的TDAC及反相 滤波/加权之前被馈至窗口化级,如就图6所讨论且如图IOA的正常信号流程图指示。有鉴于此,步骤99c获得TDAC 440b后混叠部的已解码音频信号;步骤99d获得 TDAC 537c的LPC域及模块MO的反相加权后的剩余部分/另一部的已解码音频信号。依据某些实施要求而定,本发明的实施例可以以硬件或软件实施。该实施例可使 用数字存储媒体,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM、或闪存进行,这些数字存储 媒体有电可读控制信号储存于其上,与可变成计算机系统协力合作(或可协力合作)而进 行各种方法。根据本发明的若干实施例包含具有电可读控制信号的数据载体,这些控制信号可 与可变成计算机系统协力合作,而执行如此处所述的方法之一。大致上,本发明的实施例可实施为带有程序代码的计算机程序产品,当该计算机 程序产品在计算机上运转时,该程序代码可操作用以执行这些方法之一。程序代码例如可 储存于机器可读取载体上。其它实施例包含储存于机器可读取载体上的用于执行此处所述方法之一的计算 机程序。
换言之,因此本发明的实施例为一种计算机程序,具有一程序代码,当该计算机程 序于计算机上运转时,用于执行此处所述的方法之一。因此本发明的又一实施例为一种数据载体(或数字存储媒体或计算机可读取媒 体),包含记录于其上的用于执行此处所述方法之一的计算机程序。因此本发明的又一实施例为一种表示该计算机程序的数据流或信号序列,用于执 行此处所述方法之一。该数据流或信号序列例如可配置成通过数据通信连接(例如因特 网)传送。又一实施例包含一种处理装置,例如计算机或可变成逻辑装置,其被配置成或适 合执行此处所述方法之一。又一实施例包含一种计算机,其上安装用于执行此处所述方法之一的计算机程序。在若干实施例中,可变成逻辑装置(例如现场可编程栅极阵列)可用于执行部分 或全部此处所述的方法功能。在若干实施例中,现场可编程栅极阵列可与微处理器协力合 作来执行此处所述方法之一。前文说明的实施例仅供举例说明本发明的原理。须了解,本领域技术人员显然易 知前文说明的配置及细节的修改及变化。因此本发明的范围仅受随附的权利要求所限,而 非受此处实施例的说明及解释表示的特定细节所限。
权利要求
1.一种用于编码音频信号的装置,包含用于使用分析窗口将该音频信号的第一块窗口化的窗口化器(12),该分析窗口具有混 叠部(Lk, Rk)及另一部(Mk);处理器(12),用于通过在窗口化该音频信号的第一子块00)之后将该音频信号的第 一子块变换至与该音频信号所在的域不同的域来处理与混叠部相关联的该音频信号的第 一子块,以获得已处理的第一子块;及用于通过在窗口化第二子块(21)之前将第二子块变 换至所述不同的域来处理与该另一部相关联的该音频信号的第二子块而获得已处理的第 二子块;及变换器(13),用于使用相同块变换规则,将该已处理的第一子块及该已处理的第二子 块由所述不同的域变换至另一域而获得已变换的第一块,其中该装置被配置用于使用数据压缩算法进一步处理(14)该已变换的第一块。
2.如权利要求1所述的装置,其被配置成使用第二分析窗口(7 处理该音频信号的与 第一块重叠的第二块,所述第二分析窗口具有与该第一分析窗口的混叠部(72b)相对应的 混叠部(73b)。
3.如权利要求1或2所述的装置,其中该音频信号所在的域为时域;所述不同的域为 LPC域;与该音频信号的第一块重叠的该音频信号的第二块所编码的第三域为频域;以及 该变换器(1 被配置用于进行变换的所述另一域为LPC频域,及其中该处理器(1 包含用于由第一域变换至第二域的LPC滤波器;或其中该变换器 (13)包含用于将输入数据变换至该输入数据的频域的基于傅立叶的变换算法,诸如DCT、 DST、FFT、或 DFT。
4.如前述权利要求中任一项所述的装置,其中该窗口化器(11)包含用于将输入值折 叠而获得输出值的折叠函数(8 ,输出值的数目小于输入值的数目,其中该折叠函数将时 间混叠引入输出值。
5.如前述权利要求中任一项所述的装置,其中该窗口化器(11)操作用于执行窗口化 来获得用于随后执行的折叠函数(8 的输入值。
6.如前述权利要求中任一项所述的装置,其中该装置包含用于在频域编码音频信号的 第一编码分支G00),及用于基于不同频域编码音频信号的第二编码分支(500),其中该第二编码分支具有用于在另一频域编码该音频信号的第一子分支(527,5 ), 及用于在另一域编码该音频信号的第二子分支(5 );该装置进一步包含判定级(300),用 于判定音频数据块是使用该第一编码分支还是该第二编码分支的第一子分支或第二子分 支所产生的数据而呈现于输出比特流,及其中该控制器(98)被配置成用于控制判定级(300)以在进行由第一编码分支转换至 第二编码分支或由第二编码分支转换至第一编码分支时判定有利于该第一子分支。
7.如前述权利要求中任一项所述的装置,其中该另一部包含非混叠部(Mk)及附加混叠 部或与该音频信号的邻近块的相对应混叠部重叠的混叠部。
8.一种用于解码具有已编码第一音频数据块的已编码音频信号的装置,该已编码块具 有混叠部及另一部,该装置包含处理器(51),用于通过在执行合成窗口化(88)之前将该混叠部变换(86)至目标域, 处理该混叠部(Lk,Rk),来获得已窗口化的混叠部,以及用于在执行变换(98)至该目标域之前,执行该另一部的合成窗口化(88);及时域混叠抵消器(53),用于在将该音频数据的已编码第一块的混叠部变换(91)至目 标域之后,将该已窗口化混叠部与音频数据的已编码第二块的已窗口化混叠部组合,以获 得与该第一块的混叠部相对应的已解码音频信号。
9.如权利要求8所述的装置,其中该处理器(51)包含用于将该混叠部由第四域变换至 第二域的变换器(86);及该处理器进一步包含用于将呈现于第二域的混叠部变换至第一 域的变换器(91),其中该变换器(86)操作用于执行基于块的频率时间变换算法。
10.如权利要求8或9所述的装置,其中该处理器(12)操作用于执行展开操作(87), 以用于获得具有大于输入该展开操作(87)的输入值数目的数值数目的输出数据。
11.如权利要求8、9或10中任一项所述的装置,其中该处理器(12)操作用于使用合成 窗口化函数(88),该合成窗口化函数(88)与在产生该已编码音频信号时所使用的分析窗 口函数相关。
12.如前述权利要求8至11中任一项所述的装置,其中该已编码音频信号包含编码模 式指示符,指示用于该已编码第一块及该已编码第二块的编码模式,其中该装置进一步包含转换控制器(99),用于当该编码模式指示符指示编码模式时, 控制该处理器(1 由第一编码模式改变成不同的第二编码模式,或反之亦然;以及当未以 信号通知两个编码块间的编码模式改变时,用于控制该处理器(1 针对整个编码块执行 相同操作。
13.如前述权利要求8至12中任一项所述的装置,其中第一编码模式及第二编码模式 包含熵解码级、解量化级、包含展开操作的频率-时间变换级、及合成窗口化级,其中该时域混叠抵消器(53)包含加法器(89a),用于将由该合成窗口化级(88)所得的 已编码块的相对应混叠部相加,这些相对应混叠部是通过该音频信号的重叠处理(89b)获 得的,及其中在该第一编码模式中,该时域混叠抵消器(5 被配置用来将由合成窗口化所得 的各块部分相加而获得目标域的已解码信号,作为该加法(89a)的输出,及其中在该第二编码模式中,该加法(89a)的输出由该处理器(1 处理,以执行该加法 的输出变换(91)至该目标域。
14.一种包含音频信号的已编码第一块及该音频信号的重叠的已编码第二块的已编码 音频信号,该音频信号的已编码第一块包含混叠部及另一部,该混叠部在窗口化(80)该混 叠部之后已经由第一域变换至第二域,并且该另一部在窗口化(80)该第二子块之前已经 由该第一域变换至第二域,其中该第二子块已经使用相同块变换规则变换至第四域,及其中已经通过将音频采样的重叠块窗口化(80)及通过将已窗口化块变换至第三域, 产生了已编码第二块,其中该已编码第二块具有与音频采样的已编码第一块的混叠部相对 应的混叠部。
15.一种编码音频信号的方法,包含使用分析窗口将该音频信号的第一块窗口化(11),该分析窗口具有混叠部(Lk,Rk)及 另一部(Mk);经由将该音频信号的第一子块00)变换至与该域不同的域来处理(1 与混叠部相关 联的该音频信号的该第一子块,其中该音频信号在窗口化第一子块之后获得已处理的第一子块;通过在窗口化第二子块之前,将该第二子块变换至不同域,来处理与该另一部相 关联的该音频信号的第二子块,获得已处理的第二子块;使用相同块变换规则,将该已处理的第一子块及该已处理的第二子块由所述不同的域 变换(1 至另一域来获得已变换的第一块;及使用数据压缩算法,进一步处理(14)该已变换的第一块。
16.一种解码具有音频数据的已编码第一块的已编码音频信号的方法,该已编码块具 有混叠部及另一部,该方法包含通过在执行合成窗口化(88)之前,将该混叠部(Lk,&)变换(86)至目标域,处理(51) 该混叠部来获得已窗口化混叠部;在变换(98)至该目标域之前,对该另一部进行合成窗口化(88);及 在该音频数据的已编码第一块的混叠部变换(91)至目标域之后,组合(5 该已窗口 化混叠部与该音频数据的已编码第二块的已窗口化混叠部来获得时域混叠抵消,而获得与 该第一块的混叠部相对应的已解码音频信号。
17.一种计算机程序,具有程序代码,用于当在计算机上运行时,执行如权利要求15所 述的编码方法或如权利要求16所述的解码方法。
全文摘要
一种用于编码音频信号的装置,包含窗口化器(11),用于使用具有混叠部及另一部的分析窗口来窗口化该音频信号的第一块。该装置进一步包含处理器(12),用于通过将该第一子块窗口化之后,将该子块由一域变换至一不同域来处理与该混叠部相关联的该音频信号的第一子块而获得已处理的第一子块;以及用于通过在窗口化该第二子块之前,将该第二子块由该域变换至该不同域来处理与该另一部相关联的该音频信号的第二子块而获得已处理的第二子块。此外,该装置包含变换器,用于使用相同块变换规则,将该已处理的第一子块及该已处理的第二子块由该不同域变换至又一个不同域来获得已变换的第一块,然后该块可使用众所周知的数据压缩算法中的任一者压缩。如此,由于出现在不同域的混叠部彼此匹配,故可获得两种编码模式间的临界采样的切换。
文档编号G10L19/04GK102089812SQ200980127114
公开日2011年6月8日 申请日期2009年6月17日 优先权日2008年7月11日
发明者延斯·希斯费尔德, 拉尔夫·盖格尔, 斯特凡·拜尔, 杰拉尔德·舒勒, 热雷米·勒康特, 纪尧姆·福克斯, 马库斯·马特拉斯 申请人:弗劳恩霍夫应用研究促进协会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1