具有级联开关的低比特率音频编码/解码方案的制作方法

文档序号:2823155阅读:204来源:国知局
专利名称:具有级联开关的低比特率音频编码/解码方案的制作方法
技术领域
本发明涉及音频编码领域,特别地,涉及低比特率音频编码方案。
背景技术
在本领域中,频域编码方案如MP3或AAC是已知的。这些频域编码器基于时域/ 频域变换、随后的量化阶段和编码阶段,在量化阶段中采用来自心理声学模块的信息控制 量化误差,在编码阶段中采用编码表对量化的频谱系数及对应的边信息进行熵编码。另一方面,有些编码器非常适合用于语音处理,例如,在3GPP TS沈.290中描述的 AMR-WB+。这种语音编码方案进行时域信号的线性预测滤波。这种线性预测滤波来自于输 入的时域信号的线性预测分析。然后,对生成的线性预测滤波系数进行量化/编码并将其 作为边信息传输。这个过程称作线性预测编码(LPC)。在滤波器的输出端,采用ACELP编码 器的整合分析阶段对预测残余信号或预测误差信号进行编码,其中预测误差信号也称作激 励信号,或者,可替换地,采用变换编码器对预测残余信号或预测误差信号进行编码,变换 编码器采用具有重叠的傅立叶变换。采用闭环算法或开环算法决定进行ACELP编码或变换 编码的激励编码,其中变换编码的激励编码也称作TCX编码。频域音频编码方案,例如高效AAC编码方案,其将AAC编码方案和谱带复制技术结 合,也可与联合立体声或多声道编码工具结合,多声道编码工具已知属于“MPEG环绕”条款。另一方面,语音编码器如AMR-WB+也具有高频加强阶段和立体声功能。频域编码方案的优点是,它们在低比特率展示高质量的音乐信号。但是,问题是在 低比特率的语音信号的质量。即使在低比特率语音编码方案也能够展示高质量的语音信号,但是在低比特率对 音乐信号的展示质量不佳。

发明内容
本发明的目的是提供一种改进的编码/解码思想。上述目的可通过如权利要求1所述的音频编码器、如权利要求15所述的音频编码 方法、如权利要求16所述的解码器、如权利要求23所述的解码方法、如权利要求M所述的 已编码信号或如权利要求25所述的计算机程序实现。本发明的一个方面是一种用于编码音频输入信号的音频编码器,所述音频输入信 号在第一域中,所述音频编码器包括第一编码分支,用于采用第一编码算法编码音频信号 以获得第一已编码信号;第二编码分支,用于采用第二编码算法编码音频信号以获得第二 已编码信号,其中所述第一编码算法与所述第二编码算法不同;以及第一开关,用于在所 述第一编码分支和所述第二编码分支之间切换,以便对于所述音频输入信号的一部分,所 述第一已编码信号或所述第二已编码信号在编码器输出信号中,其中所述第二编码分支包 括用于将所述音频信号变换至与所述第一域不同的第二域中的变换器;第一处理分支, 用于处理所述第二域中的音频信号以获得第一处理信号;第二处理分支,用于将信号变换至与所述第一域和所述第二域不同的第三域中,并用于处理所述第三域中的所述信号以获 得第二处理信号;和第二开关,用于在所述第一处理分支和所述第二处理分支之间切换,以 便对于输入所述第二编码分支的音频信号的一部分,所述第一处理信号或所述第二处理信 号在所述第二已编码信号中。另一个方面是一种用于解码已编码音频信号的解码器,所述已编码音频信号包括 第一已编码信号、第二域中的第一处理信号以及第三域中的第二处理信号,其中所述第一 已编码信号、所述第一处理信号以及所述第二处理信号与所述已解码音频信号的不同时间 部分有关,且其中所述第一域、所述第二域和所述第三域彼此不同,所述解码器包括第一 解码分支,用于根据所述第一编码算法解码所述第一已编码信号;第二解码分支,用于解码 所述第一处理信号或所述第二处理信号,其中所述第二解码分支包括第一反相处理分支, 用于反相处理所述第一处理信号以获得在所述第二域中的第一反相处理信号;第二反相处 理分支,用于反相处理所述第二处理信号以获得在所述第二域中的第二反相处理信号;第 一组合器,用于组合所述第一反相处理信号和所述第二反相处理信号以获得在所述第二域 中的组合信号;和用于将所述组合信号变换至所述第一域中的变换器;以及第二组合器, 用于组合所述第一域中的变换信号和通过所述第一解码分支输出的第一解码信号以获得 在所述第一域中的已解码输出信号。在本发明的一个优选实施例中,两个开关设置为顺序连接,其中第一开关在采用 频域编码器在频谱域编码和在LPC域编码之间做出判定,也就是,在采用频域编码器在频 谱域编码和在LPC分析阶段的输出端处理信号之间做出判定。所述第二开关被设置为在 LPC域切换,以便在所述LPC域编码所述LPC域信号,例如采用ACELP编码器,或者在LPC频 谱域编码所述LPC域信号,其需要用于将所述LPC域信号变换至与频谱域不同的LPC频谱 域的变换器,因为所述LPC频谱域为显示LPC滤波信号的频谱而不是所述时域信号的频谱。所述第一开关在两个处理分支之间做判定,其中一个分支主要通过汇集模型和/ 或心理声学模型激励,也就是,通过听觉遮蔽激励;而另一个分支主要通过来源模型和通过 分段SNR计算激励。例如,一个分支具有频域编码器,而另一个分支具有基于LPC的编码器 如语音编码器。来源模型通常处理语音,因此通常采用LPC。所述第二开关再一次在两个处理分支之间做判定,但是是在与所述“外部的”第一 分支域不同的域中。再一次,一个“内部的”分支主要通过来源模型或者通过SNR计算激励, 而另一个“内部的”分支可通过汇集模型和/或心理声学模型激励,也就是,通过遮蔽或至 少包括频域/频谱域编码的方面激励。举例来说,一个“内部的”分支具有频域编码器/频 谱变换器;而另一个分支具有在另一个域如所述LPC域编码的编码器,其中这个编码器例 如为处理输入信号而无频谱变换的CELP或ACELP量化器/定标器。又一个优选的实施例为一种音频编码器,包括第一信息汇集导向的编码分支, 如频谱域编码分支;第二信息来源或SNR导向的编码分支,如LPC域编码分支;以及开关, 用于在所述第一编码分支和所述第二编码分支之间切换,其中所述第二编码分支包括变换 器,变换至与所述时域不同的特定域,例如产生激励信号的LPC分析阶段,并且其中所述第 二编码分支还包括特定域编码分支,如LPC域处理分支;特定频谱域编码分支,如LPC频 谱域处理分支;以及额外的开关,用于在所述特定域编码分支和所述特定频谱域编码分支 之间切换。
7
本发明的又一个实施例为一种音频解码器,包括第一域解码分支,如频谱域解码 分支;第二域解码分支,如LPC域解码分支,用于在所述第二域中解码信号如激励信号;以 及第三域解码分支,如LPC频谱解码器,用于在第三域如LPC频谱域中解码信号如激励信 号,其中所述第三域为通过进行从所述第二域的频率变换而获得的,其中设置用于所述第 二域信号和所述第三域信号的第一开关,并且设置用于在所述第一域解码器与用于所述第 二域或所述第三域的解码器之间切换的第二开关。


下面结合附图描述本发明的优选实施例,其中图Ia为根据本发明的第一方面的编码方案的模块图;图Ib为根据本发明的第一方面的解码方案的模块图;图Ic为根据本发明的又一方面的编码方案的模块图;图加为根据本发明的第二方面的编码方案的模块图;图2b为根据本发明的第二方面的解码方案的示意图;图2c为根据本发明的又一方面的编码方案的模块图;图3a示出根据本发明的又一方面的编码方案的模块图;图北示出根据本发明的又一方面的解码方案的模块图;图3c示出具有级联开关的编码装置/方法的示意图;图3d示出用于解码的装置或方法的示意图,其中采用级联组合器;图!Be示出时域信号的示意图和已编码信号的相对应的代表图,该代表图示出包 含在两个已编码信号中的短交叉衰减区;图如示出具有设置在编码分支前的开关的模块图;图4b示出具有设置在编码分支后的开关的编码方案的模块图;图如示出优选的组合器实施例的模块图;图fe示出作为准周期或脉冲状信号段的时域语音段的波形图;图恥示出图fe的段的频谱;图5c示出作为噪声状段的例子的无声语音的时域语音段;图5d示出图5c的时域波形的频谱;图6示出通过合成CELP编码器进行分析的模块图;图7a至7d示出作为脉冲状信号的例子的有声/无声激励信号;图7e示出提供短期预测信息和预测误差(激励)信号的编码器端LPC阶段;图7f示出用于产生加权信号的LPC装置的又一个实施例;图7g示出用于如图2b的变换器537所要求的,通过应用反相加权操作及随后的 激励分析将加权信号变换成激励信号的实例;图8示出根据本发明的实施例的联合多声道算法的模块图;图9示出带宽扩展算法的优选实施例;图IOa示出当进行开环决策时的开关的详细说明;以及图IOb示出当工作在闭环决策模式时的开关的示例说明。
8
具体实施例方式图Ia示出具有两个级联开关的本发明的实施例。将单声信号、立体声信号或多声 道信号输入开关200。开关200由决策阶段300进行控制。决策阶段接收输入至块200的 信号作为输入信号。或者,决策阶段300也可接收边信息,该边信息包含在单声信号、立体 声信号或多声道信号中,或者至少与其中存在有这样的信息的信号相关,例如,所述这样的 信息是当最初产生单声信号、立体声信号或多声道信号时所产生的信息。决策阶段300启动开关200,以便将信号输入在图Ia的上部分支所示出的频率编 码部分400,或者将信号输入在图Ia的下部分支所示出的LPC域编码部分500。频域编码 分支的关键元件为频谱变换块410,其用于将共用的预处理阶段的输出信号(后面详细描 述)变换至频谱域。频谱变换块可包括MDCT算法、QMF、FFT算法、小波分析或滤波器组,例 如具有一定数量的滤波器组声道的临界采样滤波器组,其中滤波器组中的子带信号可为实 数值信号或复数值信号。采用频谱音频编码器421对频谱变换块410的输出进行编码,频 谱音频编码器421可包括多个处理块,如由AAC编码方案所知。通常,分支400中的处理为感知基础模型或信息汇集模型(information sink model)中的处理。因此,分支400将人接收声音的听觉系统模型化。相反地,分支500中的 处理为产生激励信号、残余信号或LPC域信号。通常,分支500中的处理为语音模型或信息 产生模型中的处理。对于语音信号,这个模型为产生声音的人类语音/声音产生系统的模 型。但是,由于需要编码来自不同的来源的声音,且不同的来源要求不同的声音产生模型, 因此分支500中的处理可能不同。在下部的编码分支500中,关键元件为LPC装置510,其输出用于控制LPC滤波器 的特性的LPC信息。这个LPC信息被传输至解码器。LPC阶段510的输出信号为包含激励 信号和/或加权信号的LPC域信号。LPC装置通常输出LPC域信号,LPC域信号可为LPC域中的任何信号,例如图7e中 的激励信号或图7f中的加权信号或通过将LPC滤波系数应用至音频信号所产生的任何其 它信号。此外,LPC装置也可确定这些系数,并且也可量化/编码这些系数。决策阶段的决策可以是信号自适应的,以便决策阶段进行音乐/语音鉴别,并控 制开关200以便音乐信号输入上部分支400中,而语音信号输入下部分支500中。在一个 实施例中,决策阶段将其决策信息输入输出比特流中,以便解码器可采用这个决策信息来 进行正确的解码操作。在图Ib中示出了这类解码器。由频谱音频编码器421输出的信号经传输后输入 到频谱音频解码器431。将频谱音频解码器431的输出输入到时域变换器440。类似地,图 Ia的LPC域编码分支500的输出信号被解码器侧接收到,并通过元件531、533、534及532 进行处理以获得LPC激励信号。将LPC激励信号输入LPC合成阶段M0,LPC合成阶段540 还接收由相应的LPC分析阶段510产生的LPC信息作为又一个输入。时域变换器440的输 出和/或LPC合成阶段540的输出被输入开关600。通过开关控制信号控制开关600,例如 开关控制信号通过决策阶段300产生,或者由外部提供,例如由产生原始单声信号、立体声 信号或多声道信号的产生器提供。开关600的输出为完全单声信号、立体声信号或多声道 信号。输入开关200和决策阶段300的输入信号可为单声信号、立体声信号、多声道信号策,开关在频率编码分支400与LPC编码分支500之间切换,这些 决策可从开关200的输入信号得到或从任何外部来源得到,例如外部来源为原始音频信号 的产生器,原始音频信号在输入阶段200的信号之下。频率编码分支400包括频谱变换阶 段410及随后连接的量化/编码阶段421。量化/编码阶段可包括现代频率编码器,如AAC 编码器,已知的任一种功能。此外,量化/编码阶段421中的量化操作可通过心理声学模块 控制,心理声学模块产生输入至阶段421的心理声学信息,例如心理声学频率掩蔽阈值。在LPC编码分支中,通过LPC分析阶段510处理开关的输出信号,LPC分析阶段510 产生LPC边信息和LPC域信号。创新地,激励编码器包括额外的开关,该额外的开关用于在 LPC域中的量化/编码操作522或在LPC频谱域中处理数值的量化/编码阶段5M之间切 换LPC域信号的进一步处理。为此,在量化/编码阶段524的输入端设置频谱变换器523。 根据具体设定,例如AMR-WB+技术说明书中的描述,以开环方式或闭环方式控制开关521。对于闭环控制模式,编码器额外包括用于LPC域信号的反相量化/编码器531、 用于LPC频谱域信号的反相量化/编码器533以及用于标号533的输出的反相频谱变换器 534。第二编码分支的处理分支中编码的信号和再解码的信号都输入开关控制装置525。在 开关控制装置525中,这两个输出信号彼此比较和/或与目标函数比较,或者可基于两个信 号的失真的比较计算目标函数,以便采用具有较低失真的信号判定开关521应处的位置。 或者,如果两个分支都提供非恒定的比特率,则可选用提供较低比特率的分支,即使该分支 的信噪比低于另一分支的信噪比。或者,目标函数可采用各个信号的信噪比、各个信号的比 特率和/或额外标准作为输入信号,以便找出特定目标的最佳决策。例如,如果目标为以便 比特率尽可能的低,则目标函数应高度地依赖于通过元件531、534输出的两个信号的比特 率。但是,当主要目标为对某个比特率具有最佳性能时,开关控制装置525可丢弃每个高于 允许比特率的信号,且当两个信号都低于允许比特率时,开关控制装置将选择具有较佳信 噪比的信号,即,具有较小的量化/编码失真的信号。如上所示,图Ib示出了根据本发明的解码方案。对于三种可能的输出信号种类的 每一个,存在特定的解码/再量化阶段431、531或533。当阶段431输出采用频率/时间变 换器440变换至时域的时谱时,阶段531输出LPC域信号,标号533输出LPC频谱。为了确 保输入至开关532的输入信号都在LPC域中,设置LPC频谱/LPC变换器534。采用LPC合 成阶段540将开关532的输出数据变换回时域,通过编码器侧产生和传输的LPC信息控制 LPC合成阶段M0。然后,在块540之后,两个分支都具有时域信息,根据开关控制信号对该 时域信息进行切换,以便根据输入图Ia的编码方案的信号最终获得音频信号,例如单声信 号、立体声信号或多声道信号。图Ic示出了具有与图4b的原理相似的开关521的不同配置的又一个实施例。图加示出了根据本发明的第二方面的优选编码方案。连接至开关200输入端的 共用预处理方案可包括环绕/联合立体声块101,其产生联合立体声参数和单声输出信号 作为输出,单声输出信号通过降混具有两个或多个声道的输入信号而产生。通常,在块101 的输出端的信号也可为具有多个声道的信号,但是由于块101的降混功能,在块101的输出 端的声道的数目小于输入至块101的声道的数目。共用预处理方案可包括块101的替换选择或者除块101外的附加的带宽扩展阶 段102。在图加的实施例中,块101的输出被输入到带宽扩展阶段102中,在图加的编码
10器中,带宽扩展阶段102在其输出端输出有限带宽信号如低频带信号或低通信号。优选地, 这个信号也被降采样(例如,通过因子2)。此外,对于输入至块102中的高频带信号,如从 MPEG-4的HE-AAC简介所知,产生带宽扩展参数,例如频谱包络参数、反相滤波参数、本征噪 声参数等,并前传至比特流多路复用器800。优选地,决策阶段300接收输入至块101或输入至块102的信号,以便进行决策, 例如在音乐模式或语音模式之间进行决策。在音乐模式中,选用上部编码分支400 ;而在语 音模式中选用下部编码分支500。优选地,决策阶段还控制联合立体声块101和/或带宽扩 展块102,从而调整这些块的功能以适应特定信号。因此,当决策阶段确定输入信号的某个 时间部分属于第一模式如音乐模式时,则可通过决策阶段300控制块101和/或块102的 具体特征。或者,当决策阶段300确定信号在语音模式中,或者通常地,在第二 LPC域模式 中时,则可根据决策阶段的输出控制块101和块102的具体特征。优选地,采用MDCT操作进行编码分支400的频谱变换,更优选地,MDCT操作为时 间翘曲(time-warped)的MDCT操作,其中强度或通常为翘曲强度可被控制在零和高翘曲强 度之间。在零翘曲强度中,块411的MDCT操作为本领域所熟知的直通MDCT操作。时间翘 曲强度连同时间翘曲边信息一起可传输至/输入到比特流多路复用器800,作为边信息。在LPC编码分支中,LPC域编码器可包括ACELP核心526,ACELP核心5 计算音 高增益、音高延迟和/或码本信息如码本索引和增益。如从3GPP TS沈.290所知,TCX模 式引发变换域中的感知加权信号的处理。采用带有噪声因子量化的分裂多速率网格量化 (代数的VQ)对傅立叶变换的加权信号进行量化。在10M、512或256的采样窗口中计算变 换。通过反相加权滤波器对量化的加权信号进行反相滤波以恢复激励信号。在第一编码分 支400中,频谱变换器优选地包括在量化/熵编码阶段之前的特别调适的MDCT操作,该特 别调适的MDCT操作具有特定窗口功能,该量化/熵编码阶段可包括单一向量量化阶段,但 优选为类似于频域编码分支中的量化器/编码器(即图加的标号421)的组合式定标量化 器/熵编码器。在第二编码分支中,在LPC块510后接着为开关521,再接着为ACELP块5 或TCX ^ 527ο 在 3GPPTS 洸.190 中描述了 ACELP,在 3GPPTS 洸.290 中描述了 TCX。通常,ACELP 块5 接收通过如图7e描述的程序计算的LPC激励信号。TCX块527接收如通过图7f产 生的加权信号。在TCX中,将变换应用于通过基于LPC的加权滤波器对输入信号进行滤波以计算 得到的加权信号。本发明的优选实施例采用的加权滤波器以(1-Α(Ζ/γ))/(1-μΖ-1)给 出。因此,加权信号为LPC域信号,而它的变换为LPC频谱域。通过ACELP块526处理的信 号为激励信号,且与通过块527处理的信号不同,但是两个信号都在LPC域中。在图2b示出的解码器侧,在块537中的反相频谱变换后,应用加权滤波器的反相, ^,(I-UZ1)Z(I-A(ZZY))0然后,通过(l-A(z))对信号进行滤波,以进入LPC激励域。因
/1 —1 \
此,反相LPC域块534和TCr1块537包括反相变换和随后的通过(1 Ι^ζ/γ)(1 一^z))的滤 波以从加权域变换至激励域。虽然图la、图1(、图加和图2c的标号510示例为单一的块,但是块510可输出不同信号,只要这些信号在LPC域中即可。块510的实际模式,如激励信号模式或加权信号模 式,可取决于实际开关状态。或者,块510可具有两个并行的处理装置,其中一个装置类似 于图7e的实施,另一个装置如同图7f的实施。因此,在510的输出端的LPC域可表示LPC 激励信号或LPC加权信号或任何其它的LPC域信号。在图加或图2c的第二编码分支(ACELP/TCX)中,优选地,在编码之前,通过滤波 器1-0. 68Z—1对信号进行预增强。在图2b中的ACELP/TCX解码器,通过滤波器1/ (1-0. 68广) 对合成信号解除增强。预增强可为LPC块510中的部分,其中在LPC分析及量化前预增强 信号。类似地,解除增强可为LPC合成块LPC-1S^的部分。图2c示出了用于图加的实施方式的又一个实施例,但具有与类似于图4b的原理 的开关521的不同配置。在优选实施例中,通过开环决策(如图如中所示)控制第一开关200(参考图Ia 或图加),并通过闭环决策(如图4b中所示)控制第二开关。例如,图2c具有设置在如图4b中的ACELP分支和TCX分支之后的第二开关。接 着,在第一处理分支中,第一 LPC域表示LPC激励信号,在第二处理分支中,第二 LPC域表示 LPC加权信号。S卩,通过(l-A(z))的滤波而变换至LPC残余域以获得第一 LPC域信号,通过 滤波器a-Ab/YD/a-yz—1)的滤波器而变换至LPC加权域以获得第二 LPC域信号。图2b示出了与图加的编码方案相对应的解码方案。由图加的比特流多路复用 器800所产生的比特流输入至比特流多路解复用器900中。通过模式检测块601根据例如 从比特流获得的信息,控制解码器侧的开关600将来自上部分支的信号或来自下部分支的 信号前传至带宽扩展块701。带宽扩展块701接收来自比特流多路解复用器900的边信息, 并基于该边信息和模式决策块601的输出基于开关600输出的低频带重建高频带。 将通过块701产生的全频带信号输入至联合立体声/环绕处理阶段702,联合立体 声/环绕处理阶段702重建两个立体声声道或几个多声道。通常,块702将输出比输入这 个块的声道更多的声道。根据应用,至块702的输入甚至可包括在例如立体声模式中的两 个声道,并且甚至可包括更多个声道,只要通过这个块的输出具有比输入至这个块的输入 信号更多的声道即可。已经示出了开关200在两个分支之间的切换,以便只有一个分支接收欲处理信 号,而另一个分支不接收欲处理信号。但是,在替换实施例中,开关也可设置在例如音频编 码器421及激励编码器522、523、5M之后,这意味着,两个分支400、500并行处理同样的信 号。但是,为了不加倍比特率,仅仅选择编码分支400或500中的一个输出的信号写入输出 比特流。随后将进行决策阶段,从而以便写入比特流的信号将某些代价函数减至最少,其中 代价函数可为产生的比特率或产生的感知失真或组合的比特率/失真代价函数。因此,在 这个模式中或者在附图示出的模式中,决策阶段也可工作在闭环模式,以便保证最终只有 这样的编码分支的输出被写入比特流,这样的编码分支的输出对于给定感知失真而言具有 最低的比特率,或者对于给定比特率而言具有最低的感知失真。在闭环模式中,可从图Ia 中的三个量化器/定标器块421、522和424的输出中获得反馈输入。在具有两个开关,即第一开关200和第二开关521的实例中,优选地,第一开关的 时间分辨率低于第二开关的时间分辨率。换句话说,输入信号至第一开关的块比通过第二 开关切换的块更大,其中第一开关可通过切换操作而切换,第二开关在LPC域中操作。举例来说,频域/LPC域开关200可切换IOM个采样长度的块,而第二开关521可切换各自具有 256个采样的块。虽然图Ia至图IOb的一些作为装置的模块图示出,但是这些附图同时也是方法的 示例说明,其中块的功能相当于方法步骤。图3a示出了用于产生已编码音频信号的音频编码器,编码的音频信号作为第一 编码分支400和第二编码分支500的输出。此外,已编码音频信号优选地包括边信息,例如 来自共用预处理阶段的预处理参数,或者如结合上述的图所讨论的开关控制信息。优选地,进行第一编码分支以便根据第一编码算法对音频中间信号195进行编 码,其中第一编码算法具有信息汇集模型。第一编码分支400产生第一编码器输出信号,其 为音频中间信号195的编码频谱信息表示。此外,第二编码分支500用于根据第二编码算法对音频中间信号195进行编码,第 二编码算法具有信息来源模型,并且在第二编码器输出信号中产生用于表示中间音频信号 的信息来源模型的编码参数。音频编码器还包括共用预处理阶段,用于预处理音频输入信号99以获得音频中 间信号195。特别地,操作共用预处理阶段来处理音频输入信号99,以便音频中间信号195, 即共用预处理算法的输出,为音频输入信号的压缩版本。—种用于产生已编码音频信号的优选音频编码方法包括步骤400,根据第一编 码算法编码音频中间信号195,其中第一编码算法具有信息汇集模型,并且在第一输出信 号中产生表示音频信号的编码频谱信息;步骤500,根据第二编码算法编码音频中间信号 195,其中第二编码算法具有信息来源模型,并且在第二输出信号中产生用于表示音频中间 信号195的信息来源模型的编码参数;以及步骤100,共用地预处理音频输入信号99以获 得音频中间信号195,其中,在共用预处理的步骤中,音频输入信号99被处理为以便音频中 间信号195为音频输入信号99的压缩版本,其中对于特定部分的音频信号,已编码音频信 号包括第一输出信号或第二输出信号。该方法优选地包括另一个步骤,采用第一编码算法 或者采用第二编码算法对音频中间信号的某个部分进行编码,或者均采用两种算法已编码 信号,并且在已编码信号中输出第一编码算法的结果或第二编码算法的结果。通常,在第一编码分支400中采用的音频编码算法反映且模型化音频汇集中的情 况。音频信息的汇集点通常为人耳。可将人耳可模型化为频率分析器。因此,第一编码分 支输出已编码频谱信息。优选地,第一编码分支还包括心理声学模型,用于额外地应用心理 声学遮蔽阈值。当量化音频频谱值时,采用该心理声学遮蔽阈值,其中,优选地,进行量化从 而通过量化音频频谱值引入量化噪声,音频频谱值隐藏在心理声学遮蔽阈值之下。第二编码分支表示音频来源模型,音频来源模型反映音频声音的产生。因此,信息 来源模型可包括通过LPC分析阶段反映出的语音模型,即通过将时域信号变换至LPC域并 通过随后处理LPC残余信号反应,即激励信号。但是,替换的声音来源模型为用于表示某个 仪器或任何其它声音产生器如存在于现实世界的特定声音来源的声音来源模型。当几个声 音来源模型都有效时,可进行不同声音来源模型之间的选择,例如基于SNR计算进行选择, 即基于哪一个声音来源模型是最适用于编码音频信号的某个时间部分和/或频率部分的 计算进行选择。但是,优选地,在时域中进行编码分支之间的切换,即采用一种模型编码某 个时间部分,而采用另一个编码分支编码中间信号的某个不同的时间部分。
13
通过特定参数表示信息来源模型。关于语音模型,当考虑到现代语音编码器如 AMR-WB+时,参数为LPC参数和编码激励参数。AMR-WB+包括ACELP编码器及TCX编码器。 在这种情况下,编码激励参数可为通用增益码、噪声下限码及可变长度码。图北示出与图3a中所示的编码器相对应的解码器。通常,图北示出用于解码已 编码的音频信号以获得解码音频信号799的音频解码器。该解码器包括第一解码分支450, 用于对根据具有信息汇集模型的第一编码算法编码的已编码信号进行解码。音频解码器还 包括第二解码分支阳0,用于对根据具有信息来源模型的第二编码算法编码的编码信息信 号进行解码。音频解码器还包括组合器,用于组合来自第一解码分支450和第二解码分支 550的输出信号以获得组合信号。将图北中示出的作为解码音频中间信号699的组合信号 输入用于后处理解码音频中间信号699的共用后处理阶段,解码音频中间信号699为通过 组合器600输出的组合信号,从而共用预处理阶段的输出信号为组合信号的扩展版本。因 此,相比于解码音频中间信号699,解码音频信号799具有增强的信息内容。通过借助于预 处理/后处理参数的共用后处理阶段提供信息扩展,其中预处理/后处理参数可从编码器 传输至解码器,或者可从解码音频中间信号本身获得。但是,优选地,预处理/后处理参数 从编码器传输至解码器,因为这个过程允许解码音频信号的性能改进。图3c示出用于编码音频输入信号195的音频编码器,其中音频输入信号195可等 于根据本发明的优选实施例的图3a的中间音频信号195。音频输入信号195存在于第一域 中,第一域可例如为时域,但也可为任何其它域如频域、LPC域、LPC频谱域或任何其它域。 通常,通过变换算法如众所周知的时间/频率变换算法或频率/时间变换算法的任一个进 行从一个域到另一个域的变换。时域的可替换变换,如在LPC域中,为LPC滤波时域信号而产生LPC残余信号或激 励信号的结果。根据具体情况,可采用产生滤波信号的任何其它滤波操作作为变换算法,其 在变换前对信号采样的实际数目具有影响。因此,采用基于加权的LPC滤波器对音频信号 进行加权是另一种变换,其产生LPC域中的信号。在时间/频率变换中,单个频谱值的修改 将对变换前的所有时域值产生影响。类似地,任何时域采样的修改将对每个频域采样产生 影响。类似地,由于LPC滤波器的长度,LPC域情况中的激励信号的采样的修改将对LPC滤 波前的大量采样产生影响。类似地,由于LPC滤波器固有的记忆效应,LPC变换前的采样的 修改将对通过这个LPC变换获得的一些采样产生影响。图3c的音频编码器包括产生第一已编码信号的第一编码分支400。该第一已编码 信号可在第四域中,在优选实施例中,第四域为时间-频谱域,即,当时域信号通过时间/频 率变换处理时获得的域。因此,用于编码音频信号的第一编码分支400采用第一编码算法来获得第一已编 码信号,其中第一编码算法可包括或可不包括时间/频率变换算法。音频编码器还包括用于编码音频信号的第二编码分支500。第二编码分支500采 用与第一编码算法不同的第二编码算法来获得第二已编码信号。音频编码器还包括第一开关200,用于在第一编码分支400和第二编码分支500之 间切换,以便对于部分的音频输入信号来说,在编码器输出信号中包含块400的输出端的 第一已编码信号或者第二编码分支的输出端的第二已编码信号。因此,当对于音频输入信 号195的某个部分来说,在编码器输出信号中包含第四域中的第一已编码信号时,则在编码器输出信号中不包含第二已编码信号,其中第二已编码信号为第二域中的第一处理信号 或第三域中的第二处理信号。这保证了这个编码器的比特率高效性。在实施例中,包含在 两个不同的已编码信号中的音频信号的任何时间部分都比将结合图:3e讨论的帧(frame) 的帧长小。这些小的部分可用做在切换情况下的从一个已编码信号至另一个已编码信号的 交叉衰减,以便减少可能在无任何交叉衰减时发生的假信号。因此,除了交叉衰减区之外, 每个时域块都通过仅在单一域的已编码信号表示。如图3c所示,第二编码分支500包括变换器510,用于将第一域中的音频信号,即 信号195,变换至第二域。此外,第二编码分支500包括第一处理分支522,用于处理第二域 中的音频信号以获得第一处理信号,优选地,第一处理信号也在第二域中,以便第一处理分 支522不进行域变换。第二编码分支500还包括第二处理分支523、524,其将第二域中的音频信号变换 至第三域中,其中第三域与第一域不同,也与第二域不同,并且第二处理分支对第三域中的 音频信号进行处理以获得在第二处理分支523、524的输出端的第二处理信号。此外,第二编码分支包括第二开关521,用于在第一处理分支522和第二处理分支 523、5M之间切换,从而以便对于输入第二编码分支的部分音频信号来说,第二域中的第一 处理信号或者第三域中的第二处理信号在第二已编码信号中。图3d示出了用于解码通过图3c的编码器产生的编码音频信号的相应解码器。通 常,第一域音频信号的每个块可通过第二域信号、第三域信号或者远离可选交叉衰减区的 第四域已编码信号表示,优选地,可选交叉衰减区比一个帧的长度短,以便获得尽可能在临 界采样极限的系统。已编码音频信号包括第一已编码信号、第二域中的第二已编码信号以 及第三域中的第三已编码信号,其中第一已编码信号、第二已编码信号和第三已编码信号 均与已解码音频信号的不同时间部分相关,并且其中第二域、第三域和第一域对于已解码 音频信号彼此不同。解码器包括用于根据第一编码算法解码的第一解码分支。第一解码分支如图3d 中的431、440所示,且优选地包括频率/时间变换器。第一已编码信号优选地在第四域中, 且被变换至第一域,第一域为已解码输出信号的域。图3d的解码器还包括包含多个元件的第二解码分支。这些元件为第一反相处理 分支531,用于反相处理第二已编码信号以在块531的输出端获得在第二域中的第一反相 处理信号。第二解码分支还包括第二反相处理分支533、534,用于反相处理第三已编码信号 以获得在第二域中的第二反相处理信号,其中第二反相处理分支包括从第三域变换至第二 域的变换器。第二解码分支还包括第一组合器532,用于组合第一反相处理信号和第二反相处 理信号以获得在第二域中的信号,其中,这个组合信号在第一时间时刻只受第一反相处理 信号的影响,而在后来的时间时刻只受第二反相处理信号的影响。第二解码分支还包括变换器M0,用于将组合信号变换至第一域。最后,图3d中示出的解码器包括第二组合器600,用于组合来自块431、440的已解 码第一信号和变换器讨0的输出信号以获得在第一域中的已解码输出信号。此外,第一域 中的已解码输出信号在第一时间时刻只受通过变换器540输出的信号的影响,而在后来的 时间时刻只受通过块431、440输出的第一解码信号的影响。
15
这种情况通过图!Be中从编码器方面示出。图!Be中的上部以示意图的方式示出了 第一域音频信号,如时域音频信号,其中时间索引从左至右增加,并且可将标号3视为表示 图3c中的信号195的音频采样流。图!Be示出了帧3a、3b、3c、3d,帧3a、3b、3c、3d可通过 第一已编码信号和第一处理信号与如图:3e中的标号4示出的第二处理信号之间的切换产 生。第一已编码信号、第一处理信号和第二处理信号全部在不同域中,从而保证不同域间的 切换不会导致在解码器侧的假信号,时域信号的帧3a和北具有重叠区域,将其标为交叉衰 减区,这样的交叉衰减区也存在于帧北和3c之间。但是,在帧3d和3c之间不存在有这种 交叉衰减区,这意味着帧3d也通过第二处理信号,即通过第三域中的信号表示,帧3c与3d 之间没有域改变。因此,通常地,当没有域改变时,优选地不提供交叉衰减区;当有域改变, 即两个开关的任一个有切换动作时,优选地提供交叉衰减区,即通过两个随后的编码/处 理信号编码的部分音频信号。优选地,对于其他域改变进行交叉衰减。在本实施例中,其中已经通过具有例如50%的重叠的MDCT处理产生第一已编码 信号或第二处理信号,每个时域采样都包含在两个随后的帧中。但是,由于MDCT的特性,这 并不会导致额外的数据处理量,因为MDCT为临界采样系统。在本文中,临界采样意味着频 谱值的数量与时域值的数量相同。MDCT的优点在于没有特定交叉区而提供交叉效果,以 便提供从一个MDCT块至下一个MDCT块的交叉而无任何违反临界采样要求的额外数据处理 量。优选地,第一编码分支中的第一编码算法基于信息汇集模型,第二编码分支中的 第二编码算法基于信息来源模型或SNR模型。SNR模型为不与特定声音产生机制特定相关 的模型,但是为一种可在多个编码模型中选定的编码模型,例如基于闭环决策。因此,SNR模 型可为任何可用的编码模型,但并不必须与声音产生器的物理构成相关,而是为与信息汇 集模型不同的任何参数化的编码模型,其可通过闭环决策选定,具体地,通过比较来自不同 模型的不同SNR结果选定。如图3c所示,提供控制器300、525。该控制器可包括图Ia的决策阶段300的功 能,此外,还可包括图Ia的开关控制装置525的功能。通常,控制器用于以信号自适应的方 式控制控制第一开关和第二开关。控制器可操作用于分析输入第一开关的信号或者通过第 一编码分支或第二编码分支输出的信号、或者通过来自第一编码分支和第二编码分支根据 目标函数的编码和解码所获得的信号。可替换地,或者附加地,控制器可操作用于分析输入 第二开关的信号或者通过第一处理分支或第二处理分支输出的信号,或者通过来自第一处 理分支和第二处理分支再次根据目标函数的处理和反相处理所获得的信号。在一个实施例中,第一编码分支或第二编码分支包括混叠引入时间/频率变换算 法,如MDCT或MDST算法,其与直通FFT变换不同,直通FFT变换不引入混叠效应。此外,一 个分支或两个分支包含量化器/熵编码器块。具体地,只有第二编码分支的第二处理分支 包括引入混叠运算的时间/频率变换器,而第二编码分支的第一处理分支包括量化器和/ 或熵编码器,并且不引入任何混叠效应。混叠引入时间/频率变换器优选地包括用于施加 分析窗口和MDCT变换算法的窗口器。具体地,窗口器可操作用于以重叠的方式向随后的帧 施加窗口功能,从而以便窗口信号的采样发生在至少两个随后的窗口帧中。在一个实施例中,第一处理分支包括ACELP编码器,第二处理分支包括MDCT频谱 变换器和用于对频谱成分进行量化以获得量化频谱成分的量化器,其中每个量化的频谱成分为零,或者通过多个不同的可能的量化器索引中的一个量化器指数定义。此外,优选地,第一开关200以开环方式运行,第二开关以闭环方式运行。如前所述,两个编码分支都可操作用于以分块方式编码音频信号,其中第一开关 或第二开关以分块方式切换,以便在信号预定数量的采样的块之后切换动作以最小方式发 生,预定数量形成用于相应切换的帧长度。因此,通过第一开关的切换的分辨率可为例如 2048或10 个采样的块,并且作为第一开关200进行切换的依据的帧长度是可变的,但是 优选地对于这样的相当长的周期是固定的。相反地,用于第二开关521的块长度,即当第二开关521从一个模式切换至另一个 模式时的块长度,基本小于第一开关的块长度。优选地,选择两个开关的块长度以便较长块 的长度为较短块的长度的整数倍。在优选实施例中,第一开关的块长度为2048或1024,第 二开关的块长度为1024,或较优为512以及更优为256以及更优为1 个采样,从而,当第 一开关只切换一次时,第二开关最多可切换16次。但是,优选的最大的块长度比为4 1。在又一个实施例中,控制器300、525可操作用于以这样的方式进行第一开关的语 音音乐鉴别,这样的方式是指对语音的判定优于对音乐的判定。在本实施例中,即使当用于 第一开关的帧的少于50%的部分为语音,而帧的多于50%的部分为音乐时,仍然判定采取 语首。此外,当第一帧的相当小的部分为语音时,具体地,当第一帧中为语音的部分是较 小的第二帧的长度的50%时,控制器可操作用于已经切换至语音模式。因此,即使当例如与 第一开关的帧长度相对应的块只有6%或12%为语音时,优选的语音/优先切换决策已经 切换至语音。优选地,这个过程是为了完全利用比特率,节省第一处理分支的能力,在一个实施 例中,第一处理分支具有有声语音核心,并且由于第二处理分支包括变换器的事实,因此即 使对于较大的第一帧的非语音的其余部分也未放松任何质量,由于第二处理分支包括变换 器因此可用于也有非语音信号的音频信号。优选地,这个第二处理分支包括重叠MDCT,该重 叠MDCT为临界采样,并且由于时域混叠消除处理如在解码器上的重叠和加法,因此即使小 窗口尺寸也能提供高效且无混叠的操作。此外,由于非语音信号通常相当稳定,并且长变换 窗口能够提供高频率分辨率和高性能,且附加地,由于心理声学控制的量化模块长变换窗 口也能提供高比特率效率,因此,用于第一编码分支的大的块长度是非常有用的,优选地第 一编码分支为AAC状MDCT编码分支,其中心理声学控制的量化模块也可应用于第二编码分 支的第二处理分支中的基于编码模式的变换。关于图3d的解码器示例,优选地,传输信号包括明确的指示作为图;3e所示的边信 息如。通过未在图3d中示出的比特流解析器提取该边信息4a,以便前传相对应的第一已 编码信号、第一处理信号或第二处理信号至正确的处理器,例如图3d中的第一解码分支、 第一反相处理分支或第二反相处理分支。因此,已编码信号不仅具有已编码信号/处理信 号,还包括与这些信号相关的边信息。但是,在其它实施例中,也可有隐含的信号,其允许解 码器侧比特流解析器在特定的信号之间进行区分。参考图3e,主要描述第一处理信号或第 二处理信号为第二编码分支的输出信号,因此为第二已编码信号。优选地,第一解码分支和/或第二反相处理分支包括用于从频谱域变换至时域的 MDCT变换。为此,提供重叠加法器以进行时域混叠消除功能,同时提供交叉衰减影响以防止
17遮蔽假信号。通常,第一解码分支将在第四域中编码的信号变换至第一域,同时第二反相处 理分支进行从第三域至第二域的变换,并且连接至第一组合器之后的变换器提供从第二域 至第一域的变换,以便在组合器600的输出端只有第一域信号,在图3d的实施例中,第一域 信号表示已解码输出信号。图如和图4b示出了两个不同的实施例,其区别在于开关200的位置。在图如中, 开关200设置在共用预处理阶段400的输出端和两个编码分支400、500的输入端之间。图 4a的实施例保证音频信号只输入一个编码分支,而未连接至共用预处理阶段的输出端的另 一个编码分支不操作,因此另一个编码分支被关断或处于休眠模式。这个实施例是优选的, 因为未启动的编码分支不消耗电量和计算资源,其中电量对于移动应用是有用的,特别是 对于电池通电的因此通常具有耗电量限制的移动应用。但是,另一方面,当耗电量不成问题时,图4b的实施例为优选的。在这个实施例 中,两个编码分支400和500都是始终有效的,并且对于某个时间部分和/或某个频率部 分,只有选定的编码分支的输出信号前传至比特流格式化器,比特流格式化器可实施为比 特流多路复用器800。因此,在图4b的实施例中,两个编码分支都是始终有效的,并且通过 决策阶段300选定的编码分支的输出信号进入至输出比特流,而另一个未被选定的编码分 支400的输出信号被抛弃,即不进入输出比特流,即已编码音频信号。图如示出了优选的解码器实施例的又一个方面。在这种情况下,特别是第一解码 器为时间混叠产生解码器或通常所说的频域解码器,且第二解码器为时域装置的情况下, 为了避免听觉假信号,通过第一解码器450和第二解码器550输出的块之间或帧之间的边 界不应该完全连续,尤其在切换情况。因此,当第一解码器450的第一块为输出时,以及当 对于随后的时间部分,第二解码器的块为输出时,优选地进行如交叉衰减块607所示的交 叉衰减操作。为此,交叉衰减块607可如图如所示的607a、607b及607c实施。每个分支 可具有归一化到0和1之间的加权因子Hi1的加权器,其中加权因子可如图609所示改变, 这种交叉衰减规则保证进行连续平滑的交叉衰减,此外,连续平滑的交叉衰减保证使用者 不会察觉任何音量变化。非线性交叉衰减规则如sin2交叉衰减规则可用来替代线性交叉 衰减规则。在某些示例中,采用窗口产生第一解码器的最末块,其中该窗口实际上进行这个 块的淡出。在这种情况下,块607a的加权因子Hi1等于1,实际上,这个分支根本不需要加权。当发生从第二解码器到第一解码器的切换时,且当第二解码器包括实际上将输出 信号淡出至块的末端的窗口时,则不需要以“m2”指示的加权器,或者可将整个交叉衰减区 的加权参数设定为1。当采用窗口操作产生切换之后的第一块时,且当这个窗口实际上进行淡入操作 时,相对应的加权因子也可设定为1,因此实际上不需要加权器。因此,当最末块被窗口化以 便通过解码器淡出时,以及当采用解码器对开关后的第一块进行窗口化以便提供淡入时, 根本不需要加权器607a、607b,通过加法器607c的加法操作就足够。在这种情况下,最末帧的淡出部分和下一个帧的淡入部分定义了在块609中指示 的交叉衰减区。此外,优选地,在这种情况下,一个解码器的最末块与另一个解码器的第一 块具有一定的时间重叠。如果不需要或不可能或不期望交叉衰减操作,以及如果只存在由一个解码器至另外一个解码器的硬件开关,则优选地在音频信号的无声通道中进行这种切换,或者至少在 音频信号的低能量通道中,即感知为无声或接近无声的通道中进行这种切换。优选地,在这 种实施例中,决策阶段300保证开关200只在切换事件之后的相对应时间部分具有下述能 量时才被激活,该能量例如低于音频信号的平均能量,且优选地低于与例如音频信号的两 个或更多个时间部分/帧相关的音频信号的平均能量的50%。优选地,第二编码规则/解码规则为基于LPC的编码算法。在基于LPC的语音编 码中,进行准周期脉冲状激励信号段或信号部分与噪声状激励信号段或信号部分之间的区 分。这是为了如图7b中的极低比特率LPC声码器而进行的。但是,在中间速率 CELP编码器中,为了定规向量的增加,从自适应码本和固定码本中获得激励。准周期脉冲状激励信号段,即具有特定音高的信号段,与噪声状激励信号采用不 同的机制进行编码。当准周期脉冲状激励信号与有声语音关联时,噪声状信号与无声语音 相关。例如,参考图fe至图5d。其中,举例讨论了准周期脉冲状信号段或信号部分和噪 声状信号段或信号部分。具体地,将如图fe中所示的时域中的有声语音和图恥中所示的 频域中的有声语音作为准周期脉冲状信号部分的例子来讨论,并结合图5c和图5d中的无 声语音段作为噪声状信号部分的例子做讨论。通常可将语音分类为有声的、无声的、或者混 音的。图如至图5d中示出了采样的有声段和无声段的时频域图。有声语音在时域中为准 周期的而在频域中为谐波结构,而无声语音为随机状的且为宽带的。有声语音的短时谱以 其精细谐振共振峰结构为特征。精细谐振结构是语音的准周期性的结果且可归因于声带的 振动。共振峰结构(频谱包络)是由于来源与声道交互作用的结果。声道由咽和口腔所组 成。“适合”有声语音的短时谱的频谱包络的形状与声道的传输特性以及由于声门脉冲导致 的频谱倾斜(6dB/八度音阶)有关。频谱包络以一组称作为共振峰的波峰为特征。共振峰 为声道的共振模式。一般的声道有三个至五个5kHz以下的共振峰。通常出现在3kHz以下 的前三个共振峰的振幅及位置在语音合成和感知中相当重要。较高的共振峰对于宽带及无 声语音表示也相当重要。语音的性能与如下的物理语音产生系统相关。有声语音通过激励 具有准周期性声门空气脉冲的声道而产生,准周期性声门空气脉冲通过振动声带而产生。 周期性脉冲的频率被称作为基本频率或音高。无声语音通过推动空气通过声道的狭窄处而 产生。鼻音是由于鼻道到声道的声学耦合而产生,而爆裂声是通过突然释放蓄积于声道的 闭合部后方的空气压力而产生。因此,音频信号的噪声状部分既不显示任何的脉冲状时域结构,也不显示谐波频 域结构,如图5c及图5d所示,其与准周期脉冲状部分不同,例如于图fe及图恥所示。但 是,如稍后的概述,噪声状部分与准周期脉冲状部分之间的区别也可在用于激励信号的LPC 后观察到。LPC为将声道模型化且从信号中提取声道激励的方法。此外,准周期脉冲状部分及噪声状部分可以以定时的方式发生,即部分时间中的 音频信号为噪声,另一部分时间中的音频信号为准周期性的,也就是音调的。可替换地,或 附加地,信号的特性在不同的频带中可不同。因此,判定音频信号为噪声或音调的也可频率 选择性地进行,以便某个频带或某些频带被视为噪声,而其它频带被视为音调的。在这种情 况下,某个时间部分的音频信号可包括音调组分及噪声组分。图7a示出了语音生成系统的线性模型。本系统假设两阶段式激励,即如图7c所
19示的有声语音的脉冲串行,以及如图7d所示的无声语音的随机噪声。将声道模型化为全极 点滤波器70,其处理由声门模型(glottal model) 72所产生的图7c或图7d的脉冲。因此, 图7a的系统可简化为图7b的全极点模型,其具有增益阶段77、前传路径78、反馈路径79 和加法阶段80。在反馈路径79中存在预测滤波器81,并且图7b中示出的整个来源模型合 成系统可以采用如下的ζ域函数表示S(z) = g/(l-A(z))· X(Z),其中,g表示增益,A(Z)为通过LP分析确定的预测滤波器,X(ζ)为激励信号,S(Z) 为合成语音输出信号。图7c及图7d给出了采用线性来源系统模型进行有声及无声语音合成的图解时域 描述。这个系统和上面的方程式中的激励参数为未知的,其必须由有限集合的语音采样确 定。采用输入信号的线性预测和滤波系数的量化获得A(Z)的系数。在第P阶前传线性预 测器中,由P个已通过的采样的线性组合预测语音序列的当前采样。预测器系数可通过众 所周知的算法确定,如雷文森-杜宾(Levinson-Durbin)算法,或者通常通过自动交互相关 的方法或映像的方法确定。图7e示出了 LPC分析块510的进一步细节实施例。将音频信号输入确定滤波器 信息A(Z)的滤波器确定块。将该信息输出做为解码器要求的短期预测信息。短期预测信 息为实际预测滤波器85所需。在减法器86中,输入音频信号的当前采样,并减去用于当前 采样的预测值,以便在线84产生用于这个采样的预测误差信号。示意性地在图7c或图7d 中示出了这个预测误差信号采样的序列。因此,图7a和图7b可视为一种已整流的脉冲状 信号。虽然图7e示出了计算激励信号的优选方式,图7f示出了计算加权信号的优选方 式。与图7e相反,当Y不为1时,滤波器85是不同的。小于1的数值为Y的优选值。此 外,存在有块87,并且μ优选为小于1的数值。通常,图7e和图7f中的元件可如3GPP TS 26. 190 或 3GPP TS 26. 290 中实施。图7g示出了可应用在解码器侧,如图沘的元件537中的反相处理。具体地,块88 由加权信号产生未加权信号,块89计算来自未加权信号的激励。通常,图7g中除未加权信 号以外的全部信号都在LPC域中,但是激励信号和加权信号为在同一个域中的不同信号。 块89输出激励信号,其可随后连同块536的输出信号一起使用。然后,可在图2b的块540 中进行共用反相LPC变换。随后,将结合图6讨论分析/合成CELP编码器,以便示出应用于这个算法的修改。 本 CELP 编码器在 Andreas Spanias, IEEE 论文集,82 卷,第 10 期,1994 年 10 月,1541-1582 页的《语音编码辅助教学综论》中详细讨论。如图6所示的CELP编码器包括长期预测组 件60和短期预测组件62。此外,采用以64指示的码本。在66应用感知加权滤波器W(Z), 并且在68提供误差最小化控制器。s(n)为时域输入信号。经过感知加权后,将加权信号输 入到减法器69中,减法器69计算在块66的输出端的加权合成信号与原始加权信号Sw(η) 之间的误差。通常,通过LP分析阶段计算短期预测滤波系数Α(ζ),且其系数在A(Z)中量化, 如图7e所示。在于图7e中称作IOa的LPC分析阶段的输出端基于预测误差信号计算包括 长期预测增益g和向量量化索引的长期预测信息,即码本参考值。LTP参数为音高延 迟及增益。在CELP中,这通常实施为包括过去的激励信号(非残余的)的自适应码本。通过最小化均方加权误差(闭环音高搜索)找出自适应码本延迟及增益。然后,CELP算法采用例如高斯序列的码本对在短期预测和长期预测后所获得的残 余信号进行编码。ACELP算法具有特定代数设计的码本,其中“A”表示“代数”。码本可包含更多或更少的向量,其中每个向量为数个采样长度。增益因子g按比 例放大码向量,并且通过长期预测合成滤波器和短期预测合成滤波器滤波增益码。选定“最 佳”码向量以便最小化在减法器69的输出端的感官式加权的均方差。通过如图6中所示的 分析/合成最优化完成CELP中的搜索处理。对于特定情况,当帧为无声语音和有声语音的混合时,或者当出现语音超过音乐 时,TCX编码可更适合用于编码LPC域中的激励。TCX编码处理频域中的加权信号,而不做 任何激励产生的假设。此外,TCX编码比CELP编码更为通用,且未限于激励的有声或无声 来源模型。TCX编码还是采用用于模型化语音状信号的共振峰的线性预测滤波器的来源滤 波器模型编码。在AMR-WB+状编码中,如AMR-WB+描述所知,进行不同的TCX模式与ACELP模式之 间的选择。各种TCX模式之间的差异在于,对于不同的模式,块状离散傅立叶变换的长度是 不同的,而且可通过分析/合成方法或通过直接“前馈”模式选择最佳的模式。如结合图加和图2b所讨论的,共用预处理阶段100优选地包括联合多声道(环 绕/联合立体声装置)101,此外,还包括带宽扩展阶段102。相对应地,解码器包括带宽扩 展阶段701和随后连接的联合多声道阶段702。优选地,关于编码器,联合多声道阶段101 连接在带宽扩展阶段102的前面,而在解码器端,带宽扩展阶段701相对于信号处理方向而 言连接在联合多声道阶段702的前面。但是,可替换地,共用预处理阶段可包括联合多声道 阶段而无随后连接的带宽扩展阶段,或者包括带宽扩展阶段而无连接的联合多声道阶段。图8的描述中示出了在编码器侧101a、IOlb和解码器侧70h、702b的联合多声道 阶段的优选示例。将E个的原始输入声道输入降混器IOla中,以便降混器产生K个传输声 道,其中,数量K大于或等于1而小于或等于E。优选地,将E个输入声道输入产生参数信息的联合多声道参数分析器IOlb中。优 选地,对这个参数信息进行熵编码,例如通过差别编码和随后的霍夫曼编码,或者可替换地 和通过随后的算术编码。将通过块IOlb输出的编码参数信息传输至可为图2b中的标号 702的部分的参数解码器702b。参数解码器702b解码已传输参数信息,并将已解码参数信 息前传至升混器70加。升混器70 接收K个已传输声道并产生L个输出声道,其中数目L 大于或等于K而小于或等于E。参数信息可包括声道间位准差、声道间时间差、声道间相位差和/或声道间相干 性测量值,如由BCC技术已知,或如MPEG环绕标准已知且详细说明。已传输声道的数目可 为用于超低比特率应用的单一单声声道,或者可包括可兼容的立体声应用,或者可包括可 兼容的立体声信号,也就是两个声道。典型地,E个输入声道的数目可为5个或者可为甚至 更多个。另外,E个输入声道也可为E个音频对象,如在空间音频对象编码(SAOC)的描述 中所知。在一个实施例中,降混器进行原始的E个输入声道的加权相加或不加权相加,或 者E个输入音频对象的相加。在音频对象作为输入声道的情况下,联合多声道参数分析器 IOlb将计算音频对象参数,例如音频对象之间的交互关联矩阵,优选地对各个时间部分计算,甚至更优地对各个频带计算。为此,整个频率范围可分割成至少10个频带,优选为32 个或64个频带。图9示出了图加中的带宽扩展阶段102b和图2b中相对应的带宽扩展阶段701 的实施方式的优选实施例。在编码器侧,带宽扩展块102优选地包括低通滤波块102b、降采 样器块和高频带分析器102a,降采样器块接在低通块后,或者构成反相QMF的一部分,只作 用在一半的QMF频带上。输入至带宽扩展块102的原始音频信号被低通滤波而产生低频带 信号,然后将该低频带信号输入编码分支和/或开关。低通滤波器具有在3kHz至IOkHz的 范围之间的截止频率。此外,带宽扩展块102还包括高频带分析器,其用于计算带宽扩展参 数,例如频谱包络参数信息、噪声本征参数信息、反相滤波参数信息,与高频带中的特定谐 波线相关的进一步参数信息以及如与频带复制相关的章节中的MPEG-4标准中详细讨论的 附加参数。在解码器侧,带宽扩展块701包括修补器701a、调整器701b和组合器701c。组合 器701c对已解码低频带信号和通过调整器701b输出的已重建且已调整的高频带信号进行 组合。由修补器提供调整器701b的输入信号,修补器被操作来从低频带信号导出高频带信 号,例如通过频带复制或通常通过频宽扩展。通过修补器701a进行的修补可为以谐波方式 或非谐波方式进行的修补。随后由调整器701b采用已传输的参数化的频宽扩展信息调整 修补器701a产生的信号。如图8和图9所示,所描述的这些块在优选实施例中可具有模式控制输入信号。这 种模式控制输入信号来自决策阶段300的输出信号。在这种优选实施例中,相对应的块的 特性可被调整为适合于决策阶段的输出信号,即不论是否在优选实施例中,对音频信号的 某个时间部分判定为语音或判定为音乐。优选地,模式控制只与这些块的功能中的一个或 多个有关,而不是与这些块的全部功能有关。例如,决策可只影响修补器701a而可不影响 图9的其它块,或者,例如,可只影响图8中的联合多声道参数分析器IOla而不影响图8中 的其它块。优选地,本实施例通过共用预处理阶段提供的弹性,获得更高弹性且更高质量及 较低位率的输出信号。但另一方面,在用于两种信号的共用预处理阶段中采用的算法允许 实施有效的编码/解码方案。图IOa和图IOb示出了决策阶段300的两种不同实施例。在图IOa中指示开环决 策。其中,决策阶段中的信号分析器300a具有特定的规则,以判定输入信号的特定时间部 分或特定频率部分是否具有特性,该特性要求这个信号部分是通过第一编码分支400或通 过第二编码分支500编码的。为此,信号分析器300a可分析输入共用预处理阶段的音频输 入信号,或者可分析通过共用预处理阶段输出的音频信号,即音频中间信号,或者可分析在 共用预处理阶段中的中间信号,如可为单声信号或可为图8中所示的具有k个声道的信号 的降混信号的输出信号。在输出端,信号分析器300a产生切换决策用以控制在编码器侧的 开关200以及在解码器侧的相对应的开关600或组合器600。虽然没有对第二开关521进行详细讨论,但是应强调的是,第二开关521可以与结 合图如和图4b讨论的第一开关200相类似的方式设置。因此,图3c中的开关521的可替 换的位置为在处理分支522、523、524的输出端,以便两个处理分支并行操作,并且只有一 个处理分支的输出信号通过比特流成形器(未显示在图3c中)写入比特流。此外,第二组合器600可具有如图如中讨论的特定交叉衰减功能。可替换地或附加地,第一组合器532可具有相同的交叉衰减功能。此外,两个组合器可具有相同的交叉衰 减功能,或者可具有不同的交叉衰减,或者根本不具有交叉衰减功能以便两个组合器为没 有任何附加的交叉衰减功能的开关。如前文的讨论,两个开关都可通过如结合图IOa和图IOb所讨论的开环决策或闭 环决策控制,其中图3c的控制器300、525对于两个开关可具有不同的或相同的功能。此外,信号自适应的时间翘曲功能不仅可以存在于第一编码分支或第一解码分支 中,也可存在于编码器端以及解码器端的第二编码分支的第二处理分支中。根据处理信号, 两个时间翘曲功能可具有相同的时间翘曲信息,从而以便在第一域中的信号和第二域中的 信号上应用相同的时间翘曲。这节省处理负荷,并且在某些情况下可用于随后的块具有类 似的时间翘曲特性的情况。但是,在替换实施例中,优选地,对于第一编码分支和第二编码 分支中的第二处理分支具有独立的时间翘曲估算器。本发明的已编码音频信号可储存在数字储存媒介上,或者可在传输媒介上传输, 如无线传输媒介或者有线传输媒介如因特网。在不同实施例中,图1减图加的开关200在两个编解码分支400、500之间切换。 在又一实施例中,可有额外的编码分支,例如第三编码分支或者甚至第四编码分支或者甚 至更多的编码分支。在解码器端,图Ib或图2b的开关600在两个解码分支431、440与531、 532、533、534、540之间切换。在又一实施例中,可有额外的解码分支,例如第三解码分支或 者甚至第四解码分支或者甚至更多的解码分支。类似地,当设置这样的额外的编码/解码 分支时,其它开关521或532可在多于两个的不同的编码算法之间切换。上述实施例仅用于说明本发明的原理。应理解,本领域的其他技术人员显然可对 此处描述的配置和细节进行修改和变化。因此,本发明的意图仅受附加的权利要求的范围 的限制,而不受通过此处的实施例的说明及解释所呈现的具体细节的限制。根据本发明方法的若干实施例要求,本发明方法可在硬件中或者在软件中实施。 实施例的操作可采用数字储存媒体,特别地,具有在其上储存的可电子读取的控制信号的 盘片、DVD或CD,这些可电子读取的控制信号与可编程的计算机系统合作以便本发明的方 法被操作。通常,本发明因此为具有储存在机读载体上的程序代码的计算机程序产物,当计 算机程序产物在计算机上运行时,执行程序代码来操作本发明的方法。换句话说,本发明的 方法因此为具有程序代码的计算机程序,程序代码用于计算机程序在计算机上运行时执行 本发明方法中的至少一个。
2权利要求
1.一种用于编码音频输入信号(1%)的音频编码器,所述音频输入信号在第一域中, 所述音频编码器包括第一编码分支000),用于采用第一编码算法编码音频信号以获得第一已编码信号;第二编码分支(500),用于采用第二编码算法编码音频信号以获得第二已编码信号,其 中所述第一编码算法与所述第二编码算法不同;以及第一开关O00),用于在所述第一编码分支和所述第二编码分支之间切换,以便对于所 述音频输入信号的一部分,所述第一已编码信号或所述第二已编码信号在编码器输出信号 中,其中所述第二编码分支包括用于将所述音频信号变换至与所述第一域不同的第二域中的变换器(510);第一处理分支(522),用于处理所述第二域中的音频信号以获得第一处理信号;第二处理分支(523,5 ),用于将信号变换至与所述第一域和所述第二域不同的第三 域中,并用于处理所述第三域中的所述信号以获得第二处理信号;和第二开关(521),用于在所述第一处理分支(52 和所述第二处理分支(523,524)之间 切换,以便对于输入所述第二编码分支的音频信号的一部分,所述第一处理信号或所述第 二处理信号在所述第二已编码信号中。
2.如权利要求1所述的音频编码器,其中,所述第一编码分支(400)中的第一编码算法 基于信息汇集模型,或者其中所述第二编码分支(500)中的第二编码算法基于信息来源模 型或者信噪比(SNR)模型。
3.如权利要求1或2所述的音频编码器,其中所述第一编码分支包括用于将所述音频 输入信号变换至与所述第一域、所述第二域和所述第三域不同的第四域中的变换器(410)。
4.如上述权利要求中任一项所述的音频编码器,其中所述第一域为时域,所述第二域 为通过LPC滤波所述第一域信号所获得的LPC域,所述第三域为通过将LPC滤波信号变换 至频谱域所获得的LPC频谱域,以及所述第四域为通过频域变换所述第一域信号所获得的 频谱域。
5.如上述权利要求中任一项所述的音频编码器,还包括用于以信号自适应的方式控制 所述第一开关(200)或所述第二开关(521)的控制器(300,525),其中所述控制器可操作用于分析输入所述第一开关O00)的信号、或者通过所述第一 编码分支或所述第二编码分支输出的信号、或者通过关于目标函数对所述第一编码分支或 所述第二编码分支的输出信号进行解码而获得的信号;或者其中所述控制器(300,525)可操作用于分析输入所述第二开关(521)的信号、或者通 过所述第一处理分支或所述第二处理分支输出的信号、或者通过关于目标函数对所述第一 处理分支(52 和所述第二处理分支(523,5 )的输出信号进行反相处理而获得的信号。
6.如上述权利要求中任一项所述的音频编码器,其中所述第一编码分支(400)或所述 第二编码分支(500)的第二处理分支(523,524)包括混叠引入时间/频率变换器和量化器 /熵编码器阶段(421),并且其中所述第二编码分支的第一处理分支包括没有混叠引入变 换的量化器或熵编码器阶段(522)。
7.如权利要求6所述的音频编码器,其中所述混叠引入时间/频率变换器包括窗口器, 用于施加分析窗口和改进离散余弦变换(MDCT)算法,所述窗口器可操作用于以重叠的方式施加所述窗口功能至随后的帧,以便输入所述窗口器的输入信号的采样发生在至少两个 随后的帧中。
8.如上述权利要求中任一项所述的音频编码器,其中所述第一处理分支(52 包括代 数码激励线性预测(ACELP)编码器的LPC激励编码,且所述第二处理分支包括MDCT频谱变 换器和用于对频谱成分进行量化以获得量化频谱成分的量化器,其中每个量化频谱成分为 零或者由多个量化索引中的一个量化索引定义。
9.如权利要求5所述的音频编码器,其中所述控制器可操作用于以开环方式控制所述 第一开关(200),以闭环方式控制所述第二开关(521)。
10.如上述权利要求中任一项所述的音频编码器,其中所述第一编码分支和所述第二 编码分支可操作用于以分块方式编码所述音频信号,其中所述第一开关或所述第二开关以 分块方式切换,以便在信号预定数量的采样的块之后切换动作以最小方式发生,所述预定 数量的采样形成用于相应切换(521,200)的帧长度。
11.如权利要求10所述的音频编码器,其中所述第一开关的帧长度至少为所述第二开 关的帧长度尺寸的两倍。
12.如权利要求5所述的音频编码器,其中所述控制器可操作用于以对语音的判定优 于对音乐的判定的方式进行语音/音乐鉴别,以便即使当用于所述第一开关的帧的少于 50%的部分为语音且用于所述第一开关的所述帧的大于50%的部分为音乐时,采取判定为 语首。
13.如权利要求5或12所述的音频编码器,其中用于所述第二开关的帧小于用于所述 第一开关的帧,并且其中所述控制器(525,300)可操作用于当只有长度大于所述第二帧长 度的50%的所述第一帧的一部分被发现包括音乐时判定为语音。
14.如上述权利要求中任一项所述的音频编码器,其中所述第一编码分支(400)或者 所述第二编解码分支的第二处理分支包括可变时间翘曲功能。
15.一种用于编码音频输入信号(1%)的方法,所述音频输入信号在第一域中,所述方 法包括采用第一编码算法编码(400)音频信号以获得第一已编码信号;采用第二编码算法编码(500)音频信号以获得第二已编码信号,其中所述第一编码算 法与所述第二编码算法不同;以及在采用所述第一编码算法的编码与采用所述第二编码算法的编码之间切换000),以 便对于所述音频输入信号的一部分,所述第一已编码信号或者所述第二已编码信号在编码 器输出信号中,其中采用所述第二编码算法编码(500)包括将所述音频信号变换(510)至与所述第一域不同的第二域中;处理(52 所述第二域中的音频信号以获得第一处理信号;将信号变换(52 至与所述第一域和所述第二域不同的第三域中,并处理(524)所述 第三域中的信号以获得第二处理信号;以及在处理(52 所述音频信号与变换和处理(524)之间切换(521),以便对于采用所述第 二编码算法编码的音频信号的一部分,所述第一处理信号或者所述第二处理信号在所述第 二已编码信号中。
16.一种用于解码已编码音频信号的解码器,所述已编码音频信号包括第一已编码信 号、第二域中的第一处理信号以及第三域中的第二处理信号,其中所述第一已编码信号、所 述第一处理信号以及所述第二处理信号与所述已解码音频信号的不同时间部分有关,且其 中所述第一域、所述第二域和所述第三域彼此不同,所述解码器包括第一解码分支031,440),用于根据所述第一编码算法解码所述第一已编码信号;第二解码分支,用于解码所述第一处理信号或所述第二处理信号,其中所述第二解码分支包括第一反相处理分支(531),用于反相处理所述第一处理信号以获得在所述第二域中的 第一反相处理信号;第二反相处理分支(533,534),用于反相处理所述第二处理信号以获得在所述第二域 中的第二反相处理信号;第一组合器(532),用于组合所述第一反相处理信号和所述第二反相处理信号以获得 在所述第二域中的组合信号;以及用于将所述组合信号变换至所述第一域中的变换器(540);以及第二组合器(600),用于组合所述第一域中的变换信号和通过所述第一解码分支输出 的第一解码信号以获得在所述第一域中的已解码输出信号。
17.如权利要求16所述的解码器,其中所述第一组合器(53 或所述第二组合器 (600)包括具有交叉衰减功能的开关。
18.如权利要求16或17所述的解码器,其中所述第一域为时域,所述第二域为LPC域, 所述第三域为LPC频谱域,或者在第四域中编码所述第一已编码信号,所述第四域为通过 在第一域中对信号进行时间/频率变换所获得的时间-频谱域。
19.如权利要求16至18中任一项所述的解码器,其中所述第一解码分支(431,440)包 括反相编码器、解量化器和频域时域变换器G40),或者所述第二解码分支包括所述第一反相处理分支中的反相编码器和解量化器,或者所述 第二反相处理分支中的反相编码器、解量化器和LPC频谱域至LPC域的变换器(534)。
20.如权利要求19所述的解码器,其中所述第一解码分支或所述第二反相处理分支包 括重叠加法器,用于进行时域混叠消除功能。
21.如权利要求16至20中任一项所述的解码器,其中所述第一解码分支或所述第二 反相处理分支包括解翘曲器,所述解翘曲器由包含在所述已编码音频信号中的翘曲特性控 制。
22.如权利要求16至21中任一项所述的解码器,其中所述已编码信号包括作为边信息 (4a)的指示,用于指示所述已编码信号是否将由第一编码分支,或第二编码分支,或所述第 二编码分支的第一处理分支,或所述第二编码分支的第二处理分支编码,以及所述解码器还包括剖析器,所述剖析器用于基于所述边信息Ga)剖析所述已编码信 号以判定已编码信号是否将由所述第一解码分支,或所述第二解码分支,或所述第二解码 分支的所述第一反相处理分支,或所述第二解码分支的所述第二反相处理分支处理。
23.一种解码已编码音频信号的方法,所述已编码音频信号包括第一已编码信号、第二 域中的第一处理信号以及第三域中的第二处理信号,其中所述第一已编码信号、所述第一 处理信号和所述第二处理信号与所述已解码音频信号的不同时间部分有关,并且其中所述第一域、所述第二域和所述第三域彼此不同,所述方法包括 基于第一编码算法解码(431,440)所述第一已编码信号; 解码所述第一处理信号或所述第二处理信号, 其中所述解码所述第一处理信号或所述第二处理信号包括 反相处理(531)所述第一处理信号以获得在所述第二域中的第一反相处理信号; 反相处理(533,534)所述第二处理信号以获得在所述第二域中的第二反相处理信号; 组合(53 所述第一反相处理信号和所述第二反相处理信号以获得在所述第二域中 的组合信号;以及将所述组合信号变换640)至所述第一域;以及组合(600)所述第一域中的变换信号和已解码的第一信号以获得在所述第一域中的 已解码输出信号。
24.一种已编码音频信号,包括采用第一编码算法编码或将被解码的第一已编码信号; 第二域中的第一处理信号;第三域中的第二处理信号,其中所述第一处理信号和所述第二处理信号采用第二编码 算法编码,其中所述第一已编码信号、所述第一处理信号和所述第二处理信号与已解码音频信号 的不同时间部分有关,其中第一域、所述第二域和所述第三域彼此不同;以及边信息( ),所述边信息指示所述已编码信号的一部分是否是第一已编码信号、或第 一处理信号、或第二处理信号。
25.一种计算机程序,用于当在计算机上运行时执行如权利要求15所述的用于编码音 频信号的方法或者如权利要求23所述的用于解码已编码音频信号的方法。
全文摘要
一种音频编码器,包括第一信息汇集导向的编码分支,如频谱域编码分支;第二信息来源或SNR导向的编码分支,如LPC域编码分支;以及开关,用于在第一编码分支和第二编码分支之间切换,其中第二编码分支包括变换器,变换至与频谱域不同的特定域,如产生激励信号的LPC分析阶段,并且其中第二编码分支还包括特定域编码分支,如LPC域处理分支;特定频谱域编码分支,如LPC频谱域处理分支;以及额外的开关,用于在特定域编码分支与特定频谱域编码分支之间切换。一种音频解码器,包括第一域解码器,如频谱域解码分支;第二域解码器,如用于解码信号如第二域中的激励信号的LPC域解码分支;第三域解码器,如LPC频谱解码器分支;以及两个级联的开关,用于在多个解码器之间切换。
文档编号G10L19/14GK102113051SQ200980127091
公开日2011年6月29日 申请日期2009年6月26日 优先权日2008年7月11日
发明者乌尔里克·克雷默, 伯恩哈特·格里尔, 史蒂芬·盖尔斯贝尔格尔, 吉米·拉皮尔, 哈拉尔德·波普, 尼古拉斯·里特尔博谢, 布鲁诺·贝塞特, 拉尔夫·盖格, 斯特凡·拜尔, 杰雷米·勒孔特, 约翰内斯·希勒佩特, 纪尧姆·福斯, 罗奇·勒菲弗尔, 菲利普·古尔奈, 雷德温·萨拉米, 马克斯·诺伊恩多夫, 马库斯·马特拉斯 申请人:弗朗霍夫应用科学研究促进协会, 沃伊斯亚吉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1