音频编解码器后置滤波器的制作方法

文档序号:2830064阅读:526来源:国知局
专利名称:音频编解码器后置滤波器的制作方法
技术领域
描述的工具和技术涉及音频编解码器,并且更特别地涉及经解码的语音的后置处理。

背景技术
伴随着数字无线电话网、互联网上的流音频以及互联网电话的出现,语音的数字处理和传输已经变成很普通的事情了。工程师们使用多种技术有效地处理语音,同时仍然保持质量。理解如何在计算机中表示和处理音频信息将有助于理解这些技术。
I.计算机中音频信息的表示 计算机将音频信息作为表示音频的一连串数字加以处理。单个数字可以表示一个音频样本,它是特定时刻的振幅值。几个因素影响音频的质量,包括采样深度和采样率。
采样深度(或者精度)指示用于表示样本的数字的范围。对于每个样本尽可能多的值通常产生更高质量的输出,由于可以表示振幅中的更多的微妙的变化。8位样本具有256个可能的值,而16位样本具有65536个可能的值。
采样率(经常以每秒的采样数来测量)也影响质量。采样率越高,质量越高,因为可以表示更多的声音频率。一些普通的采样率是8000,11025,22050,32000,44100,48000,和96000样本/秒(Hz)。表1表示几个具有不同质量级别的音频格式,连同相应的原始比特率代价。
表1不同质量音频的比特率 如表1所示,高质量音频的代价是高比特率。高质量音频信息消耗大量的计算机存储和传输能力。一些计算机和计算机网络缺少处理原始数字音频的资源。压缩(也被称作编码)通过将信息转化成较低的比特率形式,降低了存储和传输音频信息的代价。压缩可以是无损的(其中质量不受损失)或者有损的(其中质量受损但是比较于随后的无损压缩的比特率减缩是更显著的)。解压缩(也称作解码)提取来自压缩形式的原始信息的重构模型。编解码器是编码器/解码器系统。
II.语音编码器和解码器 音频压缩的一个目标是数字化地表示音频信号以提供对于一定数量位的最大限度的信号质量。换句话说,这个目标是在给定级别质量上以最少位来表示音频信号。其它目标诸如,传输误差的恢复力和限制由于编码/传输/解码的总时延,应用在一些方案中。
不同种类的音频信号具有不同的特征。音乐的特征在于大的频率和振幅范围,并且经常包括两个或更多信道。相反,语音的特征在于较小的频率和振幅范围,并且通常地被表示为单个信道。某一个编解码器和处理技术适宜于音乐和一般音频;其他的编解码器和处理技术适宜于语音。
一种传统的语音编解码器使用线性预测(“LP”)来实现压缩。所述语音编码包括若干阶段。所述编码器得到和量化用于线性预测滤波器的系数,其被用于预测如同优先样本值的线性组合的样本值。剩余信号(表示为一个“激励”信号)表示未正确地由所述滤波器预测的部分原始信号。在某些阶段,语音编解码器对话音部分(以声音的和弦振动为特征),未发声部分,和不发声部分使用不同的压缩技术,因为不同类型的语音具有不同的特征。话音部分一般显示非常重复的声音模式,甚至在剩余的域中。对于话音部分,编码器通过比较电流剩余信号和先前剩余的周期以及根据与先前的周期有关的延迟或滞后信息实现进一步的压缩。编码器使用特别设计的密码本,处理原始信号和预测,编码表示(来自线性预测和延迟信息)之间的其它差异。
尽管如上所述的语音编解码器对于许多应用具有良好的综合性能,但它们具有若干缺陷。例如,有损的编解码器一般通过减少语音信号中的冗余而减少比特率,其导致解码语音中的噪声或其它不希望的膺象。因此,一些编解码器滤波器解码语音以改善它的质量。这种后置滤波器一般分为两种类型时域后置滤波器和频域后置滤波器。
考虑到压缩和解压缩在计算机系统中表示的语音信号的重要性,重建语音的后置滤波器具有有吸引力的研究价值是不令人惊讶的。无论哪一种用于重建语音或其它音频的处理的在前技术的优点,它们都不胜过此处所述的技术和工具。


发明内容
概括地说,所述详细说明涉及用于音频编解码器的各种技术和工具,并且具体来讲涉及与滤波解码语音有关的工具和技术。所描述的实施例实现所描述的技术和工具中的一个或多个,其中包括但不限于下列 在一个方面,计算应用于重建音频信号的一组滤波系数。所述计算过程包括执行一个或多个频域计算。通过使用上述那组滤波系数在时域中对上述重建音频信号的至少一部分进行滤波,便产生了经滤波的音频信号。
在另一个方面,产生应用于重建音频信号的一组滤波系数。这些系数的产生过程包括处理用于表示一个或多个波峰和一个或多个波谷的一组系数值。处理该组系数值包括裁剪一个或多个波峰或波谷。使用所述滤波系数对上述重建音频信号的至少一部分进行滤波。
在另一个方面,接收根据多个重建频率子频带信号而合成的重建复合信号。所述子频带信号包括用于第一频带的重建第一频率子频带信号和用于第二频带的重建第二频率子频带信号。在第一频带和第二频带之间的交叉点周围的频率区域处,选择性地增强所述重建复合信号。
可组合或独立地使用所述各种技术和工具。
下列参考所述附图进行的不同的实施例的详细说明将使得附加的特点和优点更明显。



图1是可实现所描述的一个或多个实施例的适当的计算环境的方框图。
图2是一幅网络环境的方框图,和其一起可以实现一个或多个所描述的实施例。
图3是一幅描述可以被用于子频带编码的一个可能的频率子频带结构的图。
图4是一幅实时语音频带编码器的方框图,和其一起可以实现一个或者多个所描述的实施例。
图5是一幅描述在一个实施方式中确定密码本参数的流程图。
图6是一幅实时语音频带解码器的方框图,和其一起可以实现一个或者多个所描述的实施例。
图7是一幅描述可以在一些实施方式中使用的用于确定后置滤波系数的技术的流程图。

具体实施例方式 所描述的实施例涉及用于处理编码和/或解码中的音频信息的技术和工具。使用这些技术,改善从诸如实时语音编解码器的语音编解码器获得的语音质量。这种改进可以是各种技术和工具的独立或者组合使用的结果。
这种技术和工具可以包括使用在频域中被设计或处理的系数,被应用于时域中的解码音频信号中的后置滤波器。所述技术同时包括在这种滤波器里,或者在其它类型的后-过滤器中使用的裁剪或遮盖滤波系数值。
所述技术可能同时包括增强在频率区域的解码音频信号振幅的后置滤波器,在所述频率区域,能量也许已经由于频带范围中的分解而衰减。例如,所述滤波器可以增强在靠近相邻的交叉点频带的频率区域上的信号。
尽管为了表示,是以特殊的,连续的顺序描述用于各种技术的操作,应当被理解的是这种描述的方式包含按照操作顺序的局部的重新配置,除非需要特殊的排序。例如,顺序描述的操作在某些情况下可以被再排列或同时执行。而且,为了简化起见,流程图也许不显示特殊技术可以结合其他技术使用的各种方式。
在特定的计算环境特征和音频编解码器特征描述如下的时候,可以与各种不同类型的计算环境和/或各种不同类型的编解码器一起使用一个或多个所述工具和技术。例如,可以和不使用CELP编码模型的编解码器一起使用一个或多个后-滤波技术,诸如自适应差分脉码调制编解码器,转换编解码器其它类型编解码器。另一个例子,可以和单波段编解码器或子频带编解码器一起使用后滤波技术。另一个例子,一个或多个后-滤波技术可以被应用于多频带编解码器的单个频带和/或应用于包括多频带编解码器的多个频带的成分的合成或者未编码信号。
I.计算环境 图1举例说明适当的计算环境(100)的概括例子,在其中一个或多个所描述的实施例可以被实现。计算环境(100)不意味着表示对本发明的使用范围或功能的任何限制,因为可以在不同的通用目的或者专用目的的计算环境中实现本发明。
参考图1,所述计算环境(100)包括至少一个处理单元(110)和存储器(120)。在图1中,这种最基本布局(130)被包括在虚线内。所述处理单元(110)执行计算机可执行指令并且可以是真实的或虚拟的处理器。在多处理系统中,多处理单元执行计算机可执行指令以增加处理能力。存储器(120)可以易失性存储器(例如,寄存器,高速缓存器,RAM),非易失性存储器(例如,只读存储器,电可擦可编程只读存储器,闪速存储器,等等),或者所述两个的一些组合。、存储器(120)存储执行一个或多个此处所述的用于语音解码器的后-过滤技术的软件(180)。
计算环境(100)可以具有附加的特点。在图1中,计算环境(100)包括存储装置(140),一个或多个输入装置(150),一个或多个输出设备(160),和一个或多个通信连接(170)。互连机制(未示出)比如一总线,控制器,或网络互连计算环境(100)的组件。典型地,操作系统软件(未示出)提供对于在计算环境(100)中执行的其它软件的操作环境,并且协调计算环境(100)的组件的活动。
存储装置(140)可以是可移除的或不可移除的,并且可以包括磁盘,磁带或盒式录像带,CD-ROM,CD-RW,DVD,或任何其它可以被用于存储信息并且可以在计算环境(100)中被访问的介质。存储装置(140)存储用于所述软件(180)的指令。
输入设备(150)可以是接触式输入设备,比如键盘,鼠标,笔,或者轨迹球,声音输入设备,扫描设备,网络接口卡,或者提供到计算环境(100)的输入的另外的设备。对于音频,所述输入设备(150)可以是声卡、麦克风或其它接受模拟或数字形式的音频输入的设备,或者提供音频样本到计算环境(100)的CD/DVD读取器。所述输出设备(160)可以是显示器、打印机、扬声器、CD/DVD书写器、网络接口卡、或者提供自所述计算环境(100)的输出的另外的设备。
通信连接(170)使能从通信介质到另外的计算实体的通信。所述通信介质传送信息比如计算机可执行指令、压缩语音信息、或者调制数据信号中的其它数据。调制数据信号是具有一个或多个它的特征集合或者在编码所述信号中的信息的方式中变化的信号。举例来说,而不是限制,通信介质包括和电的、光学的、射频、红外线、声学的、或者其它载波一起执行的有线或者无线技术。
可以在计算机可读介质的一般环境中描述本发明。计算机可读的介质是任何可在计算环境中访问的可用介质。举例来说,而不是限制,伴随着所述计算环境(100),计算机可读介质包括存储器(120)、存储装置(140)、通信介质、和以上所述的任何组合。
本发明可以在计算机可执行指令的一般环境中描述,诸如那些包括在程序模块中,在对象真实或虚拟处理机上的计算环境中执行的。一般来讲,程序模块包括例程、程序、库、对象、类、组件、数据结构等等。其执行特殊的任务或实现特殊的抽象数据类型。程序模块的功能可以在不同的实施例中所要求的程序模块之间被组合或拆分。可以在本地或分布式计算环境中执行用于程序模块的计算机可执行指令。
为了表示起见,所述详细说明可以使用像“确定”、“产生”、“调节”和“应用”的术语去描述计算环境中的计算机操作。这些术语是用于由计算机执行的操作的高级抽象,并且不应当与人类所进行的动作相混淆。相应于这些术语的实际的计算机操作根据实现方式而变化。
II.通用联网环境和实时语音编解码器 图2是一幅通用网络环境(200)的方框图,和其一起所描述的实施例可以被实现。网络(250)将不同的解码器侧组件与不同的编码器侧组件分开。
编码器侧和解码器侧组件的基本功能分别是语音编码和解码。在编码器侧,输入缓冲器(210)接受和存储语音输入(202)。语音编码器(230)记录来自输入缓冲器(210)的语音输入(202)并且编码它。
具体来讲,帧分离器(212)将语音输入(202)拆分为帧。在一个实现方式中,所述帧是相同的20毫秒长-对于8kHz输入,160个样本以及对于16kHz输入,320个样本。在其它实现方式中,所述帧具有不同的持续时间,是不均匀的或交叠的,和/或输入(202)的采样率是不同的。可以在超级帧/帧,帧/子帧,或者用于编码和解码的不同级的其他配置组织所述帧。
帧分类器(214)根据一个或多个标准(诸如所述信号的能量、零点交叉速率、长期预测增益、增益微分、和/或其它用于子帧或整个帧的标准)来分类所述帧。基于所述标准,帧分类器(214)将不同的帧分类为诸如安静的、未发声的、话音的、和变换(例如,未发声的到话音的)。此外,所述帧可以根据所述冗余编码的类型被分类,即使有,也被用于所述帧。所述帧分类影响将被计算以编码所述帧的参数。此外,所述帧分类可以影响分辩率和损耗恢复力,伴随所述分类参数被编码,以便提供更多的分辩率和损耗恢复力给更重要的帧分类和参数。例如,典型地以很低的速率编码不发声的无声的帧,如果丢失通过隐藏而恢复是非常简单的,并且也许不需要对抗损耗的保护。典型地以稍高的速率编码未发声的帧,如果丢失通过隐藏而恢复是相当简单的,并且不明显地被保护以对抗损耗。通常以更多的位编码话音和变换帧,取决于帧的复杂性和所述变换的存在。话音和变换帧如果丢失很难被恢复,并因此更明显地被保护以对抗损耗。做为选择,帧分类器(214)使用其它和/或附加的帧分类。
所述输入的语音信号在将诸如CELP编码模型的编码模型应用到用于帧的子频带信息之前,可以被分为子频带信号。这可以通过使用一连串的一个或多个分析滤波器组(诸如QMF分析滤波器)(216)而完成。例如,如果将使用三频带结构,那么经由传递所述信号通过低通滤波器可以分离低频带。同样地,可以经由传递所述信号通过高通滤波器而分离所述高频段。可以经由传递所述信号通过带通滤波器而分离所述中频带,其可以包括串联的低通滤波器和高通滤波器。做为选择,可以使用其它类型的用于子频带分解和/或滤波器的时间(在帧拆分之前)的选择的滤波器方案。只要将解码一个频带以用于一部分所述信号,所述部分可以绕过分析滤波器组(216)。
频带数目n可以由采样率来确定。例如,在一个实现方式中,对于8kHz的采样率使用单个频带结构。对于16kHz和22.05kHz采样率,使用如图3所示的三频带结构。在图3的三频带结构中,低频率频带(310)扩展一半全带宽F(从0到0.5F)。所述带宽的另一半被均分在中频带(320)和高频带(330)之间。靠近所述频带的交叉点,所述频率响应于从过去的级别减少到停止级别的频带,其特征在于解决在两侧的作为所述交叉点的所述信号的衰减。也可以使用所述频带宽度的其他区域。例如,对于32kHz采样率,可以使用等距的四频带结构。
所述低频带对于语音信号是通常最重要的频带,因为所述信号能量通常向着更高频率的范围衰减。因此,经常使用比其他频带更多的位编码低频带。与单个频带编码结构相比,所述子频带结构是更灵活的,并提供对穿过所述频带的分层噪声的更好的控制。因此,可以相信通过使用所述子频带结构显著地改善所感知的话音质量。然而,象在下面所讨论的,所述子频带的分解可以引起在靠近相邻频带的交叉点的频率区域上的信号的能量损失。这种能量损失可以损害产生的解码语音信号的质量。
在图2中,独立地编码每个子频带,正如编码组件(232,234)所说明的。当独立地显示频带编码组件(232,234)的时候,所有频带的编码可以由单个编码器所完成,或者可以由单独的编码器编码它们。下面将参考图4更详细地描述这种频带编码。做为选择,所述编解码器可以作为单个频带编解码器。所述产生的编码语音通过多路传输(“MUX”)(236)被提供用于一个或多个网络层(240)的软件。网络(240)处理用于经由网络(250)的传输的编码语音。例如,所述网络层软件将编码语音信息的帧打包成为遵循RTP协议的分组,使用UDP,IP,和不同的物理层协议经由因特网中继传输所述分组。做为选择,使用软件或网络协议的其它和/或附加层。
网络(250)是诸如因特网的宽区域,分组交换网。作为选择,网络(250)是本地区域网络或者其他类型的网络。
在解码器侧,用于一个或多个网络层(260)的软件接收和处理所述发送数据。在解码器侧网络层(260)的网络,传送,和更高层的协议和软件通常与编码侧网络层(240)的那些相对应。所述网络层通过信号分离器(“DEMUX”)(276)将编码语音信息提供给语音解码器(270)。
解码器(270)独立地解码每一个子频带,如同在频带解码组件(272,274)中所描述的。可以通过单个解码器解码所有的子频带,可以通过独立的频带解码器解码它们。
然后所述解码子频带被结合在一连串的一个或多个综合型滤波器组(诸如QMF综合型滤波器)(280)中,其输出解码语音(292)。做为选择,使用用于子频带合成的其它类型的滤波器方案。只要单个频带存在,那么所述解码频带就可以绕过所述滤波器组(280)。如果多个频带存在解码语音输出(292),可能也通过中间频率的改进后置滤波器(284)传送解码语音输出(292)以改善产生的增强语音输出(294)的质量。下面将更详细地讨论中间频率改进后置滤波器的实现方式。
下面参考图6描述一个通用化实时语音频带解码器,但是可以取代它使用其它语音解码器。此外,一些或所有所描述的工具和技术可以和其它类型的音频编码器和解码器,诸如音乐编码器和解码器,或通用音频编码器和解码器一起使用。
除了这些主要的编码和解码功能以外,组件可能也共享信息(图2中的虚线所示)以控制速率,质量,和/或所编码语音的损耗恢复力。速率控制器(220)考虑因素诸如输入缓冲器(210)中的电流输入的复杂性,编码器(230)中或别处的输出缓冲器缓存器满,期望输出速率,电流网络带宽,网络拥塞/噪声状态和/或解码器损失率。解码器(270)将解码器损失率信息反馈到速率控制器(220)。网络层(240,260)收集或估计与电流网络带宽和拥塞/噪声状态有关的信息,将其反馈到速率控制器(220)。做为选择,速率控制器(220)考虑其它和/或附加因素。
速率控制器(220)指挥语音编码器(230)改变用于对语音进行编码的速率、质量和/或损耗恢复力。编码器(230)通过调节用于参数的量化因素或改变表示所述参数的熵代码的分辩率可以改变速率和质量。此外,所述编码器可以通过调节冗余编码的速率或类型改变损耗恢复力。因此,编码器(230)可以根据网络状态,改变在主要的加密函数和损耗恢复力功能之间的位的分配。
图4是一幅实时语音频带编码器(400)的方框图,和其一起一个或者多个所描述的实施例可以被实现。频带编码器(400)总体上与图2中的频带编码组件(232,234)的任意一个相对应。
频带编码器(400)从过滤器组(或者其他过滤器)接受频带输入(402),如果所述信号被分离成若干频带。如果所述信号未被分离成若干频带,那么频带输入(402)包括表示整个带宽的样本。频带编码器生成编码频带输出(492)。
如果信号被分离成若干频带,那么缩减采样组件(420)可以执行在每个频带上的缩减采样。例如,如果采样率被设置为16kHz并且每个帧在持续时间上为20毫秒,那么每个帧包括320个样本。如果没有执行缩减采样并且将所述帧分离为图3所示的三频带结构,那么将将为了所述帧编码或者解码三倍数量的样本(例如,每频带320个样本,或者总计960个样本)。然而,每个频带都可以被缩减采样。例如,低频带(310)可以从320个样本被缩减采样到160个样本,并且中频带(320)和高频带(330)的每一个都从320个样本缩减采样到80个样本,在那里频带(310,320,330)分别扩展超过频带范围一半,四分之一,和四分之一。(在这个实现方式中缩减采样(420)的程度涉及频带(310,320,330)的频率范围。然而,其他的实现方式是可能的。在稍后的阶段,更少的位一般被用于更高的频带,由于信号能量典型地朝向更高的频率范围衰落。)由此,这提供了总计320个为了所述帧而被编码或者解码的样本。
LP分析组件(430)计算线性预测系数(432)。在一个实现方式中,LP过滤器对于8kHz输入使用10个系数并且对于16kHz输入使用16个系数,LP分析组件(430)计算用于每个频段的每帧线性预测系数的一个集合。作为选择,LP分析组件(430)计算用于每个频段的每帧系数的两个集合,一个用于集中在不同位置的两个窗口的每一个,或者计算每频段和/或每帧的不同数量的系数。
LPC处理组件(435)接收和处理线性预测系数(432)。典型地,LPC处理组件(435)将LPC值转化为用于更有效的量化和编码的不同的表示。例如,LPC处理组件(435)将LPC值转化为线频谱对(LSP)表示,并且量化(例如被向量量化)并且编码LSP值。可以从其他LSP值内部编码或者预测LSP值。不同的表示,量化技术,和编码技术对于LPC值是可能的。以作为编码频带输出(492)的部分的某些形式,为打包和传输(连同任何量化参数和重建所需的其他信息一起)提供LPC值。为了在编码器(400)中的随后的使用,LPC处理组件(435)重建LPC值。LPC处理组件(435)可以执行对LPC值的插入(例如在LSP表示或者其他表示中等价的)以平滑LPC系数的不同集合之间的,或者被用于帧的不同子帧的LPC系数之间的转换。
合成(或者“短期预测”)过滤器(440)接受重建LPC值(438)并将它们结合到所述过滤器中。合成过滤器(440)接收激励信号并生成所述原始信号的近似值。对于特定帧,合成过滤器(440)为了预测的开始可以从在前的帧中缓冲许多的重建样本(例如,10个用于10-选择过滤器)。
感知加权组件(450,455)将感知加权应用到原始信号以及合成过滤器(440)的模拟输出,以便可选地强调语音信号的共振峰结构以使得听觉系统对量化错误更不敏感。感知加权组件(450,455)利用心理声学的现象,诸如掩蔽。在一个实现方式中,感知加权组件(450,455)施加基于从LP分析组件(430)接收的原始LPC值(432)的权重。作为选择,感知加权组件(450,455)施加其他和/或附加的权重。
在感知加权组件(450,455)之后,编码器(400)计算感知的加权原始信号和合成过滤器(440)的感知的加权输出之间的差以生成差动信号(434)。作为选择,编码器(400)使用不同的技术去计算语音参数。
激励参数化组件(460)搜索以发现自适应密码本索引,安装的密码本索引和获得的密码本索引的组合,按照最小化感知的加权原始信号和复合信号之间的差(按照加权的均方离差错误或者其他标准)。每个子帧计算一些参数,但是更普遍地所述参数可以是每超级帧,帧,或者子帧。如上所讨论的,用于帧或者子帧的不同频带的参数可以不同。表2表示了一个实现方式中的用于不同帧分类的有效类型参数。


表2不同帧分类的参数 在图4中,激励参数化组件(460)将帧划分为子帧,并且计算密码本索引和对于每个子帧的适合的获益。例如,将被使用的密码本索引阶段的数量和类型,以及密码本索引的决定,最初可以由编码模式所确定,在那里所述模式由上面讨论的速率控制组件所规定。特定模式也可以规定编码和解码参数除了密码本索引阶段的数量和类型,例如,密码本索引的决定。通过最优化参数确定每个密码本索引阶段的参数,以最小化目标信号和那个密码本索引阶段到复合信号的基值之间的错误。所述增益乘以所述间距预测值是到所述电流帧或子帧的激励信号的自适应密码本基值。(如在此所使用的,术语"最优化"表示发现在适当的约束条件下的合适的解决方案诸如失真减少、参数搜索时间、参数搜索复杂性、参数的比特率、等等,与在参数空间上执行完全的搜索相反。类似地,术语"最小化"将应按照发现在适当的约束条件之下的合适的解决方案来理解。)例如,可以利用修正平均值均方误差的方法完成最优化。每个阶段的目标信号是在剩余信号和先前的密码本阶段,如果有的话,到复合信号的基值的和之间的差。做为选择,可以使用其他的最优化技术。
图5表示用于根据一个实现方式确定密码本参数的技术。激励参数化组件(460)可能连同其他的诸如速率控制器的组件一起,执行所述技术。做为选择,编码器中的另外的组件执行所述技术。
参考图5,对于话音或转换帧中的每个子帧,激励参数化组件(460)确定是否可能将自适应密码本用于电流子帧(510)。(例如,速率控制可以规定没有自适应密码本将被用于特别的帧。)如果不使用所述自适应密码本,那么自适应密码本开关将指示没有自适应密码本将被使用(535)。例如,这可以通过在帧等级上设置一位标志以指示没有自适应密码本被用于所述帧,通过在帧等级上指定特别的编码模式,或通过为每个子帧设置一位标志以指示没有自适应密码本被用于所述子帧来完成。
仍然参考图5,如果可以使用自适应密码本,那么组件(460)确定自适应密码本参数。那些参数包括索引、或间距值,其指示激励信号历史的要求部分,以及施加到所述要求部分的增益。这个搜索从由图4中的可选择的开环间距搜索组件(425)所确定的间距开始。开环间距搜索组件(425)分析由加权组件(450)产生的被加权的信号以估计它的间距。从这个估计间距开始,闭环间距搜索最优化所述间距值以减少在目标信号和从激励信号历史的指示部分产生的加权复合信号之间的错误(520)。自适应密码本增益值也被最佳化(525)。自适应密码本增益值指示施加到所述间距预测值的乘积倍数(所述值来自激励信号历史的指示部分)、以调整所述值的比例。所述增益乘以所述间距预测值是到所述电流帧或子帧的激励信号的自适应密码本基值。增益最优化(525)和闭环间距搜索(520)分别地产生增益值和索引值,其最小化目标信号和来自自适应密码本基值的加权复合信号之间的错误。
如果组件(460)确定将使用所述自适应密码本(530),那么在比特流中将所述自适应密码本参数作为信号(540)。如果不,那么指示没有自适应密码本被用于所述子帧(535),诸如通过设置一位子帧等级标志,正如上面所讨论的。这个决定(530)可以包括确定是否用于特别的子帧的自适应密码本基值是足够重要到值得要求所述数量的位对自适应密码本参数发信号。做为选择,一些其他的基准可以被用于所述决定。而且,虽然图5显示在所述决定之后发信号,做为选择,信号被分批直到所述技术对帧或超级帧结束。
激励参数化组件(460)也确定是否使用脉冲密码本(550)。所述脉冲密码本的使用或停用被表示为用于所述电流帧的全部编码的一部分,或可能以其他方式被指示或确定。密码本是一种指定一个或多个提供给所述激励信号的脉冲的安装密码本。脉冲密码本参数包括索引和符号对(增益可以是正的或负的)。每对都指示将脉冲同指示脉冲位置的索引和指示脉冲极性的符号一起归入到激励信号中。包括在脉冲密码本内并且用于提供给激励信号的脉冲的数目可以取决于编码模式而变化。另外,脉冲的数目可能取决于是否正在使用自适应密码本。
如果使用脉冲密码本,那么所述脉冲密码本参数对最小化指示脉冲的基值和目标信号之间错误是最佳化的(555)。如果未使用自适应密码本,那么目标信号是被加权的原始信号。如果使用自适应密码本,那么目标信号是加权的原始信号和所述自适应密码本到加权的复合信号的基值之间的差。在某些点(未示出)上,然后在比特流中向脉冲密码本参数发信号。
激励参数化部件(460)也确定是否使用任何随机的安装密码本阶段(565)。随机的密码本阶段的数目(如果有的话)表示为用于电流帧的全部的编码模式的一部分或可能以其他方式被确定。随机的密码本是一种运用用于它编码的值的预定义信号模型的安装密码本。密码本参数可以包括用于信号模型的指示部分的起始点和可以是正的或负的的符号。指示部分的长度或范围被典型地安装而并未因此被典型地用信号通知,但是做为选择地用信号通知指示部分的长度或宽度。增益乘以指示部分中的值以产生随机的密码本到激励信号的基值。
如果使用至少一个随机的密码本,那么用于密码本的密码本阶段参数对最小化随机的密码本的基值和目标信号之间的错误是最佳化的(570)。目标信号是加权的原始信号和到自适应密码本(如果有的话)的加权的复合信号,到脉冲密码本(如果有的话),以及到先前确定的随机的密码本阶段(如果有的话)的基值的和之间的差。在某些点(未示出)上,然后在比特流中向随机的密码本参数发信号。
部件(460)然后确定是否将使用任何更多的随机的密码本阶段(580)。如果是这样的话,那么下一个随机的密码本阶段的参数被最佳化(570)并且如上所述地被用信号通知。这么继续直到所述随机的密码本阶段的全部参数参数都已经被确定。全部的所述随机的密码本阶段可以使用相同的信号模型,虽然它们将可能指示来自所述模型的不同部分部分有不同的增益值。做为选择,不同的信号模型能被用于不同的随机的密码本阶段。
每个激励增益可能被独立地量子化或两个或更多增益可能被共同量子化,如被速率控制器和/或其他的部件所确定的。
虽然用于最佳化不同的密码本参数的特别的顺序已经在这里阐明,也可能使用其他的顺序和最优化技术。例如,可以同时地最佳化全部的随机的密码本。如此,虽然图5表示不同的密码本参数的按序计算,做为选择,两个或更多不同的密码本参数被共同地最佳化(例如,根据一些非线性优化技术通过共同地变化参数和评价结果)。另外,可以使用密码本的其他结构或其他激励信号参数结构。
在这个实现方式中的激励信号是自适应密码本,脉冲密码本,和随机的密码本阶段的任何基值的和。做为选择,图4的部件(460)可以计算用于所述激励信号的其他的和/或附加参数。
参考图4,用于所述激励信号的密码本参数被用信号通知或不同地被提供给本地解码器(465)(在图4中以虚线包围)以及提供给频带输出(492)。如此,对于每个频带,编码器输出(492)包括来自上面讨论的LPC处理部件(435)的输出,以及来自激励参数化部件(460)的输出。
输出(492)的比特率部分地取决于由所述密码本使用的参数,并且编码器(400)可以控制比特率和/或通过密码本索引的不同集合之间的切换,使用嵌入码,或使用其他的技术的音色。密码本类型的不同组合和阶段可以产生用于不同的帧,频带,和/或子帧的编码模式。例如,未发声的帧可以仅仅使用一个随机的密码本阶段。自适应密码本和脉冲密码本可能被用于低速率话音帧。可能使用自适应密码本,脉冲密码本,和一个或更多随机的密码本阶段编码高速帧。在一个帧中,共同用于全部子频带的全部编码模式的组合可能被称为集合。可能有若干对于每个采样率的预定义模式集合,具有相应于不同的编码比特率的不同的模式。速率控制模块可以确定或影响用于每个帧的模型集合。
仍然参考图4,激励参数化部件(460)的输出通过密码本重建部件(470、472、474、476)和相应于由参数化部件(460)使用的密码本的增益应用程序部件(480、482、484、486)所接收。密码本阶段(470、472、474、476)和相应增益应用程序部件(480、482、484、486)重建所述密码本的基值。那些基值被求和以产生激励信号(490),其被综合型滤波器(440)所接收,其中它与“预测”样本一起使用,随后的线性预测发生从所述“预测”样本中发生。激励信号的延迟部分也通过自适应密码本重建组件(470)以重建随后的自适应密码本参数(例如,音调基值),并且通过在计算随后的自适应密码本参数中(例如,音调索引和音调增益值)的参数化组件(460)而被用作激励历史信号。
回头参考图2,对于每个频带的频带输出连同其它参数一起,都由MUX(236)所接受。如此的其它参数可以包括在其它信息之中的来自帧分类器(214)和帧编码模式的帧分类信息(222)。MUX(236)构造应用层分组以传递到其它软件,或MUX(236)将数据放置在遵循诸如RTP协议的分组的有效负载中。所述MUX可以缓冲参数以便允许用于在后来的分组中的前向纠错的参数的选择性重复。在一个实现方式中,MUX(236)将用于一个帧的主要的编码语音信息连同用于一个或多个先前帧的全部或一部分的前向纠错信息一起,封装成为单个分组。
MUX(236)提供诸如用于速率控制目的的电流缓冲器满的反馈。一般地说,编码器(230)的不同的组件(包括帧分类器(214)和MUX(236))可以提供信息到诸如图2中所示的速率控制器(220)。
图2的比特流DEMUX(276)接受作为输入的编码语音信息并且分析它以识别并且处理参数。所述参数可以包括帧分类,一些LPC值的表示,以及密码本参数。所述帧分类可以表示哪些其它参数为了给定的帧而存在。一般地说,DEMUX(276)使用由编码器(230)使用的协议并且提取编码器(230)封装到分组里的参数。为了经由动态的分组交换网接收的分组,DEMUX(276)包括抖动缓冲器以消除超过一给定时段的在包速率中的短时起伏。在某些情况下,解码器(270)调节缓冲器延迟并且管理何时从缓冲器读出分组以便集成延迟,质量控制,丢失帧的隐藏,等等到解码中。在其它情况下,应用层组件管理所述抖动缓冲器,并且以变化的速率填充所述抖动缓冲器并且由解码器(270)以不变的或相对固定速率耗尽。
DEMUX(276)可以接收对于给定的部分的多个版本的参数,包括主要的编码版本和一个或多个次要错误校正版本。当纠错失败,(270)使用诸如参数重复或基于被正确地接收的信息的估计的隐藏技术。
图6是一幅通用化实时语音频带解码器(600)的方框图,与其结合,一个或更多所描述的实施例可以被实现。频带解码器(600)通常对应图2的任何一个频带解码组件(272,274)。
频带解码器(600)接受用于频带的编码语音信息(692)(其可以是完整的频带,或多个子频带之一)作为输入并且在解码和滤波之后产生过滤的重建输出(604)。解码器(600)的组件具有在编码器(400)中的相应组件,但是整个解码器(600)是更简单的因为它缺少用于感知加权,激励处理环和速率控制的组件。
LPC处理组件(635)接收表示按照频带编码器(400)提供的形式的LPC值的信息(以及任何量化参数及其他重建所需的信息)。LPC处理组件(635)使用预先应用于所述LPC值的转换,量化编码,等等的逆重建LPC值(638)。LPC组件(635)可能同时执行用于LPC值(以LPC表示或另外的表示诸如LSP)的插补以平滑LPC系数的不同设置之间的变换。
密码本阶段(670,672,674,676)和增益应用程序组件(680,682,684,686)解码任何被用于激励信号的相应密码本阶段的参数并且计算被使用的每个密码本阶段的基值。通常,密码本阶段(670,672,674,676)的配置与操作和增益组件(680,682,684,686)对应于编码器(400)中的密码本阶段(470,472,474,476)的配置与操作和增益组件480,482,484,486)。被使用的密码本阶段的基值被求和,并且结果激励信号(690)被输入到合成滤波器(640)。激励信号(690)的延迟值在计算用于激励信号的随后部分的自适应密码本的基值中,也被自适应密码本(670)用作激励历史。
合成滤波器(640)接受重建LPC值(638)并且将它们合并到所述滤波器中。合成滤波器(640)存储用于处理的预先重建样本。通过合成滤波器传送激励信号(690)以形成原始语音信号的近似值。
同样将重建子频带信号(602)输入到短期后置滤波器(694)中。所述短期后置滤波器产生过滤的子频带输出(604)。在下面描述用于计算短期后置滤波器(694)的系数的若干技术。对于自适应的后置滤波器,解码器(270)可以计算来自编码语音的参数(例如,LPC值)的系数。做为选择,通过其它的技术提供所述系数。
回头参考图2,如上所述,如果存在多个子频带,对于每一子频带的子频带输出都被结合在合成滤波器组(280)中以形成语音输出(292)。
图2-6中所示的关系表示一般的信息流;其它关系为了简化起见而不显示。根据实现方式和期望的压缩类型,可以添加,遗漏组件,将组件划分为多个组件,与其他的组件相结合,和/或替换为类似的组件。例如,在图2所示的环境(200)中,速率控制器(220)可以与语音编码器(230)相结合。可能的添加组件包括管理语音编码器或解码器}以及其它编码器(或解码器)和收集网络和解码器情况信息,并且执行自适应的纠错功能的多媒体编码(或播放)应用。在可替换的实施例中,组件的不同的组合和配置使用此处所述的技术处理语音信息。
III.后置滤波器技术 在一些实施例中,解码器或其它工具将短期的后置滤波器应用到重建音频,诸如重建语音,在已经将其解码之后。如此的滤波器可以改善所述重建语音的感知质量。
后置滤波器典型地是时域后置滤波器或者频域后置滤波器。传统的用于CELP编解码器的时域后置滤波器包括由一个常数因子度量的全部电极线性预测系数合成滤波器和由另外的常数因子度量的全部零线性预测系数反向滤波器 此外,通常所说的“频谱倾斜”的现象存在在许多语音信号中因为正常语音中的较低频率的振幅经常高于较高频率的振幅。因此,语音信号的频域振幅频谱经常包括斜率,或“倾斜”。因此,来自原始语音的频谱的倾斜应当所述存在于重建语音信号中。然而,如果后置滤波器的系数同样包括如此的倾斜,那么所述倾斜的结果将在所述后置滤波器输出中被放大以致扭曲所述滤波器语音信号。因此,一些时域后置滤波器同样具有一阶高通滤波器以补偿频谱的倾斜。
因此典型地通过两三个参数控制时域后置滤波器的特征,其并未提供许多灵活性。
另一方面,频域后置滤波器具有定义后置滤波器特性曲线的更灵活的方式。在频域后置滤波器中,在频域内确定滤波系数。在频域中变换,并且在频域内过滤解码语音信号。然后过滤信号被变换回到时域中。然而,合成滤波器时域信号典型地具有与原始的未滤波的时域信号不同的样本数。例如,可以使用256-点变换诸如256-点快速傅里叶变换(“FFT”),在最近样本的填充或包含之后,将具有160个样本的帧转换到频域。当应用256-点反向快速傅里叶变换去将所述帧转换回到所述时域时,将产生256个时域样本。因此,它产生额外的96个样本。所述额外的96个样品可以一致于,或者被增加到下个帧的首次96个样本中的各自样本。这经常被称为交叠相加技术。语音信号的变换,以及诸如交叠相加技术的技术实现方式可以显著地增加整个解码器的复杂性,特别是对于已经不包括频率变换组件的编解码器。因此,典型地频域后置滤波器仅仅被用于基于语音编解码器的正弦曲线因为这种滤波器对基于编解码器的非正弦的应用引入太多的延迟和复杂性。频域后置滤波器同时典型地具有更少灵活性来改变帧尺寸,如果所述编解码器帧尺寸在编码期间变化,因为如果遇到不同尺寸的帧(诸如具有80个样本的帧,而不是160个样本),上面讨论的交叠相加技术的复杂性可能变成禁止的。
在特殊的计算环境特征和音频编解码器特征如上所述的时候,可以与各种不同类型的计算环境和/或各种不同类型的编解码器一起使用一个或多个所述工具和技术。例如,可以和不使用CELP编码模型的编解码器一起使用一个或多个后-滤波技术,诸如自适应差分脉码调制编解码器,转换编解码器其它类型编解码器。另一个例子,可以和单波段编解码器或子频带编解码器一起使用后滤波技术。另一个例子,一个或多个后-滤波技术可以被应用于多频带编解码器的单个频带和/或应用于包括多频带编解码器的多个频带的成分的合成或者未编码信号。
A.混合短期后置滤波器举例 在一些实施例中,诸如图6中所示的解码器(600)的解码器包括用于后-处理的自适应的时间-频率“混合”滤波器,或将这种滤波器应用到解码器(600)的输出。做为选择,这种滤波器被结合进或应用于一些其它类型的音频解码器或处理工具,例如,在别处描述的目前应用的语音编解码器,的输出。
参考图6,在一些实现方式中,短期后置滤波器(694)是基于时域与频域处理的组合的“混合”滤波器。可以灵活地和有效地首先将后置滤波器(694)的系数设计在频域内,并且在时域中可以将所述系数应用到短期后置滤波器(694)。这种方法的复杂性典型地比标准频域后置滤波器更低,并且它可以以引入可以忽略的延迟的方式来实现。此外,所述滤波器可以比传统的时域后置滤波器提供更多灵活性。人们相信这种混合滤波器可以在没有需要过量的延迟或解码器复杂性的情况下显著地改善输出通话质量。此外,因为滤波器(694)被应用在时域中,它可以被应用到任何尺寸的帧。
一般来讲,后置滤波器(694)可以是有限脉冲响应(“FIR”)滤波器,它的频率-响应是执行在LPC合成滤波器的量度频谱的对数上的非线性过程的结果。可以设计所述后-的量度频谱以便滤波器(694)仅仅在频谱的波谷衰减,并且在某些情况下至少所述量度频谱的一部分被裁剪以在共振峰区域的周围是平坦的。如在下面所讨论的,可以通过截取由所述处理的量度频谱的傅里叶逆变换产生的标准化序列来获取所述FIR后-滤波系数。
滤波器(694)被应用到时域中的重建语音。可以将所述滤波器应用到整个频带或子频带。此外,可以单独或结合其它滤波器,诸如将在下面更详细地讨论的长期后置滤波器和/或中间频率增强型滤波器,使用所述滤波器。
可以使用不同的比特率,不同的采样率以及不同的编码算法与编解码器联合运转所描述的后置滤波器。人们相信后置滤波器(694)能够产生超过在没有所述后置滤波器的情况下的话音编解码器的使用的显著的质量改进。特别地,人们相信后置滤波器(694)减少频域中显而易见的分层噪声,在那里信号功率是相对低的,即,在共振峰之间的频谱的波谷中。典型地,在这些区域中信噪比是弱的。换言之,由于所述弱信号,当前存在的噪声是相对强烈的。人们相信所述后置滤波器通过衰减这些区域中的噪音水平来增强整体语音质量。
重建LPC系数(638)经常包含共振峰信息,因为所述LPC合成滤波器的频率响应典型地遵循所述输入语音的频谱的包络。因此,LPC系数(638)被用于导出短期的后置滤波器的系数。因为LPC系数(638)从一个帧到下一个或在一些其它的基准上改变,由它们所获得的后-滤波系数从帧到帧或在一些其它的基准上同样适应。
在图7中举例说明用于计算后置滤波器(694)的滤波系数的技术。图6的解码器(600)执行所述技术。做为选择,另外的解码器或后置滤波器工具执行所述技术。
解码器(600)获取LPC频谱通过零-填充(715)一组LPC系数(710)a(i)其中i=0,1,2,...P,并且a(0)=1来获取LPC频谱。LPC系数(710)集合可以从比特流获得,如果使用线性预测编解码器,诸如CELP编解码器。做为选择,可以通过分析重建语音信号而获取LPC系数(710)集合。即使所述编解码器不是线性预测编解码器也可以完成这个。P是在确定所述后滤波系数中使用的LPC系数a(i)的LPC顺序。一般来讲,补零涉及扩展具有零的信号(或频谱)以扩大它的时间(或频带)限制。在所述处理中,补零将长度P的信号映射到长度N的信号,其中N>P。在完整频带编解码器实现方式中,P对于8kHz采样率是10,并且对于高于8kHz的采样率是16。做为选择,P是一些其它的值。对于子频带编解码器,P对于每一子频带可以是不同的值。例如,对于使用图3中举例说明的三子频带结构的16kHz采样率,P对于所述低频频带(310)可以是10,对于中频带(320)可以是6,并且对于高频带(330)可以是4。在一个实现方式中,N是128。做为选择,N是一些其它数,诸如256。
解码器(600)然后在零-填充系数上执行N-点变换,诸如FFT(720),产生量度频谱A(k)。A(k)是零-填充LPC反向滤波器的频谱,其中k=0,1,2,...,N-1。所述量度频谱的逆(即,1/|A(k)|)产生所述LPC合成滤波器的量度频谱。
所述LPC合成滤波器的量度频谱被选择性地转换成对数域(725)以减少它的量度范围。在一个实现方式中,这个转换如下 其中1n是固有的对数。然而,其它的操作可被用于减少所述范围。例如,可以使用基数十的对数操作代替自然对数操作。
三个可选非线性的操作基于值H(k)标准化(730),非线性的压缩(735),以及裁剪(740)。
标准化(730)趋向于使H(k)的范围从帧到帧以及频带到频带更加连贯。标准化(730)和非线性的压缩(735)都减少非线性的量度频谱的范围,以便语音信号通过所述后置滤波器不被改变太多。做为选择,附加的和/或其它技术可被用于减少所述量度频谱的范围。
在一个实现方式中,初始的标准化(730)对于多频带编解码器的每一频带被执行如下 其中Hmin是H(k)的最小值,而k=0,1,2,...,N-1。
标准化(730)对于完整频带编解码器可以被执行如下 其中Hmin是H(k)的最小值,且Hmax是H(k)的最大值,而k=0,1,2,...,N-1。在上面两个标准化等式中,增加常量0.1以阻止

的最大和最小值分别成为1和0,由此使非线性的压缩更加有效。可以替代地使用其它常量,或其它技术以防止零值。
非线性的压缩(735)被如下执行以进一步地调节非线性的频谱的动态范围 其中k=0,1,...,N-1。因此,如果使用128-点FFT将所述系数转换到所述频域,那么k=0,1,...,127。此外,β=η*(Hmax-Hmin),其中η和γ是适当地选择的常数因子。可以根据语音编解码器的类型和所述编码率选择η和γ的值。在一个实现方式中,试验性地选择η和γ参数。例如,从0.125到0.135的范围选择γ,而从0.5到1.0的范围选择η。可以基于参数选择调节所述常量。例如,通过分析由不同的常量产生的预测频谱失真(主要在波峰和波谷周围)获得常量的范围。典型地,希望选择不超过预测失真的预定级别的范围。然后从使用主观的倾听试验的结果的范围之内的一组值中选择最终值。例如,在具有8kHz采样率的后置滤波器中,η是0.5而γ是0.125,而在具有16kHz采样率的后置滤波器中,η是1.0而γ是0.135。
裁剪(740)可以被应用于压缩频谱,Hc(k),如下
其中Hmean是Hc(k)的平均值,而是λ常量。可以根据语音编解码器的类型和所述编码率而不同地选择λ的值。在一些实现方式中,试验性地选择λ(诸如从0.95到1.1的值),并且可以基于参数选择调节它。例如,可以使用主观的倾听试验的结果选择λ的最终值。例如,在具有8kHz采样率的后置滤波器中,λ是1.1,并且在具有16kHz采样率的后置滤波器中,λ是0.95。
这个裁剪操作在最大限度,或最高限度上遮蔽Hpf(k)的值。在上述等式中,这个最大限度被表示为λ*Hmean。做为选择其它操作被用于遮蔽所述量度频谱的值。例如,所述最高限度可以基于Hc(k)的中间值,而不是平均值。同样,与其将全部高Hc(k)裁剪到特定的最大值(诸如λ*Hmean),可以根据更加复杂的操作裁剪所述值。
裁剪往往导致在没有在其它区域,诸如共振峰区域,显著地改变语音频谱的情况下,滤波系数将在它的波谷使衰减所述语音信号。这可以阻止后置滤波器扭曲所述话音峰段,由此产生高质量的语音输出。此外,裁剪可以减少频谱倾斜的影响,因为裁剪通过将大的值减少到被遮蔽的值来修平所述后置滤波器频谱,同时所述波谷周围的值基本上保持无变化。
当执行到所述对数域的转换时,所产生的裁剪量度频谱,Hpf(k),被从所述记录域转换到所述线性域(745),例如,如下 Hpfl(k)=exp(Hpf(k)) 其中exp是逆自然对数函数。在Hpfl(k)上执行N-点快速傅里叶逆变换(750),产生f(n)的时序,其中n=0,1,...,N-1,并且N与上面讨论的FFT操作(720)中的相同.因此,f(n)是N-点时序。
在图7中,通过对于n>M-1,设置所述值为0来截取f(n)的值(755),如下 其中M是所述短期后置滤波器的顺序。一般来讲,M的高位值产生高质量滤波器语音。然而,所述后置滤波器的复杂性随着M增加而增加。可以选择M的值,考虑这些平衡。在一个实现方式中,M是17。选择性地标准化h(n)的值以避免帧之间的急剧变化(760)。例如这些被完成如下 做为选择,使用其它的规格化操作。例如,可以使用下列操作 在实现方式中,其中标准化产生了后置滤波系数hpf(n)(765),具有系数hpf(n)(765)的FIR滤波器被应用到时域中的合成语音。因此,在这个实现方式中,第一顺序后滤波系数(n=0)被设置为一个用于每一帧的值以防止一个帧到下一帧的滤波系数的显著偏差。
B.中频增强滤波器举例 在一些实施例中,诸如图2中所示的解码器(270)的解码器包括用于后处理的中频增强型滤波器,或这种滤波器被应用到解码器(270)的输出。做为选择,这种滤波器被结合进或应用于一些其它类型的音频解码器或处理工具,例如,在别处描述的目前应用的语音编解码器,的输出。
如上所述,多频带编解码器将输入信号分解到减少的带宽信道里,典型地因为子频带对于编码是更加易控制的以及灵活的。带通滤波器,诸如如上参考图2所述的滤波器组(216),经常被用于编码之前的信号分解。然而,信号分解可以引起在所述带通滤波器的通道频带之间的频率区域上的信号能量的损失。所述中频改进(“MFE”)滤波器通过放大在频率区域的解码输出语音的量度频谱阻止这个潜在的问题,所述频率区域的能量由于信号分解而衰减,在没有显著地改变其它频率区域上的能量的情况下。
在图2中,MFE滤波器(284)被应用到频带合成滤波器的输出,诸如滤波器组(280)的输出(292)。因此,如果所述频带n解码器(272,274)是如图6中所示的,短期后置滤波器(694)被独立地应用到子频带解码器的每个重建频带,同时MFE滤波器(284)被应用到包括所述多个子频带的基值的组合或合成重建信号。如所指示的,做为选择,结合具有另外的配置的解码器应用MFE滤波器。
在一些实现方式中,MFE滤波器是二阶的带通FIR滤波器。它级联一阶低通滤波器和一阶高通滤波器。一阶滤波器都可以具有完全相同的系数。典型地,选择所述系数以便MFE滤波器增益在传输频带(增加所述信号的能量)上是所希望的并且在阻止频带(经过无变化的或相对无变化的信号)上是统一的。做为选择,一些其它技术被用于增强已经由于频带分解而衰减的频率区域。
一阶低通滤波器的传递函数是 一阶高通滤波器的传递函数是 因此,级联上面的低通滤波器和高通滤波器的二阶的MFE滤波器的传递函数是 对应的MFE滤波系数可以被表示为
可以实验选择μ的值。例如通过分析由不同的常量产生的预测频谱失真获取常量的范围。典型地,希望选择不超过预测失真的预定级别的范围。然后从使用主观的倾听试验的结果的范围之内的一组值中选择最终值。在一个实现方式中,当使用16kHz采样率,并且所述语音被插入下列三个频带(0到8kHz,8到12kHz,以及12到16kHz),它对于增强8kHz周围的区域可以是所希望的,并且选择μ为0.45。做为选择,选择μ的其它值,特别是如果增强一些其它频率区域是所希望的。做为选择,使用一个或多个不同设计的带通滤波器实现所述MFE滤波器,或使用一个或多个其它滤波器实现所述MFE滤波器。
已经参考所描述的实施例描述和举例说明了我们的发明的原理,将认识到的是在没有脱离这种原理的情况下可以在方案以及细节中修改所描述的实施例。应当被理解的是此处所述的程序,处理,或方法不涉及或不局限于任何特殊的类型的计算环境,除非另外表示。各种类型的通用或专业化计算环境可以被使用或根据此处所述的教学执行操作。软件中所示的所描述的实施例的元件可以在硬件中实现,反之亦然。
考虑到我们的发明的原理可以被应用到许多可能的实施例,我们要求象我们的发明所有如此的实施例可以在下列权利要求书以及此外的等价物的范围以及精神内。
权利要求
1.一种计算机实现的方法,包括
计算应用于重建音频信号的一组滤波系数,其中计算所述这组滤波系数包括执行一个或多个频域计算;以及
通过使用所述这组滤波系数在时域中对所述重建音频信号的至少一部分进行滤波,来产生经滤波的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述经滤波的音频信号表示所述重建音频信号的频率子频带。
3.根据权利要求1所述的方法,其特征在于,计算所述这组滤波系数包括
执行一组初始时域值从时域到频域的转换,由此产生一组初始频域值;
使用所述频域值执行一个或者多个频域计算,以产生一组处理过的频域值;
执行所述处理过的频域值从频域到时域的转换,由此产生一组处理过的时域值;以及
在时域中截取所述这组时域值。
4.根据权利要求1所述的方法,其特征在于,计算所述这组滤波系数包括处理一组线性预测系数。
5.根据权利要求4所述的方法,其特征在于,处理所述这组线性预测系数包括覆盖从所述这组线性预测系数获得的频谱。
6.根据权利要求4所述的方法,其特征在于,处理所述这组线性预测系数包括减小从所述这组线性预测系数获得的频谱的范围。
7.根据权利要求1所述的方法,其特征在于,所述一个或多个频域计算包括对数域中的一个或多个计算。
8.一种方法包括
产生应用于重建音频信号的一组滤波系数,包括处理用于表示一个或多个波峰以及一个或多个波谷的一组系数值,其中处理所述这组系数值包括裁剪一个或多个波峰或波谷;以及
使用所述滤波系数对所述重建音频信号的至少一部分进行滤波。
9.根据权利要求8所述的方法,其特征在于,所述裁剪包括在裁剪数值处覆盖所述这组系数值。
10.根据权利要求9所述的方法,其特征在于,产生一组滤波系数进一步包括计算作为所述这组系数值的平均值的函数的裁剪值。
11.根据权利要求8所述的方法,其特征在于,所述这组系数值至少部分地基于一组线性预测系数值。
12.根据权利要求8所述的方法,其特征在于,所述裁剪是在频域中执行的。
13.根据权利要求8所述的方法,其特征在于,所述裁剪是在时域中执行的。
14.根据权利要求8所述的方法,进一步包括在所述裁剪之前减小所述这组系数值的范围。
15.一种计算机实现的方法,包括
接收根据多个重建频率子频带信号而合成的重建复合信号,所述多个重建频率子频带信号包括第一频带的重建第一频率子频带信号和第二频带的重建第二频率子频带信号;以及
选择性地增强在所述第一频带和所述第二频带之间的交叉点周围的频率区域处的重建复合信号。
16.根据权利要求15所述的方法,进一步包括
解码经编码的信息,以产生所述多个重建频率子频带信号;以及
合成所述多个重建频率子频带信号,以产生所述重建复合信号。
17.根据权利要求15所述的方法,其特征在于,增强所述重建复合信号包括使所述重建复合信号通过带通滤波器,其中所述带通滤波器的通带对应于所述第一频带和所述第二频带之间的交叉点周围的频率区域。
18.根据权利要求17所述的方法,其特征在于,所述带通滤波器包括与高通滤波器串联的低通滤波器。
19.根据权利要求17所述的方法,其特征在于,所述带通滤波器在一个或多个阻带处具有单位一的增益并且在通带处具有大于单位一的增益。
20.根据权利要求15所述的方法,其特征在于,所述增强包括在频域中增加信号能量。
全文摘要
描述了用于处理重建音频信号的技术和工具。例如,使用至少部分在频域内计算出的滤波系数,在时域中对重建音频信号进行滤波。另外的例子,产生一组用于对重建音频信号进行滤波的滤波系数这一过程包括裁剪一组系数值中的一个或多个波峰。又一个例子,对于子频带编解码器,在频域中两个子频带之间的交叉点附近,增强重建复合信号。
文档编号G10L21/00GK101501763SQ200680018385
公开日2009年8月5日 申请日期2006年4月5日 优先权日2005年5月31日
发明者X·孙, T·王, H·A·海莉尔, K·科什达, W-G·陈 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1