可变速率语音编码器中的帧擦除补偿方法

文档序号:2823200阅读:286来源:国知局
专利名称:可变速率语音编码器中的帧擦除补偿方法
背景技术
一、发明领域本发明一般属于语音处理领域,尤其属于用于在可变速率语音编码器中补偿帧擦除的方法和装置。
二、背景借助数字技术的话音传送已变得普遍,尤其是在长距离和数字无线电电话应用中。反过来这建立了对确定可在信道上发送的最少量的信息,而保持重构的语音的可察觉的质量的兴趣。如果通过简单地采样和数字化而发送语音,要求大约每秒64千比特(kbps)的数据速率,以实现常规模拟电话的语音质量。然而,通过对语音分析的使用,继之以适当的编码、传送以及在接收机处的重新合成,可以在数据速率中实现显著的降低。
用于压缩语音的设备在电信的许多领域中得到了应用。一个示例性的领域是无线通信。无线通信领域有许多应用,包括例如无绳电话、寻呼、无线本地回路、诸如蜂窝网和PCS电话系统之类的无线电话、移动网际协议(IP)电话以及卫星通信系统。尤其重要的应用是用于移动订户的无线电话。
已经为无线通信系统开发了各种空中接口,包括例如频分多址(FDMA)、时分多址(TDMA)以及码分多址(CDMA)。与此有关的是,已经建立了各种国内的和国际的标准,包括例如高级移动电话服务(AMPS)、全球移动通信系统(GSM)以及暂行标准95(IS-95)。示例性的无线电话技术通信系统是码分多址(CDMA)系统。由电信工业协会(TIA)和其他著名的标准团体颁布了IS-95标准及其派生的IS-95A、ANSI J-STD-008、IS-95B、建议的第3代标准IS-95C以及IS-2000等等(这里把它们一起称为IS-95),为蜂窝或PCS电话通信系统规定了CDMA空中接口的使用。在美国专利号5,103,459以及4,901,307中描述了实质上根据对IS-95标准的使用而配置的示例性无线通信系统,把它们转让给本发明的受让人,并通过引用而充分结合于此。
把使用技术以通过提取关于人类语音产生的模型的参数来压缩语音的设备称为语音编码器。语音编码器将进入的语音信号分成时间块或分析帧。语音编码器典型地包括编码器和解码器。编码器分析进入的语音帧,以提取某些相关参数,并然后将这些参数量化成二进制表示,即量化成一组比特或二进制数据分组。在通信信道上将数据分组传送到接收机和解码器。解码器处理数据分组,对它们进行非量化以产生参数,并使用所述非量化的参数重新合成所述语音帧。
语音编码器的功能是通过除去语音中所固有的所有自然冗余而将数字化的语音信号压缩成低比特率的信号。通过使用一组参数表示输入语音帧,并使用量化以用一组比特来表示所述参数,来实现数字压缩。如果输入语音帧具有Ni个比特,并且语音编码器产生的数据分组具有No个比特,则由该语音编码器实现的压缩系数是Cr=Ni/No。问题是要保留经解码的语音的高话音质量,而实现目标压缩系数。语音编码器的性能取决于(1)语音模型或上述分析与合成处理的组合能多好地进行,以及(2)能多好地以每帧No比特的目标比特率进行参数量化处理。从而,语音模型的目的是用每帧一小组参数来捕获语音信号的本质,或目标话音质量。
语音编码器的设计中最重要的也许是寻找较佳的一组参数(包括矢量)来描述语音信号。较佳的一组参数要求低系统带宽用于对感觉上精确的语音信号的再现。音调、信号功率、谱包络(或共振峰)、幅度谱、以及相位谱是语音编码参数的例子。
可以把语音编码器实现为时域编码器,它试图通过使用每次编码小段语音(一般为5毫秒(ms)子帧)的高时间分辨率处理来捕获时域语音波形。对于每个子帧,借助于本领域中已知的各种搜索算法可从编码本空间发现高精度表示。另一方面,可以把语音编码器实现为频域编码器,它试图用一组参数(分析)捕获输入语音帧的短期语音频谱,并使用对应的合成处理,以从频谱参数中重建语音波形。参数量化器根据A.Gersho和R.M.Gray的“Vector Quantization and SignalCompression(1992)”中所描述的已知的量化技术,通过用所存储的编码矢量表示代表所述参数,来保存这些参数。
著名的时域语音编码器是按引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital Processing of Speech Signals”(1978年版)的第396页至453页中所描述的码激励线性预测(CELP)编码器。在CELP编码器中,通过发现短期共振峰滤波器系数的线性预测(LP)分析可除去语音信号中的短期相关或冗余。将短期预测滤波器施加到输入语音帧,产生了LP残余信号,用长期预测滤波器参数和随后的随机编码本进一步模型化并量化该信号。从而,CELP编码将编码时域语音波形的任务分割成对LP短期滤波器系数编码以及对LP残余编码的分开的任务。可用固定的速率(即对每帧使用相同的比特数N0)或以可变的速率(即对不同类型的帧内容使用不同的比特率)进行时域编码。可变速率编码器试图仅使用将编解码器参数编码成足够获得目标质量而所需的比特量。在转让给本发明的受让人并通过引用而充分结合于此。的美国专利号5,414,796中描述了一种示例性的可变速率CELP编码器。
诸如CELP编码器之类的时域编码器一般依靠每帧高比特数N0,以保存时域语音波形的精确度。只要每帧比特数N0相对较高(如8kbps或以上),这样的编码器一般提供极佳的话音质量。然而,以低比特率(4kbps以及以下),由于有限的可用比特数,时域编码器不能保持高质量和稳固的性能。以低比特率,有限编码本空间消减了常规时域编码器的波形匹配能力,而在较高速率商业应用中常规时域编码器得到相当成功地布署。因此,尽管随时间的过去而得到改进,但是许多以低比特率操作的CELP编码系统遭受到感觉上显著的失真,一般把该失真表征为噪声。
当前存在研究兴趣的高涨以及对于发展以中到低的比特率(即在2.4至4kbps以及以下的范围内)操作的高质量语音编码器的强烈的商业需要。应用范围包括无线电话、卫星通信、因特网电话、各种多媒体和话音流应用、话音邮件以及其他话音存储系统。驱动力是对于高容量的需要,以及在分组丢失的情况下对稳固的性能的需求。各种当前的语音编码标准化努力是推进研究和发展低速率语音编码算法的另一直接驱动力。低速率语音编码器以每个可允许的应用带宽建立较多的信道或用户,并且与额外的适当的信道编码层耦合的低速率语音编码器能够适合编码器规范的全部比特预算,并在信道差错的条件下提供稳固的性能。
以低比特率有效地编码语音的一个有效技术是多模式编码。在转让给本发明的受让人并通过引用而充分结合于此。的,1998年12月21日申请的名为“VARIABLERATE SPEECH CODING”的美国专利申请序列号09/217,941中描述了一种示例性的多模式编码技术。常规多模式编码器对不同类型的输入语音帧施加不同的模式,或编码-解码算法。将每种模式或编码-解码处理,以最有效的方式定制成最优地表示某一类型的语音段,诸如例如有声语音、无声语音、过渡语音(如有声和无声之间)以及背景噪声(无声或非语音)。外部开环模式判定机构检验输入语音帧,并作出关于要把哪种模式施加到该帧的判定。一般通过从输入帧中提取若干参数,按照某些时间和频谱特性来估计所述参数,并以所述估计作为模式判定的基础来进行所述开环模式判定。
以大约2.4kbps的速率操作的编码系统一般实质上是参数的。也就是说这样的编码系统通过以规则的间隔传送描述语音信号的音调周期和频谱包络(或共振峰)的参数。说明这些所谓的参数编码器是LP声码器系统。
LP声码器用每音调周期单个脉冲来模拟有声语音信号。可以把这种基本技术增补成尤其包括关于频谱包络的传送信息。虽然LP声码器一般提供合理的性能,但是它们可引入感觉上显著的失真,一般把这种失真表征为嗡嗡声。
近年来,波形编码器和参数编码器两者的混合的编码器已出现。说明性的这种所谓的混合编码器是原型波形内插(PWI)语音编码系统。还可把所述PWI编码系统称为原型音调周期(PPP)语音编码器。PWI编码系统提供编码有声语音的有效方法。PWI的基本概念是以固定的间隔提取代表性的音调循环(原型波形),传送其描述,并通过在原型波形之间内插来重构语音信号。PWI方法可在LP残余信号上操作或者在语音信号上操作。在转让给本发明的受让人,并通过引用而充分结合于此。的1998年12月21日申请的名为“PERIODIC SPEECH CODING”的美国专利申请序列号09/217,494中描述了示例性的PWI或PPP语音编码器。在美国专利号5,884,253以及W.Bastiaan Kleijn和Wolfgang Granzow的“Methods forWaveform Interpolation in Speech Coding,in 1 Digital Signal Processing215-230(1991)”中描述了其他PWI或PPP语音编码器。
在大多数常规语音编码器中,由编码器单独地量化并传送给定音调原型或给定帧的参数的每一个。此外,对每个参数传送一个差值。所述差值指定了当前帧或原型的参数值与先前帧或原型的参数值之间的差。然而,量化所述参数值和差值要求使用比特(以及因此要求带宽)。在低比特率编码器中,传送能保持令人满意的话音质量的最小的比特数是有利的。由于这个原因,在常规低比特率语音编码器中,仅量化和传送绝对参数值。将希望减少所传送的比特数,而不减少信息值。因此,在转让给本发明的受让人,并通过引用而充分结合于此。的,名为“METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH”的与本发明一起申请的相关申请中描述了量化先前帧的参数值的加权与当前帧的参数值之间的差的量化方案。
由于差的信道条件,语音编码器经受帧擦除或分组丢失。用于常规语音编码器中的一种解决办法是使解码器在接收到帧擦除的情况下简单地重复前一帧。在对自适应编码本的使用中找到了改进,它动态地调整紧接着帧擦除的帧。进一步改进,即增强的可变速率编码器(EVRC)在电信行业协会暂行标准EIA/TIA IS-127中得到了标准化。EVRC编码器依靠正确接收的、经低预测编码的帧在编码器存储器中改变未被接收的帧,并从而改进正确接收的帧的质量。
然而,伴随者EVRC编码器的问题是可产生帧擦除与随后的经调整的好帧之间的间断。例如,与无帧擦除发生的情况中音调脉冲的相对位置相比,可能把音调脉冲置得太近或分开太远。这样的间断可能造成可听见的喀哒声。
一般地,涉及低预测性(诸如上面的段落中所描述的那些)的语音编码器在帧擦除条件下表现较佳。然而,如所讨论的那样,这样的语音编码器要求相对较高的比特率。相反地,高度预测的语音编码器可实现合成语音输出的高质量(尤其是对于诸如有声语音之类的高周期的语音),但是在帧擦除条件下表现较差。将希望组合两种类型的语音编码器的品质。进一步有利的是提供一种平滑帧擦除与随后的经改变的好帧之间的间断的方法。从而,存在对帧擦除补偿方法的需要,该方法在帧擦除的情况下,改进预测编码器性能,并平滑帧擦除与随后的好帧之间的间断。
发明概述本发明针对帧擦除补偿方法,该方法在帧擦除的情况下,改进预测编码器性能,并平滑帧擦除与随后的好帧之间的间断。因此,在本发明的一方面中,提供了一种在语音编码器中补偿帧擦除的方法。该方法有利地包括量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;量化当前帧之前以及帧擦除之后的至少一个帧的Δ值,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值。
在本发明的另一方面中,提供了一种配置成补偿帧擦除的语音编码器。所述语音编码器有利地包括用于量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值的装置,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;用于量化当前帧之前以及帧擦除之后的至少一个帧的Δ值的装置,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及用于从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值的装置。
在本发明的另一方面中,提供了一种配置成补偿帧擦除的订户单元。所述订户单元有利地包括配置成量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值的第1语音编码器,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;配置成量化当前帧之前以及帧擦除之后的至少一个帧的Δ值的第2语音编码器,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及耦合至所述第1和第2语音编码器,并配置成从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值的控制处理器。
在本发明的另一方面中,提供了一种配置成补偿帧擦除的基础设施元件。所述基础设施元件有利地包括处理器;以及耦合至所述处理器并包含一组指令的存储媒体,所述指令可由所述处理器执行,以量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差,量化当前帧之前以及帧擦除之后的至少一个帧的Δ值,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差,以及从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值。
附图简述

图1是无线电话系统的框图。
图2是由语音编码器在每一端处终接的通信信道的框图。
图3是语音编码器的框图。
图4是语音解码器的框图。
图5是包括编码器/发射机和解码器/接收机部分的语音编码器的框图。
图6是有声语音段的信号幅度对时间的图。
图7说明了可用于图5的语音编码器的解码器/接收机部分中的第1帧擦除处理方案。
图8说明了专用于可变速率语音编码器的第2帧擦除处理方案,可把它用于图5的语音编码器的解码器/接收机部分中。
图9绘出各种线性预测(LP)残余波形的信号幅度对时间的曲线,以说明可用于平滑受到破坏的帧与好帧之间的过渡的帧擦除处理方案。
图10绘出各种LP残余波形的信号幅度对时间的曲线,以说明图9中所描述的帧擦除处理方案的好处。
图11绘出各种波形的信号幅度对时间的曲线,以说明音调周期原型或波形内插编码技术。
图12是耦合至一存储媒体的处理器的框图。
较佳实施例的详细说明下文中将要描述的示例性实施例驻留于配置成使用CDMA空中接口的无线电话技术通信系统。然而,本领域的普通技术人员将理解到,包含有本发明特征的用于对有声语音进行预测编码的方法和装置可驻留于于使用本领域中的普通技术人员已知的广泛技术的各种通信系统中的任一种。
如图1所示,CDMA无线电话系统一般包括多个移动订户单元10,多个基站12、基站控制器(BSC)14以及移动交换中心(MSC)16。把MSC 16配置成与常规公共交换电话网(PSTN)18接口。还把MSC 16配置成和BSC 14接口。通过回程线路把BSC 14耦合到基站12。可把回程线路配置成支持若干已知接口中的任何一种,如,E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。理解到,系统中可能有多于两个的BSC14。每个基站12有利地包括至少一个扇区(未示出),每个扇区包括一个全方向天线或者指向从基站12辐射出去的某一特定方向的天线。另一方面,每个扇区可以包括用于分集接收的两个天线。可以有利地把每个基站12设计成支持多个频率分配。可以把扇区和频率分配的交集称为CDMA信道。还可以把基站12称为基站收发机子系统(BTS)12。另外,可在业界中把“基站”用于统称BSC14和一个或多个BTS12。还可以把BTS12称为“小区站点”12。另外,可以把给定的BTS12的个别扇区称为小区站点。移动订户单元10一般是蜂窝或PCS电话机10。把该系统有利地配置成按照IS-95标准而使用。
在蜂窝网电话系统的典型操作期间,基站12接收来自多组移动单元10的反向链路信号集。移动单元10实施电话呼叫或其它通信。给定基站12所接收到的每个反向链路信号在该基站12中得到处理。把产生的数据传送给BSC14。BSC14提供呼叫资源分配和移动性管理功能,包括基站12之间的软越区切换的协调结合。BSC14还把接收到的数据路由发送到MSC16,MSC16为与PSTN18之间接口而提供额外的路由服务。类似地,PSTN18与MSC16接口,而MSC16与BSC14接口,BSC14依次控制基站12发送多组前向链路信号到多组移动单元10。本领域的普通技术人员应该理解在备择实施例中订户单元10可以是固定单元。
在图2中第1编码器100接收数字化的语音采样s(n),并对采样s(n)进行编码,用于在传输媒介102(或通信信道102)上的到第1解码器104的传输。解码器104对编码的语音采样解码,并合成输出的语音信号sSYNTH(n)。对于在相反方向上的传输,第2编码器106对数字化的语音采样s(n)编码,在通信信道108上传输该采样。第2解码器110接收并解码编码的语音采样,产生合成的输出语音信号sSYNTH(n)。
语音采样s(n)表示根据本领域中的任何各种已知方法(包括如脉冲编码调制(PCM)、μ律和A律压扩)而已经被数字化和量化的语音信号。如本领域中已知的,把语音采样s(n)组织成输入数据帧,其中每个帧包括预定个数的数字化语音采样s(n)。在示例性实施例中,使用8kHz的采样率,每个20毫秒帧包括160个采样。在下述的实施例中,可以有利地以逐帧的方式将数据传输率从全速率变化到半速率、到四分之一速率、到八分之一速率。变化的数据传输率是有利的,因为可以对包含相对较少语音信息的帧可选地使用较低的比特率。如本领域的那些普通技术人员所理解的那样,可以使用其它采样速率和/或帧大小。同样在下述的实施例中,可按逐帧的方式,响应于帧的语音信息或能量而改变语音编码(或编码)模式。
第1编码器100和第2解码器110一起包括第1语音编码器(编码器/解码器),或语音编解码器。可在用于发送语音信号的任何通信设备(包括如上面参考图1所述的订户单元、BTS或BSC)中使用语音编码器。类似地,第2编码器106和第1解码器104一起包括第2语音编码器。本领域的那些普通技术人员理解,可以用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块以及微处理器来实现语音编码器。软件模块可驻留于RAM存储器、闪存、寄存器或本领域中已知的任何其它形式的存储媒体中。另外,可用任何常规处理器、控制器或状态机来代替微处理器。在转让给本发明的受让人并通过引用而充分结合于此。的美国专利号5727123,以及转让给本发明的受让人并通过引用而充分结合于此。的1994年2月16日申请的名为“VOCODER ASIC”的美国专利申请序列号08/197417中,描述了为语音编码而专门设计的示例性ASIC。
在图3中,可以用于语音编码器中的编码器200包括模式判决模块202,音调估计模块204,LP分析模块206,LP分析滤波器208,LP量化模块210以及残余量化模块212。把输入语音帧s(n)提供给模式判决模块202、音调估计模块204、LP分析模块206以及LP分析滤波器208。模式判决模块202尤其根据每个输入语音帧s(n)的周期、能量、信噪比(SNR)或过零率,产生每模式索引IM和模式M。在转让给本发明的受让人并通过引用而充分结合于此。的美国专利号5911128中描述了根据周期来分类语音帧的各种方法。还把这样的方法结合于电信工业协会暂行标准TIA/EIA IS-127和TIA/EIA IS-733之中。在上述的美国专利申请序列号09/217,341中还描述了示范模式判决方案。
音调估计模块204根据每个输入语音帧s(n)而产生音调索引IP和滞后值P0。LP分析模块206对每个输入语音帧s(n)进行线性预测分析,以产生LP参数α。把LP参数α提供给LP量化模块210。LP量化模块210还接收模式M,从而以依赖于模式的方式进行量化处理。LP量化模块210产生LP索引ILP和量化的LP参数 。除了输入语音帧s(n)之外,LP分析滤波器208还接收量化的LP参数 。LP分析滤波器208产生LP残余信号R[n],它表示输入语音帧s(n)与根据量化的线性预测参数 重构的语音之间的误差。把LP残余信号R[n]、模式M和量化后的LP参数 提供给残余量化模块212。根据这些值,残余量化模块212产生残余索引IR和经量化的残余信号 在图4中,可以用于语音编码器的解码器300包括LP参数解码模块302、残余解码模块304、模式解码模块306以及LP合成滤波器308。模式解码模块306接收并解码模式索引IM,由之产生模式M。LP参数解码模块302接收模式M和LP索引ILP。 LP参数解码模块302对所接收的值解码,以产生经量化的LP参数 。残余解码模块304接收残余索引IR、音调索引IP和模式索引IM。残余解码模块304对接收到的值解码,以产生经量化的残余信号 。把经量化的残余信号 和经量化的LP参数 提供给LP合成滤波器308,该滤波器合成从其中解码出的输出语音信号 图3的编码器200和图4的解码器300的各模块的操作和实现是本领域中已知的,并在上述的美国专利号5,414,796中以及L.B.Rabiner和R.W.Schafer所著的“Digital Processing of Speech Signal”(1978)中的396-453页中有所描述。
在一个实施例中,多模式语音编码器400通过通信信道(或传输媒介)404与多模式语音解码器402进行通信。通信信道404有利地是根据IS-95标准配置的RF接口。本领域的那些普通技术人员将理解到,编码器400具有相关的解码器(未示出)。编码器400及其相关的解码器一起形成了第1语音编码器。本领域的那些普通技术人员还将理解到,解码器402具有相关的编码器(未示出)。解码器402及其相关的编码器一起形成了第2语音编码器。可以有利地把第1和第2语音编码器实现为第1和第2 DSP的一部分,并可以位于如PCS或蜂窝电话系统中的订户单元和基站中,或者位于卫星系统中的订户单元和网关中。
编码器400包括参数计算器406、模式分类模块408、多个编码模式410以及分组格式化模块412。以n示出编码模式410的个数,技术人员将理解它可以表示任何合理的编码模式410个数。为简单起见,只示出了3个编码模式410,并用虚线指出了其它编码模式410的存在。解码器402包括分组分解器和分组丢失检测器模块414、多个解码模式416、擦除解码器418和后滤波器或语音合成器420。以n示出解码模式416的个数,技术人员将理解它可以表示任何合理的解码模式416的个数。为简单起见,只显示了3个解码模式416,并用虚线指出了其它解码模式416的存在。
把语音信号s(n)提供给参数计算器406。把语音信号分成被称为帧的采样块。值n指定了帧数。在一备择实施例中,使用线性预测(LP)残余误差信号来代替语音信号。由诸如CELP编码器之类的语音编码器使用LP残余。通过把语音信号提供给逆LP滤波器(未示出)来有利地进行LP残余的计算。如上述的美国专利号5,414,796以及美国专利申请序列号09/217,494中所描述的那样,根据下面的公式计算逆LP滤波器的传递函数A(z)A(z)=l-a1z-1-a2z-2-…-apz-p其中系数a1是具有根据已知方法选择的预定值的滤波器抽头。数p指出了逆LP滤波器用于预测目的的先前采样的个数。在某一特定的实施例中,把p设置为10。
参数计算器406根据当前帧得出各个参数。在一个实施例中,这些参数包括下列的至少一个线性预测编码(LPC)滤波器系数、线谱对(LSP)系数、规范自相关函数(NACF)、开环滞后、过零率、频带能量和共振峰残余信号。在上述的美国专利号5,414,796中详细描述了LPC系数、LSP系数、开环滞后、频带能量和共振峰残余信号的计算。在上述的美国专利号5,911,128中详细描述了NACF和过零率的计算。
把参数计算器406耦合至模式分类模块408。参数计算器406向模式分类模块408提供参数。耦合模式分类模块408,以按逐帧的方式在编码模式410之间动态切换,以便为当前帧选择最合适的编码模式410。模式分类模块408通过比较参数和预定阈值和/或最高值,来为当前帧选择某一特定的编码模式410。根据帧的能量内容,模式分类模块408把帧分类成非语音、或非活动语音(如静默、背景噪声、或话语间的暂停)或语音。根据帧的周期,模式分类模块408随后把语音帧分类成某一特定的语音类型,如,有声的、无声的或过渡的。
有声语音是呈现相对较高的周期度的语音。图6中示出了一有声语音段。如所示,音调周期是语音帧的一个分量,可以有益地用于分析和重构帧的内容。无声语音一般包括辅音声音。过渡语音帧一般是有声和无声语音之间的过渡。把被分类成既不是有声语音也不是无声语音的帧分类成过渡语音。本领域的那些普通技术人员将理解可以使用任何合理的分类方案。
对语音帧进行分类是有利的,因为可以使用不同的编码模式410来对不同类型的语音编码,导致在诸如通信信道404之类的共享信道中更有效的带宽使用。例如,由于有声语音是周期的,并因此是高预测性的,所以可以使用低比特率、高预测编码模式410来编码有声语音。在上述的美国专利申请序列号09/217,341以及转让给本发明的受让人并通过引用而充分结合于此。的1999年2月26日申请的名为“CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEARPREDICTION(MDLP)SPEECH CODER”的美国专利申请序列号09/259,151中,详细描述了诸如分类模块408之类的分类模块。
模式分类模块408根据帧的分类为当前帧选择一个编码模式410。并联耦合各编码模式410。在任何给定的时刻,编码模式410中的一个或多个是可运作的。然而,在任何给定的时刻,有益地只有一个模式410运作,并且根据当前帧的分类来选择模式。
不同的编码模式410有利地应根据不同的编码比特率、不同的编码方案或编码比特率和编码方案的不同组合来工作。所用的各种编码速率可以是全速率、半速率、四分之一速率和/或八分之一速率。所用的各种编码方案可以是CELP编码、原型音调周期(PPP)编码(或波形内插(WI)编码)、和/或噪声激励线性预测(NELP)编码。从而(例如)某一编码模式410可以是全速率CELP,另一种编码模式410可以是半速率CELP,另一种编码模式410可以是四分之一速率PPP,以及另一种编码模式410可以是NELP。
根据CELP编码模式410,用LP残余信号的量化版本来激励线性预测声道模型。使用整个先前帧的量化参数来重构当前帧。CELP编码模式410因此提供了相对精确的但以相对高的编码比特率为代价的语音再现。可以有利地把CELP编码模式410用于编码被分类成过渡语音的帧。在上述美国专利号5,414,796中详细描述了一种示例性的可变速率CELP语音编码器。
根据NELP编码模式410,使用经过滤的伪随机噪声信号来模拟语音帧。NELP编码模式410是实现较低比特率的相对简单的技术。可以使用NELP编码模式412来有利地对被分类成无声语音的帧进行编码。在上述美国专利申请序列号09/217,494中详细描述了一种示例性的NELP编码模式。
根据PPP编码模式410,仅对每帧中的一音调周期子集进行编码。通过在这些原型周期中内插来重构语音信号的剩余周期。在PPP编码的时域实现中,计算第1组参数,该组参数描述怎样将前一原型周期修改到接近当前的原型周期。选择一个或多个编码矢量,当相加时,所述编码矢量近似于当前原型周期与经修改的前一原型周期之间的差。第2组参数描述了这些经选择的编码矢量。在PPP编码的频域实现中,计算一组参数来描述原型的幅度谱和相位谱。这可在绝对意义上或预测地进行。在与本发明一起申请的上述申请的相关申请,名为“METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICEDSPEECH”中描述了一种用于预测地量化原型(或整个帧)的幅度谱和相位谱的方法。根据PPP编码的任一种实现,解码器通过根据所述第1组和第2组参数而重构当前原型,来合成输出语音信号。然后在当前重构的原型周期和先前重构的原型周期之间的区域上内插所述语音信号。从而,所述原型是当前帧的一部分,将用来自先前帧的原型线性内插当前帧,这些先前帧的原型被类似地置于所述帧中,以便在解码器重构语音信号或LP残余信号(即使用过去的原型周期作为当前原型周期的预测器)。在上述美国专利申请序列号09/217,494中详细描述了示例性的PPP语音编码器。
编码原型周期而不是整个语音帧,降低了要求的编码比特率。可用PPP编码模式410有利地对被分类成有声语音的帧进行编码。如图6中所说明的那样,有声语音包含PPP编码模式410所有利地采用的缓慢时变的周期的分量。通过采用有声语音的周期,PPP编码模式410能够实现比CELP编码模式410低的比特率。
把经选择的编码模式410耦合至分组格式化模块412。经选择的编码模式410对当前帧编码或量化,并将经量化的帧参数提供给分组格式化模块412。分组格式化模块412有利地将经量化的信息汇编成用于在通信信道404上传送的分组。在一个实施例中,把分组格式化模块412配置成提供纠错编码,并根据IS-95标准来格式化分组。把分组提供给发射机(未示出),将其转换成模拟格式、对其调制,并在通信信道404上将其发送到接收机(亦未示出),接收机对该分组进行接收、解调和数字化,并将分组提供给解码器402。
在解码器402中,分组分解器和分组丢失检测器模块414接收来自接收机的分组。耦合分组分解器和分组丢失检测器模块414,以按逐个分组的方式在解码模式416之间动态地切换。解码模式416的个数与编码模式410的个数相同,并且本领域的一个普通技术人员将认识到每个编号的编码模式410与配置成使用相同编码比特率和编码方案的各自的类似编号的解码模式416相关联。
如果分组分解器和分组丢失检测器模块414检测出分组,则分解该分组,并将其提供给有关的解码模式416。如果分组分解器和分组丢失检测器模块414没有检测出分组,则声明分组丢失,并且如下所述擦除解码器418有利地进行帧擦除处理。
把解码模式416的并行阵列和擦除解码器418耦合至后滤波器420。所述有关的解码模式416对分组进行解码或去量化,将信息提供给后滤波器420。后滤波器420重构或合成语音帧,输出经合成的语音帧 。在上述美国专利号5,414,796以及美国专利申请序列号09/217,494中详细描述了示例性的解码模式和后滤波器。
在一个实施例中,不传送经量化的参数本身。相反,传送指定解码器402中的各个查表(LUT)(未示出)中的地址的编码本索引。解码器402接收编码本索引,并搜索各个编码本LUT以获得适当的参数值。因此,可传送诸如(例如)音调滞后、自适应编码本增益以及LSP之类的参数的编码本索引。
根据CELP编码模式410,传送音调滞后、幅度、相位以及LSP参数。传送LSP编码本索引,因为要在解码器402处合成LP残余信号。因此,传送了当前帧的音调滞后值与前一帧的音调滞后值之间的差。
根据常规PPP编码模式,在该模式中在解码器处合成语音信号,仅传送音调滞后、幅度和相位参数。由常规PPP语音编码技术所使用的较低比特率不允许绝对的音调滞后信息以及相对的音调滞后差值两者的传送。
根据一个实施例,用低比特率PPP编码模式410传送诸如有声语音帧之类的高周期帧,该模式量化当前帧的音调滞后值与前一帧的音调滞后值之间的差用于传送,而不量化当前帧的音调滞后值用于传送。由于有声语音帧本质上是高周期的,与绝对的音调滞后值相反,传送差值允许实现较低的编码比特率。在一个实施例中,推广这种量化,使得计算先前帧的参数值的加权和,其中权值的和为1,并且从当前帧的参数值中减去所述加权和。然后量化差。在与本发明一起申请的名为“METHOD AND APPARATUS FOR PREDICTIVELYQUANTIZING VOICED SPEECH”的上述相关申请中描述了这种技术。
根据一个实施例,可变速率编码系统,按控制处理器所确定的那样,用由所述处理器或模式分类器控制的不同的编码器或编码模式来编码不同类型的语音。编码器根据由前一帧的音调滞后值L-1,以及当前帧的音调滞后值L所指定的音调轮廓来修改当前帧残余信号(或在备择中,语音信号)。解码器的控制处理器遵循相同的音调轮廓,从音调记忆中为当前帧的经量化的残余或语音重构自适应编码本基值{P(n)}。
如果丢失了前一音调滞后值L-1,解码器不能重构正确的音调轮廓。这致使曲解了自适应编码本基值{P(n)}。反过来,即使对于当前帧来说没有丢失分组,合成的语音也将遭受严重的退化。作为补救,一些常规编码器使用一方案,来对L和L与L-1之间的差两者进行编码。该差或Δ音调值可由Δ表示,其中Δ=L-L-1,可用作如果在前一帧中丢失了L-1,则恢复L。
当前描述的实施例可最有益地用于可变速率编码系统中。特别地,如上所述,以C表示的第1编码器(或编码模式)对当前帧音调滞后值L,以及Δ音调滞后值Δ进行编码。以Q表示的第2编码器(或编码模式)对Δ音调滞后值Δ进行编码,但没有必要对音调滞后值L编码。这允许第2编码器Q使用额外的比特来编码其他参数,或保存全部比特(即起低比特率编码器的作用)。第1编码器C可有利地是用来对相对非周期的语音编码的编码器,诸如(例如)全速率CELP编码器。第2编码器Q可有利地是用于对高周期语音(如有声语音)编码的编码器,诸如(例如)四分之一速率PPP编码器。
如图7的例子中所说明的那样,如果丢失了前一帧(帧n-1)的分组,在对所述前一帧之前接收的帧(帧n-2)解码之后,把音调记忆基值{P-2(n)}存储于编码器存储器(未示出)中。还把帧n-2的音调滞后值L-2存储于编码器存储器中。如果由编码器C编码当前帧(帧n),则可把帧n称为C帧。编码器C可使用方程L-1=L-Δ,从Δ音调滞后值Δ中恢复前一音调滞后值L-1。因此,用值L-1和L-2可重构正确的音调轮廓。只要是正确的音调轮廓,则帧n-1的自适应编码本基值可被修正,并且随后可用于产生帧n的自适应编码本基值。本领域中的那些普通技术人员理解,这样的方案用于一些诸如EVRC编码器之类的常规编码器中。
根据一个实施例,如下所述,增强了使用上述两种类型的编码器(编码器C和编码器Q)的可变速率语音编码系统中的帧擦除性能。如图8的例子中所说明的那样,可把可变速率编码系统设计成使用编码器C和编码器Q两者。当前帧(帧n)是C帧,并且它的分组没有丢失。前一帧(帧n-1)是Q帧。在Q帧之前的帧的分组(即帧n-2的分组)丢失了。
在对帧n-2的帧擦除处理中,在解码帧n-3之后,把音调记忆基值{P-3(n)}存储于编码器存储器(未示出)中。还把帧n-3的音调滞后值L-3存储于编码器存储器中。通过根据方程L-1=L-Δ,在C帧分组中使用Δ音调滞后值Δ(它等于L-L-1),可恢复帧n-1的音调滞后值L-1。帧n-1是Q帧,具有它自己的相关的经编码的音调滞后值Δ-1(等于L-1-L-2)。因此,根据方程L-2=L-1-Δ-1,可恢复擦除帧(帧n-2)的音调滞后值L-2。用帧n-2和帧n-1的正确的音调滞后值,可有利地重构这些帧的音调轮廓,并可相应地修正自适应编码本基值。因此,C帧将具有为其经量化的LP残余信号(或语音信号)计算自适应编码本基值而要求的改进的音调记忆。如本领域的那些普通技术人员可理解的那样,可以容易地把这种方法扩展到考虑擦除帧与C帧之间的多个Q帧的存在。
如图9的图示所示,当擦除了一帧,擦除解码器(如图5的元件418)没有该帧的准确信息地重构经量化的LP残余(或语音信号)。如果根据上述用于重构当前帧的经量化的LP残余(或语音信号)的方法,恢复了已擦除的帧的音调轮廓和音调记忆,则所产生的经量化的LP残余(或语音信号)将不同于使用经破坏的音调记忆的经量化的LP残余。编码器音调记忆中的这样的变化将导致帧间经量化的残余(或语音信号)中的间断。因此,在诸如EVRC编码器之类的常规语音编码器中常听见过渡声音或喀呖声。
根据一个实施例,在修正之前,从被破坏的音调记忆中提取音调周期原型。还根据标准的去量化处理提取当前帧的LP残余(或语音信号)。然后根据波形内插(WI)方法,重构当前帧的经量化的残余(或语音信号)。在某一实施例中,WI方法根据上述的PPP编码模式进行操作。这种方法有利地用于平滑上述的间断,并用于进一步增强语音编码器的帧擦除性能。无论何时由于擦除处理而修正音调记忆时,可使用WI方案,而不管用于实现修正的方法(例如,包括但不限于上文中先前描述的技术)。
图10的图说明了已根据常规技术而被调整(产生可听见的喀呖声)的LP残余信号与已根据上述WI平滑方案而被随后平滑的LP残余信号之间的表现差异。图11的图说明了PPP或WI编码技术的原理。
从而,已经描述了可变速率语音编码器中一种新颖的改进的帧擦除补偿方法。本领域的那些普通技术人员将理解,贯穿上述描述,可引用数据、指令、命令、信息、信号、比特、码元以及码片,并且它们可有利地用电压、电流、电磁波、磁场或磁粒子、光场或光粒子或它们的任何组合来表示。那些技术人员将进一步理解,可以把连同这里揭示的实施例一起描述的各种说明性逻辑块、模块、电路以及算法步骤实现为电子硬件、计算机软件或它们的组合。一般根据它们的功能性来描述各种说明性的部件、块、模块、电路和步骤。是把功能实现为硬件还是软件,取决于强加于整个系统上的某一特定应用和设计约束。熟练的技术人员认可在这些情况下硬件和软件的互换性,以及怎样最佳地对每一特定应用实现所描述的功能。作为例子,可以用数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑、诸如寄存器和FIFO之类的离散硬件部件、执行一组固件指令的处理器、任何常规可编程的软件模块和处理器、或设计成执行这里所述的功能的上述元件的任何组合,来实现连同这里所揭示的实施例一起描述的各种说明性逻辑块、模块、电路和算法步骤。处理器可以有利地是微处理器,但是另一方面,处理器可以是任何常规处理器、控制器、微控制器或状态机。软件模块可驻留于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸的磁盘、CD-ROM或本领域中已知的任何其它形式的存储媒体。如图12所说明的那样,把示例性处理器500有利地耦合至存储媒体502,以便从中读取信息,以及将信息写入存储媒体502。另一方面,可以把存储媒体502结合于处理器500中。处理器500和存储媒体502可位于ASIC(未示出)中。ASIC可位于电话机(未示出)中。另一方面,处理器500和存储媒体可位于电话机中。可以把处理器500实现为DSP和微处理的组合,或实现为与DSP核心协同的两个微处理器,等等。
已经示出和描述了本发明的较佳实施例。然而,对于本领域的普通技术人员来说,显然可对这里所揭示的实施例作出许多改变而不背离本发明的要旨和范围。因此,应根据下面的权利要求来限制本发明。
权利要求
1.一种用于语音编码器中补偿帧擦除的方法,其特征在于包括对在声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值进行量化,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;量化当前帧之前以及帧擦除之后的至少一个帧的Δ值,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值。
2.如权利要求1所述的方法,其特征在于进一步包括重构已擦除的帧,以产生重构的帧。
3.如权利要求2所述的方法,其特征在于进一步包括进行波形内插,来平滑当前帧与重构帧之间存在的任何间断。
4.如权利要求1所述的方法,其特征在于根据相对非预测的编码模式来执行第1量化。
5.如权利要求1所述的方法,其特征在于根据相对预测的编码模式来执行第2量化。
6.一种配置成补偿帧擦除的语音编码器,其特征在于包括用于量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值的装置,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;用于量化当前帧之前以及帧擦除之后的至少一个帧的Δ值的装置,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及用于从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值的装置。
7.如权利要求6所述的语音编码器,其特征在于进一步包括用于重构已擦除的帧,以产生重构的帧的装置。
8.如权利要求7所述的语音编码器,其特征在于进一步包括用于进行波形内插,来平滑当前帧与重构帧之间存在的任何间断的装置。
9.如权利要求6所述的语音编码器,其特征在于用于量化的第1装置包括用于根据相对非预测的编码模式来执行量化的装置。
10.如权利要求6所述的语音编码器,其特征在于用于量化的第2装置包括用于根据相对预测的编码模式来执行量化的装置。
11.一种配置成补偿帧擦除的订户单元,其特征在于包括配置成量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值的第1语音编码器,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差;配置成量化当前帧之前以及帧擦除之后的至少一个帧的Δ值的第2语音编码器,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差;以及耦合至所述第1和第2语音编码器,并配置成从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值的控制处理器。
12.如权利要求11所述的订户单元,其特征在于把所述控制处理器进一步配置成重构已擦除的帧,以产生重构的帧。
13.如权利要求12所述的订户单元,其特征在于把所述控制处理器进一步配置成进行波形内插,来平滑当前帧与重构帧之间存在的任何间断。
14.如权利要求11所述的订户单元,其特征在于把所述第1语音编码器配置成根据相对非预测的编码模式来量化。
15.如权利要求11所述的订户单元,其特征在于把所述第2语音编码器配置成根据相对预测的编码模式来量化。
16.一种配置成补偿帧擦除的基础设施元件,其特征在于包括处理器;以及耦合至所述处理器并包含一组指令的存储媒体,所述指令可由所述处理器执行,以量化声明了已擦除的帧之后处理的当前帧的音调滞后值和Δ值,所述Δ值等于当前帧的音调滞后值与当前帧之前紧接的一帧的音调滞后值之间的差,量化当前帧之前以及帧擦除之后的至少一个帧的Δ值,其中所述Δ值等于所述至少一个帧的音调滞后值与所述至少一个帧之前紧接的一帧的音调滞后值之间的差,以及从当前帧的音调滞后值中减去每个Δ值,以产生已擦除的帧的音调滞后值。
17.如权利要求16所述的基础设施元件,其特征在于所述指令集可由所述处理器进一步执行来进行重构已擦除的帧,以产生重构的帧。
18.如权利要求17所述的基础设施元件,其特征在于所述指令集可由所述处理器进一步执行来进行波形内插,来平滑当前帧与重构帧之间存在的任何间断。
19.如权利要求16所述的基础设施元件,其特征在于所述指令集可由所述处理器进一步执行,以根据相对非预测的编码模式来量化当前帧的音调滞后值和Δ值。
20.如权利要求16所述的基础设施元件,其特征在于所述指令集可由所述处理器进一步执行,以根据相对预测的编码模式来量化当前帧之前以及帧擦除之后的至少一个帧的Δ值。
全文摘要
可变速率语音编码器中一种帧擦除补偿方法,包括用第1编码器量化当前帧的音调滞后值以及等于当前帧的音调滞后值与前一帧的音调滞后值之间的差的第1Δ音调滞后值。第2预测编码器仅量化前一帧的第2Δ音调滞后值(等于前一帧的音调滞后值与该帧之前的一帧的音调滞后值之间的差)。如果把前一帧之前的帧作为帧擦除处理,同过从当前帧的音调滞后值中减去第1Δ音调滞后值,获得前一帧的音调滞后值。然后通过从前一帧的音调滞后值中减去第2Δ音调滞后值,获得擦除帧的音调滞后值。此外,可使用波形内插方法,以平滑由编码器音调记忆中的变化引起的间断。
文档编号G10L19/00GK1432175SQ01810338
公开日2003年7月23日 申请日期2001年4月18日 优先权日2000年4月24日
发明者S·曼祖那什, P·J·黄, E·L·T·肖依 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1