有效编码语音信号的信号修改方法

文档序号:2819955阅读:218来源:国知局
专利名称:有效编码语音信号的信号修改方法
技术领域
本发明一般地涉及在通信系统中的声音信号的编码和解码。更具体而言,本发明涉及可适用于——特别而不是唯一地——码激励线性预测(code-excited linear prediction,CELP)编码。
背景技术
在诸如电视会议、多媒体和无线通信的各种应用领域中,对于具有在主观质量和比特率之间的良好折中的有效数字窄带和宽带语音编码技术的需求正在增加。直到最近,被限制到200-3400Hz的范围中的电话带宽已经主要被用于语音编码应用中。但是,与传统的电话带宽相比较,宽带语音应用在通信上增加了清晰度和自然度。已经发现在50-7000Hz范围中的带宽对于提供具有面对面交流的印象的良好质量是足够的。对于一般的音频信号,这个带宽给出了可接受的主观质量,但是仍然低于分别工作在20-16000Hz和20-20000Hz范围内的FM无线电或CD的质量。
语音编码器将语音信号转换为数字比特流,所述数字比特流通过通信信道被发送或被存储在存储介质中。所述语音信号被数字化,即被采样和量化,通常每个采样具有16比特。语音编码器扮演以更少数量的比特来表示这些数字采样的角色,同时保持良好的主观语音质量。语音解码器或合成器对被发送或存储的比特流工作,并且将其转换回声音信号。
码激励线性预测(CELP)编码是用于实现在主观质量(subjective quality)和比特率之间的良好折中的最佳技术之一。这种编码技术是在无线和有线应用中的几种语音编码标准的基础。在CELP编码中,以通常成为帧的连续的N个采样的块来处理采样的语音信号,其中N是通常对应于10-30ms的预定数量。每个帧计算和发送一个线性预测(linear prediction,LP)滤波器。LP滤波器的计算通常需要预见,即子随后帧的5-10ms的语音段。N采样的帧被划分为被称为子帧的更小的块。通常子帧的数量是三或四,因此产生4-10ms的子帧。在每个子帧中,通常根据两个分量获得一个激励信号一个过去激励和一个革新的固定代码本(fixed-codebook)激励。根据过去激励形成的分量经常被称为自适应代码本或音调激励(pitch excitation)。所述激励信号的特征参数被编码和发送到解码器,在此重新构造的激励信号被用作LP滤波器的输入。
在传统的CELP编码中,通常在子帧的基础上执行用于将过去的激励映射为现在的激励的长期预测(long-term prediction)。长期预测的特征在于延迟参数和音调增益,它们通常对于每个子帧被计算、编码和发送到解码器。在低比特率,这些参数消耗可用的比特预算的相当一部分。信号修改技术[1-7][1]W.B.Kleijn,P.Kroon,and D.Nahumi,“The RCELP speech-codingalgorithm,”European Transactions on Telecommunications,Vol.4,No.5,pp.573-582,1994(W.B.Kleijn、P.Kroon和D.Nahumi,“RCELP语音编码算法”,欧洲电信会报,第4卷,第5期,第573-582页,1994)[2]W.B.Kleijn,R.P.Ramachandran,and P.Kroon,“Interpolation of thepitch-predictor parameters in analysis-by-synthesis speech coders,”IEEETransactions on Speech and Audio Processing,Vol.2,No.1,pp.42-54,1994(W.B.Kleijn、R.P.Ramachandran和P.Kroon,“在综合分析语音编码器中的音调预测参数的内插”,IEEE语音和音频处理会报,第2卷,第1期,第42-54页,1994)[3]Y.Gao,A.Benyassine,J.Thyssen,H.Su,and E.Shlomot,“EX-CELPAspeech coding paradigm,”IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Salt Lake City,Utah,U.S.A.,pp.689-692,7-11 May 2001(Y.Gao、A.Benyassine、J.Thyssen,H.Su和E.Shlomot,“EX-CELP语音编码模式”,关于声学、语音和驰处理的IEEE国际会议(ICASSP),盐湖城,犹他,美国,第689-692页,2001年5月7-11日)[4]US Patent 5,704,003,“RCELP coder,”Lucent Technologies Inc.,(W.B.Kleijn and D.Nahumi),Filling Date19 September 1995(美国专利5,704,003,“RCELP编码器”,朗讯技术公司,(W.B.Kleijn和D.Nahumi),提交日期1995年9月19日)[5]European Patent Application 0 602 826 A2,“Time shifting foranalysis-by-synthesis coding,”AT&T Corp.,(B.Kleijn),Filling Date1December 1993(欧洲专利申请0 602 826 A2,“综合分析编码的时移”,美国电话电报公司,(B.Kleijn),提交日期1993年12月1日)[6]Patent Application WO 00/11 653,“Speech encoder with continuouswarping combined with long term prediction,”Conexant Systems Inc.,(Y.Gao),Filing Date24 August 1999(专利申请WO 00/11653,“具有与长期预测结合的连续变形的语音编码器”,Conexant系统公司,(Y.Gao),提交日期1999年8月24日)[7]Patent Application WO 00/11654,“Speech encoder adaptively applyingpitch preprocessing with continuous warping,”Conexant Systems Inc.,(H.Su and Y.Gao),Filing Date24 August 1999(专利申请WO00/11654,“自适应地应用具有连续变形的音调预处理的语音编码器”,Conexant系统公司,(H.Su和Y.Gao),提交日期1999年8月24日)通过调整要编码的信号而改进了在低比特率下的长期预测性能。这是通过适配语音信号中的音调周期(pitch cycle)的演变以适合长期预测延迟来进行的,使得能够每个帧发送仅仅一个延迟参数。信号修改基于下述前提有可能呈现在修改的语音信号和不可听见的原始语音信号之间的差别。使用信号修改的CELP编码器经常被称为一般化的综合分析或张驰CELP(relaxed RCELP)编码器。
信号修改技术将信号的音调调整为预定的延迟轮廓(delay contour)。长期预测然后通过使用这个延迟轮廓和以增益参数缩放来将过去激励信号映射为现在的子帧。所述延迟轮廓是通过在两个开环音调估计(open-loop pitchestimates)之间内插而直接被得到的,第一个是在前一个帧中获得的,第二个是在当前帧中获得的。内插给出了所述帧的每个时刻的延迟值。在可以获得延迟轮廓之后,调整在当前要编码的子帧中的音调,以便通过变形、即改变信号的时标(time scale)来适应这个人为的轮廓。
在不连续变形[1、4和5]中[1]W.B.Kleijn,P.Kroon,and D.Nahumi,“The RCELP speech-codingalgorithm,”European Transactions on Telecommunications,Vol.4,No.5,pp.573-582,1994(W.B.Kleijn、P.Kroon和D.Nahumi,“RCELP语音编码算法”,欧洲电信会报,第4卷,第5期,第573-582页,1994)[4]US Patent 5,704,003,“RCELP coder,”Lucent Technologies Inc.,(W.B.Kleijn and D.Nahumi),Filling Date19 September 1995(美国专利5,704,003,“RCELP编码器”,朗讯技术公司,(W.B.Kleijn和D.Nahumi),提交日期1995年9月19日)[5]European Patent Application 0 602 826 A2,“Time shifting foranalysis-by-synthesis coding,”AT & T Corp.,(B.Kleijn),Filling Date1December 1993(欧洲专利申请0 602 826 A2,“综合分析编码的时移”,美国电话电报公司,(B.Kleijn),提交日期1993年12月1日)信号分段被时移而不改变分段长度。不连续的变形需要一个用于处理结果产生的重叠或丢失信号部分的过程。连续的变形[2、3、6、7][2]W.B.Kleijn,R.P.Ramachandran,and P.Kroon,“Interpolation of thepitch-predictor parameters in analysis-by-synthesis speech coders,”IEEETransactions on Speech and Audio Processing,Vol.2,No.1,pp.42-54,1994(W.B.Kleijn、R.P.Ramachandran和P.Kroon,“在综合分析语音编码器中的音调预测参数的内插”,IEEE语音和音频处理会报,第2卷,第1期,第42-54页,1994)[3]Y.Gao,A.Benyassine,J.Thyssen,H.Su,and E.Shlomot,“EX-CELPAspeech coding paradigm,”IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Salt Lake City, Utah,U.S.A.,pp.689-692,7-11 May 2001(Y.Gao、A.Benyassine、J.Thyssen,H.Su和E.Shlomot,“EX-CELP语音编码模式”,关于声学、语音和信号处理的IEEE国际会议(ICASSP),盐湖城,犹他,美国,第689-692页,2001年5月7-11日)[6]Patent Application WO 00/11653,“Speech encoder with continuouswarping combined with long term prediction,”Conexant Systems Inc.,(Y.Gao),Filing Date24 August 1999(专利申请WO 00/11653,“具有与长期预测结合的连续变形的语音编码器”,Conexant系统公司,(Y.Gao),提交日期1999年8月24日)[7]Patent Application WO 00/11654,“Speech encoder adaptively applyingpitch preprocessing with continuous warping,”Conexant Systems Inc.,(H.Su and Y.Gao),Filing Date24 August 1999(专利申请WO 00/11654,“自适应地应用具有连续变形的音调预处理的语音编码器”,Conexant系统公司,(H.Su和Y.Gao),提交日期1999年8月24日)收缩或扩展一个信号分段。这是通过使用对于信号分段的时间连续近似和将其以基于延迟轮廓确定的不相等的采样间隔重新采样为期望的长度来进行的。为了减少在这些操作中的人为效果,将时标中所容许的改变保持为较小。而且,通常使用LP残余(residual)信号或加权的语音信号来进行变形以减少结果产生的失真。这些信号而不是语音信号的使用也便利了检测音调脉冲和其间的低功率区域,因此便于确定用于变形的信号分段。实际的修改的语音信号是通过反向滤波产生的。
在对于当前子帧进行信号修改后,可以以任何传统的方式来进行编码,除了使用预定的延迟轮廓来产生自适应代码本激励。实际上,可以在窄带或宽带CELP编码中使用相同的信号修改技术。
信号修改技术也可以按照[8]被应用到其他类型的语音编码方法中,诸如波形内插编码和正弦编码。
US Patent 6,223,151,“Method and apparatus for preprocessing speechsignals prior to coding by transfom-based speech coders,”Telefon AktieBolaget LM Ericsson,(W.B.Kleijn and T.Eriksson),Filling Date10 Feb.1999(美国专利6,223,151,“用于通过基于变换的语音编码器在编码前预处理语音信号的方法和装置”,Telefon Aktie Bolaget LM Ericsson,(W.B.Kleijn和T.Eriksson),提交日期1999年2月10日)发明内容本发明涉及一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的方法,包括将所述声音信号划分为一系列连续的帧;定位前一个帧中的声音信号的特征;定位当前帧中的声音信号的对应特征;和确定当前帧的长期预测延迟参数,以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。
主题发明涉及一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于单位前一个帧中的声音信号的特征的检测器;用于定位当前帧中的声音信号的对应特征的检测器;用于确定当前帧的长期预测延迟参数的计算器,进行所述长期预测延迟参数的计算,以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。
按照本发明,提供了一种信号修改方法,用于实现到用于数字编码声音信号的一种技术中,包括将所述声音信号划分为一系列连续的帧;将声音信号的每个帧分为多个信号分段;将所述帧的至少一部分信号分段变形,所述变形包括限制在所述帧内的被变形信号分段。
按照本发明,提供了一种信号修改器件,用于实现到用于数字编码声音信号的一种技术中,包括第一划分器,用于将所述声音信号划分为一系列连续的帧;第二划分器,用于将声音信号的每个帧划分为多个信号分段;和信号分段变形件,被提供所述帧的至少一部分信号分段,这个变形件包括一个限制器,用于限制在所述帧内的被变形的信号分段。
本发明也涉及一种用于搜索在声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由线性预测分析滤波器滤波所述声音信号来产生残余信号;根据所述残余信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述残余信号在前一个帧的声音信号的最后一个音调脉冲位置周围提取给定长度的音调脉冲原型(pulse prototype);和使用音调脉冲原型来定位在当前帧中的音调脉冲。
本发明也涉及一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器;线性预测分析滤波器,用于滤波所述声音信号从而产生残余信号;用于响应于所述残余信号来定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述残余信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
按照本发明,也提供了一种用于搜索在声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由加权滤波器来处理所述声音信号来产生加权声音信号,其中所述加权的声音信号指示信号的周期性;根据所述加权声音信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;使用音调脉冲原型来定位当前帧中的音调脉冲。
同样,按照本发明,提供了一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器;加权滤波器,用于处理所述声音信号来产生加权的声音信号,所述加权的声音信号指示信号的周期性;用于响应于所述加权的声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述加权的声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
本发明还涉及一种用于搜索在声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由加权滤波器来滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号来产生合成的加权声音信号;根据所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和使用音调脉冲原型来定位在当前帧中的音调脉冲。
本发明还涉及一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器;加权滤波器,用于滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号以产生合成的加权声音信号;用于响应于所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
根据本发明,还提供了一种用于在解码声音信号期间形成自适应代码本激励的方法,所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码,所述方法包括对于每个帧接收在所述数字声音信号编码技术中以长期预测为特征的长期预测延迟参数;使用在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来恢复延迟轮廓,其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征;响应于延迟轮廓而形成在自适应代码本中的自适应代码本激励。
而且,按照本发明,提供了一种用于在解码声音信号期间形成自适应代码本激励的器件,所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码,所述器件包括接收器,接收每个帧的长期预测延迟参数,其中所述长期预测延迟参数在所述数字声音信号编码技术中以长期预测为特征;计算器,响应于在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来计算延迟轮廓,其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征;和自适应代码本,用于响应于延迟轮廓而形成自适应代码本激励。
通过读取仅仅参照附图以示例给出的本发明的图解实施例的下列非限定性说明,本发明的上述和其他目的、优点和特征将会变得更加清楚。


图1是一个帧的原始和修改的残余信号的图解示例;图2是按照本发明的信号修改方法的一个图解实施例的功能方框图;图3是示出语音编码器和解码器的使用的语音通信系统的图解示例的示意方框图;图4是利用信号修改方法的语音编码器的图解实施例的示意方框图;图5是音调脉冲搜索的图解实施例的功能方框图;图6是一个帧的被定位的音调脉冲位置和对应的音调周期分段的图解示例;图7是当音调脉冲的数量是3(c=3)时确定延迟参数的图解示例;图8是与线性内插(细线)相比较在语音帧上的延迟内插(粗线)的图解示例;图9是当校正的音调值是52个采样时在按照图8的延迟内插(粗线)和线性内插(细线)而选择的10个帧上的延迟轮廓的图解示例;图10是按照本发明的图解实施例的用于将语音帧调整为所选择的延迟轮廓的信号修改方法的功能方框图;
图11是使用确定的最佳位移δ来更新目标信号 和使用被图示为灰点的内插值来替代信号分段ws(k)的图解示例;图12是按照本发明的一个图解实施例的速率确定逻辑的功能方框图;图13是使用按照本发明的一个图解实施例而形成的延迟轮廓的语音解码器的图解实施例的示意方框图。
具体实施例方式
虽然将参照语音信号和3GPP AMR宽带语音编码解码AMR-WB标准(ITU-T G.722.2)来说明本发明的图解实施例,但是应当知道本发明的思想可以被应用到其他类型的声音信号以及其他的语音和音频编码器。
图1图解了在一个帧内的修改的残余信号12的示例。如图1所示,限制修改的残余信号12中的时移,从而在时刻tn-1和tn出现的帧边界处,这个修改的残余信号与原始的、未修改的残余信号时间同步。在此n指的是当前帧的下标。
更具体而言,使用用于在当前帧上内插延迟参数的延迟轮廓而明确地控制所述时移。根据在上述帧边界的时间排列限制来确定所述延迟参数和轮廓。当使用线性内插来强制时间排列时,结果产生的延迟参数趋向于在几个帧上振动。这经常对其音调跟随人为的振动延迟轮廓的被修改信号引起恼人的人为效果。对于延迟参数使用适当选择的非线性内插技术将大大地减少这些振动。
图2中提供了按照本发明的信号修改方法的图解实施例的功能方框图。
所述方法以“音调周期搜索”方框101开始,定位独立的音调脉冲和音调周期。方框101的搜索使用在所述帧上内插的开环音调估计。根据所定位的音调脉冲,所述帧被划分为音调周期分段,每个音调周期分段包括一个音调脉冲并且被限制在帧边界tn-1和tn内。
“延迟曲线选择”方框103的功能是确定长期预测器的延迟参数,并且形成用于在所述帧上内插这个延迟参数的延迟轮廓。根据在帧边界tn-1和tn的时间同步限制来确定所述延迟参数和轮廓。当对于当前帧使能信号修改时,在方框103中确定的延迟参数被编码和被发送到解码器。
在“音调同步信号调制”方框105进行实际的信号修改操作。方框105首先形成基于在方框103确定的延迟轮廓的目标信号,用于随后将独立的音调周期分段匹配到这个目标信号中。所述音调周期分段随后被逐个位移以最大化它们与这个目标信号的关联性。为了将复杂性保持在低水平,当搜索最佳位移和位移所述段时,不应用任何连续时间变形。
在本说明书中公开的信号修改方法的图解实施例通常在纯有声的语音帧上被使能。例如,因为引起人为效果的高风险而不修改诸如语音开始的过渡帧。在纯有声的帧中,音调周期通常改变较慢,因此小位移足够将所述信号适配到长期的预测模型。因为仅仅进行小的、谨慎的信号调整,因此最小化了引起人为效果的可能。
所述信号修改方法构成了用于纯有声的段的有效分类器,因此构成要用于语音信号的来源控制编码中的速率确定机制。图2的每个方框101、103和105提供了关于在当前帧中的信号周期性和信号修改的适合性的几个指示器。这些指示器在逻辑方框102、104和106中被分析,以便确定当前帧的适当编码模式和比特率,更具体而言,这些逻辑方框102、104和106监控在方框101、103和105中进行的操作的成功。
如果方框102检测到在方框101中执行的操作是成功的,则所述信号修改方法在方框103中继续。当这个方框102检测到在方框101中执行的操作中的失败时,信号修改过程终止,并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。
如果方框104检测到在方框103中执行的操作是成功的,则所述信号修改方法在方框105继续。相反,当这个方框104检测到在方框103中执行的操作中的失败时,信号修改过程终止,并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。
如果方框106检测到在方框105中执行的操作是成功的,则使用具有信号修改的低比特率模式(见方框107)。相反,当这个方框106检测到在方框105中执行的操作中的失败时,信号修改过程终止,并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。在本说明书中下面详细说明方框101-108的操作。
图3是用于描述语音编码器和解码器的使用的语音通信系统的图解示例的示意方框图。图3的语音通信系统支持在通信信道205上的语音信号的发送和再现。虽然它可以包括例如有线、光链路或光纤线路链路,但是通信信道205通常包括至少一部分射频链路。所述射频链路经常支持需要共享带宽资源的多个、同时的语音通信,诸如在蜂窝电话中可以发现的那样。虽然未示出,但是通信信道205可以被替换为存储器件,用于记录和存储编码的语音信号以用于以后的播放。
在发射器侧,麦克风201产生模拟语音信号210,它被提供到模数(A/D)转换器202。A/D转换器202的功能是将模拟语音信号210转换为数字语音信号211。语音编码器203对数字语音信号211编码以产生一组编码参数212,它们被编码为二进制形式并且被提供到信道编码器204。信道编码器204向在将编码参数通过通信信道205发送到比特流213之前向编码参数的二进制表示增加冗余。
在接收器侧,信道解码器206被提供来自所接收的比特流214的、上述的编码参数的冗余的二进制表示,以便检测和校正在传输中发生的信道误差。语音解码器207将来自信道解码器206的信道误差校正的比特流215转换回一组编码参数,用于建立合成的数字语音信号216。由语音解码器207重新构建的合成的语音信号216通过数模(D/A)转换器208被转换为模拟语音信号217,并且通过扬声器单元209被重放。
图4是示出由并入信号修改功能的语音编码器203(图3)的图解实施例执行的操作的示意方框图。本说明书提供了在图4中的方框603的信号修改功能的新颖实现方式。由语音编码器203执行的其他操作是本领域内的普通技术人员公知的,并且已经在例如出版物[10]中被说明,[10]3GPP TS 26,190,“AMR Wideband Speech CodecTranscodingFunctions,”3GPP Technical Specification(3GPP TS 26,190,“AMR宽带语音编码解码器译码功能”,3GPP技术规范)在此引用该出版物作为参考。当不另外说明时,在本发明的图解实施例和示例中的语音编码和解码操作的实现将符合AMR宽带语音编码解码(AMR-WB)标准。
如图4所示的语音编码器203使用一个或多个编码模式来编码数字化的语音信号。当使用多个编码模式并且在这些模式之一中禁止信号修改功能时,这个特定模式将按照对本领域的普通技术人员公知的良好建立的标准来工作。
虽然在图4中未示出,但是所述语音信号被以16kHz的速率采样,并且每个语音信号被数字化。所述数字语音信号然后被划分为给定长度的连续帧,并且这些帧的每个被划分为给定数量的连续子帧。数字语音信号进一步被预处理,如AMR-WB标准所述。这个预处理包括高通滤波、使用滤波器P(z)=1-0.68z-1的预加重(pre-emphasis)滤波、以及16kHz到12.8kHz采样率的下采样(down-sampling)。图4的随后操作假定输入的语音信号s(t)已经被预处理和下采样为12.8kHz的采样率。
语音编码器203包括LP(线性预测)分析和量化模块601,用于响应于输入的、预处理的数字语音信号s(t)617而计算和量化LP滤波器1/A(z)的参数a0、a1、a2、...、anA,其中nA是滤波器的阶,A(z)=a0+a1z-1+a2z-2+…+anz-nA。这些量化的LP滤波器参数的二进制表示616被提供给复用器614,并且随后被复用到比特流615中。非量化的和量化的LP滤波器参数可以被内插以获得每个子帧的对应的LP滤波器参数。
语音编码器203还包括音调估计器602,用于响应于来自LP分析和量化模块601的LP滤波器参数618而计算当前帧的开环音调估计619。这些开环音调估计619被内插在所述帧上以便在信号修改模块603中使用。
可以按照上述AMR-WB标准来实现在LP分析和量化模块601和音调估计器602中执行的操作。
图4的信号修改模块603在闭环音调搜索自适应代码本激励信号之前执行信号修改操作,以将语音信号调整为确定的延迟轮廓d(t)。在所述图解的实施例中,延迟轮廓d(t)定义了帧的每个采样的长期预测延迟。在构造上,延迟轮廓在帧t∈(tn-1,tn)上完全以延迟参数620 dn=d(tn)及其前一个值dn-1=d(tn-1)——它们等于在帧边界的延迟轮廓的值——为特征。延迟参数620被确定为信号修改操作的一部分,并且被编码和随后被提供到复用器614,在此它被复用到比特流615中。
定义帧的每个采样的长期预测延迟参数的延迟轮廓d(t)被提供到自适应代码本607。自适应代码本607响应于延迟轮廓d(t)而使用延迟轮廓d(t)作为ub(t)=u(t-d(t))根据激励u(t)形成当前帧的自适应代码本激励ub(t)。因此延迟轮廓将激励信号u(t-d(t))的过去的采样映射为在自适应代码本激励ub(t)中的当前采样。
信号修改过程也产生修改的残余信号 以用于组成固定代码本激励uc(t)的闭环搜索的修改目标信号621。修改的残余信号 是通过变形LP残余信号的音调周期分段而在信号修改模块603中获得的,并且被提供到模块604中来计算修改的目标信号。所述修改的残余信号与滤波器1/A(z)的LP合成滤波然后在模块604中得到修改的语音信号。固定代码本激励搜索的修改的目标信号621按照AMR-WB标准的操作在模块604中被形成,但是将原始的语音信号替换为其修改版本。
在对于当前帧已经获得自适应代码本激励ub(t)和修改的目标信号621以后,可以使用传统的手段来进一步进行编码。
闭环固定代码本激励搜索的功能是确定当前子帧的固定代码本激励信号uc(t)。为了示意地图解闭环代码本搜索的操作,通过放大器609来增益缩放固定代码本激励信号uc(t)。以相同的方式,通过放大器609来增益缩放自适应代码本激励ub(t)。增益缩放的自适应和固定代码本激励ub(t)和uc(t)通过加法器611被求和以形成总的激励信号u(t)。这个总的激励信号u(t)通过LP合成滤波器1/A(z)612被处理以产生合成语音信号625,它通过加法器605被从修改的目标信号621减去以产生误差信号626。误差加权和最小化模块606响应于误差信号626来按照传统方法计算每个子帧放大器609和610的增益参数。所述误差加权和最小化模块606还按照传统方法和响应于误差信号626来计算到固定代码本608的输入627。量化的增益参数622和623和特征化固定代码本激励信号uc(t)的参数624被提供到复用器614,并且被复用到比特流615中。当信号修改被使能或禁止时以相同的方式进行上述的过程。
应当注意,当信号修改功能被禁止时,自适应激励代码本607按照传统方法工作。在这种情况下,对于在自适应代码本607中的每个子帧搜索独立的延迟参数以改进(refine)开环音调估计619。这些延迟参数被编码、提供到复用器614,并且被复用到比特流615中。而且,按照传统方法来形成固定代码本搜索的目标信号621。
除了当信号修改被使能时,所示的语音解码器都按照传统方法工作图13。信号修改禁止和使能操作仅仅在形成自适应代码本激励信号ub(t)的方式上实质不同。在两种操作模式中,解码器根据所接收的参数的二进制表示解码它们。通常,所接收的参数包括激励、增益、延迟和LP参数。解码的激励参数被用于模块701中以形成每个子帧的固定代码本激励信号uc(t)。这个信号通过放大器702被提供到加法器703。类似地,当前子帧的自适应代码本激励信号ub(t)通过放大器704被提供到加法器703。在加法器703中,增益缩放的自适应和固定代码本激励信号ub(t)和uc(t)被求和以形成用于当前子帧的总的激励信号u(t)。通过LP合成滤波器1/A(z)708来处理这个激励信号u(t),LP合成滤波器1/A(z)708使用当前子帧的在模块707中内插的LP参数来产生合成的语音信号 当使能信号修改时,语音解码器与在编码器中一样使用所接收的延迟参数dn及其前一个所接收的值dn-1来恢复延迟轮廓d(t)。这个延迟轮廓d(t)定义了当前帧的每个时刻的长期预测延迟参数。使用延迟轮廓d(t),像在编码器中那样根据当前子帧的过去激励来形成自适应代码本激励ub(t)=u(t-d(t))。
剩余的说明公开了信号修改过程603的详细操作以及它作为模式确定机制的一部分的使用。
音调脉冲和音调周期分段的搜索信号修改方法同步地操作音调和帧,独立地位移每个被检测的音调周期分段但是限制在帧边界的位移。这要求用于定位当前帧的音调脉冲和对应的音调周期分段的手段。在信号修改方法的所图解的实施例中,根据按照图5搜索的所检测的音调脉冲来确定音调周期分段。
可以对残余信号r(t)、加权的语音信号w(t)和/或加权的合成语音信号 进行音调脉冲搜索。通过使用LP滤波器A(z)来滤波语音信号s(t)来获得残余信号r(t),它已经对于子帧被内插。在所图解的实施例中,LP滤波器A(z)的阶是16。通过加权滤波器W(z)=A(z/γ1)1-γ2z-1---(1)]]>来处理语音信号s(t)而获得加权的语音信号w(t),其中系数γ1=0.92和γ2=0.68。在开环音调估计(模块602)中经常使用加权的语音信号w(t),因为由方程(1)定义的加权滤波器衰减了在语音信号s(t)中的主要单元结构,并且也保持了在正弦信号分段上的周期性。这便利了音调脉冲搜索,因为可能的信号周期性在加权信号中变得很显然。应当注意,对于预见也需要加权的语音信号w(t),以便搜索在当前帧中的最后音调脉冲。这可以通过使用在预见部分上的当前帧的最后子帧中形成的方程(1)的加权滤波器来进行。
图5的音调脉冲搜索程序以方框301开始,根据参数信号r(t)来定位前一个帧的最后音调脉冲。一个音调脉冲通常清楚地突出为在具有大约p(tn-1)的长度的音调周期中的低通滤波残余信号的最大绝对值。为了便于定位前一个帧的最后一个音调脉冲,对于低通滤波,使用具有5个采样长度的标准化的汉明窗口(Hamming window)H5(z)=(0.08z-2+0.54z-1+1+0.54z+0.08z2)/2.24。这个音调脉冲位置由T0来表示。按照本发明的信号修改方法的图解实施例不要求对于该音调脉冲的精确位置,而是要求在音调周期中的高能分段的大致位置估计。
在T0定位前一个帧中的最后一个音调脉冲之后,在图5的方框302中在这个大致的位置估计附近提取长度为2l+1的音调脉冲原型,所述大致位置估计例如为对于k=0,1,...,2l,mn(k)=w^(T0-l+k)---(2)]]>这个音调脉冲原型随后被用于定位当前帧中的音调脉冲。
可以使用合成的加权语音信号 (或加权的语音信号w(t))来用于所述脉冲原型而不受残余信号r(t)。这便利了音调脉冲搜索,因为信号的周期结构最好被保存在加权的语音信号中。合成的加权语音信号 的获得是通过由方程(1)的加权滤波器W(z)来滤波前一个帧的最后一个子帧的合成的语音信号 如果所述音调脉冲原型扩展超过先前合成的帧的结尾,这使用当前帧的加权语音信号w(t)来用于这个超过部分。如果前一个合成的语音帧已经包括良好地发展的音调周期,则音调脉冲原型与所述加权的语音信号w(t)的音调脉冲具有高相关性。因此,在提取原型中的合成语音的使用提供了附加的信息,用于监控编码的执行和选择在当前帧中的合适编码模式,如在后面的说明中更详细地所述。
选择l=10个采样提供了在所述音调脉冲搜索的复杂性和性能之间的良好折中。l的值也可以与所述开环音调估计成比例地被确定。
在给出前一个帧中的最后脉冲的位置T0的情况下,可以预测当前帧的第一音调脉冲大致发生在时刻T0+p(T0)。在此,p(t)表示在时刻(位置)t的内插的开环音调估计。这个预测在方框303中被执行。
在方框305中,预测的音调脉冲位置T0+p(T0)被改进为T1=T0+p(T0)+argmaxC(j)(3)其中在所述预测部分邻居中的加权的语音信号w(t)与脉冲原型相关联C(j)=γ(j)Σk=02lmn(k)w(T0+p(T0)+j-l+k),j∈[-jmax,jmax]---(4)]]>因此,所述改进是被限制到[-jmax,jmax]中的自变量j,它最大化了在脉冲原型和上述的残余信号、加权的语音信号或加权的合成语音信号之一之间的加权相关性C(j)。按照一个图解示例,极限jmax与作为min{20,<p(0)/4>}的开环音调估计成比例,其中运算符<·>表示低于最近的整数的四舍五入。在方程(4)中的加权函数γ(j)=1-|j|/p(T0+p(T0)) (5)偏好使用开环音调估计而预测的脉冲位置,因为γ(j)在j=0获得其最大值1。在方程(5)中的分母p(T0+p(T0))是预测的音调脉冲位置的开环音调估计。
在已经使用方程(3)发现第一音调脉冲位置T1后,可以将下一个音调脉冲预测为在时刻T2=T1+p(T1)并且如上改进。这个包括预测303和改进305的音调脉冲搜索被重复,直到预测或改进程序得到在当前帧之外的一个音调脉冲位置。这些条件在逻辑方框304中被检查以用于预测下一个音调脉冲的位置(方框303),并且在逻辑方框306中被检查以用于改进音调脉冲的这个位置(方框305)。应当注意,只有一个被预测的脉冲位置在随后的帧中很远以至于改进步骤不能将其带回当前帧时,逻辑方框304才终止搜索。这个程序获得在当前帧中的c个间距脉冲位置,由T1、T2、...、Tc表示。
按照一个图解示例,除了由Tc表示的帧的最后音调脉冲之外,在整数分辨率(integer resolution)中定位音调脉冲。因为需要在两个连续帧的最后脉冲之间的精确距离来确定要发送的延迟参数,因此使用用于j的在方程(4)中的1/4采样的分数分辨率(fractional resoluteion)来定位最后脉冲。分数分辨率的获得是通过在评估方程(4)的相关性之前上升采样在最后预测的音调脉冲的邻居中的w(t)。按照一个图解示例,使用长度33的加有汉明窗口的sinc内插来用于上升采样。虽然有被设置到帧结尾的时间同步限制,最后音调脉冲位置的分数分辨率帮助维持长期预测的良好性能。这是以用于以高精度发送延迟参数所需要的附加比特率的代价来获得的。
在完成在当前帧中的音调周期分段后,确定对于每个分段的最佳位移。这个操作是使用在下面的说明中说明的加权语音信号w(t)来进行的。为了减少由变形引起的失真,使用LP残余信号r(t)来实现独立的音调周期分段的位移。因为位移使得特别在分段边界附近的信号失真,因此必须将所述边界布置在残余信号r(t)的低功率部分中。在一个图解的示例中,所述分段边界被大致布置在两个连续音调脉冲的中间,但是被限制在当前帧内。总是在当前帧内选择分段边界,以便每个分段仅仅包括一个音调脉冲。具有多个音调脉冲的分段或没有任何音调脉冲的“空”分段妨碍随后的与目标信号的基于相关性的匹配,并且应当在音调周期分段中被防止。ls个采样的第s个被提取的分段被表示为ws(k),k=0,1,...,ls-1。这个分段的开始时刻是ts,它被选择来使得ws(0)=w(ts)。在当前帧中的分段的数量被表示为c。
虽然在当前帧内的两个连续音调脉冲Ts和Ts+1之间选择分段边界,但是使用下面的程序。首先,在两个脉冲之间的中央时刻被计算为Λ=<(Ts+Ts+1)/2>。分段边界的候选位置位于区域[Λ-∈max,Λ+∈max]中,其中∈max对应于5个采样。每个候选边界位置的能量被计算为Q(ε′)=r2(Λ+ε′-1)+r2(Λ+ε′),ε′∈[-εmax,εmax](6)选择给出最小能量的位置,因为这个选择通常导致在修改的语音信号中的最小失真。最小化方程(6)的时刻表示为ε。新的分段的开始时刻被选择为ts=Λ+ε。这也限定了前一个分段的长度,因为前一个分段在时刻Λ+ε-1结束。
图6示出了音调周期分段的一个图解示例。特别注意,分别提取第一和最后一个分段w1(k)和w4(k),从而不产生空的分段并且不超过帧边界。
延迟参数的确定一般,信号修改的主要优点是每个帧仅仅一个延迟参数需要被编码和发送到解码器(未示出)。但是,需要特别注意这个单个参数的确定。所述延迟参数不仅与其前一个值一起限定在帧上的音调周期长度的演变,而且影响在所产生的修改信号中的时间异步。
在[14,-7]中所述的方法中[1]W.B.Kleijn,P.Kroon,and D.Nahumi,“The RCELP speech-codingalgorithm,”European Transactions on Telecommunications,Vol.4,No.5,pp.573-582,1994(W.B.Kleijn、P.Kroon和D.Nahumi,“RCELP语音编码算法”,欧洲电信会报,第4卷,第5期,第573-582页,1994)[4]US Patent 5,704,003,“RCELP coder,”Lucent Technologies Inc.,(W.B.Kleijn and D.Nahumi),Filling Date19 September 1995(美国专利5,704,003,“RCELP编码器”,朗讯技术公司,(W.B.Kleijn和D.Nahumi),提交日期1995年9月19日)[5]European Patent Application 0 602 826 A2,“Time shifting foranalysis-by-synthesis coding,”AT & T Corp.,(B.Kleijn),Filling Date1December 1993(欧洲专利申请0 602 826 A2,“综合分析编码的时移”,美国电话电报公司,(B.Kleijn),提交日期1993年12月1日) Patent Application WO 00/11653,“Speech encoder with continuouswarping combined with long term prediction,”Conexant Systems Inc.,(Y.Gao),Filing Date24 August 1999(专利申请WO 00/11653,“具有与长期预测结合的连续变形的语音编码器”,Conexant系统公司,(Y.Gao),提交日期1999年8月24日)[7]Patent Application WO 00/11654,“Speech encoder adaptively applyingpitch preprocessing with continuous warping,”Conexant Systems Inc.,(H.Su and Y.Gao),Filing Date24 August 1999(专利申请WO 00/11654,“自适应地应用具有连续变形的音调预处理的语音编码器”,Conexant系统公司,(H.Su和Y.Gao),提交日期1999年8月24日)在帧边界不需要任何时间同步,因此,可以使用开环音调估计来直接确定要发送的延迟参数。这个选择通常导致在帧边界的时间异步,并且翻译为在后一个帧中的累积时移,因为必须保持信号的连续性。虽然人的听力对在合成的语音信号的时标中的变化不敏感,但是提高时间异步使得编码器的实现复杂。事实上,需要长的信号缓冲器来容纳其时标可能已经被扩展的信号,并且需要实现控制逻辑来用于限制在编码期间的累积时移。同样,在RCELP编码中典型的几个采样的时间异步可能引起在LP参数和修改的残余信号之间的不匹配。这个不匹配可能导致对于通过LP滤波修改的残余信号而合成的修改的语音信号的感知人为效果。
相反,按照本发明的信号修改方法的图解实施例保持了在帧边界的时间同步。因此,在帧结尾出现严格限制的位移,并且每个新帧在与原始语音帧匹配的良好时间开始。
为了保证在帧结尾的时间同步,延迟轮廓d(t)使用长期预测将前一个合成的语音帧的结尾的最后一个音调脉冲映射为当前帧的音调脉冲。所述延迟轮廓定义了对于从时刻tn-1+1到tn的每个采样的当前第n个帧上的内插的长期预测延迟参数。仅仅在帧结尾的延迟参数dn=d(tn)被发送到解码器,示意d(t)必须具有由被发送的值完全指定的形式。长期预测延迟参数必须被选择使得结果产生的延迟轮廓满足脉冲映射。以数学形式,这个映射可以被表示如下设κc是暂时的时间变量,并且T0和Tc分别是在前一个和当前帧中的最后音调脉冲位置。现在,延迟参数dn需要被选择使得在执行在表1中提供的伪代码后,便利κc具有很接近最小化误差|κc-T0|的T0的值。伪代码从值κc-Tc开始,并且通过更新κi=κi-1-d(κi-1)来向回循环c次。如果κc等于T0,则能够以最大的效率来使用长期预测,而没有在帧结尾的时间异步。
表1 用于搜索最佳延迟参数的循环

图7中图解了在c=3情况下的延迟选择循环的操作的示例。所述循环从值κ0=Tc开始,并且进行第一次循环回到κ1=κ0-d(κ0)。循环再继续两次,导致κ2=κ1-d(κ1)和κ3=κ2-d(κ2)。最后的值κ3随后以误差en=|κ3-T0|的形式与T0比较。结果产生的误差是在延迟选择算法中调整的延迟轮廓的函数,如下所述。
诸如在下列文件中所述的信号修改方法[1,4,6,7][1]W.B.Kleijn,P.Kroon,and D.Nahumi,“The RCELP speech-codingalgorithm,”European Transactions on Telecommunications,Vol.4,No.5,pp.573-582,1994(W.B.Kleijn、P.Kroon和D.Nahumi,“RCELP语音编码算法”,欧洲电信会报,第4卷,第5期,第573-582页,1994)[4]US Patent 5,704,003,“RCELP coder,”Lucent Technologies Inc.,(W.B.Kleijn and D.Nahumi),Filling Date19 September 1995(美国专利5,704,003,“RCELP编码器”,朗讯技术公司,(W.B.Kleijn和D.Nahumi),提交日期1995年9月19日)[6]Patent Application WO 00/11653,“Speech encoder with continuouswarping combined with long term prediction,”Conexant Systems Inc.,(Y.Gao),Filing Date24 August 1999(专利申请WO 00/11653,“具有与长期预测结合的连续变形的语音编码器”,Conexant系统公司,(Y.Gao),提交日期1999年8月24日)[7]Patent Application WO 00/11654,“Speech encoder adaptively applyingpitch preprocessing with continuous warping,”Conexant Systems Inc.,(H.Su and Y.Gao),Filing Date24 August 1999(专利申请WO 00/11654,“自适应地应用具有连续变形的音调预处理的语音编码器”,Conexant系统公司,(H.Su和Y.Gao),提交日期1999年8月24日)在dn-1和dn之间的帧上线性地内插延迟参数。但是,当在帧结尾需要时间同步时,线性内插趋向于产生振荡的延迟轮廓。因此,在修改的语音信号中的音调脉冲周期地收缩和扩展,容易产生恼人的人为效果。振荡的演变和幅度与最后的音调位置相关联。最后的音调脉冲与音调周期相关地距离帧结尾越远,则振荡越可能被放大。因为在帧结尾的时间同步是按照本发明的信号修改方法的图解实施例的必要要求,因此现有方法熟悉的线性内插的使用不能不使得语音质量变差。相反,按照本发明的信号修改方法的图解实施例公开了分段的线性延迟轮廓 其中α(t)=(t-tn-1)/σn(8)通过使用这个延迟轮廓可以大大地降低振荡。在此,tn和tn-1分别是当前和前一个帧的结束时刻,并且dn和dn-1是对应的延迟参数值。注意tn-1+σn是这样的时刻,在其后延迟轮廓保持恒定。
在一个图解的示例中,参数σn作为dn-1的函数变化为 并且帧长度N是256个采样。为了避免振荡,有益的是,当音调周期的长度提高时降低σn的值。另一方面,为了避免在帧的开始tn-1<t<tn-1+σn中的延迟轮廓d(t)中的迅速改变,参数σn必须总是至少帧长度的一半。在d(t)中的迅速改变容易使得修改的语音信号的质量变差。
注意,根据前一个帧的编码模式,dn-1可以在帧结尾的延迟值(信号修改使能)或最后的子帧的延迟值(信号修改禁止)。因为在解码器已知延迟参数的过去值dn-1,因此延迟轮廓被dn明白地定义,并且解码器能够使用方程(7)来形成延迟轮廓。
可以在搜索最佳延迟轮廓时改变的唯一参数是dn,即被限制到[34,231]中的在帧结尾的延迟参数值。没有任何简单明显的方法来求解在一般情况下的最佳dn。相反,必须测试几个值以找到最佳的解。但是,搜索是直接的。
dn的值可以首先被预测为dn(0)=2Tc-T0c-dn-1---(10)]]>在所述图解的实施例中,在三个阶段中进行搜索,在每个阶段中提高分辨率和将要检查的搜索范围聚焦在[34,231]中。给出在这三个阶段中的表1的程序中最小误差en=|κc-T0|的延迟参数被分别表示为dn(1),dn(2)和dn=dn(3).]]>在第一阶段中,在使用方程(10)预测的值dn(0)附近以四个采样的分辨率进行搜索,并且四个采样的分辨率当dn(0)<60]]>时在范围 否则在范围 第二阶段将所述范围限制到 并且使用整数分辨率。最后,最后的第三阶段以1/4采样的分辨率来检查范围 其中dn(2)<9212.]]>在那个范围 之上使用1/2采样的分辨率。这个第三阶段得到要发送到解码器的最佳延迟参数dn。这个程序是在搜索精度和复杂性之间的折中。当然,本领域内的普通技术人员可以在不脱离本发明的本质和精神的情况下容易地使用替代手段来实现在时间同步限制下的延迟参数的搜索。
可以使用对于dn<92的1/4采样的分辨率和对于dn>92的1/2采样的分辨率、使用每个帧9个比特来编码延迟参数dn∈[34,231]。
图8图解了当dn-1=50、dn=53、σn=172和帧长度N=256时的延迟内插。在信号修改方法的图解实施例中使用的所述内插方法被以粗线示出,而对应于现有方法的线性内插被以细线示出。两种内插的轮廓在表1的延迟选择循环中以大致类似的方式执行,但是所公开的分段线性内插导致较小的绝对范围|dn-1-dn|。这个特征降低了在延迟轮廓d(t)中的可能振荡和在其音调将遵照这个延迟轮廓的修改的语音信号中的恼人的人为效果。
为了进一步澄清分段线性内插方法的性能,图9以粗线示出了在10个帧上的结果产生的延迟轮廓d(t)的示例。使用传统的线性内插获得的对应的延迟轮廓d(t)被以细线指示。所述示例是使用人工语音信号来构成的,所述人工语音信号具有52个采样的恒定延迟参数,作为语音修改程序的输入。延迟参数d0=54个采样意欲用作第一帧的初始值以说明在语音编码中典型的音调估计误差的效果。然后,使用表1的程序来搜索用于线性内插和在此公开的分段线性内插方法的延迟参数dn。根据按照本发明的信号修改方法的图解实施例来选择所有需要的参数。结果产生的延迟轮廓d(t)示出了分段线性内插得到了迅速会聚的延迟轮廓d(t),而传统的线性内插不能达到在10个帧期间内的正确值。在延迟轮廓d(t)中的这些延长的振荡经常对修改的语音信号引起恼人的人为效果,使得整体的感知质量降低。
信号的修改在已经确定了延迟参数dn和音调周期分段后,信号修改过程本身可以被启动。在信号修改方法的图解实施例中,通过将独立的音调周期分段逐个移位、调整它们为延迟轮廓d(t)来修改语音信号。通过将在加权的语音域中中的分段与目标信号相关联来确定分段位移。使用前一个帧和在当前帧中的前面的、已经移位的分段的合成的加权语音信号 来组成所述目标信号。实际的位移是对于残余信号r(t)进行的。
信号修改需要小心地进行以最大化长期预测的性能和同时保持修改的语音信号的感知质量。在修改期间也必须考虑在帧边界所需要的时间同步。
图10中示出了所述信号修改方法的图解实施例的方框图。通过在方框401从加权语音信号w(t)提取ls采样的新分段ws(k)来开始修改。这个分段通过分段长度ls和开始时刻ts被定义,给出了ws(k)=w(ts+k),k=0,1,...,ls-1。按照上述描述的说明来执行所述分段程序。
如果不可以选择或提取任何新的分段(方框402),则信号修改操作完成(方框403)。否则,信号修改操作继续进行方框404。
为了找到当前分段ws(k)的最佳位移,在方框405建立目标信号 对于在当前帧中的第一分段w1(k),这个目标信号通过下面的递归来被获得w~(t)=w^(t),t≤tn-1]]>w~(t)=w^(t-d(t)),tn-1<t≤tn-1+l1+δ1---(11)]]>在此 是当t≤tn-1时在前一个帧中可以获得的加权合成语音信号。参数δ1是对于长度l1的第一分段允许的最大位移。方程(11)可以使用在其中可能定位当前的移位分段的信号部分上的延迟轮廓被翻译为长期预测的模拟。对于随后分段的目标信号的计算按照相同的原则,并且将在这个部分的后面被提供。
可以在形成目标信号之后启动用于找到当前分段的最佳位移的搜索程序。这个程序是基于在时刻ts开始的分段ws(k)和目标信号 之间的、在方框404计算的相关性cs(δ′)
其中δs确定对于当前分段ws(k)允许的最大位移, 表示向正无穷大的舍入。可以取代方程(12)来使用标准化的相关性,虽然这具有增加的复杂性。在所述图解的实施例中,对于δs使用下面的值 如在本部分中稍后所述,δs的值对于在帧中的第一和最后分段是更为有限的。
使用整数分辨率来评估相关性(12),但是较高的精度改善了长期预测的性能。为了保持复杂性低,直接上升采样在方程(12)中的信号ws(k)或 是不合理的。相反,通过使用上升采样相关性cs(δ′)确定最佳位移来以计算上有效的方式来获得分数分辨率。
在方框404中以整数分辨率首先搜索使得cs(δ′)最大化的位移δ。现在,以分数分辨率,所述最大值必须被定位在开放的间隔(δ-1,δ+1)中,并且被赋值到[-δs,δs]中。在方框406中,使用长度为65个采样的汉明窗口的sinc内插、以这个间隔将相关性cs(δ′)上升采样到1/8采样的分辨率。对应于上升采样的相关性的最大值的位移δ因此是以分数分辨率的最佳位移。在找到这个最佳位移后,在方框407以求解的分数分辨率来重新计算加权的语音分段ws(k)。即,所述分段的精确的新的开始时刻被更新为ts=ts-δ+δl,其中 而且,再次使用如上所述(方框407)的sinc内插在这个点从残余信号r(t)计算对应于以分数分辨率的加权语音分段ws(k)的残余分段rs(k)。因为最佳位移的分数部分被并入到残余和加权的语音分段中,因此可以使用向上舍入的位移 来实现所有后续的计算。
图11图解了按照图10的方框407的分段ws(k)的重新计算。在这个图解的示例中,通过最大化给出值δ=-138]]>的相关性来以1/8采样的分辨率来搜索最佳位移。因此,整数部分δl变为|-138|=-1,]]>并且分数部分变为 结果,所述分段的开始时刻被更新为ts=ts+3/8。在附图11中,ws(k)的新采样被以灰点指示。
如果稍后公开的逻辑方框106允许继续信号修改,则最后的任务是通过将当前的残余信号分段rs(k)复制到修改的残余信号 中来更新修改的残余信号 (方框411) 因为在连续分段中的位移彼此相关,因此所述分段被定位到 或者重叠或在其间具有间隙。可以使用直接加权的平均来用于重叠的分段。通过从邻近的分段复制相邻的采样来填充间隙。因为重叠或丢失的采样的数量通常小并且分段边界出现在残余信号的低能区域,因此通常不引起感知的人为效果。应当注意未使用在[2]、[6]、[7]中所述的连续信号变形,[2]W.B.Kleijn,R.P.Ramachandran,and P.Kroon,“Interpolation of thepitch-predictor parameters in analysis-by-synthesis speech coders,”IEEETransactions on Speech and Audio Processing,Vol.2,No.1,pp.42-54,1994(W.B.Kleijn、R.P.Ramachandran和P.Kroon,“在综合分析语音编码器中的音调预测参数的内插”,IEEE语音和音频处理会报,第2卷,第1期,第42-54页,1994)[6]Patent Application WO 00/11653,“Speech encoder with continuouswarping combined with long term prediction,”Conexant Systems Inc.,(Y.Gao),Filing Date24 August 1999(专利申请WO 00/11653,“具有与长期预测结合的连续变形的语音编码器”,Conexant系统公司,(Y.Gao),提交日期1999年8月24日)[7]Patent Application WO 00/11654,“Speech encoder adaptively applyingpitch preprocessing with continuous warping,”Conexant Systems Inc.,(H.Su and Y.Gao),Filing Date24 August 1999(专利申请WO 00/11654,“自适应地应用具有连续变形的音调预处理的语音编码器”,Conexant系统公司,(H.Su和Y.Gao),提交日期1999年8月24日)而是通过位移音调周期分段来断续地进行修改以便降低复杂性。
后续音调周期分段的处理按照上述公开的程序,除了在方框405中的目标信号 的形成与对于第一分段的不同。 的采样首先被替换为修改的加权语音采样w~(ts+δt+k)=ws(k),k=0,1,...,ls-1---(15)]]>图11中图解了这个过程。然后也更新跟随更新的分段的采样,w~(k)=w~(k-d(k)),k=ts+δl+ls,...,ts+δl+ls+ls+1+δs+1-2---(16)]]>目标信号 的更新通过考虑延迟轮廓d(t)而保证了在修改的语音信号中的连续音调周期分段之间的较高相关性,因此保证了更准确的长期预测。在处理帧的最后分段的同时,目标信号 不需要被更新。
在帧中的第一和最后分段的位移是需要特别小心地执行的特殊情况。在位移第一分段之前,应当保证在接近帧边界tn-1的残余信号r(f)中不存在高功率区域,因为将这样的分段位移可能引起人为效果。通过将残余信号r(t)平方如下来搜索高功率区域E0(k)=r2(k),k∈[tn-1-ζ0,tn-1+ζ0](17)其中ζ0=<p(tn-1)/2>。如果E0(k)的最大值被检测为靠近在范围[tn-1-2,tn-1+2]中的帧边界,则所允许的位移被限定到1/4个采样。如果对于第一分段提出的位移|δ|小于这个极限,则在当前帧中使能信号修改过程,但是第一分段保持不变。
在帧中的最后分段被以类似的方式处理。如在上述的说明中所述,选择延迟轮廓d(t)使得在原理上对于最后分段不需要位移。但是,因为通过考虑在方程(16)和(17)中的连续分段之间的相关性来在信号修改期间重复更新目标信号,因此有可能必须略微地位移最后的分段。在所述图解的实施例中,这个位移总是被限制为小于3/2个采样。如果在帧结尾存在高功率区域,则不允许位移。通过使用下面的平方的残余信号来验证这个条件E1(k)=r2(k), k∈[tn-ζ1+1,tn+1] (18)其中ζ1=p(tn)。如果对于大于或等于tn-4的k获得了E1(k)的最大值,则对于最后分段不允许任何位移。与第一分段类似地,当提出的位移|δ|<1/4时,当前的帧对于修改仍然可以被接受,但是最后的分段保持不变。
应当注意,与公知的信号修改方法相反,所述位移不翻译为下一个帧,并且每个新的帧与原始输入信号良好同步地开始。作为RCELP编码特有的另一个基本差别,信号修改方法的所述图解实施例处理在编码子帧之前处理一个完整的语音帧。无可否认地,子帧修改使能使用可能改善性能的先前编码的子帧来组成每个子帧的目标信号。这个手段不能被用于信号修改方法的图解实施例的环境中,因为在帧结尾的所允许的时间异步被严格限制。尽管如此,使用方程(15)和(16)对目标信号的更新实际而言给出了与子帧处理相同的处理,因为仅仅对平滑地演变的语音帧使能修改。
被并入到信号修改过程中的模式确定逻辑按照本发明的信号修改方法的图解实施例并入了如图2所示的有效分类和模式确定机制。在方框101、103和105中执行的每个操作获得了几个指示器,用于量化在当前帧中长期预测的可以获得的性能。如果这些指示器的任何一个在其所允许的极限外部,则由逻辑方框102、104或106之一来终止信号修改过程。在这种情况下,原始信号被保持不变。
音调脉冲搜索程序101产生关于当前帧的周期性的几个指示器。因此,分析这些指示器的逻辑方框102是分类逻辑的最重要分量。逻辑方框102使用下述条件来比较在所检测的音调脉冲位置和内插的开环音调估计之间的差别,并且如果不满足这个条件则终止信号修改过程|Tk-tk-1-p(Tk)|<0.2p(Tk),k=1,2,...,c (19)在方框103中延迟轮廓d(t)的选择也给出了关于音调周期的演变和当前语音帧的周期性的附加信息。在逻辑方框104中检查这个信息。只要满足条件|dn-dn-1|<0.2,则所述信号修改过程从这个方框104继续。这个条件意味着仅仅容许小的延迟改变来用于将当前帧分类为纯有声的帧。逻辑方框104也通过检查所选择的延迟参数值dn的差别|κc-T0|来评估表1的延迟选择循环的成功。如果这个差别大于一个采样,则终止信号修改过程。
为了保证修改的语音信号的良好质量,在方框105限制对于连续音调周期分段所进行的位移是有益的。则在逻辑方框106中是通过向帧的所有分段施加下面的标准而实现的 在此,δ(s)和δ(s-1)分别是对于第s和第(s-1)音调周期分段进行的位移。如果超过门限,则中断信号修改过程和保持原始信号。
当进行信号修改的帧被以低比特率编码时,音调周期分段的形状必须在帧上保持类似。这允许通过长期预测的可靠信号建模和因此以低比特率编码而不使得主观质量变差。可以仅仅通过下面的、在图10的方框407中的ws(k)的更新之后在当前分段和最佳位移的目标信号之间的标准化的相关性来量化连续分段的类似性gs=Σk=0ls-1ws(k)w~(k+ts+δl)Σk=0ls-1w2(k)Σk=0ls-1w~2(k+ts+δl)---(21)]]>所述标准化的相关性gs也被称为音调增益。
如果信号修改在当前帧中是有益的,这最大化音调周期分段与目标信号的相关性的、在方框105中的音调周期分段的位移增强了周期性,并且获得了高的音调预测增益。在逻辑方框106中使用下面的标准来检查所述程序的成功gs≥0.84如果对于所有的分段不满足这个条件,则信号修改过程终止(方框409),并且原始信号保持不变。当满足这个条件时(方框106),信号修改在方框411继续。在来自方框407的重新计算的分段ws(k)和来自方框405的目标信号 之间的方框408计算音调增益gs。一般,可以对于女性声音允许略低的增益门限并且具有相等的编码性能。可以在编码器的不同操作模式中改变所述增益门限以调整信号修改模式的使用百分比并且因此调整结果产生的平均比特率。
用于来源受控的可变比特率语音编码解码器的模式确定逻辑这个部分公开了使用信号修改过程来作为在来源受控的可变比特率语音编码解码器中的一般速率确定机制的一部分。这个功能被并入所述信号修改方法的图解实施例中,因为它提供了关于信号周期性和在当前帧中的长期预测的预期的编码性能的几个指示器。这些指示器包括音调周期的演化、用于描述这个演变的所选择延迟轮廓的合适度、信号修改可以获得的音调预测增益。如果图2所示的逻辑方框102、104和106使能信号修改,则长期预测能够有效地对修改的语音帧建模,便利其在地比特率下的编码而不使得主观质量变差。在这种情况下,自适应代码本激励具有在描述激励信号上的主要贡献,因此可以降低对于固定代码本激励分配的比特率。当逻辑方框102、104或106禁止信号修改时,帧可能包括非固定的语音分段,诸如有声开始或迅速演变的有声语音信号。这些帧通常需要高比特率,用于维持良好的主观质量。
图12描述了作为用于控制四个编码模式的速率确定逻辑的一部分的信号修改过程603。在这个图解的实施例中,模式集包括用于非有效语音帧的专用模式(方框508)、无声的语音帧(方框507)、稳定的有声帧(方框506)和其他类型的帧(方框505)。应当注意,除了用于稳定的有声帧506的模式之外的所有这些模式是按照对于本领域的普通技术人员公知的技术来被实现的。
所述速率确定逻辑是基于在逻辑方框501、502和504中的三个步骤中进行的信号分类,其中方框501和502的操作是本领域的普通技术人员公知的。
首先,声音有效检测器(VAD)501在有效和无效的语音帧之间区别。如果检测到一个无效语音帧,则按照模式508来检查语音信号。
如果在方框501检测到一个有效的语音帧,则专用于进行声音确定的第二分类器502处理所述帧。如果分类器502将当前的帧列入无声的语音信号,则分类链结束,并且按照模式507来处理语音信号。否则,所述语音帧被传送到信号修改模块603。
所述信号修改模块然后确定在逻辑方框504中使能或禁止当前帧的信号修改。这个确定实际上被作为前面参照图2所述的逻辑方框102、104和106中的信号修改过程的组成部分。当使能信号修改时,帧被视为稳定的有声或纯有声语音分段。
当速率确定机制选择模式506时,按照前面部分的教程,信号修改模式被使能并且语音帧被编码。表2公开了在用于模式506的图解实施例中使用的比特分配。因为要以这种模式编码的帧在特性上很具有周期性,因此与例如过渡帧相比较,实质更低的比特率足够用于维持良好的主观质量。信号修改也允许仅仅使用每20毫秒9个比特来有效地编码延迟信息,这样节省了用于其他参数的比特预算的相当大的部分。长期预测的良好性能允许仅仅使用每5毫秒13比特的子帧来用于固定的代码本激励而不牺牲主观语音质量。所述固定代码本包括具有两个脉冲的一个轨道,所述两个脉冲具有64个可能的位置。
表2在用于包括四个子帧的20毫秒帧的有声6.2kps模式中的比特分配

表3在按照AMR-WB标准的12.65kbps模式中的比特分配


按照下列公知的技术来实现其他的编码模式505、507和508,信号修改在所有这些模式中被禁止。表3示出了根据AMR-WB标准采纳的模式505的比特分配。
与AMR-WB标准相关联的技术规范[11]和[12]被包含在此来分别作为关于在501和508中的舒适噪音和VAD功能的参考。
3GPP TS 26.192,“AMR Wideband Speech CodecComfort NoiseAspects,”3GPP Technical Specification(3GPP TS 26.192,“AMR宽带语音编码解码器舒适的噪音方面”,3GPP技术规范)[12]3GPP TS 26.193,“AMR Wideband Speech CodecVoice ActivityDetector(VAD),”3GPP Technical Specification(3GPP TS 26.192,“AMR宽带语音编码解码器语音行为检测器(VAD)”,3GPP技术规范)总之,本说明书已经描述了用于纯有声语音帧的帧同步信号修改方法、用于检测要被修改的帧的分类机制、并且在来源受控的CELP语音编码解码器中使用这些方法以便使能在低比特率的高质量编码。
所述信号修改方法并入了一种用于确定要被修改的帧的分类机制。则在操作上和在修改的信号的属性上与现有的信号修改和预处理不同。被嵌入到信号修改过程中的所述分类功能被用作在来源受控的CELP语音编码解码器中的速率确定机制。
信号修改是将音调和帧同步地进行的,即适配在当前帧中某个时间的一个音调周期分段,以便随后的语音帧以与原始信号良好的时间排列开始。音调周期分段被帧边界限制。这个特征防止了在帧边界上的时移翻译,简化了编码器实现方式码本起降低了在修改的语音信号中的人为效果的风险。因为时移不在连续的帧上累积,因此所公开的信号修改方法不需要用于容纳扩展的信号的长的缓冲器,也不需要用于控制累积的时移的复杂逻辑。在来源受控的语音编码中,它简化了在信号修改使能和机制模式之间的多模式操作,因为每个新的帧以与原始信号的时间排列开始。
当然,许多其他的修改和改变是可能的。根据对本发明的上述的详细说明性描述和相关的附图,这样的其他修改和变化现在将变得对于本领域内的普通技术人员是显然的。也应当显然的是,可以在不脱离本发明的精神和范围的情况下实现这样的其他变化。
权利要求
1.一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的方法,包括将所述声音信号划分为一系列连续的帧;定位前一个帧中的声音信号的特征;定位当前帧中的声音信号的对应特征;和确定当前帧的长期预测延迟参数,以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。
2.按照权利要求1的用于确定长期预测延迟参数的方法,其中确定长期预测延迟参数包括根据长期预测延迟参数形成延迟轮廓。
3.按照权利要求2的用于确定长期预测延迟参数的方法,其中所述声音信号包括语音信号;前一个帧中的语音信号的特征包括前一个帧中的语音信号的音调脉冲;当前帧中的语音信号的特征包括在当前帧中的语音信号的音调脉冲;和形成延迟轮廓包括使用长期预测将当前帧的音调脉冲映射为前一个帧的音调脉冲。
4.按照权利要求3的用于确定长期预测延迟参数的方法,其中定义长期预测延迟参数包括计算长期预测延迟参数来作为前一个帧的最后音调脉冲和当前帧的最后音调脉冲之间的连续音调脉冲的距离的函数。
5.按照权利要求2的用于确定长期预测延迟参数的方法,还包括使用前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数来全面地特征化延迟轮廓。
6.按照权利要求2的用于确定长期预测延迟参数的方法,其中形成延迟轮廓包括在前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数之间非线性地内插延迟轮廓。
7.按照权利要求2的用于确定长期预测延迟参数的方法,其中形成延迟轮廓包括根据前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数确定分段的线性延迟轮廓。
8.一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于单位前一个帧中的声音信号的特征的检测器;用于定位当前帧中的声音信号的对应特征的检测器;和用于确定当前帧的长期预测延迟参数的计算器,进行所述长期预测延迟参数的计算,以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。
9.按照权利要求8的用于确定长期预测延迟参数的器件,其中所述长期预测延迟参数的计算器包括用于根据长期预测延迟参数形成延迟轮廓的选择器。
10.按照权利要求9的用于确定长期预测延迟参数的器件,其中所述声音信号包括语音信号;前一个帧中的语音信号的特征包括前一个帧中的语音信号的音调脉冲;当前帧中的语音信号的特征包括当前帧中的语音信号的音调脉冲;和延迟轮廓选择器是一种使用长期预测将当前帧的音调脉冲映射为前一个帧的音调脉冲的延迟轮廓选择器。
11.按照权利要求10的用于确定长期预测延迟参数的器件,其中长期预测延迟参数子计算器是计数器,用于计算长期预测延迟参数来作为前一个帧的最后音调脉冲和当前帧的最后音调脉冲之间的连续音调脉冲的距离的函数。
12.按照权利要求9的用于确定长期预测延迟参数的器件,还包括使用前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数来全面地特征化延迟轮廓的功能。
13.按照权利要求9的用于确定长期预测延迟参数的器件,其中所述延迟轮廓选择器是用于在前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数之间非线性地内插延迟轮廓的选择器。
14.按照权利要求9的用于确定长期预测延迟参数的器件,其中所述延迟轮廓选择器是用于根据前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数确定分段的线性延迟轮廓的限制器。
15.一种信号修改方法,用于实现到用于数字编码声音信号的一种技术中,包括将所述声音信号划分为一系列连续的帧;将声音信号的每个帧划分为多个信号分段;和将所述帧的至少一部分信号分段变形,所述变形包括限制在所述帧内的被变形的信号分段。
16.按照权利要求15的信号修改方法,其中所述声音信号包括音调脉冲;每个帧包括边界;和划分每个帧包括定位在帧的声音信号中的音调脉冲;将帧划分为音调周期分段,每个音调周期分段包括音调脉冲之一,并且每个音调周期分段位于帧边界内。
17.按照权利要求16的信号修改方法,其中定位音调脉冲包括使用被内插在帧上的开环音调估计;和所述信号修改方法还包括当在所定位的音调脉冲和所内插的开环音调估计的位置之间的差别不满足给定条件时终止信号修改过程。
18.按照权利要求15的信号修改方法,其中将声音信号的每个帧划分为多个信号分段包括加权所述声音信号以产生加权的声音信号;和从加权的声音信号提取信号分段。
19.按照权利要求15的信号修改方法,其中所述变形包括产生用于当前信号分段的目标信号;和响应于所述目标信号而找到当前信号分段的最佳位移。
20.按照权利要求17的信号修改方法,其中产生目标信号包括根据前一个帧的加权合成语音信号或根据修改的加权语音信号来产生目标信号;和找到当前信号分段的最佳位移包括执行当前信号分段和目标信号之间的相关性。
21.按照权利要求20的信号修改方法,其中执行相关性包括首先以整数分辨率来评估相关性以找到最大化相关性的信号分段位移;然后在围绕相关性最大的信号分段位移的区域中向上采样所述相关性,所述相关性的向上采样包括通过以分数分辨率最大化所述相关性来搜索当前信号分段的最佳位移。
22.按照权利要求15的信号修改方法,其中每个帧包括边界;将帧的信号分段的至少一部分变形包括检测是否在靠近与一个信号分段邻近的帧边界的声音信号中存在高功率区域;和根据是否检测到高功率区域来位移所述信号分段。
23.按照权利要求15的信号修改方法,其中所述变形包括形成延迟轮廓,所述延迟轮廓用于定义在当前帧上被内插的长期预测延迟参数,并且提供关于音调周期的演变和当前声音信号帧的周期性的附加信息;和逐个位移独立的音调周期分段以将它们调整到延迟轮廓。
24.按照权利要求23的信号修改方法,其中将独立的音调周期分段位移包括使用所述延迟轮廓来形成目标信号;和将音调周期分段移位以最大化所述音调周期分段与目标信号的相关性。
25.按照权利要求23的信号修改方法,还包括检查来自延迟轮廓的、关于音调周期的演变和当前声音信号帧的周期性的信息;和定义与由延迟轮廓给定的、关于音调周期的演变和当前声音信号帧的周期性的信息相关联的至少一个条件;和当未满足所述与由延迟轮廓提供的、关于音调周期的演变和当前声音信号帧的周期性的信息相关联的至少一个条件时中断信号修改。
26.按照权利要求19的信号修改方法,还包括限制信号分段的位移,所述限制包括向帧的所有信号分段施加给定的标准;和当未满足给定标准时中断信号修改过程,并且保持原始的声音信号。
27.按照权利要求15的信号修改方法,还包括检测声音信号的当前帧中的语音行为的不存在;和响应于检测到当前帧中的语音行为的不存在而选择编码声音信号的当前帧的信号修改禁止模式。
28.按照权利要求15的信号修改方法,还包括检测声音信号的当前帧中的语音行为的存在;将当前帧列入无声的声音信号帧;和响应于下列而选择编码声音信号的当前帧的信号修改禁止模式检测到声音信号的当前帧中的语音行为的存在;和将当前帧列入无声的声音信号帧。
29.按照权利要求15的信号修改方法,还包括检测声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;检测到信号修改成功;和响应于下列而选择编码声音信号的当前帧的信号修改使能模式检测到声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;和检测到信号修改成功。
30.按照权利要求15的信号修改方法,还包括检测声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;检测到信号修改不成功;和响应于下列而选择编码声音信号的当前帧的信号修改禁止模式检测到声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;和检测到信号修改不成功。
31.一种信号修改器件,用于实现到用于数字编码声音信号的一种技术中,包括第一划分器,用于将所述声音信号划分为一系列连续的帧;第二划分器,用于将声音信号的每个帧划分为多个信号分段;和信号分段变形件,被提供所述帧的至少一部分信号分段,所述变形件包括用于限制在所述帧内的被变形的信号分段的限制器。
32.按照权利要求31的信号修改器件,其中所述声音信号包括音调脉冲;每个帧包括边界;和第二划分器包括用于检测帧的声音信号中的音调脉冲的检测器;用于将帧划分为音调周期分段的划分器,每个音调周期分段包括音调脉冲之一,并且每个音调周期分段位于帧边界内。
33.按照权利要求32的信号修改器件,其中音调脉冲的检测器使用被内插在帧上的开环音调估计;和所述信号修改器件还包括信号修改终止件,当在所检测的音调脉冲和所内插的开环音调估计的位置之间的差别不满足给定条件时所述信号修改终止件有效。
34.按照权利要求31的信号修改器件,其中将声音信号的每个帧划分为多个信号分段的第二划分器包括用于加权所述声音信号以产生加权的声音信号的滤波器;和用于从加权的声音信号提取信号分段的提取器。
35.按照权利要求31的信号修改器件,其中所述信号分段变形件包括用于产生用于当前信号分段的目标信号的计算器;和用于响应于所述目标信号而找到当前信号分段的最佳位移的探测器。
36.按照权利要求35的信号修改器件,其中目标信号的计算器是一种根据前一个帧的加权合成语音信号或根据修改的加权语音信号来产生目标信号的计算器;和当前信号分段的最佳位移的探测器包括用于计算在当前信号分段和目标信号之间的相关性的计算器。
37.按照权利要求36的信号修改器件,其中相关性的计算器包括评估器,用于以整数分辨率来评估相关性以找到最大化相关性的信号分段位移;向上采样器,用于在围绕相关性最大的信号分段位移的区域中向上采样所述相关性,所述向上采样器包括搜索器,用于搜索当前信号分段的最佳位移,当前信号分段的最佳位移的所述搜索器包括具有分数分辨率的相关性的评估器。
38.按照权利要求34的信号修改器件,其中每个帧包括边界;所述信号分段变形件包括用于检测高功率区域是否存在于靠近与一个信号分段邻近的帧边界的声音信号中的检测器;和用于根据是否检测到高功率区域来位移所述信号分段的位移器。
39.按照权利要求31的信号修改器件,其中所述信号分段变形件包括用于形成延迟轮廓的计算器,所述延迟轮廓用于定义当前帧上被内插的长期预测延迟参数,并且提供关于音调周期的演变和当前声音信号帧的周期性的附加信息;和用于逐个位移独立的音调周期分段以将它们调整到延迟轮廓的位移器。
40.按照权利要求39的信号修改器件,其中独立的音调周期分段位移器包括用于使用所述延迟轮廓来形成目标信号的计算器;和用于将音调周期分段位移以最大化所述音调周期分段与目标信号的相关性的位移器。
41.按照权利要求40的信号修改器件,还包括评估器,用于检查来自延迟轮廓的、关于音调周期的演变和当前声音信号帧的周期性的信息;和定义器,用于定义与由延迟轮廓给出的、关于音调周期的演变和当前声音信号帧的周期性的信息相关联的至少一个条件;和终止器,用于当未满足所述与由延迟轮廓提供的、关于音调周期的演变和当前声音信号帧的周期性的信息相关联的至少一个条件时中断信号修改。
42.按照权利要求35的信号修改器件,还包括用于限制音调周期分段的位移的限制器,所述限制器包括施加器,用于向帧的所有信号分段施加给定的标准;和终止器,用于当未满足给定标准时中断信号修改过程,并且保持原始的声音信号。
43.按照权利要求31的信号修改器件,还包括用于检测声音信号的当前帧中的语音行为的不存在的检测器;和用于响应于检测到当前帧中的语音行为的不存在而选择编码声音信号的当前帧的信号修改禁止模式的选择器。
44.按照权利要求31的信号修改器件,还包括用于检测声音信号的当前帧中的语音行为的存在的检测器;用于将当前帧列入无声的声音信号帧的分类器;和选择器,用于响应于下列而选择编码声音信号的当前帧的信号修改禁止模式检测到声音信号的当前帧中的语音行为的存在;和将当前帧列入无声的声音信号帧。
45.按照权利要求31的信号修改器件,还包括用于检测声音信号的当前帧中的语音行为的存在的检测器;用于将当前帧列入有声的声音信号帧的分类器;用于检测到信号修改成功的检测器;和选择器,用于响应于下列而选择编码声音信号的当前帧的信号修改使能模式检测到声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;和检测到信号修改成功。
46.按照权利要求31的信号修改器件,还包括用于检测声音信号的当前帧中的语音行为的存在的检测器;用于将当前帧列入有声的声音信号帧的分类器;用于检测到信号修改不成功的检测器;和选择器,用于响应于下列而选择编码声音信号的当前帧的信号修改禁止模式检测到声音信号的当前帧中的语音行为的存在;将当前帧列入有声的声音信号帧;和检测到信号修改不成功。
47.一种用于搜索声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由线性预测分析滤波器滤波所述声音信号来产生残余信号;根据所述残余信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述残余信号在前一个帧的声音信号的最后一个音调脉冲位置周围提取给定长度的音调脉冲原型;和使用音调脉冲原型来定位在当前帧中的音调脉冲。
48.按照权利要求47的用于搜索在声音信号中的音调脉冲的方法,还包括预测当前帧的第一音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的时刻的内插的开环音调估计相关联;和通过最大化在脉冲原型和残余信号之间的加权相关性来改进所述音调脉冲的预测位置。
49.按照权利要求48的用于搜索在声音信号中的音调脉冲的方法,还包括重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
50.一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器,;线性预测分析滤波器,用于滤波所述声音信号从而产生残余信号;用于响应于所述残余信号来定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述残余信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
51.按照权利要求50的用于搜索在声音信号中的音调脉冲的器件,还包括预测器,用于预测当前帧的每个音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的所述时刻的内插的开环音调估计相关联;和改进器,用于通过最大化在脉冲原型和残余信号之间的加权相关性来改进所述音调脉冲的预测位置。
52.按照权利要求51的用于搜索在声音信号中的音调脉冲的器件,还包括重复器,用于重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
53.一种用于搜索在声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由加权滤波器来处理所述声音信号来产生加权的声音信号,所述加权的声音信号指示信号的周期性;根据所述加权的声音信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述加权的声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和使用音调脉冲原型来定位在当前帧中的音调脉冲。
54.按照权利要求53的用于搜索在声音信号中的音调脉冲的方法,还包括预测当前帧的第一音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的时刻的内插的开环音调估计相关联;和通过最大化在脉冲原型和所述加权的声音信号之间的加权相关性来改进所述音调脉冲的预测位置。
55.按照权利要求54的用于搜索在声音信号中的音调脉冲的方法,还包括重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
56.一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器;加权滤波器,用于处理所述声音信号来产生加权的声音信号,所述加权的声音信号指示信号的周期性;用于响应于所述加权的声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述加权的声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
57.按照权利要求56的用于搜索在声音信号中的音调脉冲的器件,还包括预测器,用于预测当前帧的每个音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的所述时刻的内插的开环音调估计相关联;和改进器,用于通过最大化在脉冲原型和加权的声音信号之间的加权相关性来改进所述音调脉冲的预测位置。
58.按照权利要求57的用于搜索在声音信号中的音调脉冲的器件,还包括重复器,用于重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
59.一种用于搜索在声音信号中的音调脉冲的方法,包括将所述声音信号划分为一系列连续的帧;将每个帧划分为多个子帧;通过经由加权滤波器来滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号来产生合成的加权声音信号;根据所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲;使用所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和使用音调脉冲原型来定位在当前帧中的音调脉冲。
60.按照权利要求59的用于搜索在声音信号中的音调脉冲的方法,还包括预测当前帧的第一音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的时刻的内插的开环音调估计相关联;和通过最大化在脉冲原型和合成的加权声音信号之间的加权相关性来改进所述音调脉冲的预测位置。
61.按照权利要求60的用于搜索在声音信号中的音调脉冲的方法,还包括重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
62.一种用于搜索在声音信号中的音调脉冲的器件,包括用于将所述声音信号划分为一系列连续的帧的划分器;用于将每个帧划分为多个子帧的划分器;加权滤波器,用于滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号以产生合成的加权声音信号;用于响应于所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器;提取器,用于响应于所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型;和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。
63.按照权利要求62的用于搜索在声音信号中的音调脉冲的器件,还包括预测器,用于预测当前帧的每个音调脉冲的位置出现在这样的时刻,所述时刻与前一个被定位的音调脉冲的位置和在对应于前一个被定位的音调脉冲的位置的所述时刻的内插的开环音调估计相关联;改进器,用于通过最大化在脉冲原型和合成的加权声音信号之间的加权相关性来改进所述音调脉冲的预测位置。
64.按照权利要求63的用于搜索在声音信号中的音调脉冲的器件,还包括重复器,用于重复预测音调脉冲位置和改进预测的位置,直到所述预测和改进获得位于当前帧之外的音调脉冲位置。
65.一种用于在解码声音信号期间形成自适应代码本激励的方法,所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码,所述方法包括对于每个帧接收在所述数字声音信号编码技术中以长期预测为特征的长期预测延迟参数;使用在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来恢复延迟轮廓,其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征;响应于延迟轮廓而形成在自适应代码本中的自适应代码本激励。
66.一种用于在解码声音信号期间形成自适应代码本激励的器件,所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码,所述器件包括接收器,接收每个帧的长期预测延迟参数,其中所述长期预测延迟参数在所述数字声音信号编码技术中以长期预测为特征;计算器,响应于在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来计算延迟轮廓,其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征;和自适应代码本,用于响应于延迟轮廓而形成自适应代码本激励。
全文摘要
为了在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数,将所述声音信号划分为一系列连续的帧;定位前一个帧中的声音信号的特征;定位当前帧中的声音信号的对应特征;确定当前帧的长期预测延迟参数,同时使用长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。在用于实现到用于数字编码声音信号的一种技术中的一种信号修改方法,将所述声音信号划分为一系列连续的帧;将声音信号的每个帧划分为多个信号分段;将所述帧的至少一部分信号分段变形,同时限制在所述帧内的被变形信号分段。为了搜索声音信号中的音调脉冲,通过经由线性预测分析滤波器来滤波所述声音信号来产生残余信号,通过经由加权滤波器处理声音信号来产生加权的声音信号,所述加权的声音信号指示信号周期性,通过滤波合成的语音信号来产生合成的加权声音信号,所述合成的语音信号是在通过加权滤波器在声音信号的前一个帧的最后子帧期间产生的,根据所述残余信号定位前一个帧的声音信号的最后一个音调脉冲,使用所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型,使用音调脉冲原型来定位当前帧中的音调脉冲。
文档编号G10L19/12GK1618093SQ02827607
公开日2005年5月18日 申请日期2002年12月13日 优先权日2001年12月14日
发明者米科·塔米, 米兰·杰利内克, 克劳德·拉夫拉姆, 维萨·劳皮拉 申请人:诺基亚有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1