一种变速率的声码器及其编码方法

文档序号:2831123阅读:477来源:国知局
专利名称:一种变速率的声码器及其编码方法
技术领域
本发明涉及能改变编码速率的码书激励线性预测CELP声码器,具体涉及到对确定声音 信号帧编码速率的方法。
背景技术
在线性预测编码(LPC)技术中,应用一个滤波器来去除信号冗余,由此压縮声音信号, LPC滤波器能重现一种频谱包络,以试图模仿人们的声音。
在码分多址(CDMA)和通用移动通信系统(UMTS)的声码器中都使用了码书激励线性预 测编码器的技术。
码书激励线性预测(CELP)声码器比早先的LPC技术有两方面的改善,第一,CELP声 码器应用一个音调预测滤波器来抽取音调信息,即自适应码书搜索,尝试捕获更多的语音细 节;第二, CELP声码器用从一个实际语音波形中产生的残余信号里导出的类噪声信号来激 励LPC滤波器。
CELP声码器中包含三大部分1)短时预测滤波器;2)长时预测滤波器,也称为音调 滤波器;以及3)固定码书。第一部分应用线性预测來去除语音信号中的短时冗余,产生自 短时预测滤波器的误差(或称为残余信号)变为长时预测滤波器的目标信号。话音信号有一 种准周期性的性质,长吋预测滤波器从残余信号中抽取出一个音调周期,并去除掉先前一个 周期中可预测的信息。在长时和短时滤波之后的残余信号几乎全是类噪声信号。由固定码书 搜索从其矢量库中寻找与该类噪声残余信号的最佳匹配,代表最佳匹配的码字便取代该类噪
声残余信号进行传输。在代数CELP (ACELP)声码器中,固定码书由少量的非零脉冲组成, 非零脉冲由其脉冲的位置和符号(例如+l或-l)来代表。
一种典型的方案中,CELP声码器对划分成帧的输入语音信号的每一帧作一次短时预测 滤波器的LPC系数更新。然后,将LPC残余信号划分成子帧,用于长时预测滤波器和固定 码书搜索,例如,对于短时预测滤波器,输入语音可以分块成160样本的帧。然后,形成的 帧可以分割成40样本的四个子帧。于是,每个子帧由长时预测滤波器和固定码书搜索进行处 理,形成的帧也可以分割成53样本、53样本和54样本的3个子帧。
CELP声码器实现压缩的方法是为其三大部分的每一个部分指配-一定数目的比特作为输 出,它们少于原来语音信号所用的比特数目。声码器的编码速率由指配给其三大部分的比特 数目所决定,当一个声码器有多种编码速率就意味着指配给其三大部分的比特数目有多种方 式,例如,EVRC (增强型变速率语音编解码器)全速率编码方式下29位的LPC数据分配给 短时预测滤波器,21位音调数据分配给长时预测滤波器,120位数据分配给固定码书;,EVRC 半速率编码方式下22位的LPC数据分配给短时预测滤波器,16位音调数据分配给长时预测 滤波器,42位数据分配给固定码书。
因为语音本身有静默期,可以通过降低这些静默期间的数据速率有效压縮语音数据的传 输速率,高通公司的申请号为92101618.9的可变速率声码器的专利就是关于上述方法的一个 方案。
目前的可变速率声码器是通过对原始输入声音信号或原始输入声音信号经加权后得到的 信号的每一帧进行检测而达到编码速率的变化的,S卩,检测每个输入声音信号巾贞确定其是否 包含语音(也称为为话音激活检测),当话音激活检测(VAD)的结果是有话音则采用较高的 速率编码,例如EVRC的全速率,当检测的结果是无话音时则采用较低的速率编码,例如 EVRC的八分之一速率,也就是针对背景噪声的编码速率。
现有的变速率编码器在对话音激活检测的结果是无话音的输入声音信号帧以背景噪声的 编码速率编码时只进行短时预测滤波器的LPC系数更新,而不产生音调数据和固定码书的比 特输出,代替它们的是表示帧能量数据的比特。
一种典型的包括音调分析和固定码书搜索的CELP声码器如图1所示,输入声音信号帧 1输出到LP参数分析器和短时预测滤波器,由LP参数分析器产牛:LPC系数传送至短时预测 滤波器和短时预测合成滤波器,短时预测滤波器的传输函数为A(z),短时预测合成滤波器的 传输函数为
<formula>formula see original document page 10</formula>
其中a,为由LP参数分析器得到的LPC系数,p为预测阶数。短时预测STP滤波器输出的残 余信号3到音调分析器和长时预测LTP滤波器,LTP滤波器的传输函数P("为l-^z人"为 基音增益,丄为基音延迟,/9和£由音调分析器输出的音调数据4所给出,音调数据4还被输 出到长时预测合成滤波器,长时预测LTP合成滤波器的传输函数为1/P(z)。固定码书搜索模 块接收LTP滤波器输出的残余信号5产生固定码书中的码矢量8和固定码书增益编码6,码 矢量8所表示的信号按固定码书增益编码6放大后输出到长时预测合成滤波器,LTP合成滤 波器合成激励信号7输出到短时预测合成滤波器,短时预测合成滤波器生成合成语音信号9。 变速率CELP声码器工作在为背景噪声编码的低速率模式时长时预测滤波器和固定码书 搜索都不工作,取而代之的是帧能量分析器,图2示出一典型的变速率CELP声码器,其中的 编码速率确定模块根据输入声音信号帧1确定编码该帧的编码速率,如果是背景噪声的速率 就向帧能量分析器输出输入声音信号帧1,否则就向短时预测滤波器输出输入声音信号帧1。 当收到输入声音信号帧1后帧能量分析器计算出输入声音信号帧1的帧能量的数值作为向译 码器发送的参数,而STP预测滤波器由于没有'输入信号不会有自适应码书参数和固定码书参 数要向译码器发送,仅有线性预测LP参数分析器产生的LPC参数需要发送。

发明内容
要解决的技术问题
在现有技术中,为了决定输入声音帧编码速率是采用背景噪声的编码速率还是语音的编
ea率所采取的方案是针对输入声音帧或采样输入声音^i经预处理后形成的预处理后的数字
话音信号帧进行是否有话音的检测,这种检测原始的加权输入声音帧是否有能被人耳感知的 方案有其局限性,因为要给人耳感知的是用CELP的LPC参数、自适应码书参数和固定码书参 数解码而成的合成声音信号帧,当原始的加权输入声音帧的检测结果是可以被人耳感知而合 成声音信号帧的检测结果是无法被人耳感知时,采用针对语音的编码速率就显得不必要了; 当原始的加权输入声音帧的检测结果是不能被人耳感知而合成声音信号帧的检测结果是可以 被人耳感知时,采用针对背景噪声的编码速率来编码也不能算合适,因为,给出原始的加权 输入声音帧中没有语音信息这一检测结果的针对该原始的加权输入声音帧的检测方案有其局 限性。
技术方案
本发明将是否有声音的检测定位在应用LPC参数、自适应码书参数和固定码书参数所产 生的合成数字声音信号帧上。
这样对于每个加权输入声音信号帧来说,无论其最后的编码速率是否是背景噪声的编码 速率,都要对它进行CELP的三大部分(短时预测滤波器、长时预测滤波器和固定码书)的处 理得到LPC参数、自适应码书参数和固定码书参数并根敏这些参数获得合成数字声音信号帧, 然后对该合成数字声音信号帧作是否有声音的检测,如果检测的结果是无话音则按编码背景 噪声的编码速率进行编码,即再对法合成数字声音信号帧进行帧能量分析获得关于帧能量的 数值,向译码器发送LPC参数和帧能量数值参数,而不发送自适应码书参数和固定码书参数。
为了使本声码器端的合成数字声音信号帧和解码器解码生成的合成数字声音信号帧有相 类似的语音特性,本发明在下面给出能将声码器STP合成滤波器的输入信号与解码器的STP 合成滤波器的输入信号保持一致的技术方案,该技术方案就是
若为当前帧生成的数据包包括的比特表示了 LPC参数、自适应码书参数和固定码书参 数,即,除了对LPC参数编码之外还将所述的对输入声音信号帧的自适应码书搜索和固 定码书搜索所得到的自适应码书参数和固定码书参数编码,则根据所述自适应码书参数 (基音增益和基音延迟)确定LTP合成滤波器,并将所述固定码书参数中的固定码书码 矢量表示的信号按固定码书参数中的固定码书增益放大后作为该LTP合成滤波器的输入 信号,将LTP合成滤波器的输出信号作为当前帧的STP合成滤波器的激励信号;
若当前帧的编码方式是LPC参数和帧能量参数的编码,编码器使其保存的当前帧的 激励信号与译码器收到所述LPC参数和帧能量参数的编码后输出到其STP合成滤波器的 激励信号一致。
接着,对下一声音信号帧进行线性预测、音调分析(自适应码书搜索)和固定码书搜索 得到LPC系数、音调参数((自适应码书参数))和固定码书参数,根据LPC系数确定STP合 成滤波器,根据音调参数确定LTP合成滤波器,将下一声音信号帧子帧的固定码书码矢量对 应的信号按固定码书增益放大后得到的固定码书激励信号作为LTP合成滤波器的输入信号, LTP合成滤波器根据存储的其对当前帧的固定码书激励信号的响应对该输入信号作出响应, 将所述LTP合成滤波器的响应作为STP合成滤波器的激励信号,STP合成滤波器对该激励信 号作出响应生成下一声音信号帧的合成数字声音信号,这样,就可以针对当前帧的下一个帧
的合成数字声音信号帧进行是否有话音的检测,如果检测的结果是无话音则按较低的编码速 率为下一声音信号帧编码,如果检测的结果是有话音则按较高的编码速率为下一声音信号帧 编码。
上述较低的编码速率的编码方式可以是只给出LPC系数参数和帧能量参数的方式,也可 以是给出LPC参数、自适应码书参数和固定码书参数的方式,只不过在较低的编码速率条件 下在一个编码帧中指配给LPC参数、自适应码书参数和固定码书参数的比特数较少而已。
生成下一帧的合成数字声音帧的STP合成滤波器所根据的过去的输出响应也是可以根据 需要设置的,例如当STP合成滤波器是10阶的滤波器,它在生成输出信号需要最近的过去输 出中的10 (滤波器的阶数)个样本。
当当前帧的编码方式是为帧能量参数和LPC系数参数编码时,生成下一帧的合成数字声 音帧的STP合成滤波器所根据的过去的输出响应可以是当前帧的合成数字声音帧中的最后的 滤波器的阶数个样本点上的值,也可以是由帧能量参数确定的随机信号的滤波器的阶数个样 本点上的信号值(这样只要译码器也使用帧能量参数确定的随机信号的值就能达到双方的一 致),还有另一种设置的方案就是用原始输入声音信号帧中的最后的滤波器的阶数个样本上信 号值来设置滤波器的这一状态变量,即,根据原始输入声音信号帧中的最后的滤波器的阶数 个样本上信号值来设置STP合成滤波器所存储的过去的输出信号。
本发明的检测是否有声音的检测对象是合成数字声音帧而不是现有技术所给出的输入声 音信号帧,合成数字声音帧虽然是输入声音信号帧经过有损的CELP编码后的译码所得,但这 并不意味着合成数字声音帧不适合作为是否有声音的检测的检测对象。
电子工业出版社2004年出版的作者是美国的夸特尔瑞的《离散时间语音信号处理原理 与应用(Discrete-Time Speech Signal Processing:Principle and Practice)》的5. 3. 4节 ——Levinson (莱文逊)递归及其相关特性中指出线性预测所使用的全极点模型和自相关 方法会使STP合成滤波器传输函数的所有极点落在单位圆内是最小相位系统;序列的自相关 法的解的傅立叶变换的相位函数是失真的;线性预测的自相关引起声门最大相位极点向最小 相位极点的转变;建立合成语音波形时,自相关变换造成的相位函数失真可能对语音感知有 影响,即,合成数字话音信号的波形和原来数字话音信号的波形的偏离。在该书的5.6节一 一基于全极点模型的语音综合中指出基于线性预测自相关法的合成信号看起来像语音,但 同时由于其最小相位特性而失去了绝对相位结构;书中的图5. 18中的例子所示,重建语音信
号的尖峰比原始信号更为突出,并且,假定为最小相位的理想声门波是时间翻转的,并具有 比实际声门波更陡的上升沿。
由于合成数字话音信号在STP合成滤波器极点对应的谐振峰处有较高的能量,在对合成
数字话音信号帧进行是否有声音的检测时可以检测其振幅,如果其波形的上升沿和下降沿的 幅度都超过或其中之一超过阈值就将该帧判决为有话音,这样, 一旦所述的极点所对应的谐 振峰反映在波形上的振荡的幅度超过阈值,合成数字话音信号帧就不会在是否有声音的检测 时被检测成无声音信号。当出现合成数字话音信号的波峰的尖峰比原始信号更为突出的现象 时那些突出的尖峰可以较容易地用与阈值比较的方法被检出。用来与波形的上升沿或下降沿 比较的阈值的设定方法不是唯一的,该阈值的确定可以用固定值,也可以和波形波动所在的 合成数字话音信号帧有关,比如,可以参考合成数字话音信号帧的信号电平——帧内样本点
上的信号值的绝对值的和,也可以参考合成数字话音信号帧的能量或特定的子带的能量。
利用合成数字声音帧的波形的尖峰比原始信号更为突出及上升沿更陡的特性,可以较输 入信号帧更方便地检测出上升沿和尖峰,特别是这种基于波形的检测还可以和基于合成数字 声音帧能量(或信号电平)的检测相结合,对于波动很频繁但振幅不大的合成数字声音帧用 其能量与门限能量(或门限信号电平)比较的方案来检测效果较好,而对波动的振幅较大但 不频繁的合成数字声音帧检测上升沿或振幅的方案更为有效。
关于信号帧的能量的计算可以参照现有技术,即,将合成数字声音帧的自相关系数的第
一个值i ,(o)来估计其能量,i ,a)是自相关系数,它的计算式如下,
兄<formula>formula see original document page 13</formula>其中L是每一帧的样本点点数。
在基于合成数字声音帧能量的检测方案中的与信号帧能量相比较的门限能量的计算同样 可以参照现有技术,即根据相邻上一帧的帧能量和门限能量来确定当前帧的门限能量。
有益效果
由于采用了先执行线性预测和码书搜索再执行针对合成数字话音进行话音激活检测的方 法,即,根据码书搜索和线性预测所生成的激励信号的出现就先于VAD操作,针对激励信号 通过线性预测合成滤波器的输出进行VAD,这样,如果原始数字声音帧经过线性预测、自适 应码书搜索和固定码书搜索处理后的形成的合成数字信号帧的特征是有话音的,其VAD的结 果才是有话音的,译码方收到的包含LPC参数、自适应码书参数和固定码书参数经译码后产 生的数字语音信号帧的特征与编码方的该编码速率的用于检测的合成数字语音信号的特征相 似;编码方在无法检测到具有活动话音的合成数字信号的情况下才有可能产生没有音调参数 的编码帧。
本发明将是否有声音的检测的对象直接定位在非背景噪声编码速率的AMR编码帧所对应 的合成数字话音信号帧上,因编码速率降低会造成该编码速率的合成数字话音信号帧的VAD 结果趋向于无话音,例如,对于具有一定数量的帧的声音信号来说,使用本发明的方法,编 码速率降低会使根据输入信号能量和背景噪声能量的估计值间差值(或输入信号电平和背景 噪声电平的估计值间差值)所作的VAD判决的结果为无话音的帧的个数增加。因此,本发明 还可以提高CELP编码技术的声音压縮率。
由于采用了先执行线性预测和码书搜索再执行VAD的方法,这样,按自适应码书参数和 固定码书参数生成的STP舍成滤波器的激励信号的出现就先于VAD操作,码书搜索的操作在 执行的次序上先于VAD操作,当VAD的结果是没有话音使得生成合成数字话音信号时产生的 激励信号的参数不能再用于下一帧的编码时,就可以有选择地弃用根据自适应码书搜索和固 定码书搜索得到的STP合成滤波器的激励信号,而不必再象现有技术那样在编码背景噪声编 码速率帧后放弃按非背景噪声编码速率执行线性预测和码书搜索产生的其它参数,由于有了 这一方案,为相邻下一输入声音信号帧生成的用于是否有声音检测的合成数字声音信号含有
更多的输入声音信号的特征,因为现有技术中, 一旦遇到编码帧不包含自适应码书参数和固 定码书参数的情况,就不会为对应的输入声音信号帧进行自适应码书搜索和固定码书搜索, 此刻编码器丢失了该输入声音信号帧的特征。
在收到包含自适应码书参数和固定码书参数的编码帧后,接收方的译码器与编码器中的 语音模式编码模块分别参照一致的的过去样本点上的STP合成滤波器的激励信号, 一方使用 信道上的收到的编码帧中的参数,另一方使用自己编码到该编码帧中去的参数,分别生成各 自子帧的STP合成滤波器的激励信号,所以接收方译码器的STP合成滤波器的激励信号与所 述语音编码模块的STP合成滤波器的激励信号完全一致,译码器使用和编码器一致的激励信 号使译码产生的合成语音的听觉质量有保证。
本发明的将合成数字话音信号的波峰的幅度同阈值比较的VAD方法可以在预测合成滤波 器极点对应的谐振峰反映在波形上的波峰的幅度高于阈值时检出该波峰所在的合成数字话音 信号帧。当合成数字话音信号的尖峰比原始信号更为突出这一现象体现在对应原始信号共振 峰的合成数字话音信号的波形中的尖峰的上升沿或下降沿比原始信号的更大时,上述的将合 成数字话音信号的波峰的幅度同阈值比较的方法可以检测出无法通过检测原始信号波形的尖 峰而检出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象 体现在对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿比原始信号的更大 时,本发明的将合成数字话音信号的波峰的上升沿同阈值比较的方法可以检测出原来无法检 出的帧。同样,当前面提到的合成数字话音信号的上升沿比原始信号更为陡这一现象体现在 对应原始信号共振峰的合成数字话音信号的波形中的尖峰的上升沿的斜率比原始信号更大 时,将合成数字话音信号的波峰的上升沿的斜率同阈值比较的方法可以检测出原来无法检出 的帧。


图1是现有技术的典型的包括音调分析和固定码书搜索的CELP声码器。 图2是现有技术的典型的变速率CELP声码器。
图3是根据合成数字声音信号帧将输入声音帧分类成有无语音两类之一并根据这一类别确定 编码速率的CELP变速率声码器。
图4是图4所示的是图3的声码器所对应的译码器。
图5是根据合成数字声音信号帧将输入声音帧分类成有12.2kbps、 6.7kbps和1.8kbps三类之 一并根据这一类别确定该帧编码速率的AMR-NB声码器。 图6是图5的声码器所对应的译码器。
具体实施例方式
实施例1,本实施例的声码器是对IS127 EVRC (增强型变速率编解码,器)CDMA (码分多 址接入)编码器的改进,本实施例的声码器的输入声音帧为20毫秒长160个声音数据样本, 意味着所提取的参数以每秒50次的脉冲传送,分割成53样本、53样本和54样本的三个子 帧。图3示出一根据合成数字声音信号帧将输入声音帧分类成有无语音两类之一并根据这一 类别确定该帧编码速率的变速率声码器,输入声音信号帧1输出到LP参数分析器和短时预 测滤波器,由LP参数分析器产生LPC系数参数2传送至短时预测滤波器,产生量化了的LPC 系数参数22传送至短时预测合成滤波器,短时预测滤波器的传输函数为A(z)和短时预测合 成滤波器的传输函数为// (z)的计算式如下,<formula>formula see original document page 15</formula>
附为预测阶数是10。本实施例中对每一帧都有一次LPC计算,分配给LPC参数22的比特的 位数是28, 1^参数分析器产生^(1=1,2,...,111), S卩,LPC系数参数2, LP参数分析器还产生 4 (i=l,2,...,m), g卩,LPC系数参数22,是根据由LPC计算得到的LPC系数2再量化编码成 的28位LPC参数得到的。
' 短时预测STP滤波器输出的残余信号3到音调分析器和长时预测LTP滤波器,LTP滤波 器的传输函数PU)为l-y9z』,/ 为基音增益,L为基音延迟,;S和i:是由音调分析器根据残余 信号3和误差信号66估算出的整个帧的音调数据4,音调分析器产生表征整个帧的丄的7个 ACB位并输出根据该7个AC6位产生的基音延迟13,以及3个ACBG位以估算第一子帧的 自适应码书增益A另外3个ACBG位估算第二子帧的自适应码书增益y5,而且,另有3个 ACBG位估算第三子帧的自适应码书增益^并且音调分析器为这3个子帧的每一个子帧输 出根据ACBG位产生的自适应码书增益14,基音延迟13和自适应码书增益14还被输出到长 时预测LTP合成滤波器,LTP合成滤波器的传输函数为1/ (l-Pz-。, 是根据3个ACBG 位的量化的子帧的自适应码书增益(自适应码书增益14),丄是根据该7个ACB位量化的基 音延迟13。
固定码书搜索模块接收LTP滤波器输出的残余信号5计算产生固定码书码矢量8和固定 码书增益编码6,固定码书码矢量8中有35个FCB位表示第一子帧的固定码书码矢量,另有 35个FCB位表示第二子帧的固定码书码矢量,而且还有35个FCB位表示第三子帧的固定码 书码矢量。固定码书码矢量8逐个子帧地输出。固定码书增益编码6也是逐个子帧地输出, 表示固定码书增益编码6的比特中有5个FCBG位表示第一子帧的固定码书增益,另有5个 FCBG位表示第二子帧的固定码书增益,而且还有5个FCBG位表示第三子帧的固定码书增 益。
分配到以上给出的各个参数比特帧(或数据包)内码比特置的总数与运行在全速率8kbps 下的声码器有关,总之,该比特帧包括28个LPC位;7个ACB位;9个ACBG位;105
个FCB位;和15个FCBG位,所以,该比特帧内的比特总数为164位,20毫秒164位相当 于8.2kbps(千比特每秒)。
长时预测(LTP)合成滤波激励生成模块将固定码书码矢量8所表征的信号按固定码书 增益编码6放大后输出信号11输出到长时预测LTP合成滤波器,LTP合成滤波器合成STP 合成滤波器的激励信号7输出到短时预测合成滤波器,从图中给出的LTP合成滤波器的框图 可知,LTP合成滤波器包含了一个记忆模块——过去的输出信号的存储,该模块将LTP为当 前和先前子帧产生的激励信号7存储起来,当收到基音延迟£后输出L个样本点之前的STP 合成滤波器的激励信号10,信号10按基音增益-放大后同信号11相加产生STP合成滤波器 的激励信号7,短时预测合成滤波器响应激励信号7生成合成语音信号9。
话音激活检测模块接收一个帧的合成语音信号9并检测其中是否有话音,若检测结果有 话音其输出的声音类型信号12就是有话音,否则声音类型信号12就是无话音。声音类型信 号12输出到参数数据包类型选择模块,该模块根据声音类型信号12的内容选择发送到译码 器的参数数据包的类型,参数数据包有两种类型, 一种是类型A,该类型的参数数据包包括LPC 参数、音调参数和固定码书参数;另一种是类型B,该类型的参数数据包包括LPC参数和帧 能量参数。
帧能量分析器接收输入声音信号帧l,计算出帧能量增益并对其进行量化,得到8个FG 位的比特表示帧能量增益,帧能量分析器向激励信号更新控制模块输出包含8个FG位的帧 能量增益参数16,激励信号更新控制模块在参数数据包类型信号18为类型B时向LTP合成 滤波器输出根据帧能量增益参数16对应的量化的帧能量增益给出的伪随机噪声信号17, LTP 合成滤波器用该伪随机噪声信号17的信号值代替其过去的输出信号存储中存放的由其生成 对应输入声音信号帧1的STP合成滤波器激励信号。
当声音类型信号12是无话音时参数数据包类型选择模块输出参数数据包类型信号18是 类型B,即声码器发送的数据包是包括LPC参数和帧能量参数的数据包,此时所有位(LPC 和FG)组合成为比特帧(bit frame),在这単分配给LPC的位数是8位(LPC系数2量化编 码成8位);当声音类型信号12是有话音的,则参数数据包类型信号18是类型A,即声码器 发送的数据包包括了 LPC参数、音调参数和固定码书参数,此时所有位(LPC、 ACB、 ACBG、 FCB禾卩FCBG)组合成为比特帧(bitframe)。
图3中的音调分析器(自适应码书搜索装置)搜索基音增益^和基音延迟丄是经过开环 搜索和闭环搜索得到的,在开环搜索时音调分析器根据残佘信号3 (e(n))的相关性估算出的 整个帧的々和丄的开环值,即使下式达到最大的开环值L1及L1处的开环增益(31,
159<formula>formula see original document page 16</formula>
闭环搜索如图3中的虚线所示,即,音调分析器给出开环延迟Ll附近的延迟值61 (可由7 个ACB位表示的)及开环增益pi附近的3个子帧的增益值(可由9个ACBG位表示的), 增益信号62包含这3个子帧的增益,LTP合成滤波器将延迟值61处的STP激励信号67按 增益信号62中的增益值逐个子帧地放大形成LTP的零激励响应63,零激励响应63作为STP 合成滤波器的输入产生合成数字声音帧信号64,输入声音帧1减去合成数字声音帧信号64
<formula>formula see original document page 16</formula>
形成误差信号65,误差信号65经过感知加权滤波器的加权成为加权误差信号66, 一旦音调 分析器在它搜索的所有延迟值61和增益信号62中增益值的配对中找到均方值最小的加权误 差信号66,该信号对应的延迟值61和增益信号62中增益值就分别作为基音延迟13和基音 增益14输出,采用先开环搜索再闭环搜索的方法使得要搜索的延迟值和增益值的配对的数目 得以减少。
图4所示的是图3的声码器所对应的译码器,声码器为输入声音信号帧生成的参数数据 包20输出到参数数据包参数提取模块,参数数据包参数提取模块根据参数数据包20的类型 进行参数的提取,类型A的参数数据包的长度大于类型B的长度,靠这一点可以区别类型A 的数据包和类型B的数据包,对于类型A的参数数据包参数数据包参数提取模块提取出LPC 参数23、基音延迟£一参数14、基音增益-一一参数13、固定码书码矢量对应的信号28 和固定码书增益26;对于类型B的参数数据包参数数据包参数提取模块提取出LPC参数23 和帧能量增益16。这样,在参数数据包20是类型A时,信号28按固定码书增益26放大后 成为信号ll,长时预测合成滤波器的过去的输出信号的存储模块按照接收到的基音延迟iX参 数14)输出长时预测合成滤波器的过去的输出信号30,输出信号30按基音增益- (参数13) 放大后与信号11相加成为短时预测合成滤波器的激励信号27,短时合成滤波器是按接收到 的LPC参数23给出的LPC系数构成的,短时合成滤波器对激励信号27的响应就是合成声 音信号29。在参数数据包20是类型B时,伪随机噪声生成模块按帧能量增益16生成伪高斯 白噪声序列37,这样伪高斯白噪声序列37的能量和图3中激励信号更新控制模块产生的伪 高斯白噪声序列17的能量相同(是一致的),伪高斯白噪声序列37作为STP合成滤波器的 激励信号,STP合成滤波器响应该激励信号的输出就是合成声音信号29,同时该伪高斯白噪 声序列还向LTP合成滤波器输出并被存放在过去的输出信号的存储中。事实上,在参数数据 包20是类型A时,激励信号27和声码器的激励信号7也是一致的,因为此时基音延迟丄一 参数14和基音增益^""参数13和声码器方的基音延迟£~"参数14和基音增益々^参数13相 同,此时的固定码书码矢量对应的信号28和固定码书增益26和声码器方的固定码书码矢量 8和固定码书增益编码6 —致,只要声码器方的过去的输出信号的存储模块中的存放的STP 合成滤波器的激励信号和译码器的一致,声码器的激励信号和译码器的完全一致,因为从初 始状态开始双方的过去的输出信号的存储中存放的STP合成滤波器的激励信号都是一致的初 始值,所以之后双方的激励信号就是一致的。
由于声码器中存储的STP合成滤波器的激励信号和译码器保存的STP合成滤波器的激励 信号一致,这样在音调分析(自适应码书搜索)的闭环搜索时使用的过去的STP合成滤波器 的激励信号也就和译码器的一致,自适应码书搜索使用由编码速率确定的存储的STP合成滤 波器的激励信号使得译码器的合成数字声音和声码器的一致提高了译码后的声音的质量。
实施例2,本实施例的声码器是对AMR (自适应多速率)编码器的改进,本实施例的声码 器的输入声音帧1为20毫秒长160个声音数据样本,意味着所提取的参数以每秒50次的传 送,分割成40样本的四个子帧。图5示出一根据合成数字声音信号帧将输入声音帧分类成有 12. 2kbps、 6. 7kbps和1. 8kbps三类编码速率之一并根据所确定的编码速率编码的变速率AMR 声码器,输入声音信号帧1输出到LP参数分析器和短时预测滤波器,由LP参数分析器产生 LPC系数参数2传送至短时预测滤波器,产生量化了的LPC系数参数22传送至短时预测合 —成遞波—器,短时预测滤波器的传输函数为A"),短时预测合成滤波器的传输函数为/f (z)
/ 为预测阶数是10。本实施例中对每一帧都有一次LPC计算,分配给LPC参数22的位数是 38, LP参数分析器产生a, (i=l,2,...,m),即,LPC系数参数2, LP参数分析器还产生, (i=l,2,...,m),艮卩,LPC系数参数22,是根据由LPC计算得到的LPC系数2再量化编码成的 38位LPC参数。
短时预测STP滤波器输出的残余信号3到音调分析器和长时预测LTP滤波器,LTP滤波 器的传输函数P("为l-^z』,P为基音增益,丄为基音延迟,A和丄是由音调分析器根据残余 信号3估算出的每个子帧的音调数据,音调分析器产生表征第一子帧的基音延迟的9个比特 和表征第三子帧的基音延迟的9个比特,音调分析器还产生表征第二子帧的基音延迟的6个 比特和表征第四子帧的基音延迟的6个比特;音调分析器产生表征第一子帧的自适应码书增 益的4个比特、表征第二子帧的自适应码书增益的4个比特、表征第三子帧的自适应码书增 益的4个比特和表征第四子帧的自适应码书增益的4个比特;根据音调分析器产生的表征子 帧的基音延迟的比特生成的子帧的基音延迟13被输出到长时预测LTP合成滤波器,根据音 调分析器产生的表征子帧的自适应码书增益的比特生成的子帧的自适应码书增益14也被输 出到LTP合成滤波器,LTP合成滤波器的传输函数为1/ ^是自适应码书增益14, 1是基音延迟13。 ,
固定码书搜索模块接收LTP滤波器输出的残余信号5计算产生固定码书码矢量8和固定 码书增益编码6,固定码书码矢量8中有35个比特表示第一子帧的固定码书码矢量,另有35 个比特表示第二子帧的固定码书码矢量,还有35个比特表示第三子帧的固定码书码矢量,而 且还有35个比特表示第四子帧的固定码书码矢量,固定码书码矢量8逐个子帧地输出。固定 码书增益参数也是逐个子帧地输出,表示固定码书增益编码6的比特中有5个比特表示第一 子帧的固定码书增益,另有5个比特表示第二子帧的固定码书增益,还有5个比特表示第三 子帧的固定码书增益,而且还有5个比特表示第四子帧的固定码书增益,根据这些5个比特 表示产生的固定码书增益编码6逐子帧地输tii。
分配到以上给出的各个参数比特帧(或数据包)内码比特置的总数与运行在全速率 12.2kbps下的AMR声码器有关,总之,该位帧包括38个LPC位;30个基音延迟位;16 个基音增益位;140个固定码书码矢量位;和20个固定码书增益位,所以,该位帧内的位总 数为244位,即20毫秒传送244比特相当于12.2kbps。
LTP合成滤波激励生成模块将固定码书码矢量8所表征的信号按固定码书增益编码6放 大后成为信号11输出到长时预测LTP合成滤波器,LTP合成滤波器合成STP合成滤波器的 激励信号7输出到短时预测合成滤波器,从图中给出的LTP合成滤波器的框图可知,LTP合 成滤波器包含了一个记忆模块——过去的输出信号的存储,该模块将LTP为当前和先前子帧 产生的激励信号7 (或47)存储起来,当收到基音延迟i后输出i个样本点之前的STP合成 滤波器的激励信号10,信号10按基音增益y9放大后同信号11相加产生STP合成滤波器的激 励信号7,短时预测合成滤波器响应激励信号7生成合成语音信号9。
话音激活检测模块接收一个帧的合成语音信号9并检测其中是否有话音并将检测结果一 声音类型信号12输出到编码帧类型选择模块,编码帧类型选择模块根据声音类型信号12和 之前收到的7个帧的检测结果(声音类型信号12)决定编码帧类型信号18的值。声音类型 信号12输出到编码帧类型选择模块,该模块根据声音类型信号12的内容选择发送到译码器 的参数数据包的类型,编码帧(参数数据包)有三种类型C、 D和E,类型C和D的编码帧 包括LPC参数、音调参数(自适应码书参数)和固定码书参数,C和D的区别在于类型C 的编码帧的位数是上述的244位而类型D的编码帧的位数是134位,合成语音信号9就是按 照类型C的帧生成的;另一种是类型E,该类型的参数数据包包括LPC参数和帧能量参数, 编码帧类型选择模块输出的编码帧类型信号18的内容就是三种类型C、 D和E之一。
若当前帧的声音类型信号12是有话音编码帧类型信号18就是类型C,若当前帧的声音 类型信号12是有话音但前7个帧的检测结果中有有话音则编码帧类型信号18是类型D,若 检测结果是无话音且前7个帧的检测结果也都是无话音则编码帧类型信号18是类型E。
帧能量分析器接收输入声音信号帧1,计算出帧能量的对数平均值并对其进行量化,得 到6个比特的表示帧能量索引的值。
当编码帧类型信号18是类型E,声码器发送的数据包是包括LPC参数和帧能量索引的 数据包,此时所有位(LPC和帧能量索引)组合成为比特帧(bitframe),在这里分配给LPC 参数的位数是29位,激励信号更新控制模块在编码帧类型信号18为类型E时向激励信号更 新控制模块输出该信号,激励信号更新控制模块产生一个固定的值全为零的信号帧15, LTP 合成滤波器用该全零信号帧15的信号值代替其过去的输出信号存储中存放的由其生成对应 输入声音信号帧1的STP合成滤波器激励信号。
当参数数据包类型信号18是类型C,声码器发送的编码帧包括了 LPC参数、音调参数 和固定码书参数,此时所有位组合成为比特帧(bitframe),其中有38个LPC位、30个基音 延迟位、16个基音增益位、140个固定码书码矢量位和20个固定码书增益位,也正是这些位 被用来产生用于VAD的合成语音信号声音帧9。
当编码帧类型信号18是类型D,声码器发送的编码帧包括了 LPC参数、音调参数和固 定码书参数,此时所有位组合成为位帧(bitframe),其中有26个LPC位、24个基音延迟位、 56个固定码书码矢量位、28个基音增益位和固定码书增益位,由56个码矢量位构成的固定 码书码矢量38逐子帧地输出至长时预测合成滤波激励生成模块,收到类型为D的编码帧类 型信号18后音调分析器将按类型C量化得到的自适应码书增益48逐子帧地输出到联合量化 模块,收到类型为D的编码帧类型信号18后固定码书搜索模块将按类型C量化得到的固定 码书增益43和预测固定码书增益47逐子帧地输出至联合量化模块,联合量化模块为每个子 帧的按类型C量化得到的自适应码书增益48和按类型C量化得到的固定码书增益43搜索7 比特的联合量化矢量表示,根据所述联合量化矢量表示产生并输出量化了的固定码书增益36 和量化了的自适应码书增益33,收到类型为D的编码帧类型信号18后音调分析器就将音调 参数中的基音延迟量化为上述的24个基音延迟比特,并且根据所述24个基音延迟比特产生 量化了的包含四个子帧基音延迟的基音延迟34,基音延迟34逐子帧地输出至LTP合成滤波 器,长时预测合成滤波激励生成模块将固定码书码矢量38对应的信号按量化了的固定码书增 益36放大后成为信号31输出至长时预测合成滤波器,LTP合成滤波器按基音延迟34重新逐
子帧地为当前帧从过去输出信号的存储模块中取出过去的激励信号30,过去的激励信号30 按量化了的自适应码书增益33放大后与信号31相加成为当前帧的子帧的激励信号47,当前 帧的子帧的激励信号47输出至过去输出信号的存储模块取代原先的激励信号7。
图5中的音调分析器(自适应码书搜索装置)搜索基音增益P和基音延迟L是进行闭环 搜索得到的,闭环搜索如图3中的虚线所示,g卩,音调分析器给出17.5至lj 143个样本点的范 围内分辨率为1/6个样本的所有延迟值71和[O.O, 1.2]范围的分辨率为0.075的所有增益值72, LTP合成滤波器将延迟值71处的STP激励信号77按增益值72放大形成LTP的零激励(即 自激励)响应73,零激励响应73作为STP合成滤波器的输入产生合成数字声音帧信号74, 输入声音帧1逐个子帧地与合成数字声音帧信号74相减形成误差信号75,误差信号75经过 感知加权滤波器的加权成为加权误差信号76, 一旦音调分析器在它搜索的所有延迟值71和 增益值72的配对中找到均方值最小的加权误差信号76该信号对应的延迟值71和增益值72 就分别作为基音延迟13和基音增益14逐个子帧地输出,在这里,采用分辨率为1/6个样本 点的延迟值71使得信号77的生成要将存储的STP合成滤波器的激励信号进行内插。当然, 如果采用开环搜索后再闭环搜索的方法可以使用以搜索的延迟值71和增益值72的配对的数 目得以减少。
图6所示的是图5的声码器所对应的译码器,声码器为输入声音信号帧生成的编码帧20 输出到编码帧参数提取模块,编码帧参数提取模块根据编码帧20的类型进行参数的提取,类 型C的参数数据包的长度大于类型D的长度,类型D的参数数据包的长度大于类型E的长 度,靠这一点可以区别C、 D和E,对于类型C或D的编码帧编码帧参数提取模块提取出LPC 参数23、基音延迟£~~参数24、基音增益-"^参数25、固定码书码矢量对应的信号28和固 定码书增益26;对于类型E的编码帧编码帧参数提取模块提取出LPC参数23和帧能量对数 索引值16。这样,在编码帧20是类型C或D时,信号28按固定码书增益26放大后成为信 号41,长时预测合成滤波器的过去的输出信号的存储模块按照接收到的基音延迟丄(参数24) 输出长时预测合成滤波器的过去的输出信号40,输出信号40按基音增益々(参数25)放大 后成为短时预测合成滤波器的激励信号27,短时合成滤波器是按接收到的LPC参数23给出 的LPC系数构成的,短时合成滤波器对激励信号27的响应就是合成声音信号29。在编码帧 20是类型E时,伪随机噪声生成模块按帧能量增益16生成伪高斯白噪声序列37,伪随机噪 声还生成全零的信号35输出至长时预测合成滤波器的过去的输出信号的存储模块,伪高斯白 噪声序列37作为STP合成滤波器的激励信号,STP合成滤波器响应该激励信号的输出就是 合成声音信号29,全零的信号35被存放在过去的输出信号的存储中,这样译码器和声码器 就拥有一样的当前帧的STP合成滤波器的激励信号的存储。
在编码帧20是类型C或D时,激励信号27和声码器的激励信号7或激励信号47也是 一致的,因为此时基音延迟Z—-参数24和基音增益"^参数25分别与声码器方的基音延迟/< (参数信号14或参数信号34)和基音增益^ (参数信号13或参数信号33)相同,此时的固 定码书码矢量对应的信号28和固定码书增益26和声码器方的固定码书码矢量8 (或固定码 书码矢量38)和固定码书增益编码6 (或固定码书码增益36) —致,只要声码器方的过去的 输出信号的存储中的存放的STP合成滤波器的激励信号和译码器的一致,声码器的激励信号 和译码器的完全一致,因为从初始状态开始双方的过去的输出信号的存储中存放的STP合成
滤波器的激励信号都是一致的初始值,所以之后双方的激励信号就是一致的。
由于上述AMR编码器中存储的STP.合成滤波器的激励信号和AMR译码器保存的STP 合成滤波器的激励信号一致,这样在音调分析(自适应码书搜索)的闭环搜索时使用的过考 的STP合成滤波器的激励信号也就和译码器的一致,自适应码书搜索使用根据编码速率确定 的STP合成滤波器的激励信号的存储使得译码器的合成数字声音和声码器的一致,从而提高 了译码后的声音的质量。
下面以一个合成数字话音信号帧的样本点上的信号值为例来说明VAD,原来输入信号帧 上每个样本点的值被表示为16比特,上述的AMR编码器将其3个最低有效位(比特2-比特O) 置0从而形成13比特的数字话音信号,花括号内是按先后顺序表示的由AMR-NB编码器处理 后形成的一个合成数字话音信号帧上的样本点上的信号{-43, 42, 13, 15, 7, -41, -1, 33, 0' -1, 1, —6, -5, —176, -32, 215, 430, 186' -81, -74, 195, 105, 19, -29, -72, -29, -46, -235, 123, -98, -67, -72, 16, 39, 126, 71, -63, 53, 31, -153, 92, 136, 100, 2, 17, -45, 31, 45, -47, -102, -98, -44, 8, 88, 1, -41, 118, -52, 1, 59, 32' 10, -27, -41, 108, -45, -44, 55, 72, -26, 119' -110' -70, -131, 43, 54, 10, —41, -50, 16, -15, 56, 20, 13, -13, -1, —3, 6' 11, 9, -44, -119' -134, 151, 288, 104' -229, -39, -6, 25, 188, 61, —73, -27, -233, —137, 136, —2, —218, 56, 43, 139, —14, 5, —16, 246, 22, —131, 89, 76, -97, 7, 134, 9, 42' 3, —31, —102, —126, —49, —11, —36, -64, —5, 144' 201, 17, 42, 56, -146, -134, 1, -76, -153, -81, 22, 2, -39, 39, 80, 42, 80, 31, -30, -41, -52, -75, -16, 7, -17},这里的较大的上升沿有幅度为506的从-176到430 一段、幅度为358的-235到123的一段、幅度为407的-119到288的一段、幅度为417的-229 到188的一段、幅度为399的-233到136的一段和幅度为327的-126到201的一段,该帧的 能量按前述式(1)计算是1446981,该帧的平均幅度是(帧内每个样本点上的信号值的绝对 值之和)是10813。
根据该帧的能量确定VAD中上升沿阈值的方案是将帧的能量1446981平均到每个样本 点上的平方根乘5(等于475. 5)作为上升沿第一阈值,将帧的能量1446981平均到每个样本点 上的平方根乘4(等于360. 4)作为上升沿第二阈值,当该帧的大于第一阈值的上升沿的个数在 1和2之间且该帧的大于第二阈值的上升沿的个数在2和4之间时该帧的检测结果为有声音, 这样该帧因为有506、 407和417的上升沿其检测结果就是有声音。
上述的根据上升沿检测是否有声音的方案还可和根据能量检测的方案相结合以根据能量 检测方案的不足,在这里用来与第/帧的帧能量比较的帧能量电平阈值双的计算式如下 5产附i"[及w (0), 1500000' m似(1.00547 5,.' + l)]
例如当上一合成数字声音帧的能量凡-,(①为1450000、上一合成数字声音帧的帧能量电平阈 值万,"为1440000时,根据花括号内数据所给出的帧的帧能量电平阈值A就为1447876.8 (大 于1446981)无法检测出有声音的结果。
类似的,根据上升沿检测是否有声音的方案还可和根据信号电平检测的方案相结合。
现有技术检测是否有声音的能量或电平检测方法往往根据的是多个子带上的能量或电 平,在本发明中也可采用根据合成数字话音信号帧的特定的子带的能量和信号的方案,例如,
能量计算部件根据下面的公式确定所述多个子带能量值中的每个子带能量值
<formula>formula see original document page 22</formula>
其中L为带通滤波器hbp(n)内的抽头数,Rs(i)为输入信号S(n)的自相关函数,R^为带通滤 波器hbp(n)的自相关函数,p是带通滤波器hbp(n)的阶数。根据子带能量和对应的子带能量 电平阈值的比较结果可以作出是否有声音的判决,子带能量电平阈值的确定和上述的能量电 平阈值的确定方法类似。
关于合成数字话音信号帧的特定的子带的电平,3GPP26094-500的3. 3. 1节滤波器组与 子带电平计算(Filter bank and computation of sub-band levels)给出了一种求子带的 电平的方法。
本发明可由本专业的人员进行各种的修改和变更,但其修'改和变更均在所附的专利申请 要保护的范围内。
权利要求
1. 一种为输入声音信号帧输出数据包的码激励线性预测CELP编码器,包括,由对所述输入声音信号帧自适应码书搜索得到的自适应码书参数所确定的长时预测LTP合成滤波器,用于接收按对所述输入声音信号帧进行固定码书搜索得到的固定码书增益放大所述固定码书搜索得到的固定码书码矢量信号而形成的信号;以及由对输入声音信号帧进行线性预测得到的线性预测参数所确定的短时预测STP合成滤波器,用于将所述LTP合成滤波器的输出信号作为其激励信号并响应以合成数字声音信号帧;其特征在于,还包括,声音信号检测部件,用于判断所述合成数字声音信号帧中是否存在声音信号;以及编码速率及激励信号选择部件,用于根据所述合成数字声音信号帧中是否存在声音信号的判断为所述数据包选择编码速率和选择用于对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索的所述输入声音信号帧的STP合成滤波器的激励信号,即,在所述判断是存在声音信号时,选择生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固定码书增益的比特的所述数据包,并选择存储所述LTP合成滤波器的所述输出信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;在所述判断是不存在声音信号时,选择生成包含表示所述输入声音信号帧帧能量的比特的所述数据包,并选择存储与该数据包译码后所表示的的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号,用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
2. —种为输入声音信号帧输出数据包的码激励线性预测CELP编码器,包括,由对所述输入 声音信号帧自适应码书搜索得到的自适应码书参数所确定的长时预测LTP合成滤波器,用 于接收按对所述输入声音信号帧进行固定码书搜索得到的固定码书增益放大所述固定码 书搜索得到的固定码书码矢量信号而形成的信号;以及由对输入声音信号帧进行线性预测得到的线性预测参数所确定短时预测STP合成滤 波器,用于将所述LTP合成滤波器的输出信号作为其激励信号并响应以合成数字声音信号 帧; .其特征在于,还包括,声音信号检测部件,用于判断所述合成数字声音信号帧中是否 存在声音信号;以及编码速率及激励信号选择部件,用于根据所述合成数字声音信号帧中是否存在声音信 号的判断为所述数据包选择编码速率和选择用于对与所述输入声音信号帧相邻的后一输 入声音信号帧进行自适应码书搜索的所述输入声音信号帧的STP合成滤波器的激励信 号,即,在所述判断是存在声音信号时,选择生成包含表示所述自适应码书参数、所述固定码 书码矢量和所述固定码书增益的所述数据包,并选择存储所述LTP合成滤波器的所述输 出信号用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索; 在所述判断是不存在声音信号时,选择生成包含表示所述输入声音信号帧帧能量的比特的所述数据包或者以较少的比特数表示自适应码书参数和固定码书参数的所述数据包, 并且,若选择生成的所述数据包包含了表示帧能量的比特则还选择存储与该数据包译码 后所表示的STP合成滤波器的激励信号一致的STP合成滤波器的激励信号,用以对与所 述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若选择生成的所述 数据包是所述的以较少的比特数表示自适应码书参数和固定码书参数的数据包,则还选 择存储根据所述以较少比特数表示的自适应码书参数确定的长时预测LTP合成滤波器对 所述以较少比特数表示的固定码书参数所确定的固定码书码矢量表示的信号按所述以较 少比特数表示的固定码书参数所确定的固定码书增益放大后的信号的激励的响应,用以 对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
3. 根据权利要求1或2的编码器,其特征在于, '所述与该数据包译码后所表示的的STP合成滤波器的激励信号一致的STP合成滤波器 的激励信号是伪随机噪声信号,该伪随机噪声信号的帧能量与所述该数据包译码后所表示 的STP合成滤波器的激励信号的帧能量相同。
4. 根据权利要求1或2的编码器,其特征在于,所述与该数据包译码后所表示的的STP合成滤波器的激励信号一致的STP合成滤波器 的激励信号和所述该数据包译码后所表示的的STP合成滤波器的激励信号相同,都是预定 的固定信号。
5. 根据权利要求1至4中任一项的编码器,其特征在于,所述声音信号检测部件包括多个副带能量计算部件,用于确定所述合成数字声音信号帧的各频率副带的信号能 量;以及多个副带阈值计算部件,各副带阈值计算部件耦合至所述多个副带能量计算部件中的 相应的一个,其中各副带阈值计算部件用于使用所指定的一个频率副带的信号能量来判断 在所述合成数字声音信号帧中是否存在声音信号。
6. 根据权利要求1至4中任一项的编码器,其特征在于,所述声音信号检测部件包括多个副带电平计算部件,用于确定所述合成数字声音信号帧的各频率副带的信号电 平;以及多个副带阈值计算部件,各副带阈值计算部件耦合至所述多个副带电平计算部件中的 相应的一个,其中各副带阈值计算部件用于使用所指定的一个频率副带的信号电平来判断 在所述合成数字声音信号帧中是否存在声音信号。
7. 根据权利要求5或6的编码器,其特征在于,所述声音信号检测部件还包括.振幅阈值计算部件,该部件根据所述合成数字声音信号帧波形的振幅来判断所述合成 数字声音信号帧中是否存在声音信号。
8.根据权利要求5或6的编码器,其特征在于,所述声音信号检测部件还包括上升沿阈值计算部件,该部件根据所述合成数字声音信号帧中的上升沿的幅度来判断 所述合成数字声音信号帧中是否存在声音信号。
9.根据权利要求1至4中任一项的编码器,其特征在于,所述声音信号检测部件包括能量计算部件,用于确定所述合成数字声音信号帧的信号能量;以及振幅阈值计算部件,该部件根据所述合成数字声音信号帧的信号能量确定振幅阈值, 并根据所述合成数字声音信号帧波形中的振幅超过该振幅阈值的个数判断所述合成数字 声音信号帧中是否存在声音信号。
10.根据权利要求1至4中任一项的编码器,其特征在于,所述声音信号检测部件包括 能量计算部件,用于确定所述合成数字声音信号帧的信号能量;上升沿阈值计算部件,上升沿阈值计算部件耦合至所述能量计算部件,用于根据所述 合成数字声音信号帧中的上升沿的大小和数量以及所述信号能量来判断在所述合成数字 声音信号帧中是否存在声音信号。
11.根据权利要求1至4中任一项的编码器,其特征在于,所述声音信号检测部件包括多个副带能量计算部件,用于确定所述合成数字声音信号帧的各频率副带的信号能 量;以及 ,上升沿阈值计算部件,上升沿阈值计算部件耦合至所述能量计算部件,用于根据所述 合成数字声音信号帧中的上升沿的大小和数量以及所述多个频率副带的信号能量来判断 在所述合成数字声音信号帧中是否存在声音信号。
12. 根据权利要求1至11中任一项的编码器,其特征在于,与所述输入声音信号帧相邻的后 一输入声音信号帧的STP合成滤波器根据所述合成数字声音信号帧尾部的若干个样本点 上的值生成所述后一输入声音信号帧的合成数字声音帧,所述若干个样本点的个数与所述 STP合成滤波器的阶数一致。
13. —种码激励线性预测CELP编码方法,其中对输入声音信号帧进行线性预测并用对所述输入声音信号帧进行线性预测得到的线 性预测参数确定短时预测STP合成滤波器,对所述输入声音信号帧进行自适应码书搜索和 固定码书搜索,根据所述自适应码书搜索得到的自适应^书参数确定长时预测LTP合成滤 波器,将所述固定码书搜索得到的固定码书码矢量所表示的信号按所述固定码书搜索得到 的固定码书增益放大后作为所述LTP合成滤波器的输入信号,将所述LTP合成滤波器对该 输入信号的响应作为所述输入声音信号帧的STP合成滤波器的激励信号,该STP合成滤波 器响应以合成数字声音信号,其特征在于,对所述合成数字声音信号帧进行是否存在声音信号的检测,若检测结果是有话音,为 所述输入声音信号帧生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固 定码书增益的比特的数据包,并存储所述输入声音信号帧的STP合成滤波器的激励信号 用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若所述 的检测结果是无话音,为所述输入声音信号帧生成包含表示所述输入声音信号帧帧能量 的比特的数据包,并使存储的所述输入声音信号帧的STP合成滤波器的激励信号与该数 据包所表示的译码后的STP合成滤波器的激励信号一致。
14. 一种码激励线性预测CELP编码方法,其中对输入声音信号帧进行线性预测并用对所述输入声音信号帧进行线性预测得到的线 性预测参数确定短时预测STP合成滤波器,对所述输入声音信号帧进行自适应码书搜索和 固定码书搜索,根据所述自适应码书搜索得到的自适应码书参数确定长时预测LTP合成滤 波器,将所述固定码书搜索得到的固定码书码矢量所表示的信号按所述固定码书搜索得到 的固定码书增益放大后作为所述LTP合成滤波器的输入信号,将所述LTP合成滤波器对该 输入信号的响应作为所述输入声音信号帧的STP合成滤波器的激励信号,该STP合成滤波 器响应以合成数字声音信号,其特征在于,对所述合成数字声音信号帧进行是否存在声音信号的检测,若检测结果是有话音,为 所述输入声音信号帧生成包含表示所述自适应码书参数、所述固定码书码矢量和所述固 定码书增益的比特的数据包,并存储所述输入声音信号帧的STP合成滤波器的激励信号 用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索;若所述 的检测结果是无话音,为所述输入声音信号帧生成包含表示所述输入声音信号帧帧能量 的比特的数据包或为所述输入声音信号帧生成以较少的比特数表示线性预测参数、自适 应码书参数和固定码书参数的数据包,以及若所述的检测结果是无话音且所述生成的数据包包含了表示帧能量的比特则使存储 的所述输入声音信号帧的STP合成滤波器的激励信号与该数据包所表示的译码后的STP 合成滤波器的激励信号一致;若所述的检测结果是无话音且所述生成的数据包是所述的以较少的比特数表示线性 预测参数、自适应码书参数和固定码书参数的数据包则根据所述以较少比特数表示的自 适应码书参数确定长时预测LTP合成滤波器且将所述以较少比特数表示的固定码书参数 所确定的固定码书码矢量表示的信号按所述以较少比特数表示的固定码书参数所确定的 固定码书增益放大后作为该LTP合成滤波器的输入信号,将该LTP合成滤波器的输出信 号作为输入声音信号帧的STP合成滤波器的激励信号并将存储该STP合成滤波器的响应 用以对与所述输入声音信号帧相邻的后一输入声音信号帧进行自适应码书搜索。
15. 根据权利要求13或14的方法,其特征在于,所述与该数据包译码后所表示的的STP合成滤波器的激励信号一致的STP合成滤波器 的激励信号是伪随机噪声信号,该伪随机噪声信号的帧能量与所述该数据包译码后所表示 的的STP合成滤波器的激励信号的帧能量相同。
16. 根据权利要求13或14的方法,其特征在于,所述与该数据包译码后所表示的的STP合成滤波器的激励信号一致的STP合成滤波器 的激励信号和所述该数据包译码后所表示的的STP合成滤波器的激励信号相同,都是预定 的固定信号。
17. 根据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的歩骤包括计算所述合成数字声音信号帧的信号能量;以及使用所述合成数字声音信号帧的的信号能量來判断在所述合成数字声音信号帧中是 否存在声音信号。
18. 根据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的步骤包括计算所述合成数字声音信号帧的信号电平;以及'使用所述合成数字声音信号帧的的信号电平来判断在所述合成数字声音信号帧中是 否存在声音信号。
19. 根据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的歩骤包括计算所述合成数字声音信号帧的各频率副带的信号能量;以及 使用所述频率副带的信号能量来判断在所述合成数字声音信号帧中是否存在声音信号。
20. 根据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的步骤包括计算所述合成数字声音信号帧的各频率副带的信号电平;以及使用所述频率副带的信号电平来判断在所述合成数字声音信号帧中是否存在声音信号。
21. 根据权利要求17至20中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的歩骤还包括使用所述合成数字声音信号帧的波形中的振幅來判断所述合成数字声音信号帧中是 否存在声音信号。
22. 根据权利要求17至20中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的步骤还包括使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号帧中 是否存在声音信号。
23. 根据权利要求22的方法,其特征在于,所述使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号 帧中是否存在声音信号包括:根据所述合成数字声音信号帧确定一个阈值,根据所述合成 数字声音信号帧中的波形的波峰的上升沿的幅度同所述阈值比较的结果来判断所述合成 数字声音信号帧中是否存在话音。
24. 根据权利要求22的方法,其特征在于,所述使用所述合成数字声音信号帧中的上升沿的幅度来判断所述合成数字声音信号 帧中是否存在声音信号包括根据所述的合成数字声音信号帧确定幅度阈值和范围,根 据所述的合成数字声音信号帧中的波形中的上升沿幅度超过该幅度阈值的波峰的个数是 否在所述范围之内来判断所述合成数字声音信号帧中是否存在话音。
25. 根据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的步骤包括根据所述合成数字声音信号帧的信号能量确定振幅阈值;以及根据所述合成数字声音信号帧的波形中的振幅超过该振幅阈值的波峰或波谷的个数 是否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
26. 根据权利要求13至16中任一项的方法,其特征在于所述对所述合成数字声音信号帧进行 是否存在声音信号的检测的歩骤包括根据所述合成数字声音信号帧的信号能量确定上升沿阈值;以及根据所述合成数字声音信号帧的波形中的上升沿超过该上升沿阈值的波峰的个数是 否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
27. 根据权利要求13至16中任一项的方法,其特征在于,z所述对所述合成数字声音信号帧进 行是否存在声音信号的检测的步骤包括根据所述合成数字声音信号帧的信号能量来确定若干个上升沿阈值;以及由所述若干个上升沿阈值划分若干个上升沿幅度的范围.;根据所述合成数字声音信号帧中的波峰的上升沿在所述划分的若干个上升沿幅度的 范围中的分布来判断所述合成声音信号帧中是否存在声音信号。
28. 据权利要求13至16中任一项的方法,其特征在于,所述对所述合成数字声音信号帧进行 是否存在声音信号的检测的步骤包括 根据所述合成数字声音信号帧的多个频率副带的信号能量来确定上升沿阈值,根据所述合成数字声音信号帧的波形中的上升沿超过该上升沿阈值的波峰的个数是 否在预定的一个范围内来判断所述合成数字声音信号帧中是否存在声音信号。
29.根据权利要求13至28中任一项的方法,其特征在于,与所述输入声音信号帧相邻的后一 输入声音信号帧的STP合成滤波器根据所述合成数字声音信号帧尾部的若干个样本点上 的值生成所述后一输入声音信号帧的合成数字声音帧,所述若干个样本点的个数与STP合 成滤波器的阶数一致。
全文摘要
本发明提出一种新的变速率码激励线性预测编码器和编码方法,其话音激活检测针对编码帧对应的合成数字话音,并且保持编码方和译码方采用一致的激励信号,根据合成数字话音帧的话音激活检测结果确定编码速率从而提高了检测的效率和压缩了语音传送速率,所述的改变对变速率码激励线性预测编码器和编码方法作了总体上的更新,即,编码器根据发送帧的类型确定其激励信号使译码器合成的声音信号能准确地反映原始声音的听觉效果。
文档编号G10L19/12GK101388214SQ20081021021
公开日2009年3月18日 申请日期2008年8月9日 优先权日2007年9月14日
发明者为 向 申请人:为 向
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1