在有声语音片段的脉冲激励注入高频噪音的制作方法

文档序号:2830849阅读:475来源:国知局

专利名称::在有声语音片段的脉冲激励注入高频噪音的制作方法
技术领域
:本发明相关于语音编码,并更特别相关于一个系统,该系统增强了经过数字处理的语音的感觉品质。3.
背景技术
语音合成是一个复杂的过程,经常需要将语音和非语音转换成数字信号。对于模拟声音,该声音被采样并被编码到一个离散的序列中。用于表示该声音的位数能够决定合成的声音或语音的感觉品质。品质差的拷贝会发出有噪声的语音,变得不清楚,或者不能够捕捉到音调变化,音调,定调,或者是能够产生环绕声的共同发生。在语音合成的一项技术,就是众所周知的码激励线性预测(CELP)中,一个声道在数字处理之前被采样到一个离散的波形中。该离散的波形随后被依据一定的标准进行分析。标准例如噪声内容的强度以及语音内容的强度,可以用于通过实时以及延时中的线性功能为语音建立模型。这些线性功能能够捕捉信息并且预测将来的波形。该CELP编码器帧能够产生高品质的重新编辑的语音。然而,当比特率降低时,编码器的品质会快速地下降。要使高解码器品质保持在一个低的比特率,例如4Kbps,必须开发附加的手段。本发明的目的是提供一个有效的语音编码系统,以及提供一种方法,精确地编码并且解码有声语音的重要的感性特征。
发明内容本发明提供一种语音编码的方法,包括通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号;根据一个或多个标准提供上述激励信号的高频增量;其中上述一个或多个标准包括上述语音信号的能量内容。本发明还提供一种语音编码器,包括:通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号的单元;根据一个或多个标准提供上述激励信号的高频增量的单元;其中上述一个或多个标准包括上述语音信号的能量内容。通过本发明所提供的语音编码方法和语音编码器,能够精确地编码并且解码有声语音的重要的感性特征。图中的组件没有必要改变大小,重点在于说明本发明的原理。另外,在这些图中,数字指明所有不同的画面中的对应的部分。图l是语音交流系统的一个部分模块图,该语音系统可以集成到一个扩展的码激励线性预测系统(Ex.CELPS)中。图2说明了图1中的一个固定的代码本。图3说明了时间域中的图1的固定代码本一个脉冲的部分的剖面图。图4说明了频率域中的图3的第一个脉冲P1的脉冲响应。图5说明了一个修正的高频噪声输入到时间域中的图3的脉冲激励中。图6是图1放大的一个流程图。图7说明了图1放大的一个离散的实施方式。图l,图2以及图6中画的虚线表示直接或间接的连接。如图2中所示,固定代码本102可以包括一个或多个子代码本。同样地,图6中的虚线说明了其他的功能能够发生在每个图示的步骤之前或者之后。具体实施方式脉冲激励通常可以产生比常规的噪声激励好一些的语音品质。对于有声的语音,脉冲激励跟踪低频的有声的语音的准周期的时间域信号。然而在高频率时,低的比特率脉冲激励经常不能够跟踪伴随有声的语音的感性的"有噪声的效果"。这是个问题,尤其是在比特率很低时,例如是4Kbps或者更低比如脉冲激励被跟踪的情况,不仅是有声的语音的周期,而且是发生在高频的伴随"有噪声的效果"。图1是语音交流系统100的一个部分的模块图,它可以被集成到一个不同的码激励线性预测系统(CELPS)中,就是我们所知道的扩展的码激励线性预测系统(eX-CELPS)。从概念上来说,eX-CELPS低的比特率下获取鸣钟的品质,是通过强化采样输入信号(即有声的语音信号)的重要的感性特征,同时弱化听众无法感性的听觉特征来实现的。使用一个线性预测的处理,本实施方式可以表示任何语音的采样值。语音s在一个时刻n的短期预测可以由等式l来估计s(n)"a,s(n-l)+a2s(n—2)+…+apS(n隱p)(等式l)其中apa2,…ap是线性预测编码(LPC)系数,并且p是线性预测编码序号。语音采样与预测的语音采样之间的差别,即所知的预测的余差r(n)有一个与语音信号s(n)同样的周期。该预测余差r(n)可以表示为r(n—s(n)画a,s(n-l)-a2s(n-2)-"'-apS(n-p)(等式2)它可以被重新写为s(n"r(n)+a!s(n-l)+a2s(n-2)+."+apS(n-p)(等式3)对等式3的更精细的检査显示,一个当前的语音采样可以被分解为一个预测部分^s(n-l)+a2s(n-2)+…+apS(n-p)和一个改变的部分r(n)。在某些情形下,编码的改变部分被称作激励信号或e(n)106。是通过一个合成器,此合成器例如包括了一个合成滤波器108对激iW言号e(n)106盼滤波,才产生了重新建立的语音信号s,(n)UO。其中,一个巻积器(convolver)104是被配置以向第二代码本的输出加入高频噪声,以巻积(convolve)—个脉冲响应。且此脉冲响应例如包含一个修正的噪声以及一个第二代码本产生的一个输出信号,上述噪声包括一个自适应噪声或一个固定的噪声。此外,上述的巻积器104可以再包括一放大器gc,其连接到第二代码本102的输出以及放大器gc的输入。且上述巻积器104包括一个白噪声源(图中未绘示)。为了确保有声的和无声的语音片段被精确地重现,激励信号e(n)106通过一个自适应代码本112和一个固定代码本102的输出的线性的组合来建立。该自适应代码本112产生表示语音信号s(n)的周期。在此实施方式中,自适应代码本112的内容是从先前重建的激励信号e(n)106形成的。这些信号重复存在于相邻副帧中的先前采样的信号的可选范围的内容。该内容被存储在内存中。由于当前的与前面相邻的副帧之间的高度的相关性,自适应代码本112通过选择的相邻的副帧来跟踪信号,并且随后使用这些先前采样的信号来产生当前激励信号e(n)106的整体或者全部。第二个用于产生激励信号e(n)106的整体或者部分的代码本是固定代码本102。固定代码本主要是有助于激励信号e(n)106的不可预测部分或者非周期性部分。此帮助在自适应代码本112不能有效地模拟非周期性的信号时,提高语音信号s(n)的接近程度。当由于快速的频率变化,或者由于短暂的类噪声信号屏蔽了有声的语音,而使类噪声帧或者非周期性的信号存在于一个声轨中时,例如,固定代码本102产生这些不能够被自适应代码本112捕获的非周期性信号的一个最佳的近似值。因此,基于上述可进一步提出一种语音编码系统,其包括了一个表示语音片段特征的固定代码本;一个表示上述语音片段特征的自适应代码本;一个配置的装置,用于向固定代码本的输出加入高频噪声;以及一个连接到上述装置的输出的合成滤波器。上述中的装置可包括一个高通滤波器和一个巻积器。另外,此装置连接到固定代码本的输出以及求和电路的输入。此装置和上述固定代码本以及上述合成滤波器是一个整体的设备。在此实施方式中选择代码本输入的总的目标是建立最佳的,与一个当前语音片段的重要感性特征接近的激励。为了提高品质,本实施方式中使用了一个标准的代码本帧,是该代码本分成多个子代码本。优选地,固定代码本102至少是由如图2中所示的三个子代码本202-206所组成。两个固定子代码本是脉冲代码本202和204,例如一个2-pulse(脉冲)子代码本和一个3-pulse(脉冲)子代码本。第三个代码本206可以是一个高斯代码本或者是一个高频脉冲子代码本。优选地,编码级别进一步改进了代码本,特别是限定了一个给定的子代码本的输入的数目。例如,在此实施方式中,该语音编码系统语音编码系统区分了"周期性"和"非周期性"帧并且使用了全速率,半速率以及八位速率编码。表l说明了很多固定子代码本尺寸中的可用于"非周期性帧"的一个,其中典型参数,例如音调相关和音调滞后,能够迅速地改变。表l:非周期性帧的固定代码本位分配<table>tableseeoriginaldocumentpage11</column></row><table>i可选择方式声音编码器在"周期性帧"中,其中一个高度周期性的信号在感性特征方面被一个平滑的音轨很好地表现出来,固定子代码本的类型和大小可以与"非周期性帧"中使用的固定代码本不同。表2说明了可以用于"周期性帧"的许多固定代码本大小尺寸中的一个。表2:周期性帧的固定代码本位分配<table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table>可用于可选择方式声音编码器(SMV)中的固定代码本的其他细节的解释在共同提交的专利申请中,其标题为"语音信号的编码和解码系统",由YangGao,AdilBeyassine,JesThyssen,EyalShlomot,以及Huan-yuSu先前通过互相参照合作而成。继续对产生最佳输出信号的固定代码本的搜索,一些增量hhh2,h3与脉冲子代码本的输出巻积,以增强模拟信号的感性品质。这些增量主要跟踪语音片段的选择的方面并且被从副帧计算到副帧。第一个增量h,的引入是通过将一个高频噪声信号引入到从脉冲子代码本产生的脉冲输出中而实现的。需要注意的是该增量hi通常只在脉冲子代码本上执行并且不在高斯子代码本上执行。图3说明了一个固定脉冲子代码本的典型的输出Yp(n)。为了简化该解释,单个副帧内只出示了三个输出脉冲P,,P2,以及P3302-306。当然任何数量的脉冲Pn能够被增加到单个或者多个的副帧。该三个脉冲P!,P2,以及P3302-306被定位在一个具有典型的5-10毫秒之间的时间间隔的一个副帧内。在频率范围内,脉冲PpP2,以及P3302-306有一个平坦的振幅和一个充分线性的相位,(频率范围内的Pi的振幅和相位如图4中所示)。在增量h,中,一个时间范围内的高频噪声信号通过P,,P2,以及P3与hi(n)的巻积而增加到PpP2,以及Ps302-306。该巻积的产品如图5中所示。图6是能够与任何脉冲代码本的激励输出巻积的h,增量的一个流程图,以增强重新建立的语音信号s,(n)的感性品质。在步骤602,一个噪声源产生白高斯噪声X(n)。优选地,白高斯噪声有一个在频率范围内的充分平坦的振幅。在步骤604,白高斯噪声X(n)可以被一个高通滤波器滤波。高通滤波器切掉的频率可以通过由期望的语音片段s(n)的感性品质来确定。在歩骤606,滤波的噪声Xh(n)被乘以一个可程式化(programmable)的增益系数gn,也可以是一个可选的实施方式中的固定或者自适应的增益系数。在步骤608,噪声Xh(n"gn被放入采样w(i)长度L的一个平滑窗口W(n)(例如一个半平窗口)。优选地,该窗口W(n)把Xh(n"gn衰减到一个长度h"n)。在步骤610和612,修正的噪声被输入到如图5以及等式4和5中所示的脉冲子代码本的输出Yp(n)中。优选地,等式4的n的delta(变数的增数),6(n),是一个单个的单元脉冲,它的值在nK)时是l,在n是其他值时(g卩n40)时它的值是O。<formula>formulaseeoriginaldocumentpage14</formula>由上述可知,产生衰减的高频噪声的过程包括产生一个白噪声,用一个高通滤波器对上述白噪声进行滤波,以及用一个平滑的窗口对滤波后的噪声进行窗频化。当然,第一个增量hp也可以添加到该离散域中,方法是通过使用一个巻积器,该巻积器至少有两个端口或者装置702,该装置包括一个数字控制器(即一个数字信号处理器),一个或者多个增强电路,一个或者多个数字滤波器,或者其他的离散电路,等等。这些如图7中所示的实施可以写成如下的形式YP(Z)=H"z)*YP(Z)(等式6)从前面的描述可以清楚地知道,可以在脉冲输出之前将一个衰减的噪声增加到一个脉冲代码本。优选地,内存可以保留增量h,的一个或多个先前的副帧。当hr没有在脉冲发生之前产生时,一个选择的先前的增量h,可以在脉冲输出发生之前与脉冲代码本输出一起巻积。本发明并非限制为一项特殊的编码技术。可以使用任意的感性的编码技术,包括一个码激励线性预测系统(CELP)以及一个代数的吗激励线性预测系统(ACELP)。另外,本发明不应限制为编码器中使用的闭环搜索。本发明也可以被用作解码器中的一个脉冲处理方法。另外,在脉冲子代码本的搜索之前,该增量&可以集成到子代码本或者合成滤波器108中或者与之成为一个整体。还可以有很多其他的选择。例如,该噪声能量可以是固定的或者是自适应的。在一个自适应的噪声实施中,本发明能够使用不同的规则来区分有声的语音,这些规则包括的噪声的度数,类似于有声语音的高频率部分中的内容,声轨中语音内容的度数,声轨中的能量内容,声轨中的周期性的程度,等等,例如,并且以一个或多个选择的规则为目标产生不同的能量或者噪声级别。优选地,该噪声级别以一个语音片段的一个或多个重要感性特征作为模型。本发明无缺陷地提供了一个有效的编码系统,以及一种方法,该方法改进了对语音信号的重要感性特征的编码和解码。无缺陷地将高频噪声增加到一个激励,开发了高感性品质的听众可以期待的高频率范围的声音。本发明可以与后加工处理技术相适应并且可以与编码器,解码器,以及多媒体数字信号编解码器(CODEC)集成或者成为一个整体。尽管本发明的各种实施方式己经披露如上,对于熟悉本技术的普通技术人员来说,显然在本发明的范围内有许多其他的实施和实现方式。因此本发明的限制只在于附加的权利要求以及与它们等价的内容。权利要求1.一种语音编码的方法,包括通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号;根据一个或多个标凖提供上述激励信号的高频增量;其中上述一个或多个标准包括上述语音信号的能量内容。2.如权利要求1所述的语音编码的方法,其特征在于,提供上述高频增量的步骤包括根据一个或多个标準而改编噪声信号;把改编后的噪声信号加到上述激励信号。3.如权利要求1或2所述的语音编码的方法,其特征在于,上述一个或多个标準还包括上述语音信号的周期性。4.如权利要求1或2所述的语音编码的方法,其特征在于,上述一个或多个标準还包括上述语音信号的声音程度。5.如权利要求1或2所述的语音编码的方法,其特征在于,上述一个或多个标準包括脉冲代码本的能量。—6.—种语音编码器,其特征在于,包括通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号的单元;根据一个或多个标準提供上述激励信号的高频增量的单元;其中上述一个或多个标准包括上述语音信号的能量内容。7.如权利要求6所述的语音编码器,其特征在于,提供上述高频增量的单元包括噪声改编部,根据一个或多个标準而改编噪声信号;组合部,把改编后的噪声信号加到上述激励信号。8.如权利要求6或7所述的语音编码器,其特征在于,上述一个或多个标準还包括上述语音信号的周期性。9.如权利要求6或7所述的语音编码器,其特征在于,上述一个或多个标準还包括上述语音信号的声音程度。10.如权利要求6或7所述的语音编码器,其特征在于,上述一个或多个标準还包括脉冲代码本的能量。全文摘要一种语音编码的方法,包括下述步骤通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号;根据一个或多个标准提供上述激励信号的高频增量。其中上述一个或多个标准包括上述语音信号的能量内容。文档编号G10L19/08GK101281751SQ20081009473公开日2008年10月8日申请日期2001年12月10日优先权日2001年1月5日发明者阳高申请人:康尼克森特系统公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1