基于声码器的语音识别器的制作方法

文档序号:2820752阅读:599来源:国知局
专利名称:基于声码器的语音识别器的制作方法
技术领域
本发明总地涉及语音识别器,并涉及使用线性预测编码(LPC)声码器数据作为输入的语音识别器。
背景技术
在本领域里,语音识别器大家都非常熟悉,它在许多地方都有应用。例如,移动装置的指令和控制应用、计算机录音电话机、儿童玩具和汽车电话里都使用了语音识别。在所有这些系统里,都将语音信号数字化,然后参数化。将参数化的输入信号与其发音已知的基准参数化信号比较。与输入信号最吻合的基准信号的相关发音就是识别出来的发音。
语音识别系统在语音拨号系统中有其特殊的用途,当用户说出他想呼叫的人的名字时,语音识别系统就从事先提供的基准表识别出这一名字,并给出这一识别出来的名字所对应的电话号码。然后电话机拨这一号码。结果是用户接通了他想要的电话,而不必寻找电话号码,也不必用自己的手来拨电话号码。
语音拨号对汽车移动电话来说特别重要,在这种情况下,电话用户通常就是汽车驾驶员,他必须不间断地将注意力集中在路面上。如果驾驶员想给某个人打电话,驾驶员说出这个人的名字比他亲自去拨电话号码要安全得多。
下面参考

图1,它说明的是一架数字移动电话的主要部件。一般而言,移动电话中有一个麦克风10、一个扬声器12、一个模数转换单元14、一个用标为DSP-1的数字信号处理(DSP)芯片实现的声码器16、微控制器或中央处理单元(CPU)中的一个操作系统18、一个射频接口单元(RF单元)19和一付天线20。发射信号的时候,麦克风10产生模拟语音信号,由单元14数字化。声码器16压缩语音取样,以减少要通过射频单元19和天线20发射给另一个移动电话的数据量。接收端移动电话的天线20通过射频单元19将收到的信号提供给声码器16,声码器16对收到的信号解压缩,得到语音取样。单元14将语音取样转换成模拟信号,由扬声器12播放出来。操作系统18控制移动电话的工作过程。
对于语音拨号系统,移动电话还有一个语音识别器22,实现在标为DSP-2的一个单独的DSP芯片里,它接收数字化的语音取样作为输入,对该语音信号进行参数化,并将参数化的输入信号与基准语音信号比较。一般情况下,语音识别器22或是将匹配信号的识别码提供给操作系统18,或者是提供有关的电话号码,如果这一匹配信号有一个电话号码与之对应。
现在参考图2,它说明语音识别器22工作的总过程。将数字化的语音取样按预定长度分成帧,例如长度为5-20ms的帧,提供给识别器22的就是这些帧(步骤28)。对于每一帧,识别器22首先计算(步骤30)这一帧的能量。
现在参考图3,它说明的是,作为时间的函数,说出来的词“RICHARD”的每一帧的能量。这一能量信号有两个峰31和33,对应于这个词的两个音节。不说话的时候,图中用参考数字35表示,甚至在音节之间,能量电平显然要低得多。
因此,识别器22在能量信号里搜索(图2中的步骤32)一个词的开头和结尾。将词的开头定义为能量信号维持低电平的时间超过一段预定长度以后,能量开始显著增大的那一个点37。将词的结尾定义为能量的显著降低结束的那一点39,在这一点以后,能量信号维持低电平的时间比一段预定时间的长度长。在图3里,词的开头37大约在0.37s处,结尾39大约在0.85s处。
如果找到了一个词,见步骤34中选中的分支,语音识别器22就进行(步骤36)线性预测编码(LPC)分析,从而生成所说词的参数。在步骤38里,语音识别器22计算说出的词的识别特征,在步骤40里,语音识别器22从基准库里搜索匹配的基准词识别特征。或者语音识别器22在叫做“训练”的过程里将识别特征存入基准库。
可惜,语音识别过程计算量很大,因此只能在第二DSP芯片DSP-2里才能实现。这给移动电话增加了不少的成本。
发明概述本发明的目的是提供一种语音识别器,它处理的是由基于LPC的声码器压缩过的语音数据,而不是语音数据取样,从而减少识别器的计算量。这样,语音识别可以在同时运行操作系统程序的微控制器或CPU中进行。由于语音识别器不分析语音信号,就可以用处理能力有限和/或不需要接收语音信号的微控制器或者CPU。
此外,本发明提供一种特征发生器,它可以从基于LPC的不同类型的声码器提取相同类型的特征数据用于识别。这样,本发明可以针对用基于LPC的不同类型的声码器压缩过的压缩语音数据,进行同样的识别操作(例如比较和训练)。
因此本发明的一个优选实施方案提供了一种方法,用于利用基于线性预测编码(LPC)的声码器数据识别说出来的词,而不必完全重建语音数据。这一基于声码器的识别器用于实现这里描述的方法。该方法包括对声码器数据产生至少一个每帧能量估计,以及利用相关的能量估计从声码器数据中搜索词的边界这两个步骤。如果找到了一个词,就从与这一个词相关的声码器数据中提取出LPC词参数,并从提取出来的LPC词参数中计算出识别特征。最后将识别特征与先前存储的其它词的识别特征比较,从而识别说出来的词。
此外,根据本发明的一个优选实施方案,能量是从在码器数据中找到的残差数据估计出来的。可以用很多的方法来进行这一估计。在一个实施方案中,从声码器数据中重建出残差数据,得到的估计就是残差数据的范数。另一个实施方案是从声码器数据中提取一个音调-增益(pitch-gain)值,作为能量估计。在再一个实施方案里,从声码器数据中提取出音调-增益值、滞后值(lag values)和剩余数据(remnantdata)。从剩余数据中产生剩余信号,由此产生一个剩余能量估计。非剩余能量估计是利用音调-增益值和滞后值所定义的前一个能量估计值从残差信号的非剩余部分产生的。最后将这两个能量估计,剩余能量和非剩余能量合并。
更进一步,根据本发明的一个优选实施方案,声码器数据可以来自以下声码器中的任何一个RPE-LTP全速率或半速率,QCELP 8和13kbps,EVRC,LD CELP,VSELP,CS ACELP,增强型全速率声码器和LPC10。
本发明的又一个优选实施方案提供了一种数字蜂窝电话,它包括一个移动电话操作系统、一个基于LPC的声码器和一个基于声码器的语音识别器。该识别器包括一个前端处理器,对声码器数据进行处理以确定一个词是什么时候说出来的,并产生这一说出来的词的识别特征,该识别器还包括一个识别器,它至少能够识别出说出来的词是一组基准词中的哪一个。
根据本发明的另一个实施方案,前端处理器有一个能量估计器、一个LPC参数提取器和一个识别特征发生器。能量估计器利用构成声码器数据一部分的残差信息估计语音信号的能量。LPC参数提取器提取声码器数据的LPC参数。识别特征生成器从LPC参数生成识别特征。
更进一步,根据本发明的一个优选实施方案,前端处理器可以有选择性地与多种声码器一起工作。
附图简述通过下面的详细描述并参考以下附图,可以获得对本发明更全面的理解。
图1是现有技术中有语音识别功能的蜂窝电话的一个框图;图2是现有技术中基于LPC的语音识别方法的流程图;图3是一个说出来的词的能量图;图4是压缩语音数据的结构示意图;图5是按照本发明的一个优选实施方案构成和工作的有一个基于声码器的语音识别器的一个蜂窝电话的框图;图6是本发明一个优选实施方案中一种语音识别方法的流程图;图7是从残差信号中估计出来的一个说出来的词的能量图;图8是有利于理解本发明工作过程的残差信号的示意图;图9是GSM解码器的一个框图;和图10是从估计的残差信号中估计出来的一个说出来的词的能量图。
发明详述有很多种语音压缩算法,最常用的是那些基于线性预测编码(LPC)的算法。本发明的申请人认识到,由于多数语音识别算法都是利用线性预测编码分析以便从语音信号中提取参数,就可以将压缩语音信号的元素提供给语音识别器,以便显著地降低语音识别器的分析量。因此,本发明是一个实现在蜂窝移动电话的微控制器或CPU中的基于声码器的语音识别器,下面将参考图5、6和7详细说明。
线性预测分析下面简要说明基于LPC的声码器16的工作原理。对语音编码的一般性讨论,与本说明相比,包括对线性预测编码更加详细的说明,可以在Andreas S.Spanias在电气与电子工程师学会会报,1994年10月,第82卷第10期,第1541-1582页上发表的文章“语音编码综述”中找到。
声码器16将语音信号分成一系列的帧,每一帧的长度为N,通常包括大约20ms的语音信号。声码器16对每一帧进行线性预测编码(LPC)分析。
线性预测编码用以下方程描述语音信号y(n)等式1y(n)=a1y(n-1)+a2y(n-2)+…+apy(n-p)+ε(n)其中ai叫做LPC系数,ε(n)叫做残差信号。每一帧通常都有p个LPC系数ai,残差信号ε(n)的长度是N。LPC系数和残差信号构成帧的参数。声码器通常还至少在音调和增益值方面对残差信号ε(n)进行参数化。声码器还可以产生LPC声码器领域中众所周知的基于LPC的许多参数中的任意一种,例如倒频谱系数、MEL倒频谱系数、线谱对(LSP)、反射系数、对数面积比(LAR)系数等等,所有这些都可以很容易地从LPC系数计算出来。
接着对获得的值进行编码,从而产生典型的语音压缩帧,例如图4所示的帧52。语音压缩帧52包括编过码和/或参数化的LPC系数ai和编过码的残差信号ε(n)。
基于声码器的语音识别器现在参考图5,它说明的是蜂窝电话中一个基于声码器的语音识别器50。由于蜂窝电话与图1所示现有技术电话相似,因此图中相同的数字就表示相同的单元。还要参考图6和7,它们有助于理解基于声码器的语音识别器50的操作。
图5中的蜂窝电话包括麦克风10、扬声器12、转换单元14、声码器16、操作系统18、射频接口单元19和天线20。另外,图5中的蜂窝电话包括基于声码器的语音识别器50,用于接收声码器16产生的基于LPC的压缩语音信号作为输入。
根据本发明的一个优选实施方案,基于声码器的语音识别器50是在CPU 51里实现的,CPU 51还实现操作系统18。装置51可以是一个CPU,就象所标明的那样,或者是一个微控制器。由于语音识别器50不分析语音信号,就可以用任意一种微控制器或者CPU来实现语音识别器50,包括处理能力有限并且不接收语音信号的那些微控制器或者CPU。
图6说明基于声码器的语音识别器50处理象帧52那样的压缩帧的基本形式。
象在现有技术中那样,一旦收到帧(步骤58)就确定帧的能量。而在本发明中,能量不是从取样数据而是从声码器数据中估计出来的(步骤60),而且能量估计不需要重建取样数据。
本发明的申请人发现可以利用残差信号ε(n)来估计能量,因为在本领域里大家都知道,残差信号描述的是通过声道的空气的压力,而LPC参数描述的则是声道的结构因而通常与语音音量无关。结果是,残差信号与一个人说话的声音是大还是小密切相关。
根据本发明的一个优选实施方案,估计能量的一种方法是确定每一帧残差信号的能量,或者如果帧分成了子帧,就是确定每一子帧的能量。这用数学公式表示就是等式2E″i=Σn=1Mϵ(n)2]]>其中
是第i帧的能量,残差信号ε(7)是从声码器数据中重建出来的,数字M是帧或子帧中的取样点数。
图7说明的是从说出来的词“RICHARD”的重建残差信号得到的估计的能量信号。可以看出,图7中的估计出来的能量信号与图3中的能量信号并不完全相同。但估计出来的能量信号与现有技术中的能量信号相关性非常好。图7中信号的开头和结尾,分别标成62和63,也都是在大约0.37s和0.85s处。
本发明还包括从声码器数据估计能量的其它方法,下面将介绍其中的一些。
回到图6,基于声码器的语音识别器50在估计的能量信号中搜索(步骤64)词的边界。如果需要,语音识别器50可以利用LPC参数的任何特征(例如它们的平均值和/或方差)来确定词的边界位置,这些参数的特征在词的边界上急剧地变化。
如果找到一个词,就象步骤66中检验出来的一样,识别器50就从声码器数据中提取出LPC词参数(步骤68)。在步骤68里通常还要对语音压缩帧52中的编码LPC参数解码并将它们转换成LPC系数。
然后识别器50从提取出来的LPC系数中计算(步骤70)它的识别特征。这些识别特征可以是基于LPC的参数中的任意一个,例如倒频谱系数、MEL倒频谱系数、线谱对(LSP)、反射系数、面积比(LAR)系数等等,所有这些都可以很容易地从LPC系数计算出来。这样,如果声码器使用的是一种LPC参数,识别器50使用的是另一种LPC参数,识别器50就可以直接或者通过LPC系数将LPC参数从一种转换成另一种。
最后识别器50利用从步骤70获得的识别特征将输入信号识别成它的基准库里的一个基准词,或者训练出一个新的基准词存入它的库中。由于识别器50产生的识别特征可以与本领域里的一样,这一步骤与现有技术里的识别/训练步骤40一样,它也是这样标注的。Prentice-Hall1993年出版的Lawrence Rabiner和Biing Hwang Juang的书《语音识别基础》描述了许多合适的识别器50,这里将它引做参考。
应当理解,步骤60-70是将声码器数据转换成识别/训练步骤所需要的识别特征。有许多种基于LPC的声码器,每一种对语音信号的操作多少都有些不同。可以将步骤60-70修改以适用于每一种声码器,以便产生相同的识别特征,而不考虑声码器类型。因此步骤60-70构成识别/训练步骤40的处理“前端”。
本发明包括一种基于声码器的语音识别器,它有多个前端和一个识别/训练单元。这对于卖出去用于在多种数字蜂窝电话系统中工作的那些移动电话非常有用,这里的每一种蜂窝电话系统都使用不同种类的声码器。有了许多前端,本发明的语音识别器就可以与许多种声码器协同工作。
用于确定词的边界的能量估计方法一些简单的声码器,例如美国国防部标准1015 V.53里描述的叫做线性LPC 10的声码器,只用音调和增益值描述残差信号ε(n)。现在参考图8,其中是一个浊音信号的残差信号实例,该信号有许多重复的尖峰70,这些尖峰70的幅度都差不多。将相邻两个尖峰70之间的距离定义为音调(pitch)P,这些尖峰的幅度定义为增益G。清音信号有增益值,但没有音调值。
因此,帧或子帧残差信号能量可以用增益值G来估计。在这一个实例里,不是通过重建残差信号ε(n),而是通过从压缩语音数据中提取残差信号ε(n)的一个参数增益值G,来估计帧或子帧的能量。
其它的声码器,例如全球移动通信系统(GSM)、时分多址(TDMA)和码分多址(CDMA)数字蜂窝通信系统中的声码器,将当前帧或子帧的残差信号与前面一些帧的残差信号的并置版本做相关运算。当前帧的残差信号与前面的残差信号最相近的点,与音调增益(pitch gain)PG相乘以后,叫做LAG值。然后声码器确定一个“剩余信号”,它是前一个残差信号乘以音调增益PG与当前残差信号的差。于是当前残差信号的特征是音调增益PG、LAG值和剩余信号。
对于后一种声码器,当前帧或子帧,i,的能量可以利用以下公式从剩余信号和残差信号的非剩余部分估计出来等式3E~i=mELADm+Eremm]]>(m=1或者2)ELAG=PG·1FL{(LAGmod40)Ei-[LAGFL]+(FL-LAGmod40)Ei-[LAGFL]}]]>其中Erem是剩余信号的能量估计,ELAG是残差信号的非剩余能量,它是从比当前帧或子帧晚
帧或子帧的帧或子帧的能量和音调增益获得的。可以通过重建剩余信号来获得前一个值,这一运算相对简单,或者通过任何其它方法来获得前一个值。符号

分别表示“不大于变量的最大整数”和“不小于变量的最小整数”运算,开m次方运算不必进行。
GSM声码器的能量估计现在参考图9,其中说明的是构成部分GSM标准的声码器的解码器部分。图9与欧洲电信标准协会1992年3月份版的I-ETS 300036规范中,第34页的图3、4类似。解码器的细节可以在该规范中找到,在这里将该规范引做参考。为清楚起见,下面只说明解码器中对理解本发明的能量和特征计算有用的有关部分。
图9用粗线表示输入数据,用细线表示内部信号。输入数据有Mcr、Xmaxcr、Xmcr、bcr、Ncr和LARcr值,它们在I-ETS规范里都有定义。
图9表明这一解码器有一个RPE解码器80、一个长期预测器84、一个短期合成滤波器86和一个去加重器88。RPE解码器80接收Mcr、Xmaxcr和Xmcr信号,并产生一个剩余信号e′r。长期预测器84利用bcr和Ncr信号从剩余信号e′r产生一个残差信号d′r。短期合成滤波器86从残差信号d′r和以LARcr数据形式发送的短期LPC参数产生语音信号。
与前面一样,有一种能量计算方法是计算残差信号d′r的第一或第二范数如下所示等式4E~i=Σn=039|dr′[n]m]]>(m=1或者2)另一个能量计算方法是利用剩余信号e′r和长期预测器84的内部数据值b′r和N′r。具体而言,预测器84有一个参数解码器90、一个延迟单元92、一个乘法器94和一个加法器96。解码器90将输入值bcr和Ncr变换成内部数据值b′r和N′r,这里的b′r是一个乘数,与前面的音调增益PG相似,N′r是一个延迟量,与前面的LAG值相似。长期预测器84将信号d″r加到剩余信号e′r上去,其中,信号d″r是前面的残差信号d′r(1-N′r)经过延迟单元92延迟以后,再在乘法器94里用b′r相乘以后得到的结果。
可以用等式3估算能量,其中的LAG和PG值用N′r和b′r代替,并将FL的值取为40。另外,剩余的能量估计Erem用以下等式计算等式5Erem=Σn=039|er′[k]m]]>
现在参考图10,它说明的是利用上述公式估计出来的能量。词的开头和结尾两个边界,分别标为98和99,与现有技术里的位置相同。
从提取出来的参数估计能量的另一种方法也是利用前面的N′r和b′r,其中的FL取值40,用以下公式估计剩余的能量估计,Erem等式6Erem=|Xmax cr|m回到图9,LPC的词参数是从短期合成滤波器86内的发送数据里提取出来的,该滤波器中有一个LAR解码器100、一个内插器102、一个反射系数确定单元140和一个滤波器106。单元100、102和140一起将收到的LARcr数据转换成反射系数r′r,再将反射系数容易地变换成LPC系数。
就象这里参考图6所做的介绍一样,一旦提取出LPC系数,就将它们变换(步骤70)成识别器/训练步骤需要的识别特征。
本领域里的技术人员应当明白,尽管只针对GSM数字蜂窝通信系统里的声码器做了详细的介绍,但是本发明仍然可以用于所有类型的蜂窝通信系统和所有类型的基于LPC的声码器。对于每一种声码器,必须分析存储在压缩语音数据里的信息类型,以确定计算能量和特征时如何利用它。压缩语音数据的详细介绍可以参见定义每一个声码器的标准。
下表列出了一些现有的蜂窝通信系统、它们使用的声码器和定义声码器和/或系统的标准。数字蜂窝通基于LPC的声码器 标准信系统GSMRPE-LTP全速率I-ETS 300 036 6.1I-ETS 300 581-2第4RPE-LTP半速率版CDMAQCELP 8 kbps, IS 96 A13kbpsEVRCIS 127LD CELP ITU G.728TDMAVSELP IS 54 BPHS,PCSCS ACELPITU G.729PCS-TDMA增强型全速率声码器 IS 641PDC(日本) VSELP RCR STD 27本领域的技术人员应当明白,本发明并不局限于上面的具体描述。相反,本发明的范围是由以下权利要求规定的。
权利要求
1.一种利用基于线性预测编码(LPC)的声码器数据识别说出来的词而不需要完全重建语音数据的方法,其中的声码器数据构成一系列的帧,该方法包括以下步骤对于所述声码器数据的每一帧至少生成一个能量估计;利用相关的能量估计搜索所述声码器数据中词的边界;如果找到一个词,就从与这一个词相关的声码器数据中提取LPC词参数;从提取出来的LPC词参数计算识别特征;和将所述识别特征与以前存储的其它词的识别特征进行匹配,从而识别说出来的词。
2.一种利用基于线性预测编码(LPC)的声码器数据准备识别说出来的词而不需要完全重建语音数据的方法,其中的声码器数据构成一系列的数据帧,该方法包括以下步骤对于所述声码器数据的每一帧至少生成一个能量估计;利用相关的能量估计搜索所述声码器数据中词的边界;如果找到一个词,就从与这一个词相关的声码器数据中提取LPC词参数;从提取出来的LPC词参数计算识别特征。
3.根据权利要求2的一种方法,其中所述的生成步骤包括从在所述声码器数据中找到的残差数据估计能量的步骤。
4.根据权利要求3的方法,其中估计能量的步骤包括从所述声码器数据重建残差数据并计算所述残差数据的范数的步骤。
5.权利要求3的方法,其中估计能量的步骤包括从所述声码器数据中提取音调-增益值并将提取出来的音调-增益值用作所述能量估计的步骤。
6.根据权利要求3的方法,其中所述生成步骤包括以下步骤从所述声码器数据中提取音调-增益值、滞后值和剩余数据;从所述剩余数据重建剩余信号;生成所述剩余信号的能量估计;利用所述音调-增益值和前面用所述滞后值定义的能量估计,生成所述残差的非剩余部分的能量估计;和将所述剩余和非剩余能量估计合并在一起。
7.根据权利要求1的方法,其中声码器数据的类型是以下声码器中任意一个产生的数据的类型RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增强型全速率声码器和LPC10。
8.根据权利要求2的方法,其中所述声码器数据的类型是以下声码器中任意一个产生的数据的类型RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增强型全速率声码器和LPC10。
9.利用基于LPC的声码器数据作为语音识别系统的输入。
10.一种数字蜂窝电话,包括一个移动电话操作系统;一个声码器,利用至少线性预测编码(LPC)压缩语音信号由此产生声码器数据;和一个基于声码器的语音识别器,包括一个前端处理器,用来处理所述声码器数据,以确定一个词是什么时候说出来的,并产生所述说出来的词的识别特征;和一种识别器,至少能够将说出来的词识别为一组基准词中的一个。
11.根据权利要求10的数字蜂窝电话,其中的前端处理器包括一个能量估计器,利用构成所述声码器数据一部分的残差信息估计语音信号的能量;一个LPC参数提取器,用于提取所述声码器数据的LPC参数;和一个识别特征生成器,从所述LPC参数生成所述识别特征。
12.根据权利要求10的蜂窝电话,其中的前端处理器可以有选择地与多种声码器一起工作。
13.根据权利要求10的蜂窝电话,其中的声码器是以下声码器中的任意一种RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增强型全速率声码器和LPC10。
14.一种基于声码器的语音识别器,可以利用基于LPC的声码器产生的数据进行工作,该语音识别器包括一个前端处理器,用来处理所述声码器数据,以确定一个词是什么时候说出来的,并产生所述说出来的词的识别特征;和一种识别器,至少能够将所说出来的词识别为一组基准词中的一个。
15.根据权利要求14的语音识别器,其中的前端处理器包括一个能量估计器,利用构成所述声码器数据一部分的残差信息估计语音信号的能量;一个LPC参数提取器,用于提取所述声码器数据的LPC参数;和一个识别特征生成器,从所述LPC参数生成所述识别特征。
16.根据权利要求15的语音识别器,其中的能量估计器包括一个残差能量估计器,用来从在所述声码器数据中找到的残差数据估计能量。
17.根据权利要求16的语音识别器,其中的残差能量估计器包括一个残差数据重建器,用来从所述声码器数据重建残差数据,还包括一个范数生成器,它能生成所述残差数据的范数并产生所述能量估计。
18.根据权利要求16的语音识别器,其中的残差能量估计器包括一个提取器,它能从所述声码器数据中提取音调-增益值,并产生所述能量估计。
19.根据权利要求16的语音识别器,其中的残差能量估计器包括从所述声码器数据中提取音调-增益值、滞后值和剩余数据的一个提取器;从所述剩余数据重建剩余信号的一个重建器;产生所述剩余信号的能量估计的一个剩余能量估计器;一个非剩余能量估计器,利用所述音调-增益值和所述滞后值定义的前面的能量估计,产生所述残差数据的非剩余部分的一个能量估计;和合并所述剩余能量估计和非剩余能量估计从而产生所述能量估计的一个合并器。
20.根据权利要求14的语音识别器,其中的声码器是以下声码器中的任意一种RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LDCELP、VSELP、CS ACELP、增强型全速率声码器和LPC10。
全文摘要
一种利用基于线性预测编码的声码器数据识别说出来的词而不需要完全重建语音数据的基于声码器的语音识别器。该识别器对于所述声码器数据的每一帧至少生成一个能量估计(60)并利用相关的能量估计搜索所述声码器数据中词的边界(64)。如果找到一个词(66),就从与这一个词相关的声码器数据中提取线性预测编码词参数(68)并从提取出来的线性预测编码词参数计算识别特征(70)。最后,将所述识别特征与以前存储的其它词的识别特征进行匹配(40),从而识别说出来的词。
文档编号G10L15/02GK1273662SQ98808942
公开日2000年11月15日 申请日期1998年7月22日 优先权日1998年1月8日
发明者耶胡达·赫什科维茨, 加布里埃尔·伊兰 申请人:先进识别技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1