唛频线性预测语音识别设备及方法

文档序号:2835796阅读:491来源:国知局
专利名称:唛频线性预测语音识别设备及方法
技术领域
本发明一般涉及语音识别系统,特别涉及使用唛耳频率线性预测的语音频谱特征抽取。
背景技术
在语音的机器识别中,机器根据所观察到的语音信号的声学特征和声学特征与语音之间的已知关系对语音信号波型进行解码。语音识别的精度决定于如何选择出能抓住该语音的基本语言特性的一特征,同时抑制其他声学方面。机器只能处理从原始语音中所抽取的东西,因此,如所选择的特征并不代表实际语音就无法获得精确的机器语音识别。此外,如在特征抽取阶段丢失信息,该信息就永远丢失。因此正确的特征抽取对精确的机器语音识别来说至关重要。
典型的自动语音识别系统的取样点用于离散傅里叶变换计算或滤波器组或确定语音信号各波分量的幅度的其他装置。例如,由一麦克风生成的语音波形的参数化基于下列事实,任何波形都可表示成简单的正弦波和余弦波的组合,波形组合的最漂亮表达为逆傅里叶变换g(t)=12π∫-∞∞G(t)ei2πftdf]]>其中,傅里叶系数由傅里叶变换给出G(f)=∫-∞∞g(t)e-i2πftdt]]>
该傅里叶变换给出频率为f的该波的各分量的相对强度即该波在频率空间中的频谱。由于一矢量也由可用正弦和余弦函数表示的各分量构成,因此一语音信号也可表为一频谱矢量。实际计算中可使用离散傅里叶变换G(nτN)=Σk=0N-1[τ·g(kτ)e-i2πknN]]]>其中,k为所取各样本值的序数,τ为所读取值之间的区间,N为所读取值的总数(样本大小)。使用快速傅里叶变换(FFT)可提高计算效率,FFT使用基于三角函数循环的一系列简便计算进行离散傅里叶变换计算。
现有语音识别系统的声学特征的参数化使用离散时间信号s(n)的逆频c(n)即一组逆频系数,该逆频定义成频谱对数的时间离散逆傅里叶变换(DTFT)c(n)=12π∫-ππlog[S(eiω)]eiωndω]]>快速傅里叶变换和线性预测(LP)频谱分析被用来导出逆频系数。此外,通过反卷频谱模仿人的听觉频谱来传导语音特征的知觉方面。因此现有语音识别系统使用由综合一反卷频率的FFT滤波器组的输出生成的逆频系数模拟人的听觉的非均匀分辨特性。一个例子是唛耳逆频,它是带宽类似于听觉的临界频带的一滤波器组。该滤波器组的中心频率按照唛耳标度即所知觉的音调对线性频率的对数状标度非均匀地隔开;即,唛耳标度调节把物理赫兹频率变换到知觉频率标度,用来描述人的主观音调感觉。然后取滤波器组输出的对数幅度的逆DTFT而获得该逆频。
线性预测(LP)用所谓的全极模拟约束对语音的各帧进行频谱分析。即一般由Xn(ejω)给出的频谱表示被约束成形式σ/A(ejω),其中,A(ejω)为pth阶多项式,带有下式给出的z变换A(z)=l+a1z-1+a2z-2+...+apz-pLP频谱分析块的输出为一系数矢量(LP参数),这些系数规定了一全极模型的频谱的参数,该频谱在语音样本帧的时间周期上与信号频谱最佳匹配。现有LP逆频从LP参数a(n)中使用如下递归关系得出c(0)=lnG2c(n)=a(n)+1nΣk=1n-1kc(k)a(n-k)]]>其中,n>0。现有语音识别系统一般使用具有全极模拟约束的LP。
知觉线性预测(PLP)法也使用一类似于唛耳滤波器组的滤波器组反卷频谱。经反卷的频谱然后定标和压缩,然后进行低阶全极模拟来估计经修正频谱的平滑包络。但是,尽管PLP结合了FFT滤波器组和LP方法,但仍用FFT得出频谱,基于FFT的信号模拟存在某些重大缺点首先,不进行反卷的FFT频谱是否能模拟语音频谱包络的波峰(这在语言和知觉上非常重要)决定于由打开声带(喉门)造成的较细谐波波峰的特性。因此,喉门特性对所要分析的参数有很大影响,而这显然是要避免的。其次,处理大量频谱样本(取样率为16kHz时FFT的大小一般为N=512)的许多模式(例如唛耳标度反卷、等音量加权、立方根压缩和对数计算)需要存储、查表、和/或内插,从而计算效率降低。
LP的优点为(1)它生成没有喉门谐波的一平滑频谱,(2)它比其他方法简单,所需存储少,以及(3)它可用于许多基于指令的语音识别和综合系统中,在这些系统中,使用语音声码器向使用者提供反馈。因此,由于在大多数声码器算法中使用LP,因此如把基于LP的逆频特征用于语音识别,可大大减少计算量和存储量。因此有人设法反卷LP参数来改进语音识别。例如,用双线性变换和逆FFT计算反卷LP参数的对数幅度频谱。但是,计算对数涉及到查表和仿样内插(得出近似值),从而对存储和计算的要求提高。此外,近似唛耳标度的双线性变换的精度随着取样频率的下降而下降,因此不适合于10kHz以下的信号取样。此外,高频区即使在反卷后仍显示出尖锐的频谱波峰(共振峰),而这与人的下述听觉理论不一致,波峰的分辨随着频率的提高而下降。作为另一个例子的时域方法不需要FFT,但除了上述缺点外,它只是无限长度解决方案的一种近似。事实上,基于LP的现有系统使用不进行知觉反卷的LP逆频,因为上述LP反卷方法尽管复杂性增加,但识别精度提高得不多。
本发明概述本发明为根据发声道频谱进行唛耳频谱反卷而生成输入语音的参数表示的一种装置和方法,它较之现有LP逆频方法计算效率高、识别精度高。它能在许多不同装置中迅速进行处理。本发明为一种语音识别系统,包括线性预测(LP)信号处理器和唛耳频率线性预测(MFLP)发生器,该发生器对LP参数进行唛耳频率反卷而生成语音MFLP参数表示,从而提高知觉模拟语音识别能力,而所需计算量和存储减小。
附图的简要说明

图1为本发明唛耳频率线性预测(MFLP)特征抽取语音识别系统的方框图。
图2为本发明唛耳频率线性预测(MFLP)系统的方框图。
图3为本发明一优选实施例的方框图,示出从输入到生成MFLP逆频的语音信号处理过程。
图4为使用本发明的一例示性语音识别系统的方框图。
图5示出其中嵌入本发明一实施例的蜂窝电话的体系结构。
本发明详述图1为本发明唛耳频率线性预测(MFLP)特征抽取语音识别系统100的方框图。一麦克风101接收一声音串后把该声音串转换成一数字波形信号。一线性预测(LP)处理器102处理该波形生成该语音的一组LP系数。LP处理器102与本发明一唛耳频率线性预测(MFLP)特征抽取系统103连接。MFLP103把所抽取特征传给比较系统104与模板或其他参考装置进行比较,从而进行语音识别。应该指出,可用任何能处理语音频谱参数的识别系统处理比方说由MFLP103生成的语音特征,MFLP103之类的MFLP特征抽取系统也可在基于隐藏马克夫(Markov)模型(HMM)或神经网络的识别系统之类的其他识别系统中用作前端处理器。
图2为本发明MFLP103的优选实施例的方框图。一与LP逆频对应的脉冲响应函数a(n)传给反卷器201,该反卷器对与发声道变换函数的逆函数对应的脉冲响应进行非均匀离散傅里叶变换(NDFT)而进行反卷。反卷器201与一平滑器202连接,该平滑器使用一低阶全极LP模型发生器220平滑频率经反卷的信号。逆频参数转换器203与平滑器202连接,用来接收经反卷、平滑的LP系数而生成逆频参数。
图3为本发明一优选实施例的方框图。一最好为固定低阶数字系统(一般为一阶FIR滤波器)的预频谱校正器301如下平整频谱信号s(n)P(z)=l-az-1(1)其中,0.9≤a≤1.0。为了平整该频谱、在获得LP参数时提高数字稳定性,该优选实施例使用a=0.98。帧分块器302对M个样本的帧的语音信号进行帧分块,两相邻帧之间隔开R个样本。每一帧有一个特征,从而对于一秒发音(长50帧),12个参数表示该帧数据,生成一50×12矩阵(模板特征组)。本发明该实施例所使用的M和R的值使得分块成32毫秒帧。开窗器303对各帧进行开窗,在各帧的开头和结束减少信号不连续。优选实施例最好使用汉明(Hamming)窗口。对语音信号S(n)的每一帧,预反卷LP发生器304进行pth阶LP分析而生成p个预测器系数{a1、a2、…ap}。发声道转换函数H(z)为H(z)=GA(z)=G1-Σk=1pakz-k----(2)]]>其中,G为增益。H(z)为发声道频谱的一平滑、全极模型,喉门造成的所有效应都被除去。
本发明该优选实施例中的唛耳-NDFT反卷器305最好使用非均匀离散傅里叶变换(NDFT)在唛耳标度上反卷发声道转换函数。对LP逆系统a(n)=[1、-a1、-a2、…-ap]进行离散时间傅里叶变换(DTFT)得出A(ejω),其中,ω为用rad/样本表示的线性频率。使用一非均匀网格 取A(ejω)的N个样本,其中k=0、1、…、N,a(n)的NDFT为A~(k)≈Σn=0Pa(n)e-jωkn]]>其中,k=0、1、…、N-1,ωk为仿照唛耳频率标度的
之间的非均匀样本。对唛耳滤波器组进行过量取样得出经反卷的网格 ,其中,fs为取样频率。对0-1000Hz区域如下进行线性取样,N1为样本数fk=k·1000N1Hz]]>其中,k=0、1、…、N1。超过1000Hz(1000-2000Hz、2000-4000Hz、等等)的以八度表示的频谱样本按照如下等式等距排列在对数域中fk=k0=10log10fmin+kΔ]]>其中,k=0、1、…、Nm,以及Δ=log10fmax-log10fminNm]]>=log102fmin-log10fminNm]]>=log102Nm]]>其中,Nm为超过1000Hz时每八度的样本数,以及k0=Nj+(K-l)Nm
其中,K为从1000到奈奎斯特频率fs/2的八度数。fmax=2fmin,fmin的值只对1000Hz八度有定义;即fmin=21·1000,其中,l为整数。NDFT的大小(频谱样本总数)为N=2(Nj+KNm)在本发明一实施例中,Nl=20,Nm=20,从而取样率fs=8kHz,NDFT的大小N为2×(20+2×10)=80。表1示出奈奎斯特频率达8000Hz(取样率为16kHz)的唛耳反卷频率网格。更高取样率当然也在本发明范围内。
在唛耳-NDFT反卷器305生成唛耳反卷信号后,功率频谱发生器306使用下式从 得出反卷发声道功率频谱 P~(k)=G2|A~(k)|2]]>其中,k=0、1、…、N-1。
反卷发声道功率频谱 使用人的听觉的频谱减少理论模型化。该理论假定,人在觉察元音时试图简化语音频谱的结构,一两波峰模型模拟足以识别元音(见Carlson等人的Auditory Analysisand Perception of Speech,55-82,Academic,N.Y.)。逆离散傅里叶变换(IDFT)发生器307使用少量波峰构作 的模型。此外,由于反卷压缩了高频波峰,因此高频波峰在LP模型化过程中会汇合成单一波峰,从而模拟人的听觉系统的波峰分辨的非均匀性。IDFT发生器307计算反卷功率频谱 的逆DFT,生成反卷自矫正顺序的r+1个样本R~(n)=1NΣk=0N-1P~(k)ej2πkn/N]]>其中,r=6,n=0、1、…、r。后反卷发生器308然后使用 进行r阶线性预测,生成一组新参数 ,其中,n=0、1、…、r。这些参数与原LP参数{a(n)}的不同之处在于,它们构作经反卷的频谱而不是原频谱的模型。逆频转换器309使用下述递归关系把新LP参数 转换成逆频系数c(0)=lnGc(n)=a~(n)+1nΣk=1n-1kc(k)a~(n-k)]]>对于n>0。该结果为本发明MFLP逆频。应该指出,可根据各种条件(例如取样率、所需计算量和存储量)使用不同的语音分析参数,包括预频谱校正参数、窗口长度、跃距大小、预反卷LP的阶数、NDFT长度、后反卷LP的阶数和特征大小。
图4为使用本发明的一例示性语音识别系统的方框图。使用MFLP逆频的语音的参数表示被输入词语比较器401。通过比较逆频距离,该语音与在词语模板407中的词语发音的逆频系数参数表示进行比较。动态时间反卷器(DTW)408对该频谱进行动态行为分析,更精确地确定所输入语音与词语模板402中的匹配语音频谱之间的差别。DTW408在一映射待比较的这两个型式的语音特征的网格中找出“最佳”路径,从而对讲话率波动进行时间校正和规格化。其结果为可用扬声器404的声音断定或显示在显示器405上的语音识别。
试验结果表明本发明比现有LP信号处理有效。进行了姓名识别试验,在该试验中,用8个说话人(4男4女)发出24次姓名,这些姓名选择成非常容易发生混淆,例如“Mickey Mouse”、“MinnieMouse”和“Minnie Driver”。使用头戴麦克风在办公室环境中进行3个试验。语音信号的取样率为8kHz,使用16位PCM编码。每一说话人说出姓名三次,其中的两次用作基于动态时间反卷的识别模板。每次试验模板和输入型式交换,其平均值作为最终结果。表2列出每一说话人的本发明LP和MFLP的平均识别精度。该结果表明,每种情况都获得较高的识别精度,特别是B女说话人的发音。
由于本发明优选实施例使用大多数小型语音编码系统中具有的LP参数,因此本发明优选实施例可方便地集成在现有操作系统中,所需存储大大减小。某些例子为PDA如微软Windows CE和蜂窝电话如ARM7TDMI和消费类电子装置。由于使用现有LP系统,因此本发明无需重新设计和编程。也可把本发明语音识别程序的一实施例装入蜂窝电话或PDA之类装置的快闪存储器中,从而本发明可方便、迅速和低廉地集成在现有电子装置中,避免主机装置的DSP的重新设计和编程。此外,最终用户可经与快闪存储器连接的数据端口把这些语音识别程序装入该存储器中。也可从互连网上下载。图5示出其中嵌入本发明一实施例的蜂窝电话的体系结构。在用于使用LP的蜂窝电话的本发明该优选实施例中,声码器参数可直接解码生成LP参数后传给MFLP系统103,从而无需(图1中的)LP处理器。快闪存储器501与微处理器502连接,微处理器502又与DSP处理器503连接,DSP处理器与快闪存储器501和微处理器502一起进行上述语音识别。只读存储器(ROM)装置504和随机存取存储器(RAM)装置505为模板402(图4)提供存储而服务于DSP处理器503。从麦克风507输入的语音由编码器/解码器(CODEC)506编码。在DSP处理器503识别语音后,语音信号由CODEC506解码后传给扬声器508进行声音断定。扬声器508也可为显示器替代。
尽管以上详述了各具体实施例,但可使用各种修正、其他结构和等同。例如,本发明MFLP特征抽取系统可用作其他语音识别系统、例如基于隐藏Markov模型(HMM)或神经网络的语音识别系统的前端处理器。因此上述说明和图示不应看作对由后附权利要求限定的本发明范围有所限制。
表1
权利要求
1.一种语音识别系统,包括接收声波、把声波转换成电子信号的麦克风装置;与所述麦克风装置连接、处理电子信号而生成电子信号的线性预测(LP)参数表示的LP信号处理装置;与所述LP信号处理装置连接、对所述LP参数表示进行唛耳频率反卷而生成电子信号的MFLP参数表示的唛耳频率线性预测(MFLP)发生器装置;以及与所述MFLP装置连接、比较电子信号的所述MFLP参数表示与一数据库中的词语的参数表示的词语比较装置。
2.按权利要求1所述的语音识别系统,其特征在于,所述唛耳频率线性预测(MFLP)发生器装置包括生成电子信号的所述LP参数表示的NDFT的非均匀离散傅里叶变换(NDFT)发生器装置;与所述NDFT发生器装置连接、对所述NDFT进行唛耳频率反卷的反卷装置;与所述反卷装置连接、平滑所述经唛耳频率反卷的NDFT的平滑装置;以及与所述平滑装置连接、把电子信号的所述LP参数表示转换成逆频参数的逆频参数转换装置。
3.按权利要求2所述的语音识别系统,其特征在于,所述平滑装置使用一低阶全极LP发生器。
4.按权利要求1所述的语音识别系统,其特征在于,所述词语比较装置为一动态时间反卷语音识别系统。
5.按权利要求1所述的语音识别系统,其特征在于,所述词语比较装置为一隐藏马克夫模型语音识别系统。
6.按权利要求1所述的语音识别系统,其特征在于,所述词语比较装置为一神经网络语音识别系统。
7.一种识别一语音信号的语音识别系统,包括一频谱地平整语音信号的预频谱校正器;一与所述预频谱校正器连接、对该语音信号进行帧分块的帧分块器;一与所述帧分块器连接、对各分块帧进行开窗的开窗器;一与所述开窗器连接、生成多个预反卷LP参数的预反卷LP发生器;一与所述预反卷LP发生器连接、使用非均匀离散傅里叶变换(NDFT)在唛耳标度上反卷所述预反卷LP参数而生成多个唛耳标度反卷LP参数的唛耳-NDFT反卷器;一与所述唛耳-NDFT反卷器连接、从所述唛耳标度反卷LP参数中生成反卷发声道功率频谱的功率频谱发生器;一与所述功率频谱发生器连接、生成反卷发声道功率频谱的逆离散傅里叶变换的IDFT发生器;一与所述IDFT发生器连接、生成多个后反卷LP参数的后反卷LP发生器;以及一与所述后反卷LP发生器连接、把所述后反卷LP参数转换成多个MFLP逆频系数的逆频转换器。
8.按权利要求7所述的语音识别系统,其特征在于,所述预频谱校正器为一固定低阶数字滤波器。
9.按权利要求7所述的语音识别系统,其特征在于,所述开窗器为—汉明窗口。
10.按权利要求7所述的语音识别系统,其特征在于,使用预定数量的波峰构作所述反卷发声道功率频谱的模型。
11.按权利要求7所述的语音识别系统,其特征在于,进一步包括一存储多个词语发音的逆频系数参数表示的词语模板;一对所述MFLP逆频系数进行动态行为分析的动态时间反卷器;以及一与所述逆频转换器、所述词语模板和所述动态时间反卷器连接、比较所述多个MFLP逆频系数与所述多个词语发音的逆频参数表示的词语比较器。
12.一种移动通信装置,包括一快闪存储器;一与所述快闪存储器连接的微处理器;一与所述快闪存储器和所述微处理器连接、响应所述快闪存储器和所述微处理器进行唛耳频率线性预测(MFLP)语音识别的DSP处理器;一与所述DSP处理器连接、存储数据的只读存储器(ROM)装置;以及一存储数据的随机存取存储器(RAM)装置。
13.一种修正线性预测(LP)发声道频谱的方法,包括下列步骤(a)对LP发声道频谱进行唛耳频率反卷,生成唛耳频率反卷LP发声道频谱;(b)使用预定数量的波峰模型化所述唛耳频率反卷LP发声道频谱;以及(c)在所述模型化唛耳频率反卷LP发声道频谱上进行线性预测,生成LP唛耳频率反卷LP发声道频谱。
14.按权利要求13所述的方法,其特征在于,步骤(a)包括下列步骤(a)计算有限脉冲响应LP参数的离散时间傅里叶变换(DTFT)(b)取有限脉冲响应LP参数的所述DTFT的预定数量的样本;(c)使用LP发声道频谱的所述DTFT的非均匀网格生成非均匀离散傅里叶变换(NDFT);以及(d)对一唛耳滤波器组过量取样,生成有限脉冲响应LP参数的所述NDFT的反卷网格。
15.按权利要求13所述的方法,其特征在于,步骤(c)的所述非均匀网格与唛耳频率标度类似。
16.按权利要求14所述的方法,其特征在于,步骤(d)的所述过量取样从0到1000Hz为线性,大于1000Hz的用八度表示的频率样本在对数域中等距取样。
17.按权利要求13所述的方法,其特征在于,步骤(b)的波峰的所述预定数量为2。
18.按权利要求13所述的方法,其特征在于,步骤(c)包括下列步骤计算所述模型化唛耳频率反卷LP发声道频谱的逆离散傅里叶变换(DFT);生成所述模型化唛耳频率反卷LP发声道频谱的一自矫正顺序的预定数量的样本;以及进行线性预测,从所述模型化唛耳频率反卷LP发声道频谱生成多个LP参数。
19.一种处理语音信号的方法,包括下列步骤(a)使用麦克风接收语音声波信号;(b)把语音声波信号转换成电子信号;(c)使用线性预测(LP)使电子信号参数化;(d)对所述线性预测参数表示进行唛耳频率反卷;以及(e)比较所述唛耳频率反卷线性预测参数表示与一数据库中的词语的参数表示。
全文摘要
本发明为对发声道频谱进行唛耳频谱反卷而生成输入语音的参数表示的一种装置和方法,它较之现有LP逆频方法计算效率高、识别精度高。它能在许多不同装置中迅速进行处理。本发明为一种语音识别系统,包括线性预测(LP)信号处理器和唛耳频率线性预测(MFLP)发生器,该发生器对LP参数进行唛耳频率反卷而生成MFLP参数表示,从而提高知觉模拟语音识别能力,而所需计算量和存储减小。
文档编号G10L15/02GK1340803SQ0012366
公开日2002年3月20日 申请日期2000年8月25日 优先权日2000年8月25日
发明者金云 申请人:韦尔博泰克公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1