基于音素的语音识别方法与系统的制作方法

文档序号：2823565阅读：475来源：国知局

专利名称：基于音素的语音识别方法与系统的制作方法
技术领域：
本发明涉及计算机语音识别技术领域，具体涉及基于音素的语音识别方法与系统。
背景技术：
序列的快速傅里叶变换-FFT是离散时间信号分析与处理的最重要的工具之一。若信号是有限长的序列，直接对序列进行FFT运算即可求得序列的频谱。对于模拟信号，用FFT进行频谱分析时，首先必须对信号进行采样，使之变成离散信号。按采样定理，采样频率fs应大于二倍信号的最高频率。根据数字频率与模拟频率的关系，可以求得用N点FFT进行频谱分析时，其模拟频率分辨率为ΔF＝fs/N --------------------------------------(1)因此，为了保证指定的频率分辨率ΔF，要求用于FFT的点数N≥fs/ΔF --------------------------------------(2)当采用基-2FFT算法时，还要求N为2的整数幂。每条谱线代表的频率刻度值为fk＝fs×k/N k＝0，1，2，3......N/2------------(3)由公式(2)可知，在采样频率固定时，要得到高频率分辨率，用于FFT计算的点数N必须足够大，但在连续语音中，有的音素、如汉语中的多元音，其中的过渡音的持续时间是很短的，仅几毫秒，直接对几毫秒的信号作频谱变换，频率分辨率是很低的，由此得到的频谱数据所构成的语音识别特征不精确，将导致语音识别结果不确定。
语音信号是非稳定信号，简单的FFT变换不能反映语音信号的变化特征，现在广泛使用短时傅里叶变换算法(STFT)，对滑动窗下的波形逐帧地做傅里叶变换，由此而得到语谱图。按滑动窗的长度不同又分为窄带语谱图和宽带语谱图。对于窄带语谱图，滑动窗长度通常大于两个基音周期，窄带语谱图具有较好的频率分辨率，体现在它能区分各次谐波谱线，然而，包含了数个周期的长窗使得语谱图无法显示频率在时域上的变化，当所包含的信号频谱变化较大时，语谱图变得杂乱无章，无法判别。而对于宽带语谱图，滑动窗长度通常小于一个基音周期，而缩短窗长会展宽短时傅里叶变换的频谱分辨率，从而淹没了谐波谱线的结构，只能大致描绘出频谱的包络。而且，由于滑动窗长度小于一个基音周期，所描绘的频谱存在泄露现象，从而导致所绘制的频谱图不真实。
由于语音信号频率、相位和幅度在时域中都是不稳定的，而傅里叶变换本身的时间分辨率为零，它掩盖了信号频谱的变化，而频谱变化是语音变化的必然结果。短时傅里叶变换虽然具有一定的时间分辨率，但在语音信号频谱的分析中作用并不显著，这是因为它的频率和时间分辨率还不够高，语谱图的作用非常有限，甚至传递的信息给人以错误认识，以至于时至今日还无法统一人们对语音的产生和知觉的认识。语谱图虽有看得见的声音之称，但只有经过长期训练的专业人士才能从语谱图中分析出语音的含义，且准确度也并非100％。虽然语音识别过程中无需使用语谱图，但在语音识别系统的开发过程中，语谱图直观的效果对于正确构建识别特征的标准模板是很有帮助的。
随着计算机技术的发展，信号处理技术的日益进步，语音输入、语音识别产品的性能越来越好，使用范围越来越广泛，但由于一些关键性的技术问题没有解决，现有语音识别产品还存在这样或那样的缺点。
申请号为97111623.7的中国发明专利公开了一种语音识别计算机模块及基于音素的数字语音信号变换方法，所述音素特征提取方法为将数字语音信号划分为任意数量的数字语音信号节，将音素划分为任意数量的片段，并给音素各分配一个描述各个音素或音素片段特性的音素特征向量，比较语音信号节与数字化单词语音特征向量二者的相似性，从而识别语音。该方案对清音和浊音采用相同的处理方法，对语音信号节和音素片段的划分依据不明确，不可能获得理想的识别率。此外，国际商业机器公司在申请号为200410058687.0的中国发明专利申请中介绍了一种语音识别系统。该系统中用对数-线性模型对与语音识别有关的语音单元的后验概率进行建模。该后验模型在给定了观测到的语音特征和后验模型的参数的前提下获取语音单元的概率。可以在给定了多个语音特征的前提下用单词序列假设的概率确定所述后验模型。而以此技术为基础的连续语音识别系统具有如下缺点1、要求说话人发音非常标准；2、要求识别环境非常安静，环境噪声小；3、音素、孤立字、词识别率不高或无法识别；4、识别率与话题相关，即与模板库的内容相关，对模板中没有的字词无法识别；5、要求识别系统建立大容量的识别模板库，6、重复性很差，同样的一句话，若不能正确识别时，多次的识别结果不一样。以上缺陷的存在，说明所建模板适应性差，所提取的语音识别特征不稳定。产品虽上市多年，但一直没能推广，当然更谈不上普及。
现有的连续语音识别系统采用清音与浊音混合识别，以固定的时长对语音信号采样，提取语音识别特征，因为无法保证每次采样针对的是单一音素，所提取的识别特征稳定性差，识别效果很不理想。

发明内容
本发明要解决的技术问题在于提供一种可以克服上述现有技术缺点的语音识别方法和系统，对识别环境要求低，对发音人要求低，具有识别率高、既可识别孤立字、词，又能识别连续语音，识别结果可再现等优点。
本发明上述技术问题这样解决，构造一种基于音素的语音识别方法，其特征在于，包括以下步骤A)将模拟语音信号转换为数字语音信号；B)检测数字语音信号短时过零率，如果短时过零率小于设定值则判定为浊音，进行浊音预处理，如果短时过零率高于设定值，则进行清音预处理；C)对经过预处理的数据进行频谱变换，提取特征；D)对提取出的特征数据进行分析；E)根据分析结果输出音素序列。
在上述按照本发明基于音素的语音识别方法中，所述浊音预处理包括以下步骤F1)测定基音信号的频率和幅度；F2)通过分段装置将浊音信号按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零；F3)由时域延拓装置对段数据进行时域周期性复制，将单周期信号变成多周期信号。
在上述按照本发明基于音素的语音识别方法中，所述清音预处理包括以下步骤G1)设定清音起始、结束幅度；G2)检测爆破音的起点、终点；G3)检测清音持续时间。
在上述按照本发明基于音素的语音识别方法中，所述步骤C)包括以下步骤至少提取以下语音识别特征中的1种或2种频谱特征、频谱变化特征、倒谱、线性预测系数、共振峰、音素持续时间。
在上述按照本发明基于音素的语音识别方法中，所述步骤D)包括以下步骤D1)总结各频率成份的幅度在时间上的分布、变化规律及其在语音中的意义；D2)将具有相同或相近特征的频谱归类，形成个性模板；D3)根据系统要求设定模板比对的相似值，高的相似值适用于说话人的识别、指令输入，而低的相似值用于语音与文本的转换；在上述按照本发明基于音素的语音识别方法中，所述步骤E)包括以下步骤将识别特征与语音数据库中指定语种或方言的音素模板进行对比，确定音素名称。
在上述按照本发明基于音素的语音识别方法中，所述步骤F1)测定基音信号的频率和幅度，是采用以下基频提取方法之一实现的自相关函数法、线性预测法、倒频谱法、基于“梳状滤波装置”的基音估计方法、基于谐波正弦波模型的基音估计方法。
在上述按照本发明基于音素的语音识别方法中，所述根据分析结果输出音素序列的步骤E)后，还包括将音素序列转换成文本或指令的步骤。
本发明另一技术问题这样解决，构造一种基于音素的语音识别系统，包括用于将模拟语音信号转换为数字语音信号的语音输入装置；用于检测语音输入装置提供的数字语音信号短时过零率的清浊音识别装置，检测到短时过零率小于设定值则将数字语音信号输出到浊音预处理装置，检测到短时过零率高于设定值则将数字语音信号输出到清音预处理装置；对由清音预处理装置和浊音预处理装置提供的数据进行频谱变换并对变换结果进行分析、提取特征的特征提取装置；对特征提取装置提取出的特征数据进行分析的特征分析装置；语音存储装置以及根据特征分析装置输出的分析结果检索语音存储装置输出音素序列的音素序列输出装置。将音素转换为文本或指令的装置。
在上述按照本发明提供的基于音素的语音识别的系统中，所述浊音预处理装置包括以下模块测定基音信号的频率和幅度的模块；通过分段装置将浊音信号按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零的模块，以及由时域延拓装置对段数据进行时域周期性复制，将单周期信号变成多周期信号的模块；所述清音预处理装置包括以下模块设定清音起始和结束幅度的模块、检测爆破音的起点、终点的模块；以及检测清音持续时间的模块。
实施本发明提供的语音识别方法和系统，可以针对语音信号的特点，对清音和浊音采用不同的处理方法，特别是对浊音音素以单基音周期频谱特征建模，解决了现有语音输入识别系统的不足。具有识别效率高、精度高和稳定性高等优点

图1为按照本发明的基于音素的语音识别系统实施例的逻辑方框图；图2为本发明的浊音预处理装置的逻辑框图；图3为实现本发明的基于音素的语音识别方法的流程示意图；图4A为信号分段示意中标示为S1-语音信号 S2-基音信号ST1_ST4-段信号T1_T4-基音周期图4B为ST1时域延拓信号波形4C为ST2时域延拓信号波形4D为ST3时域延拓信号波形4E为ST4时域延拓信号波形5为ST1时域延拓信号频谱6为ST2时域延拓信号频谱7为ST3时域延拓信号频谱8为ST4时域延拓信号频谱9为一中年男性汉语元音[a]去声波形10为一中年男性汉语元音[a]去声时域延拓语谱11为一中年男性汉语元音[a]去声窄带语谱图具体实施方式
按照本发明，在语音信号中，音素(phoneme)是人的听觉可区分的基本单元。依据发音时声带是否振动，可把音素分为浊音和清音。发清音时声带不振动，清音的频谱中在400Hz以下的低频区没有能量集中的频点，可以说清音没有基频，其波形类似于噪波，稳定性很差，周期性很差，其短时过零率高。与清音不同，发浊音时声带会振动，音量较清音大，传播距离远，日常会话时，浊音的频谱中在60-400Hz的低频区有能量集中的频点，，最低的频率称为基频，也叫基音。唱歌时，基频有可能超过400Hz。浊音短时过零率普遍低于清音。
由于清音与浊音短时过零率不同，二者较易区分，清音幅度一般较浊音低，大多数清音的持续时间长短影响清音的音义。所以，为了有效地识别语音信号，减少模板比对的次数，有必要先对清音和浊音加以识别，依据清音、浊音的特点，采取相应的技术处理。
图1给出了本发明基于音素的语音识别系统的一个实施例，图中各部分功能可由软件和(或)硬件实现。其中语音输入装置107，用于将声波转换为电模拟信号，并将电模拟信号转换为数字信号。清音浊音识别装置101，用于检测语音信号短时过零率，短时过零率小于设定值判定为浊音，为浊音时将信号输出到浊音处理装置102作浊音预处理，反之则判为清音，为清音时将信号输出到清音处理装置103作清音预处理。特征提取装置104，用于提取多个语音识别特征，包括频谱、倒谱、线性预测系数、共振峰、持续时间等，其中以频谱特征和音素持续时间最为重要。而特征分析装置105，用于总结各频率成份的幅度在时间上的分布、变化规律及其在语音中的意义，将具有相同或相近特征的频谱归类，形成个性模板；根据系统要求设定模板比对的相似值，高的相似值适用于说话人的识别、指令输入，而低的相似值用于语音与文本的转换；最后，将识别特征与指定语种或方言的音素模板对比确定音素名称。语音存储装置106用于以数据库形式存储多语种、多种方言的不同性别、不同年龄组音素模板及相关数据，同时提供用户个性模板存储空间。音素序列输出装置108，用于将识别结果发送到音素序列与文本、指令的转换系统。如汉语全拼输入法，双拼输入法等可将音素转换成文本，其它语言，如日语，韩语也有相似的输入法可将音素变换为文本。事实上，只要建立了音素与文字、字母、单词的对应关系，任何语言都可实现音素与文本的转换。
如图2所示，图1中的浊音处理装置102在图2中由一个用于测定基音信号频率与幅度的基频分析装置201，将浊音信号分段的信号分段装置202，一个时域延拓即对段数据进行时域周期复制的装置203以及暂存模块204组成。工作中，浊音信号经过基频分析装置201，测定出基音信号的频率和幅度。基音频率是采用以下基频提取方法之一实现的，自相关函数法、线性预测(LPC)法、倒频谱法、及基于“梳状滤波装置”的基音估计、基于谐波正弦波模型的基音估计方法。浊音信号在分段装置202中被按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零。经分段的信号由时域延拓装置203以段为单位在时域周期性复制，将单周期信号变成多周期信号。
图1中的清音预处理装置103，其作用包括设定清音起始、结束幅度参数，检测爆破音的起点、终点，检测清音持续时间。
图3给出了实现本发明基于音素的语音识别方法的流程图。如图所示，流程始于步骤301，控制过程前进到302，其中输入未知的数字化离散语音信号。下一步，在步骤303，检测语音信号短时过零率，短时过零率小于设定值时判断为浊音，反之为清音。如判断为浊音进入步骤304进行浊音预处理，在步骤304，通过采用下述基频提取方法之一，包括自相关函数法、线性预测(LPC)法、倒频谱法、及基于“梳状滤波装置”的基音估计、基于谐波正弦波模型的基音估计方法，测定浊音信号基频。在步骤304，已知基频的浊音信号被按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零，划分成段的信号最后被以段为单位时域延拓为周期信号；清音被送到步骤305，在步骤305，清音信号经起始、结束幅度，爆破音起点、终点，清音持续时间检测后，进入步骤306，在步骤306多种语音识别特征被提取，其中主要是频谱特征、频谱变化特征、音素持续时间等。在步骤307，所提取的多个识别特征，包括在步骤304、305所检测的识别特征数据，被用于与模板比对，语音信号的音素序列得以确定。然后过程前进到308，在这里输出音素序列。
最后，过程前进到步骤309，过程结束。
上面对本发明的描述是用于说明的目的，而不是要将本发明限制在上述具体形式。实施时，上述内容的修改和变动是难免的，因此，这里所公开的实施例只是为了更好地解释本发明的原理，以便本领域的普通技术人员能针对各自具体的工程需要作出各种修改，使本发明得到最佳的利用和实施。
效果分析如图4A所示的信号S1是原始信号波形，信号S2是信号S1经窄带低频滤波放大获得的信号基波波形，根据信号S1和信号S2的对应关系，以信号过零处作为信号的截取点，一个基波周期截成一段，将信号S1按基音周期T1、T2、T3、T4......划分为ST1、ST2、ST3、ST4......段，4段相加总采样点数N为100。信号的采样频率为8000Hz，根据公式(1)可算出100个样点的频率分辨率为80Hz，但100个样点包含了4个基音周期的信号，而且每个周期的信号都各不相同，为了全面准确了解信号频谱变化，应按基频周期计算信号频谱。ST2为25个样点，如直接用这25个样点做FFT，频率分辨率将高达320Hz，这显然不能满足频谱分析的需要。将段信号ST1、ST2、ST3、ST4在时域延拓，分别得到波形如图4B、4C、4D、4E所示的周期信号。分别对延拓后的信号作1024点FFT变换，所得频谱图如图5、6、7、8示，此时频谱分辨率为7.8Hz，比原来提高了40倍，对比各图中频谱参数，可发现各周期信号的频谱异同点。由此可见，通过将一个基频周期的信号在时域延拓，可以获得信号的短时高精度频谱，采用此方法制作的频谱图具有极高的频率分辨率。
在语音中，浊音频谱的变化是非常大的，即使是两个相邻的基音周期，频谱也有差别，特别是高次谐波有差别，采用常规的FFT无法获得浊音的准确频谱，采用时域基频周期延拓的方法计算浊音频谱，具有很多优点。1、由于计算频谱的样本很小，仅一个基音周期，可提高频谱变换的时间分辨力；2、时域延拓增大了FFT点数，大大提高了频谱变换的频率分辨率；3、可排除浊音幅度变化、持续时间变化对音素识别的干扰；4、可排除相邻音素、相邻周期对频谱的干扰，保障了频谱的纯度，也就提高了频谱的可信度；5、只需一个基频周期的信号即可计算出浊音的精确频谱，依据频谱特征和信号持续时间即可确定音素名称，而无需参照相邻的音素，从而做到快速识别，识别结果与上下文无关。如果一个浊音持续时间有数个基音周期，对每个基音周期都作频谱分析，作音素判别，这样，一个浊音素的识别是经多次判断完成，也就提高了识别的可靠性。
不同音素的信号会对相邻、甚至相隔的音素信号的频谱产生干扰，所以有必要对音素进行隔离，防止音素的相互干扰，以保证每次频谱变换的样点为单一音素，由于采取了清音与浊音的隔离措施，排除了高能量的浊音信号对清音信号频谱的干扰，增加了清音持续时间作为识别特征之一，清音音素的识别特征明显，识别结果可靠。
如图9示为一中年男性汉语拼音元音[a]的去声信号波形图，图10为采用基频时域延拓得到的语谱图。由图10可以看出该语音信号是由基音和谐音构成的；基音频率的变化引起谐音频率变化，谐波次数越高频率变化越大；频率在1350Hz以下的谐波幅度较高；基音强度变化较小。图11为该信号的窄带语谱图。两图对比，可明显看出时域延拓语谱图的优越性。
在连续语音中，由于单个音素的持续时间太短，拆开试听时人耳无法识别，只有连续倾听才能识别，所以，人的语音识别是以上下文综合为基础的。但计算机拥有人脑无可比拟的运算速度，利用傅里叶频谱变换，通过时域延拓的办法计算浊音精确频谱，通过清音、浊音分离，计算清音频谱和持续时间，对于连续语音中的单个音素，是完全可以准确识别的，无需参考音素出现的概率。因为音素的数量少，清音和浊音不会混淆，有的音素之间存在非常显著的频谱差别，模板比对时不可能出错，只有少数的几个浊音素频谱相近，但求得信号的精确频谱后也是很容易识别的，所以，基于音素的语音识别系统可靠性高，所需模板库的容量小，可大大降低语音识别系统成本，大大提高识别准确性。
权利要求
1.一种基于音素的语音识别方法，其特征在于，包括以下步骤A)将模拟语音信号转换为数字语音信号；B)检测数字语音信号短时过零率，如果短时过零率小于设定值则判定为浊音，进行浊音预处理，如果短时过零率高于设定值，则进行清音预处理；C)对经过预处理的数据进行频谱变换，提取特征；D)对提取出的特征数据进行分析；E)根据分析结果输出音素序列。
2.根据权利要求1所述方法，其特征在于，所述浊音预处理包括以下步骤F1)测定基音信号的频率和幅度；F2)通过分段装置将浊音信号按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零；F3)由时域延拓装置对段数据进行时域周期性复制，将单周期信号变成多周期信号。
3.根据权利要求1所述方法，其特征在于，所述清音预处理包括以下步骤G1)设定清音起始、结束幅度；G2)检测爆破音的起点、终点；G3)检测清音持续时间。
4.根据权利要求1所述方法，其特征在于，所述步骤C)包括以下步骤至少提取以下语音识别特征中的1种或2种频谱特征、频谱变化特征、倒谱、线性预测系数、共振峰、音素持续时间。
5.根据权利要求1所述方法，其特征在于，所述步骤D)包括以下步骤D1)总结各频率成份的幅度在时间上的分布、变化规律及其在语音中的意义；D2)将具有相同或相近特征的频谱归类，形成个性模板；D3)根据系统要求设定模板比对的相似值，高的相似值适用于说话人的识别、指令输入，而低的相似值用于语音与文本的转换。
6.根据权利要求1所述方法，其特征在于，所述步骤E)包括以下步骤将识别特征与语音数据库中指定语种或方言的音素模板进行对比，确定音素名称。
7.根据权利要求1所述方法，其特征在于，所述步骤F1)测定基音信号的频率和幅度，是采用以下基频提取方法之一实现的自相关函数法、线性预测法、倒频谱法、基于“梳状滤波装置”的基音估计方法、基于谐波正弦波模型的基音估计方法。
8.根据权利要求1所述方法，其特征在于，所述根据分析结果输出音素序列的步骤E)后，还包括将音素序列转换成文本或指令的步骤。
9.一种基于音素的语音识别系统，其特征在于，包括用于将模拟语音信号转换为数字语音信号的语音输入装置；用于检测语音输入装置提供的数字语音信号短时过零率的清浊音识别装置，检测到短时过零率小于设定值则将数字语音信号输出到浊音预处理装置，检测到短时过零率高于设定值则将数字语音信号输出到清音预处理装置；对由清音预处理装置和浊音预处理装置提供的数据进行频谱变换，提取特征的特征提取装置；对特征提取装置提取出的特征数据进行分析的特征分析装置；语音存储装置以及根据特征分析装置输出的分析结果检索语音存储装置输出音素序列的音素序列输出装置。将音素序列转换为文本或指令的装置。
10.根据权利要求9所述系统，其特征在于，所述浊音预处理装置包括以下模块测定基音信号的频率和幅度的模块；将浊音信号按先后顺序分解成大小等于基音周期的互不相干的段，信号基频为N个采样点，即按N个连续采样点一段，尽量使每段的起点和终点幅值为零或接近零的数据分段模块，以及对段数据进行时域周期性复制，将单周期信号变成多周期信号的时域延拓模块；所述清音预处理装置包括以下模块设定清音起始和结束幅度的模块、检测爆破音的起点、终点的模块；以及检测清音持续时间的模块。
全文摘要
一种基于音素的语音识别方法及系统，包括以下环节A)将模拟语音信号转换为数字语音信号；B)检测数字语音信号短时过零率，如果短时过零率小于设定值则判定为浊音，进行浊音预处理，如果短时过零率高于设定值，则进行清音预处理；C)对经过预处理的数据进行频谱变换，提取特征；D)对提取出的特征数据进行分析；E)根据分析结果输出音素序列。实施本发明提供的语音识别方法和系统，可以针对语音信号的特点，对清音和浊音采用不同的处理方法，特别是对浊音音素以单基音周期频谱特征建模，解决了现有语音输入识别系统的不足。具有识别效率高、精度高和稳定性高等优点。
文档编号G10L15/00GK1991976SQ200510121499
公开日2007年7月4日申请日期2005年12月31日优先权日2005年12月31日
发明者潘建强申请人:潘建强

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘建强
技术所有人：潘建强
我是此专利的发明人