语音识别的方法和装置的制作方法

文档序号：2829611阅读：356来源：国知局

专利名称：语音识别的方法和装置的制作方法
技术领域：
本发明涉及用于语音识别的一种方法和装置；虽然不是专门地，但特别地涉及用于诸如中文普通话这样一种音调语言的语音识别方法和装置。
语音识别技术已经普遍用于识别用英语或者其它非音调语言说出的词汇。基本上，这些已知的语音识别技术将语音的片断(帧)，每一片断有多个语音抽样，基本上转换为参数的集合，有时称为“特征向量”。然后，每一组参数通过一组预先被训练过的模型被传送，以便确定这组参数代表某个特定的已知词汇或者部分词汇，被称为音素，的概率，以最可能的词汇或者音素作为所识别语音的输出。
然而，当这些已知的技术用于音调语言时，一般没能充分地处理可能发生的音调可混淆词汇。许多亚洲语言落在这个音调语言的范畴内。不同于英语，音调语言是这样的一种语言，其中，音调具有词汇的意义，并且在识别期间必须被考虑。一个典型的例子是中文的普通话。有超过10000个普遍使用的汉字，其中的每一个都是单音节。所有这些10,000个字符只被发音为1345个不同的音节，而某个特定音节的不同意义由听者从该语音的前后关系确定。事实上，从这1345个不同的音节中，一个非音调语言的讲话人只能区别400多种不同的声音，因为许多音节发音类似，只能使用不同的音调来区别。换句话说，如果在音节中间的区别由于音调被忽视，则只有408个基本音节而不是1345个音调音节将在中文普通话中被识别。然而，这将造成严重的混乱，因为具有相同基本音节的所有音调音节将被识别为相同的音节。一个著名的例子是，在普通话中，“妈”和“马”都被发音为“ma”，只是由不同的音调来区别。
如

图1A，1B，1C，1D和IE所示，在中文普通话中，有四种词汇音调高和水平音调(阴平)1，升调(阳平)2，降升调(上声)3，以及降调(去声)4；同时，还有一种中性的音调5，用于作为某个词汇的后缀的一些音节。然而，在其它音调语言中，可能有不同数目的音调，例如中文广东话中就有七个。众所周知，音调的特征主要在于其音高轮廓模式。音高等于音频信号的基本频率，而音高轮廓等于频率轮廓。这样，一种已知的音调语言语音识别系统，例如在美国专利5,602,960(Hsiao-Wuen Hon，等人)中所描述的，使用音节识别系统、音调分类器和可信度得分增量器。音调分类器有一个音高估计器，用于估计输入的音高，还有一个长期音调分析器，用于根据每个N-最好理论的音节分割所估计的音高。长期音调分析器对所分割和估计的音高执行长期音调分析，并且产生一种长期的音调可信度信号。可信度得分增量器接收初始的可信度得分和长期的音调可信度信号，根据相应的长期音调可信度信号修改每个初始的可信度得分，根据增加的可信度得分把N-最好理论再分成等级，并且输出N-最好理论。然而，这个系统是强度的计算资源，并且也是依赖语言的，这是因为音节首先被识别，然后被分类成特定的音调，该系统已经被校准或者被训练，以用于特定的音调。这样，如果该语言是从例如中国的普通话，改变成为中国的广东话，则不仅音节识别器需要再训练，而且音调分类器也因为七种音调而不是仅仅五个音调而需要进行再校准。
识别音调语言中的音节的另一个已知方法在美国专利5,806,031(Fineberg)中被描述，其中，音调声音识别器对特征向量计算设备中的某个抽样音调声音信号的多个片断，计算特征向量，比较第一个片断的特征向量和交叉相关器中另一个片断的特征向量，以便确定抽样音调声音信号的一个音调的运动趋势，并且将该趋势输入到词汇识别器中，以便确定抽样音调声音信号的一个词汇或者音节。在这个系统中，对所有的音节计算特征向量，不考虑其是否发音。
一个发音的声音是通过声带以某个固定的速率开合而发出的气流脉冲产生的。脉冲的峰值之间的距离被称为音高周期。发音声音的一个例子是词汇“pill”中的“i”声音。一个不发音的声音是通过导致混乱的气流的单一急促气流所产生的声音。不发音的声音没有确定的音高。不发音的声音的一个例子是词汇“pill”中的“p”声音。发音和不发音的声音的一个组合可以在词汇“pill”中被找到，因为“p”要求单个急促气流，而“ill”则要求一系列的空气脉冲。
虽然所有语言基本上都使用发音和不发音的声音，但在音调语言中，音调仅仅在词汇的发音片断中出现。
因此，本发明寻求为语音识别提供一种方法和装置，该方法和装置克服或者至少减少现有技术的上述问题。
因此，第一方面，本发明提供一种语音识别系统，包括用于接收语音片断的一个输入终端，一个语音分类器，具有连接到输入终端的一个输入和一个提供标识的输出，该标识说明该语音片断是否包含发音或者不发音的语音，一个语音特征检测器，具有连接输入终端的第一输入，连接语音分类器输出的第二输入，以及提供语音特征向量的一个输出，该向量具有多个说明该语音片断的特征的特征值，语音特征向量至少包括一个音调特征值，当该语音片断包含一个发音的语音时，该特征值说明该语音片断的音调特征；和一个语音识别器，具有连接语音特征检测器输出的一个输入，以及一个提供标识的输出，该标识说明所预定的多个语音模型中的哪一个是该语音片断的一个好的匹配。
在最佳实施例中，该系统进一步包括模数(A/D)转换器，该转换器具有连接输入终端的一个输入，以及连接语音分类器和语音特征检测器输入的一个输出，以便提供数字化的语音片断。
语音识别器的输出最好提供一个标识，说明预定的多个语音模型中的哪一个是该语音片断的最好匹配。
系统最好进一步包括连接到语音识别器的一个存储器，用于存储预定的多个语音模型，以及一个语音模型训练器，具有选择地连接到语音特征检测器输出的一个输入和连接存储器的一个输出，用于在预定的多个语音模型已经使用语音特征向量被训练之后，将预定的多个语音模型存储在存储器中。
语音特征检测器最好包括一个非音调的特征检测器，该检测器具有连接语音特征检测器输入的一个输入和为该语音片断提供至少一个非音调特征值的一个输出；包括一个音调特征检测器，具有连接语音特征检测器输入的第一输入，连接语音分类器输出的第二输入，以及一个输出，当语音分类器确定该语音片断包含发音的语音时，该输出为该语音片断提供至少一个音调的特征值，同时，还包括一个语音特征向量发生器，具有连接非音调特征检测器输出的第一输入，连接音调特征检测器输出的第二输入，以及连接语音特征检测器输出的一个输出，用于提供语音特征向量。
非音调的特征检测器最好包括一个非音调的语音转换电路，具有连接非音调的特征检测器输入的一个输入，以及提供被转换的非音调信号的一个输出，还包括一个非音调的特征发生器，具有连接非音调的语音转换电路输出的一个输入，以及连接非音调特征检测器输出的一个输出，用于至少提供该语音片段的一个非音调特征值。
音调特征检测器最好包括一个音调语音转换电路，具有连接音调特征检测器的第一和第二输入的第一和第二输入，以及提供被转换的音调信号的一个输出，还包括一个音调特征发生器，具有连接音调语音转换电路输出的一个输入，以及连接音调特征检测器输出的一个输出，用于至少提供该语音片段的一个音调特征值。
在一个最佳实施例中，音调语音转换电路包括一个音高提取器，具有连接音调语音转换电路第一输入的一个输入和一个输出，还包括一个音调发生器，具有连接音高提取器输出的第一输入，以及连接音调语音转换电路输出的一个输出，用于提供被转换的音调信号来表示该语音片段的音调。
音调发生器最好具有连接音调语音转换电路第二输入的一个第二输入。
在本发明的第二方面，提供了语音识别的一种方法，它包括以下的步骤接受语音片断；根据语音片断是包含发音还是包含不发音的语音，对语音片断进行分类；检测该语音片断的多个语音特征；产生具有表明该语音片断的被检测到的多个特征的多个特征值的语音特征向量，其中，当语音片断包含发音的语音时，语音特征向量至少包括表明该语音片断的一个音调特征的一个音调特征值；并且利用该语音向量来确定在多个预定的语音模型中，哪一个是该语音片断的一个好的匹配。
该方法最好进一步包括对语音片段数字化的步骤，用于提供数字化的语音片断。
利用语音向量的步骤最好确定在预定的多个语音模型中，哪一个是该语音片断的最好匹配。
在最佳实施例中，该方法进一步包括利用语音特征向量，训练预定的多个语音模型的步骤，以及在预定的多个语音模型被训练之后，存储这些预定的多个语音模型的步骤。
检测多个语音特征的步骤最好包括下述步骤产生语音片断的至少一个非音调的特征值；当语音分类器确定该语音片断包含发音语音时，产生该语音片段的至少一个音调特征值；并且组合至少一个非音调的特征值和至少一个音调的特征值，以便提供语音特征向量。
检测至少一个非音调特征值的步骤最好包括以下的步骤利用至少一个第一转换来转换该语音片段，以便提供被转换的非音调信号；并且从被转换的非音调信号中产生至少一个非音调特征值。
检测至少一个音调特征值的步骤最好包括使用至少一个第二转换来转换该语音片断以便提供被转换的音调信号的步骤；以及从转换的音调信号中产生至少一个音调特征值的步骤。
在一个最佳实施例中，转换语音片断的步骤包括从语音片断中提取音高信息的步骤，以及从提取的音高信息中产生被转换的音调信号的步骤。
现在将通过例子并参考附图对本发明的一个实施例进行更充分的描述，其中图1表示普通话汉语中的五种音调模式；图2表示一种已知的基于自动语音识别系统的隐藏的马尔可夫模型(HMM)；图3给出根据本发明一个最佳实施例的语音识别系统的块图；以及图4表示作为图3音调发生器输入和输出的信号的一个示意性的图形。
这样，如上所述，图1表示中文普通话语言的五种音调模式。音调模式是时域中的音高频率的轨道。例如，平调1意味着语音信号的音高频率在一定的时间周期内不发生变化，升调2意味着音高频率单调地从低到高变化，降升调3意味着音高频率从高到低变化，然后又从低回到高变化。降调4意味着音高频率单调地从高向低变化，而中性音调5具有固定的音高频率，类似于平调。
现在参考图2，已知的基于自动语音识别系统10的隐藏马尔可夫模型(HMM)基本上可以被看作是模式匹配器。正如可以看到的，该模型基本上被划分成为两个部分，第一部分是语音处理模块11，该模块在输入12上取出语音信号并且进行处理以便提供频谱的参数，一般称为语音特征向量，用于模型的训练和匹配，下面将要更充分描述。第二个部分是语音识别模块13，该模块接收语音特征向量并且通过开关部件16将其转换到模型训练部件14或者语音识别部件15。
系统10利用大量的语音信号来训练一些模式，这在语音识别方面称为模型。每个模型代表一个声学单元，这可以是词汇，也可以是音节或者音素。换句话说，语音信号必须被分割成声学单元和表示，必须找到其中的每一个。在训练期间，属于某个特殊的语音单元的所有片断将被用来查找该单元的统计特征。这些统计特征的组合被称为该语音单元的模型。在训练阶段确定的所有模型被储存在数据库17中。在识别期间，输入语音信号被分割成单元并且发送到识别器，以便查找其被储存在数据库17里面的最佳匹配模型，并且将其作为语音识别模块13的输出。
对于模型训练和识别，语音信号必须首先被数字化。这样，在语音处理模块11的输入12上的语音信号被传递到数字转换器18，其中，语音信号首先从模拟信号被转换为数字信号，然后被划分成片断，其长度通常为10-20个毫秒。然后把片断，一般称为帧(是基本的分析和处理单元)，传递到语音信号转换电路19，在其中经历一系列的数学转换。在转换期间，信号帧被处理，因此，一组频谱参数，一般称为语音特征向量，可以在语音特征向量发生器20中被产生。这些语音特征向量被用作语音识别模块13的输入，用于模型训练和语音识别计算。
在这样一种常规的语音识别系统中，当试图忽略感情的意义和任何讲话人的个性时，特征参数被选择用来试图表示该声学信号所携带的词汇意义，因为这些信息在试图理解词汇的意义方面造成了大问题。英语中的音调是有关一个常规的语音识别系统的这样多余的信息的例子，并且，经常在信号处理和转换阶段期间被忽视。然而，如上所述，音调语言中的音调代表一定的词汇意义。在中国的普通话中，例如，伴随一个音节的五种音调总意味着五个不同的字符并且有不同的词汇意义。因为由常规的语音识别器引出的特征向量不包括任何音调信息，因此不能在语音信号中区别音调，从而通常没能识别音调语音中的词汇意义。
现在看图3，该图表示根据本发明的语音识别系统的一个实施例。在该实施例中，语音识别系统30又有一个语音处理模块和一个语音识别模块，它们在图中没有单独被表示。语音识别模块接收语音特征向量并且通过开关36将其转换到模型训练器34或者语音识别器35上。在训练阶段期间确定的所有模型被储存在模型存储器37里面，在语音识别阶段期间被语音识别器从这里取出，以便比较输入语音的标本，并且在语音识别模块的出口31上提供最佳匹配模型。这种语音识别模块的操作基本上与图2中的语音识别模块13相同，因此其操作将不在这里作进一步的描述。
语音处理模块包括接收输入语音信号的输入32和语音数字转换器38，在其中，语音信号首先从模拟信号被转换为数字信号，然后划分成帧。数字化帧被传递到语音分类器39和语音特征检测器33。语音分类器被用来区分不同类型的语音。语音特征检测器33包括一台非音调特征检测器40和一台音调特征检测器41。非音调特征检测器40包括一个非音调特征转换电路43和非音调特征向量发生器44，这类似于上述图2中的信号转换电路19和语音特征向量发生器20。音调特征检测器41包括一个音调特征语音转换电路45和一台音调特征向量发生器46。非音调特征向量发生器44和音调特征向量发生器46的输出然后在语音特征向量发生器42中被组合，以便提供语音特征向量，这被传递到开关36，然后转换到模型训练器34或者语音识别器35。有了包括常规特征和音调特征的组合的特征向量，训练的模型能够代表音调信息，并且识别器能更好地区分语音信号中的音调差别。
音调特征语音转换电路45包括音高提取器47和音调信号发生器。音调基本上是音高频率的变化。因此，为了检测音调，音高提取器被用来估计音高频率语音信号的每个帧的音高频率。然后利用音高频率的变化来确定音调。音高检测器在技术上是已知的，并且音高检测器的任何期望的实施方案都可以被使用。这样一种音高检测器的一个例子是在题为“语音信号的数字处理”的文章中描述的，该论文的作者是L.R Rabiner与R.W Schafer，1978年由Prentice-Hall出版，第156页。该算法使用时域中连续的语音帧的自相关来查找自相关函数的取样值。两个这种采样值之间的距离就是音高周期。
语音信号大体上可以被划分成为三个范畴发音语音，不发音语音和无声。发音语音包括元音和双元音。不发音语音包括辅音和半元音。而无声则表示词汇和语句之间、以及句子前后的暂停。应该注意，音调仅在发音语音中出现。其它两个类型的语音信号没有一致的音高频率变化。这样，信号类型分类器被用来确定某个语音帧属于哪一种语音的范畴。仅当这个帧包含发音语音时，才利用音调频率来确定语音信号帧的音调。对于属于其它两个类型信号的所有帧，没有音调信号从音调特征语音转换电路45中输出。
由于语音中的音调信息是由频率域中的音高移动表示的，故音高的变化可以被用作音调特征。这样，音调的产生构造成为音调特征的变化的音高。
为了产生音调特征T(n)，无声和不发音语音的语音段应该被忽视。原因是那些段的信号没有基本的频率。从其中提取的音高将是可能在模型训练和识别期间造成巨大混乱的某些类型的随机数。因此，一种清晰明确的发音/不发音语音分类器用于音调参数抽取。这样的发音/不发音语音分类器是已知的，而任何期望的实施方案都可以被使用。在“以动态的时间偏差强化发音评估”文章中描述了这样一种发音/不发音分类器的一个例子，论文的作者是T.Wang和V.Ciperman，在1998年的ICASSP论文集中，第533-536页。该算法基于波形时差，再加上基于发音和不发音的频谱模型的频谱匹配。
图4表示音调产生操作。有两个函数作为音调发生器的输入。例如，通过以下的线性衰退函数，音调特征可以从这两个输入中产生，如下所示T(t)=Σj-33αj×P(t+j)×v(t)]]>其中，T(t)为在时间t时的音调特征；P(t+j)是在时间t+j时从音高检测器获得的音高频率；V(t)是语音类型函数，表示帧是否包含发音语音，如果帧包含发音语音，则V(t)＝1，否则，V(t)＝0；和αj；是由下式给出的加权系数α-3＝0.2，α-2＝0.3，α-1＝0.5，α0＝0，α1＝0.5，α2＝0.3，α3＝0.2如图4所示，音高频率P(t)在输入49被提供给音调发生器48，而语音类型函数V(t)在输入50被提供。语音类型函数V(t)基本上提供了一种“门”函数，只允许音高频率在发音语音期间被用来产生音调函数T(t)，它在音调发生器48的输出51上被提供。
这样，普通话典型的10个帧元音可以产生10个音调特征，诸如“-9，-7，-6，-5，0，3，5，7，8，8”。从这些音调特征中，可以确定这是图1中第三个类型音调3的元音，由于其音高轮廓在降升模式中。这个信息将被包括在语音特征向量中，被传递到语音识别模块并且被转换到模型训练器34或者语音识别器35。
应该理解，虽然仅对本发明的一个特定的实施例进行详细的描述，但熟悉这一技术的人可以进行各种修正和改进，而不离开本发明的范围。
权利要求
1.一种用于语音识别的系统，包括一个接收语音片断的输入终端；一个语音分类器，具有连接输入终端的一个输入和提供标识的一个输出，该标识说明该语音片断是包含发音还是包含不发音的语音；一个语音特征检测器，具有连接输入终端的第一输入，连接语音分类器输出的第二输入，以及一个输出，该输出提供具有说明该语音片段特征的多个特征值的语音特征向量，该语音特征向量至少包括一个音调特征值，当语音片断包含发音的语音时，该值表明该语音片段的一个音调特征；以及一个语音识别器，具有连接语音特征检测器输出的一个输入和提供标识的一个输出，该标识说明多个预定的语音模型中的哪一个是该语音片断的一个好的匹配。
2.根据权利要求1的语音识别系统，进一步包括一个模数(A/D)转换器，具有连接到输入终端的一个输入，以及连接到语音分类器和语音特征检测器输入的一个输出，该输出提供数字化的语音片断。
3.根据权利要求1的语音识别系统，其中，语音识别器的输出提供了一个标识，说明预定的多个语音模型中的哪一个是该语音片断的最好的匹配。
4.根据权利要求1的语音识别系统，进一步包括连接到语音识别器的一个存储器，用于存储预定的多个语音模型，以及一个语音模型训练器，该训练器具有可选择地连接到语音特征检测器输出的一个输入和连接存储器的一个输出，用于在预定的多个语音模型使用语音特征向量被训练之后，将预定的多个语音模型存储到存储器中。
5.根据权利要求1的语音识别系统，其中，语音特征检测器包括非音调特征检测器，具有连接到语音特征检测器输入的一个输入以及为语音片断提供至少一个非音调特征值的一个输出；音调特征检测器，具有连接到语音特征检测器输入的第一输入，连接到语音分类器输出的第二输入，以及一个输出，当语音分类器确定语音片断包含发音语音时，该输出为该语音片断提供至少一个音调特征值；以及语音特征向量发生器，具有连接到非音调特征检测器输出的第一输入，连接到音调特征检测器输出的第二输入，以及连接语音特征检测器的输出以便提供语音特征向量的一个输出。
6.根据权利要求5的语音识别系统，其中，非音调特征检测器包括非音调语音转换电路，具有连接非音调特征检测器输入的一个输入，以及提供被转换的非音调信号的一个输出；以及非音调特征发生器，具有连接非音调语音转换电路输出的一个输入，以及连接非音调特征检测器的输出、以便为该语音片段提供至少一个非音调特征值的一个输出。
7.根据权利要求5的语音识别系统，其中，音调特征检测器包括音调语音转换电路，具有连接音调特征检测器第一和第二输入的第一和第二输入，以及提供被转换的音调信号的一个输出；以及音调特征发生器，具有连接音调语音转换电路输出的一个输入，以及连接音调特征检测器的输出、以便为该语音片段提供至少一个音调特征值的一个输出。
8.根据权利要求7的语音识别系统，其中，音调语音转换电路包括音高提取器，具有连接到音调语音转换电路的第一输入的一个输入，和一个输出；以及音调发生器，具有连接到音高提取器输出的第一输入，以及连接音调语音转换电路的输出、以便提供说明该语音片断的音调的被转换音调信号的一个输出。
9.根据权利要求8的语音识别系统，其中，音调发生器具有连接到音调语音转换电路的第二输入的第二输入。
10.一种语音识别的方法，包括步骤接收语音片断；根据语音片断是包括发音还是包括不发音的语音而对该语音片断进行分类；检测语音片断的多个语音特征；产生语音特征向量，该特征向量具有多个特征值，以表明该语音片断被检测到的多个特征，其中，语音特征向量至少包括一个音调特征值，当语音片断包括发音语音时，该值表明该语音片段的一个音调特征；以及利用语音向量来确定预定的多个语音模型中的哪一个是该语音片断的一个好的匹配。
11.根据权利要求10的语音识别方法，进一步包括对语音片断数字化以便提供数字化的语音片断的步骤。
12.根据权利要求10的语音识别方法，其中，利用语音向量的步骤确定预定的多个语音模型中的哪一个是该语音片断的最好的匹配。
13.根据权利要求10的语音识别方法，进一步包括步骤利用语音特征向量训练预定的多个语音模型；以及在预定的多个语音模型被训练之后，将预定的多个语音模型存储。
14.根据权利要求10的语音识别方法，其中，检测多个语音特征的步骤包括下述步骤产生语音片断的至少一个非音调的特征值；当语音分类器确定该语音片断包含发音语音时，产生该语音片断的至少一个音调的特征值；以及组合至少一个非音调特征值和至少一个音调特征值，以便提供语音特征向量。
15.根据权利要求14的语音识别方法，其中，检测至少一个非音调特征值的步骤包括下述步骤使用至少一个第一转换来转换语音片段，以便提供被转换的非音调的信号；以及从被转换的非音调信号中产生至少一个非音调的特征值。
16.根据权利要求14的语音识别方法，其中，检测至少一个音调特征值的步骤包括下述步骤使用至少一个第二转换来转换语音片段，以便提供被转换的音调信号；以及从被转换的音调信号中产生至少一个音调特征值。
17.根据权利要求16的语音识别方法，其中，转换语音片断的步骤包括下述步骤从语音片断中提取音高信息；以及从提取的音高信息中产生被转换的音调信号。
全文摘要
一种用于语音识别的方法和装置。该方法包括根据语音片断是包含发音还是包含不发音的语音，对数字化的语音片断进行分类(38)；并且，当语音被发音时，利用该分类来产生该语音片断的音调特征向量(41)。然后，把该音调特征向量与其它非音调的特征向量(40)组合(42)，以便提供语音特征向量。将该语音特征向量与预先存储的不同语音片断的语音特征向量(37)的模型进行比较(35)，以便确定哪一个预先存储的模型是将要被识别的片断的最可能的匹配。
文档编号G10L15/00GK1316726SQ01103049
公开日2001年10月10日申请日期2001年2月1日优先权日2000年2月2日
发明者张亚昕, 宋建鸣, 安东·马迪耶夫斯基申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张亚昕;宋建鸣;安东.马迪耶夫斯基
技术所有人：摩托罗拉公司
我是此专利的发明人