语音识别装置、识别方法以及记录介质的制作方法

文档序号:2836858阅读:379来源:国知局
专利名称:语音识别装置、识别方法以及记录介质的制作方法
技术领域
本发明涉及一种语音识别装置、语音识别方法和记录介质,特别涉及一种能提高语音识别精度的语音识别装置、语音识别方法和记录介质。


图1示出了一种传统语音识别装置的示例结构。
用户发出的语音输入传声器1,然后传声器1将输入的语音转换成音频信号,该信号是电信号。将音频信号馈送到模-数(AD)转换部件2。该模数(AD)转换部件2对音频信号进行采样、量化,并将其转化成数字信号的音频数据,其中音频信号是来自传声器1的模拟信号。将音频数据馈送到特征提取部件3。
该特征提取部件3在适当数量的帧单元中对来自AD转换部件2的音频数据实施声学处理以提取特征量,例如一唛耳频率倒频谱参数(MFCC),并将其馈送到匹配部件4。特征提取部件3能提取其它特征量,例如频谱、线性预测参数、倒频谱参数以及线谱对参数。
匹配部件4利用由特征提取部件3馈送的特征量,如果必要,还要参考声模式(acoustic-model)数据库5、字典数据库6和语法数据库7,并利用例如连续分布HMM法对输入传声器1的语音实施语音识别。
更具体地说,声模式数据库5存储表示实施语音识别的语音的语言方面的每个音素和每个音节的声特征的声模式。由于语音识别是根据连续分布的隐藏马可夫模式(HMM)方法实施的,因此HMM是作为一个声模式。字典数据库6存储了一个字典,其中描述了与每个要识别的词(词汇)的发音有关的信息(音素信息)。语法数据库7存储了语法规则(语言模型),该语法规则描述了每个输入到字典数据库6的字典中的词是怎样链接(连接)的。例如,语法规则可以是上下文无关文法(GFG)或基于统计字链概率(N-gram)的规则。
匹配部件4通过参考字典数据库6的字典,结合存储在声模式数据库5中的声模式形成字的声模式(字模式)。匹配部件4进一步通过参考语法数据库6中存储的语法规则结合若干个字模式,并依据特征量通过连续分布HMM法,利用所结合的字模式来识别输入传声器1的语音。换句话说,匹配部件4在监视由特征提取部件3输出的时间顺序的特征量过程中,检测一系列具有最高分数(score)(可能性)的字模式,并输出与该系列字模式相对应的字串作为语音识别的结果。
换句话说,匹配部件4为对应于所结合的字模式的字串积累每个特征量的出现概率,将积累值作为分数,并输出具有最高分数的字串作为语音识别结果。
通常,通过由声模式数据库5中储存的声模式给出的声分数(此后如果必要称之为声分数)和由语法数据库7中存储的语法规则给出的语法分数(此后如果必要称之为语言分数)的总体评价而得到分数。
更具体地说,例如,通过HMM方法依据概率(出现概率)由构成字模式的声模式为每个字计算声分数,通过它监视由特征提取部件3输出的特征量序列。例如,根据目标(aimed-at)字和在目标字之前迅速处理的字之间的链接(连接)概率,通过双字母组获得语言分数。根据由每个字的声分数和语言分数的总体评价值获得的最终分数(此后如果必要称之为最终分数)确定语音识别结果。
特别地,例如,通过下面的公式计算由N个字形成的字串的最终分数S,其中wk表示字串中第k个字,A(wk)表示字wk的声分数,L(wk)显示该字的语言分数。
S=∑(A(wk)+Ck×L(wk))(1)∑表示当k从1变到N时得到的总和。Ck表示用于字wk的语言分数L(wk)的权。
例如,匹配部件4执行匹配处理得到N,它使由公式(1)表示的最终分数最高,并得到字串w1、w2、…和wN,并输出字串w1、w2、…和wN作为语音识别结果。
通过上述过程,当用户发出“New York ni ikitai desu,”时,图1所示的语音识别装置为每个字“New York”、“ni”、“ikitai”或“desu.”计算声分数和语言分数。当由总体评价值得到的它们的最终分数最高时,字串“New York”、“ni”、“ikitai”和“desu.”被作为语音识别结果输出。
在上述情况中,当5个字“New York”、“ni”、“ikitai”和“desu.”存储在字典数据库6的字典中时,就会有55种由这五个字构成的五字排列。因此,可以简单地说成是匹配部件4针对用户在其中的发音计算55个字串,并确定最适当的字串(具有最高的最终分数的字串)。如果在字典中存储的字数增加了,则由这些字形成的字串的数目是该字数的该字数次方。因此,将计算大量字串。
另外,由于发音中包括的字数通常是未知的,因此不仅要计算五个字形成的字串,还要计算由一个字、两个字…形成的字串。因此要计算的字串数变得更加庞大。按照要使用的计算量和存储容量有效地确定大量字串中最可能的字串作为语音识别的结果,这是非常重要的。
为有效利用要使用的计算量和存储容量而采取了一些措施,例如采用声分支切割(branch-cutting)技术,以便在获得声分数的过程中获得的声分数等于或小于预定阈值时终止分数计算,或采用语言分支切割技术,以便根据语言分数减少进行分数计算的字数。
根据这些分支切割技术,由于按照预先确定的标准(例如上述计算过程中获得的字的声分数和语言分数)进行分数计算的字减少了,因此计算的量也减少了。然而,如果减少了很多字,即如果使用严格的确定标准,则甚至应正确获得作为语音识别结果的字也被删除了,并发生错误识别。因此,在分支切割技术中,需要将字简化与在某种程度上设置的空白一起使用,以便不会丢掉应正确获得而作为语音识别结果的字。因此,大量减少计算量是困难的。
当独立地获得所有被执行分数计算的字的声分数时,计算量巨大。因此,提出了共同利用(共用)多个字的部分声分数的方法。在该共用方法中,将共同声模式施加给字典中存储的具有相同的第一音素的字(施加是从第一音素到相同的最后音素),并将声模式独立地施加给随后的音素,在总体上形成一个树形结构网络,并获得声分数。更准确地说,考虑到了一些字,例如“akita”和“akebono”。当假设“akita”的声信息是“akita”而“akebono”的声信息是“akebono”时,共同为字“akita”和“akebono”的第一到第二音素“a”和“k”计算声分数。单独为字“akita”剩余的音素“i”、“t”和“a”和字“akebono”剩余的音素“e”、“b”、“o”、“n”和“o”计算声分数。
因此,按照该方法就大大减少了计算声分数的计算量。
然而,在该方法中,当计算了共同部分(共同计算声分数)时,就不能确定被计算声分数的字。换句话说,在上面的字为“akita”和“akebono”的例子中,当为第一和第二音素“a”和“k”计算了声分数时,还不能确定是否为字“akita”和字“akebono”计算了声分数。
在这种情况下,关于字“akita”,当开始为其第三个音素“i”计算声分数时,就能确定正被实施计算的字是“akita”。同样关于字“akebono”,当开始为其第三个音素“e”计算声分数时,就能确定正被实施计算的字是“akebono”。
因此,当共用部分声分数计算时,声分数计算开始时不能鉴别正被实施计算的字。结果是,在声分数计算开始前难于使用上述语言分支切割法。这就执行了无用的计算。
另外,当共用了部分声分数计算时,就为字典中存储的所有字形成了上述树形结构网络。为容纳该网络需要一个很大的存储容量。
为有效利用要被使用的计算量和存储容量,采用了另一项技术,其中,不仅为字典中存储的所有字计算声分数,还为初级选择的字计算声分数。例如,可通过利用简易声模式或没有太高精度的简易语法规则进行初级选择。
例如,在“A Fast Approximate Acoustic Match for LargeVocabulary Speech Recognition”IEEE Trans.Speech and Audio Proc.,Vol.1,pp.59-67,1993,written by L.R.Bahl,S.V.De Gennaro,P.S.Gopalakrishnan and R.L.Mercer中已经描述了一种初级选择的方法。
通过利用一系列语音特征量来计算字的声分数。当用于计算的一系列特征量的起始端或终止端不同时,获得的声分数也会变化。该变化影响了通过公式(1)得到的最终分数,其中声分数和语言分数被全部计算。
例如,可通过动态程序法获得对应于一个字的特征量序列的起始端和终止端,即字的边界(字边界)。将特征量序列中的一个端点设定为候选字边界,并为字串中的每个字积累由总体评价声分数和语言分数获得的分数(此后如果必要称之为字分数),该字串作为语音识别的候选结果。将给出最高积累值的候选字边界连同积累值一起存储起来。
当已经获得字分数的积累值时,也得到了给出最高积累值(即最高分数)的字边界。
以上述方式获得字边界的方法称之为维特比(viterb)解码或一次(one-pass)解码法,例如已在“Voice Recognition Using ProbabilityModel”,The journal of the Institute of Electronics,Informationand Communication Engineers,pp.20-26,July,1,1988,written bySeliichi Nakagawa中描述了其详细内容。
为有效执行上述的初级选择,确定字边界,也就是确定一系列特征量(特征量序列)中的起始端是非常重要的。
特别地,例如,在由图2(A)所示的语音“kyouwaiitenkidesune”得到的特征量序列中,在时间t1时处理了“kyou”和“wa”之间的一个正确字边界,如果将正确时间t1之前的t1-1选作位于字“kyou”之后的字“wa”的初级选择中的起始端,不仅字“wa”的特征量而且字“kyou”特征量的最后部分也都影响初级选择。如果将在时间t1之后的t1+1选作字“wa”初级选择中的起始端,则字“wa”特征量的起始部分不用于初级选择。
不论发生那种状况,如果错误地选择了起始端,就会给初级选择和此后进行的匹配处理带来不良影响。
在图2中(也在此后描述的图5和图7中),时间以从左向右的方向变化。语音区的起始时间设定为0,终止时间设定为时间T。
如上所述,在上述动态程序法中,由于直到将字分数已经被计算到特征量序列的末端(即图2中语音区的终止时间T)为止,才能确定最终字边界,因此在进行初级选择时唯一地确定作为初级选择中的起始端的字边界是困难的。
为解决该问题,提出了一种技术,其中保存候选字边界,直到已经在语音区通过使用特征量序列计算了字分数为止。
在该技术中,例如,当为字“kyou”计算字分数,并将语音区的起始时间0作为起始端、时间t1-1、t1和t1+1作为字“kyou”的候选发音终止端时,保存这三个时间t1-1、t1和t1+1,并将这些时间中的每一个用作起始端,为下一个字执行初级选择。
在初级选择过程中,可以假设当时间t1-1作为起始端时,得到了两个字“wa”和“ii”;当时间t1作为起始端时,得到了一个字“wa”;当t1+1作为起始端时,得到了两个字“wa”和“ii”。也可以假设为这些字中的每个字计算字分数,并得到图2(B)到图2(G)中所示的结果。
具体地说,图2(B)表示将时间t1-1作为起始端时为字“wa”计算字分数,并得到作为候选终止端的时间t2。图2(C)表示将时间t1-1作为起始端时为字“ii”计算字分数,并得到作为候选终止端的时间t2+1。图2(D)表示将时间t1作为起始端时为字“wa”计算字分数,并得到作为候选终止端的时间t2+1。图2(E)表示将时间t1作为起始端时为字“wa”计算字分数,而将时间t2作为候选终止端。图2(F)表示将时间t1+1作为起始端时为字“wa”计算字分数,并得到作为候选终止端的时间t2。图2(G)表示将时间t1+1作为起始端为字“ii”计算字分数,并得到作为候选终止端的时间t2+2。在图2中,t1-1<t1<t1+1<t2<t2+1<t2+2。
在图2(B)到图2(G)中,图2(B)、图2(E)和图2(F)表示得到相同字串“kyou”和“wa”作为语音识别的候选结果,并且字串的最后字“wa”的终止端位于时间t2。因此,例如,根据直到时间t2时获得的字分数积累值从中选择最适当的情况并删除其余情况是可行的。
然而,在当前的时间点上,从选自图2(B)、图2(E)和图2(F)所示的这些情况、以及加上2(C)、图2(D)和图2(G)所示的情况中不能鉴别正确情况。因此,需要保存这四种情况。为这四种情况再执行一次初级选择。
因此,在该技术中,需要计算字分数,同时保存许多候选字边界,直到利用语音区中特征量序列的字分数计算完成为止。在有效利用计算量和存储容量的情况下这不是优选的。
也是在这种情况下,当将真正正确的字边界保存为候选字边界时,最终在原则上得到了与利用上述动态程序技术情况下所得到的字边界同样正确的字边界。如果未能将真正正确的字边界保存为候选字边界,就会错误地识别将字边界作为其起始端或作为其终止端的字,另外,由于该错误识别,也会错误识别该字后面的一个字。
近年来,已经使用了依据(考虑)上下文关系的声模式。依据上下文关系的声模式意指即使对同一音节(音素),也根据音节前或后迅速处理的音节将声模式模拟成不同的模式。由此,例如,通过在音节前或后迅速处理的音节分别是“ka”和“sa”的情况中的不同声模式来模拟音节“a”。
将依据上下文关系的声模式分成字内依据上下文关系的声模式和依据上下文关系的延续字声模式。
在利用字内的依据上下文关系的声模式的情况下,当通过连接声模式“kyo”和“u”产生字模式“kyou”时,就利用了依据随后立即跟来的音节“u”的声模式“kyo”(考虑到具有随后立即跟来的音节“u”的声模式“kyo”),或利用了依据前面立即有音节“kyo”的声模式“u”。
在利用依据上下文关系的延续字声模式情况下,当通过连接声模式“kyo”和“u”产生字模式“kyou”时,如果后面立即跟来的字是“wa”,则声模式“u”依赖于随后立即跟来的字的第一音节“wa”。依据上下文关系的延续字声模式称之为纵横组字模式(cross-word models)。
当将纵横组字模式用于执行初级选择的语音识别时,就能顾及到与在初级选择字之前立即处理的字的关系,但因为还未确定后面立即跟来的字,因此不能顾及到与在初级选择字之后立即处理的字的关系。
为解决该问题,开发了一种方法,其中会提前得到初级选择字之后最可能立即被处理的字,并产生顾及到与所得字关系的字模式。例如,更正确地说,当字“wa”、“ga”和“no”是字“kyou”后最可能被立即处理的字时,通过利用依赖于“wa”、“ga”和“no”的声模式“u”而产生字模式,该字模式与字“kyou”的字模式的最后音节相对应。
然而,由于总是要顾及不必要的上下文关系,因此该方法在有效利用计算量和存储容量方面是不可取的。
由于相同原因,计算初级选择字的语言分数、并顾及此后立即处理的字是困难的。
作为一种语音识别方法,其中不仅要考虑目标字,还要考虑目标字后面的字,现提出了一种两次(two-pass)解码法,例如在“The N-BestAlgorithm:An Efficient and Exact Procedure for Finding The MostLikely Sentence Hypotheses,”Proc.ICASSP,pp.81-84,1990,written by R.Schwarts and Y.L.Chow中描述了该方法。
图3是表示传统语音识别装置的框结构图,该装置能通过两次解码法执行语音识别。
在图3中,例如,匹配部件41执行与图1所示匹配部件4相同的匹配处理,并输出作为处理结果的字串。匹配部件41不会从所得的作为匹配处理结果的多个字串中输出一个字串作为最终语音识别结果,而是输出多个可能字串作为语音识别的候选结果。
将匹配部件41的输出馈送到匹配部件42。匹配部件42进行匹配处理,以便重新评价由匹配部件41输出的多个字串中确定的每个字串的概率,作为语言识别结果。在从匹配部件41输出作为语音识别结果的字串中,由于字不仅是前面立即处理的一个字,而且是后面立即处理的一个字,因此匹配部件42利用纵横组字模式得到一个新的声音分数和一个新的语言分数,这些分数不仅顾及到前面立即处理的字,而且顾及到后面立即处理的字。根据由匹配部件41输出的大量字串中每个字串的新声音分数和语言分数,匹配部件42确定并输出一个可能字串作为语音识别结果。
在上述两次解码过程中,在匹配部件41中通常不使用高精度的简易声模式、字典和语法规则,该匹配部件41执行第一匹配处理,在匹配部件42中使用高精度的声模式、字典和语法规则,该匹配部件42执行后来的匹配处理。通过该结构,在图3所示的语言识别装置中减少了匹配部件41和42中执行的处理量,并得到了高精度的语音识别结果。
如上所述,图3表示两次解码的语音识别装置。在此也提出能执行多次解码的语音识别装置,其中在图3所示的匹配部件42后加入相同的匹配部件。
然而,在两次解码和多次解码过程中,直到第一匹配处理完成才能进行下一级匹配处理。因此,从语音输入时到最终语音识别结果输出时测得的延迟时间变得很长。
为解决该问题,提出了一种方法,其中,当第一匹配处理已完成几个字时,就开始利用纵横组字模式进行这几个字的后续匹配处理,并且对于其它字也重复该操作。例如,该方法在“Evaluation of a StackDecoder on a Japanese Newspaper Dictation Task”Onkoron,1-R-12,pp.141-142,1997,written by M.Schuster中已经描述了。
一般通过利用没有高精度的简易声模式和语法规则执行初级选择。由于初级选择是用于存储在字典中的所有字,因此当用高精度的声模式和高精度语法规则执行初级选择时,就需要大量例如计算量和存储容量的资源来保存实时特征。因此随着简易声模式和简易语法规则的使用,初级选择能以高速执行,并且甚至对于大量词汇也使用相对较小的资源。
然而,在初级选择过程中,在通过使用特征量序列对一个字执行匹配处理并获得可能的终止端后,将终止端设置为起始端,并通过利用与该起始端相对应的时刻开始的特征量序列再次执行匹配处理。换句话说,当连续发出的语音所包含的字之间的边界(字边界)还没有最终确定时,执行初级选择。
因此,如果初级选择中所用特征量序列的起始端和终止端从相应字的起始端和终止端漂移,就通过利用包含音素特征量的特征量序列执行初级选择,其中该音素是包含在对应字之前迅速处理的字或对应字之后迅速处理的字中,或通过利用对应字起始或最后部分的特征量缺失的特征量序列执行初级选择,即通过利用声学上不稳定的特征量序列执行初级选择。
因此,在利用简易声模式的初级选择过程中,就会发生含在发音中的一个字未被选择的情况。如果在初级选择中未选择正确字,则由于未对该字执行匹配处理,因此就会得到错误的语音识别结果。
为解决该问题,对于初级选择,就提出了一种扩展用于选择字的声和语言确定标准以增加选择字数目的方法,还提出了一种使用高精度声模式和高精度语法规则的方法。
然而,当在初级选择中扩展了用于选择字的声或语言确定标准时,就会对许多可能是语音识别结果的字进行匹配处理,并需要为匹配处理增加资源数量,例如计算量和存储容量,这相对于每个字具有比初级选择更重的负担。
当在初级选择中使用高精度声模式和高精度语法规则时,需要为初级选择增加资源量。
考虑到上述情况得到了本发明。本发明的一个目的是执行高精度的语音识别,同时抑制处理过程所需资源的增加。
在本发明的一方面中,通过提供一种语音识别装置可实现上述目的,其中该装置用于计算表示对输入语音实施语音识别结果的可能性的分数,并根据该分数识别语音,它包括选择装置,该选择装置能从实施语音识别的字组中选择一个或多个具有后随字的字(words followingwords),该具有后随字的字是在作为语音识别候选结果的字串中得到的;形成装置,用于为选择装置所选择的字计算分数,并根据该分数形成作为语音识别候选结果的字串;存储装置,用于存储作为语音识别候选结果的字串中的字之间的字连接关系;校正装置,用于校正字连接关系;以及确定装置,用于根据校正后的字连接关系确定作为语音识别结果的字串。
存储装置可通过使用由节点和弧线表示的图形结构存储连接关系。
存储装置可存储可共享一个节点的节点。
存储装置可存储每个字的声分数和语言分数,并存储与每个字对应的发音的起始时间和终止时间,以及这些字间的连接关系。
可这样构成语音识别装置形成装置通过将正在计算分数的字连接到已经计算完分数的字上来形成作为语音识别候选结果的字串,以及形成装置每连接一个字,校正装置就顺序地校正连接关系。
选择装置或形成装置可参照该连接关系而执行处理过程。
选择装置、形成装置或校正装置能计算字的声或语言分数,并根据该声或语言分数执行处理。
选择装置、形成装置或校正装置能为每个字独立地计算声或语言分数。
选择装置、形成装置或校正装置能依据时间为每个字独立地计算声或语言分数。
通过参考顾及到与要计算分数的字之前或之后处理的字的连接关系,校正装置能计算该字的声或语言分数。
上述目的可在本发明的另一方面中通过提供一种语音识别方法实现,该方法用于计算表示对输入语音实施语音识别的结果的可能性的分数,并根据该分数识别语音,它包括选择步骤,该选择步骤能从进行语音识别的字组中选择一个或多个具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;形成步骤,能为选择步骤所选择的字计算分数,并根据该分数形成作为语音识别候选结果的字串;校正步骤,能校正作为语音识别候选结果的字串中的字之间的字连接关系,该字连接关系存储在存储装置中;以及确定步骤,能根据校正后的字连接关系确定作为语音识别结果的字串。
上述目的仍可在本发明的另一方面中通过提供一种记录介质实现,其中该记录介质能存储使计算机执行语音识别处理的程序,它用于计算表示对输入的语音实施语音识别的结果的可能性的分数,并根据该分数识别语音,该程序包括选择步骤,该选择步骤能从进行语音识别的字组中选择一个或多个具有后随字的字,该具有后随字的字是从作为语音识别候选结果的字串中得到的;形成步骤,能为选择步骤所选择的字计算分数,并根据该分数形成作为语音识别候选结果的字串;校正步骤,能校正作为语音识别候选结果的字串中的字之间的字连接关系,该字连接关系存储在存储装置中;以及确定步骤,能根据校正后的字连接关系确定作为语音识别结果的字串。
图1是传统语音识别装置的方框图。
图2是表示为何需要保存候选字间边界的原因图。
图3是另一个传统语音识别装置的方框图。
图4是根据本发明一个实施例的语音识别装置的方框图。
图5是表示字连接信息的图。
图6是由图4所示的语音识别装置执行处理的流程图。
图7是表示再评价部件15执行处理的图。
图8是根据本发明另一个实施例的计算机方框图。
图4表示根据本发明一个实施例的语音识别装置的示例结构。在图4中,与图1所用的相同的附图标记分派给与图1所示相对应的部分,并省略有关这些部分的描述。
由用户发出的语音的特征量序列从特征提取部件3输出,并被馈送到帧单元中的控制部件11。控制部件11将由特征提取部件3馈送的特征量馈送到特征量存储部件12。
通过参照字连接信息存储部件16中存储的字连接信息,控制部件11控制匹配部件14和再评价部件15。控制部件11也依据在匹配部件14中获得的声分数和语言分数产生字连接信息,这些分数是同图1所示匹配部件4执行的匹配处理相同的匹配处理结果,并通过该字连接信息修正字连接信息存储部件16的存储内容。控制部件11进一步根据再评价部件15的输出来校正字连接信息存储部件16的存储内容。另外,控制部件11根据字连接信息存储部件16中存储的字连接信息确定并输出语音识别的最终结果。
例如,特征量存储部件12存储由控制部件11馈送的特征量序列,直到获得用户语音识别的结果为止。控制部件11把获得特征提取部件3输出的特征量的时间(此后如果必要称之为提取时间)(此时语音区的起始时间设置为基准值(例如零))连同特征量一起馈送到特征量存储部件12。特征量存储部件12将特征量连同提取时间存储起来。如果必要的话,初级字选择部件13、匹配部件14和再评价部件15可参考这些存储在特征量存储部件12中的特征量和提取时间。
应匹配部件14的要求,初级字选择部件13利用存储在特征量存储部件12中的特征量,如果必要还要通过参照字连接信息存储部件16、声模式数据库17A、字典数据库18A以及语法数据库19A,为选择一个或多个字执行初级字选择处理,其中这些字是匹配部件14进行匹配处理的字。
在控制部件11的控制下,匹配部件14利用存储在特征量存储部件12中的特征量,如果必要还要通过参照字连接信息存储部件6、声模式数据库17B、字典数据库18B以及语法数据库19B,为在初级字选择部件13中通过初级字选择处理得到的字实施匹配处理,并将匹配处理结果馈送到控制部件11。
在控制部件11的控制下,再评价部件15利用存储在特征量存储部件12中的特征量,如果必要还要通过参照声模式数据库17C、字典数据库18C以及语法数据库19C,再评价存储在字连接信息存储部件16中的字连接信息,并将再评价结果馈送到控制部件11。
字连接信息存储部件16存储由控制部件11馈送的字连接信息,直至得到用户的语音识别结果。
字连接信息表示字间的连接(链接或连结)关系,这些字构成作为语音识别最终候选结果的字串,字连接信息包括每个字的声分数和语音分数,并包括对应于每个字的发音的起始时间和终止时间。
图5利用图形结构表示存储在字连接信息存储部件16中的字连接信息。
在图5所示的实施例中,表示字连接信息的图形结构由表示字的弧线(在图5中用线段连接标记0表示的部分)和表示字间边界的节点(在图5中用标记0表示的部分)构成。
节点具有时间信息,它表示对应于该节点的特征量的提取时间。如上所述,提取时间表示获得由特征提取部件3输出的特征量的时间,其中语音区的起始时间设置为零。因此在图5中,语音区的起始时间,即与第一个字的起始端相对应的节点Node1的时间信息是零。节点可以是弧线的起始端和终止端。用作起始端的节点(起始端节点)具有的时间信息和用作终止端的节点(终止端节点)具有的时间信息分别是对应于该节点的字发音的起始时间和终止时间。
在图5中,时间从左向右变化。因此,在弧线左边和右边设置的节点中,左手边节点作为起始端节点,右手边节点作为终止端节点。
弧线具有与该弧线相对应的字的声分数和语音分数。弧线通过将终止节点设定成起始节点而顺序地连接,以便形成作为语音识别候选结果的字串。
更具体地说,控制部件11首先将对应于可能作为语音识别结果的字的弧线连接到表示语音区开始的节点Node1上。在图5所示的实施例中,将对应于“kyou”的弧线Arc1、对应于“ii”的弧线Arc6以及对应于“tenki”的弧线Arc11连接到节点Node1上。根据匹配部件14获得的声分数和语言分数确定这些字是否可能作为语音识别的结果。
然后,以相同方式将对应于可能字的弧线连接到作为对应于“kyo”的弧线Arc1的终止端的节点Node2、作为对应于“ii”的弧线Arc6的终止端的节点Node7、以及作为对应于“tenki”的弧线Arc11的终止端的节点Node12上。
按照上述方式连接弧线,从左向右形成由弧线和节点构成的并以语音区开始作为起始端的一个或多个通道。例如,当所有通道到达语音区的终端(图5所示实施例中的时间T)时,控制部件11积累声分数和语言分数,获得最终分数,该声分数和语言分数是从语音区开始到语音区末端构成每个通道的弧线都具有的。将对应于构成具有最高最终分数通道的弧线的字序列确定为语音识别的结果,并将其输出。
具体地说,在图5中,例如,当获得通道的最高最终分数时,将字序列“kyou”、“wa”、“ii”、“tenki”和“desune”作为语音识别的结果输出,其中通道是由节点Node1,对应于“kyou”的弧线Arc1,节点Node2,对应于“wa”的弧线Arc2,节点Node3,对应于“ii”的弧线Arc3,节点Node4,对应于“tenki”的弧线Arc4,节点Node5、以及对应于“desune”的弧线Arc5,节点Node6构成在上面的情况中,弧线总是与语音区内设置的节点相连,以形成从语音区开始向语音区末端延伸的通道。在形成这种通道的过程中可能是这样的当由分数明确了已形成的通道为该通道不适合作为语音识别结果时,就停止形成通道(不再连接弧线)。
根据上面通道的形成规则,一个弧线终止端作为下面将连接的一个或多个弧线的起始端节点,通道基本上形成为分支并向外发散。存在一种例外的情况,其中一个弧线的终止端与另一个弧线的终止端匹配,即一个弧线的终止端节点和另一个弧线的终止端共同作为同一节点。
当将双字母组作为语法规则时,如果从不同节点延伸的两条弧线对应于相同的字,并使用了字发音的相同终止时间,则两条弧线的终止端匹配。
在图5中,从节点Node7延伸的并作为起始端的弧线Arc7和从节点Node13延伸的并作为起始端的弧线Arc13都对应于“tenki”,并使用了相同的发音终止时间,则其终止节点共同作为同一节点Node8。
节点不总是共用也是可能的。在有效利用存储容量的着眼点中,两个终止节点最好是可以匹配的。
在图5中,将双字母组用作语法规则。甚至当使用其它规则(例如三字母组)时,也可能使用共用节点。
如果需要,初级字选择部件13、匹配部件14以及再评价部件15都能参照字连接信息存储部件16中存储的字连接信息。
再回到图4,如前所述,声模式数据库17A、17B和17C基本上存储例如图1所示的声模式数据库5中存储的那些声模式。
声模式数据库17B存储高精度的声模式,将提供比声模式数据库17A存储的声模式更高精度的处理。声模式数据库17C存储高精度的声模式,将提供比声模式数据库17B的声模式更高精度的处理。更准确地说,例如,当声模式数据库17A存储不依赖于每个音素和音节内容的单模型的声模式时,声模式数据库17B存储依赖延续字内容的声模式(即纵横组字模式)以及不依赖于内容的声模式。在该情况下,例如,声模式数据库17C存储不依赖于每个音素和音节内容和纵横组字的声模式之外的依赖于字内内容的声模式。
字典数据库18A、18B和18C基本上存储例如上述图1所示字典数据库6中所存储的字典。
具体地说,在字典数据库18A到18C的字典中存储了同一套字。字典数据库18B的字典中存储了高精度的音素信息,提供比字典数据库18A的字典中存储的音素信息更精确的处理。字典数据库18C的字典中存储了高精度的音素信息,提供比字典数据库18B的字典中存储的音素信息更精确的处理。更准确地说,例如,当字典数据库18A的字典中为每个字仅存储一条音素信息(读音)时,在字典数据库18B的字典中为每个字存储多条音素信息。例如,在该情况下,在字典数据库18C的字典中为每个字存储更多条音素信息。
具体地说,例如,对于字“ohayou”,在字典数据库18A的字典中存储一条音素信息“ohayou”,而在字典数据库18B的字典中存储多条音素信息“ohayoo”和“ohayo”以及“ohayou”,并在字典数据库18C的字典中存储除“ohayou”“ohayoo”和“ohayo”以外的音素信息“hayou”和“hayoo”。
语法数据库19A、19B和19C基本上存储例如上述图1所示语法数据库7中所存储的语法数据。
语法数据库19B存储了高精度的语法规则,提供比语法数据库19A中存储的语法规则更精确的处理。语法数据库19C存储了高精度的语法规则,提供比语法数据库19B中存储的语法规则更精确的处理。更准确地说,例如,当语法数据库19A存储基于单字母组(字的出现概率)的语法规则时,例如,语法数据库19B存储双字母组(字的出现概率,并考虑到与此前迅速处理的字的关系)。在该情况下,例如,语法数据库19C存储基于三字母组的语法规则(字的出现概率,并考虑到与此前迅速处理的字以及前方多于一个处理的字的关系)和上下文无关的语法。
如上所述,声模式数据库17A为每个音素和音节存储单模型的声模式,声模式数据库17B为每个音素和音节存储多模型的声模式,而声模式数据库17C为每个音素和音节存储更多模型的声模式。字典数据库18A为每个字存储一条音素信息,字典数据库18B为每个字存储多条音素信息,而字典数据库18C为每个字存储更多条音素信息。语法数据库19A存储简单语法规则,语法数据库19B存储高精度的语法规则,而语法数据库19C存储更高精度的语法规则。
参考声模式数据库17A、字典数据库18A和语法数据库19A的初级字选择部件13迅速为许多字获得声分数和语言分数,尽管其精度不高。参照声模式数据库17B、字典数据库18B和语法数据库19B的匹配部件14迅速为一定数量的字获得声分数和语言分数,并具有高精度。参照声模式数据库17C、字典数据库18C和语法数据库19C的再评价部件15迅速为几个字获得声分数和语言分数,并具有较高精度。
在上面的描述中,声模式数据库17A到17C中存储的声模式的精度是不同的。声模式数据库17A到17C能存储相同的声模式。在该情况下,可将声模式数据库17A到17C合并为一个声模式数据库。同样地,字典数据库18A到18C的字典可存储相同内容,而语法数据库19A到19C可存储相同语法规则。
参照图6所示的流程图,将对由图4所示语音识别装置执行的语音识别处理进行下面的描述。
当用户发声时,所发出的语音通过传声器1和AD转换器2转换成数字语音,并被馈送到特征量提取部件3。特征量提取部件3从帧单元中馈送的语音数据中顺序地提取语音特征量,并将它馈送到控制部件11。
控制部件11通过某些技术识别语音区,将由特征提取部件3馈送的特征量序列与语音区中每个特征量的提取时间联系起来,并将它们馈送到特征量存储部件12,并将其存储于此。
在语音区开始后,在步骤S1中控制部件11也产生表示语音区起始的节点(此后如果必要称之为初始节点),然后将其馈送到字连接信息存储部件16并将其存储于此。换句话说,在步骤S1中,控制部件11在字连接信息存储部件16中存储图5所示的节点Node1。
处理进行到步骤S2。控制部件11通过参考在字连接信息存储部件16中存储的字连接信息确定中间节点是否存在。
如上所述,在图5所示的字连接信息中,这些弧被连接于终止端节点,形成从语音区起始端到末端延伸的通道。在步骤S2中,从终止端节点中搜索还未连接弧线并且也未到达语音区的末端的成为中间节点的节点,(例如图5中的节点Node8、Node10和Node11),并确定这样的中间节点是否存在。
如上所述,通过一些技术识别语音区,并通过参照终止端节点具有的时间信息识别与终止端节点相对应的时间。因此,通过将语音区的终止时间与终止端节点具有的时间信息作比较,确定还未连接弧线的终止端节点是否未到达语音区的末端。
在当步骤S2中确定存在中间节点时,处理进行到步骤S3。控制部件11从字连接信息所含的中间节点中选择一个节点作为节点(此后如果必要称之为目标节点),以便确定用作与该节点连接的弧线的字。
具体地说,当字连接信息中仅包含一个中间节点时,控制部件11选择该中间节点作为目标节点。当字连接信息中包含多个中间节点时,控制部件11就选择多个中间节点中的一个作为目标节点。更准确地说,控制部件11参照多个中间节点中每一个所具有的时间信息,选择具有代表最先时间(最接近于语音区的起始端)的时间信息的节点作为目标节点,或具有代表最新时间(最接近于语音区的末端)的时间信息的节点作为目标节点。可以选择的是,例如,控制部件11积累声分数和语言分数,该声分数和语言分数是构成从初始节点延伸到多个中间节点中的每一个节点的通道的弧线所具有的,控制部件11选择设置在通道终止端的中间节点,该通道终止端具有最大积累值(此后如果必要称之为局部积累值)或最小积累值。
然后,控制部件11为执行匹配处理而向匹配部件14和再评价部件15输出指令(此后如果必要称之为匹配处理指令),其中,执行匹配处理时目标节点所具有的时间信息用作起始时间。
当再评价部件15接到来自控制部件11的匹配处理指令时,处理进行到步骤S4。通过参照字连接信息存储部件16,再评价部件15识别构成从初始节点延伸到目标节点的通道(此后称之为局部通道)的弧线所表示的字串(此后称之为局部字串),以便再评价局部字串。如下面所述,局部字串是作为语音识别的候选结果字串的中间结果,该中间结果是通过匹配部件14对初级字选择部件13所初级选择的字进行匹配处理而获得的。再评价部件15再次评价该中间结果。
具体地说,再评价部件15从特征量存储部件12读取对应于局部字串的特征量序列,以便为局部字串再计算声分数和语言分数。更准确地说,例如,再评价部件15从特征量存储部件12读取有关一定时间的特征量的序列(特征量序列),该时间是从由初始节点、局部通道的起始节点具有的时间信息所表示的时间到由目标节点具有的时间信息所表示的时间。另外,再评价部件15参照声模式数据库17C、字典数据库18C和语法数据库19C,并利用从特征量存储部件12读取的特征量序列,为局部字串再计算语言分数和声分数。执行该再计算而不会固定构成局部字串的字的字边界。因此,依据动态程序法,再评价部件15通过为局部字串再计算语言分数和声分数而确定构成局部字串的字的字边界。
当再评价部件15获得局部字串的每个字的语言分数、声分数和字边界时,再评价部件15使用新的语言分数和声分数来校正语言分数和声分数,该语言分数和声分数是字连接信息存储部件16中存储的、构成对应于局部字串的局部通道的弧线所具有的,再评价部件15还利用新字边界来校正时间信息,该时间信息是字连接信息存储部件16中存储的、构成对应于局部字串的局部通道的节点所具有的。在该实施例中,再评价部件15通过控制部件11来校正字连接信息。
例如,当将图7所示的节点Node5设定为目标节点,如果一个字串“ii”和“tenki”由节点Node3、对应于字“ii”的弧线Arc3、节点Node4、对应于字“tenki”的弧线Arc4和Node5构成,并且如果在从初始节点Node1到目标节点Node5延伸的局部通道内检测到该字串“ii”和“tenki”,则再评价部件15就通过参照声模式数据库17C和字典数据库18C,并利用从对应于节点Node3的时间到对应于节点Node5的时间的特征量序列,产生字“ii”和“tenki”的字模式,并计算声分数。通过参照语法数据库19C,再评价部件1 5也为字“ii”和“tenki”计算语言分数。更准确地说,例如,当语法数据库19C存储了基于三字母组的语法规则时,再评价部件15为字“ii”使用在该字之前迅速处理的字“wa”和该字前方隔一个处理的字“kyou”,以便以该顺序计算字链“kyou”、“wa”和“ii”的概率,再评价部件15还根据所得到的概率计算语言分数。再评价部件15为字“tenki”使用在该字之前迅速处理的字“ii”和该字前方隔一个处理的字“wa”,以便以该顺序计算字链“wa”、“ii”和“tenki”的概率,再评价部件15还根据所得到的概率计算语言分数。
再评价部件15积累上述获得的声分数和语言分数,并确定字“ii”和字“tenki”之间的字边界,以便得到最大积累值。再评价部件15利用所获得的声分数和语言分数来校正与字“ii”对应的弧线Arc3和与字“tenki”对应的弧线Arc4所具有的声分数和语言分数,再评价部件15还利用所确定的字边界来校正与字“ii”和“tenki”之间的边界相对应的节点Node4所具有的时间信息。
因此,再评价部件15通过动态程序法确定构成局部字串的字的字边界,并顺序地校正字连接信息存储部件16中存储的字连接信息。由于初级字选择部件13和匹配部件14通过参照经校正的字连接信息执行处理过程,因此处理的精度和可靠性得以提高。
另外,由于再评价部件15校正了字连接信息中所包含的字边界,因此字连接信息中要存储的候选字边界数量可大大减少,以便有效利用存储容量。
换句话说,按照惯例,如前面参照图2所述,需要将三个时间t1-1、t1和t1-1保存为字“kyou”和“wa”之间的候选字边界。如果作为正确字边界的时间t1被错误地保存,此后的匹配处理就会受到不利影响。相反,当再评价部件15顺序地校正了字边界,例如,即使仅保存了作为错误字边界的时间t1-1,再评价部件15也会将作为错误字边界的时间t1-1变为正确字边界的时间t1。由此,此后的匹配处理就不会受到不利影响。
再评价部件15利用顾及到在目标字之前和之后处理的字的纵横组字模式,为构成局部字串的字(除了第一个和最后一个字)计算声分数。在计算语言分数时也要顾及到在目标字之前和之后处理的字。因此,使高精度处理成为可能。进一步说,由于再评价部件顺序地执行处理,因此就不会发生前述的在两次解码过程中产生大量延迟。
如上所述,当再评价部件15校正了字连接信息存储部件16中存储的字连接信息时,再评价部件15就通过控制部件11向匹配部件14报告校正完成。
如上所述,在匹配部件14收到来自控制部件11的匹配处理指令后,当再评价部件15通过控制部件11向匹配部件14报告已经校正了字连接信息时,匹配部件14就向初级字选择部件13馈送目标节点和该目标节点所具有的时间信息,并要求实施初级字选择处理,处理进行到步骤S5。
在步骤S5中,当初级字选择部件13接收到来自匹配部件14的初级字选择处理请求时,初级字选择部件13为了选择用作连接目标节点的弧线的候选字而对字典数据库18A字典中存储的字实施初级字选择处理。
更准确地说,初级字选择部件13从目标节点所具有的时间信息中识别用于计算语言分数和声分数的特征量序列的起始时间,并从特征量存储部件12读取从该起始时间开始的所需特征量序列。初级字选择部件13还通过结合声模式数据库17A中存储的声模式,为字典数据库18A的字典中存储的每个字产生一个字模式,它还依据字模式,通过利用从特征量存储部件12读取的特征量序列计算声分数。
初级字选择部件13依据语法数据库19A中存储的语法规则,计算对应于每个字模式的字的语言分数。具体地说,例如,初级字选择部件13依据单字母组获得每个字的语言分数。
这样做是可能的,即初级字选择部件13利用依据目标字之前迅速处理的字(该字对应于具有作为终端(末端)的目标节点的弧线))的纵横组字模式,以便通过参照字连接信息计算每个字的声分数。
这样做也是可能的,即初级字选择部件13依据表示目标字和此前处理的字的链接概率的双字母组,通过参照字连接信息来计算每个字的语言分数。
如上所述,当初级字选择部件13获得每个字的声分数和语言分数时,初级字选择部件13就获得了作为声分数和语言分数的整体评价的分数(此后如果必要称之为字分数),并将具有较高字分数的L字作为要实施匹配处理的字馈送到匹配部件14。
初级字选择部件13依据成为每个字语言分数和声分数的整体评价的字分数选择一个字。例如,初级字选择部件13只依据声分数或只依据语言分数来选择字也是可能的。
这样做也是可能的,即初级字选择部件13仅利用从特征量存储部件12读取的特征量序列的起始部分,并依据声模式数据库17中存储的声模式获得相应字起始部分的几个音素,并选择字,其中,这些字的起始部分与所获得的音素匹配。
这样做更是可能的,即初级字选择部件13通过参照字连接信息识别在目标字之前迅速处理的字(该字对应于具有目标节点作为终止端节点的弧线)的语音部分,并选择可能紧跟所识别的语音部分之后的字作为语音的一部分。
初级字选择部件13可利用任何字选择方法。最终,字随机地得以选择。
当匹配部件14从初级字选择部件13接收到用于匹配处理的L字(此后称之为选定字)时,在步骤S6中匹配部件14对选定字实施匹配处理。
具体地说,匹配部件14从目标节点具有的时间信息中识别用于计算语言分数和声分数的特征量序列的起始时间,并从特征量存储部件12读取由起始时间开始的所需特征量序列。匹配部件14通过参照字典数据库18B识别由初级字选择部件13馈送的选定字的音素信息,并从声模式数据库17B读取与音素信息相应的声模式,再结合这些声模式形成字模式。
匹配部件14依据上述形成的字模式,通过利用从特征量存储部件12读取的特征量序列,计算由初级字选择部件13馈送的选定字的声分数。这样做是可能的,即匹配部件14依据纵横组字模式,通过参照字连接信息计算选定字的声分数。
匹配部件14还可通过参照语法数据库19B计算由初级字选择部件13馈送的选定字的语言分数。具体地说,例如,匹配部件14参照字连接信息,以便识别由初级字选择部件13馈送的选定字之前或此前隔一个字的迅速处理的字,并通过利用基于双字母组或三字母组的概率获得由初级字选择部件13馈送的选定字的语言分数。
如上所述,匹配部件14获得由初级字选择部件13馈送的所有L选定字的声分数和语言分数,处理进行到步骤S7。在步骤S7中,为每个选定字获得字分数,该字分数是该字的声分数和语言分数的整体评价,并依据所获得的字分数修正字连接信息存储部件16中存储的字连接信息。
换句话说,例如,在步骤S7中,匹配部件14获得选定字的字分数,并将该字分数与预定阈值比较,以便将选定字的范围缩小到用作连接目标节点的弧线的字。然后,匹配部件14将通过缩小范围得到的字连同其声分数、其语言分数和其终止时间馈送到控制部件11。
匹配部件14从用于计算声分数的特征量的提取时间中识别每个字的终止时间。当得到多个很可能作为字终止时间的提取时间时,将由字的每个终止时间、相应声分数和相应语言分数组成的多套信息馈送到控制部件11。
如上所述,当控制部件11从匹配部件14接收到每个字的声分数、语言分数和终止时间时,对于每个字,控制部件将字连接信息存储部件16中存储的字连接信息(图5)中的目标节点作为起始端,延伸出弧线,并将该弧线连接到对应于终止时间的终止端节点上。控制部件11还为每条弧线分配相应字、相应声分数和相应语言分数,并为每条弧线的终止端节点给出相应的终止时间作为时间信息。然后,处理过程返回到步骤S2,再重复进行相同的处理。
如上所述,依据匹配部件14中执行的处理结果,顺序地修正字连接信息,进一步说,由再评价部件15顺序地修正。因此,这使初级字选择部件13和匹配部件14总是为其处理使用字连接信息成为可能。
如上所述,当修正字连接信息时,如果可能,控制部件11就将两个终止端节点合并成一个。
当步骤S2中确定没有中间节点时,处理进行到步骤S8。控制部件11参照字连接信息,为字连接信息中形成的每条通道积累字分数,以便获得最终分数,并输出与构成该通道的弧线相相应的字串作为用户发音的语音识别结果,其中该通道具有最高的最终分数,然后结束处理。
如上所述,初级字选择部件13选择一个或多个具有后随字的字,该具有后随字的字是从作为语音识别候选结果的字串中得到的;匹配部件14为选定字计算分数,并根据该分数形成作为语音识别的候选结果的字串;再评价部件15校正作为语音识别候选结果的字串中的字之间的字连接关系;控制部件11依据经校正的字连接关系确定作为语音识别结果的字串。由此就完成了高精度的语音识别,同时抑制了处理所需资源的增加。
由于再评价部件15校正了字连接信息中的字边界,因此目标节点所具有的时间信息就高精度地代表了字边界。初级字选择部件13和匹配部件14通过利用从由高精度时间信息表示的时间开始的特征量序列执行处理。因此,即使当严格制定了初级字选择部件13中用于选择字的确定标准和匹配部件14中为缩小选定字范围而确定的标准时,将作为语音识别结果的准确字排除在外的可能性也是很低的。
当严格制定了初级字选择部件13中用于选择字的确定标准时,就减少了匹配部件14用于实施匹配处理的字数。结果,匹配部件14中处理所需的计算量和存储容量也被减少。
当初级字选择部件13未选择到从某一时间开始的字(该字是构成作为语音识别正确结果的字串中的一个字)时,此时,如果在从某一时间漂移的错误时间内选择到该字,则再评价部件15就会校正该错误时间,然后得到了作为语音识别正确结果的字串。换句话说,即使初级字选择部件13未能选择到构成作为语音识别正确结果的字串中的一个字,再评价部件15就校正该失败的选择,从而获得作为语音识别正确结果的字串。
因此,再评价部件15除校正由匹配部件14执行的终止时间的错误检测外,还校正由初级字选择部件13执行的错误字选择。
上述一系列处理能通过硬件或软件得以实现。当通过软件完成该系列的处理时,将构成软件的程序安装到通用计算机和类似装置内。
图8表示依据该实施例的计算机示例结构,其中计算机安装了上述用于执行系列处理的程序。
可提前将该程序记录到计算机内设置的作为记录介质的硬盘或只读存储器(ROM)103上。
可选择的是,可将程序临时或永久在记录到可更换的记录介质111上,例如软盘、光盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘或半导体存储器。这些可更换的记录介质111可制备成所谓的软件包。
可将程序从上述可更换记录介质111安装到计算机上。可选择地是,可通过用于数字卫星广播的人造卫星用无线电将程序从下载站传输到计算机上,或通过例如为局域网(LAN)或Internet网络用线路传输到计算机上;该程序由计算机的通信部分108接收,并被安装到计算机内设置的硬盘105中。
计算机包括一个中央处理器(CPU)102。CPU102通过总线101与输入和输出接口110连接。当用户操作由键盘、鼠标和传声器构成的输入部件107并通过输入和输出接口110输入命令时,CPU102依照该命令执行ROM103中存储的程序。可选择的是,CPU102将硬盘105中存储的程序存入随机存取存储器(RAM)104;程序通过卫星或网络传输,由通信部分108接收,并被安装到硬盘105上;或程序可从设置到驱动器109的可更换记录介质111读取,并被安装到硬盘105中;并执行该程序。CPU执行在上述流程图中表示的处理过程,或由上面的方框图所示的结构执行该处理。然后,CPU102通过例如输入和输出接口110,从由液晶显示器(LCD)和话筒构成的输出部件106输出所需的处理结果;从通信部分108馈送处理结果;或在硬盘105内记录处理结果。
在该说明书中,以流程图所述顺序的时序编排方式描述使计算机执行不同类型处理的程序的步骤不是必需执行的,它还包括并行或独立执行的处理(例如并行处理或基于对象的处理)。
可通过一台计算机执行或通过多台计算机分布式处理执行程序。也可将程序传输到远程计算机执行。
如上所述,由于通过初级字选择部件13预先选择了匹配部件14将计算分数的字,因此匹配部件14能为每个字独立地计算分数,而不会形成树形结构网,在该树形结构网中会共用部分声分数。在该情况下,匹配部件14为每个字计算分数所用的存储容量被抑制到很低的水平。另外,在该情况下,由于在开始字分数计算时为每个字作了评价,因此就防止了无用的计算,否则会因为没有评价字而执行无用的计算。换句话说,在为字计算声分数之前,就计算语言分数,并依据该语言分数执行分支切割,由此防止了无用的声分数计算。
初级字选择部件13、匹配部件14和再评价部件15能依据时间独立地为每个字计算分数。在该情况下,能够共用计算分数所需的同一存储器,以便将所需的存储容量抑制到很低水平。
图4所示的语音识别装置能用于语音接口系统,该系统可用于通过语音搜索数据库的情况、通过语音操作多种类型元件的情况、以及通过语音向每个元件输入数据的情况。更准确地说,例如,语音识别装置可用于通过语音响应地名查询而显示地图信息的数据库搜寻装置、通过语音响应指令来分选材料的工业机器人、代表键盘输入而响应语音输入产生原文本的口授(命令)系统、以及机器人中与用户对话的接口系统。
根据本发明的语音识别装置和语音识别方法以及记录介质,可从要进行语音识别的一组字中选择一个或多个字,将其作为具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;为每个选定字计算分数;以及形成作为语音识别候选结果的字串。校正作为语音识别候选结果的字串中的字之间的连接关系,并依据经校正的连接关系确定作为语音识别结果的字串。由此,就完成了高精度的语音识别,同时抑制了进行处理所需资源的增加。
权利要求
1.一种语音识别装置,它用于计算表示对输入语音实施语音识别的结果的可能性的分数,并用于依据该分数识别语音,它包括选择装置,用于从要实施语音识别的一组字中选择一个或多个具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;形成装置,用于为选择装置所选择的字计算分数,并依据该分数形成作为语音识别候选结果的字串;存储装置,用于存储作为语音识别候选结果的字串中的字之间的字连接关系;校正装置,用于校正字连接关系;以及确定装置,用于根据经校正的字连接关系确定作为语音识别结果的字串。
2.根据权利要求1所述的语音识别装置,其中存储装置通过利用由节点和弧线表示的图形结构来储存连接关系。
3.根据权利要求1所述的语音识别装置,其中存储装置存储共用为一个节点的节点。
4.根据权利要求1所述的语音识别装置,其中存储装置存储每个字的声分数和语言分数、对应于每个字发音的起始时间和终止时间、以及字之间的连接关系。
5.根据权利要求1所述的语音识别装置,其中,形成装置通过将正计算分数的字连接到已经计算了分数的字上,形成作为语音识别候选结果的字串,以及每当形成装置连接一个字,校正装置就顺序地校正连接关系。
6.根据权利要求1所述的语音识别装置,其中选择装置和形成装置中的一个参照连接关系执行处理。
7.根据权利要求1所述的语音识别装置,其中选择装置、形成装置和校正装置中的一个为一字计算声或语言分数,并依据该声或语言分数执行处理。
8.根据权利要求7所述的语音识别装置,其中选择装置、形成装置和校正装置中的一个独立地为每个字计算声或语言分数。
9.根据权利要求7所述的语音识别装置,其中选择装置、形成装置和校正装置中的一个依照时间独立地为每个字计算声或语言分数。
10.根据权利要求7所述的语音识别装置,其中校正装置通过参照顾及到在正计算分数的字之前或之后处理的字的连接关系,为该字计算声或语言分数。
11.一种语音识别方法,它用于计算表示对输入语音实施语音识别的结果的可能性的分数,并用于依据该分数识别语音,它包括选择步骤,从要进行语音识别的一组字中选择一个或多个具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;形成步骤,为选择步骤中选择的字计算分数,并依据该分数形成作为语音识别候选结果的字串;校正步骤,校正作为语音识别候选结果的字串中字之间的字连接关系,字连接关系存储在存储装置中;以及确定步骤,依据经校正的字连接关系确定作为语音识别结果的字串。
12.一种存储程序的存储介质,该程序使计算机执行语音识别处理,它用于计算表示对输入的语音实施语音识别的结果的可能性的分数,并能依据该分数识别语音,该程序包括选择步骤,从要实施语音识别的一组字中选择一个或多个具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;形成步骤,为选择步骤中选择的字计算分数,并依据该分数形成作为语音识别候选结果的字串;校正步骤,校正作为语音识别候选结果的字串中字之间的字连接关系,字连接关系存储在存储装置中;以及确定步骤,依据经校正的字连接关系确定作为语音识别结果的字串。
全文摘要
初级字选择部件选择一个或多个具有后随字的字,该具有后随字的字是在作为语音识别候选结果的字串中得到的;匹配部件为选定的字计算声或语音分数,并依据该分数形成作为语音识别候选结果的字串。控制部件产生作为语音识别候选结果的字串中的字之间的字连接关系,并将它们馈送到字连接信息存储部件,将它们存储在此。再评价部件校正字连接信息存储部件16中存储的字连接信息,以及控制部件依据经校正的字连接关系确定作为语音识别结果的字串。
文档编号G10L15/00GK1312543SQ0111688
公开日2001年9月12日 申请日期2001年2月28日 优先权日2000年2月28日
发明者南野活树, 浅野康治, 小川浩明, 赫尔穆特·勒克 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1