语音识别系统的制作方法

文档序号：2837709阅读：269来源：国知局

专利名称：语音识别系统的制作方法
技术领域：
本发明涉及语音识别系统，尤其涉及对噪声不敏感的扬声器自适应类型语音识别系统。
背景技术：
在相关技术中，例如，在图9中所示的系统作为扬声器自适应语音识别系统是众所周知的。
这个语音识别系统装备有未指定扬声器的预先准备的标准声音模型100中，并且通过利用从指定扬声器发出的输入语音产生的输入信号Sc的特征向量和标准声音模型100来准备扬声器自适应声音模型200，通过使系统适应指定扬声器的语音来进行语音识别。
当准备自适应声音模型200的时候，相应于指定文本(句子或者音节)Tx的标准向量Va从标准声音模型100提供到路径搜索部分4和扬声器适配部分5，并且实际上，通过由指定的扬声器发出指定文本Tx，输入输入信号Sc。
然后，在加性噪声减少部分1除去包括在输入信号Sc中的加性噪声之后，特征向量生成部分2生成表示输入信号Sc的特征量的特征向量序列Vcf。进一步的，倍增噪声除去部分3除去来自特征向量序列Vcf的倍增噪声，并且生成从中除去加性噪声和倍增噪声的特征向量序列Vc。特征向量序列Vc被提供给路径搜索部分4和扬声器适配部分5。
以这种方式，当将标准向量Va和实际发出的输入信号Sc的特征向量序列Vc提供给路径搜索部分4和扬声器适配部分5的时候，路径搜索部分4比较特征向量序列Vc和标准向量Va。然后，发现用于每个音节的特征向量序列Vc的出现概率，和从一个音节到另一个音节的状态迁移概率。此后，当扬声器适配部分5依据出现概率和状态迁移概率来补偿标准向量Va的时候，准备适应于指定扬声器特有的语音(输入信号)特征的扬声器自适应声音模型200。
然后，使扬声器自适应声音模型200适应由通过指定扬声器的发出的声音产生的输入信号。此后，当指定扬声器任意发声的时候，从发出的声音产生的输入信号的特征向量与扬声器自适应声音模型200的自适应向量进行对照，并且以使给予最高似真的扬声器自适应声音模型200生成识别结果的方式进行语音识别。
在这方面，在上述传统的适配器类型语音识别系统中，当准备自适应声音模型200的时候，加性噪声减少部分1利用频谱减法除去加性噪声，倍增噪声减少部分3利用CMN(倒谱方式规格化)方法除去倍增噪声，因此，准备了不受噪声影响的扬声器自适应声音模型200。
即，加性噪声减少部分1在找到输入信号Sc的频谱之后从输入信号Sc的频谱中除去加性噪声的频谱。倍增噪声减少部分3在找到输入信号Sc的倒谱的时间平均值之后从输入信号Sc的倒谱中减去时间平均值。
然而，同样在任何一个频谱减法和CMN方法中，很难只除去噪声。因为也有丢失了通过扬声器适配补偿的特有扬声器的发音的特征信息的情况，所以不能准备适当的扬声器自适应声音模型200。因此，存在降低语音识别率的问题。

发明内容
本发明的一个目的是提供对噪声不敏感的扬声器自适应类型语音识别系统，以便达到语音识别速率的增加。
为了实现上述目的，提供了语音识别系统，包括具有依据语音信息产生的标准向量的标准声音模型；用于从由与指定文本相对应的发出语音生成的输入信号中减少噪声以便生成第一特征向量的第一特征向量生成部分；用于从具有噪声的输入信号中生成第二特征向量的第二特征向量生成部分；和用于根据第一特征向量、第二特征向量和标准向量生成自适应向量并且准备适合于发出语音的扬声器自适应声音模型的准备部分。
依据本发明，准备部分比较第一特征向量和标准向量以便获得路径搜索结果；和准备部分依据路径搜索结果配位第二特征向量和标准向量以便生成自适应向量。
依据本发明，噪声包括加性噪声和倍增噪声。
依据本发明，第一特征向量生成部分包括用于从输入信号中降低加性噪声的加性噪声减少部分。
依据本发明，加性噪声减少部分将一变换应用到输入信号以便生成第一频谱并且从第一频谱中减去相应于加性噪声的加性噪声频谱。
依据本发明，第一特征向量生成部分包括用于将倒谱计算应用到加性噪声减少信号的倒谱计算器。
依据本发明，第一特征向量生成部分包括用于通过从第一特征向量中减去倍增噪声来减少倍增噪声的倍增噪声减少部分。
依据本发明，第一特征向量包括多个时间序列第一特征向量；和倍增噪声减少部分计算时间序列第一特征向量的时间平均值，用于估计倍增噪声。
依据本发明，第二特征向量生成部分至少对第二频谱应用倒谱计算以便生成第二特征向量。
依据这样的结构，在扬声器适配的情况下，第一特征向量生成部分生成除了围绕扬声器的外围环境的加性噪声或者诸如本语音识别系统自身的传输噪声这样的倍增噪声以外的第一特征向量。第二特征向量生成部分生成包括围绕扬声器的外围环境的加性噪声或者诸如本语音识别系统自身的传输噪声这样的倍增噪声的特征的第二特征向量。然后，准备部分通过依据不包括噪声的第一特征向量和包括噪声的第二特征向量补偿标准向量来生成自适应向量。因此，采用的向量生成适应扬声器语音的更新的扬声器自适应声音模型。
如上所述，依据不包括噪声的特征向量和包括噪声的特征向量，可以补偿在标准声音模型中的标准向量。因此，能够准备与实际发音环境相一致的扬声器自适应声音模型，并且能够实现对噪声敏感和具有较高语音识别率的语音识别系统。
进一步的，第二特征向量生成部分生成特征向量而不用除去加性噪声或者倍增噪声，并且特征向量用于扬声器适配。因此，不用除去初始语音的特征信息，并且能够生成适当的扬声器自适应声音模型。

图1是表示本发明实施例的语音识别系统结构的方框图；图2是典型地表示标准声音模型结构的表格；图3是表示在扬声器适配的时候在特征向量生成部分12中生成的特征向量序列[si，M]的表格；图4是表示在扬声器适配的时候从倍增噪声减少部分9输出的特征向量序列[ci，M]的表格；图5是表示依据帧数和状态数的特征向量序列[ci，M]和标准向量[a0，M]的对应关系图表；图6是表示特征向量序列[ci，M]、标准向量[a0，M]、帧数和状态数的关系表格；图7是表示由扬声器适配生成的平均特征向量和标准向量的关系的图表；图8是表示在更新之后扬声器自适应声音模型的内容表格；图9是表示在相关技术中扬声器适配类型语音识别系统的结构方框图。
具体实施例方式
参考附图，下面将结合附图描述本发明。在这方面，图1是表示依据本发明的实施例的语音识别系统结构方框图。
在图1中，语音识别系统包括通过利用隐藏马尔可夫模型(HMM)预先准备的未指定的扬声器的标准声音模型(在下文，称为[标准语音HMM])300和由扬声器适配准备的扬声器适配声音模型(在下文，称为[自适应语音HMM])400。
在这方面，为了容易地理解本发明的实施例，标准语音HMM300的状态数定义为1。此外，标准语音HMM300具有用于每个音节的出现概率分布，并且出现概率分布的平均向量将成为标准向量。
因此，如图2典型所示，标准语音HMM300具有用于每个音节的M维标准向量。即，当准备标准语音HMM300的时候，例如，为每个预定时间构造在无声环境下从通过一个或者多个扬声器(未指定的扬声器)发出的语音中生成的语音数据。构成的语音数据进行连续的倒谱操作，以便在倒谱域中生成用于每个音节的多帧的特征向量序列。获得用于多帧的特征向量序列的平均值准备了由每个音节的标准向量组成的标准语音HMM300。
在这里，标准向量的变量n表示识别每个音节的状态数，变量M表示向量的维数。例如，相应于状态数n=1的日语音节[A]被表示为M维标准向量，相应于状态数n=2的日语音节[I]被表示为M维标准向量。相同的规则对应地应用如下，余下的音节也被表示为以状态数n区别的M维标准向量。
在将在后面描述的扬声器适配的时候，将预先确定的句子或者音节的指定正丈Tx提供给标准语音HMM300，相应于构成指定正文Tx的音节的标准向量依照字节的排列顺序被提供给路径搜索部分10和扬声器适配部分11。
例如，当提供日语[KONNICHIWA]的指定正文Tx的时候，相应于表示[KO]、[N]、[NI]、[CHI]、[WA]的各自状态数n=10，46，22，17，44的标准向量[a10，1，a10，2，a10，3，....a10，M]、[a46，1，a46，2，a46，3，....a46，M]、[a22，1，a22，2，a22，3，....a22，M]、[a17，1，a17，2，a17，3，....a17，M]和[a44，1，a44，2，a44，3，....a44，M]按顺序被提供给路径搜索部分10和扬声器适配部分11。
此外，本发明的语音识别系统装配有组帧部分6，加性噪声减少部分7，特征向量生成部分8，倍增噪声减少部分9，和特征向量生成部分12。
当指定扬声器实际上在扬声器适配的时候发出指定正文Tx的时候，组帧部分6将从发出的语音中生成的输入信号Sc分成用于每个预定时间(例如，10-20毫秒)的帧，并且将它输出到加性噪声减少部分7、13和特征向量生成部分12。
加性噪声减少部分7对被分成每个帧的每个构成的输入信号Scf连续进行傅立叶变换以便生成用于每帧的频谱。此外，在频谱域中除去包括在每个频谱中的加性噪声以便输出频谱。
特征向量生成部分8在不具有用于每帧的加性噪声的频谱上执行倒谱操作以便在倒谱域中生成特征向量序列[ci，M]’。在这方面，特征向量序列[ci，M]’的变量i表示顺序(号)，变量M表示维数。
倍增噪声减少部分9通过利用CMN方法从特征向量序列[ci，M]’中除去倍增噪声。即，由特征向量生成部分8为每帧i获得的多个向量特征序列[ci，M]’是用于每维的平均时间。当从每个特征向量[ci，M]’中减去由此获得的M维时间平均值[c^M]以便生成从中除去倍增噪声的特征向量序列[ci，M]的时候，由此生成的特征向量序列[ci，M]被提供给路径搜索部分10。
当为从组帧部分6输出的帧分开的每个成帧输入信号Scf连续进行傅立叶变换的时候，特征向量生成部分12生成帧频谱。此外，当每个频谱为每个帧执行倒谱操作的时候，在倒谱域中生成特征向量序列[si，M]，并且提供到扬声器适配部分11。在这方面，特征向量序列[si，M]的变量i表示用于每个帧的顺序，变量M表示维数。
如此，将指定正文Tx、标准向量[an，M]和特征向量[ci，M]提供给路径搜索部分10。将指定正文Tx、标准向量[an，M]和特征向量[si，M]提供给扬声器适配部分11。
路径搜索部分10比较标准向量[an，M]和特征向量序列[ci，M]，并且判断指定正文Tx的哪个音节对应每帧的特征向量序列[ci，M]。将路径搜索结果Dv提供给扬声器适配部分11。
扬声器适配部分11依据路径搜索结果Dv将来自特征向量生成部分12的特征向量序列[si，M]分成每个音节。然后，获得用于每维的关于每个划分音节的特征向量序列[si，M]的平均值。最后，生成用于每个音节的平均特征向量[s^n，M]。
此外，扬声器适配部分11找到在相应于指定正文Tx的每个音节的标准向量[an，M]和平均特征向量[s^n，M]之间的差分向量[dn，M]。然后，对这些差分向量[dn，M]进行平均操作致使发现表示指定扬声器的特征的M维运动向量[mM]。此外，通过将运动向量[mM]增加到来自标准语音HMM300的所有语音的标准向量[an，M]上来生成所有音节的自适应向量[xn，M]。利用这些自适应向量[xn，M]更新自适应语音HMM300。
接下来，结合图2-图8，将详细描述路径搜索部分10和扬声器适配部分11的功能。
在这方面，日语[KONNICHIWA]的指定正文Tx用作典型例子。
此外，定义从扬声器发出的日语[KONNICHIWA]的输入信号Sc被组帧部分6分成30帧并且被输入。
如图2所示，标准语音HMM300准备作为相应于多个音节的每一个的未指定扬声器的标准向量[an，M]。此外，通过状态数n将每个音节分类。
此外，如图2所示，在扬声器适配以前将自适应语音HMM400设定为与标准语音HMM300的标准向量[an，M]相同的内容(默认设置)。
在扬声器适配处理的开始，将日语[KONNICHIWA]的指定正文Tx提供到标准语音HMM300。然后，将相应于表示音节[KO]的状态数n＝10的标准向量[a10，1，a10，2，a10，3，....a10，M]，相应于表示音节[N]的状态数n＝46的标准向量[a46，1，a46，2，a46，3，....a46，M]，相应于表示音节[NI]的状态数n＝22的标准向量[a22，1，a22，2，a22，3，....a22，M]，相应于表示音节[CHI]的状态数n＝17的标准向量[a17，1，a17，2，a17，3，....a17，M]，相应于表示音节[WA]的状态数n＝44的标准向量[944，1，a44，2，a44，3，....a44，M]提供给路径搜索部分10和扬声器适配部分11。
接下来，当扬声器发出[KONNICHIWA]的时候，组帧部分6依据时间的流逝将输入信号Sc分成30帧，并且输出被划分的输入信号Sc。然后，特征向量生成部分12依据每个帧的顺序生成成帧的输入信号Scf的特征向量[s1，1，s1，2，s1，3，....s1，M]-[s30，1，s30，2，s30，3，....s30，M]，并且提供给扬声器适配部分11。
即，如图3典型所示，特征向量生成部分12生成i＝1-30的30帧特征向量序列[si，M]＝[s1，1，s1，2，s1，3，....s1，M]-[s30，1，s30，2，s30，3，....s30，M]，并且提供给扬声器适配部分11。
另一方面，处理系统包括加性噪声减少部分7，特征向量生成部分8，和倍增噪声减少部分9。在处理系统中，依据从组帧部分6提供的每个帧的成帧输入信号Scf来生成i＝1-30的30帧特征向量序列[ci，M]＝[c1，1，c1，2，c1，3，....c1，M]-[c30，1，c30，2，c30，3，....c30，M]，并且提供给路径搜索部分10。即，如图4典型所示，通过倍增噪声减少部分9将用于30帧的特征向量序列[ci，M]＝[c1，1，c1，2，c1，3，....c1，M]-[c30，1，c30，2，c30，3，....c30，M]提供给路径搜索部分10。
路径搜索部分10利用维特比算法或者向前向后算法的方法比较用于30帧的特征向量序列[ci，M]和相应于指定正文Tx的每个音节的标准向量[an，M]，并且找到在用于每个帧的每个时刻哪个音节对应于特征向量序列[ci，M]。
由此，如图5所示，将30帧的每个帧数i配位(coordinate)到表示[KONNICHIWA]的每个音节的每个状态数n。然后，将配位的结果作为路径搜索结果Dv提供给扬声器适配部分11。
扬声器适配部分11依据路径搜索结果Dv将特征向量[s1，1，s1，2，s1，3，....s1，M]-[s30，1，s30，2，s30，3，....s30，M]配位到[a10，1，a10，2，a10，3，....a10，M]，[a46，1，a46，2，a46，3，....a46，M]，[a22，1，a22，2，a22，3，....a22，M]，[a17，1，a17，2，a17，3，....a17，M]，[a44，1，a44，2，a44，3，....a44，M]。
即，如图6所示，标准向量[a10，1，a10，2，a10，3，....a10，M]被配位到相应于通过路径搜索获得的音节[KO]的帧数i＝1-6的特征向量[s1，1，s1，2，s1，3，....s1，M]-[s6，1，s6，2，s6，3，....s6，M]。标准向量[a46，1，a46，2，a46，3，....a46，M]被配位到相应于音节[N]的帧数i＝7-10的特征向量[s7，1，s7，2，s7，3，....s7，M]-[s10，1，s10，2，s10，3，....s10，M]。
此外，标准向量[a22，1，a22，2，a22，3，....a22，M]被配位到相应于音节[NI]的帧数i＝11-14的特征向量[s11，1，s11，2，s11，3，....s11，M]-[s14，1，s14，2，s14，3，....s14，M]。标准向量[a17，1，a17，2，a17，3，....a17，M]被配位到相应于音节[CHI]的帧数i＝15-18的特征向量[s15，1，s15，2，s15，3，....s15，M]-[s18，1，s18，2，s18，3，....s18，M]。标准向量[a44，1，a44，2，a44，3，....a44，M]被配位到相应于音节[WA]的帧数i＝19-30的特征向量[s19，1，s19，2，s19，3，....s19，M]-[s30，1，s30，2，s30，3，....s30，M]。
接下来，扬声器适配部分11将如图6所示的用于30帧的特征向量[s1，1，s1，2，s1，3，....s1，M]-[s30，1，s30，2，s30，3，....s30，M]分开用于[KO]、[N]、[NI]、[CHI]、[WA]的每个音节。如图7所示，通过获得用于每个被划分的特征向量的平均来生成用于[KO]、[N]、[NI]、[CHI]、[WA]的每个音节的平均特征向量[s^n，M]。
即，如图6所示关于相应于音节[KO]的第一至第六帧(帧数K＝6)的特征向量[s1，1，s1，2，s1，3，....s1，M]-[s6，1，s6，2，s6，3，....s6，M]的第一维的6个元素s1，1-s6，1相加，如由下列表达式(1)所示，并且通过用帧数K＝6乘以相加值(s1，1+s2，1+s3，1+s4，1+s5，1+s6，1)获得平均特征向量[s^n，M]的第一维元素s^n，1。进一步的，关于二维的6个元素用相同的方法，获得相加值(s1，2+s2，2+s3，2+s4，2+s5，2+s6，2)。然后，通过用帧数K＝6乘以它来获得平均特征向量[s^n，M]的第二维元素s^n，2。在下面中以相同的方式，获得直到M维的6个元素s1，M-s1，M的元素s^n，M，并且生成相应于音节[KO]的由M维的元素s^n，1-s^n，M组成的M维平均特征向量[s^n，1，s^n，2，s^n，3，…s^n，M]。
s^n，M＝(s1，1+s2，1+s3，1+s4，1+s5，1+s6，1)/K ....(1)其中在表达式(1)中的变量K是在每个音节中的帧数；变量n是区别每个音节的状态数；和变量M表示维数。
因此，在表达式(1)中变量n是n＝10，相应于音节[KO]的M维平均特征向量是[s^10，1，s^10，2，s^10，3，…s^10，M]。
进一步的，以相同的方法也可以获得相应于剩余音节[N]的平均特征向量[s^46，1，s^46，2，s^46，3，…s^46，M]，相应于音节[NI]的平均特征向量[s^22，1，s^22，2，s^22，3，…s^22，M]，相应于音节[CHI]的平均特征向量[s^17，1，s^17，2，s^17，3，…s^17，M]，和相应于音节[WA]的平均特征向量[s^44，1s^44，2，s^44，3，…s^44，M]。
接下来，依据下一个表达式(2)，分别获得在相应于每个音节[KO]、[N]、[NI]、[CHI]、[WA]的平均特征向量[s^10，1，s^10，2，s^10，3，…s^10，M]，[s^46，1，s^46，2，s^46，3，…s^46，M]，[s^22，1，s^22，2，s^22，3，…s^22，M]，[s^17，1，s^17，2，s^17，3，…s^17，M]，[s^44，1，s^44，2，s^44，3，…s^44，M]和标准向量[a10，1，a10，2，a10，3，....a10，M]，[a46，1，a46，2，a46，3，....a46，M]，[a22，1，a22，2，a22，3，....a22，M]，[a17，1，a17，2，a17，3，....a17，M]和[a44，1，a44，2，a44，3，....a44，M]之间的差分向量[d10，1，....d10，M]，[d46，1，....d46，M]，[d22，1，....d22，M]，[d17，1，....d17，M]，[d44，1，....d44，M]。
dn，j＝s^n，j-an，j… (2)其中在表达式(2)中的变量n表示相应于每个音节[KO]、[N]、[NI]、[CHI]、[WA]的状态数n＝10，46，22，17，44；和变量j表示向量的每一维j＝1-M。
然后，将获得的差分向量[d10，1，....d10，M]，[d46，1，....d46，M]，[d22，1，....d22，M]，[d17，1，....d17，M]和[d44，1，....d44，M]应用到下面的表达式(3)。从用于每维的平均中获得[KO]、[N]、[NI]、[CHI]、[WA]这5个(V＝5)音节的M维运动向量[mM]＝[m1，m2，…mM]。mj=1vΣndn,j----(3)]]>其中在表达式(3)中变量j表示向量的每一位j＝1-M；变量n表示相应于每个音节[KO]、[N]、[NI]、[CHI]、[WA]的状态数n＝10，46，22，17，44；和变量V表示音节的编号(V＝5)。
这样获得的运动向量[m1，m2，…mM]表示指定扬声器的特征。然后，如下个操作表达式(4)所示，从运动向量[mM]加上所有音节的标准向量[an，M]中获得具有扬声器特有特征的自适应向量[xn，M]，此外，如图8所示，通过利用所获得的自适应向量[xn，M]更新自适应语音HMM400来完成扬声器自适应的处理。
＝[an，M]+[mM]....(4)在上文描述了自适应语音HMM400具有相应于[KONNICHIWA]的指定正文Tx的扬声器适配。然而，当自适应语音HMM400具有相应于包括其他音节的指定正文Tx的扬声器适配的时候，在自适应语音HMM400中的所有音节也能够具有扬声器适配。
接着，在扬声器适配生成自适应语音HMM400以后，当指定扬声器处理任意的发声的时候，组帧部分6将以与上述相同的方法将输入信号Sc分成用于每个预定时间(例如，10-20毫秒)的帧。然后，组帧部分6依据经过的时间输出每个帧的组成输入信号Scf，并且提供给加性噪声减少部分13。
加性噪声减少部分13以上述加性噪声减少部分7相同的方式对分成帧的每个成帧输入信号Scf进行傅立叶变换产生每帧的频谱。此外，加性噪声减少部分13除去在频谱领域中除去包括在每个频谱中的加性噪声，并且将频谱输出到特征向量生成部分14。
特征向量生成部分14以与在上述特征向量生成部分8中相同的方式对不具有用于帧的加性噪声的频谱进行倒谱操作，在频谱域中生成特征向量序列[yi，M]’，并且输出到倍增噪声减少部分15。
倍增噪声减少部分15以在上述倍增噪声减少部分9中相同的方式通过利用CMN方法从特征向量序列[yi，M]’中除去倍增噪声，将不具有倍增噪声的M维特征向量序列[yi，M]提供给识别部分16。这里，特征向量序列[yi，M]的变量i表示帧数。
如上所述，当将根据从实际发出的语音中产生的输入信号的特征向量序列[yi，M]提供给识别部分16的时候，识别部分16对照特征向量序列[yi，M]和在处理扬声器适配的自适应语音HMM400的自适应向量[xn，M]，输出给予最高似真的自适应语音HMM400作为识别结果。
如上所示，依据本发明的语音识别系统，当指定扬声器根据扬声器适配发出指定正文Tx的时候，加性噪声减少部分7、特征向量生成部分8和倍增噪声减少部分9生成从中除去加性噪声和倍增噪声的特征向量序列[ci，M]。特征向量生成部分12依据包括加性噪声和倍增噪声的成帧输入信号Scf生成特征向量序列[si，M]。路径搜索部分10和扬声器自适应部分11依据这些特征向量序列[ci，M]、特征向量序列[si，M]和标准向量[ai，M]生成自适应向量[xi，M]。在其中处理扬声器适配的自适应向量[xi，M]更新自适应语音HMM400。
因此，包括在围绕指定扬声器的外围环境的噪声(加性噪声)或者本语音识别系统自身的传送噪声(倍增噪声)的特征中的特征向量序列[si，M]被用于扬声器适配。因此，能够从对噪声不敏感并且语音识别率很高的语音识别系统中生成符合实际发声环境的自适应语音HMM400。
此外，在相关技术的扬声器适配类型语音识别系统中，在扬声器适配的时候，从中除去加性噪声和倍增噪声的特征向量的生成丢失了通过扬声器适配补偿的扬声器特有的发声的特征信息。有不能准备合适的扬声器自适应声音模型的问题。
另一方面，依据本发明的语音识别系统，特征向量生成部分12生成特征向量序列[si，M]而不用除去加性噪声和倍增噪声。没有丢失通过扬声器适配补偿的扬声器特有的发声特征信息，因为特征向量序列[si，M]被用于扬声器适配。因此，能够准备合适的扬声器自适应声音模型以便增加语音识别率。
在这方面，在本发明中，已经描述准备基于象日语[AIUEO]这样的音节的自适应语音HMM400。然而，并不局限于只有音节，而是能够准备基于音素的自适应语音HMM400。
此外，在本发明中，用了一个简单的例子作为例子，描述了扬声器适配的方法。然而，本发明的扬声器适配的方法能够适用于在其中标准向量[an，M]配位到扬声器适配的特征向量[si，M]或者[ci，M]的其他各种扬声器适配的方法。因此，能够生成扬声器自适应声音模型。
如上所述，依据本发明的语音识别系统，当处理扬声器适配的时候，生成从中除去加性噪声和倍增噪声的特征向量和包括加性噪声或者倍增噪声的特征的特征向量。依据不包括噪声的特征向量和包括噪声的特征向量，补偿标准向量。因为准备适应于扬声器特有的发声的扬声器自适应声音模型，所以能够生成适用于实际发声环境的扬声器自适应声音模型。
此外，因为特征向量被用于扬声器适配而不用除去加性噪声或者倍增噪声，没有丢失通过扬声器适配补偿的扬声器特有的发声的特征信息。因此，能够生成胜任的扬声器自适应声音模型。
因此，能够获得加强噪声并且语音识别率高的语音识别系统。
权利要求
1.一种语音识别系统，包括标准声音模型，具有依据语音信息生成的标准向量；第一特征向量生成部分，用于减少来自从相应于指定正文的发出语音生成的输入信号的噪声，生成第一特征向量；第二特征向量生成部分，用于从具有噪声的输入信号生成第二特征向量；和准备部分，用于根据第一特征向量、第二特征向量和标准向量生成自适应向量，并且准备适用于发出的语音的扬声器自适应声音模型。
2.依据权利要求1的语音识别系统，其中准备部分比较第一特征向量和标准向量以便获得路径搜索结果；和准备部分依据路径搜索结果配位第二特征向量和标准向量以便生成自适应向量。
3.依据权利要求1的语音识别系统，其中噪声包括加性噪声和倍增噪声。
4.依据权利要求3的语音识别系统，其中第一特征向量生成部分包括用于减少输入信号中加性噪声的加性噪声减少部分，以生成加性噪声减少的信号。
5.依据权利要求4的语音识别系统，其中加性噪声减少部分将一变换应用到输入信号以便生成第一频谱并且从第一频谱中减去相应于加性噪声的加性噪声频谱。
6.依据权利要求4的语音识别系统，其中第一特征向量生成部分包括用于将倒谱计算应用到加性噪声减少的信号的倒谱计算器。
7.依据权利要求6的语音识别系统，其中第一特征向量生成部分包括用于通过从第一特征向量减去倍增噪声来减少倍增噪声的倍增噪声删除部分。
8.依据权利要求7的语音识别系统，其中第一特征向量包括多个时间序列第一特征向量；和倍增噪声减少部分计算时间序列第一特征向量的时间平均，用于估计倍增噪声。
9.依据权利要求1的语音识别系统，其中第二特征向量生成部分将傅至少将倒谱计算应用到输入信号以生成第二特征向量。
全文摘要
在扬声器适配的时候,第一特征向量生成部分(7,8,9)生成从中除去加性噪声和倍增噪声的特征向量。第二特征向量生成部分(12)生成包括加性噪声和倍增噪声的特征的特征向量序列[S
文档编号G10L15/00GK1346125SQ0113799
公开日2002年4月24日申请日期2001年9月29日优先权日2000年9月29日
发明者谷岛洁, 外山聪一申请人:日本先锋公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谷岛洁;外山聪一
技术所有人：日本先锋公司
我是此专利的发明人