基于hmm的文字－音素分析器及其训练方法

文档序号：2819950阅读：271来源：国知局

专利名称：基于hmm的文字－音素分析器及其训练方法
技术领域：
本发明与语音处理有关，具体地说，与语音识别系统和技术有关。
背景技术：
在有些语音识别系统中，词的隐式Markov模型(Hidden Markovmodels，HMM)通过级联音素的HMM得到。为了在这样的系统中构建词模型，必须知道与词相应的音素串。在很多情况下，可以在语音词典中找到一个词的音素串(即，读音)。然而，通常在语音词典内不包括许多正当的词(例如，姓氏、商号名称等)。因此，往往需要有可以自动为一个书写的词产生一个音素串的文字-音素分析器(text-to-phoneme parser)。

图1为例示一个传统的HMM过程的示意图；图2为例示按照本发明的一个实施例设计的文字-音素分析系统的方框图；图3和4为例示按照本发明的一个实施例设计的训练一个基于HMM的文字-音素分析系统的方法的流程图的两个部分；图5为例示按照本发明的一个实施例设计的两维Viterbi搜索表的示意图；以及图6为例示按照本发明的一个实施例设计的一个经修改的HMM过程的示意图。
具体实施例方式
下面，将结合例示可以实现本发明的一些具体实施例的附图进行详细说明。这些实施例说明得非常详细，足以使熟悉该技术领域的人员能实现本发明。可以理解，本发明的这些实施例虽然有所不同，但并非是相互排斥的。例如，在这里结合一个实施例说明的具体功能、结构或特征可以在其他实施例内实现，这并不背离本发明的精神实质和专利保护范围。此外，还可以理解，在每个所揭示的实施例内的各个组成部分的位置或排列也可以更改，这也不背离本发明的精神实质和专利保护范围。因此，以下详细说明并不是限制性的，本发明的专利保护范围仅由所附权利要求书给出。在这些附图中，相似的数字所标注的是这些图中的相同或类似的功能。
本发明与训练和实现利用隐式Markov模型(HMM)的文字-音素分析器的方法和结构有关。与采用决策树技术的分析器不同，基于HMM的文字-音素分析器不需要在一个训练期期间使用专家语言知识。基于HMM分析器所用的存储器还显著地比决策树分析器的小。此外，决策树分析器通常为一个给定的词产生单个读音，而基于HMM的文字-音素分析器能为一个词产生多个不同的读音及这些读音的相应可靠性信息。可以看到，这些特色可用来改善语音识别的精确度。这些创造性的原理可以用于多种语言，特别是对于具有比较复杂的决定文字和语音之间关系的规则的语言(例如，英语)最为有益。
音素表示用来构造词的基本声音。在一个采用HMM的语音系统中，用一个词的字母和音素来形成这个词的HMM。词的音素与HMM的隐状态相应，服从一价Markov过程。图1为例示一个传统的HMM过程10应用于词“right”的示意图。图的上部是词的字母，排列成一系列字母串(即，“R”，“IGH”和“T”)。图的下部是构成所说出的词的音素(即，“R”，“AY”和“T”)。具有“—”符号的方框表示空音素(即，无声音素)。作为HMM过程10的一部分，将词的音素说成“发出(emite)”相应的字母串。发出相应的字母串的情况在图1中用箭头12表示。Markov过程还考虑到在词内相继音素之间的转移。这些转移在图1中用箭头14表示。
图2为例示按照本发明的一个实施例设计的文字-音素分析系统20的方框图。如图所示，系统20包括文字输入单元22、基于HMM的文字-音素分析器24和概率数据库26。文字输入单元22用来将书写词递交给基于HMM的文字-音素分析器24处理。文字输入单元22可以包括例如计算机键盘或其他使用户可以输入词的手动数据输入装置。其他类型的文字输入装置也是可以的。基于HMM的文字-音素分析器24对书写词进行分析，确定这个词的一个或多个音素串。所产生的音素串于是可以用来导出一个或多个用于相应词的Markov模型。为了为一个输入词产生一个音素串，基于HMM的文字-音素分析器24利用存储在概率数据库26内的概率信息。除了其他信息，概率数据库26通常包括与对于一个给定的语音词典的转移概率(transition probability)和发出概率(emission probability)有关的信息。基于HMM的文字-音素分析器24在Markov过程期间利用这信息确定对于输入词的一个或多个具有最高似然性的音素串。
在图2的系统20可以使用前，需要对系统进行“训练”，以在数据库26内形成概率信息。这个训练将表征对象语言的字母与音素之间的统计关系。在训练过程开始前，可以就对象语言的组成作若干假设。一个这样的假设是对单个音素可以发出的字母串的长度作出限制。例如，在至少是英语实施例中，假设单个音素只可以发出一个到四个字母的字母串。另一个这样的假设是假设两个音素可以组合成发出单个字母(例如，在词“sex”中，音素“K”和“S”可以组合成发出字母“x”)。这样的组合在这里称为“双音素(diphone)”。通常，双音素在训练开始前是不知道的，因此需要在训练期间确定。还可以作出其他一些假设。
图3和4为例示按照本发明的一个实施例设计的训练一个基于HMM的文字-音素分析系统的方法的流程图的两个部分。在至少一个实现中，这种方法有些或全部用在一个或多个数字处理设备(例如通用微处理器、数字信号处理器(DSP)、精简指令系统计算机(RISC)、复杂指令系统计算机(CISC)、现场可编程门阵列(FPGA)和/或其他设备)内执行的软件实现。为了启动训练过程，首先要准备一本包括对一个给定的词汇表的读音的语音词典(方框32)。这本词典可以是例如任何市售的语音词典。在一个实现中，使用的是Carnegie Mellon大学(CMU)的语音词典。CMU语音词典包括大约127,000个英文词与它们相应的语音读音。CMU语音词典还定义了英语中的39个各别音素。当然，也可以是使用其他词典。
对语音词典的词根据词典内相应读音进行沿线分段(Linearsegmentation)(方框34)。在沿线分段期间，每个词沿线分成一些段，段的数目等于相应词典读音内这个词的音素的数目。如果音素的数目超过词内字母的数目，可以假设存在双音素。根据沿线分段的结果，可以产生一个初始音素发出概率矩阵和双音素发出概率矩阵(方框36)。音素发出概率矩阵包括由特定的音素发出特定的字母串的概率(即P(字母串|音素))。双音素发出概率矩阵包括由特定的音素对发出特定的字母的概率(即，P(字母|音素1，音素2))。在一种方法中，每个概率可以利用沿线分段信息通过简单的计数来确定。例如，P(字母串|音素)将等于在沿线分段信息内与这个音素一起出现这个字母串的数目除以这个音素出现的总数。类似，P(字母|音素1，音素2)将等于在沿线分段信息内与这个音素对(即，音素1，音素2)一起出现这个字母的数目除以出现这对音素的总数。
用这两个初始发出概率矩阵执行有监督分段(supvisedsegmentation)，将词典内的每个词分段成它的相应一些音素(方框38)。这种分段称为“有监督”分段，因为它是利用一个已知的音素串进行分段的。在一种方法中，有监督分段利用Viterbi搜索技术执行。图5为例示可用来执行对词“位置”执行Viterbi搜索的二维表66的示意图。如图所示，表66的水平轴列出了词的各个字母(每个列一个字母)，而垂直轴列出了从语音词典得到的词的各个音素(每个行一个音素)。从左下角的方块68开始，形成一系列通过表66的路径，以寻找一条“最可能”表示相应词的恰当分段的路径。为了保证因果性，Viterbi过程最好在表66中按列从左至右执行，在一个列内的所有音素都考虑过后再进至下一列。用来自初始音素发出概率矩阵和初始双音素发出概率矩阵的信息确定表66内各条路径的概率得分(Probabilityscore)。如果采用对数概率，这些得分通常将是一些概率和。如果采用传统的概率，这些得分通常将是一些概率积。在以下讨论中，假设采用对数概率。
来看图5，在方块68内，输入的是音素“L”发出字母“L”的概率(图中示为L|L，其中第二个L为音素)。在方块70内，输入的是音素对“L，OW”将发出字母“L”(即双音素)的概率。在方块72内，输入音素“L”将发出字母串“LO”的概率。在方块74内，输入的是(a)音素“L”发出字母“L”的概率与(b)音素“OW”发出字母“O”的概率之和。显然，已经从方块68到方块74建立了一条路径，而这和表示到达这个方块的路径的得分。在表66内有两条路径可通达方块76。在一种搜索方法中，计算出每条路径的得分，然后为这个方块录下这两个得分中较高的得分以及相应的路径信息。第一条从方块68至方块76的路径涉及音素对“OW，K”发出字母“O”。这条路径的得分为(a)音素“L”将发出字母“L”的概率(从方块68得到)与(b)音素对“OW，K”将发出字母“O”的概率之和。第二条路径是从方块70至方块76，涉及音素“K”发出字母“O”。这条路径的得分为(a)音素“L，OW”将发出字母“L”的概率(从方块7 0得到)与(b)音素“K”将发出字母“O”的概率之和。计算出这两条路径的得分后，录下较高的得分以及相应的路径信息。
在方块78内，输入音素“L”将发出字母串“LOC”的概率，作为得分。与方块76相似，有两条路径可以通达方块80。第一条路径从方块68通达，得分为(a)音素“L”将发出字母“L”的概率(从方块68得到)与(b)音素“OW”将发出字母“OC”的概率之和。第二条路径从方块72通达，得分为(a)音素“L”将发出字母串“LO”的概率(从方块72得到)与(b)音素“OW”将发出字母“C”的概率之和。同样，录下较高的得分以及相应的路径信息。有三条路径可以通达方块82。第一条路径从方块74通达，得分为方块74的得分与音素“K”将发出字母“C”的概率之和。第二条路径从方块70通达，得分为方块70的得分与音素“K”将发出字母串“OC”的概率之和。第三条路径从方块72通达，得分为方块72的得分与音素对“OW，K”将发出字母“C”的概率之和。然后，录下这三个得分中最高的得分以及相应的路径信息。
可用同样的基本程序来完成表格66的其余各项。例如，为了确定方块84的得分，必须考虑五条可能的路径(即从方块86，88，90，92与94通达)。这五个候选得分计算如下得分(方块84)＝得分(方块86)+logP(OCAT|SH)得分(方块84)＝得分(方块88)+logP(CAT|SH)
得分(方块84)＝得分(方块90)+logP(AT|SH)得分(方块84)＝得分(方块92)+logP(T|SH)得分(方块84)＝得分(方块94)+logP(T|EY，SH)将这五个候选得分中最高的得分选为方块84的得分，并录下相应的路径信息。在一种方法中，在搜索期间填入两个数组。第一个数组(即，得分(字母，音素))记录通达表66内每个方块的最佳路径的得分。第二个数组(即，psi(字母，音素))记录数组内每个方块是从哪个方块通过最佳路径到达这个方块的。
表66填好后，执行一个回溯过程(backtracking process)，以确定通过表66的最佳路径。从表66最后一列中的最后一行开始，用ps i数组来确定所以得到高分的路径。所确定的路径与对这个对象词的最优分段相应。对于语音词典内的每个词都执行这个Viterbi过程。再来看图3，对这些词执行了有监督分段后，用有监督分段的结果产生新的音素发出概率矩阵和双音素发出概率矩阵(方框40)。可以再次如前面所说明的那样采用简单的计数策略。然后在一个迭代过程中重复有监督分段和再生概率矩阵的循环，直到满足预定条件(方框42)。通常，全部词典词的得分之和将随着每个相继循环单调递增。在一种方法中，分段和概率矩阵重新计算的循环执行到得分之和停止增大(或者以低于预定速度增大)。在另一种方法中，就执行预定次循环。其他终止迭代过程的条件也是可行的。
在本发明的至少一个实施例中，在产生新的音素发出概率矩阵和新的双音素发出概率矩阵(见方框40)期间采用“退火(annealing)”。也就是说，将概率矩阵内所有低于一个预定门限值的元都设置为这个门限值(或另一个值)。在随后的分段和矩阵再生期间也可以采用退火。在一种可行的技术中，在概率矩阵初始再生期间采用第一门限值(例如，为0.15)，而对于每个后继的循环采用越来越低的门限值。
在训练过程中，此时就已从原来的实体得出了音素发出概率矩阵和双音素发出概率矩阵。过程确定了一些双音素后，将它们连同相应的计数信息一起列入双音素发出概率矩阵。在典型情况下最常出现的双音素涉及音素对“K，S”发出字母“X”。次常出现的双音素通常涉及音素对“Y，UW”发出字母“U”。还可以确定许多其他双音素，包括许多低计数的双音素。现在，对所确定的双音素进行删节，以减少由系统辨别的正当双音素的总数(方框44)。在一种方法中，在删节过程期间选择双音素中预定个计数最高的双音素(例如，10个双音素)。在另一种方法中，选择所有计数大于预定值的双音素。其他删节技术也是可行的。
来看图4，现在通过添加经删节的双音素建立一个扩展的音素集(方框46)。例如，在一个实现中，将删节后的10个双音素和空音素添入CMU语音词典的39个音素，从而产生一个扩展的音素集。此后，这些双音素将被处理为普通的音素，因此允许发出具有一个到四个字母的字母串。利用这个扩展的音素集，再次对词典内的每个词进行有监督分段(方框48)。这次的有监督分段可以包括例如类似于图5所示的Viterbi搜索。然而，这次Viterbi搜索现在将限于经删节的双音素集，而不是考虑所有可能的双音素。此外，如果Viterbi搜索表在它的对于一个特定的词的垂直轴内包括一个正当双音素，这个搜索过程现在必须认为这个双音素可以发出长度为一个到四个字母的字母串而不是象前面那样单个字母。否则，可以按与前面所说明的类似的方式计算出每个方块的得分。对于词典内的每个词，填好相应的相应后再用回溯来确定通过表的最佳路径。即使一个词的词典读音包括一个形成一个正当双音素的音素对，Viterbi过程也不会自动地这样解释这个音素对。也就是说，这个音素对将只解释为一个双音素，如果得分最高的路径将它认作一个双音素的话。
有监督分段完成后，用分段结果产生一个新的音素发出概率矩阵(方框50)。此时还产生一个音素“转移”概率矩阵。除了原来的音素之外，音素发出概率矩阵还包括经删节的双音素的发出概率。音素转移概率矩阵将基于给定上个音素时将出现一个特定的音素的概率(即，P(音素|上个音素)。如前面那样，可用一种简单计数方法来产生这些矩阵。在另一种方法中，音素转移概率矩阵初始化成所有的转移概率都具有相同的值。然后，这些初始值可以在分段和矩阵再生的后续各循环期间改变。产生了新的音素发出概率矩阵和音素转移概率矩阵后，这两个矩阵或者其中一个矩阵可以象前面所说明的那样予以退火。
用这新的音素发出概率信息和新的音素转移概率信息再次对词典词执行有监督分段(方框52)。同样，可以执行Viterbi搜索来分段词。然而，在搜索期间产生的得分现在将涉及转移概率以及发出概率。例如，如图5所示，为了产生方块84的得分，必需考虑以下候选得分得分(方块84)＝得分(方块86)+logP(OCAT|SH)+logP(SH|音素86)得分(方块84)＝得分(方块88)+logP(CAT|SH)+logP(SH|音素88)得分(方块84)＝得分(方块90)+logP(AT|SH)+logP(SH|音素90)得分(方块84)＝得分(方块92)+logP(T|SH)+logP(SH|音素92)其中音素86是与通达方块86的最佳路径关联的音素，音素88是与通达方块88的最佳路径关联的音素，音素90是与通达方块90的最佳路径关联的音素，而音素92是与通达方块92的最佳路径关联的音素。如果音素对“EY，SH”是一个正当的双音素，就还要考虑对于这个双音素(对于长度从1到4个字母的字母串)的附加候选得分。选择最高的候选得分，与相应的路径信息一起录下。对于词典内的每个词，如上面所说明的那样产生一个Viterbi搜索表。然后，用回溯来确定通过这个表的最佳路径，以确定对这个词的适当分段。
利用最新分段的结果，产生经更新的音素发出概率矩阵和音素转移概率矩阵(方框54)。如上所述，可以采用计数方法。例如，在一个实现中，对于所有的音素产生以下计数计数(字母串|音素)和计数(音素|上个音素)。然后，用计数信息产生概率矩阵。于是可以重复这个有监督分段和矩阵再生循环直到满足预定条件(方框56)。例如，可以重复这个循环直到所有的词的得分之和停止增大(或者以低于预定速度增大)或者执行了预定次循环。在这些循环中的一个或多个循环期间可以执行退火，如前面所述。最后，产生最终的音素发出概率矩阵和音素转移概率矩阵。这些矩阵存储起来供在将来的文字-音素分析操作期间使用(方框58)。
在以上的讨论中，假设使用的是传统的Markov过程(诸如图1所例示的)。在本发明的至少一个实施例中，使用了经修改的HMM过程。例如，图6例示了一个按照本发明的一个实施例设计的广义HMM过程100。如图6所示，首先假设前一个音素(例如，为空音素110)导出后一个音素(例如，音素“R”112)。然后，假设这前、后音素导出一个字母串(例如，字母“R”114)。这在图6中示为箭头102和104。再假设这后一个音素(例如，音素“R”112)和字母串(例如，字母“R”114)导出下一个音素(例如，音素“AY”116)。这在图6中示为箭头106和108。这个过程从左至右进行，音素i和音素i+1导出字母串i+1，而音素i+1和字母串i+1导出音素i+2。
为了实现图6所示的广义HMM过程100，可以定义一个“广义”发出概率矩阵和一个“广义”转移概率矩阵。广义发出概率矩阵可以包括例如给定一个音素和前一个音素时将导出特定字母串的概率(即，P(字母串|音素，前一音素))。广义转移概率矩阵可以包括例如给定前一音素和前一字母串时将出现特定音素的概率(即，P(音素|前一音素，前一字母串))。在本发明的至少一个实施例中，图3和4所示的训练方法修改成可以产生上述广义发出概率矩阵和广义转移概率矩阵。例如，在图4的方框54，可以用最新的有监督分段的结果产生广义发出概率矩阵和广义转移概率矩阵而不是产生音素发出概率矩阵和音素转移概率矩阵。然后，可以执行分段和矩阵再生的附加循环，以进一步改善广义发出概率矩阵和广义转移概率矩阵。最后产生的最终矩阵存储起来供以后在文字-音素分析操作期间使用。
训练结束后，可用在训练阶段期间产生的概率矩阵执行文字-音素分析。也就是说，可用这两个矩阵产生与书写词相应的一个或多个音素串。所分析的各个词不必是在训练期间所用的语音词典中的词。相反，按照本发明设计的文字-音素分析器可用来分析多种多样的通常不包括在语音词典内的词，诸如人名之类。在一种方法中，在一个要分析的书写词输入后，就对这个字进行“无监督”分段。这种分段称为“无监督的”是因为并不对基础音素串的先验知识有所假设。分段可以用与前面所说明的分段操作类似的方式进行。也就是说，可以用一个Viterbi搜索表，这个表在水平轴上列出了书写词的字母而在垂面轴上列出了音素。然而，在表的垂直轴上列出的是扩展的音素集内的所有音素，而不是用这个词本身的音素(因为这些音素此时是不知道的)。搜索过程以本质上与前面所说明的相同的方式进行。在按列从左至右转移的同时产生各个方块的得分。还为这些方块录下了路径信息。在完成这个表时，就可以确定最高总分，再用回溯来确定相应路径。这条路径与输入词的最可能的音素串相应。
在采用广义HMM过程时，文字-音素分析(解码)可以如下这样进行。分析器对水平轴包括需分析的字母而垂直轴包括广义音素(所有音素都参与)的一个表进行操作。为表定义了三个逐字母(即按列)填入的数组。这些数组为“得分”数组、“psiP”数组和“psiL”数组。变量得分[I][P]纪录了通过表到达第I个字母和第P个音素这个方块的最佳路径的得分。变量psiL[I][P]纪录了路径的最后一段由音素P发出的字母的数目(在一个实施例中为从一个到四个字母)。给定了psiL[I][P]，就知道最佳路径是从字母I-psiL[I][P]开始的。因此需要确定开始这条路径的音素的正身。这个音素用psiP[I][P]表示。从[I-3][P2]方块到达[I][P1]方块的路径的得分由以下递推关系给出得分[I][P1]＝得分[I-3][P2]+logP[P1|P2，接P2的字母串]+logP(3个字母I-2，I-1，I|P1，P2)其中第一个logP项为广义转移项，元“接P2的字母串”从psiL[I-3][P2]得出，而第二个logP项为广义发出项。选择的是得分最高的路径。例如，如果以上得分是最高分，于是设置psiL[I][P1]＝3，而psiP[I][P1]＝P2。
为了分析一个给定的词，必须首先“进入”这个词和最后“退出”这个词。在本发明的一个实施例中，在要分析的词的前、后各安插了一个空字母。例如，词“RIGHT”表示为“_RIGHT_”(下划线表示一个空字母)。在词“_RIGHT_”内，第一个下划线与附标I＝0相应，“R”与附标I＝1相应，诸如此类。所有的进入路径都是从方块[I＝0][音素＝0]开始。一个可能的进入路径通过以下递推给出得分[I＝1][P1＝R]＝得分[I＝0][音素＝0]+logP[P1＝R|P2＝0，字母串＝空]+logP(字母串＝R|P1＝R，P2＝空)所有的退出路径结束于方块[I＝6][P1＝空]。一个可能的退出路径通过以下递推给出得分[I＝6][P1＝空]＝得分[I5][P2T+logP(P1＝空|P2＝T，字母串＝T)+logP(字母＝空|P1＝空，P2＝T)如果分析的是词“RIGHT”，表内就有七个列，包括词的前、后各一个空字母。按列从I＝1开始直至I＝6(空退出字母)填入“得分”和“psi”。对于空字母只允许空音素(如以上退出等式所示)。填好这些数组后，用回溯从方块[I＝6][P1＝空]开始找到最佳分析。
在本发明的至少一个实施例中，在分析过程期间产生与一个书写词相应的N个音素串(其中，N为大于1的正整数)。这N个最佳音素串可以介绍给用户，例如允许用户为这个输入词从这N个备选音素串中选择一个音素串(即，读音)。为了产生这N个最佳串，必须保持这N个通达搜索表内每个方块的最佳路径的径迹。然后，对在表最后一列内的N个最佳得分执行回溯。可以将分析器为一个给定的词提供的N个最佳音素串组织成一个读音网络。这种组织在变换成这个词的声学模型时需要较小的存储器。
为了减少在分析器内存储器的使用，可以限制为书写词的每个字母(即，搜索表的每个列)保存的最佳路径的数目。例如，在搜索表每个列内，可以只为一小部分音素保存最佳路径信息，而不是为在垂直轴内列出的所有音素(例如，在一个实施例中为49个音素)保存最佳路径。在测试这种方法中，发现在为一个表的每个列只保存10条最佳路径的情况下几乎感觉不到有性能下降。同时，达到了将存储器的使用减少为五分之一。在搜索N个最佳音素串时可以得到类似的结果。
在以上说明中，已经结合所揭示的实施例确定了不同的数据结构(例如，矩阵、数组等)。应该看到，在这些实施例中的数据组织和存储的具体格式并不是限制性的。
虽然以上是结合一些具体实施例对本发明进行说明的，但熟悉该技术领域的人员很容易理解，在不背离本发明的精神实质和专利保护范围的情况下可以作出各种修改和变动。所有这样的修改和变动都应列入所附权利要求书给出的本发明的专利保护范围。
权利要求
1.一种训练一个文字-音素分析系统的方法，所述方法包括下列步骤根据一本语音词典内的读音产生第一信息，所述第一信息确定了多个可能的双音素；根据出现频率信息删节所述多个可能的双音素，产生一些经删节的双音素；形成一个包括所述经删节的双音素作为正当音素的一个扩展的音素集；以及根据所述扩展的音素集产生第二信息，供在执行文字-音素分析中使用。
2.权利要求1的方法，其中所述第一信息包括双音素发出信息。
3.权利要求1的方法，其中所述第一信息包括音素发出信息。
4.权利要求1的方法，其中所述产生第一信息的步骤包括对所述语音词典内的词执行有监督分段。
5.权利要求4的方法，其中所述执行有监督分段的步骤包括对一个第一词执行Viterbi搜索，以根据所述第一词在所述语音词典内所标的一组音素确定所述第一词的最佳分段。
6.权利要求1的方法，其中所述产生第一信息的步骤包括对所述语音词典内的词执行有监督分段和概率产生的循环。
7.权利要求1的方法，其中所述删节可能的双音素的步骤包括从所述多个可能的双音素中选择一些具有最高出现次数的双音素。
8.权利要求1的方法，其中所述语音词典标出了一个初始的音素集；以及所述形成一个扩展的音素集的步骤包括将所述经删节的双音素添入所述初始的音素集。
9.权利要求1的方法，其中所述产生第二信息的步骤包括为所述扩展的音素集内的音素产生音素发出概率。
10.权利要求1的方法，其中所述产生第二信息的步骤包括为所述扩展的音素集内的音素产生音素转移概率。
11.权利要求1的方法，其中所述产生第二信息的步骤包括产生在给定一个当前音素和前一个音素时将导出一个特定字母串的概率。
12.权利要求1的方法，其中所述产生第二信息的步骤包括产生在给定前一个音素和一个由所述前一个音素发出的字母串时将导出一个特定音素的概率。
13.权利要求1的方法，其中所述产生第二信息的步骤包括对所述语音词典内的词执行有监督分段。
14.权利要求1的方法，其中所述产生第二信息的步骤包括对所述语音词典内的词执行有监督分段和概率产生的循环。
15.一种供在训练一个文字-音素分析系统中使用的方法，所述方法包括下列步骤根据已知的词读音对词进行分段，产生分段结果；用所述分段结果产生概率信息，所述概率信息包括多个概率值；标出所述概率信息内低于一个第一门限值的概率值；以及将所述标出的概率值改变为一个预定值。
16.权利要求15的方法，其中所述预定值是所述第一门限值。
17.权利要求15的方法，所述方法还包括下列步骤在改变所述标出的概率值后根据所述概率信息重新对所述词进行分段，产生新的分段结果。
18.权利要求17的方法，所述方法还包括下列步骤用所述新的分段结果产生新的概率信息，所述新的概率信息包括多个概率值；检测在所述新的概率信息内低于一个第二门限值的概率值；以及将所检测到的概率值改变为一个第二预定值。
19.权利要求18的方法，其中所述第二门限值小于所述第一门限值。
20.权利要求15的方法，其中所述概率信息包括音素发出概率。
21.权利要求15的方法，其中所述概率信息包括在给定一个当前音素和前一个音素时将导出一个特定字母串的概率。
22.权利要求15的方法，其中所述概率信息包括双音素发出概率，所述双音素发出概率包括一个给定的音素对将发出一个特定字母的概率。
23.权利要求15的方法，其中所述概率信息包括音素转移概率。
24.权利要求23的方法，其中所述音素转移概率包括在给定前一个音素时将导出一个特定音素的概率。
25.权利要求23的方法，其中所述音素转移概率包括在给定前一个音素和一个由所述前一个音素发出的字母串时将导出一个特定音素的概率。
26.权利要求23的方法，其中所述对词进行分段的步骤包括对词根据一个语音词典内的相应读音进行分段。
27.一种供在训练一个文字-音素分析系统中使用的方法，所述方法包括下列步骤对词根据已知的词读音进行分段，产生分段结果；以及用所述分段结果产生概率信息，所述概率信息包括广义转移概率信息，所述广义转移概率信息包括在给定前一个音素和一个由所述前一个音素发出的字母串时将导出一个特定音素的概率。
28.权利要求27的方法，其中所述概率信息包括广义发出概率信息，所述广义发出概率信息包括在给定一个当前音素和前一个音素时将导出一个特定字母串的概率。
29.权利要求27的方法，其中所述对词进行分段的步骤包括对词根据一个语音词典内的相应读音进行分段。
30.权利要求27的方法，其中所述对词进行分段的步骤包括为一个第一词确定一条通过一个Viterbi搜索表的最佳路径。
31.权利要求27的方法，所述方法还包括下列步骤重复所述对词进行分段和产生概率信息的步骤，直到满足一个预定的条件。
32.一种文字-音素分析系统，所述系统包括一个包括广义转移概率信息的概率数据库，所述广义转移概率信息包括在给定前一个音素和一个由所述前一个音素发出的字母串时将出现一个特定音素的概率；以及一个根据所述概率数据库内的信息为一个书写的输入字产生至少一个音素串的文字-音素分析器。
33.权利要求32的文字-音素分析系统，其中所述概率数据库包括广义发出概率信息，所述广义发出概率信息包括在给定一个当前音素和前一个音素时将导出一个特定字母串的概率。
34.权利要求32的文字-音素分析系统，其中所述概率数据库包括根据一个语音词典内的词读音产生的概率信息。
35.权利要求32的文字-音素分析系统，其中所述文字-音素分析器产生所述书写的输入词的N个最佳音素串，其中N为一个大于1的整数。
全文摘要
本发明提供了一种用一个概率数据库内的概率信息为一个书写的输入词产生一个或多个音素串的基于HMM的文字－音素分析器。本发明还提供了训练这种文字－音素分析器的技术。
文档编号G10L13/08GK1613107SQ02826819
公开日2005年5月4日申请日期2002年10月29日优先权日2001年11月6日
发明者M·格利尼亚斯蒂申请人:D·S·P·C·技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.格利尼亚斯蒂
技术所有人：D.S.P.C.技术有限公司
我是此专利的发明人