使用基于词汇树的n格拉姆语言模式的语音识别器的制作方法

文档序号：2822021阅读：291来源：国知局

专利名称：使用基于词汇树的n格拉姆语言模式的语音识别器的制作方法
技术领域：
本发明涉及语音识别系统，更具体来说，涉及一种基于词汇树的n格拉姆(n-gram)语言模式。
背景技术：
语音识别器中的一个组成部分是语言模式。语言模式包括单词在一个词汇表中出现的概率以及一个单词跟随另一个单词或者多个单词的概率。的确，捕获一种给定语言的句法结构的流行方法是使用条件概率捕获嵌入在句子字串中的连续信息。例如，如果当前单词是w1，那么就可以建立一种语言模式，说明某些其他单词w2、w3、...wN将跟随在w1后面的概率。条件概率通常通过检查一个训练主体(例如，报纸)中单词彼此近邻的频率计算出来。例如，条件概率P21＝(w2|w1)是单词w2跟随单词w1的概率。概率P21被称为双格拉姆。一个三格拉姆语言模式是一个单词按顺序跟随另外两个单词的条件概率。例如，P210＝(w2|w1w0)是单词w2跟随单词w1而w1又跟随单词w0的概率。一个单格拉姆或1-格拉姆概率只是一个单词将会出现的概率。例如，p1＝p(w1)是单词w1在不考虑前面单词的情况下在一个特定时间将要出现的概率。
单格拉姆、双格拉姆、三格拉姆等中所涉及的单词组合的可能数量呈几何级数地上升。在此处使用的术语“较低的格拉姆”和“较高的格拉姆”是指格拉姆的阶。例如，单格拉姆比双格拉姆低，而双格拉姆比三格拉姆低。三格拉姆比双格拉姆高，而双格拉姆比单格拉姆高。对于一个大词汇表，三格拉姆的组合的总数，甚至双格拉姆的组合的总数也大得难以管理。然而，结果是，如此大量的三格拉姆和双格拉姆导致条件概率非常小(几乎为零)，不值得将它们放到语言模式中。有人曾经使用过补偿权重来调整较低格拉姆的概率。例如，当三格拉姆概率不包括在语言模式中时，那么就可以使用双格拉姆概率再乘以一个补偿权重(bowt)。如果补偿权重不存在，那么就可以较低的格拉姆代替较高的格拉姆。相应地，一个基于单词的n-gram语言模式可以表示为等式(1)，如下所示如上所述，尽管等式(1)是一个比较通用的n-gram表示，但也很少考虑高于三格拉姆的情况。
典型的n-gram语言模式文件存储格式如下所示对于1-格拉姆p(w1)w1bowt(w1)对于i-格拉姆(对于i＝1，...，n-1)p(wi|wi-1...w1)w1...wibowt(w1...wi-1)对于n-gramp(wn|wn-1wn-2...w1)w1...wn词汇树用于组织可能的单词。例如，假设在一个词汇树中，单词w2、w3、...wN中任何一个都可能跟在单词w1后面。可以计算出条件概率以帮助决定单词w2、w3、...wN中哪一个单词跟随单词w1后面。对于大型词汇表，可能性的数量是巨大的。已经有人开发出各种技术，通过使用一个“修剪音速”“剪掉”其条件概率比相对于最大值的阈值低的低概率路径，从而减少所涉及的可能性的数量。
单词是作为一系列音素检测到的。此处音素是指表示声音的数字式电信号。但是，在单词的最后一个音素被检测出之前，说出的是哪一个单词通常是不知道的，结果造成对收到的单词的修剪延迟，因而对所接收单词解码的速度整体变慢。
在S.Ortmanns等人所写的文章“Language-ModelLook-Ahead for Large Vocabulary Speech Recognition，”ICSLP96(1996)，pp.2095-98中，提出了一种先行控制技术，在音束搜索策略的修剪过程中较早合并语言模式概率。但是，该文章的作者未能认识到如何最佳地将存储的词汇树的估计概率保持在易管理的水平。例如，Ortmanns等人的文章最后作出结论说，存储了计算(估计)概率的表的大小将大得出奇。见文中P2097。
因此，大型词汇表连续语音识别器(LVCSR)需要一种更好的词汇树n-gram语言模式格式。

发明内容
在一些实施例中，本发明包括一种创建词汇树和识别该词汇树中的开始音素的方法。这些实施例的方法进一步包括估计具有特定的开始音素的单词在词汇树中的概率并至少存储一些估计的概率，其中补偿权重不与估计的概率一起存储。估计的概率可以存储在一个查询表中。
在其他实施例中，本发明包括一种接收音素并在词汇树中识别它们的方法。这些实施例的方法还包括通过使用从存储区中检索到的估计的概率来估计包含这些音素的单词的概率，其中检索概率不包括与估计的概率存储在一起的补偿权重。同样，估计的概率可以存储在一个查询表中。
估计的概率可以在建立修剪阈值时使用。
这些方法可以通过计算机可读的介质上的指令来实现。
本文还介绍了更多实施例并在权利要求书中加以概括。

通过阅读下面的详细说明并参照本发明的实施例的附图，您将会对本发明有一个全面的理解，但是，本发明不应该仅限于这里所介绍的实施例，这些实施例只用作说明和理解之用。
图1是表示根据本发明的一些实施例的词汇树的示意图。
图2是一种可以用于本发明的一些实施例中的计算机系统的高度概括的方框图。
图3是一种可以用于本发明的一些实施例中的手提计算机系统的高度概括的示意图。
具体实施例方式
本发明涉及一种用于LVCSR的基于词汇树的n-gram语言模式格式。借助于本发明，一旦检测出一个开始音素，即可估计出一个单词的概率。修剪低于一个阈值的路径可以在识别出后继单词之前开始。本发明用于加速LVCSR中的搜索过程。在解码过程中，语言模式起着关键的作用，无论是在准确率方面，还是在性能方面。因此，语音识别系统的性能与语言模式有关。
本发明涉及了组织词汇树的多种方法。作为一个示例，图1显示了一个词汇树的一部分示意图。图1中的词汇树根据音素将许多单词连接在一起，不同的单词可以共用一些相同的音素。前辈单词w0用一个矩形来表示。w0之前可能有单词，也可能没有单词。在词汇表中，有一些音素可以作为后继单词的开头。这些开始音素是Bph1、Bph2...Bphx，可能少于音素的总数。
多个单词可以以一个音素开始。为了便于讨论，共用相同的音素的单词具有类似的标签。例如，单词w11、w12和w13每一个单词都以开始音素Bph1开始。更具体来说，音素Bph1、ph2、ph3和ph4构成了单词w11(例如，单词“fund”)；音素Bph1、ph2、ph3、ph4和Ph5构成了单词w12(例如，“funds”)，音素Bph1和ph2-ph4和ph6-ph10构成了单词w13(例如，“fundamental”)。(请注意，单词中的实际音素数量可能与这里显示的不同)。在现实中，典型的情况是，以相同的音素开头的单词要多得多，但为了便于讨论，只显示了三个与Bph1关联的单词。在图1的示例中，假设单词w12是最后检测到的单词。在这种情况下，单词w0和w12所在的将是实际路径，其他的路径将是潜在的路径。
在一些实施例中，一旦单词W0的后继的第一个音素被识别出来，就可以进行后继单词的概率的估计，这样便可以在确切地知道后继单词之前开始进行修剪。
在本发明的一些实施例中，可以使用基于词汇树的n-gram语言模式格式，该格式可以有效地应用到与(例如)一种基于树的Viterbi解码算法一起使用语言模式先行控制机制。对于一个基于树的Viterbi音束搜索算法，通常对于树状态s和前辈字串wn-1wn-2…w1的估计的语言模式概率πv(s)可以通过如下所示的等式(2)进行估计πv(s)=maxw&Element;W(s)(λw·p(w|wn-1wn-2...w1))---(2)]]>其中W(s)是一组可从词汇树状态s得到的单词集，λw表示权重(以分数表示)，v是前辈单词，p(w|wn-1wn-2…w1)表示n-gram单词条件概率。πv(s)也可叫做在建立修剪阈值中使用的估计概率Pestimated。估计概率也可叫做先行控制概率。作为应用语言模式先行控制的结果，可以获得更紧密的修剪音束以加速解码过程。分数权重λw可以设置为1或可以介于0和1之间。在一些实施例中，λw可能大于1。分数权重可以采用经验法、通过反复试验进行确定或计算出。对于每个Bphl来说，分数权重可能相同，也可能不同。虽然本发明是以n-gram来表示的，但在实际中也可能使用三格拉姆、双格拉姆、单格拉姆和/或其他格拉姆。
音素节点的透视图是一个树的状态。在说话的过程中，该树中有越来越多的音素被检测出来，估计的概率可能需要重新计算，以使修剪可以继续。
通常上面提及的估计(计算)语言模式概率必须在运行时动态地加以计算和生成。该过程很费时间，尽管引入了高速缓存以节省总体计算开销。预先计算估计的概率并将它们存储在查询表中会显著地加快该过程。
在图1的示例中，假设Bphl是后继单词的第一个音素。在这种情况下，等式(3)中就会给出等式(2)的双格拉姆示例，如下所示Pestimated＝λwmax{P(w11|w0)，P(w12|w0)，P(w13|w0))(3).
根据情况，将修剪掉那些概率或条件概率低于阈值，或等于或低于阈值的单词。推导阈值的方法多种多样。例如，用一个数字乘以Pestimated或Pestimated减一个数字。
为加速解码过程，我们通过部署将内存需求限制在一个可控制的范围内的补偿机制定义了一个基于词汇树的n-gram语言模式格式，用于存储预先计算的估计概率。一般情况下估计的概率Pestimated可以通过如下所示的等式(4)获得Pestimated＝P(Sj|wn-1wn-2....w1) 其中Sj是潜在的后继单词的第j个状态。等式(4)包括括号中的三行。一般情况下，等式(4)的最顶行就是等式(2)。当然，等式(4)也可以用于不同的格拉姆，如单格拉姆、双格拉姆以及三格拉姆。等式(4)提供了等式(2)的近似值。只有当等式(4)的最顶行得到满足的情况下，Pestimated才会存储一个存储区中，例如存储在一个查询表中，这样查询表就可以控制在可管理的较小的水平。
在等式(4)中，我们不必存储补偿权重，因为它们与基于标准单词的n-gram语言模式中存储的权重完全相同。在解码中，补偿权重可以通过一个常规的文件来获得。在解码中，如果等式(4)的第一行得不到满足，那么如果适合的话，就使用带补偿权重的较低阶的估计概率。
用于修剪的概率可以只是后继单词的估计概率，或者估计概率与前辈单词的概率相加(例如，在图1中，p(w0)+Pestimated)。
在某些实施例中，查询表存储了基于树的n-gram的语言模式估计概率，如下所示。然而，也可以使用其他格式。
1-格拉姆p(s1)s1i-格拉姆(i＝1，...，n-1)p(si|wi-1...w1)w1...wi-1si…
n-gramp(sn|wn-1w1)w1...wn-1sn由于压缩词汇树中的节点的总数相当于辞典中的单词的总数，基于词汇树的n-gram语言模式并以等式(4)为近似值的词汇树的总存储，与传统的对应的基于单词的n-gram的语言模式相比，其阶是相同的。用于普通n-gram语言模式的处理技术可以应用到本发明的新的基于词汇树的语言模式文件中。
在某些实施例中，估计概率是在识别之前计算出的，并存储在一个查询表中。然而，为缩小表的大小，在某些实施例中，只存储那些直接从n-gram概率(不通过补偿)推导出的条目。从补偿概率推导出的条目(n-gram补偿到(n-1)-格拉姆)大致补偿到(n-1)-格拉姆估计概率。通过压缩，表的大小可以缩小到一个易控制的水平。
当到达一个单词的最后一个音素(或终节点)时，就可以识别出后继单词。例如，在图1中，一旦到达了音素ph5，就知道是单词w12。一旦知道了单词，就可以将估计概率替换为实际概率。这可以通过加上真实条件概率(例如，在图1中p(w12|W0))并减去估计概率来实现。在某些实施例中，在搜索期间的累积概率可以从第一个单词假设开始，例如，p(w1w2w3...wi)＝p(w1)+p(w2|w1)+P(w3|w2)+...+p(wi|wi-1)。可以使用概率的对数，以便将乘法转换为加法log(P1*P2)＝log(p1)+log(p2)。
真实概率在识别出最后一个音素之后即可确定，它可以表示成Ptrue＝p(Wpredecessor)+Pestimated+P(Wactual|Wpredecessor)-Pestimated。在图1的示例中，假设单词w12是实际单词，真实概率Ptrue＝p(w0)+Pestimated+P(W12|W0)-Pestimated，其中Pestimated可以通过上文所描述的方法获得。
词汇树的节点可以通过消除多余的节点来折叠或压缩。例如，在图1中，音素Bph1、ph2，ph3，和ph4可以折叠成一个状态(节点)。然而，在实际中，Bph1通常会有其他分支单词，因此可能不能用ph2-ph4折叠。音素ph6-ph10可以折叠成一种状态。在某些实施例中，有两种词汇树原来的一个用于语音识别器，压缩的词汇树用于语言模式。压缩词汇树可以用于在培训期间创建查询表。在培训中，可根据已知的技术从一个辞典创建词汇树。
有各种计算机系统可以应用在培训和语音识别系统中。仅作为一个示例，图2显示了一个计算机系统10的概要图，该计算机系统有一个处理器14、存储器16，以及输入/输出和控制块18。处理器14中有大量的存储量，存储器16可以代表不位于处理器14的芯片的存储器或者一部分位于但一部分不位于处理器14的芯片的存储器。(或者存储器16可以完全地位于处理器14的芯片上)。至少有一些输入/输出和控制块18可以与处理器14位于相同的芯片上，或者位于单独的芯片上。一个麦格拉姆风26、监视器30、附加存储器34、以及输入设备(比如键盘和鼠标38)、网络连接42，以及扬声器44都可以与输入/输出和控制块18相连接。存储器34可以代表各种存储器，如硬盘、CD-R0M或者DVD光盘。查询表可以是任何形式，不用作一个限制性术语。存储的估计概率可能全部在一起或者分散到不同的位置。表的一部分或者全部可以复制并放到不同的存储器中。查询表可能位于存储器16、存储器34或者其它地方。查询表22和24代表查询表的全部或一部分。再强调一点，图1中的系统只作说明用，本发明不仅限于采用这样的计算机系统的情形。用于实现本发明的计算机系统10和其他计算机系统可以是各种形式的电脑，如台式机、大型机和便携式计算机。
例如，图3显示了一个手提设备60，并带有一个显示器62，可以用来实现图2的部分或全部功能。手提设备有时可以与另一个计算机系统(如图2中的系统)进行连接。图2和3中的物体的形状和相对大小也不暗示其实际形状和相对大小。
各种存储器都可以算得上是计算机可读的介质，在上面可以存储指令，当执行这些指令时，便可以实施本发明的一些实施例。
其他信息和实施例已经实现了基于词汇树的采用上述格式的双格拉姆语言模式。通过使用预先计算的语言模式先行控制，我们不仅节省了估计概率的计算开销，节省量可达解码任务的总计算时间的15％，而且还节省了动态生成这些概率时必需的缓存所需要的大约50MB内存。(然而，这些数字只是示例，不是要求。)此外，我们的新语言模式格式还为我们提供了用合理的时间和内存处理更高阶的语言模式先行控制。
本说明中所提及的“实施例”、“一个实施例”、“一些实施例”或“其他实施例”是指至少在本发明的一些实施例中，不一定在所有实施例中包括的与实施例关联的一个特定功能、结构或特征。所说的“实施例”、“一个实施例”或“一些实施例”不一定都是指相同的实施例。
如果说明中说“可能”、“可以”、或“也许”包括一个组件、功能、结构或特征，那么该特定组件、功能、结构或特征不一定非要被包括。如果说明书或“权利要求书”中提及“一个”元素，那么并非意谓着只是一个元素。如果说明书或“权利要求书”中提及“其他”元素，那么并非排除有多个其他元素。
那些本领域的技术人员将会发现在本发明的范围内可以对前述的说明和附图作出许多变更。相应地，由下面的权利要求书以及对它的任何补正来定义本发明的范围。
权利要求
1.一种方法，包括创建词汇树；识别该词汇树中的开始音素；估计词汇树中具有特定的开始音素的单词的概率；以及至少存储一些估计的概率，其中补偿权重不与估计的概率一起存储。
2.根据权利要求1所述的方法，其特征在于只有在对应的n-gram存在的情况下才存储估计的概率。
3.根据权利要求1所述的方法，其特征在于估计的概率存储在一个查询表中。
4.根据权利要求3所述的方法，其特征在于查询表包括下列信息1-格拉姆p(s1)s1i-格拉姆(对于i＝1，...，n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
5.根据权利要求1所述的方法，其特征在于估计的概率Pestimated将根据下面的等式求出Pestimated＝其中Si是与一个特定的开始音素关联的单词的第j个状态，其中W(s)是从词汇树状态s可以得出的单词集，λw表示一个分数权重，其中只有在满足上述等式的第一行的情况下才存储估计的概率。
6.根据权利要求5所述的方法，其特征在于λw为1。
7.根据权利要求5所述的方法，其特征在于λw介于0和1之间，并为每个开始音素进行选择。
8.一种方法，包括接收音素并在词汇树中识别它们；以及通过使用从存储区中检索到的估计的概率来估计包含这些音素的单词的概率，其中检索概率不包括与估计的概率存储在一起的补偿权重。
9.根据权利要求8所述的方法，其特征在于估计的概率存储在一个查询表中。
10.根据权利要求9所述的方法，其特征在于查询表包括下列信息，其中s是词汇树的状态，p是一个概率1-格拉姆p(s1)s1i-格拉姆(对于i＝1，...，n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
11.根据权利要求8所述的方法，其特征在于补偿权重信息可以从存储在一个基于单词的n-gram语言模式中的权重推导出来。
12.根据权利要求8所述的方法，其特征在于估计的概率在建立一个修剪阈值时使用。
13.根据权利要求8所述的方法，其特征在于估计的概率根据下面的等式来确定Pestimated＝其中Sj是与一个特定的开始音素关联的单词的第j个状态，其中W(s)是从词汇树状态s可以得出的单词集，λw表示一个分数权重，只存储第一行的结果。
14.一个装置，包括一个计算机可读的介质，上面具有指令，在执行这些指令时会导致计算机系统执行如下操作创建词汇树；识别该词汇树中的开始音素；估计具有特定的开始音素的单词在词汇树中的概率；以及至少存储一些估计的概率，其中补偿权重不与估计的概率一起存储。
15.根据权利要求14所述的装置，其特征在于只有在对应的n-gram存在的情况下才存储估计的概率。
16.根据权利要求14所述的装置，其特征在于估计的概率存储一个查询表中。
17.根据权利要求16所述的装置，其特征在于查询表包括下列信息1-格拉姆p(s1)s1i-格拉姆(对于i＝1，...，n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
18.根据权利要求14所述的方法，其特征在于估计的概率Pestimated将根据下面的等式求出Pestimated＝其中Sj是与一个特定的开始音素关联的单词的第j个状态，其中W(s)是从词汇树状态s可以得出的单词集，λw表示一个分数权重，且其中只有在满足上述等式的第一行的情况下才存储估计的概率。
19.一个装置，包括一个计算机可读的介质，上面具有指令，在执行这些指令时会导致计算机系统执行如下操作接收音素并在词汇树中识别它们；以及通过使用从存储区中检索到的估计的概率来估计包含这些音素的单词的概率，其中检索概率不包括与估计的概率存储在一起的补偿权重。
20.根据权利要求19所述的方法，其特征在于估计的概率存储在一个查询表中。
21.根据权利要求20所述的方法，其特征在于查询表包括下列信息，其中s是词汇树的状态，p是一个概率1-格拉姆p(s1)s1i-格拉姆(对于i＝1，...，n-1)p(si|wi-1...w1)w1...wi-1sin-gramp(sn|wn-1w1)w1...wn-1sn
22.根据权利要求19所述的方法，其特征在于补偿权重信息可以从存储在一个基于单词的n-gram语言模式中的权重推导出来。
23.根据权利要求19所述的方法，其特征在于估计的概率根据下面的等式来确定Pestimated＝其中Sj是与一个特定的开始音素关联的单词的第j个状态，其中W(s)是从词汇树状态s可以得出的单词集，λw表示一个分数权重，将预先计算出第一行的结果，并加以存储。
24.根据权利要求19所述的装置，其特征在于该装置为一个磁盘。
全文摘要
在一些实施例中，本发明包括一种创建词汇树和识别该词汇树中的开始音素的方法。这些实施例使用的方法进一步包括估计在词汇树中具有特定的开始音素的单词的概率并至少存储一些估计的概率，其特征在于补偿权重不与估计的概率一起存储。估计的概率可以存储在一个查询表中。在其他实施例中，本发明包括一种接收音素并在词汇树中识别它们的方法。这些实施例的方法还包括通过使用从存储区中检索到的估计的概率来估计包含这些音素的单词的概率，其特征在于检索概率不包括与估计的概率存储在一起的补偿权重。同样，估计的概率可以存储在一个查询表中。估计的概率可以在建立修剪阈值时使用。这些方法可以通过计算机可读的介质上的指令来实现。
文档编号G10L15/187GK1406374SQ99817058
公开日2003年3月26日申请日期1999年12月23日优先权日1999年12月23日
发明者林志威, 严永宏, 赵青薇, 袁宝生申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林志威(音译);严永宏(音译);赵青薇(音译);袁宝生(音译)
技术所有人：英特尔公司
我是此专利的发明人

上一篇：划分字为词的全局方法
上一篇：用于分析－合成celp型语音编码的自适应窗的制作方法