语音识别装置及其方法

文档序号：2831056阅读：214来源：国知局

专利名称：语音识别装置及其方法
技术领域：
本发明涉及一种使用语法片段的语音识别装置，该语法片段是在对基于语法表达的、要被识别的语句执行语音识别处理时，将基于语法表达的语句划分为一个或多个语句片段的语法片段。
背景技术：
在语音识别领域内，一种通过对输入语音的语音特征以及与基于语法描述的要被识别的语句对应的语音特征模型进行匹配来进行语音识别的语音识别装置被广泛使用。
作为该描述识别词汇的语法，可以使用基于语句网络的表达、上下文
无关语法(Context-Free Grammar, CFG )以及有限状态语法(Finite State Grammar, FSG )等。
这些语法被存储在语音识别装置的内部的规定存储装置中，并且根据语音识别处理的进展从匹配单元参阅这些语法。在语音识别处理期间可以进4亍多次的这种参阅。因此，为了高速地进4亍语音识别处理，语法应该4皮存储在可以高速存取的存储装置中。当要被识别的词汇数量增加时，描述要被识别的词汇的语法的大小也会相应增加。因此，为了对大量的词汇进行语音识别处理，就需要用于存储语法的大容量存储装置。换句话说，语音识别装置需要具有可高速存取的大容量存储装置，以便于高速地对大量词汇执行语音识别处理。
但是，可高速存取的存储装置需要比只能低速存取的存储装置要高的成本。由于存储装置的成本随着容量而增加，因此可高速存取的大容量存
储装置的成本会纟艮高。因此，由于上述的成本问题，语音识别装置就有可
能不具备可高速存取的大容量存储装置。在这种情况下，取而代之地就会使用只能够进行低速存取但容量较大的存储装置。这种存储装置存在这样
的问题从匹配单元参阅语法的速度会降低，并且因此，语音识别处理的速度也会降低。
作为一种用于解决该问题的方法，提出有一种在日本专利No.3546633 中公开的技术(下文称为相关技术)(参见第14页，图l)。在该相关技术中，语法被分为语法片段，其中每个语法片段是汇集一组语法规则并概括化而成的，并且所有的这些语法片段都被存储在只能够进行低速存取但容量较大的存储装置(存储装置l:例如HDD)中。此外，在识别处理中匹配单元所参阅的语法片段被存储在能够高速存取但容量较小的存储装置 (存储装置2:例如RAM)中。此外，根据由该匹配单元执行的处理的进展，仅将该匹配单元应该参阅的语法片段从存储装置1传输至存储装置2。换句话说，当匹配单元最近应该参阅的语法片段没有存储在存储装置2中时，匹配单元执行的处理暂时中断，并且将相应的语法片段从存储装置1 传输至存储装置2。当完成该传输时，再次开始由该匹配单元执行的处理。
根据该相关技术，只有该匹配单元需要参阅的语法片段必须被存储，因此存储装置1的容量能够减小。
例如，考虑如下的情况对于具有诸如日本的地址之类的层次结构的要被识别的词汇，为各层次的各组(县名、市名、镇名)准备语法片段。在这种情况下，匹配单元应该参阅的语法片段限于与各层次中要被识别的候选相关的语法片段。换句话说，在由该匹配单元执行的处理中，当出现 "Kanagawa-ken"作为要被识别的县名的候选时，在接着的处理中仅参阅描述了与该"Kanagawa-ken"相关的市名和镇名的语法片段。结果，能够限制应该存储在上述存储装置1中的语法片段的数量，并且因此能够进一步减小该存储装置1的容量。由于由该匹配单元参阅的语法片段被存储在可高速存取的存储装置1中，因此可以保持高速地从匹配单元参阅语法片段。换句话说，才艮据相关技术，能够抑制与存储装置1的容量增长相关的成本增加，同时高速地执行语音识别处理。
但是，在该相关技术中，当匹配单元最近应该参阅的语法片段没有存
储在存储装置2中时，该匹配单元就会暂时停止处理，直到相应的语法片段被从存储装置1传输至存储装置2,并且当该传输完成时由匹配单元再次开始该处理。在这种情况下，当花费时间来传输语法片段时，由匹配单元执行的处理、即语音识别处理的执行将被延迟一个与传输语法片段所需的等待时间对应的时间量。
一般地，为了将数据从某一存储装置传输至另一存储装置，就会产生延迟时间，其中该延迟时间依赖于存储装置之间传输路径的速度。在相关技术中，由于设想从只能低速存取的存储装置1传输语法片段，因此也会产生延迟时间，其中该延迟时间对应于从存储装置1读出语法片段的时间。在相关技术中，延迟时间的总长度为语音识别处理的延迟时间，因此语音识别处理的速度也会相应地降低。
换句话说，在相关技术中，存在如下问题由于传输语法片段所需的等待时间而使得语音识别处理的速度降低，因此就无法高速地对大量词汇执行语音识别处理。

发明内容
鉴于上述问题，本发明的目的在于提供一种能够防止由于传输语法片段所需的等待时间而导致的语音识别处理速度的降低、从而实现高速的语音识别处理的语音识别装置及其方法。
根据本发明的实施例，提供了一种语音识别装置，包括生成单元，其被配置为对于具有任意的时间宽度的各帧，根据输入语音的特征生成语音特征序列；模型存储单元，其具有多个基于语法表达的语句以及通过划分各个语句而得到的一个或多个连续的语句片段，该模型存储单元被配置为存储状态转移模型，该状态转移模型用与上述语音特征相关的状态-状态转移表示各个语句片段的语音特征的时间系列变化；第一语法存储单元，其存储与属于上述各语句的一个或多个连续的语句片段相关的语法片段；笫二语法存储单元，其存储至少一部分从第一语法存储单元传输的上述语法片段，并能够以比第一语法存储单元所需的更短的读取时间来读出存储
在其中的信息；第一匹配单元，其通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，来获得由生成单元针对每个帧生成的语音特征序列的、状态转移模型的各个状态的前向概率；
语法传输单元，当第一匹配单元获得状态转移模型的所述状态中最终状态的前向概率时，其将与接续在所述连续的语句片段中的一个之后的后续语
句片段相关的语法片段从第一语法存储单元传输至第二语法存储单元；第二匹配单元，其通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，对于接续在上述语音特征序列之后、由生成单元针对每个帧生成的后续语音特征序列，获得状态转移模型的各个状态的前向概率；第三匹配单元，其通过参阅被传输到第二语法存储单元的上述后续语法片段以及存储在模型存储单元中的状态转移模型，对于各个帧的后续语音特征序列，获得状态转移模型的各个状态的前向概率；识别控制单元，其(1)对各个语句进行识别，(2)使第一匹配单元工作，直到开始后续语法片段的传输，(3)从传输的开始到完成，与传输并行地使第二匹配单元工作，U)—旦该传输完成，使第三匹配单元工作，以及 (5)重复(2)至(4)的操作，直到属于各个语句的语句片段的所有操作完成，以获得各个语句的最终的前向概率；以及识别单元，其输出一语句作为语音特征序列的识别结果，其中该语句在多个语句的各个的最终的前向概率中给出了最高的前向概率。
根据本发明的实施例，匹配操作与语法片段的传输并行地执行，从而能够防止由于用于等待语法片段的传输的等待时间而导致的语音识别处理的速度的降低，并且能够实现高速的语音识别处理。

图1是示出才艮据本发明第一实施例的语音识别装置的结构例子的方框
图2示出了要被识别的语句的例子；
图3是描述要被识别的语句的语法的例子；
图4是将描述要被识别的语句的语法划分为一个或多个语法片段的例
子；
图5是HMM的例子；
图6是连接多个对应于语句片段的HMM而成的HMM的例子；图7是具有多次转移的HMM的例子；
图8是用于说明对与多个语句片段对应的HMM状态序列进行匹配的
图9是用于说明根据第一实施例的由第一匹配单元执行的匹配处理的
图IO是表示执行相关技术中的匹配处理的情况的图；图11是用于说明由第一匹配单元执行的匹配处理的图；图12是用于说明由第二匹配单元执行的匹配处理的图；图13是用于说明由第一匹配单元执行的匹配处理的图；图14是第一实施例的流程图15是示出根据第二实施例的语音识别装置的结构例子的方框图；图16是用于说明由第一匹配单元和第二匹配单元执行的匹配处理的
图17是用于说明由第三匹配单元执行的匹配处理的图；以及
图18是第二实施例的流程图。
标号说明
101:特征提取单元，102:第一语法存储单元，103:第二语法存储单元，104:语法传输单元，105:模型存储单元，106:识别控制单元，107: 第一匹配单元，108:第二匹配单元。
具体实施方式
第一实施例
现在参照图1至图14描述才艮据本发明第一实施例的语音识别装置。(1)语音识别装置的结构图1是示出根据第一实施例的语音识别装置的结构例子的方框图。
该语音识别装置包括特征提取单元101、第一语法存储单元102、笫二语法存储单元103、语法传输单元104、模型存储单元105、识别控制单元 106、第一匹配单元107以及第二匹配单元108。
可以由存储在计算机中的程序来实现各个单元101至108的功能。下面通过对各个块的说明来详细描述该语音识别装置。 (2 )特征提取单元101
特征提取单元101对于具有某一时间宽度的每一帧，根据输入的语音信号生成语音特征序列X(t)=(x(l)， x(2)，…，x(T))。在该表示中，x(t)表示第t帧t的语音特征。在这种情况下，设定l=<t=<T，并且t = 1对应于作为语音识别的目标的输入语音的开始位置，并且t - T对应于输入语音的
结束位置。
具有一维或一维以上的元素的向量被用于语音特征。这样的语音特征向量以Mel频率倒镨系数(MFCC)为例。该MFCC是这样的一种方法通过对于帧t的语音频镨，取Mel滤波器组输出的对数值，进而应用离散余弦变换(DCT)进行提取出较低阶成分的倒频i瞽(cepstrum)分析，来生成语音特征向量。
在特征提取单元101中使用的语音特征，不限于MFCC，而可以使用任意的语音特征。
(3)第一语法存储单元102
第一语法存储单元102存储描述要被识别的语句的语法。该语法以一个或多个对于语句片段的每一个划分而成的语法片段的形式存储。下面将使用图2至图4来描述语句片段和语法片段的例子。 (3-1)语句片段
图2是示出要被识别的语句的表，其是各自包括四个语句片段的7个要被识别的语句的例子。在图2中，用Wn (n:单词编号)表示构成要被识别的语句的语句片段。
(3誦2 )语法
图3是描述图2中所示的要被识别的语句的语法的例子。图3中的语法包括节点Nn (n:节点编号)以及连接节点间的有向弧线。节点中的ST和ED表示各个语法的开始和结束。对于各个弧线，都赋予语句片段Wn，并且通过沿着从开始节点ST到结束节点ED延伸的弧线来获得要被识别的语句。例如，在图3所示的语法中，通过从开始节点 ST开始，沿着被赋予了单词Wll、 W21、 W31以及W41的弧线，直到结束节点ED，来获得图2中句子编号1所表示的要被识别的语句 "W11-W21-W31-W41"。 (3-3)语法片段
图4例示了将基于图3中的语法表达的语句划分为一个或多个语句片段、与这些语句片段相关的语法片段的例子。
在图4的例子中，图3中的语法被划分为6个语法片段A-F。图4中的每个语法片段都由图3中的语法以及弧线的一部分构成。例如，图4中的语法片段A由图3的语法中开始节点ST、弧线Wll和W22以及能够从该弧线到达的节点Nil和N12构成。
语法片段A中的节点Nil和语法片段B中的节点Nll为相同节点，其表示该语法片IS: A和语法片段B能够通过节点Nil相接。换句话说，语法片段B为语法片段A的后续语法片段。因此，当语法通过弧线Wll 从语法片段A的节点ST到达节点Nil时，它还能进一步沿着源自语法片段B的节点Nll的弧线继续。这种关系同样也可应用于其他语法片段，并且该语法片段与该其他语法片段通过相同的节点相连。
利用这种连接关系，图4中的语法片段表示与图3所示语法中相同的要被识别的词汇。
(3-4)划分语法的方法
图4示出的是图3中的语法被划分为6个语法片段的例子。但是，可以根据语音识别装置的用户的需求来选择划分方法。
例如，可以如图4中的语法片段C那样，通过从语法片段的开始直到
末尾沿着多个弧线来对语法进行划分。
作为选择，也可以如语法片段F那样，对语法进行划分，以便具有多个在前语法片段。
不仅如图4中的例子所示将语法划分为6个语法片段，而可以将语法划分为一个或多个的任意数量的语法片段。
并且，可以汇集例如图4中的语法片段B和语法片段E那样没有彼此接连关系的节点和弧线的集合而确定为一个语法片段，或者进而细化语法片段B而划分为两个语法片段。 (3-5)存储内容
第一语法存储单元102存储全部的图4中所示的一个或多个语法片段。换句话说，存储为了描述要被识别的语句所需的所有语法片段。
因此，第一语法存储单元102必须具有足够的容量来存储所有的语法片段。这种情况下所需的存储容量与语法的大小、即要被识别的语句的数量成比例。当要被识别的语句数量如所有的日本的地址那样相对较大时，第一语法存储单元102相应地也需要具有较大的容量。
作为这样的大容量存储装置，可以采用硬盘驱动器(HDD) 该大容量存储装置并不仅限于HDD,而也可以采用其他任意的存储装置。 (4 )第二语法存储单元103
第二语法存储单元103存储图4中所示的语法片段中的一个或多个语
法片段。
由于下面所述的原因，第二语法存储单元103的容量相对小于笫一语法存储单元102。但是，基于下述原因，第二语法存储单元103优选地是可高速存取的存储单元。从第二语法存储单元103获取数据的读出时间需要比从第一语法存储单元102获取数据的读出时间要短。
作为可高速存取的存储装置，可以采用随机存取存储器(RAM)。该可高速存取的存储装置不限于RAM，而可以采用任意的存储装置。 (5 )语法传输单元104
语法传输单元104将语法片段从第一语法存储单元102传输至第二语
法存储单元103,其中该语法片段是在由后面描述的第一匹配单元107执行的匹配处理中需要参阅的。
在后面描述的第一匹配单元107的匹配处理开始之前的阶段，包括有语法的开始节点的语法片段被预先从第一语法存储单元102传输至第二语法存储单元103。
在图4所示例子中，包括开始节点ST的语法片段A被预先传输给笫二语法存储单元103。该第一匹配单元107在存储于第二语法存储单元103 中的语法片段中参阅包括有开始节点的语法片段，并开始匹配处理。 (6)模型存储单元105
模型存储单元105存储状态转移模型，其中该状态转移模型表示要被识别的语句或语句片段的语音特征。下文中，该状态转移模型被简单表示为"声音模型"。
作为适于语音识别的声音模型，可以是隐马尔可夫模型(Hidden MarkovModel, HMM )。该HMM被用以下内容定义一个或多个状态 Si、初始状态的集合SS、最终状态的集合SF、从某一状态Sj到某一状态 Si的转移概率Aji、从某一状态Sj到某一状态Si的转移路径中语音特征向量x的输出概率Bji (x)以及状态Si的初始概率PSi。在这种情况下，设定Xi^〈NS并且l-〈j-〈NS,其中NS是构成HMM的状态总数。
图5示出了 HMM的一个例子。图5示出的是状态数NS-4的HMM 的例子，并且其是在语音识别中通常使用的、称为左-右型的拓朴(结构) 的應M。
作为HMM的特点，能够通过将对应于某一语句片段的多个HMM连接在一起来获得更长语句的HMM。例如，如图6所示，通过将对应于语句片段Wll以及语句片段W21的两个HMM连接在一起来获得语句 "W11-W21"的HMM。下文中，以使用图5中所示的HMM作为声音模型为前提来继续说明。
这里，所谓"状态转移模型(声音模型)，，，表示语音特征的时间系列变化，并且该状态转移模型中的"各个状态，，表示在该时间系列变化中
的某一时间点上的语音特征。如图5所示，通过利用转移(箭头)连接这些状态，能够将语音特征的时间系列变化表示为整个声音模型。更具体地, "各个状态"输出某一时间点上的语音特征的"输出概率"，并且使用输出概率根据如下的表达式(1)至(3)来计算"前向概率"。
作为声音模式，能够使用包括图5中的例子的任何HMM。例如，使用如图7的HMM那样具有多个转移路径的HMM。声音模型不限于 HMM,而也可以采用如时间系列模板模型那样具有状态转移的任意模型。 (7)第一匹配单元107
第一匹配单元107对语音特征序列以及声音模型进行匹配。
(7-1)匹配方法下面4笛述该匹配方法。
(7-1-1 )计算自HMM的输出概率
对于语音特征序列X，计算对应于要被识别的某一语句w的HMM的输出概率P(Xlw)。这里，设定1=<评=<\￥,并且W是要被识别的语句的总数。当表达式P(X!w)被简写为P(X)时，用表达式(l)、表达式(2)以及表达式(3)来计算P(X)。
P(X)-maxi(ot(i， T))(其中SicSF) ... (1) oc(i， O)-PSi (其中SicSS) ... (2) oc(i, t) = max i(Aji*Bji(x(t))*a(j， t-l))…(3) 其中，a(i， t)是从HMM的初始状态转移到第t帧的HMM的状态 Si的前向;f既率。
在HMM中，由于从初始状态到笫t帧的状态Si的转移路径存在多个，因此应该将前向概率计算为多个转移路径的各个的前向概率的总和。但是，在表达式(3 )中，从多个转移路径中选择提供最大的前向概率的转移路径，并且将其前向概率确定为第t帧的状态Si的前向概率。该方法被称为维特
比(Viterbi)方法。在语音识别领域内，公知的，该维特比方法是求取多个转移路径的前向概率的总和的方法的优选近似。
第一匹配单元107，如表达式(1)所示，利用第T帧的状态Si的前
向概率来计算针对于语音特征序列X的要被识别的语句w的输出概率 P(X|w)，其中状态Si为SicSF。
还有，对于多个要被识别的语句w计算输出概率P(Xlw)，并且将其中提供最大的输出概率的要被识别的语句w输出作为匹配结果。 (7-1-2)参阅变量的方法
从对应于要,皮识别的语句w的HMM提供表达式(1)、表达式(2 ) 以及表达式(3)中依赖于HMM的变量，即初始状态的集合SS、最终状态的集合SF、转移概率Aji、输出概率Bji以及初始概率PSi。
通过参阅由第二语法存储单元103中存储的一个或多个语法片段描述的要被识别的语句及其语句片段，以及参阅存储在模型存储单元105中的、对应于要被识别的语句及其语句片段的HMM来获得这些变量。
因此，为了足够高速地执行第一匹配单元107中的处理，应该高速地进行对要被识别的语句及其语句片段的参阅。因此，需要能够高速地参阅存储在第二语法存储单元103中的一个或多个语法片段。换句话说，第二语法存储单元103优选地能够高速存取。
如表达式(3)所示的，用按照第t帧的增加的递推公式来计算针对于语音特征序列X的HMM的状态Si的前向概率cx(i， t)。
因此，即使在并不是所有的语法片段都存储在第二语法存储单元103 中，而是只有要被识别的语句的语句片段能够被参阅时，也可以开始基于表达式(3)的前向概率的计算。
例如，当使用如图4中所例示的语法片段时，如果图4的语法片段中包括开始节点ST的语法片段A存储在第二语法存储单元103中，则通过
的HMM，能够开始基于表达式(3)的前向概率的计算。 (7-2 )传输方法
为了能够进4亍上述参阅处理，该语法传输单元104预先将包含开始节点的语法片段从第一语法存储单元102传输至第二语法存储单元103。
接着，语法传输单元104根据第一匹配单元107的处理的进展，将后
续语法片段从第一语法存储单元102传输至第二语法存储羊元103。下面参照图4来描述该传输方法。
首先，开展对于HMM的表达式(3)的前向概率的计算，其中该HMM 对应于由图4的语法片段A描述的语句片段Wll。
接着，当开展时，计算对应于该语句片段Wll的HMM的最终状态的前向概率。
接着，由于第一匹配单元107需要参阅对应于该语句片段Wll的后续语句片段W21和W22的HMM，以便于进一步推进该前向概率的计算，因此语法传输单元104将语法片段B传输给第二语法存储单元103。
随后，第一匹配单元107通过参阅由作为所传输的后续语法片段的语法片段B描述的后续语句片段W21和W22，进而从模型存储单元105参阅与其对应的HMM，能够继续基于表达式(3)的匹配处理。
以这种方式，通过语法传输单元104根据第一匹配单元107的处理的进展来传输所需的语法片段，能够有效地限制用第二语法存储单元103存储的语法片段的数量。例如，为了在参阅图4中所示的语法片段时计算要 4皮识别的语句"W11-W21-W31-W41"的输出概率，可以是^f又四个语法片段A、 B、 D和F必须被存储在第二语法存储单元103中。这时，通过以提供比其他语句片段更高的前向概率的语句片段为对象，优先地传输包括有这些语句片段的后续语句片段的语法片段，能够实现对于要传输的语法片段的有效选择。因此，与第一语法存储单元102的容量相比，第二语法存储单元103的容量能够减小。 (7-3)问题
但是，当与相关技术中同样只使用第一匹配单元107时，会产生如下问题处理的执4亍将被延迟与由语法传输单元104执行的语法片段的传输所需的传输时间对应的时间量。下面参照图8-10来描述该问题。
图8示出了 HMM状态序列，该HMM状态序列是在用图4中所示的语法片段的集合表达的语法以及要被识别的语句中，在计算针对语句 "W11-W21"的前向概率中应该计算前向概率的HMM状态序列，其中语
句"W11-W21"是与由语法片段A描述的语法片段Wll以及由语法片段 B描述的语法片段W21接续的语句。图8中的纵轴示出了对应于语句片段 Wll的HMM状态序列S1 S3以及对应于语句片段W21的HMM状态序列S4 S6。图8中的横轴示出了各个帧的语音特征序列。图8中的纵轴与横轴的交点表示帧t的HMM的状态Si,并且需要对于这些交集计算前向概率oc(i， t)。这些交点之间的弧线表示HMM的状态之间的转移路径。
第一匹配单元107通过根据表达式(3)计算各个交点的前向概率，来推进匹配处理。在初始状态下，只有语法片段A被存储在第二语法存储单元103中。因此，只有对应于由语法片段A描述的语句片段Wll的HMM 状态序列Sl-S3才能够被参阅。该情况在图9中示出。
在图9中，用虚线表示对应于由还未被传输至第二语法存储单元103 中的语法片段B描述的语句片段W21的HMM状态序列。第一匹配单元 107首先计算对应于语句片段W11的HMM状态序列的前向概率。在图9 所示的例子中，在第3帧(t=3)的时间点，直到语句片段Wll的最终状态S3的前向概率oc(3， 3)的计算已完成。在图9中，前向概率的计算结果被图示为阴影线的点。为了进一步继续前向概率的计算，需要参阅对应于由语法片段B描述的语句片段W21的HMM状态序列。因此，在该时间点上，语法传输单元104将语法片段B从第一语法存储单元102传输至第二语法存储单元103。
这里，当仅仅使用了第一匹配单元107时，在语法片段的传输完成了的时间点，重新开始第一匹配单元107的匹配处理。换句话说，如图10 在框线内所示出的，对于笫4帧(t=4)之后的帧的语音特征序列，计算对应于语句片段Wll和语句片段W21的HMM状态序列S1 S6的前向概率。这时，前向概率的计算被暂时中断，直到语法传输单元104完成了对于语法片段的传输为止。因此，第一匹配单元107的处理被延迟与语法传输单元104执行的语法片段的传输所需的传输时间对应的时间量，其在整体上成为该语音识别装置的处理延迟。
当将为了在第tl帧~第t2帧(tl < t2 )之间执行以HMM状态序列中
的第i状态第j状态(i<j)为对象的匹配处理、即前向概率的计算所需
的时间表示为D(tl:t2， Si:Sj)时，用下面的表达式(4)来给出在图8-10 所示的匹配处理中，为了直到第6帧(t = 6 )为止计算HMM状态序列Sl-S6 的前向概率所需的时间D(l:6， S1:S6)。
D(l:6， S1:S6)-D1(1:3， S1:S3) + Dt(B) + Dl(4:6， S1:S6) "(4) 其中Dt(B)是在语法传输单元104中为了传输语法片段B所需的传输等待时间，并且Dl()为第一匹配单元107为了计算前向概率所需的时间。一般地，当在不同的两个存储装置之间传输数据时，就会产生某一长度的传输等待时间。
当使用只能低速存取的大容量存储装置作为第一语法存储单元102 时，在开始传输语法片段时，也会产生用于从第一语法存储单元102读出语法片段的等待时间。
根据这些因素，用于传输任意的语法片段g的时间Dt(g)会增加。因此，即使能够利用可高速存取的第二语法存储单元103使前向概率的计算所需的处理时间高速化，传输语法片段所需的时间也会增加，结果就会产生如下问题计算前向概率所需的时间D(tl:t2， Si:Sj)增加了。 (7-4)解决该问题的手段
鉴于上述问题，在第一实施例中，提供了将在后面描述的第二匹配单元108和识别控制单元106,并且与语法片段的传输并行地激活该第二匹配单元108,以4更解决该问题。下面描述用于解决该问题的操作。 (8)第二匹配单元108
与第一匹配单元107的情况同样，第二匹配单元108也根据表达式(1 )、表达式(2)以及表达式(3)对语音特征序列和声音模型进行匹配。但是，在语法传输单元104传输语法片段时，第二匹配单元108与语法片段的传输并行地执行匹配处理。下面参照图11~13来描述该处理的情况。图11~13 与图8~10同样，示出了由第一匹配单元107和第二匹配单元108执行的前向概率的计算的情况。
(8-1)传输语法片段期间的处理
图11与图9同样，示出了在第3帧(t=3)的时间点，直到语句片段 Wll的最终状态S3的前向概率a(3, 3)的计算已完成的状态。图11中所示的前向概率的计算由如上所述的第一匹配单元107来执行。
从这一时间点开始，语法传输单元104将语法片段B从第一语法存储单元102传输至第二语法存储单元103。
与该语法片段的传输并行地，第二匹配单元108对已经存储在第二语法存储单元103中的语法片段A执行匹配处理、即对应于由语法片段A描述的语句片段Wll的HMM状态序列的前向概率的计算。该状态在图12 中示出。
图12示出了在由语法传输单元104执行的语法片段的传输期间，由第二匹配单元108执行的前向概率的计算的状态。如图12中的框线内的区域所示，第二匹配单元108对从第4帧(t=4)到第6帧(t=6)的语音特征序列，计算对应于由语法片段A描述的语句片段Wll的HMM状态序列 S1 S3的前向概率。
第二匹配单元108中的前向概率的计算持续到语法传输单元104完成了语法片段的传输为止。这里，如图12所示，在第二匹配单元108完成了针对笫6帧(t=6)的语音特征的前向概率的计算的时间点，认为语法传输单元104执行的对于语法片段的传输已完成。 (8-2)传输语法片段之后的处理
在语法片段的传输完成了的时间点，由第二匹配单元108执行的处理结束，并且由第一匹配单元107执行的匹配处理再次开始。
这时，第一匹配单元107的计算前向概率的范围，是在图13的框线内表示的范围。换句话说，对于从第4帧(t=4)到第6帧(t=6)的语音特征序列，计算对应于由最近传输的语法片段B描述的语句片段W21的 HMM状态序列S4 S6的前向概率。与示出了不使用第二匹配单元而仅用笫一匹配单元107来计算前向概率的情况的图IO相比，在图13的框线内表示的范围在计算前向概率的范围上得以被限制
因此，与表达式(4)的情况相比，为了直到第6帧(t-6)计算HMM
状态序列S1 S6的前向概率所需的时间D(l:6， S1:S6)减少了。更具体地，用下面的表达式(5 )给出使用第二匹配单元108的情况下为了计算前向概率所需的时间D(1:6， S1:S6)。
D(l:6， S1:S6)-D1(1:3， S1:S3) + Dt(B) + Dl(4:6， S4:S6) …(5) 其中传输语法片段B所需的时间Dt(B)等于在第二匹配单元108中对于从第4帧(t=4 )到第6帧(t=6 )的语音特征序列计算HMM状态序列 S1 S3的前向概率所需的时间。即，Dt(B)-D2(4:6， S1:S3)。因此，可以将表达式(5)变形为表达式(6)。
D(l:6， S1:S6) = D1(1:3, S1:S3) + D2(4:6， S1:S3) + Dl(4:6， S4:S6)...
(6)
第一匹配单元107和第二匹配单元108之间在计算前向概率的时间上没有差别。即，D2(4:6， S1:S3) = D1(4:6， S1:S3)。因此，可以进一步将表达式(6)变形为表达式(7)。
D(l:6， S1:S6) = D1(1:3， S1:S3) + Dl(4:6， S1:S3) + Dl(4:6， S4:S6)= Dl(l:3， S1:S3) + D1(4:6， S1:S3) …(7)。 (8-3)并行处理的效果
如果对表达式(4)和表达式(7)进行比较，则当传输语法片段所需的时间变为Dt(B)-0时，表达式(7)等于表达式(4)，并且左侧小于表达式(4)。
换句话说，通过由第二匹配单元108与语法片段的传输并行地执行处理，能够从为了计算前向概率所需的时间D中消除传输语法片段B所需的
时间的影响。
因此，能够通过减小第二语法存储单元103的容量来抑制成本的增加，并且能够执行高速的匹配处理，而不会受到由语法传输单元104执行的语法片段从第一语法存储单元102至第二语法存储单元103的传输所需的时间的影响。
(9)识别控制单元106
识别控制单元106监视语法传输单元104的语法片段的传输状态，并
根据传输状态在第一匹配单元107与第二匹配单元108之间切换操作。
换句话说，当语法传输单元104根据由第一匹配单元107进行的匹配
处理的进展开始传输语法片段时，识别控制单元106将操作从第一匹配单
元107切换至第二匹配单元108,以由该第二匹配单元108与语法片段的
传输并行地执行匹配操作。
一旦语法传输单元104完成了语法片段的传输，识别控制单元106就
将操作从第二匹配单元108切换至第一匹配单元107，以重新开始由该第
一匹配单元107执4亍的处理。 (10 )操作
现在参照图14描述第一实施例的操作。图14是表示第一实施例的操作的例子的流程图。
由于特征提取单元101的操作流程对于本领域的技术人员来说是明了的，因此在该流程图中省略了对该部分内容的描述。下面逐个步骤地(操作步骤S1至S7)描述基于图14所示的流程图的操作。
(Sl):语法传输单元104根据由第一匹配单元107执行的匹配处理的进展，判断是否需要传输语法片段。当需要传输语法片段时，该处理前进至步骤S4。如果不需要，则处理前进至步骤S2。
(S2 ):第一匹配单元107参阅存储在笫二语法存储单元103中的语法片段，并进行匹配处理。
(53) :当由第一匹配单元107或第二匹配单元108执行的对于与输入语音的末端对应的语音特征的匹配处理完成时，处理前进至步骤S7。如果没有，则处理前进至步骤S1，以继续匹配处理。
(54) :语法传输单元104将笫一匹配单元107所需的语法片段从第一语法存储单元102传输至第二语法存储单元103。
(S5 ):第二匹配单元108参阅存储在第二语法存储单元103中的语法片段，并且与语法传输单元104执行的语法片段的传输并行地执行匹配处理。
(S6 ):识别控制单元106监视语法传输单元104执行的语法片段的
传输的状态。当语法片段的传输完成时，处理前进至步骤S3。当语法片段的传输未完成时，处理前进至步骤S5，在其中第二匹配单元108继续处理。
(S7):第一匹配单元107或第二匹配单元108输出提供最高的前向概率的要被识别的语句，作为识别结果。
(11 )优点
以这种方式，在第一实施例中，能够通过减小第二语法存储单元103 的容量来抑制语音识别装置的成本的增加，并且能够实现高速的匹配处理，而不会受到用于等待由语法传输单元104执行的语法片段从第一语法存储单元102至第二语法存储单元103的传输的传输等待时间的影响。 (12)变体
本发明并不限于第一实施例，在实施阶段，在不脱离本发明的范围的情况下，可以对组成要素进行修改。可以根据需要通过对该实施例中所公开的多个组成要素进行组合而按照各种方式对本发明进行修改。例如，可以从该实施例中公开的所有组成要素中去掉一些组成要素。并且，可以根据需要对不同实施例中的组成要素进行组合。
例如，在上述实施例中，提供了两个匹配单元，即第一匹配单元107 和笫二匹配单元108，并且利用识别控制单元106来切换这些匹配单元的操作。
但是，也可以采用这样一种结构利用单个匹配单元代替第一匹配单元107和笫二匹配单元108,并且该匹配单元根据来自识别控制单元106 的指示，对其内部处理进行切换，使得该匹配单元的操作等同于笫一匹配单元107或第二匹配单元108的操作。
第二实施例
现在参照图11、图12以及图15-18来描述# 据第二实施例的语音识别装置。
(1)第二实施例的特征根据第一实施例中用于利用第一匹配单元107和第二匹配单元108执行的前向概率的计算的表达式(3),第t帧的前向概率的计算仅仅依赖于
前一帧t-l的前向^既率以及帧t的语音特征X(t)。因此，当在匹配处理中计
算第t帧的前向概率oc(i, t)时，可以仅存储第t-l帧的前向概率oc(i， t-l) (l=<i=<NS)，以对于第t帧的语音特征x(t)计算前向概率。
以这种方式，通过在计算第t帧的前向概率时仅存储第t-l帧的前向概率cc(i， t-l)而忽略掉其他计算完毕的前向概率，可以显著降低为了存储任意的前向概率所需的存储器量。
还有，通过仅参阅第t帧的语音特征x(t)而忽略掉第t帧之前的帧的语
音特征序列，也能够显著降低为了存储任意的前向概率所需的存储器量。如下面所述，第二实施例的优点就在于，在匹配单元执行的前向概率的计算的过程中，为了存储前向概率以及语音特征序列所需的存储器量被
显著降低。
(2)语音识别装置的结构
图15是示出了根据第二实施例的语音识别装置的结构例子的方框图。
该语音识別装置基本上具有与表示第一实施例的图1中所示的方框图相同的结构，包才舌特征提取单元101、第一语法存储单元102、第二语法存储单元103、语法传输单元104、模型存储单元105、识别控制单元106、第一匹配单元107以及第二匹配单元108。第二实施例还包括第三匹配单元109、语音特征存储单元110以及概率存储单元111。
在下面的说明中，仅对与第一实施例不同的部分进行描述。 (3 )语音特征存储单元110
语音特征存储单元110与帧编号相关联地存储在语法传输单元104传输语法片段期间、在由第二匹配单元108执行的匹配处理中被参阅的语音特征序列。下面参照图12和图16来描述该操作。
图12中框线内的区域表示第二匹配单元108执行的前向概率的计算的状态。在图12所示的例子中，在从第4帧(t=4)至第6帧(t-6)之间，计算与由语法片段A描述的语句片段Wll对应的HMM状态序列S1 S3 的前向概率。这时，语音特征存储单元IIO，如图16中在框线内(语音特征序列)所例示的那样，与帧编号关联起来存储在第二匹配单元108进行
的匹配处理中被参阅的语音特征序列x(4)、 x(5)和x(6)。
(4) 概率存储单元lll
当第一匹配单元107和第二匹配单元108，到与包括后续语句片段的语句片段对应的HMM状态序列的最终状态为止，计算出了前向概率时，概率存储单元111就会与帧编号关联起来存储相应的最终状态的状态编号及其前向概率。
下面参照图11、 12和16描述该操作。
图11示出了第一匹配单元107计算与由语法片段A描述的语句片段 Wll对应的HMM状态序列的前向概率的计算的状态。在图ll中，计算笫3帧(t =3)的、与语句片段Wll对应的HMM状态序列的最终状态 S3的前向概率。
图12的框线内的区域示出了第二匹配单元108执行的、与由语法片段 A描述的语句片段Wll对应的HMM状态序列的前向概率的计算的状态。该前向概率的计算与语法传输单元104执行的语法片段B的传输并行地执行。
图16是将图11和图12组合在一起的图，其汇总地示出了由此前描述的第一匹配单元107和第二匹配单元108执行的前向概率的计算的状态。图16的框线内的区域是由第一匹配单元107和第二匹配单元108计算的、 HMM状态序列中的最终状态S3的前向概率。
在图17所示的例子中，在从第3帧(t=3 )到第6帧(t=6 )期间，计算最终状态S3的前向概率。这时，概率存储单元111与帧编号关联起来存储图17的框线内所示的HMM状态序列中的最终状态S3的状态编号以及前向概率a(3， 3)、 ct(3, 4)、 oc(3， 5)和ot(3, 6)。
(5) 第三匹配单元109
从语法传输单元104完成了语法片段的传输的时间点开始，第三匹配单元109对于存储在语音特征存储单元110中的语音特征序列，计算与由语法传输单元104已传输了的后续语法片段描述的要被识别的词汇及其语句片段对应的HMM状态序列的前向概率。在计算该前向概率时，参阅与
存储在概率存储单元111中的在前语句片段对应的HMM状态序列的最终状态的前向概率。下面利用图17中的例子来描述该操作。
图17的由虚线框包围的区域示出了图16的例子中存储在语音特征存储单元110中的语音特征序列x(4)、 x(5)和x(6)以及存储在概率存储单元 111中的前向概率oc(3, 3)、 oc(3， 4)、 oc(3， 5)和oc(3， 6)。图17的框线内示出了第三匹配单元109针对存储在语音特征存储单元110中的语音特征序列的HMM状态序列的前向概率的计算的状态。这时，为了计算图17 的框线内的HMM状态序列的前向概率，就需要参阅图17的由虚线框包围的语音特征序列x(4)、 x(5)和x(6)以及前向概率oc(3， 3)、 oc(3， 4)、 oc (3, 5)和a(3, 6)。这些值被存储在如上所述的语音特征存储单元110和概率存储单元111中。
为了利用第三匹配单元109计算第t帧的前向概率，除了存储在语音特征存储单元110中的语音特征序列以及存储在概率存储单元111中的最终状态的前向概率以外，仅存储第t-l帧的前向概率oc(i， t-l)即可。在图 17所示的例子中，为了计算第5帧(t=5)的前向概率ot(i， 5)(4=<i=<5)，仅存储在第4帧(t=4 )计算的前向概率oc (i， 4) (1=4)即可。并且，为了计算第6帧(t=6)的前向概率，仅存储在第5帧(t=5)计算的前向概率即可，而无需存储在第4帧(t=4)计算的前向概率。以这种方式，在第三匹配单元109执行的前向概率的计算中，计算过程中应该存储的前向概率oc (i, t)的数量能够显著减少。
在由第一匹配单元107和第二匹配单元108执行的前向概率的计算中也是，为了计算第t帧的前向概率，仅存储第t-l帧的前向概率即可。因此，计算过程中应该存储的前向概率的数量能够显著减少。
该第一匹配单元107和第二匹配单元108仅参阅第t帧的语音特征x(t) 即可，而无需存储其他的语音特征序列。 (6)识别控制单元106
该识别控制单元106监视语法传输单元104的语法片段的传输状态，并根据传输状态在第一匹配单元107、第二匹配单元108以及第三匹配单
元109之间切换操作。
首先，当语法传输单元104根据由第一匹配单元107进行的匹配处理的进展开始传输语法片段时，识别控制单元106将操作从第一匹配单元107 切换至第二匹配单元108，以由该笫二匹配单元108与语法片段的传输并行地执行匹配操作。
接着，一旦语法传输单元104完成了语法片段的传输，识别控制单元 106就将操作从第二匹配单元108切换至第三匹配单元109，以由第三匹配单元109开始执4亍匹配处理。
接着，在第三匹配单元109完成了针对存储在语音特征存储单元110 中的语音特征序列的匹配处理的时间点，识别控制单元106将操作从第三匹配单元109切换至第一匹配单元107，以重新开始由该第一匹配单元107 执4亍的匹配处理。 (7 )操作
现在参照图18描述第二实施例的操作。图18是表示第二实施例的操作的例子的流程图。
由于特征提取单元101的操作流程对于本领域的技术人员来说是明了的，因此在该流程图中省略了对该部分内容的描述。下面逐个步骤地(操作步骤S1至S15)描述基于图18所示的流程图的操作。
(51) :语法传输单元104根据由第一匹配单元107执行的匹配处理的进展，判断是否需要传输语法片段。当需要传输语法片段时，该处理前进至步骤S4。如果不需要，则处理前进至步骤S2。
(52) :第一匹配单元107参阅存储在第二语法存储单元103中的语法片,殳，并进4亍匹配处理。
(53) :概率存储单元111,在第一匹配单元107计算出的前向概率中，与帧编号关联起来存储与具有后续语句的语句片段对应的HMM状态序列的最终状态的前向概率。
(54) :当由第一匹配单元107或第二匹配单元108执行的对于与输入语音的末端对应的语音特征的匹配处理完成时，处理前进至步骤S7。如
果没有，则处理前进至步骤S1，以继续匹配处理。
(S5):语法传输单元104将第一匹配单元107所需的语法片段从第一语法存储单元102传输至第二语法存储单元103。
(S6 ):第二匹配单元108参阅存储在第二语法存储单元103中的语法片段，并且与语法传输单元104执行的语法片段的传输并行地执行匹配处理。
(57) :语音特征存储单元110与帧编号关联起来存储在第二匹配单元108执行的前向概率的计算中参阅的语音特征序列。
(58) :概率存储单元lll，在第二匹配单元108计算出的前向概率中，与帧编号关联起来存储与具有后续语句的语句片段对应的HMM状态序列的最终状态的前向概率。
(S9 ):识别控制单元106监视语法传输单元104执行的语法片段的传输的状态。当语法片段的传输完成时，处理前进至步骤SIO。当语法片段的传输未完成时，处理前进至步骤S6，在其中第二匹配单元108继续处理。
(510) :第三匹配单元109，对于存储在语音特征存储单元110中的语音特征序列，参阅存储在概率存储单元111中的HMM状态序列的最终状态的前向概率，并执行匹配处理。
(511) :识别控制单元106监视第三匹配单元109，并且当第三匹配单元109的处理完成时，处理前进至步骤Sll。如果未完成，则处理前进至步骤SIO，其中第三匹配单元109继续处理。
(512) :笫一匹配单元107、第二匹配单元108、第一匹配单元109 输出提供最高的前向概率的要被识别的语句，作为识别结果。
(8 )优点
如上所述，才艮据第二实施例，在第一匹配单元107、第二匹配单元108 以及第三匹配单元109执行的前向概率的计算的过程中，用于存储前向概率和语音特征序列的存储器量能够显著降低。 (9)变体
本发明并不限于上面描述的实施例，在实施阶段，在不脱离本发明的范围的情况下，可以对组成要素进行修改。可以根据需要通过对该实施例中所公开的多个组成要素进行組合而按照各种方式对本发明进行修改。例如，可以从该实施例中公开的所有组成要素中去掉一些组成要素。并且，可以根据需要对不同实施例中的组成要素进行组合。
例如，在第二实施例中，提供了三个匹配单元，即第一匹配单元107、第二匹配单元108以及第三匹配单元109,并且利用识别控制单元106来切换这些匹配单元的操作。
但是，也可以采用这样一种结构利用单个匹配单元代替第一匹配单元107、笫二匹配单元108、第三匹配单元109，并且该匹配单元根据来自识别控制单元106的指示，对其内部处理进行切换，使得该匹配单元的操作等同于第一匹配单元107、第二匹配单元108、第三匹配单元109的操作。
第三实施例
下面参照图1描述根据第三实施例的语音识别装置。根据第三实施例的语音识别装置的结构例子与图1中所示的根据第一实施例的语音识别装置的结构例子相同。在第三实施例中，语法传输单元 104以及识别控制单元106的一部分操作与第一实施例不同。因此，仅对笫三实施例中识别控制单元106的操作进行说明。
(1) 第三实施例的特征
根据第三实施例，在语法传输单元104执行的语法片段的传输中，当即使经过了预定的时间也还未完成语法片段的传输时，语法片段的传输就会被中止。但是，可以根据在由第二匹配单元108执行的处理中参阅的帧的数量来确定该预定时间。
换句话说，它可以被确定为"从开始语法片段的传输开始的100毫秒"。它还可以被确定为"从开始语法片段的传输开始、第二匹配单元108完成了针对5帧的量的语音特征序列的前向概率的计算的时间点"。该时间的值可以是任意的。
(2) 识别控制单元106
识别控制单元106监视语法传输单元104执行的语法片段的传输的状态，并根据该传输的状态在第一匹配单元107和第二匹配单元108之间切
换操作。
这时，当语法传输单元104执行的语法片段的传输中止时，与语法片段的传输并行地操作的第二匹配单元108的处理也会停止，接着将操作从第二匹配单元108切换至第一匹配单元107,并由该第一匹配单元107重新开始处理。作为选择，第二匹配单元108的处理停止，并且语音识别装置的所有处理都停止，并将由语法传输单元104执行的语法片段的传输被中止的情况通知给语音识别装置的用户。 (3 )优点
根据第三实施例，在语法传输单元104执行的语法片段的传输中，当即使经过了预定的时间也还未完成语法片段的传输时，语法传输单元104 就会中止语法片段的传输，并且识别控制单元106将操作从第二匹配单元 108切换至第一匹配单元107，以继续匹配处理。
一般地，在从一个存储装置到另一个存储装置的数据传输中，因存储装置或数据传输路径中出现的不能预料的问题，数据传输速度有可能急剧降低或者数据传输有可能失败。当在语法传输单元104执行的语法片段的传输期间出现这样的语法片段的传输速度急剧降低或传输失败时，由该语法传输单元104执行的语法片段的传输就不能完成，因此该语音识别装置的操作状态就会停滞不前。
因此，根据第三实施例，通过由语法传输单元104检测这样的语法片段的传输速度的急剧降低或传输失败，并使该语法传输单元104和识别控制单元106进行操作，来防止该语音识别装置的操作状态的停滞不前。
权利要求
1.一种语音识别装置，包括生成单元，其被配置为对于具有任意的时间宽度的各帧，根据输入语音的特征生成语音特征序列；模型存储单元，其具有多个基于语法表达的语句以及通过划分各个语句而得到的一个或多个连续的语句片段，该模型存储单元被配置为存储状态转移模型，该状态转移模型用与上述语音特征相关的状态-状态转移表示各个语句片段的语音特征的时间系列变化；第一语法存储单元，其被配置为存储与属于上述各语句的一个或多个连续的语句片段相关的语法片段；第二语法存储单元，其被配置为存储至少一部分从第一语法存储单元传输的上述语法片段，并能够以比第一语法存储单元所需的更短的读取时间来读出存储在其中的信息；第一匹配单元，其被配置为通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，来获得由生成单元针对每个帧生成的语音特征序列的、状态转移模型的各个状态的前向概率；语法传输单元，其被配置为当第一匹配单元获得状态转移模型的所述状态中最终状态的前向概率时，将与接续在所述连续的语句片段中的一个之后的后续语句片段相关的语法片段从第一语法存储单元传输至第二语法存储单元；第二匹配单元，其被配置为通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，对于接续在上述语音特征序列之后、由生成单元针对每个帧生成的后续语音特征序列，获得状态转移模型的各个状态的前向概率；第三匹配单元，其被配置为通过参阅被传输到第二语法存储单元的上述后续语法片段以及存储在模型存储单元中的状态转移模型，对于各个帧的后续语音特征序列，获得状态转移模型的各个状态的前向概率；识别控制单元，其被配置为(1)对各个语句进行识别，(2)使第一匹配单元工作，直到开始后续语法片段的传输，(3)从传输的开始到完成，与传输并行地使第二匹配单元工作，(4)一旦该传输完成，使第三匹配单元工作，以及(5)重复(2)至(4)的操作，直到属于各个语句的语句片段的所有操作完成，以获得各个语句的最终的前向概率；以及识别单元，其被配置为输出一语句作为语音特征序列的识别结果，其中该语句在多个语句的各个的最终的前向概率中给出了最高的前向概率。
2. 根据权利要求l的装置，其中上述第一匹配单元和第三匹配单元相互集成在一起。
3. 根据权利要求l的装置，还包括概率存储单元，其被配置为与直到最终状态的状态编号以及直到帧中的当前一个帧的帧编号相关联地，存储由第一匹配单元获得的连续的语句片段中所述一个的最终状态的前向概率以及由第二匹配单元获得的后续语句片段的最终状态的前向概率；以及语音特征存储单元，其被配置为与帧編号相关联地存储各个帧的后续语音特征序列；其中第三匹配单元通过参阅所传输的后续语法片段、所存储的最终状态的前向概率、状态编号以及帧编号，对于所存储的后续语音特征序列，获得状态转移模型的各个状态的前向概率。
4. 根据权利要求l的装置，其中当即使经过了预定时间后也还未完成传输时，语法传输单元停止后续语法片段的传输。
5. 根据权利要求4的装置，其中当即使经过了预定时间后也还未完成传输时，识别控制单元使第一匹配单元工作。
6. —种语音识别方法，其由包括以下部件的语音识别装置执行模型存储单元，其具有多个基于语法表达的语句以及通过划分各个语句而得到的一个或多个连续的语句片段，该模型存储单元被配置为存储状态转移模型，该状态转移模型用与上述语音特征相关的状态-状态转移表示各个语句片段的语音特征的时间系列变化；第一语法存储单元，其被配置为存储与属于上述各语句的一个或多个连续的语句片段相关的语法片段；第二语法存储单元，其被配置为存储从笫一语法存储单元传输的所有步骤或一个步骤的语法片段，并能够以比第一语法存储单元所需的更短的读取时间来读出存储在其中的信息；该方法包括生成步骤，对于具有任意的时间宽度的各帧，根据输入语音的特征生成语音特征序列；第一匹配步骤，通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，来获得在生成步骤中针对每个帧生成的语音特征序列的、状态转移模型的各个状态的前向概率；语法传输步骤，当在第一匹配步骤中获得状态转移模型的所述状态中最终状态的前向概率时，将与接续在所述连续的语句片段中的一个之后的后续语句片段相关的语法片段从第一语法存储单元传输至第二语法存储单元；第二匹配步骤，通过参阅存储在第二语法存储单元中的语法片段以及存储在模型存储单元中的状态转移模型，对于接续在上述语音特征序列之后、在生成步骤中针对每个帧生成的后续语音特征序列，获得状态转移模型的各个状态的前向概率；第三匹配步骤，通过参阅被传输到第二语法存储单元的上述后续语法片段以及存储在模型存储单元中的状态转移模型，对于各个帧的后续语音特征序列，获得状态转移模型的各个状态的前向概率；识别控制步骤，(1)对各个语句进行识别，(2)使笫一匹配步骤工作，直到开始后续语法片段的传输，(3)从传输的开始到完成，与传输并行地使第二匹配步骤工作，(4)一旦该传输完成，使第三匹配步骤工作，以及(5)重复(2)至(4)的操作，直到属于各个语句的语句片段的所有操作完成，以获得各个语句的最终的前向概率；以及识别步骤，输出一语句作为语音特征序列的识别结果，其中该语句在多个语句的各个的最终的前向概率中给出了最高的前向概率。
7. 根据权利要求6的方法，其中上述第一匹配步骤和第三匹配步骤相互结合在一起。
8. 根据权利要求6的方法，其中上述语音识别装置还包括概率存储单元，其被配置为与直到最终状态的状态编号以及直到帧中的当前一个帧的帧编号相关联地，存储由第一匹配步骤获得的连续的语句片段中所述一个的最终状态的前向概率以及由第二匹配步骤获得的后续语句片段的最终状态的前向概率；以及语音特征存储单元，其被配置为与帧编号相关联地存储各个帧的后续语音特征序列；在该方法中，第三匹配步骤通过参阅所传输的后续语法片段、所存储的最终状态的前向概率、状态编号以及帧编号，对于所存储的后续语音特征序列，获得状态转移模型的各个状态的前向概率。
9. 根据权利要求8的方法，其中当即使经过了预定时间后也还未完成传输时，语法传输步骤停止后续语法片段的传输。
10. 根据权利要求9的方法，其中当即使经过了预定时间后也还未完成传输时，识别控制步骤使第一匹配步骤工作。
全文摘要
一种语音识别装置包括第一语法存储单元，其被配置为存储一个或多个语法片段；第二语法存储单元，其被配置为存储一个或多个语法片段；第一匹配单元，其被配置为通过参阅存储在第二语法存储单元中的语法片段，执行匹配处理；语法传输单元，其被配置为将后续语法片段从第一语法存储单元传输至第二语法存储单元；第二匹配单元，其被配置为与语法传输单元并行地进行操作并且通过参阅存储在第二语法存储单元中的语法片段，执行匹配处理；以及识别控制单元，其被配置为监视由语法传输单元执行的后续语法片段的传输的状态，并通过根据语法片段的传输的状态切换其操作来使两个匹配单元工作。
文档编号G10L15/00GK101369425SQ20081016861
公开日2009年2月18日申请日期2008年8月15日优先权日2007年8月17日
发明者酒井优申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：酒井优
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：用于音乐会话的音乐演奏系统和组成乐器的制作方法
上一篇：用于提供音乐片段概观的方法和装置的制作方法