语音识别装置的制作方法

文档序号：2824740阅读：215来源：国知局

专利名称：语音识别装置的制作方法
技术领域：
本发明涉及一种高效地进行设施名称等大词汇的语音识别的语音识别装置。
背景技术：
在构建以宾馆、观光设施的名称作为识别对象的语音识别系统的情况下，用户有时不知道正式的名称，因此考虑对一个设施准备多个名称(替换词)。例如“横滨王子宾馆” 的情况下，作为识别词汇，考虑除了准备“横滨王子宾馆”这一名称以外，作为替换词而准备 “横滨王子”、“王子宾馆”等名称。这样的技术记载在日本特开第2005-202198号公报(专利文献1)、日本特开2001-083982号公报(专利文献2)中。但是，语音识别一般是通过进行语音的特征向量的时间序列与语音模式模型之间的模式匹配来实现的，其中上述语音的特征向量是对语音进行声音分析得到的，上述语音模式模型是将识别词汇的特征向量的时间序列的模式模型化而得到的，因此存在如下问题如果对大量的替换词准备上述语音模式模型，则用于模式匹配的运算量变得庞大。另外，存在如下问题即使人工或自动地生成替换词，也难以生成所有的替换词。而且，有在用于自动生成的规则、数据库制作上花费非常大的劳力的问题。专利文献1 日本特开2005-202198号公报专利文献2 日本特开2001-083982号公报

发明内容
发明要解决的问题本发明是为了解决上述问题而完成的，其目的在于抑制运算量的增加并高精度地识别替换词。目的还在于减轻替换词的生成规则、数据库制作的劳力。用于解决问题的方案本发明所涉及的语音识别装置具备语音识别单元，其使用语言模型和声音模型对所输入的语音进行语音识别，输出规定个数的由识别得分和文本表述的组构成的识别结果；词素词典存储器，其保持将识别对象词汇的表述分割为词素单位的词素词典；以及N最优候选重构单元，其将上述语音识别单元的识别结果的表述与上述词素词典存储器的内容进行对照，检查上述识别结果的表述是否能够用上述词素词典存储器中的某个识别词汇的词素的组合来表现，在能够表现的情况下修正上述识别得分，按照修正后的识别得分重新排列识别结果的位次并作为识别结果。发明的效果根据本发明的语音识别装置，语音识别单元输出规定个数的由识别得分和文本表述的组构成的识别结果，N最优候选重构单元将语音识别单元的识别结果的表述与上述词素词典存储器的内容进行对照，检查上述识别结果的表述是否能够用上述词素词典存储器中的某个识别词汇的词素的组合来表现，在能够表现的情况下修正上述识别得分，按照修正后的识别得分重新排列识别结果的位次并作为识别结果，因此能够降低N最优候选重构单元中的与词素词典之间的内容对照运算量，并且还能够提高识别结果的精度。

图1是表示本发明的语音识别装置的实施方式1的结构的框图。图2是词素词典存储器的内容的一例的说明图。图3是语音识别单元的输入语音的语音识别结果的输出例的说明图。图4是N最优候选重构单元的处理结果输出例的说明图。图5是实施方式1中的N最优候选重构单元的具体的处理过程的流程图。图6是表示本发明的语音识别装置的实施方式2的结构的框图。图7是子词索引存储器的内容例的说明图。图8是实施方式2中的N最优候选重构单元的具体的处理过程的流程图。
具体实施例方式实施方式1在本实施方式中，以对日本全国的设施、观光点的名称(以后为了简化而将设施和观光点统称为设施)进行语音识别的情况为例进行说明。图1是表示本发明的语音识别装置的实施方式1的结构的框图。在该图中，1是语音的输入端，2是输入语音，3是语音识别单元，4是N最优 (N-best)候选重构单元，5是词素词典存储器，6是语言模型存储器，7是声音模型存储器，8 是识别结果。在语言模型存储器6中事先制作并保存统计语言模型。在本实施方式中，将日本全国的设施的表述的音节列作为学习数据，事先学习并保存以音节为单位的三连词 (trigram)。此外，以音节为单位的优点是不管作为学习数据的设施数量如何，音节的种类数都收敛到几百个以下，因此能够制作抑制了识别时的运算量增加的语言模型。另外，通过使用统计语言模型，即使不将替换词作为语言模型的学习数据来提供也能够进行识别，因此能够减轻替换词的生成规则、数据库制作的劳力。声音模型存储器7中保存有将语音的特征模型化而成的声音模型。在本实施方式中，设声音模型例如是HMM (Hidden Markov Model 隐马尔可夫模型)。在词素词典存储器5中保存有作为搜索对象的所有的设施名称的ID号码和表述、以及上述表述的词素的平假名表述。上述词素能够通过如下方式得到使用一般的词素分析方法对上述表述进行词素分析，提取各词素的平假名表述。图2示出词素词典存储器的内容的一例。接下来说明语音识别和搜索的动作。当从语音的输入端1输入语音2时，语音识别单元3使用保存在语言模型存储器 6中的语言模型和保存在声音模型存储器7中的声音模型，通过例如维特比算法(Viterbi algorithm)进行语音识别，按识别得分从大到小的顺序输出作为前N个识别结果的音节列的表述、声音似然度、语言似然度以及上述识别得分。此外，上述识别得分是上述声音似然度与语言似然度之和。在本实施方式中，设识别结果的输出个数N为N= 50。另外，在实施方式中，与保存在词素词典存储器5中的词素词典同样地将上述音节列的表述设为平假名表述。图3示出语音2的发声内容为“J C ti f tI； J-
(yokohamakyogijo)(横滨比赛场)”的情况下的语音识别单元3的输出例。在该时刻，作为正确答案的“ J (i主巻J 一各’υ J: — (yokohamakyogijo) ”处于第2位。接着，N最优候选重构单元4将上述N个识别结果作为输入，分别针对上述N个识别结果检查其平假名表述是否与词素词典存储器5中的某个设施的词素词典匹配，在匹配的情况下，修正语言似然度并重新计算识别得分，按该重新计算得到的识别得分从大到小的顺序重新排列识别候选。此外，在此，上述“匹配”是指识别结果的音节列能够以某设施的词素的组合来表现的情况。例如，识别候选“ A 二 ii t J 一 BM； J — (yokohamakyogijo) (横滨比赛场)”能够以作为设施名“横滨国际综合比赛场”的词素词典的“A 二 i (yokohama)、二 < ^。(kokusai)、一 r 一(sogo)、t J 一莒一 C J 一 (kyogi jo) ”中的词素“ J: 二 ii t (yokohama)，，和“ t J 一各‘I； J 一 (kyogi jo)，，的组合来表现，因此与上述词素词典匹配。另一方面，例如关于识别候选“ A C ti f tυ J - (yokohamakyugijo) (横滨球技场)”，由于在上述词素词典中不存在“t吵一各'"一 (kyugijo)”，因此不匹配。下面参照图5说明N最优候选重构单元4的具体的处理过程。过程1)从所输入的N个识别结果的前NL个中求出语言似然度的最大值，并将其设为SLmax。此外，上述NL是满足NL彡N的常数，例如NL = 10 (图5的stlOl)。过程2)设 k = 1 (图 5 的 st 102)。过程3)将第k位结果的音节列依次与词素词典存储器5中的各设施的词素词典进行对照，检查是否与某个设施的词素词典匹配(图5的stl03、stl04)。在此，“匹配”的定义如上所述。此外，在与某个设施的词素词典匹配了的时刻，不进行与之后的词素词典的对照，而进入下述过程4。过程4)在过程3中与某个词素词典匹配了的情况下，按照(1)式对第k位的新得分S' (k)进行修正(图5的st 105)。S' (k) = Sa(k)+S' L · · · (1)在此，Sa(k)是第k位结果的声音似然度，S' L是修正后的语言似然度，利用(2) 式求出。S' L = SLfflax+offset · · · (2)在此，SLfflax是在过程2中求出的语言似然度的最大值，offset是预先确定的常数。在本实施方式中，例如设offset = 3。因此，在图3所示的例子的情况下，因为S一是识别位次第1位的语言似然度，且Stax = -8，所以S' L = "8+3 = _5。另一方面，在未匹配的情况下，利用(3)式求出新得分S' (k)。S卩，得分不变(图 5 的 stl06)。S' (k) = S(k) · · · (3)过程5)如果k = K，则进入过程6。如果k < K，则设为k = k+Ι，返回到过程3 (图 5的stl07，stl08)。在此，K是预先确定的满足K SN的常数。在本实施方式中，设K = N，即 K = 50。过程6)使用在过程5中修正后的新得分S' (k) (k = 1 K)，对识别结果重新评分(rescored)，并确定最终的识别结果(图5的stl09)。
本实施方式1的处理动作如上所述。如上述过程3中所述，本实施方式1的方式具有如下效果通过对“允许任意词素的省略和语顺的改换的替换词”提高识别得分，变得容易识别。图4示出对图3的结果应用本实施方式1的方式的结果。可知，作为正确答案的“ J: 二 ii t t J: 一各‘I； J 一 (yokohamakyogijo)(横滨比赛场)，，处于识别位次第1位。这是因为，“ J (i主巻J 一爸’υ J: — (yokohamakyogijo) ”与设施ID = 3的词素词典匹配而语言似然度被修正而变高，与此相对，在输入到N最优候选重构单元4的时刻处于第1位的“J: ti i ,吵一 B.· I； J 一(yokohamaimigijo)”与任一个词素词典都不匹配而似然度未被修正，所以识别得分与上述“ A 'S主t C J 一(yokohamaiii^gijo)”发生逆转。此外，在本实施方式中，在与某个词素词典匹配的情况下，识别得分的修正是通过如⑴式所示那样地修正语言似然度来进行的，但是也可以通过如⑷式所示那样地加上固定的偏移值来修正识别得分，能够得到同样的效果。S' (k) = S(k) + a · · · (4)在此，α是通过实验而确定的大于0的常数，例如a = 10。另外，在本实施方式中，保存在词素词典存储器5中的词素词典如图2所示那样地仅由设施名的词素构成，但是也可以追加用户会与设施名称同时发声的词汇。例如，“横滨国际综合比赛场”位于神奈川县，因此用户有可能发声为“神奈川县的横滨国际综合比赛场”。为了应对这种情况，考虑在词素词典中追加“办^力、'(kanagawakenno) ”这一词素。另外，在本实施方式中，词素词典如图2所示那样地仅由设施名的词素构成，但是也可以事先追加词素的同义词、近义词。例如，在“横滨高尔夫球场”这一设施名的词素词典是 “ J: 二 ii t (yokohama)、易么 I； J: 一 (gorufujo)，，的情况下，也可以将“如 k h ” 一 < 6 ^ (kantorikurabu) ”等作为“r易么I； J: 一 (gorufujo) ”的近义词而追加到词素词典中。另外，在本实施方式中，在语言模型存储器6中保存以音节为单位的三连词来使用，但是上述单位能够使用单词、词素等任意的单位。另外，也可以组合音节、单词、词素等的任意的单位。另外，也可以使用双连词(bigram)、任意的η连词作为统计语言模型。另外，也可以不使用统计语言模型，而使用允许在音节、单词、词素等识别单位之间的任意的连接的语言模型、以及确定了在音节、单词、词素等识别单位之间的连接规则的句法规则型的语言模型。在不使用统计语言模型的情况下，不计算语言似然度，因此识别得分的修正使用(4)式即可。实施方式2本实施方式中的语音识别装置是在上述实施方式1的语音识别装置中新附加子词索引(sub-word index)存储器9并如后所述地变更了 N最优候选重构单元的动作的装置。图6示出本实施方式的语音识别装置的结构例。此外，除了子词索引存储器9以外，与上述实施方式1相同，因此省略说明。子词索引存储器9是保持倒置索引的存储器，该倒置索引是使用作为识别对象的所有的设施名的平假名表述而预先制作的。图7示出子词索引存储器9的内容例。如该图所示，子词索引是从作为识别对象的所有设施名的平假名表述中提取音节、并针对各音节列举包含该音节的设施名的ID号码而得到的。例如，作为识别对象的设施名如图2所示的情况下，包含音节“ *、(ka) ”的设施是“i < b爸J: 一 t力、凡(kamakurakyodokan)(镰仓乡土馆)”和“镰仓公园(办i < 6 二一 λ /i ) (kamakurakoen)，，等，上述两个设施的ID号码分别是1、2，因此子词索引存储器9的与音节“力> (ka) ”对应的设施ID号码是1，2，..。接着说明本实施方式的动作。当从语音的输入端1输入语音2时，语音识别单元3 进行与实施方式1相同的动作，按识别得分从大到小的顺序输出作为前N个识别结果的音节列的表述、声音似然度、语言似然度以及上述识别得分。将N与实施方式1同样地设为N =50。接着，N最优候选重构单元4将语音识别单元3所输出的上述N个结果作为输入，在如后述那样地与各设施的词素词典进行对照之前，参照子词索引存储器9，限制进行对照的词素词典。由此，能够减少与词素词典的对照数量，能够降低运算量。下面参照图8，说明N最优候选重构单元4的具体的处理过程。过程1)从所输入的N个候选中的前NL个候选中求出语言似然度的最大值，并将其设为Sl_。此外，上述NL是满足NL彡N的常数，例如NL = 10 (图8的stlOl)。过程2)设为 k= 1(图 8 的 stl02)。过程3a)接着，N最优候选重构单元4参照子词索引存储器9，提取包含第k位结果的平假名表述的全部的音节的设施ID号码(图8的stl03a)。例如，在图2的第2位的音节列“ J: C ti f t Jr-β" I； J - (yokohamakyogijo)”的情况下，提取将包含全部的音节 “ J: (yo)，，“ (ko)，，“ ti (ha)，，“ t (ma) ”“爸 J 一 (kyo)，，“ β" (gi)，，“ I； J: 一 (jo)，，的设施的设施ID号码。这是通过如下方式得到的参照子词索引存储器9，针对上述各音节提取包含该音节的设施ID号码的集合，取得所提取的上述集合的交集(η )。例如在上述“ J 二 ii t t J: 一各‘I； J: 一 (yokohamakyogijo)，，的情况下，包含音节 “ J (yo)，，的设施 ID 号码的集合是{3,4, ·}，包含“二 (ko)”的设施ID号码的集合是{2，3，4*}，包含“这(ha)” 的设施ID号码的集合是{3，4}，包含“$ (ma)”的设施ID号码的集合是{1，2，3，4 ·}，包含 ‘ 一 (kyo)，，的设施ID号码的集合是{1，3，· }，包含“各’(gi)，，的设施ID号码的集合是{3，·}，包含一(jo)”的设施ID号码的集合是{3，·}，所以作为这些集合的交集而提取设施ID号码{3，·}。可知，在除了所提取出的设施ID号码以外的设施名中，在其词素词典中不包含上述“J: C ti f t J: 一各'I； J: 一(yokohamakyogijo)”中的任一个以上的音节，因此上述所提取出的设施ID号码以外的词素词典不会与上述“J C ti f tI； J 一 (yokohamakyogijo)，，匹配。因而，能够从对照对象中排除这些词素词典。过程3b)将在过程3a中提取出的设施ID号码的音节依次与保存在词素词典存储器5中的设施的词素词典进行对照，检查与某个设施的词素词典匹配(图8的stl03b、 stl04)。在此，“匹配”的定义与实施方式1相同。另外，与实施方式1同样地，在与某个设施的词素词典匹配了的时刻，不进行与之后的词素词典之间的对照，而进入下述过程4。过程4)在过程北中与某个词素词典匹配了的情况下，与实施方式1同样地，按照 ⑴式或⑷式修正第k位候选的新得分S' (k)(图8的stl05)。另一方面，在未匹配的情况下，与实施方式1 一样，得分不变(图8的stl06)。过程5)如果k = K，则进入过程6。如果k < K，则设为k = k+Ι，返回到过程3a。 (图8的stl07，stl08)。在此，K是预先确定的满足KSN的常数。在本实施方式中设为K = N，即 K = 50。过程6)使用过程5中修正后的新得分S' (k) (k = 1 K)对识别结果重新评分，并确定最终的识别结果(图8的stl09)。以上，如所说明的那样，在本实施方式所涉及的语音识别装置中，在上述过程3a 中，N最优候选重构单元4参照子词索引存储器9，提取包含第k位候选的平假名表述的全部的音节的设施ID号码，对于上述第k位候选的平假名表述，仅检查是否与在过程北中所提取出的上述设施ID的词素词典匹配，因此能够减少与词素词典的对照数量，能够降低运
铃旦昇里。此外，在本实施方式中，保存在词素词典存储器5中的词素词典如图2所示那样地仅由设施名的词素构成，但是也可以追加用户会与设施名称同时发声的词汇。例如，“横滨国际综合比赛场”位于神奈川县，因此用户有可能发声为“神奈川县的横滨国际综合比赛场”。为了应对这种情况，考虑在词素词典中追加“办^力、'打It凡O (kanagarakenno) ”这一词素。另外，在本实施方式中，词素词典如图2所示那样仅由设施名的词素构成，但是也可以事先追加词素的同义词、近义词。例如，在“横滨高尔夫球场”这一设施名的词素词典是 "J C ti t (yokohama) 6 ^ υ J: — (gorufujo)，，的情况下，也可以将“众九 i >9 一 < 6 ^ (kantorikurabu)，，等作为“ r 3么I； J: 一 (gorufujo)，，的近义词而追加到词素词典中。另外，在本实施方式中，在语言模型存储器6中保存以音节为单位的三连词来使用，但是上述单位能够使用单词、词素等任意的单位。另外，也可以组合音节、单词、词素等的任意的单位。另外，也可以使用双连词(bigram)、任意的η连词作为统计语言模型。另外，也可以不使用统计语言模型，而使用允许在音节、单词、词素等识别单位之间的任意的连接的语言模型、确定了在音节、单词、词素等识别单位之间的连接规则的句法规则型的语言模型。在不使用统计语言模型的情况下，不计算语言似然度，因此识别得分的修正使用⑷式即可。产业上的可利用性本发明的语音识别装置能够利用于语音识别中的数据库的搜索装置、例如车载导航装置等语音识别导航装置。
权利要求
1.一种语音识别装置，其特征在于，具备语音识别单元，使用语言模型和声音模型对所输入的语音进行语音识别，输出规定个数的由识别得分和文本表述的组构成的识别结果；词素词典存储器，保持将识别对象词汇的表述分割为词素单位的词素词典；以及N最优候选重构单元，将所述语音识别单元的识别结果的表述与所述词素词典存储器的内容进行对照，检查所述识别结果的表述是否能够以所述词素词典存储器中的某个识别词汇的词素的组合来表现，在能够表现的情况下修正所述识别得分，按照修正后的识别得分重新排列识别结果的位次并作为识别结果。
2.根据权利要求1所述的语音识别装置，其特征在于，还具备子词索引存储器，该子词索引存储器保持以音素、音节等的子词作为索引语的针对所述识别对象词汇的倒置索引，所述N最优候选重构单元将所述语音识别单元的识别结果的表述作为输入，参照所述子词索引存储器而提取包含所述识别结果的表述中的全部的子词的识别对象词汇，仅将所提取出的识别对象词汇与词素词典存储器的词素词典进行对照。
3.根据权利要求1或2所述的语音识别装置，其特征在于，所述词素词典除了包含识别对象词汇的表述的词素之外，还包含有可能与该识别对象词汇同时发声的词汇的词素的表述。
4.根据权利要求1 3中的任一项所述的语音识别装置，其特征在于，所述词素词典除了包含识别对象词汇的表述的词素之外，还包含所述词素的同义词、近义词的表述。
全文摘要
语音识别是通过与语音模式模型之间的模式匹配来进行的，因此在对宾馆、观光设施名等一个设施需要多个替换词的情况下，成为针对所有的替换词的与语音模式模型之间的模式匹配，运算量变得庞大。另外，难以生成所有的替换词，并且花费很大的劳力。通过语音识别单元使用语言模型和声音模型对输入语音进行语音识别，输出规定个数的由识别得分和文本表述的组构成的识别结果，具备N最优候选重构单元，该N最优候选重构单元将该识别结果与词素词典存储器所保持的词素词典进行对照，检查识别结果的表述是否能够以词素词典的某个词素的组合来表现，在能够表现的情况下修正识别得分，按照修正后的识别得分重新排列位次并作为识别结果。
文档编号G10L15/28GK102341843SQ20108001015
公开日2012年2月1日申请日期2010年1月27日优先权日2009年3月3日
发明者冈登洋平, 花沢利行申请人:三菱电机株式会社

完整全部详细技术资料下载