声音识别装置和声音识别方法

文档序号：2828995阅读：227来源：国知局

专利名称：声音识别装置和声音识别方法
技术领域：
本发明涉及例如声音识别装置和声音识别方法等。
背景技术：
作为现有的声音识别系统，例如一般公知有后述的非专利文献1所示的使用“隐马尔可夫模型(Hidden Markov Model)”(下面略称为“HMM”)的方法。使用HMM的声音识别方法对包括单词的话语声音整体、以及辞典模型和子词(sub word)声学模型所生成的单词声学模型进行匹配，计算每个单词声学模型的匹配似然度，将对应于似然度最高的模型的单词判定为声音识别的结果。
根据图1来说明使用HMM进行的一般的声音识别处理的概要。HMM可以随时间变化使状态Si一起迁移，将各种各样的时序信号O(O＝o(1)，o(2)，......，o(n))提取作为概率性生成的信号生成模型。而且，图1是表示该状态系列S和输出信号系列O的迁移关系的图。即，可以认为每当图1纵轴所示的状态Si迁移时，HMM的信号生成模型输出1个该图中横轴的信号o(n)。
而且，作为该模型的构成要素，有{S0，S1，Sm}的状态集合、从状态Si向状态Sj迁移时的状态迁移概率aij、对每个状态Si输出信号o的输出概率bi(o)＝P(oISi)。另外，概率P(oISi)表示o对于基本情形的集合Si的附带条件的概率。另外，S0表示生成信号之前的初始状态，Sm表示输出信号完毕后的结束状态。
此处，假定在该信号生成模型中，观测到了某信号系列O＝o(1)，o(2)，......，o(n)。而且，假定状态S＝0，s(1)，......，s(N)，M为可以输出信号系列O的某状态系列。此时，HMMΛ按照S输出信号系列O的概率可以表示为P(O,S|Λ)=aOS(1){Σn=1N-1bs(n)(O(n))aS(n)S(n+1)}bS(N)(O(N))aS(N)M.]]>然后，从HMMΛ生成该信号系列O的概率P(OIΛ)可以如下求出P(O|Λ)=Σs[aOS(1){Πn=1N-1bs(n)(O(n))aS(n)S(n+1)}bS(N)(O(N))aS(N)M].]]>如上，P(OIΛ)可以由经由可输出信号系列O的所有状态路径的生成概率的总和来表示。但是，为削减计算概率时的存储器的使用量，而一般使用维特比算法(viterbi algorithm)，仅凭借输出信号系列O的概率为最大的状态系列的生成概率来近似P(OIΛ)。即，表现为S^=argmaxs[aOS(1){Πn=1N-1bs(n)(O(n))aS(n)S(n+1)}bS(N)(O(N))aS(N)M]]]>的状态系列输出信号系列O的概率P(O，S^IΛ)，被看作为从HMMΛ生成信号系列O的概率P(OIΛ)。
一般地，在声音识别的处理过程中，将声音输入信号分割为20-30ms左右的长度的帧，按照各帧计算出表示该声音的子词特征的特征向量o(n)。另外，在分割该帧时，进行帧的设定，使相邻的帧互相遮盖。然后，将时间上连续的特征向量作为时序信号O来提取。另外，在单词识别中，准备了音素和音节单位等所谓的子词单位的声学模型。
另外，用于识别处理的辞典存储器中存储着成为识别对象的单词w1，w2，......，wL的子词声学模型的排列方式，按照该词典存储，结合上述子词声学模型来生成单词模型w1，w2，......，wL。然后，如上所述计算出每个单词的概率P(OIWi)，将该概率为最大的单词wi作为识别结果输出。
即，P(OIWi)可以提取对于单词wi的相似度。另外，通过在计算概率P(OIWi)时使用维特比算法，可以与声音输入信号的帧同步地展开计算，最终计算出可生成信号系列o的状态系列中成为概率最大的状态系列的概率值。
但是，在如上说明的现有技术中，如图1所示，将有可能的所有状态系列作为对象进行匹配的搜索。因此，由于声学模式的不完整或者混入杂音的影响，有可能出现错误单词的不正确的状态系列下的生成概率高于正确单词的正确状态系列下的生成概率。其结果，有时引起错误识别或者无法识别的情形，另外，也有可能因为声音识别的处理过程中的计算量和计算所用的存储量变得膨大，而招致声音识别效率低下。
使用HMM的现有的声音识别系统公开在例如鹿野清宏等4人(著)信息处理学会(编)、书名《声音识别系统》(2001年5月；オ—ム社刊)(非专利文献1)中。

发明内容
本发明欲解决的课题可以举出如下一个例子，即提供声音识别装置和声音识别方法，该声音识别装置和声音识别方法可以减少错误识别和无法识别的情况，而且可以提高识别效率。
权利要求1所述的发明的声音识别装置，该声音识别装置根据辞典存储器和子词声学模型来生成单词模型，而且按照规定的算法对照上述单词模型和声音输入信号，对上述声音输入信号进行声音识别，该声音识别装置的特征在于，该声音识别装置设置有主匹配单元，其在按照上述算法所示的处理路径对照上述单词模型和上述声音输入信号时，根据路线指令限定上述处理路径，选择与上述声音输入信号最相似的单词模型；局域模板存储单元，其预先对话语声音的局域声学特征进行分类，将该分类作为局域模板进行存储；以及局域匹配单元，其按照上述声音输入信号的每个构成部位对照存储在上述局域模板存储单元内的局域模板，确定每个上述构成部位的声学特征，生成与该确定的结果对应的上述路线指令。
另外，权利要求8所述的发明的声音识别方法，该声音识别方法根据辞典存储器和子词声学模型来生成单词模型，而且按照规定的算法将声音输入信号与上述单词模型进行对照，对上述声音输入信号进行声音识别，该声音识别方法的特征在于，该声音识别方法包括在按照上述算法所示的处理路径对照上述声音输入信号和上述单词模型时，根据路线指令限定上述处理路径，选择与上述声音输入信号最相似的单词模型的步骤；预先对话语声音的局域声学特征进行分类，将该分类作为局域模板进行存储的步骤；以及按照上述声音输入信号的每个构成部位对照上述局域模板，确定每个上述构成部位的声学特征，生成与该确定的结果对应的上述路线指令的步骤。

图1是表示以往的声音识别处理中的状态系列和输出信号系列的迁移过程的状态迁移图。
图2是表示本发明的声音识别装置的结构的框图。
图3是表示基于本发明的声音识别处理的状态系列和输出信号系列的迁移过程的状态迁移图。
具体实施例方式
图2表示作为本发明实施例的声音识别装置。该图所示的声音识别装置10例如可以是使用该装置单体的结构，或者可以是内置于其他声学关联设备中的结构。
在图2中，子词声学模型存储部11是存储音素和音节等的每个子词单位的声学模型的部分。另外，辞典存储部12是对于成为声音识别的对象的各单词存储上述子词声学模型的排列方式的部分。单词模型生成部13是根据辞典存储部12的存储内容，结合存储在子词声学模型存储部11中的子词声学模型，生成用于声音识别的单词模型的部分。另外，局域模板存储部14是存储区别于上述单词模型的、关于声音输入信号的各帧局域地提取该话语内容的声学模型即局域模板的部分。
主声学分析部15是将声音输入信号分割为规定时间长度的帧区间，按每个帧计算出表示该音素特征的特征向量，生成该特征向量的信号时序的部分。另外，局域声学分析部16是计算用于按照声音输入信号的每个帧进行与上述局域模板之间的对照的声学特征量的部分。
局域匹配部17是对按照所述每个该帧存储在局域模板存储部14中的局域模板和作为来自局域声学分析部16的输出的声学特征量进行比较的部分。即，局域匹配部17比较该两者，计算表示相关性的似然度，在该似然度高时将该帧确定为对应于局域模板的话语部分。
主匹配部18是比较作为来自主声学分析部15的输出的特征向量的信号系列和单词模型生成部13生成的各单词模型，进行对于各单词模型的似然度计算，进行单词模型对于声音输入信号的匹配的部分。但是，对于上述局域匹配部17中确定了话语内容的帧，进行带有制约的匹配处理，该带有制约的匹配处理对对应于该确定的话语内容的通过子词声学模型的状态的状态路径进行选择。由此，最终从主匹配部18输出对于声音输入信号的声音识别结果。
另外，图2中表示信号流的箭头朝向表示各构成要素间的主要的信号流，例如，关于跟随于该主要信号的响应信号和监视信号等的各种信号，也包括与箭头的朝向相反地传递的情况。另外，箭头的路径概念性地表示各构成要素间的信号流，在实际的装置中各信号没有必要忠实地按照图中的路径进行传递。
下面说明图2所示的声音识别装置10的动作。
首先说明局域匹配部17的动作。局域匹配部17对局域模板和作为来自局域声学分析部16的输出的声学特征量进行比较，仅在可靠地提取帧的话语内容时确定该帧的话语内容。
局域匹配部17辅助主匹配部18的动作，该主匹配部18计算话语整体相对于声音输入信号所包含的各单词的相似度。因此，局域匹配部17没有必要提取声音输入信号所包含的话语的全部音素或音节。例如也可以构成为仅利用SN比很差时也能较易提取的元音或者有声辅音等的发声能量大的音素或音节。另外，也没有必要提取话语中出现的全部元音或者有声辅音。也就是说，局域匹配部17仅在该帧的话语内容通过局域模板可靠地匹配时，确定该帧的话语内容，将该确定信息传递给主匹配部18。
主匹配部18在没有从局域匹配部17送来上述确定信息时，通过与上述以往的单词识别相同的维特比算法，与从主声学分析部15输出的帧同步地计算输入声音信号和单词模型的似然度。另一方面，当从局域匹配部17送来上述确定信息时，将局域匹配部17所确定的话语内容所对应的模型不通过该帧的处理路径从识别候补的处理路径中排除。
图3示出该情况。而且，该图所示的情况也表示与图1同样地输入“千叶(chiba)”的话语声音作为声音输入信号的情况。
在本事例中示出，在作为特征量向量的输出信号时序中输出o(6)至o(8)的时刻，将表示帧的话语内容通过局域模板被确定为“i”的确定信息从局域匹配部17传送到主匹配部18的情况。通过该确定信息的通知，主匹配部18从匹配搜索的处理路径中将包含通过“i”以外的状态的路径在内的α和γ的区域除外。由此，主匹配部18可以仅将搜索的处理路径限定为β的区域来继续处理。与图1的情况进行比较可知，通过进行该处理，可以大幅削减匹配搜索时的计算量和计算所用的存储量。
另外，在图3中示出了从局域匹配部17只发送一次确定信息的事例，但当进一步实现局域匹配部17的话语内容确定时，该确定信息也可传送到其他帧，由此更为限定通过主匹配部18进行处理的路径。
另一方面，作为提取声音输入信号中的元音部分的方法，可以考虑各种方法。例如，可以使用如下方法根据用于提取元音的特征量(多维向量)来学习并准备每个元音的标准图形，例如平均向量μi和协方差矩阵∑i，计算该标准图形和第n个输入帧的似然度加以判别。另外，作为该似然度，例如可以使用概率Ei(n)＝P(o’(n)Iμi，∑i)等。此处，o’(n)表示从局域声学分析部16输出的帧n的特征量向量中的第i个标准图形。
另外，为使来自局域匹配部17的确定信息正确，可以例如仅在首位候补的似然度与次位候补的似然度之差很大时确定首位候补的似然度。即，当有k个标准图形时，计算与第n帧的各标准图形的似然度E1(n)，E2(n)，...，Ek(n)。然后，将其中最大的作为S1＝maxi{Ei(n)}，将其次大的作为S2，可以仅在满足S1＞Sth1且(S1-S2)＞Sth2的关系时将该帧的话语内容确定为I＝argmaxi{Ei(n)}。另外，Sth1、Sth2在实际使用中为适当确定的规定阈值。
进而，也可以构成为不唯一地确定局域匹配的结果，将允许多个处理通道的确定信息传递给主匹配部18。例如，进行局域匹配的结果，也可以为传递该帧的元音是“a”或者“e”的内容的确定信息。随之，在主匹配部18中，“a”和“e”的单词模型仅剩下与该帧对应的处理通道。
另外，作为上述特征量，也可以使用MFCC(Mel频率倒谱系数)或者LPC倒谱系数、或者对数波谱等的参数。这些特征量可以与子词声学模型同样构成，也可以为了提高元音的推定精度，而与子词声学模型的情况相比更扩大维数来使用。另外，由于此时局域模板的数量与数种相比较少，因此伴随该变更，计算量的增加很少。
进而，可以使用声音输入信号的共振峰信息作为特征量。一般地，由于第一共振峰和第二共振峰的频带很好地表现元音的特征，因此可以使用这些共振峰信息作为上述特征量。另外，也可以根据主要共振峰的频率和其振幅来求出内耳基底膜(internal ear basement membrane)上的接听位置，将其作为特征量来使用。
另外，由于元音有声，所以要可靠地提取元音也可以构成为，首先要判定能否在各帧、在声音的基本频率范围内检测出间距，仅在可以检测时进行与元音标准图形的对照。另外，也可以构成例如通过神经网络(Neural Net)来提取元音。
另外，以上说明中举例说明了使用元音作为局域模板的情况，但本实施例不限于该事例，只要能提取用于可靠地提取话语内容的特征性信息，就能用作局域模板。
另外，本发明并不仅仅适用于单词识别，还能适用于连续单词识别和复杂词语连续声音识别。
如上所述，由于根据本发明的声音识别装置或者声音识别方法，可以删除匹配处理的过程中明显错误的通道的候补，因此可以删除掉一部分致使声音识别的结果为错误识别或无法识别的原因。另外，由于可以削减检索的通道的候补，所以可以实现削减计算量和计算所使用的存储量，从而可提高识别效率。进而，本实施例的处理与通常的维特比算法一样地可以与声音输入信号的帧同步地执行，因此可以提高计算效率。
权利要求
1.一种声音识别装置，该声音识别装置根据辞典存储器和子词声学模型来生成单词模型，而且按照规定的算法对照上述单词模型和声音输入信号，对上述声音输入信号进行声音识别，该声音识别装置的特征在于，该声音识别装置具有主匹配单元，其在按照上述算法所示的处理路径对照上述单词模型和上述声音输入信号时，根据路线指令限定上述处理路径，选择与上述声音输入信号最相似的单词模型；局域模板存储单元，其预先对话语声音的局域声学特征进行分类，将该分类作为局域模板进行存储；以及局域匹配单元，其按照上述声音输入信号的每个构成部位对照存储在上述局域模板存储单元内的局域模板，确定每个上述构成部位的声学特征，生成与该确定的结果对应的上述路线指令。
2.根据权利要求1所述的声音识别装置，其特征在于，所述算法是隐马尔可夫模型。
3.根据权利要求1所述的声音识别装置，其特征在于，所述处理路径通过维特比算法来计算得出。
4.根据权利要求1至权利要求3中的任一项所述的声音识别装置，其特征在于，上述局域匹配单元在确定上述声学特征量时，根据上述构成部位和上述局域模板之间的对照似然度，来生成多个上述路线指令。
5.根据权利要求1至权利要求3中的任一项所述的声音识别装置，其特征在于，上述局域匹配单元仅在上述对照似然度的首位和次位的差值超过规定阈值时生成上述路线指令。
6.根据权利要求1至权利要求3中的任一项所述的声音识别装置，其特征在于，上述局域模板是根据上述声音输入信号所包含的元音部分的声学特征量而生成的。
7.根据权利要求1至权利要求3中的任一项所述的声音识别装置，其特征在于，上述局域模板是根据上述声音输入信号所包含的有声辅音部分的声学特征量而生成的。
8.一种声音识别方法，该声音识别方法根据辞典存储器和子词声学模型来生成单词模型，而且按照规定的算法将声音输入信号与上述单词模型进行对照，对上述声音输入信号进行声音识别，该声音识别方法的特征在于，该声音识别方法包括在按照上述算法所示的处理路径对照上述声音输入信号和上述单词模型时，根据路线指令限定上述处理路径，选择与上述声音输入信号最相似的单词模型的步骤；预先对话语声音的局域声学特征进行分类，将该分类作为局域模板进行存储的步骤；以及按照上述声音输入信号的每个构成部位对照上述局域模板，确定每个上述构成部位的声学特征，生成与该确定的结果对应的上述路线指令的步骤。
全文摘要
本发明提供可以减少错误识别或无法识别的情况，而且可以提高识别效率的声音识别装置和声音识别方法。本发明的声音识别装置根据辞典存储器和子词声学模型来生成单词模型，而且按照规定的算法对照单词模型和声音输入信号，对声音输入信号进行声音识别，该声音识别装置设置有主匹配单元，其在按照上述算法所示的处理路径对照单词模型和声音输入信号时，根据路线指令限定处理路径，选择与声音输入信号最相似的单词模型；局域模板存储单元，其预先对话语声音的局域声学特征进行分类，将该分类作为局域模板进行存储；以及局域匹配单元，其按照声音输入信号的每个构成部位对照存储在局域模板存储单元内的局域模板，确定，每个构成部位的声学特征，生成与该确定的结果对应的路线指令。
文档编号G10L15/18GK1957397SQ200580010299
公开日2007年5月2日申请日期2005年3月22日优先权日2004年3月30日
发明者外山聡一申请人:先锋株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：外山聡一
技术所有人：先锋株式会社
我是此专利的发明人

上一篇：信息提供系统、方法以及信息提供程序的制作方法
上一篇：乐曲数据编辑装置以及乐曲数据编辑方法