语音识别装置、语音识别方法及语音识别程序的制作方法

文档序号:2831728阅读:194来源:国知局
专利名称:语音识别装置、语音识别方法及语音识别程序的制作方法
技术领域
0001
本发明主张在先的日本专利申请2007-048898号(2007年2月28日 申请)的优先权,所述在先申请的全部记载内容被认为在本说明书中通过 引用而编入记载。
本发明涉及一种识别语音的语音识别装置、语音识别方法及语音识别 程序,特别是涉及一种通过判断音响特性来控制语音识别相关的参数从而 用较少的计算成本就能提高语音识别的识别精度的语音识别装置、语音识 别方法及语音识别程序。
背景技术
0002
一般,利用语音识别装置来进行对输入的语音进行语音识别并变换
为文本(text)等加以利用。作为以往的语音识别装置,例如在专利文献
1中记载了如下的装置不增加计算成本,抑制对正解剪枝,从而以较高 的识别精度进行语音识别。另外,例如在非专利文献1中记载了一般的语 音识别技术的手法及语音识别的实时技术。
0003
专利文献l:日本特开2001-75596号公告(段落0063 0070、图6
8)
非专利文献l:安藤彰男著、「!i7》夕^厶音声認識」、電子情報通
信学会、pp. 28-p. 10004
以上的专利文献1及非专利文献1的公开事项在本说明中通过引用而 编入记载。以下给出本发明关联技术的分析。
图12是表示利用了非专利文献1中记载的语音识别技术的一般语音识别装置的构成例的框图。如图12所示, 一般,语音识别装置包括输
入信号取得部91、特征量计算部92、音响模型93、语言模型94、网络搜 索部95、和识别结果输出部96。0005
输入信号取得部91将输入信号(语音信号)按每单位时间进行切分 并取得(输入)。特征量计算部92根据输入信号取得部91输入的输入信 号计算特性量。音响模型93预先存储音响模型。语言模型94预先存储语 言模型。网络搜索部95基于用特征量计算部92计算的特征量、音响模型 93存储的音响模型、及语言模型94存储的语言模型来搜索作为语音识别 结果的单词串的候补。识别结果输出部96输出在网络搜索部中搜索到的 单词串的候补。0006
在图12示出的一般的语音识别装置中,在用网络搜索部95搜索单词 串时,利用用特征量计算部92计算的特征量、存储在音响模型存储部93 中的音响模型、及存储在语言模型存储部94中的语言模型。首先,网络 搜索部95通过进行单词串的搜索处理求出公式(1)中所示似然度最高的 单词串。
0007
公式1<formula>formula see original document page 9</formula>0008
此时,若利用在非专利文献1中公开的搜索(search)方法(参照非 专利文献1的第6章),则在按照时间序列顺序给出输入信号x二x 0 ,... , x T时,网络搜索部95能够利用式(2)求出似然度最高的单词 串。
0009
公式25) = argmax{logP(x| ) + XlogP( )} 式(2)
0010
其中,x是被称为"语言权重"的参数。若增大该语言权重人则着重 于语言模型进行搜索,相反若减小该语言权重入则着重于音响模型进行搜
索。另外,P (x I 03)是利用音响模型求出的单词串"相对于输入信号 x的似然度,P 是利用语言模型求出的单词串co出现的概率。0011
另外,式(2)中argmax意思是对于产生的全部单词串的组合求出似 然度最高的单词串的运算。但是,由于在对全部单词串进行上述运算中需 要非常多的计算成本,因此实际上进行单词串的候补(假想结果)的剪枝。 在单词串的候补的剪枝中需要对假想结果数或似然度宽度等剪枝参数进 行设定。
0012
在上述示出的一般语音识别装置中存在上述语言权重和上述剪枝参 数等应设定的多个参数。在语音识别装置中通过控制这些参数能够变更计 算成本或识别精度。謝3
另外,如果利用专利文献1中记载的语音识别装置则能够控制上述语 音识别相关的参数。图13是表示专利文献1中记载的语音识别装置的构 成例的框图。如图13所示,专利文献1中记载的语音识别装置具备语
音数据存储机构911、音响分析机构912、音响模型存储机构913、单词 词典存储机构914、似然度运算机构915、剪枝机构916、识别结果输出 机构917、简易音响模型存储机构921、简易音响模型概率运算机构922、 位次变动计算机构923及语言权重变更机构931。0014
语音数据存储机构911存储输入的语音。另外,音响分析机构912 对语音数据存储机构911存储的语音数据进行音响分析并输出音响特征 向量。再有,音响模型存储机构913存储各音素的音响模型。另外,单词词典存储机构914存储单词词典。再有,似然度运算机构915基于从音响 分析机构912输出的音响特征向量、音响模型存储机构913存储的音响模 型、及单词词典存储机构914存储的单词词典计算作为识别候补的假想结 果的似然度。另外,剪枝机构916根据似然度运算机构915计算的假想结 果的似然度求出最大似然度,并从求出的最大似然度中抛弃规定的束宽 (beam width)以下的假想结果。并且,识别结果输出机构917将由剪枝 机构916残留的假想结果作为识别候补输出。0015
另外,在具备上述的构成要素的语音识别装置中,简易音响模型存储 机构921存储各音素的简易的音响模型。再有,简易音响模型概率运算机 构922基于从音响分析机构912输出的音响特征向量和简易音响模型存储 机构921存储的简易的音响模型,来计算包括当前时刻在内的规定时间内 的各时刻的各HMM状态的简易音响输出概率。另外,位次变动计算机构 923求出简易音响模型概率运算机构922求出的各时刻的各HMM状态的 简易音响输出概率的位次,计算包括当前时刻在内的规定时间内的各 HMM状态的位次变动幅度,并计算HMM状态的位次变动幅度的平均值。 并且,专利文献1中记载的语音识别装置基于位次变动计算机构923计算 的位次变动幅度的平均值来调整语音识别相关的参数。
0016
且有,作为参数的例子,在图13中示出的专利文献1中记载的语音 识别装置中,构成为具备变更语言权重的语言权重变更机构931。0017
通过上述的构成,在专利文献1中记载的语音识别装置中,在规定的 计算成本中能够进行使识别精度最大的参数的控制。0018
但是,在专利文献1中记载的语音识别装置的方法中,在位次变动计 算机构923中需要求出包括关注时刻在内的长时间的平均值以便求出各 HMM状态的位次变动。由此,存在发生为了求出最优参数而产生的处理 延迟的问题。另外,在专利文献l中记载的语音识别装置的方法中,因为 对简易音响模型和音响模型分别进行计算成本相关的似然度运算,所以存
ii在计算成本未必减少的问题。
0019
如上述,作为利用了专利文献1或非专利文献1中记载的语音识别技 术的语音识别系统(语音识别装置),具有以下的问题点。首先,作为第 一问题点,在利用简易语音模型求出各HMM状态的位次变动来调整参数 的语音识别方法中,因为为了求出位次变动而求出长时间的平均值,所以 产生处理延迟的问题。另外,作为第二问题点,在利用简易语音模型求出 各HMM状态的位次变动来调整参数的语音识别方法中,因为必须对简易 音响模型进行多余的计算成本相关的似然度运算,所以存在计算成本增加 的问题。

发明内容
0020
因此,本发明目的在于提供一种能够判断音响特性,并利用较少的计 算成本且利用使识别精度高的适当的参数进行语音识别的语音识别装置、 语音识别方法及语音识别程序。另外,本发明的目的在于提供一种通过考 虑同一时刻的竞争候补的数目而能无处理延迟地设定适当参数的语音识 别装置、语音识别方法及语音识别程序。再有,本发明的目的在于提供一 种能够利用较少的运算量求出适当的参数的语音识别装置、语音识别方法 及语音识别程序。
0021
基于本发明的第一观点,提供一种对输入的语音信号进行语音识别的 语音识别装置,该语音识别装置具备语音模型存储机构(例如,由语音 模型存储部7实现),其预先存储具有多个详细度的规定语音模型,所述 详细度是表示语音模型对应的语音的特征性质的信息;详细度选择机构 (例如,由详细度判断部9实现),其在语音模型存储机构存储的语音模 型具有的详细度中,选择与输入的语音信号的特征性质最接近的详细度; 和参数设定机构(例如,由参数设定部10实现),其根据详细度选择机构 选择的详细度,来设定用于对输入的语音进行语音识别的参数。0022
12另外,在上述的语音识别装置中,详细度选择机构也可以按每单位时 间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
0023
且有,在上述的语音识别装置中,详细度选择机构也可以历经多个单 位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时 间的详细度。0024
另外,上述的语音识别装置也可以具备距离计算机构(例如,由距离 计算部8实现),该距离计算机构计算表示语音模型存储机构存储的语音 模型与输入的语音信号的特征性质之差的距离信息;距离计算机构由详细 度较低的距离信息至详细度更高的距离信息依次计算距离信息,或者由详 细度较高的距离信息至详细度更低的距离信息依次计算距离信息;详细度 选择机构求出使距离计算机构求出的距离信息成为极小的详细度。0025
且有,在上述的语音识别装置中,语音模型存储机构也可以预先存储 具有母子结构的语音模型。0026
另外,上述的语音识别装置也可以具备音响模型存储机构(例如, 由音响模型存储部3实现),其预先存储规定的音响模型;和单词串搜索 机构(例如,由网络搜索部5实现),其基于由参数设定机构设定的参数 来搜索并提取单词串作为语音的识别结果;音响模型存储机构预先存储与 语音模型存储机构存储的语音模型具有规定关联性的音响模型;单词串搜 索机构利用语音模型和音响模型之间的关联性来搜索并提取单词串。0027
且有,在上述的语音识别装置中,参数设定机构也可以根据详细度选 择机构选择的详细度,来设定语言的加权、或用于进行规定的剪枝处理的 剪枝参数中的至少一个。0028
另外,上述的语音识别装置也可以具备音响模型存储机构(例如, 由音响模型存储部13实现),其预先存储多个规定的音响模型;语言模型存储机构(例如,由语言模型存储部14实现),其预先存储多个规定的语 言模型;和模型选择机构(例如,由模型选择部12实现),其根据详细度 选择机构选择的详细度,在音响模型存储机构存储的多个音响模型和语言 模型存储机构存储的多个语言模型中,选择一组音响模型和语言模型。0029
且有,上述的语音识别装置也可以具备输出变更机构(例如,由动作 /响应设定部15实现),其根据详细度选择机构选择的详细度,变更输入 的语音信号的语音识别结果的输出方法或输出内容。0030
另外,上述的语音识别装置也可以具备语音模型更新机构(例如,由 模型学习部16实现),其根据详细度选择机构选择的详细度,更新语音模 型存储机构存储的语音模型。0031
基于本发明的第二观点,提供一种对输入的语音信号进行语音识别的
语音识别方法,该语音识别方法包括详细度选择步骤,在预先存储的规 定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最 接近的详细度,所述详细度是表示语音模型对应的语音的特征性质的信 息;和参数设定步骤,根据选择的详细度设定用于对输入的语音进行语音 识别的参数。0032
另外,上述的语音识别方法也可以在详细度选择步骤中,按每单位时 间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。0033
且有,上述的语音识别方法也可以在详细度选择步骤中,历经多个单 位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时 间的详细度。0034
另外,上述的语音识别方法也可以包括距离计算步骤,在该距离计算 步骤中,计算表示预先存储的语音模型与输入的语音信号的特征性质之差 的距离信息;在距离计算步骤中,由详细度较低的距离信息至详细度更高
14的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更
低的距离信息依次计算距离信息;在详细度选择步骤中,求出使求出的距
离信息成为极小的详细度。
0035
且有,上述的语音识别方法也可以基于预先存储的具有母子结构的语 音模型选择与输入的语音信号的特征性质最接近的详细度。0036
另外,上述的语音识别方法也可以包括单词串搜索步骤,在该单词串 搜索步骤中,基于设定的参数搜索并提取单词串作为语音识别的结果;预 先存储与语音模型具有规定的关联性的音响模型;在单词串搜索步骤中, 利用语音模型与音响模型之间的关联性来搜索并提取单词串。0037
且有,上述的语音识别方法也可以在参数设定步骤中,根据选择的详 细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少
—个o
0038
另外,上述的语音识别方法也可以包括模型选择步骤,在该模型选择 步骤中,根据选择的详细度,在预先存储的多个音响模型和预先存储的多 个语言模型中,选择一组音响模型和语言模型。0039
且有,上述的语音识别方法也可以包括输出变更步骤,在该输出变更 步骤中,根据选择的详细度来变更输入的语音信号的语音识别结果的输出 方法或输出内容。0040
另外,上述的语音识别方法也可以包括语音模型更新步骤,在该语音 模型更新步骤中,根据选择的详细度来更新预先存储的语音模型。0041
根据本发明的第三观点,提供一种用于在计算机中对输入的语音信号
进行语音识别的语音识别程序,该语音识别程序用于使计算机执行详细 度选择处理,在预先存储的规定的语音模型具有的多个详细度中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表示语音模型
对应的语音的特征性质的信息;和参数设定处理,根据选择的详细度设定 用于对输入的语音进行语音识别的参数。0042
另外,上述的语音识别程序也可以使计算机利用详细度选择处理,执 行按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近 的详细度的处理。0043
且有,上述的语音识别程序也可以使计算机利用详细度选择处理,执 行历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出 关注的单位时间的详细度的处理。0044
且有,上述的语音识别程序也可以使计算机,执行计算表示预先存储 的语音模型与输入的语音信号的特征性质之差的距离信息的距离计算处 理;利用距离计算处理,执行由详细度较低的距离信息至详细度更高的距 离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的 距离信息依次计算距离信息的处理;利用详细度选择处理,执行求出使求 出的距离信息成为极小的详细度的处理。0045
另外,上述的语音识别程序也可以使计算机,执行基于预先存储的具 有母子结构的语音模型选择与输入的语音信号的特征性质最接近的详细 度的处理。0046
且有,上述的语音识别程序也可以使具备预先存储与语音模型具有规 定的关联性的音响模型的存储机构(例如,音响模型存储部3)的计算机, 执行基于设定的参数来搜索并提取单词串作为语音识别的结果的单词串 搜索处理;利用单词串搜索处理,执行利用语音模型与音响模型之间的关 联性来搜索并提取单词串的处理。0047
另外,上述的语音识别程序也可以使计算机,利用参数设定处理,执
16行根据选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪 枝参数中的至少一个的处理。
0048
且有,上述的语音识别程序也可以使计算机,执行根据选择的详细度 在预先存储的多个音响模型和预先存储的多个语言模型中选择一组音响 模型和语言模型的模型选择处理。0049
另外,上述的语音识别程序也可以使计算机,执行根据选择的详细度 对输入的语音信号的语音识别结果的输出方法或输出内容进行变更的输 出变更处理。0050
且有,上述的语音识别程序也可以使计算机,执行根据选择的详细度 对预先存储的语音模型进行更新的语音模型更新处理。由此,使语音模型 适应说话者和噪音环境。0051
总之,本发明的语音识别装置为了解决上述课题大致如下构成。艮P, 语音识别装置保持具有表现语音的特征性质的多个详细度的语音模型,选 择与输入信号的特征性质最接近的详细度,并根据选择的详细度对语音识 别相关的参数进行控制。0052
根据上述构成,在比较语音模型的较高的详细度和较低的详细度时, 在较高高的详细度的一方对输入信号较为接近的情况下,因为输入信号的 特征性质接近学习音响模型时的数据的特征性质,所以信赖语音特征性质 并利用计算成本低的参数进行语音识别。相反,在较低的详细度的一方对 输入信号较为接近的情况下,因为输入信号的特征性质远离学习数据的特 征性质,所以不信赖语音的特征性质,而利用使精度更高的参数进行语音 识别。由此,通过根据详细度来动态控制参数,始终能够利用最优计算成 本来进行精度较高的语音识别,能够达成本发明的第一目的。0053
另外,因为只基于关注时刻的输入信号对应的详细度的信息,就能够决定最优参数,所以能够消除处理延迟并能够达成本发明的第二目的。
0054
且有,具有多个详细度的语音模型因为能够选择与音响模型相比充分 小的尺寸,所以与利用简易音响模型求出各HMM状态的位次变动而调整 参数的语音识别方法(参照专利文献l)相比,能够减少计算成本并能够 达成本发明的第三目的。
(发明效果)0055
根据本发明,在语音模型具有的详细度中,选择与输入的语音信号的 特征性质最接近的详细度,并根据选择的详细度来设定用于对输入的语音 进行语音识别的参数。因此,能够判断音响的特性,并利用较少的计算成 本且利用使识别精度高的适当的参数进行语音识别。即,根据本发明,能 够根据输入的语音信号属于语音模型的哪个详细度的信息,来考虑输入的 语音信号的特征性质是否接近音响模型学习时的语音数据并能够信赖。由 此,能够设定语音识别相关的参数来进行语音识别。0056
另外,根据本发明,通过考虑同一时刻中进行竞争的候补的数目,从 而能够无处理延迟地设定适当的参数。即,根据本发明,为了求得输入的 语音信号属于语音模型的哪个详细度的信息,也可以只考虑关注时刻,而 不取长时间的平均值。由此,能够无处理延迟地设定参数来进行语音识别。0057
且有,根据本发明,能够利用较少的运算量求出适当的参数。即,根 据本发明,具有多个详细度的语音模型能够与音响模型相比选择充分小的 尺寸。由此,能够用较少计算成本的增加来设定参数进行语音识别。


0058
图1是表示本发明的语音识别装置构成的一个例子的框图。
图2是表示示意包括多个详细度的GMM例子的说明图。
图3是表示语音识别装置执行的语音识别处理的一个例子的流程图。
18图4是表示语音模型的详细度与语言权重之间关系的说明图。 图5是表示语音模型的详细度与距离之间关系的说明图。 图6是表示第三实施方式中的语音识别装置的构成例的框图。 图7是表示具有有母子结构的多个详细度的语音模型的示意图。 图8是表示具有多个详细度的语音模型与音响模型之间的关联性的 说明图。
图9是表示第五实施方式中的语音识别装置的构成例的框图。 图10是表示第六实施方式中的语音识别装置的构成例的框图。 图11是表示第七实施方式中的语音识别装置的构成例的框图。 图12是表示利用了在非专利文献1中记载的语音识别技术的一般的 语音识别装置的构成例的框图。
图13是表示在专利文献1中记载的语音识别装置的构成例的框图。0059
图中l一输入信号取得部,2—特征量计算部,3、 13 —音响模型存 储部,4、 14 —语言模型存储部,5 —网络搜索部,6 —识别结果输出部,7、 11—语音模型存储部,8 —距离计算部,9一详细度判断部,IO —参数设定 部,12 —模型选择部,15 —动作/响应设定部,16 —模型学习部。
具体实施方式
0060
实施方式l.
以下,参照附图对本发明的第一实施方式进行说明。图1是表示本发
明的语音识别装置的构成的一例的框图。如图1所示,语音识别装置包括
输入信号取得部1、特征量计算部2、音响模型存储部3、语言模型存储 部4、网络搜索部5、识别结果输出部6、语音模型存储部7、距离计算部 8、详细度判断部9及参数设定部10。且有,语音识别装置具体是由个人
计算机等信息处理装置实现的。0061
输入信号取得部1具体地由按照程序动作的信息处理装置的CPU来
实现。输入信号取得部1具备按每单位时间切分并取得(输入)输入信号的功能。例如,输入信号取得部1将语音信号作为输入信号从麦克风等语 音输入装置进行输入。另外,例如输入信号取得部1将预先存储在数据库 中的语音信号作为输入信号进行提取。
0062
特征量计算部2具体是由按照程序动作的信息处理装置的CPU来实 现的。特征量计算部2具备基于输入信号取得部1输入的输入信号来计算 表示输入语音的特征性质的特征量的功能。0063
音响存储部3及语言模型存储部4具体是由磁盘装置或光盘装置等存 储装置来实现的。音响模型存储部3预先存储规定的音响模型。另外,语 言模型存储部4预先存储规定的语言模型。0064
网络搜索部5具体是由按照程序动作的信息处理装置的CPU来实现 的。网络搜索部5具备基于利用特征量计算部2计算的特征量、音响模型 存储部3存储的音响模型、及语言模型存储部4存储的语言模型来搜索单 词串的候补的功能。另外,网络搜索部5具备基于单词串的候补的搜索结 果来提取单词串的候补作为输入语音的语音识别结果的功能。
0065
识别结果输出部6具体是由按照程序动作的信息处理装置的CPU来 实现的。识别结果输出部6具备输出由网络搜索部5搜索到的单词串的候 补的功能。例如,识别结果输出部6将单词串的候补作为输入语音的语音 识别结果在显示器装置等显示装置中进行显示。另外,例如识别结果输出 部6将包括单词串的候补的文件作为输入语音的语音识别结果进行输出。0066
另外,在具备上述的构成要素的语音识别系统(语音识别装置)中, 语音模型存储部7、距离计算部8、详细度判断部9及参数设定部10具备 以下的功能。0067
语音模型存储部7具体是由磁盘装置或光盘装置等存储装置来实现 的。语音模型存储部7预先存储具有多个详细度的语音模型。且有,所谓"详细度"是指利用语音模型确定是粗略表现语音现象还是细腻表现语音 现象的尺度。
0068
距离计算部8具体是由按照程序动作的信息处理装置的CPU来实现 的。距离计算部8具备计算由特征量计算部2计算出的特征量相对于语音 模型存储部7存储的语音模型具有的各详细度的距离的功能。具体地说, 距离计算部8通过分别计算表示输入语音的特征量与各详细度之差的值, 从而计算输入语音的特征量与各详细度之间的距离。0069
详细度判断部9具体是由按照程序动作的信息处理装置的CPU来实 现的。详细度判断部9具备对距离计算部8求出的详细度与特征量的距离 中最小距离进行确定,并求出(判断)与特征量计算部2求出的特征量的 距离变得最小的详细度的功能。即,详细度判断部9在语音模型存储部7 存储的语音模型具有的详细度中,选择最接近输入的语音信号的特征性质 的详细度。0070
参数设定部10具体是由按照程序动作的信息处理装置的CPU来实现 的。参数设定部10具备根据详细度判断部9求出的详细度的值来设定网 络搜索部5搜索单词串时需要的参数的功能。0071
作为特征量,特征量计算部2计算例如表示输入语音的倒谱 (cepstmm)或对数频谱、频谱、共振峰(formant)位置、音高(pitch)、 频谱能量、或该输入语音的多个帧中的变化部分等语音的特征的值。且有, 对于在此记载的特征量及特征量的计算方法而言,例如在非专利文献1 的第2章中的记载。在此,非专利文献1的第2章记载的事项在此引用并 包括在本说明书中。0072
作为音响模型,音响模型存储部3存储了例如HMM (Hidden Markov Model)等数据。且有,对于在此记载的音响模型而言,例如在非专利文 献1的第3章的记载。另外,对于在此记载的音响模型的生成方法而言,例如在非专利文献1的第14章中的记载。其中,非专利文献1的第3章 及第4章中记载的事项在此引用并包括在本说明书中。0073
作为语言模型,语言模型存储部4存储了例如N-gmm或单词词典、 上下文自由文法等数据。且有,对于在此记载的语言模型及利用了语言模 型的语音识别算法而言,例如在非专利文献l的第5章中的记载。其中, 非专利文献1的第5章中记载的事项在此引用并包括在本说明书中。0074
作为搜索单词串的方法,网络搜索部5例如通过进行束搜索(beam search)等方法,从而提取单词串的候补作为输入语音的语音识别结果, 其中,上述束搜索等方法从由存储在语言模型存储部4中的语言模型表现 的单词串网络中,利用存储在音响模型存储部3中的音响模型来搜索正确 单词串。且有,对于在此记载的单词串搜索方法而言,例如在非专利文献 l的第6章中的记载。其中,非专利文献l的第6章中记载的事项在此引 用并包括在本说明书中。0075
语音模型存储部7存储包括多个详细度的语音模型。作为语音模型, 语音模型存储部7存储了例如HMM或GMM (Gaussian Mixture Model) 等数据。
0076
HMM或GMM通过组合多个概率分布函数而构成。概率分布函数虽 然一般利用高斯分布,但也可以利用高斯分布以外的函数。概率分布函数 的参数通过用EM算法等手法对语音进行学习而确定。且有,在此记载的 EM算法例如在非专利文献1的第4章中的记载。其中,在非专利文献l 的第4章中记载的事项在此引用并包括在本说明书中。0077
另外,作为详细度,语音模型具有例如概率分布函数的混合数、或对 概率分布函数的分布进行平均后得到的值等。图2是是表示示意包括多个 详细度的GMM的例子的说明图。在图2中,实线包围的椭圆表示概率分 布函数。如图2所示,GMM在详细度较低时用少量的混合数的概率分布
22函数来表示,在详细度较高时用大量的混合数的概率分布函数来表示。
0078
作为制作详细度不同的语音模型的方法,考虑了自上而下生成的方法 和自下而上生成的方法。作为自上而下的生成方法,有以下的方法。例如, 在学习相对学习数据较少的混合数的语音模型而生成后,分割构成语音模 型的概率分布函数等而使混合数增加。并且,再次学习增加了该混合数后 的模型。由此,通过反复执行学习及分割的处理直到得到需要的混合数的 语音模型为止,从而能够生成详细度不同的语音模型。0079
另外,例如,通过改变单音素、双音素、三音素、五音素等音素组合 的详细度而生成语音模型,也可以生成详细度不同的语音模型。0080
作为自下而上生成语音模型的方法,例如存在以下的方法将由利用 一些学习手段学习的多个概率分布函数的混合而构成的语音模型,通过利
用k-means法等并根据距离进行总结,从而生成详细度不同的语音模型的 方法。且有,在此记载的k-means法例如在文献(Richard 0. Duda, Petter E. Hart, David G. Stork著,尾上守夫監訳,「/《夕一乂認識」,JohWilley &Sons.新技術〕$ 二二^一、乂3 y, pp. 528-529)中的记载。0081
另外,具有上述示出的多个详细度的语音模型例如由系统设计者等预 先生成并存储在语音模型存储部7中。0082
且有,在本实施方式中,实现语音识别装置的信息处理装置的存储装 置存储了用于执行语音识别处理的各种程序。例如,实现语音识别装置的 信息处理装置的存储装置存储了用于在计算机中执行如下处理的语音识
别程序在预先存储的规定的语音模型具有的、作为表示语音模型对应的 语音的特征性质的信息的多个详细度中,选择与输入的语音信号的特征性 质最接近的详细度的详细度选择处理;和根据选择的详细度设定用于对输
入的语音进行语音识别的参数的参数设定处理。 .
0083接着,对动作进行说明。图3是表示语音识别装置执行的语音识别处
理的一个例子的流程图。首先,输入信号取得部1将利用麦克风等器件而 取得(输入)的输入信号(语音信号)按每单位时间进行隔断(窓掛1")
处理而进行切分(步骤S1)。0084
接着,特征量计算部2基于输入信号取得机构1求出的每个单位时间 的输入信号来计算输入语音的特征量(步骤S2)。例如,特征量计算部2 求出第t单位时间的输入信号的特征量向量xt作为特征量。0085
接着,距离计算部8对语音模型的多个详细度分别求出与每个单位时 间的输入信号的特征量之间的距离(步骤S3)。此时,距离计算部8在作 为语音模型而利用HMM或GMM的情况下,计算用公式(3)表示的似 然度或对数似然度以便求出特征量与详细度之间的距离。0086
公式3
似然度P(Xtlk)-"^
1
-i(Xt-WS^(Xt-Hk)
式(3)
0087
公式4
对数似然度logP(xt|k)=—丄[(Xt-Hk)'2^(Xt-jik) + logl Sk| ]+C
式(4)
0088
*
其中,]Llk是表示第k个概率密度函数的平均。另外,Zk是表示第k
个概率密度函数的方差。再有,C是表示常数项。且有,n是表示特征量 向量xt的维数。0089
24在利用似然度或对数似然度的情况下,似然度或对数似然度的值越大 则特征量与详细度之间的距离越小。且有,在求特征量与详细度之间距离 的情况下,距离计算部8并不限定为似然度或对数似然度,例如也可以求
欧几里德(Euclid)距离等距离尺度。各详细度对应的语音模型利用多个
概率密度函数的混合进行表示,但是每个单位时间的输入信号的特征量与 详细度之间的距离可以在多个概率密度函数中采用距离最近的一个来代 表。
0090
接着,详细度判断部9比较距离计算部8求出的语音模型的各详细度 对应的距离,并求出与特征量计算部2求出的特征量之间的距离最小的详 细度(步骤S4)。 g卩,详细度判断部9基于距离计算部8求出的各距离, 来判断在语音模型存储部7存储的语音模型具有的多个详细度中与特征 量计算部2求出的特征量之间的距离最小的详细度。0091
且有,在步骤S4中,除了按每单位时间求出详细度的方法以外,详 细度判断部9还可以进行求出历经多个单位时间或一个发声进行平均后 的距离为最小的详细度等统计分析。g卩,详细度判断部9也可以按每单位 时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。 另外,详细度判断部9也可以基于等统计分析的结果来求出特征量最小的 详细度。S卩,详细度判断部9也可以历经多个单位时间对按每单位时间求 出的详细度进行统计分析,并求出关注的单位时间的详细度。0092
接着,参数设定部10利用由详细度判断部9判断的详细度来设定在 用网络搜索部5搜索单词串时使用的参数(步骤S5)。此时,作为参数, 参数设定部IO例如设定语言权重(例如,权重系数)或剪枝参数等。艮P, 参数设定部10根据详细度判断部9选择的详细度来设定语言的加权、或 用于进行规定的剪枝处理的剪枝参数中的至少一个。且有,参数设定部 IO也可以控制语言权重或剪枝参数以外的在搜索单词串时使用的参数。0093
且有,所谓"剪枝"是指在作为单词串的候补的假想结果中取消规定0094
在根据详细度设定语言权重的情况下,如图4所示,在详细度较低时, 因为语音信息的可靠性低,所以参数设定部IO将语言权重设定为较大(例 如,使权重系数的值较大)。相反,在详细度较高时,因为语音信息的可 靠性高,所以参数设定部10将语言权重设定为较小(例如,使权重系数 的值较小)。0095
在设定单词串搜索时的剪枝参数的情况下,在详细度较低时,因为语 音信息的可靠性低,所以参数设定部10设定剪枝参数以便假想结果变多。 另外,在详细度较高时,因为语音信息的可靠性高,所以参数设定部10
设定剪枝参数以便假想结果变少。
0096
接着,网络搜索部5基于由参数设定部10设定的参数来搜索单词串 (步骤S6)。此时,网络搜索部5利用由特征量计算部2计算的特征量、 存储在音响模型存储部3中的音响模型、及存储在语言模型存储部4中的 语言模型,基于公式(2)搜索并求出似然度最高的单词串。0097
最终,识别结果输出部6进行由网络搜索部5搜索到的单词串的输出 (例如显示)(步骤S7)。0098
以上,根据本实施方式,能够判断音响的特性,利用较少的计算成本 且利用使识别精度较高的适当的参数来进行语音识别。0099
例如,如图5所示, 一般在输入信号的特征性质与学习语音模型时的 学习数据的特征性质接近的情况下,详细度更高的语音模型对应的距离变
小。其原因在于例如,在自上而下生成语音模型时,在增加混合数时, 相对学习数据,总是增加概率分布函数而生成,以便距离变的更小。相反,
如图5 (b)所示,在输入信号的特征性质远离学习数据的特征性质的情况下,详细度越高的语音模型其距离会变得越大。由此,在由详细度判断 部9对输入信号选择了详细度较高的语音模型时,能够与学习数据的特征 性质接近,相反在选择了详细度较低的语音模型时,能够远离学习数据的 特征性质。
0100
利用上述的性质,通过根据详细度动态控制语音识别相关的参数,例 如,在详细度较高的情况下,能够谋求减少假想结果数来降低计算量等措 施,并能够利用最优计算成本来进行识别精度高的语音识别。
0101
另外,所谓选择与输入语音之间的距离最近的详细度是表示,直到选 择了详细度最高的状态的状态为止总结的语音模型表现输入语音最佳。由 此,根据最接近的详细度的信息能够得到在关注时刻有多少对立的单词串 的候补进行竞争的信息,并能够进行考虑了对立的候补的数目的参数设 定,而无须取得长时间平均值。
0102
另外,具有多个详细度的语音模型能够选择与音响模型相比充分小的 尺寸,因此与利用以往的简易音响模型比较,能够减少计算成本。0103
实施方式2.
接着对本发明的第二实施方式进行说明。且有,在本实施方式中,语 音识别装置的基本构成与在第一实施方式中示出的语音识别装置的构成 相同。
0104
详细度判断部9在第一实施方式中示出的步骤S4中,对具有多个详 细度的语音模型由较低的详细度至较高的详细度依次进行计算,并求出与 特征量计算部2求出的特征量之间的距离成为极小的详细度。另外,详细 度判断部9也可以由较高的详细度至较低的详细度依次进行计算,并求出 与特征量计算部2求出的特征量之间的距离成为极小的详细度。0105
在本实施方式中,距离计算部8按照由详细度较低至详细度较高的顺
27序依次计算距离,或者按照由详细度较高至详细度较低的顺序依次计算距 离。并且,详细度判断部9求出距离计算部8求出的距离变得最小的详细 度。
0106
如上述,根据本实施方式,通过求出与特征量计算部2计算的特征量 之间的距离成为极小的详细度,从而能够有效求出距离变成最小的详细 度。
0107
例如,如图5 (a)所示,在输入信号的特征性质与学习数据的特征 性质接近的情况下,随着详细度变大,距离单调减少,在详细度最高时距 离最小。另外,如图5 (b)所示,在输入信号的特征性质与学习数据的 特征性质远离的情况下,随着详细度变大,距离从最初单调减少的过程中 变为单调增大。根据这样的性质,对具有多个详细度的语音模型,通过由 较低的详细度至较高的详细度依次计算并求出距离变为极小的详细度,从 而能够有效求出距离变为最小的详细度。0108
实施方式3.
接着,参照附图对本发明的第三实施方式进行说明。图6是表示第三 实施方式中的语音识别装置的构成例的框图。如图6所示,在本实施方式 中,语音识别装置在如下一点上与第一实施方式不同,即代替图1中示出 的存储具有多个详细度的语音模型的语音模型存储部7,而包括存储具有 有母子结构的多个详细度的语音模型的语音模型存储部11。0109
语音模型存储部11具体是由磁盘装置或光盘装置等存储装置来实现 的。语音模型存储部11对具有有母子结构的多个详细度的语音模型进行 存储。
0110
在本实施方式中,存储在语音模型存储部11中的具有多个详细度的 语音模型的各详细度具有树结构等母子结构。且有,所谓在此说的母子结
构是例如,如图7所示,在属于较高的详细度的概率分布函数(子)与属于较低的详细度的概率分布函数(母)之间存在依存关系。在图7中,连
接椭圆与椭圆的实线表示母分布与子分布之间的关系。
0111
作为母子关系的生成方法,例如在自上而下生成语音模型时能够通过 分割母分布来生成子分布。另外,例如,在自下而上生成语音模型时能够 汇集子分布来生成母分布。且有,具有这些母子结构的语音模型例如由系 统的设计者等预先生成并存储在语音模型存储部11中。0112
接着,对动作进行说明。在本实施方式中,详细度判断部9在第一实 施方式中示出的步骤S4中,对具有有母子结构的多个详细度的语音模型, 由较低的详细度至较高的详细度依次进行计算,并求出与特征量计算部2 求出的特征量之间的距离变得最小的详细度。此时,详细度判断部9因为 在属于各详细度间的分布中存在母子结构,所以在利用某个详细度得到距 离最小的分布时,在对比该距离变为最小的详细度更高的详细度进行计算 的情况下,可以只考虑该距离成为最小的分布的子分布而进行计算。例如, 距离计算部8或详细度判断部9之后也可以只对距离变为最小的分布的子 分布进行距离计算或变为最小的详细度的判断处理。0113
在本实施方式中,通过上述构成能够利用较少的计算成本进行距离计 算部8所进行的距离计算,也能够比在第一实施方式中示出的语音识别系 统更减小计算成本。0114
实施方式4.
接着,参照附图对本发明的第四实施方式进行说明。且有,在本实施 方式中,语音识别装置的基本构成与在第一实施方式中示出的语音识别装 置的构成相同。0115
在本实施方式中,在如下一点上与第一实施方式不同,即语音模型存 储部7存储的具有多个详细度的语音模型与音响模型存储部3存储的音响
模型之间具有规定的关联性。0116
在本实施方式中,音响模型存储部3预先存储与语音模型存储部7存 储的语音模型具有规定的关联性的音响模型。另外,语音模型存储部7 预先存储与音响模型存储部3存储的音响模型具有规定的关联性的语音 模型。再有,网络搜索部5利用语音模型与音响模型之间的关联性搜索并 提取单词串的候补。0117
在本实施方式中,为使在具有多个详细度的语音模型与音响模型之间 建立关联性,例如,如图8所示可知,在构成具有多个详细度的语音模型 的多个概率密度函数与构成音响模型的多个概率密度函数中,相同或近似 的概率密度函数具有关联性。例如,通过给相同或类似的语音模型和音响 模型赋予链接信息等,从而预先建立链接。在图8中示出的例子中,连接 语音模型与音响模型的虚线表示语音模型与音响模型之间的关联性。0118
另外,这些语音模型与音响模型之间的关联性(例如,建立链接), 例如,由系统设计者等预先处理,且实施处理后的语音数据或音响数据分 别存储在语音模型存储部7及音响模型存储部3中。0119
在本实施方式中,通过上述构成,在第一实施方式中示出的步骤S6 中,通过利用预先赋予语音模型及音响模型的关联性,能够将在搜索单词 串时进行的输入信号的音响模型对应的距离的计算省略,而利用在步骤 S3中求出的输入信号的多个详细度的语音模型对应的距离。因此,能够 减轻步骤S6处理中的网络搜索部5的处理负担。
实施方式5.
接着,参照附图对本发明的第五实施方式进行说明。图9是表示第五 实施方式中的语音识别装置的构成例的框图。如图9所示,在本实施方式 中,语音识别装置在如下一点上与第一实施方式不同,即代替音响模型存 储部3,而包括存储多个音响模型的音响模型存储部13。另外,语音识别 装置在如下一点上也与第一实施方式不同,即代替语音模型存储部4,而包括存储多个语言模型的语言模型存储部14。再有,语音识别装置在如 下一点上还与第一实施方式不同,即代替按照由详细度判断部9计算出的 详细度来设定参数的参数设定部10,而包括模型选择部12。0121
模型选择部12具体是由按照程序动作的信息处理装置的CPU来实现 的。模型选择部12具备根据详细度判断部9计算的详细度来选择音响模 型与语言模型的功能。即,模型选择部12根据详细度判断部9选择的详 细度,在音响模型存储部3存储的多个音响模型和语言模型存储部4存储 的多个语言模型中选择一组音响模型和语言模型。0122
接着,对动作进行说明。在第一实施方式中,在图3示出的步骤S5 中,参数设定部10利用由详细度判断部9判断的详细度,进行对在网络 搜索部5搜索单词串时使用的参数进行设定的处理。在本实施方式中,若 由详细度判断部9判断(计算)详细度,则代替图3中示出的步骤S5的 处理,模型选择部12利用由详细度判断部9判断的详细度,执行选择在 网络搜索部5搜索单词串时使用的音响模型和语言模型的模型选择处理。 并且,网络搜索部5基于由模型选择部12选择的音响模型和语言模型来 搜索并提取单词串的候补。0123
在本实施方式中,通过上述的构成,在由详细度判断部9判断为详细 度较低的情况下,通过或者选择尺寸较小的音响模型、或者将语言模型切 换为词汇数较少的语言模型,从而能够提高语音识别的精度。由此,在本 实施方式中,语音识别装置根据输入语音等条件控制选择语音模型及语言 模型。
0124
实施方式6.
接着,参照附图对本发明的第六实施方式进行说明。图10是表示第 六实施方式中的语音识别装置的构成例的框图。如图10所示,在本发明 的实施方式中,语音识别装置在如下一点上与第一实施方式不同,即代替 根据由详细度判断部9计算的详细度来设定参数的参数设定部10,而包括动作/响应设定部15。0125
动作/响应设定部15具体是由按照程序动作的信息处理装置的CPU 来实现的。动作/响应设定部15具备根据由详细度判断部9判断的详细度 来变更输出机构或输出内容的功能。S卩,动作/响应设定部15根据详细度 判断部9选择的详细度来变更输入的语音信号的语音识别结果的输出方 法或输出内容。0126
在本实施方式中,动作/响应设定部15例如在由详细度判断部9判断 为详细度较低的情况下,在识别结果输出部6中显示使用户再次发声而促 使语音输入的消息。另外,例如,动作/响应设定部15在识别结果输出部 6中显示需要说话者学习的意图。再有,例如,动作/响应设定部15在识 别结果输出部6中显示依赖语音识别结果是否正确的确认的意图。且有, 例如,动作/响应设定部15为使在识别结果输出部6中不只是显示由详细 度判断部9判断为详细度较低的情况的识别结果而进行控制。0127
在本实施方式中,通过以上构成能够只显示可靠性较高的识别结果。0128
实施方式7.
接着,参照附图对本发明的第七实施方式进行说明。图11是表示第 七实施方式中的语音识别装置的构成例的框图。如图11所示,在本实施 方式中,语音识别装置在如下一点上与第一实施方式不同,即代替根据由 详细度判断部9计算的详细度来设定参数的参数设定部10,而包括模型 学习部16。0129
模型学习部16具体是由按照程序动作的信息处理装置的CPU来执行 的。模型学习部16具备根据由详细度判断部9计算的详细度来进行具有 多个详细度的语音模型和音响模型的学习的功能。即,模型学习部16通 过根据详细度判断部9选择的详细度来更新语音模型存储部7存储的模 型,从而使语音模型适应说话者或噪音环境。0130J
在本实施方式中,音响模型学习部16在由详细度判断部9判断为详 细度较低的情况下,控制详细度变高,使具有多个详细度的语音模型和音 响模型适应噪音环境或说话者环境。具体地说,在具有多个详细度的语音 模型由于对输入信号平均来看存在偏差从而详细度降低的情况下,模型学 习部16进行修正该语音模型的偏差的处理,控制详细度变高。另外,模 型学习部16为配合语音模型的修正而进行也修正音响模型侧的偏差的处 理。
0131
在本实施方式中,通过上述的构成,即使在噪音环境或说话者环境与 学习时大不相同的情况下,也能输出适当的语音识别结果。0132
且有,在语音识别装置中,也可以对上述的各实施方式中示出的构成 进行相互组合。例如,也可以组合上述的第一实施方式 第七实施方式中 示出的语音识别装置构成的其中两个以上来构成语音识别装置。0133
在其他本发明全部公开(包括权利要求书)的范围内,还可以基于其 基本技术思想来变更"周整实施方式乃至实施例。另外,在本发明的权利 要求书的范围内,也可以对种种公开要素进行多样的组合乃至选择。01344
本发明适用于对输入语音进行语音识别的语音识别装置的用途。特别 是适用于利用预先给予的计算成本来实现最优的语音识别的识别性能的 语音识别装置。
权利要求
1.一种语音识别装置,其对输入的语音信号进行语音识别,该语音识别装置,具备语音模型存储机构,其预先存储具有多个详细度的规定的语音模型,所述详细度是表示所述语音模型对应的语音的特征性质的信息;详细度选择机构,其在所述语音模型存储机构存储的语音模型具有的详细度中,选择与输入的语音信号的特征性质最接近的详细度;和参数设定机构,其根据所述详细度选择机构选择的详细度,设定用于对输入的语音进行语音识别的参数。
2. 根据权利要求l所述的语音识别装置,其特征在于, 所述详细度选择机构按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
3. 根据权利要求2所述的语音识别装置,其特征在于, 所述详细度选择机构历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
4. 根据权利要求1 3中任一项所述的语音识别装置,其特征在于, 该语音识别装置具备距离计算机构,该距离计算机构计算表示语音模型存储机构存储的语音模型与输入的语音信号的特征性质之差的距离信 息, 、所述距离计算机构由详细度较、低的距离信息至详细度更高的距离信 息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的距离 信息依次计算距离信息,所述详细度选择机构求出使所述距离计算机构求出的所述距离信息 成为极小的详细度。
5. 根据权利要求1 4中任一项所述的语音识别装置,其特征在于, 所述语音模型存储机构预先存储具有母子结构的语音模型。
6. 根据权利要求1 5中任一项所述的语音识别装置,其特征在于, 该语音识别装置具备音响模型存储机构,其预先存储规定的音响模型;和单词串搜索机构,其基于由参数设定机构设定的参数来搜索并提取单 词串作为语音识别的结果,所述音响模型存储机构预先存储与所述语音模型存储机构存储的语 音模型具有规定的关联性的音响模型,所述单词串搜索机构利用所述语音模型和所述音响模型之间的关联 性来搜索并提取单词串。
7. 根据权利要求1 6中任一项所述的语音识别装置,其特征在于, 所述参数设定机构根据详细度选择机构选择的详细度来设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
8. 根据权利要求1 7中任一项所述的语音识别装置,其特征在于, 该语音识别装置,具备音响模型存储机构,其预先存储多个规定的音响模型; 语言模型存储机构,其预先存储多个规定的语言模型;和 模型选择机构,其根据所述详细度选择机构选择的详细度,在所述音响模型存储机构存储的多个音响模型和所述语言模型存储机构存储的多个语言模型中,选择一组音响模型和语言模型。
9. 根据权利要求1 8中任一项所述的语音识别装置,其特征在于, 该语音识别装置具备输出变更机构,该输出变更机构根据所述详细度选择机构选择的详细度,对输入的语音信号的语音识别结果的输出方法或 输出内容进行变更。
10. 根据权利要求1 9中任一项所述的语音识别装置,其特征在于, 该语音识别装置具备语音模型更新机构,该语音模型更新机构根据所述详细度选择机构选择的详细度,对所述语音模型存储机构存储的语音模 型进行更新。
11. 一种语音识别方法,其对输入的语音信号进行语音识别, 该语音识别方法,包括详细度选择步骤,在预先存储的规定的语音模型具有的多个详细度 中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表 示所述语音模型对应的语音的特征性质的信息;和参数设定步骤,根据选择的详细度设定用于对输入的语音进行语音识别的参数。
12. 根据权利要求ll所述的语音识别方法,其特征在于, 在所述详细度选择步骤中,按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度。
13. 根据权利要求12所述的语音识别方法,其特征在于, 在所述详细度选择步骤中,历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细度。
14. 根据权利要求11 13中任一项所述的语音识别方法,其特征在于,该语音识别方法包括距离计算步骤,在该距离计算步骤中,计算表示 预先存储的语音模型与输入的语音信号的特征性质之差的距离信息,在所述距离计算步骤中,由详细度较低的距离信息至详细度更高的距 离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更低的 距离信息依次计算距离信息,在所述详细度选择步骤中,求出使求出的所述距离信息成为极小的详 细度。
15.根据权利要求11 14中任一项所述的语音识别方法,其特征在 于,基于预先存储的具有母子结构的语音模型选择与输入的语音信号的 特征性质最接近的详细度。
16. 根据权利要求11 15中任一项所述的语音识别方法,其特征在于,该语音识别方法包括单词串搜索步骤,在该单词串搜索步骤中,基于设定的参数搜索并提取单词串作为语音识别的结果,预先存储与语音模型具有规定的关联性的音响模型, 在所述单词串搜索步骤中,利用所述语音模型与所述音响模型之间的关联性来搜索并提取单词串。
17. 根据权利要求11 16中任一项所述的语音识别方法,其特征在于,在所述参数设定步骤中,根据选择的详细度设定语言的加权、或用于进行规定的剪枝处理的剪枝参数中的至少一个。
18. 根据权利要求11 17中任一项所述的语音识别方法,其特征在于,该语音识别方法包括模型选择步骤,在该模型选择步骤中,根据选择 的详细度,在预先存储的多个音响模型和预先存储的多个语言模型中,选 择一组音响模型和语言模型。
19. 根据权利要求11 18中任一项所述的语音识别方法,其特征在于,该语音识别方法包括输出变更步骤,在该输出变更步骤中,根据选择 的详细度变更输入的语音信号的语音识别结果的输出方法或输出内容。
20. 根据权利要求11 19中任一项所述的语音识别方法,其特征在于,该语音识别方法包括语音模型更新步骤,在该语音模型更新步骤中, 根据选择的详细度更新预先存储的语音模型。
21. —种语音识别程序,其用于对输入的语音信号进行语音识别, 该语音识别程序用于使计算机执行详细度选择处理,在预先存储的规定的语音模型具有的多个详细度 中,选择与输入的语音信号的特征性质最接近的详细度,所述详细度是表 示所述语音模型对应的语音的特征性质的信息;和参数设定处理,根据选择的详细度设定用于对输入的语音进行语音识 别的参数。
22. 根据权利要求21所述的语音识别程序,其特征在于, 使所述计算机,利用所述详细度选择处理,执行按每单位时间求出详细度,并选择与输入的语音信号的特征性质最接近的详细度的处理。
23. 根据权利要求22所述的语音识别程序,其特征在于, 使所述计算机,利用所述详细度选择处理,执行历经多个单位时间对按每单位时间求出的详细度进行统计分析,并求出关注的单位时间的详细 度的处理。
24. 根据权利要求21 23中任一项所述的语音识别程序,其特征在于,使所述计算机,执行计算表示预先存储的语音模型与输入的语音信号的特征性质之 差的距离信息的距离计算处理,利用所述距离计算处理,执行由详细度较低的距离信息至详细度更高 的距离信息依次计算距离信息,或者由详细度较高的距离信息至详细度更 低的距离信息依次计算距离信息的处理,利用所述详细度选择处理,执行求出使求出的所述距离信息成为极小 的详细度的处理。
25. 根据权利要求21 24中任一项所述的语音识别程序,其特征在于,使所述计算机,执行基于预先存储的具有母子结构的语音模型选择与 输入的语音信号的特征性质最接近的详细度的处理。
26. 根据权利要求21 25中任一项所述的语音识别程序,其特征在于,使具备预先存储与语音模型具有规定的关联性的音响模型的存储机 构的计算机,执行基于设定的参数搜索并提取单词串作为语音识别的结果的单词 串搜索处理,利用所述单词串搜索处理,执行采用所述语音模型与所述音响模型之 间的关联性来搜索并提取单词串的处理。
27. 根据权利要求21 26中任一项所述的语音识别程序,其特征在于,使所述计算机,利用所述参数设定处理,执行根据选择的详细度来设定语言的加权、 或用于进行规定的剪枝处理的剪枝参数中的至少一个的处理。
28. 根据权利要求21 27中任一项所述的语音识别程序,其特征在于,使所述计算机,执行根据选择的详细度在预先存储的多个音响模型和预先存储的多 个语言模型中,选择一组音响模型和语言模型的模型选择处理。
29. 根据权利要求21 28中任一项所述的语音识别程序,其特征在于,使所述计算机,执行根据选择的详细度对输入的语音信号的语音识别结果的输出方 法或输出内容进行变更的输出变更处理。
30. 根据权利要求21 29中任一项所述的语音识别程序,其特征在于,使所述计算机,执行根据选择的详细度对预先存储的语音模型进行更新的语音模型 更新处理。
全文摘要
本发明提供一种语音识别装置、语音识别方法及语音识别程序。本发明的目的在于能够利用较少的计算成本且利用使识别精度高的适当参数进行语音识别。语音模型存储部(7)预先存储具有表现语音特征性质的多个详细度的语音模型。详细度判断部(9)在语音模型存储部(7)存储的语音模型具有的详细度中,选择与输入信号的特征性质最接近的详细度。并且,参数设定部(10)根据选择的详细度来控制语音识别相关的参数。通过该构成,在比较语音模型的较高的详细度和较低的详细度时,在较高的详细度一方对输入信号较为接近的情况下,利用计算成本较低的参数进行语音识别。相反,在较低的详细度的一方对输入信号较为接近的情况下,利用使精度更高的参数进行语音识别。
文档编号G10L15/10GK101622660SQ200880006579
公开日2010年1月6日 申请日期2008年2月26日 优先权日2007年2月28日
发明者花泽健, 荒川隆行, 辻川刚范 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1