专利名称:语音识别装置、语音识别方法以及电子设备的制作方法
技术领域:
本发明涉及语音识别装置、语音识别方法以及电子设备,尤其是涉及以所登记的 词组(phrase)为单位对被输入的语音进行识别,并舍弃已识别的候补之中似然值较低的 候补的语音识别装置、语音识别方法以及具备这种语音识别装置的电子设备。
背景技术:
在语音识别装置中公知有按所登记的每个词组识别被输入的语音的语音识别装 置。作为其一例有在日本专利特开2003-50595号公报(专利文献1)中所公开的语音识别 装置。此语音识别装置按规定的时间间隔的每帧划分被输入的语音,求解各帧的功率分量 并根据功率分量的值来检测语音区间。基于各语音区间的语音特征量和预先准备的语音模 式系列信息即隐马尔可夫模型(Hidden Markov Model),提取词组辞典所含词组之中似然 值最高的第1候补词组。在此例中,求解出针对已提取出的第1候补词组的似然可靠率,如 果此似然可靠率在阈值以下就废弃第1候补词组。另外,以往在电子设备之中有的就具备能够识别被输入的语音的语音识别功能。 这种电子设备例如公开在W02006/093003号公报(专利文献2)中。根据专利文献2,电子设备就是硬盘/DVD刻录机,根据所输入的语音例如识别作 为录像对象的节目名。具体而言,就是通过预先登记与节目名的关键字相对应的语音特征 量模式例如由隐马尔可夫模型所示的特征量模式,在包含关键字的语音被输入之际,提取 所输入语音的特征量模式,计算所提取出的特征量模式和所登记的特征量模式的相似度, 并将相似度最高的节目名确定为录像对象。专利文献1 日本专利特开2003-50595号公报专利文献2 :W02006/093003号公报—般而言,在实际使用语音识别装置的情况下,除了所登记的词组(以下称之为 登记内词组)以外,还被输入未登记的词组(以下称之为登记外词组),或者使用环境下的 噪声也与语音一起被输入,所以就有易于发生误识别之类的问题。例如,若假定已登记词组 “ 7夕一卜”而未登记“ 7卜7 ,,,则在说话者说出“ 7夕一卜”时,如果将其识别为“、夕 一卜”则因为“ ^夕一卜”是登记内词组所以其识别正确。但是,尽管说话者说出“义卜” 7°”而被识别为“义夕一卜,,时,因为“义卜” 7°”是登记外词组所以就发生了误识别。为了避免这种误识别,在尽管说出登记外词组却列举登 记内词组作为识别候补时就需要舍弃该识别候补。在即便是登记外词组以外而SN比较差 的环境下,有时候会输入噪声而误识别为登记内词组,这样的候补也需要舍弃。专利文献1所公开的语音识别装置只不过是使用一个值作为似然值和预先设定 的用于舍弃判断的阈值。因此,在噪声级较高的使用环境下,有时候噪声会作为语音识别候 补被提取出来,就需要舍弃该候补,但是在阈值为一个的情况下却无法舍弃源于该噪声的 语音识别候补,有时候识别率低下。特别是,在所登记的词组较少的情况下,优选通过尽量早期的阶段处理舍弃登记外的词组。另外,在专利文献2所公开的电子设备中,仅仅是将相似度最高的节目名确定为 录像对象,所以例如若在噪声级较高的环境下进行使用,则尽管输入了噪声也有可能将与 噪声的特征量模式相似度最高的节目名确定为录像对象。
发明内容
因而,本发明的目的在于提供一种可以在考虑了实际使用环境的噪声条件下提高 识别率的语音识别装置。另外,本发明的其他目的在于提供一种可以在考虑了实际使用环境的噪声条件下 提高识别率的语音识别方法。另外,本发明的进一步其他目的在于提供一种能够提高识别率,并且能够基于语 音可靠地进行规定动作的电子设备。本发明提供一种语音识别装置,在噪声环境下按所登记的每个词组识别说话语 音,具备语音特征量计算单元,其计算说话语音的每个词组的语音特征量;词组存储单 元,其存储每个词组的语音模式系列信息;似然值计算单元,其对由语音特征量计算单元所 计算出的每个词组的语音特征量和词组存储单元中所存储的多个词组的语音模式系列信 息进行比较,计算出似然值;候补提取单元,其基于由似然值计算单元所计算出的似然值, 按似然值从高到低的顺序选出多个语音识别候补;识别过滤单元,其基于由候补提取单元 所选出的多个语音识别候补各自的似然值分布,判断是否舍弃所选出的语音识别候补。根据本发明,就能够基于所选出的多个语音识别候补的各自的似然值分布,决定 是否舍弃,能够提高舍弃率和识别率。本发明的其他方式的语音识别装置,在噪声环境下按所登记的每个词组识别说话 语音。语音识别装置具备语音特征量计算单元,其计算说话语音的每个词组的语音特征 量;词组存储单元,其存储每个词组的语音模式系列信息;似然值计算单元,其对由语音特 征量计算单元所计算出的每个词组的语音特征量和词组存储单元中所存储的多个词组的 语音模式系列信息进行比较并计算似然值;候补提取单元,其基于由似然值计算单元所计 算出的似然值,按似然值从高到低的顺序选出第1语音识别候补、较第1语音识别候次之的 第2语音识别候补、较第2语音识别候补次之的第3语音识别候补;识别过滤单元,其基于 由候补提取单元所提取出的第1语音识别候补与第2语音识别候补的似然值之差和第2语 音识别候补与第3语音识别候补的似然值之差的似然差之比,判断是否舍弃所提取出的语 音识别候补。根据本发明的其他方式,通过基于似然差之比判断是否从识别对象中舍弃语音识 别候补,由此能够提高尚未登记词组的语音识别候补及源于所输入噪声的候补等的舍弃 率,所以能够提高识别率。更优选的是,识别过滤单元,如果似然差之比小于规定值就舍弃第1语音识别候 补,如果大于规定值就设第1语音识别候补为语音识别对象。据此,就能够判断应当采用被选择的第1语音识别候补作为语音识别的对象还是应当舍弃。优选的是,词组存储单元存储按语音特征划分的组的语音模式系列信息,识别过滤单元包括第1判断单元,该第1判断单元基于按语音的特征划分的组的似然差之比,判断 是否舍弃所提取出的各语音识别候补。通过按男性、女性以及儿童等语音特征进行分组,并基于各自组内的似然差之比 判断是否舍弃所提取出的语音识别候补,由此进一步提高识别过滤单元的舍弃率。优选的是,识别过滤单元基于第1语音识别候补的似然值和第2语音识别候补的 似然值之差,判断是否舍弃所提取出的语音识别候补。似然值计算单元提取较第3语音识 别候补次之的第4语音识别候补,识别过滤单元基于第1语音识别候补的似然值与第4语 音识别候补的似然值之差,判断是否舍弃所提取出的语音识别候补,并基于第1语音识别 候补的似然值,判断是否舍弃所提取出的语音识别候补。通过这样判断是否舍弃所选择的语音识别候补,可以提高登记外词组及所输入噪 声的候补的舍弃率。优选的是,候补提取单元在较第1语音识别候补次之的语音识别候补存在与第1 语音识别候补的语音模式系列信息相近似的语音识别候补时,排除该语音识别候补,并提 取较该语音识别候补次之的语音识别候补。通过候补提取单元排除近似于第1语音识别候补的候补,能够更加提高识别率。本发明的进一步其他方式的语音识别方法,在噪声环境下按所登记的每个词组识 别说话语音。该方法包括如下步骤计算说话语音的每个词组的语音特征量的步骤;对所 计算出的每个词组的语音特征量和预先存储的多个词组的语音模式系列信息进行比较并 计算作为语音识别对象的多个语音识别候补的似然值的步骤;基于按每个词组计算出的似 然值,按似然值从高到低的顺序选出第1语音识别候补、较第1语音识别候补次之的第2语 音识别候补、较第2语音识别候补次之的第3语音识别候补的步骤;比较所选出的第1语音 识别候补与第2语音识别候补的似然值之差和第2语音识别候补与第3语音识别候补的似 然值之差的似然差之比的步骤;如果似然差之比小于规定值就舍弃第1语音识别候补,如 果大于规定值就设第1语音识别候补为语音识别对象的步骤。本发明的进一步其他方面的语音识别方法,能够提高尚未登记词组的语音识别候 补及源于所输入噪声的候补等的舍弃率,所以能够提高识别率。本发明的进一步其他方式的电子设备是具备语音识别装置的电子设备,在噪声环 境下按所登记的每个词组识别说话语音。语音识别装置具备语音特征量计算单元,其计算 说话语音的每个词组的语音特征量;词组存储单元,其存储每个词组的语音模式系列信息; 似然值计算单元,其对由语音特征量计算单元所计算出的每个词组的语音特征量和词组存 储单元中所存储的多个词组的语音模式系列信息进行比较,计算出似然值;候补提取单元, 其基于由似然值计算单元所计算出的似然值,按似然值从高到低的顺序选出多个语音识别 候补;识别过滤单元,其基于由候补提取单元所选出的多个语音识别候补的各自的似然值 分布,判断是否舍弃所选出的语音识别候补。该电子设备具备控制单元,该控制单元基于由 语音识别装置所识别出的语音,对电子设备进行控制以进行规定动作。这样,电子设备具备语音识别装置。该语音识别装置能够按似然值从高到低的顺 序选出多个语音识别候补,并基于所选出的多个语音识别候补的各自的似然值分布判断是 否舍弃,所以能够提高识别率。其结果,电子设备就能够基于语音可靠地进行规定动作。优选的是,似然值计算单元计算多个语音识别候补的似然值,候补提取单元基于由似然值计算单元所计算出的似然值,按似然值从高到低的顺序选出第1语音识别候补、 较第1语音识别候补次之的第2语音识别候补、较第2语音识别候补次之的第3语音识别 候补;识别过滤单元,基于由候补提取单元所提取出的第1语音识别候补与第2语音识别候 补的似然值之差和第2语音识别候补与第3语音识别候补的似然值之差的似然差之比,判 断是否舍弃所提取出的语音识别候补。这样,语音识别装置通过基于似然差之比判断是否从识别对象中舍弃语音识别候 补,就能够提高尚未登记词组的语音识别候补及源于所输入噪声的候补等的舍弃率,并能 够提高识别率。其结果,电子设备就能够基于语音可靠地进行规定动作。作为一实施方式,由语音识别装置所识别出的语音与规定编号建立关联,规定编 号按电子设备所具备的每个动作内容而规定。作为其他实施方式,动作内容通过2值来规定。作为进一步其他实施方式,动作内容通过多值来规定。发明效果本发明所涉及的语音识别装置,就能够基于所选出的多个语音识别候补的各自的 似然值分布,决定是否舍弃,能够提高舍弃率并提高识别率。另外,本发明所涉及的语音识别方法,能够提高尚未登记词组的语音识别候补及 源于所输入噪声的候补等的舍弃率,所以能够提高识别率。另外,本发明所涉及的电子设备具备语音识别装置。该语音识别装置能够按似然 值从高到低的顺序选出多个语音识别候补,并基于所选出的多个语音识别候补各自的似然 值分布,决定是否舍弃,所以能够提高识别率。其结果,电子设备就能够基于语音可靠地进 行规定动作。
图1是表示本发明一实施方式所涉及的电子设备的构成的框图。图2是表示图1所示的语音识别装置的构成的框图。图3是表示在SN比大于等于20dB的噪声环境下,作为登记内词组说出“d ( b ii”时的似然值分布的图。图4是表示在SN比大于等于20dB的噪声环境下,作为登记外词组说出“ d Of九 ii”时的似然值分布的图。图5是用于说明图2所示的识别过滤装置的动作的流程图。图6是用于说明图5所示的登记内词组舍弃动作的流程图。图7是用于说明图5所示的登记外词组舍弃动作的流程图。图8是用于说明图5所示的分组评价动作的流程图。图9是表示通过本发明一实施方式中的语音识别装置的识别过滤装置,在5位说 话者说出登记内词组“7( ft )"以及登记外词组“3(寸 > )”时按判断信息α进行判断 时的判断结果的分布的图。图10是同样表示在5位说话者说出登记内词组“7( f t ) ”以及登记外词组“3(寸 >)”时按判断信息β进行判断时的判断结果的分布的图。图11是表示在5位说话者说出登记内词组“7( t t )”以及登记外词组“3(寸> )”时按判断信息Δ进行判断时的判断结果的分布的图。图12是同样表示在5位说话者说出登记内词组“7( f f ) ”以及登记外词组“3(寸 >)”时按判断信息Y进行判断时的判断结果的分布的图。图13是表示通过本发明一实施方式中的语音识别装置的识别过滤装置,在5位说 话者说出登记内词组“ 7夕一卜”以及登记外词组“ 7卜,7”时按判断信息α进行判断 时的判断结果的分布的图。图14是同样表示在5位说话者说出登记内词组“ ”一 卜” 7”’时按判断信息β进行判断时的判断结果的分布的图。图15是同样表示在5位说话者说出登记内词组“ ”一 卜” 7”’时按判断信息Δ进行判断时的判断结果的分布的图。图16是同样表示在5位说话者说出登记内词组“ ”一 卜” 7”’时按判断信息Υ进行判断时的判断结果的分布的图。图17是表示通过本发明一实施方式中的语音识别装置的识别过滤装置,将语言 以外的语音作为13种类噪声输入时的判断结果的分布的图。图18是同样表示将语言以外的语音作为13种类噪声输入时按判断信息α进行 判断时的判断结果的分布的图。图19是同样表示将语言以外的语音作为13种类噪声输入时按判断信息β进行 判断时的判断结果的分布的图。图20是同样表示将语言以外的语音作为13种类噪声输入时按判断信息△进行 判断时的判断结果的分布的图。图21是同样表示将语言以外的语音作为13种类噪声输入时按判断信息Y进行 判断时的判断结果的分布的图。图22是表示按每个词组设定作为阈值的判断信息α、β、Δ、Υ的情况下的流程 图。图23是表示将图1所示的电子设备应用于照明设备时的框图。图M是表示将照明设备点亮时的照明设备的动作的流程图。图25是表示对照明设备的光进行调光时的照明设备的动作的流程图。图沈是表示将电子设备应用于遥控装置时的图。图27是表示变更电视频道时的遥控装置以及电视的动作的流程图。附图标记说明1语音识别装置;2噪声区间检测装置;3鲁棒语音识别装置;4识 别过滤装置;9话筒;10电子设备;21语音功率计算电路;22语音区间检测电路;31语音特 征量计算电路;32噪声鲁棒处理电路;33推定处理似然计算电路;34存储装置;35数据;36 男性登记词组数据;37女性登记词组数据;38儿童登记词组数据;40照明设备;10a、40a、 50a主体部;41、51控制部;42、52受理部;43点亮部;50遥控装置;53通信部;60电视。
具体实施例方式下面,参照附图对本发明实施方式进行说明。图1是表示本发明一实施方式所涉 及的电子设备10的构成的框图。参照图1,电子设备10具备接受说话语音的输入的话筒 9 ;识别说话语音的语音识别装置1 ;作为电子设备10的本体的发挥电子设备10所具备的卜,,以及登记外词组“、 卜”以及登记外词组“卞 卜”以及登记外词组“卞9功能的主体部10a。语音识别装置1被安装在主体部IOa的外部。图2是表示图1所示的本发明一实施方式所涉及的语音识别装置1的构成的框 图。参照图2就语音识别装置1的构成详细地进行说明。在图2中,语音识别装置1是按所登记的每个词组对说话语音进行识别的语音识 别装置1,其包括语音区间检测装置2、鲁棒语音识别装置3和作为识别过滤单元以及第1 至第4判断单元而动作的识别过滤装置4。语音区间检测装置2包括被提供了所输入语 音信号的语音功率计算电路21和语音区间检测电路22。语音功率计算电路21计算所输入 语音信号的功率分量。语音区间检测电路22基于语音功率计算电路21所算出的功率分量 而检测出语音区间。鲁棒语音识别装置3通过排除语音以外的噪声,即便在噪声环境下也可高精度地 识别语音,其包括作为语音特征量计算单元而动作的语音特征量计算电路31、噪声鲁棒 处理电路32、作为似然值计算单元以及候补提取单元而动作的推定处理似然计算电路33、 作为词组存储单元而动作的存储装置34。语音特征量计算电路31计算检测出的语音区间的语音特征量。噪声鲁棒处理电 路32除去由语音特征量计算电路31计算出的语音特征量中所包含的语音以外的噪声成 分。存储装置34存储着表示不同的多个词组且作为语音模式系列信息的HMM语音模型的数 据35。在这里,数据35作为按语音特征划分的组的HMM语音模型,包括男性登记词组数据 36、女性登记词组数据37和儿童登记词组数据38。由于语音特征因男性、女性、儿童而异, 所以通过按每组来存储词组的HMM语音模型,就能够计算出似然值较高的候补以提高识别 率。此外,分组并不限于男性、女性、儿童,还可以分成男性的语音较高的组和语音较 低的组等。另外,还可以不进行分组,而只用男性、女性、儿童中的某一组进行舍弃。推定处理似然计算电路33依次比较由噪声鲁棒处理电路32除去了噪声成分的语 音特征量和存储装置34中所存储的HMM语音模型的数据35,进行用于计算针对各词组的对 数似然值(以下简称为似然值)的处理。然后,从似然值较大一方起按顺序选出多个语音 识别候补(以下简称为候补)。将似然值最大的词组称为第1候补,将其次大的词组称为第 2候补等等。识别过滤装置4基于由推定处理似然计算电路33所选出的多个候补的似然值的 分布,来判断是否舍弃所选出的各候补。图3以及图4是用于说明本发明的原理的图,纵轴表示推定处理似然计算电路33 所算出的似然值,横轴表示被识别词组的似然值高的第1候补到似然值低的第8候补的位次。在SN比大于等于20dB的噪声环境下,5位说话者1 说话者5说出登记内词组的 例如“d (二 b ii”时,图3表示了由推定处理似然计算电路33计算出的登记内词组的似 然值分布。在此例中,第ι候补“ “m,,的似然值最高。但是,在推定处理似然计算 电路33还计算第1候补以外的例如、第2候补“ Iv ii ”、第3候补“杉ii J:々”、第4候 补“ tz tz ^ f ”、第5候补“杉々t ,,、第6候补“ t J 4 b ”、第7候补“ (i'…(i'…,,、第8候 补“tr+o < ”的似然值。但是,如图3所示那样,第1候补的似然值与其他候补相比较显 著地高。
相对于此,在同一环境下,5位说话者8 说话者12说出登记外词组时,图4表示 了由推定处理似然计算电路33计算出的登记内词组的第1候补 第8候补的似然值分布。如根据图3以及图4之对比所明了那样,在根据第1候补的似然值来识别判断舍 弃的情况下,有时候在说出登记内词组时的第1候补的似然值和说出登记外词组时的第1 候补的似然值上无太大差异,所以根据第1候补的似然值的舍弃判断是很困难的。本申请发明者对图3以及图4所示的似然值分布详细地进行了研究,结果发现了 如下情况。(A)说出登记内词组时,(a)在噪声环境20dB以上,如图3所示那样第1候补的似然值收敛于某范围。虽 然没有图示,在噪声环境IOdB以下,有时候第1候补的似然值不收敛于某范围内。(b)即便在噪声环境IOdB以下的情况,将第1候补的似然值与第2候补的似然值 之差和第2候补的似然值与第3候补以后的似然值之差相比时,大多见到的是前者一方较 大的情况。(B)说出登记外词组时,(a)图4所示的第1候补的似然值有时候为与图3所示的说出登记内词组的情况 相同的值。(b)第1候补的似然值与第2候补以后的似然值之差不太大。(c)第1候补的似然值根据说话者而不一定化。考虑这些结果,使用各种词组数据对应当舍弃还是采用所提取出的第1候补进行 了实验,结果发现若考虑如下条件来决定阈值,并判断应当将各候补进行舍弃或者进行采 用,就会提高识别率。从所提取出的多个候补按每个词组以似然值从高到低的顺序选出第1候补、较第 1候补次之的多个候补,并基于各候补的似然值的分布来决定是否舍弃已选出的候补。通过 求解似然值的分布,就能够依照似然值的分布来决定阈值,提高舍弃率并改善识别率。进而,更具体而言,作为似然值的分布之例,如下面说明那样求解多个候补的似然 差之比和似然值,并与阈值α、β、Δ、Y相比较。阈值α、β、Δ、Υ作为判断信息分别对 应于存储装置34的男性登记词组数据36、女性登记词组数据37、儿童登记词组数据38而 预先进行设定。(1)若求解第1候补与第2候补的似然值之差和第2候补与次之的第M候补(例 如第6候补)的似然值之差的比,就能够计算出似然差之比。这样,求解第1候补与第2候 补的似然值之差和第2候补与次之的第M候补的似然值之差的似然差之比并与第1阈值α 进行判断。因而,运算第1式并与阈值α相比较。(第1候补的似然值-第2候补的似然值)/(第2候补的似然值-第M候补的似 然值)彡α···(第1式)此外,虽然在第1式中按彡α进行判别,但也可以按> α来进行判断。另外,只 要第M候补是第3候补以下的任一候补即可。通过这样计算第1候补与第2候补的似然值 和第2候补与第M候补的似然值的似然差之比就能够提高识别率。但是,即便第1式的运 算结果是大于等于阈值α,若如图4所示的登记外词组那样第1候补的似然值与第2候补 的似然值之差不太大,就不能判断为第1候补。11
(2)因而,进行第2式的运算并与作为第2阈值的β相比较。(第1候补的似然值-第2候补的似然值)>β ...(第2式)此外,虽然在第2式中按大于β进行判别,但也可以按大于等于β来进行判断。 在大多情况下,因仅进行第1式以及第2式的判断就能够舍弃识别率低的第1候补,故能够 加快处理速度。但是,还有尽管满足第1式以及第2式,也有如图4所示的登记外词组那样 第1候补与第3候补以下的候补的似然值之差较小的情况。亦即、为了将第1候补作为识 别候补,第1候补与第3候补以下的似然值之差需要某种程度较大。(3)因而,进行第3式的运算并与作为第3阈值的Δ相比较。在第3式中,第N候 补例如是第3候补以下的候补。(第1候补的似然值-第N候补的似然值)>Δ ...(第3式)此外,虽然在第3式中按大于Δ进行判别,但也可以按大于等于Δ来进行判断。 通过这样满足第1式、第2式以及第3式就能够提高识别率。进而,若如图4所示的登记外词组那样第1候补的似然值本身较小,则不能作为识 别候补,需要第1候补的似然值大于某种程度。(4)因而,进行第4式的运算并与第4阈值γ相比较。(第1候补的似然值)>γ · · ·(第4式)此外,虽然在第4式中按大于Y进行判别,但也可以按大于等于Y来进行判断。接着,对利用第1式来选择第M候补并在第3式中选择第N候补的理由进行说明。 α的比较就是求解第1候补与第2候补的似然值之差分值和第2候补与第3候补以后的似 然值的差分值之比、亦即求倾斜度。为了使说话者所造成的倾斜度的平衡为最小,在第2候 补与第3候补以后的似然值之差分值收敛于某值的点,将位次尽量上位的候补作为第M候 补。根据实验数据,求解第2候补与第3候补、第3候补与第4候补、第4候补与第5候补、 第5候补与第6候补、第6候补与第7候补、第7候补与第8候补的似然值之差,将该差收 敛于60以下的点作为第M候补(第6候补)。在设第M候补为第6候补“ J H”,第N 候补为第8候补“ tr力> ο〈”的情况下,第N候补为最下位候补。这里,以所选择候补的数量为6个候补这一方式来决定数目。在相对于第1候补 的词组持有似然值非常接近的HMM语音模型的词组(以下称之为近似词)存在于第2、第3 候补的情况下,有时候得不到第1式 第4式的特性。因此,按每个词组设定近似词,在第 1候补的近似词与第2候补、第3候补连续地排列时,除去该词组并进行(1)、(2)的判断。 在上述例子中,第2候补为“ Iv ii”、第3候补为“杉ti J ν ”,所以将这些词组作为近 似词而除去,将第4候补“ tz tz V i ”作为第2候补,将第5候补“ fcl t ”作为第3候补, 将第6候补iUW作为第4候补,将第7候补“ Of ^ Of ^,,作为第5候补,将第8候补 “tr力〈”作为最下位的第6候补(第N候补)。因而,在第3式的Δ比较中,不论有无 近似词都选择最下位候补的第N候补(第8候补)。此外,作为用于判断是登记内词组的阈值,设定登记内判断信息(ai,β , Δ , Yi),还可以为了判断登记内词组以外的词组而分别地设定登记外判断信息(αο,βο, Δ ο, Y ο)。图5是用于说明图2所示的识别过滤装置4的动作的流程图,图6是用于说明图5 所示的登记内词组舍弃评价子程序的动作的流程图,图7用于说明图5所示的登记外词组舍弃评价子程序的动作的流程图,图8用于说明图5所示的分组评价子程序的动作的流程 图。接着,参照图5 图8,就本发明一实施方式中的语音识别装置1的具体动作进行 说明。语音识别装置1的语音区间检测装置2从所输入的语音信号检测出语音区间并将 语音检测信号提供给鲁棒语音识别装置3。鲁棒语音识别装置3的语音特征量计算电路31 计算所输入语音词组的语音特征量,噪声鲁棒处理电路32除去语音以外的噪声成分。推定处理似然计算电路33基于计算出的语音特征量和存储装置34中所存储的数 据35来计算似然值。亦即、基于存储装置34中所存储的男性登记词组数据36、女性登记词 组数据37、儿童登记词组数据38,计算按男性、女性、儿童的语音特征划分的组的候补似然 值。各似然值的计算按第1候补、第2候补、第3候补...这一顺序而进行。此外,若以硬件电路构成推定处理似然计算电路33,就可以同时进行男性、女性、 儿童各自候补的似然值计算,在通过软件处理来进行基于推定处理似然计算电路33的似 然值计算时,以男性、女性、儿童这样的方式依次计算候补的似然值即可。识别过滤装置4按照图5所示的用于识别过滤处理的流程图执行识别过滤处理。 亦即、在图5所示的步骤(在图示简称为SP)SP1中,进行男性、女性、儿童的分组处理。通 过分组处理来决定推定处理似然计算电路33计算出男性、女性、儿童各自候补的哪一似然 值。例如,若计算男性候补的似然值则进入步骤SP2,若计算女性候补的似然值则进入步骤 SP6,若计算儿童候补的似然值则进入步骤SP10。在这里,对计算出男性候补的似然值这一情况进行说明。在步骤SP2中进行登记 内词组舍弃评价。登记内词组舍弃评价处理是基于各候补的已计算出的似然值,根据男性 的登记内判断信息(ai、i3i、Ai、Yi)进行评价的处理,该男性的登记内判断信息用于 辨别是舍弃还是采用第1候补的阈值。在步骤SP3中,判断将评价过的第1候补进行舍弃 (否)还是采用(是)。在进行舍弃时则结束处理,在采用时则在步骤SP4中进行登记外词 组舍弃评价。步骤SP4的登记外词组舍弃评价处理是用来基于各候补的已计算出的似然值,根 据是舍弃还是采用第1候补的男性的登记外判断信息(α0、βο、Δο、Yo)来进行评价的 处理。在步骤SP5中,判断将经过评价的第1候补进行舍弃(否)还是采用(是)。在计算出女性候补的似然值时,与男性候补的处理同样地根据女性的登记内判断 信息(a i、β i、Δ i、γ i)和女性的登记外判断信息(α 0、β 0、Δ 0、γ ο),进行步骤SP6至 步骤SP9的处理,在计算出儿童候补的似然值时,则根据儿童的登记内判断信息(a i、β i、 Δ , y i)和儿童的登记外判断信息(α0、β0、Δο、γ 0),进行步骤SPlO至步骤SP13的处 理。当在步骤SP2至步骤SP13的处理中判断是采用第1候补,就在步骤SP14中进行分组 评价。步骤SP14的分组评价处理通过像男性、女性、儿童候补那样,即使语音的频带不同亦 按组别进行评价处理而正确地进行舍弃判断。接着,参照图6所示的子程序就图5所示的登记内词组舍弃评价处理详细地进行 说明。虽然在图5表示成在步骤SP2中进行登记内词组舍弃评价处理,在步骤SP3中进行 判断处理,但具体而言,登记内舍弃评价处理和判断处理通过图6所示的登记内词组舍弃 评价处理而得以执行。
在步骤SP21中进行上述第1式的运算,并将该运算结果和作为第1阈值的登记内 判断信息α i进行比较。在步骤SP22中判断第1式的运算结果是否大于登记内判断信息 α i。若运算结果大于登记内判断信息α i就判断为采用第1候补的候补(“是”)并进行 步骤SP23的运算,否则(“否”)就结束登记内词组舍弃处理。在步骤SP23中进行第2式的运算,比较其运算结果和作为第2阈值的登记内判断 信息β 。在步骤SPM中判断第2式的运算结果是否大于登记内判断信息i3i。若运算结 果大于登记内判断信息β i就判断为“是”并进行步骤SP25的运算,否则就判断为“否”并 结束登记内词组舍弃处理。在步骤SP25中进行第3式的运算,并进行其运算结果和作为第3阈值的登记内判 断信息Δ i的比较。在步骤SP^中判断第3式的运算结果是否大于登记内判断信息Δ i。 若运算结果大于登记内判断信息Ai就判断为“是”,否则就判断为“否”并结束登记内词组舍弃处理。在步骤SP27的比较处理中判断第1候补的似然值是否大于作为第4阈值的登记 内判断信息Y i。在步骤SP^中依照第1候补的似然值是否大于登记内判断信息Y i的判 断结果,结束登记内词组舍弃的处理。在步骤SP22、SP24、SP26、SP28的处理中,对被判断 为“否”的候补进行舍弃的决定,对全部被判断为“是”的候补进行采用的决定。然后,在步 骤SP^的处理后返回到图5所示的流程图的处理。登记外词组舍弃评价处理,虽然在图5表示成在步骤SP4中进行登记外词组舍弃 评价处理,在步骤SP5中进行判断处理,但具体而言,登记外词组舍弃评价处理和判断处理 通过图7所示的登记外词组舍弃评价处理而得以执行。亦即、进行的处理是基于各候补的 已计算出的似然值进行上述的第1式 第4式的运算,并根据用于评价是否进行舍弃该各 个候补的阈值即登记外判断信息(αο,βο,Δο,Yo)来进行判断的。在步骤SP31中,进行第1式的运算,比较其运算结果和作为阈值的登记外判断信 息α O。在步骤SP32中判断第1式的运算结果是否大于登记外判断信息α O。若运算结果 大于登记外判断信息α ο就判断为“是”并进行步骤SP33的运算,否则就判断为“否”并结 束登记外词组舍弃处理。在步骤SP33中,进行第2式的运算,并进行其运算结果和登记外 判断信息β ο的比较。在步骤SP34中,判断第2式的运算结果是否大于登记外判断信息β ο。若运算结 果大于登记外判断信息β ο就判断为“是”并进行步骤SP35的运算,否则就判断为“否”并 结束登记外词组舍弃处理。在步骤SP35中进行第3式的运算,并进行其运算结果和登记外 判断信息Δ ο的比较。在步骤SP36中判断第3式的运算结果是否大于登记外判断信息Δ0。若运算结果 大于登记外判断信息△ ο就判断为“是”并在步骤SP37中进行第4式的比较处理,否则结 束登记内词组舍弃处理。在步骤SP37的比较处理中判断第1候补的似然值是否大于登记 外判断信息Y ο。在步骤SP38中依照第1候补的似然值是否大于登记外判断信息γ ο的判 断结果,结束登记外词组舍弃的处理。在步骤SP32、SP34、SP36、SP38的处理中,对被判断 为“否”的候补做出舍弃的决定,对全部被判断为“是”的候补做出采用的决定。在图6所示的登记内词组舍弃评价处理中决定采用第1候补,并且在图7所示的 登记外词组舍弃评价处理中决定采用不同的第1候补时,例如选择似然差之比较大一方的14第1候补即可。通过执行图8所示的子程序来进行图5所示的分组评价处理。在图8所示的步骤SP41中,进行如下第5式的运算。(男性的第1候补的似然值XKl)彡(女性的第1候补的似然值XK2)或者(儿 童的第1候补的似然值XK3)...(第5式)此外,虽然在第5式中按大于等于进行判别,但也可以按大于来进行判断。另外,K1、K2、K3各自是对男性、女性、儿童的候补分别预先规定的常数,按规定的 比例而确定。这是因为儿童的HMM语音模型的偏差较大,所以较之于男性以及女性的HMM 语音模型取较小的值。在步骤SP42中,判断第5式的结果,如果男性的第1候补的似然值大于女性的第 1候补的似然值或者儿童的第1候补的似然值(“是”),就在步骤SP43中采用男性的第1 候补词组作为识别候补。若在步骤SP42中判断男性的第1候补的似然值不大于女性的第 1候补的似然值和儿童的第1候补的似然值(“否”),则在步骤SP44中进行第6式的运算。(女性的第1候补的似然值ΧΚ2)彡(儿童的第1候补的似然值ΧΚ3)···(第6式)此外,虽然在第6式中按大于等于进行判别,但也可以按大于来进行判断。在步骤SP45中判断第6式的结果,如果女性的第1候补的似然值大于儿童的第1 候补的似然值(“是”),就在步骤SP46中采用女性的第1候补词组作为识别候补。如果女 性的第1候补的似然值不大于儿童的第1候补的似然值(“否”),就在步骤SP47中采用儿 童的第1候补词组作为识别候补。图9 图12是用于说明由于图5 图8所示的处理,剩下了登记内词组的被说出 的词组,并舍弃登记外的词组的动作的图。在这里,登记内词组以及登记外词组的判断信息 α、β、Δ、γ使用相同的值。图9的纵轴表示根据第1式所求出的各候补的似然差之比,图10的纵轴表示从第 1候补的似然值减去第2候补的似然值的根据第2式所求出的差分似然值,图11的纵轴表 示从第1候补的似然值中减去第8候补的似然值的根据第3式所求出的差分似然值,图12 的纵轴表示根据第4式所求出的第1候补的似然值。各图中的横轴表示说话者的编号。图9的特性al表示在SN比大于等于20dB的噪声环境下,说话者1 说话者5作 为登记内词组例如说出“7( f f ) ”时的各候补之似然差之比。特性bl表示在SN比大于 等于20dB的噪声环境下,说话者8 说话者12作为登记外词组例如说出“3(寸 > )”时的 各候补之似然差之比。特性cl表示在SN比小于等于IOdB的噪声环境下,说话者15 说 话者19作为登记内词组例如说出“7 ( f f )”时的各候补之似然差之比。图10的特性dl表示在SN比大于等于20dB的噪声环境下,说话者1 说话者5 作为登记内词组说出“7( f f ) ”时被识别出的候补的差分似然值(第1候补与第2候补 的似然之差分)。特性el表示在SN比大于等于20dB的噪声环境下,说话者8 说话者12 作为登记外词组说出“3 (寸 >)”时被识别出的候补的差分似然值(第1候补与第2候补 的似然之差分)。特性Π表示在SN比小于等于IOdB的噪声环境下,说话者15 说话者 19作为登记内词组说出“7( f f ) ”时被识别出的各候补的差分似然值(第1候补与第2 候补的似然之差分)。15CN 102047322 A说明书12/18页
图11的特性gl表示在SN比大于等于20dB的噪声环境下,说话者1 说话者5 作为登记内词组说出“7 ( f f )”时被识别出的候补的差分似然值(第1候补与第8候补 的似然之差分)。特性hi表示在SN比大于等于20dB的噪声环境下,说话者8 说话者12 作为登记外词组说出“3(寸 > )”时被识别出的候补的差分似然值(第1候补与第8候补 的似然之差分)。特性il表示在SN比小于等于IOdB的噪声环境下,说话者15 说话者 19作为登记内词组说出“7( f f ) ”时被识别出的各候补的差分似然值(第1候补与第8 候补的似然之差分)。图12的特性jl表示在SN比大于等于20dB的噪声环境下,说话者1 说话者5 作为登记内词组说出“7( t t ) ”时被识别出的第1候补的似然值。特性kl表示在SN比 大于等于20dB的噪声环境下,说话者8 说话者12作为登记外词组说出“3 (寸 > )”时被 识别出的第1候补的似然值。特性ml表示在SN比小于等于IOdB的噪声环境下,说话者 15 说话者19作为登记内词组说出“7( t t ) ”时被识别出的第1候补的似然值。在图9的特性中,若将用粗线表示阈值的判断信息α例如设定成“1. 3”,就能够采 用似然差之比值为判断信息α以上的、有关特性al的说话者1 说话者5所说出的登记 内词组的候补和有关特性Cl的说话者15 说话者19所说出的登记内词组的候补,而似然 差之比值在判断信息α以下的、特性bl中的说话者9、说话者12所说出的登记外词组的候 补都可被舍弃。在图10中,通过将用粗线表示阈值的判断信息β设定成“350”,就能够采用差分 似然值在判断信息β以上的、有关特性dl的说话者1 说话者5所说出的登记内词组的 候补和有关特性Π的说话者15 说话者19所说出的登记内词组的候补,并能够舍弃差分 似然值在判断信息β以下的、特性el中的说话者8、说话者9、说话者11、说话者12所说出 的登记外词组的候补。在图11中,通过将用粗线表示阈值的判断信息Δ设定成“700”,就能够采用差分 似然值在判断信息△以上的、有关特性gl的说话者1 说话者5所说出的登记内词组的 候补和有关特性il的说话者15 说话者19所说出的登记内词组的候补,并能够舍弃差分 似然值在判断信息△以下的、特性hi中的说话者8、说话者10、说话者11、说话者12所说 出的登记外词组的候补。在图12中,通过将用粗线表示阈值的判断信息Y设定成“12300”,就能够采用似 然值在判断信息、以上的、有关特性jl的说话者1 说话者5所说出的登记内词组的候 补和有关特性ml的说话者15 说话者19所说出的登记内词组的候补。通过这样最佳地 设定判断信息α、β、Δ、Y,登记内词组的候补就被采用,就能够舍弃登记外词组的候补。 例如对于1个词组准备100个抽样数据,输入各判断信息α、β、Δ、Υ的实际值,并采用 舍弃率在此时变高的判断信息。在图9 图12中,为了使处理速度提高,使用第1式 第4式中的阈值即判断信 息α、β、Δ、γ。亦即、从登记内判断信息(a i,β i,Δ i,γ i)和登记外判断信息(α 0, β 0,Δ 0,Υ ο)求解α i和α 0,并将舍弃率因该值而变得最佳时的值设为α。它们是按似 然值最高的每个词组在计算机上进行模拟,并根据在进行语音识别方面被认为最理想的数 据来确定最佳参数。同样,分别求解3i、Ai、Yi* β ο、Δ 0、Y 0,并将舍弃率在各值成为 最佳时的值分别设为β、Δ、Υ。此外,关于特性bl、el、hl能够通过图9、图10、图11的处16理而进行废弃。图13 图16是同样在5位说话者说出登记内词组“ ^夕一卜”、登记外词组“卞 卜” 7”’时以及输入语言以外的噪声时,以特性分别表示按判断信息α、β、Δ、Y对阈值进行评价时的结果之分布的图。在图13中,纵轴表示似然差之比,横轴表示说话者的编号。特性a2表示在SN比大 于等于20dB的噪声环境下,说话者1 说话者5说出登记内词组“ 7夕一卜”时的各候补的 似然差之比。特性表示在SN比大于等于20dB的噪声环境下,说话者8 说话者12说 出登记外词组“卞卜,时的各候补的似然差之比。特性c2表示在SN比小于等于IOdB 的噪声环境下,说话者15 说话者19说出登记内词组“7々一卜”时的各候补的似然差之 比。在图14中,纵轴表示似然值,横轴分别表示说话者的编号。特性d2表示在SN比 大于等于20dB的噪声环境下,说话者1 说话者5说出登记内词组“ 7夕一卜”时的各候补 的差分似然值(第1候补与第2候补的似然的差分)。特性e2表示在SN比大于等于20dB 的噪声环境下,说话者8 说话者12说出登记外词组“7卜7 7”时的各候补的差分似然 值(第1候补与第2候补的似然的差分)。特性f2表示在SN比小于等于IOdB的噪声环境 下,说话者15 说话者19说出登记内词组“ 7夕一卜”时的各候补的差分似然值(第1候 补与第2候补的似然的差分)。在图15中,纵轴表示似然值,横轴分别表示说话者的编号。特性g2表示在SN比 大于等于20dB的噪声环境下,说话者1 说话者5说出登记内词组“ 7夕一卜”时的各候补 的差分似然值(第1候补与第8候补的似然的差分)。特性h2表示在SN比大于等于20dB 的噪声环境下,说话者8 说话者12说出登记外词组“7卜,7”时的各候补的差分似然 值(第1候补与第8候补的似然的差分)。特性i2表示在SN比小于等于IOdB的噪声环境 下,说话者15 说话者19说出登记内词组“ 7夕一卜”时的各候补的差分似然值(第1候 补与第8候补的似然的差分)。在图16中,纵轴表示似然值,横轴分别表示说话者的编号。特性j2表示在SN比 大于等于20dB的噪声环境下,说话者1 说话者5说出登记内词组“ 7夕一卜”时的各候补 的似然值(第1候补的似然值)。特性k2表示在SN比大于等于20dB的噪声环境下,说话 者8 说话者12说出登记外词组“ ^卜,”时的各候补的似然值(第1候补的似然值)。 特性m2表示在SN比小于等于IOdB的噪声环境下,说话者15 说话者19说出登记内词组 “ 7夕一卜”时的各候补的似然值(第1候补的似然值)。在图13 图16所示的例子中,也可以通过与图9 图12同样的处理,舍弃说出 登记外词组的说话者8 说话者12的候补。图17是表示将碰撞声等语言以外的各种语音作为13种类的噪声系列输入时的评 价结果的分布的图,图18 图21是表示以作为噪声的13种类语音的识别候补作为阈值, 以判断信息α、β、Δ、Y进行评价时的结果分布的图。图18 图21所示的各候补是登 记内词组以外的噪声故需要进行舍弃。如图18所示那样,若将阈值的判断信息α设定成“0. 7”,则噪声2、3、12以外的噪 声1、噪声4 噪声11、噪声13的候补,因似然值小于等于判断信息α故能够将它们舍弃。 如图19所示那样,若将阈值的判断信息β设定成“300”,则噪声2以外的候补因似然值为判断信息β故能够将它们舍弃。如图20所示那样,若将阈值的判断信息△设定成“600”, 则噪声3 噪声8、噪声10 噪声13的候补,因似然值小于等于判断信息△故能够将它们 舍弃。如图21所示那样,若将阈值的判断信息γ设定成“13000”,则噪声1、噪声2、噪声 4、噪声7 噪声9的候补,因似然值小于等于判断信息γ故能够将它们除去。从而,如果 按判断信息α、β、Δ、Υ对阈值进行判断就能够将噪声1 噪声13的候补全部舍弃。此外,在上述实施方式中,在判断是舍弃还是采用第1候补之际,就首先运算第1 式并与阈值α进行判断,接着运算第2式并与阈值β进行判断,然后运算第3式并与阈值 Δ进行判断,进而运算第4式并与阈值γ进行判断、这一顺序的例子进行了说明,但并不限 于此,还可以首先运算第4式并与阈值γ进行判断,这些判断的顺序是任意的。如上述那样,根据本实施方式,通过对所输入的语音计算每个词组的似然值之分 布,并按作为阈值的判断信息α、β、△、Y对该似然值分布进行评价,就能够舍弃似然值 较低的登记内词组的候补,或者舍弃登记外词组的候补,或者舍弃语言以外的噪声等,能够 提高舍弃率。另外,通过将所输入语音的特性例如按照男性、女性、儿童等进行分组,并按每组 进行详细评价,就可以进行更为正确的判断。另外,判断信息α、β、Δ、Υ通过按存储装置34中所存储的每个词组进行最佳 化,能够实现似然值较低的登记内词组的舍弃率、登记外词组的舍弃率的提高。最佳化是例 如按1个词组准备100个抽样数据,输入各判断信息α、β、Δ、Υ的实际值,并采用在此 时舍弃率变高的判断信息,由此就能够提高舍弃率。这里,具体而言是关于按每个词组设定作为阈值的判断信息α、β、Δ、Υ这一情 况进行说明。图22是关于按每个词组设定作为阈值的判断信息α、β、Δ、Υ这一情况所 表示的流程图。参照图22进行说明。首先,接受登记内词组语音的输入(S51)。此登记内词组的语音是重叠了使用语 音识别装置1的环境噪声的语音或作为对于用户而言感到嘈杂的噪声环境条件下重叠了 IOdB白噪声的语音。然后,与上述同样地进行语音特征量的计算等,并基于存储装置34中 所存储的数据来计算似然值(S52)。然后,对一个登记内词组在规定个数量例如像上述那样100个数据上反复进行 S51 S52 (在S53为“否”)。然后,当100个结束(在S53为“是”),就首先计算第4式的 阈值Y (S54) 0第4式的阈值γ按照进行判断之际的识别合格率例如为99%的方式计算 出来。识别合格率表示语音识别正确时的通过率,按不舍弃语音识别正确的词组使其通过 的次数除以语音识别正确的次数乘以100来计算。具体而言,就是以在100个数据中98个 语音识别正确的情况下,不舍弃98个中的97个并使其通过的方式而计算出来。进而,第4 式的阈值Y按照成为规定的值例如10000以上的值的方式计算出来。接着,计算第3式的阈值Δ (S55)。第3式的阈值Δ与S54中的第4式的阈值、 一并按照进行判断之际的识别合格率例如为90%的方式而计算出来。具体而言,就是以在 100个数据中98个语音识别正确的情况下,不舍弃98个中的88个并使其通过的方式而计 算出来。进而,第3式的阈值△按照成为规定的值例如200以上的值的方式而计算出来。接着,计算第1式的阈值α (S56)。第1式的阈值α与S54中的第4式的阈值、 和S55中的第3式的阈值△ 一并按照进行判断之际的识别合格率例如为85%的方式计算出来。具体而言,就是以在100个数据中98个语音识别正确的情况下,不舍弃98个中的83 个并使通过的方式计算出来。进而,第1式的阈值α按照成为规定的值例如0.1以上的值 的方式计算出来。然后,计算第2式的阈值β (S57)。第2式的阈值β与S54中的第4式的阈值Y、 S55中的第3式的阈值Δ和S56中的第1式的阈值α —并按照进行判断之际的识别合格 率例如为80%的方式计算出来。具体而言,就是以在100个数据中98个语音识别正确的情 况下,不舍弃98个中的78个并使之通过的方式计算出来。进而,第2式的阈值β按照成 为规定的值例如90以上的值的方式计算出来。然后,在S57中,判断按第2式的阈值β进行判断之际的识别合格率是否大于 80%。这里,在大于80%的情况下(在S58为“是”),接受登记外词组语音的输入(S59)。 与登记内词组的语音同样,在此登记外词组的语音也是重叠了使用语音识别装置1的环境 噪声的语音或作为对于用户而言感到嘈杂的噪声环境条件下重叠了 IOdB白噪声的语音。 然后,计算似然值(S60)。然后,使用在SM S57中计算出的阈值Y、Δ、α、β判断是否舍弃登记外词组。 这里,在被舍弃的情况下(在S61为“是”),采用计算出的阈值γ、Δ、α、β作为判断信息 (S62)。此外,在S58中按第2式的阈值β进行判断之际的识别合格率小于等于80%的情 况下(在S58为“否”),因在已接受输入的登记内词组存在近似词的可能性较高故除去该 近似词,并再次计算第3式的阈值Δ、第1式的阈值α以及第2式的阈值β。由此,进行 调整以使判断时的识别合格率大于80%。另外,在S61中未被舍弃的情况下(在S61为“否”)增大第2式的阈值β (S63)。 具体而言,就是将第2式的阈值β加1。由此,进行调整使其被舍弃。这样,由于能够以简易的方法计算作为阈值的判断信息α、β、Δ、Y,所以能够使 处理时间减轻。另外,仅通过调整阈值就能够容易地进行舍弃之际的等级调整。例如,使用舍弃等级较低的阈值、舍弃等级较高的阈值和在上述计算出的作为基 准的阈值进行舍弃等级的调整。舍弃等级较低的阈值是指以进行计算使识别合格率一律为 例如95%的情况作为下限的阈值。另外,舍弃等级较高的阈值是指以在第1式的阈值α 进行计算使识别合格率例如为80%,并在第2式的阈值β进行计算使识别合格率例如为 70%的情况作为上限的阈值。另外,在按每个词组设定作为阈值的判断信息α、β、Δ、Υ的情况下,按第4式 的阈值Y、第3式的阈值△、第1式的阈值α、第2式的阈值β的顺序进行计算。由此,就 能够进行调整逐渐将使其通过的范围变窄。此外,虽然就在S61中未被舍弃的情况下加大第2式的阈值β如此进行控制之例 进行了说明,但并不限于此,还可以进行加大第1式的阈值α之类的控制,在未被舍弃的个 数为规定个数、例如2个以下的情况下也可以不加大第2式的阈值β。这样,还可以依照未 被舍弃的个数对阈值进行调整。另外,还可以从外部任意地设定作为阈值的判断信息α、β、Δ、Υ。通过这样,例 如在语音识别装置1中就能够从外部进行舍弃之际的等级调整。图23是表示将图1所示的电子设备10应用于照明设备40时的框图。参照图23就照明设备40之构成进行说明。照明设备40具备话筒9、语音识别装置1和作为照明设 备40之主体的主体部40a。主体部40a具备控制主体部40a全体的控制部41 ;接受来自 语音识别装置1的指示的受理部42 ;以及具有控制电灯等光的点亮以及熄灭的开关电路并 按照来自受理部42的指示对电灯等的光进行点亮以及熄灭的点亮部43。控制部41从受理部42接收到指示就进行与指示相对应的动作。具体而言,通过 从受理部42进行规定编号的受理而进行与该编号相对应的动作。规定编号按照明设备40 具备的每个动作内容而规定。例如,对应于编号1的动作是点亮,对应于编号2的动作是熄 灭。亦即、动作内容是点亮以及熄灭这样的开关(ON-OFF)动作,由2值而确定。另外,对应 于编号3的动作是使已点亮的光变亮一档的调光,对应于编号4的动作是使已点亮的光变 亮两档的调光。另外,对应于编号5的动作是使已点亮的光变暗一档的调光,对应于编号6 的动作是使已点亮的光变暗两档的调光。亦即、动作内容是多个阶段的动作,由多值而确 定。语音识别装置1被安装于主体部40a的外部,对受理部42输出与已决定采用的语 音识别候补的词组相对应的编号。亦即、输出与所说出的语言相对应的编号。具体而言,作为语音识别候补的词组规定编号建立关联,并输出与已决定采用的 语音识别候补的词组相对应的编号。例如,对应于“? ’ 这一词的编号是1,对应于“夕这一词的编号是2。另外,对应于“7力)"]子”这一词的编号是3,对应于“7力化 夕二”这一词的编号是4,对应于“夕7 ” λ子”这一词的编号是5,对应于“夕,夕二 ”这一 词的编号是6。这里,就将照明设备40点亮这一情况进行说明。图M是表示将照明设备40点亮 时的照明设备40的动作的流程图。参照图23以及图M进行说明。首先,语音识别装置1经由话筒9接受“? ’ 这一语音的输入(S71)。于是,针 对所输入的“7 ’ 这一语音,与上述同样地选出语音识别候补,并判断是否舍弃已选出 的语音识别候补。在这里,决定采用“、y ’ (S72)。于是,语音识别装置1对主体部40a输出对应于“? 这一词的编号(S73)。 在这里,对应于“7 这一词的编号是1。从而,语音识别装置1对主体部40a输出编号 1。于是,照明设备40的控制部41进行对应于编号1的规定动作(S74)。在这里,因 对应于编号1的动作被分配点亮,故进行控制将点亮部43点亮。例如,通过将开关电路接 通(ON)向点亮部43发送电压,将点亮部43进行点亮如此进行控制。接着,就对照明设备40的光进行调光这一情况进行说明。图25是表示对照明设 备40的光进行调光时的照明设备40的动作的流程图。参照图23以及图25,就对照明设备 40的光进行调光这一情况进行说明。首先,语音识别装置1经由话筒9接受“7力)"4子”这一语音的输入(S81)。 于是,针对所输入的“7力& H 这一语音,与上述同样地选出语音识别候补,并判断是 否舍弃已选出的语音识别候补。在这里,决定采用“7力^ ” ^千,,(S82)。于是,语音识别装置1输出对应于“ 7力)"4子”这一词的编号(S83)。在这里, 对应于“7力4子”这一词的编号是3。从而,语音识别装置1对主体部40a输出编号 3。
于是,照明设备40的控制部41进行对应于编号3的规定动作(S84)。在这里,因 对应于编号3的动作被分配使已点亮的光变亮一档的调光,故通过加大向点亮部43发送的 电压,使已点亮的光变亮一档如此进行调光。这样,电子设备10基于由语音识别装置1所识别的语音,对电子设备10进行控制 以进行规定动作。在此情况下,电子设备10具备提高了识别率的语音识别装置1。其结果 就能够基于语音可靠地进行规定动作。此外,虽然在上述实施方式中就将电子设备10应用于照明设备40之例进行了说 明,但并不限于此,还能够应用于用来操作电视等的遥控装置。这里,就应用于遥控装置中的情况进行说明。图沈是表示将电子设备10应用于遥 控装置50这一情况的图。参照图沈,遥控装置50具备话筒9、语音识别装置1、作为遥控 装置50的主体的主体部50a。主体部50a具备控制主体部50a全体的控制部51 ;接受来 自语音识别装置1的指示的受理部52 ;以及与电视60进行通信的通信部53。遥控装置50 通过与电视60例如进行红外线通信,对电视60进行将电视60的电源接通-断开(ON-OFF) 或变更音量或变更频道等操作。具体而言,通过从受理部52进行规定编号的受理而发送对 应于该编号的红外线数据,由此对电视60进行操作。例如,对应于编号1的红外线数据是 将电视60的电源接通(ON),对应于编号10的红外线数据是将电视60的频道变更成1,对 应于编号20的红外线数据是加大电视60的音量。语音识别装置1被安装于遥控装置50的外部,对受理部52输出与已决定采用的 语音识别候补的词组相对应的编号。例如,对应于“才 >”这一词的编号是1,对应于「子~ >才、X子」这一词的编号是10,对应于“才卜〒才才矢夕”这一词的编号是20。这里,就变更电视60的频道这一情况进行说明。图27是表示变更电视60的频道 时的遥控装置50以及电视60的动作的流程图。参照图沈以及图27进行说明。首先,语音识别装置1经由话筒9接受y ^ 子”这一语音的输入(S91)。 于是,针对所输入的Y >彳、X 这一语音,与上述同样地选出语音识别候补,并判断 是否舍弃已选出的语音识别候补。在这里,决定采用y ^ f”(S92)。于是,语音识别装置1对主体部50a输出对应于“ f ~ >本X子”这一词的编号 (S93)。在这里,对应于>彳、X子”这一词的编号是10。从而,语音识别装置1对主 体部50a输出编号10。于是,遥控装置50的控制部51进行对应于编号10的规定动作(S94)。在这里,因 对应于编号10的动作是将电视60的频道变更成1,故经由通信部53进行红外线通信以便 将电视60的频道变更成1。电视60接受来自遥控装置50的通信,将频道变更成1(S95)。另外,电子设备10并不限于上述实施方式,例如还能够应用于照相机。在此情况 下,能够使用语音识别装置1进行快门的按下及摄影模式的变更等。另外,还能够应用于电 话。在此情况下,能够使用语音识别装置1输入电话号码打电话或者进行电话薄的登记等。 另外,还能够应用于钟表。在此情况下,能够使用语音识别装置1进行闹钟的设定及时刻的 调整等。另外,还能够应用于玩具的控制器、冰箱、洗衣机、空调、电扇、计算机、数字多功能 复合机、收音机、音频设备、烹调设备器等所有电子设备。另外,虽然在上述实施方式中,就语音识别装置1被安装于作为电子设备10的主21体的主体部IOa之外部的例子进行了说明,但并不限于此,还可以组装于内部。另外,虽然在上述实施方式中,就语音识别装置1识别日本语的语音之例进行了 说明,但并不限于此,还能够识别英语、中国语、韩国语等所有言语。以上,参照附图对本发明实施方式进行了说明,但本发明并不限定于已图示的实 施方式。可以在与本发明同一范围内或者均等的范围内,对所图示的实施方式施加各种各 样的修正及变形。工业上的可利用性本发明有效地利用于以所登记的词组为单位对所输入的语音进行识别,并舍弃已 识别的候补之中、似然值较低的候补的语音识别装置、语音识别方法以及具备这种语音识 别装置的电子设备。
权利要求
1.一种语音识别装置,用于在噪声环境下按所登记的每个词组来识别说话语音,具备语音特征量计算单元,其计算上述说话语音的每个词组的语音特征量; 词组存储单元,其存储上述每个词组的语音模式系列信息;似然值计算单元,其对由上述语音特征量计算单元所计算出的每个词组的语音特征量 和上述词组存储单元中所存储的多个词组的语音模式系列信息进行比较,计算出似然值;候补提取单元,其基于由上述似然值计算单元所计算出的似然值,按似然值从高到低 的顺序选出多个语音识别候补;及识别过滤单元,其基于由上述候补提取单元所选出的上述多个语音识别候补的各自的 似然值分布,判断是否舍弃上述所选出的语音识别候补。
2.一种语音识别装置,用于在噪声环境下按所登记的每个词组来识别说话语音,具备语音特征量计算单元,其计算上述说话语音的每个词组的语音特征量; 词组存储单元,其存储上述每个词组的语音模式系列信息;似然值计算单元,其对由上述语音特征量计算单元所计算出的每个词组的语音特征量 和上述词组存储单元中所存储的多个词组的语音模式系列信息进行比较,计算出多个语音 识别候补的似然值;候补提取单元,其基于由上述似然值计算单元所计算出的似然值,按似然值从高到低 的顺序选出第1语音识别候补、较上述第1语音识别候补次之的第2语音识别候补、较上述 第2语音识别候补次之的第3语音识别候补;及识别过滤单元,其基于由上述候补提取单元所提取出的上述第1语音识别候补与上述 第2语音识别候补的似然值之差和上述第2语音识别候补与上述第3语音识别候补的似然 值之差的似然差之比,判断是否舍弃上述所提取出的语音识别候补。
3.根据权利要求2所述的语音识别装置,其特征在于上述识别过滤单元,如果上述似然差之比小于规定值就舍弃上述第1语音识别候补, 如果大于上述规定值就将上述第1语音识别候补作为语音识别的对象。
4.根据权利要求2所述的语音识别装置,其特征在于上述词组存储单元存储按语音的特征划分的组的语音模式系列信息, 上述识别过滤单元包括第1判断单元,该第1判断单元基于按语音的特征划分的组的 上述似然差之比,判断是否舍弃上述所提取出的第1语音识别候补。
5.根据权利要求2所述的语音识别装置,其特征在于上述识别过滤单元包括第2判断单元,该第2判断单元基于上述第1语音识别候补的 似然值和上述第2语音识别候补的似然值,判断是否舍弃上述所提取出的第1语音识别候 补。
6.根据权利要求2所述的语音识别装置,其特征在于上述似然值计算单元提取较上述第3语音识别候补次之的第4语音识别候补, 上述识别过滤单元包括第3判断单元,该第3判断单元基于上述第1语音识别候补的 似然值与上述第4语音识别候补的似然值之差判断是否舍弃上述所提取出的第1语音识别 候补。
7.根据权利要求2所述的语音识别装置,其特征在于上述识别过滤单元包括第4判断单元,该第4判断单元基于上述第1语音识别候补的 似然值,判断是否舍弃上述所提取出的第1语音识别候补。
8.根据权利要求2所述的语音识别装置,其特征在于上述候补提取单元在较上述第1语音识别候补次之的语音识别候补中存在与上述第 1语音识别候补的语音模式系列信息相近似的语音识别候补时,排除上述语音识别候补,并 提取较上述语音识别候补次之的语音识别候补。
9.一种语音识别方法,在噪声环境下按所登记的每个词组来识别说话语音,包括如下 步骤计算上述说话语音的每个词组的语音特征量的步骤;对上述所计算出的每个词组的语音特征量和预先存储的多个词组的语音模式系列信 息进行比较,计算出作为语音识别对象的多个语音识别候补的似然值的步骤;基于按上述各个词组的上述计算出的似然值,按似然值从高到低的顺序选出第1语音 识别候补、较上述第1语音识别候补次之的第2语音识别候补、较上述第2语音识别候补次 之的第3语音识别候补的步骤;比较上述所选出的上述第1语音识别候补与上述第2语音识别候补的似然值之差和上 述第2语音识别候补与上述第3语音识别候补的似然值之差的似然差之比的步骤;如果上述似然差之比小于规定值就舍弃上述第1语音识别候补,如果大于上述规定值 就将上述第1语音识别候补作为上述语音识别的对象的步骤。
10.一种电子设备,其具备在噪声环境下按所登记的每个词组来识别说话语音的语音 识别装置,上述语音识别装置具备语音特征量计算单元,其计算上述说话语音的每个词组的语音特征量; 词组存储单元,其存储上述每个词组的语音模式系列信息;似然值计算单元,其对由上述语音特征量计算单元所计算出的每个词组的语音特征量 和上述词组存储单元中所存储的多个词组的语音模式系列信息进行比较,计算出似然值;候补提取单元,其基于由上述似然值计算单元所计算出的似然值,按似然值从高到低 的顺序选出多个语音识别候补;及识别过滤单元,其基于由上述候补提取单元所选出的上述多个语音识别候补的各自的 似然值分布,判断是否舍弃上述所选出的语音识别候补,上述电子设备具备控制单元,该控制单元基于由上述语音识别装置所识别出的语音, 对上述电子设备进行控制以进行规定的动作。
11.根据权利要求10所述的电子设备,其特征在于 上述似然值计算单元计算多个语音识别候补的似然值,上述候补提取单元基于由上述似然值计算单元所计算出的似然值,按似然值从高到低 的顺序选出第1语音识别候补、较上述第1语音识别候补次之的第2语音识别候补、较上述 第2语音识别候补次之的第3语音识别候补;上述识别过滤单元,基于由上述候补提取单元所提取出的上述第1语音识别候补与上 述第2语音识别候补的似然值之差和上述第2语音识别候补与上述第3语音识别候补的似然值之差的似然差之比,判断是否舍弃上述所提取出的语音识别候补。
12.根据权利要求10所述的电子设备,其特征在于由上述语音识别装置所识别出的语音与规定的编号建立关联,上述规定的编号按上述 电子设备所具备的每个动作内容而规定。
13.根据权利要求12所述的电子设备,其特征在于 上述动作内容通过2值来规定。
14.根据权利要求12所述的电子设备,其特征在于 上述动作内容通过多值来规定。
全文摘要
通过语音特征量计算电路(31)计算所输入的语音的每个词组的语音特征量,通过推定处理似然计算电路(33)对计算出的每个词组的语音特征量和存储装置(34)中所存储的多个词组的语音模式系列信息进行比较,并计算多个按每个词组的似然值高的候补起似然值依次低的候补,识别过滤装置(4)基于第1候补的似然值与第2候补的似然值之差和第2候补的似然值与第3候补的似然值之差的似然差之比,判断是否舍弃所提取出的候补。
文档编号G10L15/06GK102047322SQ20098011962
公开日2011年5月4日 申请日期2009年5月11日 优先权日2008年6月6日
发明者兵藤一峰, 吉田满次 申请人:株式会社雷特龙