语音识别设备和方法以及记录了语音识别程序的记录媒体的制作方法

文档序号:2822038阅读:202来源:国知局
专利名称:语音识别设备和方法以及记录了语音识别程序的记录媒体的制作方法
技术领域
本发明涉及有关通过HMM(隐藏的马尔可夫模型)方法进行语音识别的技术领域,具体地,涉及有关识别自然发生的(spontaneous)语音中的关键字的技术领域。
背景技术
近年来,开发了识别由人发出的自然发生语音的语音识别设备。当人讲出预定的字时,这些设备从它们的输入信号识别讲出的字。
例如,配备有这样的语音识别设备的各种装置(诸如安装在汽车上的、用于引导汽车移动的导航系统,和个人计算机)将允许用户无需通过键盘或开关进行人工选择操作来输入各种信息。
因此,例如即使在操作者正在使用他/她的双手驾驶汽车时的工作环境下,操作者仍可以把想要的信息输入到导航系统。
典型的语音识别方法包括利用被称为HMM(隐藏的马尔可夫模型)的概率模型的方法。
在语音识别中,自然发生的语音是通过把自然发生语音的特征值的模式与事先准备的、代表被称为关键字的候选字的语音的特征值的模式相匹配而被识别的。
具体地,在语音识别时,通过分析输入的自然发生语音,提取被划分成预定的持续时间的分段的输入的自然发生语音的特征值,计算在输入信号的特征值与预先存储在数据库中的、用HMM表示的关键字的特征值之间的匹配程度(此后称为或然率),累积整个自然发生语音的或然率,以及把具有最高或然率的关键字判定为识别的关键字。
因此,在语音识别中,关键字是根据由人发出的自然发生语音的输入信号被识别的。
顺便说明,HMM是被表示为一组转移状态的统计源模型。它代表要被识别的预定的语音(诸如关键字)的特征值。而且,HMM是根据事先采样的多个语音数据生成的。
重要的是,这种语音识别能够怎样提取被包含在自然发生语音中的关键字。
除了关键字以外,自然发生语音通常包含无关紧要(extraneous)的语音,即,先前已知不必识别的字(诸如在关键字之前和之后的“er”或“please”),原则上,自然发生语音包含夹在无关紧要语音中间的关键字。
传统上,语音识别常常利用“单字定位(word-spotting)”技术来识别要被语音识别的关键字。
在单字定位技术中,不仅准备了代表关键字模型的HMM,而且也准备了代表无关紧要语音模型(此后称为垃圾模型)的HMM,以及自然发生的语音是通过识别其特征值具有最高或然率的关键字模型、垃圾模型、或二者的组合而被识别的。

发明内容
然而,上述的用于识别自然发生的语音的设备易于误识别,因为如果发出的是非预期的无关紧要语音,则该设备不能识别无关紧要语音或不能正确地提取关键字。
鉴于以上问题,作出了本发明。本发明的目的是提供一种语音识别设备,它能够达到高的语音识别性能而不增加无关紧要语音的特征值的数据量。
本发明的以上的目的是通过本发明的语音识别设备达到的。用于识别被包含在发出的自然发生语音中的至少一个关键字的语音识别设备配备有提取装置,用于通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别装置,用于通过根据自然发生特征数据辨认被包含在自然发生数据中的所述关键字和无关紧要的语音的至少一项而识别所述关键字,所述无关紧要语音表示非关键字;以及数据库,其中预先存储无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别装置根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据辨认被包含在自然发生语音中的无关紧要语音。
按照本发明,被包含在自然发生语音中的无关紧要语音是根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据被辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能改进提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中被预先存储在所述数据库中的所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据而辨认的,该特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中被预先存储在所述数据库中的所述无关紧要语音分量特征数据代表语音成分特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表由组合多个无关紧要语音分量的特征值得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音可以根据存储的无关紧要语音分量特征数据之一而辨认,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中预先存储在所述数据库中的所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据具有多个无关紧要语音分量的语音成分的特征值的数据的无关紧要语音分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音的辨认精度在多个特征值被合成时会造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中在所述无关紧要语音分量的多个特征数据被预先存储在所述数据库中的情形下,无关紧要语音分量特征数据代表对于作为语音的结构分量的各种类型的语音声音所生成的语音成分的特征值的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结构分量的各种类型的语音声音生成的语音成分的特征值的数据。
因此,因为无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化是可以防止的,所以在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别设备进一步被配备;其中被预先存储在所述数据库中的无关紧要语音分量特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,被包含在自然发生语音中的无关紧要语音是根据代表音素和音节中至少一项的特征值的数据的无关紧要语音分量特征数据被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别设备还配备有;获取装置,用于事先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别装置包括计算装置,用于计算表示提取的自然发生语音的至少部分特征值与存储在所述数据库中的无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别装置,用于根据计算的或然率辨认包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认被包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的语音识别方法达到的。用于识别包含在发出的自然发生语音中的至少一个关键字的语音识别方法包括以下过程提取过程,通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别过程,通过根据自然发生特征数据辨认包含在自然发生数据中的所述关键字和无关紧要的至少一项而识别所述关键字,所述无关紧要语音表示非关键字;以及获取过程,获取预先存储在数据库中的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别过程根据提取的自然发生语音特征值和获取的无关紧要语音分量特征数据辨认包含在自然发生语音中的无关紧要语音。
按照本发明,包含在自然发生语音中的无关紧要语音是根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据而辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;其中所述获取处理过程获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据具有多个无关紧要语音分量的语音成分的特征值的特征的数据的无关紧要语音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;其中所述获取处理过程获取被预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
按照本发明,包含在自然发生语音中的无关紧要语音是根据代表通过组合多个无关紧要语音分量的特征值得到的、语音成分的特征值的一个数据的无关紧要语音分量特征数据而辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一而辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,本发明的语音识别方法进一步被配备;其中所述获取过程获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
按照本发明,被包含在自然发生语音中的无关紧要语音是根据具有多个无关紧要语音分量的语音成分的特征值的数据的无关紧要语音分量特征数据被辨认的。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一而辨认的以及可以防止无关紧要语音的辨认精度在把多个特征值合成时会造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;按照本发明的语音识别方法,其中所述获取过程获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,无关紧要语音分量特征数据代表对于作为语音的结构分量的各种类型的语音声音生成的语音成分的特征值的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据代表作为语音的结构分量的每种类型的语音声音生成的语音成分的特征值的数据的无关紧要语音分量特征数据被辨认的。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,所以在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,本发明的语音识别方法进一步被配备;按照本发明的任一项的语音识别方法,其中所述获取过程获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,被包含在自然发生语音中的无关紧要语音是根据代表音素和音节中的至少一项的特征值的数据的无关紧要语音分量特征数据被辨认的。
通常,有大量的要被识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以每个音素或音节被存储的无关紧要语音分量特征值被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的一个方面,本发明的语音识别方法进一步被配备;按照本发明的任一项的语音识别方法,其中所述获取过程事先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别过程包括计算过程,计算表示提取的自然发生语音的至少部分特征值与被存储在所述数据库中的无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别过程,根据计算的或然率辨认包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认被包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
本发明的以上的目的是通过本发明的记录媒体达到的。记录媒体是其中记录有语音识别程序以便由计算机读出的记录媒体,被包括在用于识别包含在发出的自然发生语音中的至少一个关键字的语音识别设备的计算机,程序使得计算机用作为提取装置,通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别装置,通过根据自然发生特征数据辨认包含在自然发生语音中的所述关键字和无关紧要的至少一项而识别所述关键字,所述无关紧要语音表示非关键字;以及获取装置,获取预先存储在数据库中的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别装置根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据辨认包含在自然发生语音中的无关紧要语音。
按照本发明,包含在自然发生语音中的无关紧要语音是根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据被辨认的。
因此,因为无关紧要语音是根据存储的无关紧要语音分量特征数据被辨认的,在识别无关紧要语音时,无关紧要语音可以通过使用小量数据被正确地辨认。所以,有可能增加可识别的无关紧要语音而不用增加对于识别无关紧要语音所需要的数据量以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表通过组合多个无关紧要语音分量的特征值而得到的、语音成分的特征值的一个数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
本发明的一个方面,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
因此,因为在自然发生语音中的多个无关紧要语音是根据存储的无关紧要语音分量特征数据之一被辨认的以及可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表对于作为语音的结构分量的各种类型的语音声音生成的语音成分的特征值的数据。
按照本发明,包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表对于作为语音的结构分量的每种类型的语音声音生成的语音成分的特征值的数据。
因此,因为可以防止无关紧要语音的辨认精度在多个特征值被合成时所造成的恶化,在识别无关紧要语音时,有可能通过使用小量数据正确地辨认无关紧要语音。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,获取预先存储在所述数据库中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一项的特征值的数据。
按照本发明,被包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量特征数据被辨认的,该特征数据代表音素和音节中的至少一项的特征值的数据。
通常,有大量的要识别的单字,包括无关紧要语音,但只有有限的音素或音节组成这些单字。
因此,在无关紧要语音的识别中,因为所有的无关紧要语音是根据以各个音素或音节而被存储的无关紧要语音分量特征值被辨认的,有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。
在本发明的一个方面中,语音识别程序使得计算机用作为所述获取装置,事先获取代表所述关键字的语音成分的特征值的关键字特征数据,其中识别处理包括计算装置,用于计算表示提取的自然发生语音的至少部分特征值与被存储在所述数据库中的无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别装置,用于根据计算的或然率辨认包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
按照本发明,计算了表示提取的自然发生语音的至少部分特征值与无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及根据计算的或然率辨认包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
因此,在无关紧要语音的识别中,因为无关紧要语音是根据无关紧要语音分量特征数据和关键字特征数据被辨认的,所以有可能正确地辨认无关紧要语音,而不增加要被辨认的无关紧要语音分量特征值的数据量,以及有可能提高提取和识别关键字的精确度。


图1是显示按照本发明的第一实施例的语音识别设备的图,其中使用基于HMM的语音语言模型;图2是显示用于识别任意的自然发生语音的基于HMM的语音语言模型的图;图3A是显示用于无关紧要语音和关键字的任意组合的无关紧要语音HMM的累积或然率的图;图3B是显示用于无关紧要语音和关键字的任意组合的无关紧要语音分量HMM的累积或然率的图;图4是显示按照本发明的第一和第二实施例的语音识别设备的结构的图;图5是显示按照第一实施例的关键字识别处理的运行的流程图;图6是显示按照第二实施例的语音识别设备的结构的图,其中使用了基于HMM的语音语言模型;图7A是显示按照第二实施例的、特征矢量对无关紧要语音分量HMM的输出概率的示例性的图;图7B是显示按照第二实施例的、特征矢量对无关紧要语音分量HMM的输出概率的示例性的图;图8是显示按照第二实施例的、通过累计多个无关紧要语音分量HMM而得到的无关紧要语音分量HMM的输出概率的图。
具体实施例方式
现在参照附图所示的优选实施例描述本发明。
下面描述的实施例是其中把本发明应用到语音识别设备的实施例。
图1到4是显示按照本发明的语音识别设备的第一实施例的图。
在本实施例中描述的无关紧要语音分量代表组成语音的基本语音单元,诸如音素或音节,但为了便于以下说明起见,在本实施例中将使用音节。
首先,参照图1和图2描述按照这个实施例的、基于HMM的语音语言模型。
图1是显示按照本实施例的识别网络的基于HMM的语音语言模型的图,以及图2是显示使用任意HMM的、用于识别任意的自然发生语音的语音语言模型的图。
这个实施例假设代表基于HMM识别网络(诸如图1所示的识别网络)的模型(此后称为语音语言模型),即,包含要识别的关键字的语音语言模型10。
语音语言模型10包含关键字模型11,在它的两个末端,它与代表无关紧要语音的分量的垃圾模型(此后称为无关紧要语音的分量模型)12a和12b相联系。在要识别包含在自然发生语音的关键字的情形下,包含在自然发生语音的关键字是通过把关键字与关键字模型11相匹配而被识别的,以及包含在自然发生语音的无关紧要语音是通过把无关紧要语音与无关紧要语音分量模型12a和12b相匹配而被识别的。
实际上,关键字模型11和无关紧要语音分量模型12a与12b代表一组状态,这些状态转移自然发生语音的每个任意的分段。统计源模型“HMM”,是一个由稳定源的组合所表示的不稳定源,它组成自然发生语音。
关键字模型11的HMM(此后称为关键字HMM)和无关紧要语音分量模型12a与12b的HMM(此后称为无关紧要语音分量HMM)具有两种类型的参量。一个参量是状态转移概率,它代表从一个状态到另一个状态的状态转移,以及另一个参量是输出概率,它输出当从一个状态到另一个状态的状态转移时将观察到一个矢量(对于每个帧的特征矢量)的概率。因此,关键字模型11的HMM代表每个关键字的特征模式,以及无关紧要语音分量HMM12a与12b代表每个无关紧要语音分量的特征模式。
通常,由于即使相同的字或音节也会因为各种原因表现出声音的不同,组成自然发生语音的语言声音会随说话人有很大的变化。然而,即使是由不同的说话人发出的,相同的语言声音主要由特征谱包络和它的时间变化来表征。这样的声音变化的时间系列模式的统计特性可以由HMM精确地表示。
因此,正如下面描述的,按照本实施例,包含在自然发生语音中的关键字是通过把输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM进行匹配和计算或然率而识别的。
顺便地,或然率表示输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM匹配的概率。
按照本实施例,HMM是每个关键字的语音成分的特征模式,或每个无关紧要语音分量的语音成分的特征值。而且,HMM是具有代表在规则的时间间隔内在每个频率上的功率的谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据的概率模型。
而且,HMM是通过获取由很多人发出的每个音素的自然发生语音数据,提取每个音素的特征模式,和根据提取的音素特征模式获取各个音素的特征模式数据而创建的,以及事先存储在各个数据库中。
当包含在自然发生语音中的关键字通过使用这样的HMM被识别时,要识别的自然发生语音被划分成预定的持续时间的分段,把每个分段与每个预存储的HMM数据相匹配,然后根据匹配处理过程的结果计算这些分段从一个状态到另一个状态的状态转移的概率,以辨认要被识别的关键字。
具体地,在本实施例中,把各语音分段的特征值与预存储的HMM数据的各个特征模式进行比较,计算各语音分段的特征值与HMM特征模式匹配的或然率,并通过使用匹配过程(以后说明)计算代表对于在所有的HMM之间的联系(即,在关键字与无关紧要语音之间的联系)的概率的累积或然率,以及通过检测具有最高的或然率的HMM联系,识别自然发生语音。
代表特征矢量的输出概率的HMM通常具有两个参量状态转移概率a和输出概率b,如图2所示。输入特征矢量的输出概率由多维正态分布的组合概率给出,以及每个状态的或然率由(1)式给出bi(x)=1(2π)P|Σi|exp(-12(x-μi)tΣi-1(x-μi))]]>公式.(1)其中x是任意语音分段的特征矢量,∑i是协变矩阵,λ是混合比,μi是事先获取的特征矢量的平均矢量,以及P是任意语音分段的特征矢量的维数。
图2是显示表示当任一个状态i改变到另一个状态(i+n)时的概率的状态转移概率a,和相对于状态转移概率a的输出概率b。图2上的每个曲线图显示在给定状态下的输入特征矢量将会输出的输出概率。
实际上,将以上公式(1)取对数的对数或然率常常被使用于语音识别,如图2所示。logbi(x)=-12log[(2π)]P|Σi|-12(x-μi)tΣi-1(x-μi)]]>公式.(2)
接着,参照图3说明作为垃圾模型的无关紧要语音分量HMM。
图3是显示在无关紧要语音和关键字的任意组合中无关紧要语音HMM和无关紧要语音分量HMM的累积或然率的图。
如上所述,在传统的语音识别设备的情形下,由于无关紧要语音模型,与关键字模型一样,由代表无关紧要语音的特征值的HMM组成,为了辨认包含在自然发生语音中的无关紧要语音,被辨认的无关紧要语音必须事先存储在数据库。
要辨认的无关紧要语音可包括除关键字以外的所有的语音,从不构成关键字的单字到不具有语言内容的不可识别的语音。因此,为了正确地识别被包含在自然发生语音帧的无关紧要语音,必须事先为大量无关紧要语音准备好HMM。
因此,在传统的语音识别设备中,必须获取每个无关紧要语音的特征值的数据,并把它存储在数据库,以便正确地识别包含在自然发生语音中的无关紧要语音。因此,必须事先存储大量数据,但实际上不可能得到用于存储数据的区域。
而且,在传统的语音识别设备中,要花费大量的劳动以生成要存储在数据库等等中的大量数据。
另一方面,无关紧要数据也是一种语音,因此它包含诸如音节和音素的分量,它们在数量上通常是有限的。
因此,如果被包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量被辨认的,则有可能减小要被准备的数据量以及有可能正确地辨认每个无关紧要语音。
具体地,因为任何无关紧要语音可以通过组合诸如音节和音素的分量而被组成,如果无关紧要语音是通过使用事先准备的这些分量的数据而被辨认的,则有可能减小要准备的数据量以及有可能正确地辨认每个无关紧要语音。
通常,识别包含在自然发生语音中的关键字的语音识别设备把自然发生语音划分成在预定的时间间隔内的语音分段(如后面描述的),计算每个语音分段与事先准备的垃圾模型(诸如无关紧要语音HMM)或每个关键字模型(诸如关键字HMM)匹配的或然率,根据对每个无关紧要语音HMM和每个关键字模型HMM的每个语音分段的计算出的或然率,累积关键字与无关紧要语音的每个组合的或然率,以及由此计算代表HMM联系的累积或然率。
当要识别包括在自然发生语音中的无关紧要语音的无关紧要HMM没有像传统的语音识别设备那样事先准备时,在自然发生语音中相应于无关紧要语音的那部分中的语音的特征值表现出与无关紧要语音HMM和关键字HMM的匹配的低的或然率以及它们的低的累积或然率,这将导致误识别。
然而,当语音分段与无关紧要语音分量HMM相匹配时,在自然发生语音中的无关紧要语音的特征值表现出与代表无关紧要语音分量HMM的特征值的准备的数据的匹配的高的或然率。因此,如果被包含在自然发生语音中的关键字的特征值与关键字HMM数据相匹配,则被包含在自然发生语音中的关键字与无关紧要语音的组合的累积或然率是高的,这使得有可能正确地识别关键字。
例如,当表示被包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM事先准备好时,如图3(a)所示,这与在使用无关紧要语音分量HMM的情形下的累积或然率没有差别,但当表示被包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM没有事先准备好时,如图3(b)所示,与使用无关紧要语音分量HMM的情形相比较,累积或然率是低的。
因此,由于本实施例通过使用无关紧要语音分量HMM来计算累积或然率以及由此辨认包含在自然发生语音中的无关紧要语音,本实施例能够通过使用小量数据正确地辨认无关紧要语音和识别关键字。
接着,参照图4,描述按照本实施例的语音识别设备的结构。
图4是显示按照本发明的第一实施例的语音识别设备的结构的图。
如图4所示,语音识别设备100包括话筒101,它接收自然发生语音,并把它变换成电信号(此后称为语音信号);输入处理器102,它从输入的语音信号中提取相应于语言声音的语音信号以及按预先设置的时间间隔内分割帧;语音分析器103,它提取在每帧中的语音信号的特征值;关键字模型数据库104,它预先存储代表要识别的多个关键字的特征模式的关键字HMM;垃圾模型数据库105,它预先存储代表要与关键字区分开的无关紧要语音的特征模式的无关紧要语音分量HMM;或然率计算器106,它计算从每个帧提取的特征值与关键字HMM和无关紧要语音分量HMM相匹配的或然率;匹配处理器107,它根据按逐帧的HMM计算的或然率实施匹配过程(后面描述);以及确定装置108,它根据匹配处理的结果确定包含在自然发生语音中的关键字。
语音分析器103用作为本发明的提取装置,关键字模型数据库104和垃圾模型数据库105用作为本发明的数据库。或然率计算器106用作为本发明的识别装置、计算装置和获取装置。匹配处理器109用作为本发明的识别装置和计算装置。确定装置108用作为本发明的识别装置。
在输入处理器102中,输入从话筒101输出的语音信号。输入处理器102从输入的语音信号中提取代表自然发生语音的语音分段的语音信号的那些部分,把语音信号的提取的那些部分按预定的持续时间划分为时间间隔帧,以及把它们输出到语音分析器103。例如,一个帧具有约10ms到20ms的持续时间。
语音分析器103逐帧地分析输入的语音信号,提取在每个帧中的语音信号的特征值,以及把它输出到或然率计算器106。
具体地,语音分析器103提取代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据,作为按逐帧的语音成分的特征值,把提取的特征值变换成矢量,以及把这些矢量输出到第一或然率计算器106。
关键字模型数据库104预先存储代表要被识别的关键字的特征值的模式数据的关键字HMM。这些存储的多个关键字HMM的数据代表要识别的多个关键字的特征值的模式。
例如,如果它在安装有导航系统的汽车中使用,则关键字模型数据库104被设计成存储代表包括对于汽车的目的地名称或现在的位置名称或设施名称(诸如餐馆名称)的语音信号的特征值的模式的HMM。
如上所述,按照本实施例,代表每个关键字的语音成分的特征模式的HMM代表一个概率模型,该概率模型具有代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据。
因为关键字通常包含多个音素或音节,正如按照本实施例的“present location(现在的位置)”或“destination(目的地)”的情形,一个关键字HMM包含多个关键字分量HMM,以及或然率计算器106逐帧地计算每个关键字分量HMM的特征值和或然率。
这样,关键字模型数据库104存储要识别的关键字的每个关键字HMM,即,关键字分量HMM。
在垃圾模型数据库105中,预先存储HMM“无关紧要语音分量HMM”,它是被使用来识别无关紧要语音的语言模型以及代表无关紧要语音分量的特征值的模式数据。
按照本实施例,垃圾模型数据库105存储一个HMM,它代表无关紧要语音分量的特征值。例如,如果存储一个基于音节的HMM的单位,则这个无关紧要语音分量HMM包含覆盖所有的音节的特征的特征模式,诸如日本假名,鼻音,有声辅音,和爆破音。
通常,为了生成对于每个音节的特征值的HMM,要预先获取由许多人发出的每个音节的语音数据,提取每个音节的特征模式,以及根据每个基于音节的特征模式得到每个音节的特征模式数据。然而,按照本实施例,当生成语音数据时,根据所有的音节的语音数据生成所有的特征模式的HMM,以及生成单个HMM(一种语言模型),它代表多个字节的特征值。
因此,按照本实施例,根据生成的特征模式数据,生成具有所有音节的特征模式的单个HMM(它是一种语言模型),以及把它变换成矢量,以及预先存储在垃圾模型数据库105。
在或然率计算器106中,输入每个帧的特征矢量,以及或然率计算器106根据每个帧输入的特征矢量通过在每个帧的每个输入的HMM与存储在每个数据库中的HMM的每个特征值之间进行匹配而计算或然率,以及把计算的或然率输出到匹配处理器107。
按照本实施例,或然率计算器106根据每个帧的每个特征值和存储在关键字模型数据库104和垃圾模型数据库105中的HMM的特征值来计算概率,包括相应于被存储在关键字模型数据库104和垃圾模型数据库105中的每个HMM的每个帧的概率。
具体地,或然率计算器106逐帧地计算输出概率相应于每个关键字分量HMM的每个帧的输出概率和相应于无关紧要语音分量的每个帧的输出概率。而且,它计算状态转移概率从任意帧到下一个帧的状态转移与从关键字分量HMM到另一个关键字分量HMM的状态转移相匹配的状态转移概率,从任意帧到下一个帧的状态转移与从关键字分量HMM到无关紧要语音分量的状态转移相匹配的状态转移概率,和从任意帧到下一个帧的状态转移与从无关紧要语音分量HMM到关键字分量HMM的状态转移相匹配的状态转移概率。然后,或然率计算器106把这些计算的概率作为或然率输出到匹配处理器107。
顺便地,状态转移概率也包括从每个关键字分量HMM到同一个关键字分量HMM的状态转移的概率和从无关紧要语音分量HMM到同一个无关紧要语音分量HMM的状态转移的概率。
按照本实施例,或然率计算器106把对于每个帧计算的各个输出概率和每个状态转移概率作为对于各个帧的各个或然率输出到匹配处理器107。
在匹配处理器107中,输入逐帧的输出概率和每个状态转移概率。匹配处理器107执行匹配处理,以便根据输入的每个输出概率与每个状态转移概率,计算累积的或然率,这是每个关键字HMM和无关紧要语音分量HMM的每个组合的或然率,以及把计算的累积的或然率输出到确定装置108。
具体地,匹配处理器107对每个关键字计算累积或然率(如后面描述),和计算不带有关键字的累积或然率,即,仅仅无关紧要分量模型的累积或然率。
顺便地,后面将描述由匹配处理器107执行的匹配处理的细节。
在确定装置108中,输入由匹配处理器107计算的、每个关键字的累积或然率,以及确定装置108向外部输出具有最高的累积的或然率的关键字,确定它作为包含在外部自然发生语音中的关键字。
在确定关键字时,确定装置108也单独地使用无关紧要语音分量模型的累积或然率。如果使用单独的无关紧要语音分量模型具有最高的累积或然率,则确定装置108确定在自然发生的语言中没有包含关键字并向外输出这个结果。
接着,将给出有关按照本实施例的匹配处理器107执行的匹配处理的说明。
按照本实施例的匹配处理过程通过使用Viterbi算法计算关键字模型与无关紧要语音分量模型的各个组合的累积或然率。
Viterbi算法是一种算法,它根据输入的每个给定的状态的输出概率和从每个状态转换到另一个状态的转移概率来计算累积或然率,然后输出其累积或然率是依据累积概率而被计算的组合。
通常,累积或然率首先通过累计在由每个帧的特征值代表的状态与由每个HMM代表的状态的特征值之间的每个欧几里德距离而被计算,然后,该累积或然率由计算累积的距离而得到计算。
具体地,Viterbi算法根据代表从任意状态i到下一个状态j的转移的路径计算累积的概率,由此提取通过它可以发生状态转移的每条路径,即,HMM的连接和组合。
在本实施例中,或然率计算器106通过从第一个划分的帧开始和到最后一个划分的帧为止,逐个地匹配关键字模型或无关紧要语音分量模型的输出概率和由此匹配对于输入的自然发生语音的帧的状态转移概率,而计算每个输出概率和每个状态转移概率,计算从第一个划分的帧和到最后一个划分的帧的关键字模型和无关紧要语音分量的任意组合的累积或然率,确定在每个关键字模型/每个关键字模型与无关紧要语音分量组合中具有最高的累积或然率的安排,以及把关键字模型的确定的累积或然率逐个地输出到确定装置108。
例如,在要被识别的关键字是“present location(现在的位置)”和“destination(目的地)”,以及进入的、输入自然发生语音是“er,present location”的情形下,按照本实施例的匹配处理过程将如下地执行。
这里假设,无关紧要语音是“er”,垃圾模型数据库105包含代表所有的无关紧要语音分量的特征的一个无关紧要语音分量HMM,关键字数据库包含“present”和“destination”的每个音节的HMM,以及由或然率计算器106计算的每个输出概率和状态转移概率已被输入到匹配处理器107。
在这样的情形下,按照本实施例,Viterbi算法根据输出概率与状态转移概率计算在对于关键字“present”与“destination”的关键字和无关紧要语音分量的每个组合中所有的排列的累积或然率。
具体地,当任意自然发生语音被输入时,根据输出概率和状态转移概率计算以下的每个组合的模式的累积或然率对于关键字“present”的“p-r-e-se-n-t####”,“#p-r-e-se-n-t###”,“##p-r-e-se-n-t##”,“###p-r-e-se-n-t#”,和“####p-r-e-se-n-t”和对于关键字“destination”的“d-e-s-t-i-n-a-ti-o-n####”,“#d-e-s-t-i-n-a-ti-o-n###”,“##d-e-s-t-i-n-a-ti-o-n##”,“###d-e-s-t-i-n-a-ti-o-n#”,和“####d-e-s-t-i-n-a-ti-o-n”(其中#表示无关紧要语音分量)。
Viterbi算法从每个关键字(在本例中是“present location”和“destination”)的第一帧开始计算自然发生的语音所有各帧的所有的组合模式的累积或然率。
而且,在计算对每个关键字的每个排列的累积或然率的过程中,Viterbi算法对于具有低的累积或然率的那些排列半途停止计算并确定自然发生的语音与那些组合模式不相匹配。
具体地,在第一帧中,“p”的HMM(它是关键字“present location”的关键字分量HMM)的或然率,或无关紧要语音分量HMM的或然率都包括在累积或然率的计算中。在本例中,较高的累积或然率提供下一个累积或然率的计算。在以上的例子中,无关紧要语音分量HMM的或然率高于“p”的HMM的或然率,因此,对于“p-r-e-se-n-t####”的累积或然率的计算在“p”后终结。
因此,在这种类型的匹配处理过程中,对于每个关键字“presentlocation”和“destination”只计算一个累积或然率。
接着,参照图5描述按照本实施例的关键字识别过程。
图5是显示按照本实施例的关键字识别过程的运行的流程图。
首先,当控制板或控制器(未示出)输入每个部分开始关键字识别处理的指令和自然发生语音被输入话筒101(步骤S11)时,输入处理器102从输入的语音信号提取部分的自然发生语音的语音信号(步骤S12),把提取的语音信号划分成预定的持续时间的帧,以及把它们逐帧输出到语音分析器103(步骤S13)。
然后,这个运行按逐帧的原则执行以下的处理过程。
首先,语音分析器103提取每个帧中输入语音信号的特征值,以及把它输出到或然率计算器106(步骤S14)。
具体地,根据在每帧中的语音信号,语音分析器103按规则时间间隔提取代表在每个频率上的功率的谱包络信息或从功率谱的对数的逆傅立叶变换得到的倒频谱信息作为语音成分的特征值,把提取的特征值变换成矢量,以及把矢量输出到或然率计算器106。
接着,或然率计算器106把输入帧的特征值与存储在关键字模型数据库104中的每个HMM的特征值进行比较,计算相对于每个HMM的帧的输出概率和状态转移概率(如上面描述的),以及把计算的输出概率和状态转移概率输出到匹配处理器107(步骤S15)。
然后,或然率计算器106把输入帧的特征值与被存储在垃圾模型数据库105中的无关紧要语音分量HMM的特征值进行比较,计算相对于无关紧要语音分量HMM的帧的输出概率和状态转移概率(如上面描述的),以及把计算的输出概率和状态转移概率输出到匹配处理器107(步骤S16)。
接着,匹配处理器107在上述的匹配处理过程中计算每个关键字的累积或然率(步骤S17)。
具体地,匹配处理器107累计每个关键字HMM和无关紧要语音分量HMM的每个或然率,但最终只计算对于每个关键字的每个类型的最高累积或然率。
然后,在控制器(未示出)的指令下,匹配处理器107确定给定的帧是否最后的划分的帧(步骤S18)。如果匹配处理器107确定是最后的划分的帧,则匹配处理器107把对于每个关键字的最高的累积或然率输出到确定装置108(步骤S19)。否则,如果匹配处理器107没有确定最后的划分的帧,则这个操作执行步骤S14的过程。
最后,根据每个关键字的累积或然率,确定装置108输出具有最高的累积或然率的关键字作为包含在自然发生语音中的关键字(步骤S20)。这结束该运行。
因此,按照本实施例,因为通过使用无关紧要语音分量HMM计算累积或然率以及由此可识别包含在自然发生语音中的关键字,无关紧要语音可被正确地辨认以及关键字可以通过使用比以前更小的数据量被识别。
具体地,对于传统的语音识别设备,因为事先准备的垃圾模型是无关紧要语音本身的HMM,为了正确地识别无关紧要语音,必须准备所有可发出的无关紧要语音的语言模型。
然而,按照本实施例,因为包含在自然发生语音中的无关紧要语音是根据自然发生语音的提取的特征值和存储的无关紧要语音分量HMM被辨认的,可正确地辨认无关紧要语音以及可以使用比以前更小的数据量识别关键字。
因为组成无关紧要语音的无关紧要语音分量可以通过一个无关紧要语音分量HMM被辨认,每个无关紧要语音可以通过一个无关紧要语音分量HMM被辨认因此,自然发生语音可以通过使用小量数据被辨认,使得有可能提高提取和识别关键字的精确度。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节生成的,当然,它们可以根据音素或其他结构单元被生成。
而且,虽然按照本实施例,一个无关紧要语音分量HMM被存储在垃圾模型数据库105,但代表无关紧要语音分量的特征值的HMM可以为每组的多个的每种类型的音素、或每个元音、辅音被存储。
在这种情形下,在或然率计算过程中按逐帧地计算的特征值将是每个无关紧要语音分量HMM和每个无关紧要语音分量的或然率。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的关键字识别程序时被执行。
在执行关键字识别处理程序的这个语音识别设备上,可以使用DVD或CD作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程序的读数装置。
图6到8是显示按照本发明的第二实施例的语音识别设备的图。
这个实施例与第一实施例的不同之处在于,不是用单个无关紧要语音分量HMM,即不是用通过组合多个无关紧要语音分量的特征值得到的和存储在垃圾模型数据库中的单个无关紧要语音分量模型,而是把多个无关紧要语音分量HMM存储在垃圾模型数据库,每个无关紧要语音分量HMM具有多个无关紧要语音分量的特征数据。在其他方面,这个实施例的结构类似于第一实施例的结构。因此,与第一实施例相同的部件用与相应部件相同的参考数字表示,以及将省略这些部件的说明。
图6是显示按照本实施例的使用HMM的识别网络的语音语言模型的图,图7是显示按照本实施例的无关紧要语音分量HMM的特征矢量和输出概率的示例性的图。
图8是显示通过累计多个无关紧要语音分量HMM而得到的多个无关紧要语音分量HMM的输出概率的图。
而且,按照本实施例,说明了要假设无关紧要语音的两个分量HMM模型是存储在垃圾模型数据库中的。
在这里的语音语言模型20中,与第一实施例的情形一样,包含在自然发生语音中的关键字和无关紧要语音是通过分别把关键字与关键字模型21进行匹配和把无关紧要语音与每个无关紧要语音分量模型22a和22b进行匹配而被辨认的,由此识别自然发生语音中的关键字。
按照第一实施例,一个无关紧要语音分量HMM是通过获取由多个人发出的每个音素的语音数据,提取每个音素的特征模式,和根据提取的每个音素的特征模式获得每个音素的特征模式数据而事先生成的。然而,按照本实施例,一个无关紧要语音分量HMM是对于每组的多个音素、元音、或辅音而生成的,以及生成的每个无关紧要语音分量HMM被合并成一个或多个无关紧要语音分量HMM。
例如,通过合并根据获取的语音数据训练的八个无关紧要语音分量HMM而得到的两个无关紧要语音分量HMM具有图7所示的特征。
具体地,如图8所示,八个HMM以如下方式,被合并成如图7(a)和7(b)所示的两个HMM,即在其他HMM和特征矢量之间将没有干扰。
由此,按照本实施例,每个合并的特征矢量具有如图8所示的每个原先的无关紧要语音分量HMM的特征。
具体地,按照本实施例的每个HMM的特征矢量(语音矢量)的输出概率由公式(3)根据公式(2)给出。每个合并的无关紧要语音分量HMM的特征矢量(语音矢量)的输出概率是使用根据每个计算所得的原先的无关紧要语音分量HMM的计算出的输出概率的最大值而计算的。bi(x)≅max(λi1bi1(x)HMM1N,λi2bi2(x)HMM1N,λi1bi1(x)HMM2N,λi2bi2(x)HMM2N)]]>公式.(3)按照本实施例,代表最大输出概率的HMM是与要识别的无关紧要语音进行匹配的HMM,即,用来进行匹配的HMM,以及要计算它的或然率。
最后得到的曲线图显示由语音分析器103分析的、输出概率与帧的特征矢量的关系。
按照本实施例,无关紧要语音分量HMM是这样生成的,以及被存储在垃圾模型数据库。
按照本实施例,或然率计算器106使用以上述方式生成的无关紧要语音分量HMM、关键字HMM、和逐帧的特征值来逐帧地计算或然率。计算的或然率被输出到匹配处理器107。
由此,按照本实施例,因为每个无关紧要语音分量HMM具有多个无关紧要语音分量的语音成分的特征值,在第一实施例中当多个特征值被合并成多个无关紧要语音分量HMM时会发生的识别精确度的恶化可被避免,并且可正确地辨认无关紧要语音而不必增加存储在垃圾模型数据库中的无关紧要语音分量HMM的数据量。
顺便地,虽然按照本实施例,无关紧要语音分量模型是根据音节生成的,当然,它们可以根据音素或其他单元生成。
而且,代表无关紧要语音分量的特征值的HMM可以对每组中多个各种类型的音素、或各个元音、和辅音被存储。
在这种情形下的或然率计算过程中,特征值是通过使用每个无关紧要语音分量HMM和每个无关紧要语音分量的或然率逐帧计算的。
而且,虽然按照本实施例,关键字识别处理过程是通过上述的语音识别设备执行的,但语音识别设备可配备有计算机和记录媒体,以及类似的关键字识别处理过程可以在计算机读出存储在记录媒体上的关键字识别程序时执行。
在执行关键字识别处理程序的这个语音识别设备中,DVD或CD可用作为记录媒体。
在这种情形下,语音识别设备将配备有用于从记录媒体中读出程序的读数装置。
权利要求
1.用于识别被包含在发出的自然发生语音中的关键字中的至少一个的语音识别设备(100,200),其特征在于,所述设备包括提取装置(103),用于通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别装置(106,107,108),用于通过根据自然发生语音特征值辨认被包含在自然发生语音中的所述关键字和无关紧要语音中的至少一个而识别所述关键字,所述无关紧要语音表示非关键字;以及数据库(104,105),其中预先存储无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别装置(106,107,108)根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据辨认被包含在自然发生语音中的无关紧要语音。
2.按照权利要求1的语音识别设备(100,200),其中被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
3.按照权利要求2的语音识别设备(100,200),其中被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据代表该语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
4.按照权利要求2的语音识别设备(100,200),其中被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
5.按照权利要求2到4的任一项的语音识别设备(100,200),在其中多个所述无关紧要语音分量特征数据被预先存储在所述数据库(104,105)中的情形下,其中无关紧要语音分量特征数据代表对于作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
6.按照权利要求1到5的任一项的语音识别设备(100,200),其中被预先存储在所述数据库(104,105)中的无关紧要语音分量特征数据代表音素和音节中的至少一个的特征值的数据。
7.按照权利要求1到6的任一项的语音识别设备(100,200),还包括获取装置(106),用于事先获取代表所述关键字的语音成分的特征值的关键字特征数据,以及其中识别装置(106,107,108)包括计算装置(106),用于计算表示提取的自然发生语音的至少一部分特征值与被存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率;以及识别装置(106,107,108),用于根据计算出的或然率辨认被包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一项。
8.识别被包含在发出的自然发生语音中的关键字中的至少一个的语音识别方法,其特征在于,所述方法包括提取过程,用于通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别过程,用于通过根据自然发生特征值辨认被包含在自然发生语音中的所述关键字和无关紧要语音的至少一个而识别所述关键字,所述无关紧要语音表示非关键字;以及获取过程,用于获取预先存储在数据库(104,105)中的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据指示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别过程根据提取的自然发生语音特征值和获取的无关紧要语音分量特征数据辨认包含在自然发生语音中的无关紧要语音。
9.按照权利要求8的语音识别方法,其中所述获取过程获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
10.按照权利要求9的语音识别方法,其中所述获取过程获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表该语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
11.按照权利要求9的语音识别方法,其中所述获取过程获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
12.按照权利要求9到11的任一项的语音识别方法,其中所述获取过程获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表对于作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
13.按照权利要求8到12的任一项的语音识别方法,其中所述获取过程获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一个的特征值的数据。
14.按照权利要求8到13的任一项的语音识别方法,其中所述获取过程事先获取代表所述关键字的语音成分的特征值的关键字特征数据,以及所述识别过程包括计算过程,它用于计算表示提取的自然发生语音的至少一部分特征值与存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别过程,它用于根据计算的或然率辨认被包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一个。
15.记录媒体,其中记录着语音识别程序以便由计算机读出,该计算机被包括在用于识别包含在发出的自然发生语音中的关键字中的至少一个的语音识别设备(100,200)中,其特征在于,所述程序使得计算机被用作为提取装置(103),它用于通过分析自然发生语音提取自然发生语音特征值,它是自然发生语音的语音成分的特征值;识别装置(106,107,108),用于通过根据自然发生特征数据辨认被包含在自然发生数据中的所述关键字和无关紧要的语音的至少一个而识别所述关键字,所述无关紧要语音表示非关键字;以及获取装置,它用于获取预先存储在数据库(104,105)中的无关紧要语音分量特征数据,所述无关紧要语音分量特征数据表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值,其中识别装置(106,107,108)根据提取的自然发生语音特征值和存储的无关紧要语音分量特征数据来辨认包含在自然发生语音中的无关紧要语音。
16.按照权利要求15的记录媒体,其中程序还使得计算机被用作为所述获取装置,它获取被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的特征的数据。
17.按照权利要求16的记录媒体,其中程序还使得计算机被用作为所述获取装置,它获取被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表该语音成分的特征值的一个数据,它是通过组合多个无关紧要语音分量的特征值而得到的。
18.按照权利要求16的记录媒体,其中程序还使得计算机被用作为所述获取装置,它获取被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据具有多个无关紧要语音分量的语音成分的特征值的数据。
19.按照权利要求15到18的任一项的记录媒体,其中程序还使得计算机被用作为所述获取装置,它获取预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表对于作为语音的结构分量的每种类型的语音声音而生成的语音成分的特征值的数据。
20.按照权利要求15到19的任一项的记录媒体,其中程序还使得计算机被用作为所述获取装置,它获取被预先存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据,所述无关紧要语音分量特征数据代表音素和音节中的至少一个的特征值的数据。
21.按照权利要求15到20的任一项的记录媒体,其中程序还使得计算机被用作为所述获取装置(106),它事先获取代表所述关键字的语音成分的特征值的关键字特征数据,以及所述识别装置包括计算装置(106),用于计算表示提取的自然发生语音的至少一部分特征值与被存储在所述数据库(104,105)中的所述无关紧要语音分量特征数据和获取的关键字特征数据相匹配的概率的或然率;以及识别装置(106,107,108),用于根据计算出的或然率来辨认被包含在自然发生语音中的所述关键字和所述无关紧要语音的至少一个。
全文摘要
语音识别设备100包括语音分析器103,它提取划分成帧的自然发生语音的特征模式;关键字模型数据库(104,105)104,它预先存储代表要识别的多个关键字的特征模式的关键字;垃圾模型数据库(104,105)105,它预先存储要识别的无关紧要语音的分量的特征模式;以及或然率计算器106,它根据每个帧、关键字和无关紧要语音的特征值模式计算特征值的或然率。设备100根据每个帧与每个HMM相匹配的或然率而识别包含在自然发生语音中的关键字。
文档编号G10L15/20GK1452157SQ0312313
公开日2003年10月29日 申请日期2003年4月17日 优先权日2002年4月17日
发明者川添佳洋 申请人:日本先锋公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1