指令信号产生设备和方法

文档序号：2821725阅读：248来源：国知局

专利名称：指令信号产生设备和方法
技术领域：
本发明涉及一种指令信号产生方法和设备，尤其涉及一种指令信号产生方法和设备，用于响应于某人的代表至少一个关键字的语音，产生将要输出给外部设备的指令信令，从而确保使用所产生的指令信号来激活和控制该外部设备。
背景技术：
直到现在，已经建议过许多种指令信号产生设备，可用于响应于某人的代表至少一个关键字的语音而产生指令信号的处理中。
这种类型的传统的指令信号产生设备在，例如，日本专利公开出版的JP2001-51694和2002-322078已公开过。传统的指令信号产生设备包括一个存储单元，在其中存储有一个语音识别词典；一个输入单元，具有输入到其中的一个语音，该语音包含多个的时间上相互分离的语音片断；一个检测单元，用来检测所输入的语音的分离语音片断；和一个语音识别执行单元，其不断地进行语音识别，以在存储于存储单元中的语音识别词典的基础上判断输入语音的每一个分离语音片断是否被识别为一个特殊的关键字。当所述的分离语音片断被识别为所述的特殊关键字时，传统的指令信号产生设备适用于此来产生输出到外部设备的指令信号。
然而，传统的指令信号产生设备遇到这样的一个问题，即由于语音识别执行单元不断地对每一个分离语音片断进行语音识别，响应于一个不期望的噪音，所输入的语音中的至少一个分离语音片断易于被错误地识别为特殊关键字。

发明内容
本发明的一个目的是提供一种指令信号的产生方法和设备，其能够阻止所输入的语音的每个分离语音片断被错误地识别为所述的特殊关键字。
本发明的另一个目的是提供一种指令信号的产生方法和设备，其能够相对高效率地判断所输入的语音的每个分离语音片断是否代表启动关键字，以便在不受不期望噪音的影响下减少处理负载。
根据本发明的一个第一方面，提供了一种响应于至少一个启动关键字产生输出到外部设备的指令信号的指令信号产生设备，包括语音输入装置，用来输入一个包括多个相互分离的语音片断的语音；分离语音片断检测装置，用来检测所输入的语音的每个分离语音片断；分离语音判断装置，用来判断是否将所输入语音的分离语音片断识别为一个分离的声音；语音识别词典存储装置，用来存储包含关于所述的启动关键字的启动关键字信息的语音识别词典；和语音识别执行装置，用来对所述的被识别为分离声音的分离语音片断执行语音识别，以在存储在语音识别词典存储装置中的语音识别词典的基础上判断被识别为分离声音的分离语音片断是否代表所述的启动关键字，并当作出被识别为分离声音的分离语音片断代表所述的启动关键字的判断时，输出一个预定的指令到外部设备。
所述的语音识别执行装置可以包括一个初步语音识别执行单元，用来在存储在语音识别词典存储装置中的语音识别词典的基础上执行初步语音识别，以粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别执行单元，用来当所述的初步语音识别执行单元判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储装置中的语音识别词典的基础上执行精确语音识别，以精确判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
由所述的初步语音识别执行单元进行的所述的初步语音识别的处理量可以比由所述精确语音识别执行单元进行的精确语音识别所进行的处理量小。
所述的分离语音判断装置可适合于当所述的分离语音片断被所述的分离语音片断检测装置检测到时开始判断将所述分离语音片断识别为所述分离声音。
当所述的分离语音判断装置运行而没有判断出将由所述的分离语音片断检测装置检测到的分离语音片断识别为分离的声音时，或当所述初步语音识别执行单元和所述精确语音识别执行单元中的其中一个运行而没有判断出被识别为分离声音的所述分离分语音片断代表所述启动关键字时，所述分离语音片断检测装置可以适合于此来检测所输入语音的结尾。
所述分离语音片断检测装置可以包括一个前端检测单元，用来检测所述分离语音片断的前端；一个后端检测单元，用来检测所述的分离语音片断的后端；一个时间周期测量单元，用来在判断是否所述的前端和所述后端之间的时间周期超过第一门限值并且不超过比第一门限值大的一个第二门限值之前，测量所述前端和所述后端之间的时间周期；和一个时间间隔测量单元，用来在判断当前的分离的语音片断的前端和与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过一个第三门限值之前，测量当前分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。在基于所述时间周期测量单元的判断和所述时间间隔测量单元的判断、从所述的分离语音片断中选择至少一个分离语音片断来由所述的语音判断装置判断之前，所述的分离语音检测装置可以适合于此来检测所述的分离的语音片断。
所述的分离语音判断装置可以包括一个自相关值计算单元，用来计算由所述分离语音片断检测装置判断的分离语音片断的自相关值；和一个回归值计算单元，用来计算由所述分离语音片断检测装置判断的分离语音片断的回归值。所述的分离语音判断装置可以在由自相关值计算单元计算的自相关值和由回归值计算单元计算的回归值的基础上来判断是否将由所述分离语音片断检测装置判断的分离语音片断识别为分离声音。
所述的启动关键字作为启动关键字信息被存储在所述的语音识别词典存储装置中，其包括至少一个字，或一套字。被存储在所述语音识别词典存储装置中的语音识别词典可以包括关于易于被错误地识别为启动关键字的费解字或一套费解字的排它(exclusive)信息。
根据本发明的第二方面，提供一种响应于至少一个启动关键字来产生输出到外部设备的指令信号的指令信号产生方法，包括一个语音输入步骤，用来输入一个包括多个相互分离的语音片断的语音；一个分离语音片断检测步骤，用来检测所输入的语音的每个分离语音片断；一个分离语音判断步骤，用来判断是否将所输入语音的分离语音片断识别为一个分离的声音；和一个语音识别执行步骤，用来对所述的被识别为分离声音的分离语音片断执行语音识别，以在存储在语音识别词典存储装置中的语音识别词典的基础上判断被识别为分离声音的分离语音片断是否代表所述的启动关键字，并当作出被识别为分离声音的分离语音片断代表所述的启动关键字的判断时，输出一个预定的指令到外部设备。
所述的语音识别执行步骤可以包括一个初步语音识别执行步骤，用来在存储在语音识别词典存储装置中的语音识别词典的基础上执行初步语音识别，以粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别步骤，用来当在所述的初步语音识别执行步骤中判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储装置中的语音识别词典的基础上执行精确语音识别，以精确判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
在所述的初步语音识别执行步骤中进行的所述的初步语音识别的处理量比在所述精确语音识别执行步骤中进行的精确语音识别所进行的处理量小。
当在分离语音片断检测步骤中检测到所述分离语音片断时，所述的分离语音判断步骤开始判断将所述分离语音片断识别为所述分离声音。
当在所述的分离语音判断步骤中没有判断出将在所述的分离语音片断检测步骤中检测到的分离语音片断识别为分离的声音时，或当在所述初步语音识别执行步骤和所述精确语音识别执行步骤的其中一个中没有判断出被识别为分离声音的所述分离分语音片断代表所述启动关键字时，所述分离语音片断检测步骤检测所输入语音的结尾。
所述的分离语音检测步骤可以包括一个前端检测步骤，用来检测所述分离语音片断的前端；一个后端检测步骤，用来检测所述的分离语音片断的后端；一个时间周期测量步骤，用来在判断是否所述的前端和所述后端之间的时间周期超过第一门限值并且不超过比第一门限值大的一个第二门限值之前，测量所述前端和所述后端之间的时间周期；和一个时间间隔测量步骤，用来在判断当前的分离的语音片断的前端和与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过一个第三门限值之前，测量当前分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。
在基于所述时间周期测量步骤的判断和所述时间间隔测量步骤的判断、从所述的分离语音片断中选择至少一个在所述的语音判断步骤中进行判断的分离语音片断之前，所述的分离语音检测步骤检测所述的分离的语音片断。
所述的分离语音判断步骤可以包括一个自相关值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的自相关值；和一个回归值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的回归值。所述的分离语音判断步骤可以在由自相关值计算步骤计算的自相关值和由回归值计算步骤计算的回归值的基础上来判断是否将由所述分离语音片断检测步骤判断的分离语音片断识别为分离声音。
所述的启动关键字作为启动关键字信息被存储在所述的语音识别词典存储装置中，其包括至少一个字，或一套字。被存储在所述语音识别词典存储装置中的语音识别词典可以包括关于易于被错误地识别为启动关键字的费解字或一套费解字的排它信息。

从下面结合附图的描述中，本发明的指令信号产生设备的特点和优点将更加明了，其中图1是根据本发明的优选实施例的指令信号产生设备的一个框图；图2是展示了根据本发明的优选实施例的指令信号产生设备的操作的流程图；和图3是说明存储在根据本发明优选实施例的指令信号产生设备的语音识别词典存储单元中的语音识别词典的示意图。
具体实施例方式
现在，参考图1至3，说明根据本发明的指令信号产生设备的一个优选下面将描述根据本发明优选实施例的指令信号产生设备的构成。
图1中所示的指令信号产生设备100包括一个麦克风单元101，具有输入到其中的由多个时间上相互分离的语音片断组成的语音，所述麦克风单元101适合于产生代表所述语音的一个模拟语音信号；和一个模数转换单元111(此后，简称为“A/D转换器”)，用来将由麦克风单元101产生的模拟语音信号转换为一个数字语音信号。这里，麦克风单元101构成了语音输入装置。
指令信号产生设备100进一步包括一个缓冲存储器112，在其中存储有代表由A/D转换器111转换得到的所述的数字语音信号的数字数据。所述的数字数据由多个语音片断构成，这些片断分别处于串行相互连接在一起的各自序列帧中。
这里，所述的每个序列帧具有这样的时间周期，例如，10[msec]，20[msec]，或30[msec]。所述的缓冲存储器112可以由一个执行先入先出操作的环形缓冲器构成。
所述指令信号产生设备100进一步包括一个指令信号产生程序存储单元(没有示出)，在其中存储有一个指令信号产生程序；一个中央处理单元，(此后，简称为“CPU”)，用来响应于某人代表至少一个关键字的声音执行存储在指令信号产生程序存储单元中的指令信号产生程序，以产生输出到外部设备(没有示出)的指令信号，从而保证用所产生的指令信号来激活和控制所述的外部设备；和一个语音识别词典存储单元160，用来存储包含有关启动关键字的启动关键字信息的语音识别词典。
这里，术语“启动关键字”目的是指示一个触发信号，该信号能够使所述的外部设备执行启动操作，或者能够使所述的外部设备以这样一种方式开始执行一个应用程序，即，所述的指令信号产生设备通过接收某人代表启动关键字的语音来产生输出到所述外部设备的触发信号。
这里，所述的语音识别词典存储单元160构成了语音识别存储装置，而所述的CPU构成了分离语音片断检测装置120、分离语音判断装置130和语音识别执行装置141，所述分离语音片断检测装置120用来检测所输入的语音的每一个分离语音片断，所述分离语音判断装置130用来判断是否将输入语音的每一个分离语音片断识别为一个分离声音，所述语音识别执行装置141用来对识别为分离声音的分离语音片断执行语音识别，以基于存储在语音识别词典存储装置160中的语音识别词典来判断被识别为分离声音的分离语音片断是否代表所述启动关键字，并且当作出被识别为分离声音的分离语音片断代表所述的启动关键字判断时，输出一个预定的指令信号到外部设备。
所述的语音识别执行单元141包括一个初步语音识别执行单元140，用来在存储在语音识别词典存储装置160中的语音识别词典的基础上执行初步语音识别、以粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确的语音识别执行单元150，用来当所述的初步语音识别执行单元140判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储装置160中的语音识别词典的基础上执行精确语音识别、以精确地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
这里，由所述的分离语音片断检测装置120检测的分离语音片断每一个具有一个前端和一个后端。
所述分离语音片断检测装置120包括一个前端检测单元121，用来检测所述分离语音片断的前端；一个后端检测单元122，用来检测所述的分离语音片断的后端；一个时间周期测量单元123，用来在判断是否所述的前端和后端之间的时间周期超过第一门限值、并且不超过比第一门限值大的第二门限值之前，测量所述前端和所述后端之间的时间周期；和一个时间间隔测量单元124，用来在判断当前的分离语音片断的前端和与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过第三门限之前，测量当前的分离语音片断的前端和与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。
所述的前端检测单元121适合于通过判断置于每个序列帧中的语音片断是否增加超过一个预定的噪声电平，来检测所输入的语音的分离语音片断的每个前端，而后端检测单元122适合于通过判断置于每个序列帧中的语音片断是否降低到一个预定的噪声电平，来检测所输入的语音的分离语音片断的每个后端。
这里，指令信号产生设备100可以防止所输入语音的每个分离语音片断被错误地响应于一个不期望的噪声、声音的颤抖声和其他外部的声音而被识别为特殊的关键字，因为麦克风单元101，A/D转换器111，缓冲存储器112和分离语音片断检测装置120的每一个总是呈现运转状态来执行各自的操作。
另一方面，指令信号产生设备100可以以相对高的效率来判断所输入语音的每个分离语音片断是否代表启动关键字，以在不受不期望噪声、声音的颤抖声和其他外部声音的影响下而降低处理负载，因为分离语音判断装置130适于呈现其运行状态，其在所述的分离语音检测装置120检测出输入语音的分离语音片断时，判断是否将输入语音的每个分离语音片断识别为一个分离声音；并且所述的初步语音识别执行单元140适合于呈现其运行状态，其当作出输入语音的分离语音片断被识别为分离声音的判断时，执行初步语音识别来粗略地判断被识别为分离声音的分离语音片断是否代表了启动关键字。
分离语音判断装置130包括一个自相关值计算单元131，用来计算由分离语音片断检测装置120判断的分离语音片断的自相关值；和一个回归值计算单元132，用来计算由所述分离语音片断检测装置120判断的所述分离语音片断的回归值，上述计算是基于下面的方程(1)进行的。
d R n(j)＝(Rn(j+1)-Rn(j-1)/2 ....(1)这里，图例“d R n(j)”和“Rn(j)”分别代表了关于序列帧“j”的回归值和第n个自相关值。
下面将对由根据本发明的优选实施例的指令信号产生装置的CPU构成部分所执行的指令信号产生程序进行描述。
所述的指令信号产生程序包括一个分离语音判断步骤，来判断是否将所输入语音的每个分离语音片断识别为分离语音；和一个语音识别执行步骤，用来对被识别为分离声音的分离语音片断执行语音识别、以基于语音识别词典存储单元160中存储的语音识别词典判断被识别为分离声音的分离语音片断是否代表所述的启动关键字，并且当作出被识别为分离声音的分离语音片断代表所述的启动关键字的判断时，输出一个预定的指令信号到外部设备。
所述的语音识别执行步骤包括一个初步语音识别执行步骤，用于基于语音识别词典存储装置160中存储的语音识别词典执行初步的语音识别、以粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别步骤，当在初步语音识别执行步骤中判断被识别为分离声音的分离语音片断代表所述的启动关键字时，用于基于语音识别词典存储装置160中存储的语音识别词典执行精确语音识别、以精确地判断被识别为分离声音的分离语音片断是否代表着所述的启动关键字。
这里，在初步语音识别执行步骤中进行的初步语音识别比在精确语音识别步骤中进行的精确语音识别在处理量上小。
当在分离语音片断检测步骤中检测到所述分离语音片断时，所述的分离语音判断步骤开始判断以将所述的分离语音片断识别为分离声音。
当所述的分离语音判断步骤没有判断出在分离语音片断检测步骤中检测到的分离语音片断被识别为分离声音时，或当所述的初步语音识别执行步骤和所述的精确语音识别步骤之一没有判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，所述的分离语音片断检测步骤检测所输入的语音的结尾。
所述的分离语音片断检测步骤包括一个前端检测步骤，检测所述分离语音片断的前端；一个后端检测步骤，检测所述的分离语音片断的后端；一个时间周期测量步骤，用来在判断是否所述的前端和所述的后端之间的时间周期超过第一门限值并且不超过比第一门限值大的第二门限值之前，测量前端和后端之间的时间周期；和一个时间间隔测量步骤，用来在判断当前的分离语音片断的前端和与当前的分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过第三门限之前，测量当前的分离语音片断的前端和与当前的分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。
在基于所述时间周期测量步骤的判断和所述时间间隔测量步骤的判断、从所述的分离语音片断中选择至少一个在所述的语音判断步骤中进行判断的分离语音片断之前，所述的分离语音检测步骤检测所述的分离的语音片断。
所述的分离语音判断步骤包括一个自相关值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的自相关值；和一个回归值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的回归值。
所述的分离语音判断步骤在由自相关值计算步骤计算的自相关值和由回归值计算步骤计算的回归值的基础上来判断是否将由所述分离语音片断检测步骤判断的分离语音片断识别为分离声音。
所述的CPU适合于以每次一个序列帧来从所述缓冲存储器112中接收数字数据。
这里，所述的分离语音片断检测装置120，也就是所述的CPU，可以在检测所输入语音的分离语音片断之前，判断所输入的语音的分离语音片断是否存在于每个序列帧中。
所述的分离语音判断装置130，也就是所述的CPU，可以在由所述自相关值计算单元131计算的自相关值和由所述回归值计算单元132计算的回归值的基础上来判断是否将由所述分离语音片断检测装置120，也就是所述的CPU，判断的分离语音片断识别为分离声音。
所述的初步语音识别执行装置140，也就是所述的CPU，适合于基于存储在语音识别词典存储单元160中的语音识别词典执行初步语音识别、以粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字，例如以每次两个或多个序列帧来进行。
这里，所述的外部设备可以由一个导航设备、一个音频声音再现设备、一个车载设备、和其他的电子设备来代替。
单词“voice navi”可以作为启动关键字信息在所述的语音识别词典存储单元160中被注册。所述的指令信号产生设备100适合于响应于单词“voicenavi”来产生一个指令信号到导航设备中。
存储在语音识别词典存储单元160中的所述的语音识别词典可以包括两个或多个不同的信息，该信息包括关于所述的导航设备的启动关键字信息、关于所述的音频声音再现设备的启动关键字信息，和其它的信息；而所述的精确语音识别执行装置可以在有关目标外部设备的语音识别词典的基础上执行精确语音识别来精确地判断所述的被识别为分离声音的分离语音片断是否代表所述的启动关键字。
所述的精确语音识别执行单元150适合于当所述的初步语音识别执行单元140判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在从所述的缓冲存储器112中接收到有关被识别为启动关键字的分离语音片断的数字数据之后，在存储在语音识别词典存储单元160中的语音识别词典的基础上对每个序列帧执行精确语音识别来精确地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
下面将描述根据本发明优选实施例的指令信号产生方法。
所述的指令信号产生方法包括一个语音输入步骤，数字输入一个包含多个时间上相互分离的分离语音片断的语音；一个分离语音片断检测步骤，检测所输入的语音的每一个分离语音片断；一个分离语音判断步骤，判断是否将所输入的声音的每一个分离语音片断识别为一个分离声音；和一个语音识别执行步骤，基于语音识别词典存储单元160中存储的语音识别词典执行语音识别来判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
所述的语音识别执行步骤包括一个初步语音识别执行步骤，用于基于语音识别词典存储单元160中存储的语音识别词典，执行初步语音识别来粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别步骤，用于当在初步语音识别执行步骤中被识别为分离声音的分离语音片断代表所述的启动关键字时，基于语音识别词典存储单元160中存储的语音识别词典，执行精确语音识别来精确地判断被识别为分离声音的分离语音片断是否代表着所述的启动关键字。
在初步语音识别执行步骤中执行的初步语音识别比在精确语音识别步骤中执行的精确语音识别在处理量上小。
当在分离语音片断检测步骤中检测到所述分离语音片断时，所述的分离语音判断步骤开始判断将所述分离语音片断识别为所述分离声音。
当在所述的分离语音判断步骤中没有判断出将在所述的分离语音片断检测步骤中检测到的分离语音片断识别为分离的声音时，或当在所述初步语音识别执行步骤和所述精确语音识别执行步骤的其中一个中没有判断出被识别为分离声音的所述分离分语音片断代表所述启动关键字时，所述分离语音片断检测步骤检测所输入语音的结尾。
所述的分离语音检测步骤包括一个前端检测步骤，用来检测所述分离语音片断的前端；一个后端检测步骤，用来检测所述的分离语音片断的后端；一个时间周期测量步骤，用来在判断是否所述的前端和所述后端之间的时间周期超过第一门限值并且不超过比第一门限值大的一个第二门限值之前，测量所述前端和所述后端之间的时间周期；和一个时间间隔测量步骤，用来在判断当前的分离的语音片断的前端和与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过一个第三门限值之前，测量当前分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。
在基于所述时间周期测量步骤的判断和所述时间间隔测量步骤的判断、从所述的分离语音片断中选择至少一个在所述的语音判断步骤中进行判断的分离语音片断之前，所述的分离语音检测步骤检测所述的分离的语音片断。
所述的分离语音判断步骤包括一个自相关值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的自相关值；和一个回归值计算步骤，用来计算在所述分离语音片断检测步骤中判断的分离语音片断的回归值。
所述的分离语音判断步骤在由自相关值计算步骤计算的自相关值和由回归值计算步骤计算的回归值的基础上来判断是否将由所述分离语音片断检测步骤判断的分离语音片断识别为分离声音。
现在将参考图2来描述根据本发明优选实施例中的指令信号产生设备的操作。
在步骤S201，置于序列帧中的数字语音数据被存储在缓冲存储器112中。
在步骤S202，所述的前端检测单元121基于在缓冲存储器112中存储的数字语音数据检测所述分离语音片断的前端。
当在步骤S202中的结果是肯定的“是”时，也就是，所述的分离语音片断的前端存在于所述的序列帧中时，步骤S202继续执行到步骤S203。另一方面，当在步骤S202中的结果是否定的“否”时，也就是，所述的分离语音片断的前端不在所述的序列帧中时，所述的步骤S202继续执行到步骤S201。
在步骤S203，所述的时间间隔测量单元124，在判断当前的分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过第三门限之前，测量当前分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔。
当在步骤S203中的结果是肯定的“是”时，也就是，在一个预定的时间周期内持续地检测到每一个数字语音片断在信号电平上比所述的预定门限值小的时候，步骤S203继续进行到步骤S205。另一方面，当在步骤S202的结果是否定的“否”时，也就是，当在一个预定的时间周期内没有持续地检测到每一个数字语音片断在信号电平上比所述的预定门限值小的时候，步骤A203继续进行到步骤S204。
在步骤S204，当所述的分离语音判断装置130没有判断出将由所述的分离语音片断检测装置120检测的分离语音片断识别为分离的声音时，或当初步语音识别执行单元140和精确语音识别执行单元150中的其中一个没有判断出被识别为分离声音的所述分离分语音片断代表启动关键字时，所述分离语音片断检测装置120可以被运行来检测所输入语音的结尾部分。
在步骤S205，所述后端检测单元122被运行来检测所述的分离语音片断的后端。
在步骤S206，所述的时间周期测量单元123在判断是否所述的前端和后端之间的时间周期超过第一门限值、并且不超过比第一门限值大的第二门限值之前，运行来测量前端和后端之间的时间周期。
在步骤S207，所述的分离语音判断装置130运行来判断是否将所述的分离语音片断识别为分离声音。
在步骤S208，所述的初步语音识别执行单元140在存储在语音识别词典存储单元160中的语音识别词典的基础上、被运行来执行初步语音识别从而粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
在步骤S210，所述的精确语音识别执行单元150用来当所述的初步语音识别执行单元140运行判断被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储单元160中的语音识别词典的基础上、执行精确语音识别来精确地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
在步骤S211，当作出被识别为分离声音的所述的分离语音片断代表所述的启动关键字的判断的时候，所述的指令信号产生设备100被运行来产生输出到外部设备的一个指令信号。
下面将描述存储在语音识别词典存储单元中的启动关键字信息。
要被存储在语音识别词典存储装置160中的启动关键字信息301由至少一个字，或一套字组成。被存储在所述语音识别词典存储装置160中的语音识别词典可以包括关于易于被错误地识别为启动关键字的一个费解字，或一套费解字的排它信息302。
当字“designate destination”在语音识别词典存储单元160中被注册为启动关键字时，则字“destination”和字“set destination”和其它有关的字可以被构成指令信号产生设备的一部分的语音识别执行装置识别为所述的启动关键字。
例如，当两个或多个启动关键字被注册在语音识别词典存储单元160中时，希望指示所述的启动关键字的分离语音片断在长度上能够互相相似。
所述的指令信号产生方法和设备能够以相对高的效率来判断每个分离语音片断是否代表启动关键字以减小处理负载，并能防止响应于一个不期望的噪音而错误地将分离语音片断识别为启动关键字判断，因为要存储在语音识别词典存储单元160中的语音识别词典包括关于单个费解字或一套费解字的排它信息302。
这里，排它信息302可以包括有关启动关键字和费解字之间的对数倒频谱距离的对数倒频谱距离信息。
所述的语音识别执行装置可以适合于在基于启动关键字和费解字之间的对数倒频谱距离来判断每个所述的分离语音片断是否代表启动关键字之前、来判断关于启动关键字和费解字之间的对数倒频谱距离的对数倒频谱距离信息是否大于一个预定的门限距离。
从上述的具体描述，可以明白所述的指令信号产生方法和设备能够防止输入语音的每个分离语音片断被错误地识别为启动关键字，并响应于该关键字来产生输出到外部设备的一个指令信号。
进一步，所述的指令信号产生方法和设备可以以相对高的效率来判断每个分离语音字是否代表所述的启动关键字，以降低处理负载。
下面将描述将所述的指令信号产生设备安装在自动车上的情况。
所述的指令信号产生设备适合于响应于由某人的声音所代表的作为一个触发信号的至少一个启动关键字来产生一个输出到安装在自动车里的导航设备的指令信号。
虽然在前面的实施例中已描述了这样的事实，即，所述的指令信号产生设备适合于响应于由某人的声音所代表的作为一个触发信号的至少一个启动关键字来产生一个输出到安装在自动车里的导航设备的指令信号，但所述的导航设备可以包括声音输入装置，用来数字地输入一个包括多个时间上相互分离的分离语音片断的语音；分离语音片断检测装置，用来检测所述的输入语音的分离语音片断；分离语音判断装置，用来判断是否将所述的分离语音片断识别为一个分离声音；语音识别词典存储单元，用来存储包含有关启动关键字的启动关键字信息的语音识别词典；和语音识别执行装置，用来基于存储在所述语音识别词典存储单元中语音识别词典执行语音识别来判断所述的被识别为分离声音的分离语音片断是否代表所述的启动关键字。
构成所述的导航设备的一部分的语音识别执行装置可以包括一个初步语音识别执行装置，用来在存储在语音识别词典存储装置中的语音识别词典的基础上执行初步语音识别来粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确的语音识别执行单元，用来当所述的初步语音识别执行单元运行判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储装置中的语音识别词典的基础上执行精确语音识别来精确地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字。
正因为所述语音识别执行装置包括了一个初步语音识别执行装置，用来在存储在语音识别词典存储装置中的语音识别词典的基础上执行初步语音识别来粗略地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别执行单元，用来当所述的初步语音识别执行单元运行判断出被识别为分离声音的分离语音片断代表所述的启动关键字时，在存储在语音识别词典存储装置中的语音识别词典的基础上执行精确语音识别来精确地判断被识别为分离声音的分离语音片断是否代表所述的启动关键字，所以所述的指令信号产生设备能够以相对高的效率来判断每个所述的分离语音片断是否代表启动关键字，从而在语音识别处理方面更加有效地降低处理负载。
虽然在前面的实施例中已描述了这样的事实，即，所述的指令信号产生设备适合于响应于由某人的声音所代表的作为一个触发信号的至少一个启动关键字来产生一个输出到安装在自动车里的导航设备的指令信号，但所述的指令信号产生设备也可以被安装在照明设备，移动电话，和其它电子设备中。
例如，所述的指令信号产生设备被安装在照明设备中，所述的指令信号产生设备适合于响应于一个启动关键字来产生一个输出到所述的照明设备的指令信号，所述的启动关键字由某个人的声音来代表以使所述的照明设备有选择地执行开/关状态。
虽然已经针对优选实施例描述了本发明，但是对本领域的技术人员来说，很明显能够对其进行各种修改和改变，只要这样的修改和改变落入为了涵盖其在里面的所附的权利要求书中。
权利要求
1.一种指令信号产生设备，用来响应于至少一个启动关键字来产生输出到一个外部装置的指令信号，包括语音输入装置，用来输入一个包含多个相互分离的语音片断的语音；分离语音片断检测装置，用来检测所述的输入语音的每个所述分离语音片断；分离语音判断装置，用来判断是否将所述的输入语音的每个分离语音片断识别为一个分离声音；语音识别词典存储装置，用来存储包含有关所述启动关键字的启动关键字信息的语音识别词典；和语音识别执行装置，用来基于在所述语音识别词典存储装置中存储的所述语音识别词典、对识别为所述分离语音的所述分离语音片段执行语音语音，从而判断被识别为所述分离语音的所述分离语音片段是否代表所述启动关键字，并当作出所述的被识别为所述的分离声音的分离语音片断代表所述的启动关键字的判断时，输出一个预定的指令信号给所述的外部设备。
2.如权利要求1所述的指令信号产生设备，其中，所述的语音识别执行单元包括一个初步语音识别执行单元，用来在存储在所述的语音识别词典存储装置中的所述语音识别词典的基础上、执行初步语音识别来粗略地判断所述的被识别为所述分离声音的分离语音片断是否代表所述的启动关键字；和一个精确语音识别执行单元，用来当所述的初步语音识别执行单元运行判断出所述的被识别为分离声音的所述分离语音片断代表所述的启动关键字时，在存储在所述的语音识别词典存储装置中的所述语音识别词典的基础上、执行精确语音识别来精确地判断所述被识别为分离声音的所述分离语音片断是否代表所述的启动关键字。
3.如权利要求2所述的指令信号产生设备，其中，由所述的初步语音识别执行单元进行的所述的初步语音识别的处理量比由所述精确语音识别执行单元进行的精确语音识别少。
4.如权利要求1所述的指令信号产生设备，其中，当所述的分离语音片断被所述的分离语音片断检测装置检测到时，所述的分离语音判断装置适合于开始进行判断以将所述的分离的语音片断识别为所述的分离声音。
5.如权利要求1所述的指令信号产生设备，其中，当所述的分离语音判断装置没有判断出将由所述的分离语音片断检测装置检测的分离语音片断识别为所述的分离的声音时，或当所述的初步语音识别执行单元和所述的精确语音识别执行单元中的其中一个没有判断出所述的被识别为分离声音的所述分离分语音片断代表所述的启动关键字时，所述分离语音片断检测装置适合于来检测所述的输入语音的结尾。
6.如权利要求1所述的指令信号产生设备，其中，由所述的分离语音片断检测装置检测的所述的分离语音片断每一个具有一个前端和一个后端，其中所述分离语音片断检测装置包括一个前端检测单元，用来检测所述分离语音片断的所述前端；一个后端检测单元，用来检测所述的分离语音片断的所述后端；一个时间周期测量单元，用来在判断是否所述的前端和所述后端之间的时间周期超过第一门限值、并且不超过比第一门限值大的第二门限值之前，测量所述前端和所述后端之间的所述时间周期；和一个时间间隔测量单元，用来在判断所述的当前分离的语音片断的所述的前端和所述与当前分离语音片断相邻的前一个分离语音片断的所述后端之间的时间间隔是否超过第三门限之前，测量所述当前分离的语音片断的所述前端和所述与当前分离语音片断相邻的前一个分离语音片断的所述后端之间的时间间隔；并且其中在基于所述时间周期测量单元的判断和所述时间间隔测量单元的判断从所述的分离语音片断中选择至少一个由所述的分离语音判断装置判断的分离语音片断之前，所述的分离语音片断检测装置适合于检测所述的分离语音片断。
7.如权利要求1所述的指令信号产生设备，其中，所述的分离语音判断装置包括一个自相关值计算单元，用来计算由所述分离语音片断检测装置判断的所述分离语音片断的自相关值；和一个回归值计算单元，用来计算由所述分离语音片断检测装置判断的所述分离语音片断的回归值；并且其中所述的分离语音判断装置适合于在由所述的自相关值计算单元计算的所述的自相关值和由所述的回归值计算单元计算的所述回归值的基础上、来判断是否将由所述分离语音片断检测装置判断的所述分离语音片断识别为所述分离声音。
8.如权利要求3所述的指令信号产生设备，其中，所述的启动关键字作为启动关键字信息被存储在所述的语音识别词典存储装置中，其包括至少一个字，或一套字；并且其中被存储在所述语音识别词典存储装置中的语音识别词典包括关于易于被错误地识别为所述启动关键字的费解字，或一套费解字的排它信息。
9.一种指令信号产生方法，其响应于至少一个启动关键字产生输出到一个外部设备的指令信号，包括一个语音输入步骤，输入一个包含多个相互分离的语音片断的语音；一个分离语音片断检测步骤，检测所输入的语音的每一个所述的分离语音片断；一个分离语音判断步骤，判断是否将所输入的声音的每一个分离语音片断识别为一个分离声音；和一个语音识别执行步骤，基于语音识别词典存储装置中存储的所述语音识别词典，对所述的被识别为分离声音的所述分离语音片断执行语音识别来判断所述的被识别为分离声音的所述分离语音片断是否代表所述的启动关键字，并且当作出被识别为所述分离声音的所述分离语音片断代表所述的启动关键字的判断时，输出一个预定的指令信号到所述的外部设备。
10.如权利要求9所述的指令信号产生方法，其中，所述的语音识别执行步骤包括一个初步语音识别执行步骤，用于基于所述语音识别词典存储装置中存储的所述语音识别词典、执行初步语音识别来粗略地判断被识别为所述分离声音的所述分离语音片断是否代表所述的启动关键字；和一个精确语音识别步骤，当在初步语音识别执行步骤中被识别为分离声音的分离语音片断代表所述的启动关键字时，基于所述语音识别词典存储装置中存储的所述语音识别词典、执行精确语音识别来精确地判断被识别为所述分离声音的所述分离语音片断是否代表着所述的启动关键字。
11.如权利要求10所述的指令信号产生方法，其中，在初步语音识别执行步骤中进行的初步语音识别在处理量上比在精确语音识别步骤中进行的精确语音识别小。
12.如权利要求9所述的指令信号产生方法，其中，当在所述分离语音片断检测步骤中检测到所述分离语音片断时，所述的分离语音判断步骤开始进行判断以将所述的分离语音片断识别为所述的分离声音。
13.如权利要求9所述的指令信号产生方法，其中，当所述的分离语音判断步骤没有判断出由所述分离语音片断检测步骤检测到的所述分离语音被识别为所述分离声音时，或当所述的初步语音识别执行步骤和所述的精确语音识别步骤之一没有判断出被识别为所述分离声音的所述分离语音片断代表所述的启动关键字时，所述的分离语音片断检测步骤检测所输入的语音的结尾。
14.如权利要求9所述的指令信号产生方法，其中，在所述的分离语音片断检测步骤中检测的所述的分离语音片断具有一个前端和一个后端，其中所述的分离语音检测步骤包括一个前端检测步骤，检测所述分离语音片断的所述前端；一个后端检测步骤，检测所述的分离语音片断的所述后端；一个时间周期测量步骤，用来在判断是否所述前端和所述后端之间的时间周期超过第一门限值、并且不超过比第一门限值大的第二门限值之前，测量所述前端和所述后端之间的所述时间周期；和一个时间间隔测量步骤，用来在判断所述的当前的分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的后端之间的时间间隔是否超过第三门限之前，测量所述当前分离的语音片断的前端和所述与当前分离语音片断相邻的前一个分离语音片断的所述后端之间的时间间隔；并且其中在基于所述的时间周期测量步骤的判断和所述的时间间隔测量步骤的判断、从所述的分离语音片断中选择至少一个在所述的分离语音判断步骤中判断的分离语音片断之前，所述的分离语音片断检测步骤检测所述的分离的语音片断。
15.如权利要求9所述的指令信号产生方法，其中，所述的分离语音判断步骤包括一个自相关值计算步骤，用来计算由所述分离语音片断检测步骤判断的所述分离语音片断的自相关值；和一个回归值计算步骤，用来计算由所述分离语音片断检测步骤判断的所述分离语音片断的回归值；并且其中所述的分离语音判断步骤在由所述的自相关值计算步骤计算的所述自相关值和由所述回归值计算步骤计算的所述回归值的基础上、判断是否将在所述分离语音片断检测步骤中判断的所述分离语音片断识别为所述的分离声音。
全文摘要
公开了一种指令信号产生设备，用来响应于至少一个启动关键字产生将要输出给一个外部设备的指令信号，该设备包括语音输入装置，用来数字化地输入一个包含多个时间上相互分离的分离语音片断的语音；分离语音片断检测装置，用来检测所述输入语音的所述分离语音片断；分离语音判断装置，用来判断是否将所述的分离语音片断识别为一个分离声音；语音识别词典存储装置，用来存储包含有关启动关键字的启动关键字信息的语音识别词典；和语音识别执行装置，用来在存储在语音识别词典存储装置中的语音识别词典的基础上、执行语音识别来判断被识别为分离声音的所述分离语音片断是否代表所述的启动关键字。
文档编号G10L11/02GK1573925SQ200410076690
公开日2005年2月2日申请日期2004年5月13日优先权日2003年5月13日
发明者菅原乡史, 野村和也, 开发勇治申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：菅原乡史;野村和也;开发勇治
技术所有人：松下电器产业株式会社
我是此专利的发明人