语音识别控制系统和语音识别控制方法

文档序号：2834368阅读：435来源：国知局

专利名称：语音识别控制系统和语音识别控制方法
技术领域：
本发明涉及一种适合由操作者发出语音来控制电子设备的输入/输出的语音识别控制系统和语音识别控制方法。
具体来讲，本发明提供了一种控制装置，它对输入操作者的语音与已寄存的语音识别表比较，并按照这种比较结果控制电子设备的输入/输出，其中当该电子设备连接到该控制装置时，则寄存该电子设备的语音识别表，因此通过语音识别可以控制每一个可语音识别的电子设备的输入/输出。
随着新近技术的发展，当前正在开发和推广多种电子设备。为了达到简化和轻松使用这些电子设备的目的，现在当务之急的开发任务是快速开发以提高可操作性，且通过例如语音识别操作电子设备的语音识别控制系统，来加速这样的开发任务。该语音识别控制系统的作用在于根据操作者发出语音来操作电子设备，与公知的手动操作比较，它能够更简化和轻松操作电子设备。
当执行这样的控制时，该语音识别控制系统必须识别任何连接的可语音识别的电子设备，只有这样，该系统才能够通过语音识别进行准确地控制。例如，该语音识别控制系统把输入的语音转换成为对应于识别电子设备的一种专用的控制命令，然后该控制命令输出到该电子设备，进行控制该电子设备。
利用上面提到这样的语音识别控制系统的一个例子是一种汽车语音识别控制系统。汽车所使用的公知电子设备包括适合语音识别的压缩光盘(CD)播放器和微型的光盘(MD)播放器以及基于全球定位系统的导航系统(汽车导航器)。由于这样的装置是由语音识别进行控制，因此即使当驱动期间，也能够对汽车实现容易操作而不危及完全。
根据常规的语音识别控制系统，在一种语音识别CD播放器、MD播放器和汽汽车导航仪连接到一种语音识别系统和通过语音识别操作这些电子设备的情况下，该语音识别控制系统预先寄存某些可语音识别的CD播放器、MD播放器和汽汽车导航仪，并且预先确定一个总线(通信线路)，通过该总线连接每个寄存CD播放器、MD播放器和汽车导航仪。即，通过使用专用的总线执行专用识别操作。
因此，通过把预寄存的CD播放器、MD播放器和汽汽车导航仪连接到专用总线，通过语音识别就可以控制它们的输入/输出。
然而，根据常规的语音识别控制系统，只有在语音识别控制系统中先前寄存的整个的语音识别电子设备的每一个都连接到专用总线，才识别它们，从而通过语音识别执行控制。
因此，当已经连接了适合于语音识别的任何未寄存的电子设备(例如，新型电子或其它的公司出品的设备)时，由于仅存在已寄存的电子设备的控制信息，因此不识别这个装置。因此，即使该电子设备是适合于语音识别的那些电子设备，也会出现某些问题，包括寄存手续复杂；和随每个装置的类型而寄存的内容是不同的问题，因此通过语音识别就不可能对它们执行正确的控制。
本发明通过改善对连接到该控制系统的电子设备进行识别的方法而实现解决上述问题的目的。而且本发明的一个目的是提供一种能够通过语音识别控制整个的语音可识别电子设备的语音识别控制系统和语音识别控制方法。
根据本发明的一个方面，提供了一种语音识别控制系统，该系统控制具有事先记录的语音识别表的每个电子设备的输入/输出，在每个电子设备中预先储存操作者的语音作为期望值。该控制系统包括输入操作者的语音的语音输入装置，以及通过识别由该语音输入装置输入的操作者的语音控制电子设备的输入/输出的控制装置。当已经把任何未寄存的电子设备连接到该控制装置时，该控制装置立即寄存该电子设备提供的语音识别表，以及当该操作者的语音已经输入到语音输入装置时，该控制装置立即对操作者的语音与预寄存的电子设备的语音识别表进行比较，然后根据操作者的语音与该语音识别表的比较结果，控制该电子设备的输入/输出。
按照本发明，当任何未寄存的电子设备连接到这种控制装置时，该控制装置寄存该电子设备的语音识别表，并且该控制装置识别由该语音输入装置所输入的操作者的语音。随后控制装置对该操作者的语音与寄存的语音识别表进行比较，根据这种比较结果控制该电子设备的输入/输出，使得即使当连接任何未寄存的可语音识别的电子设备时，该电子设备仍然响应操作者的语音操作该电子设备。
根据本发明的另一个方面，提供一种语音识别控制系统中采用的语音识别控制方法，该方法识别操作者的语音以及从控制部分控制每个电子设备的输入/输出。该控制方法包括以下步骤向每个电子设备提供一个语音识别表，在该语音识别表中预先把操作者的语音储存为一个期望值；然后当已经把任何未寄存的具有语音识别表的电子设备连接到该控制部分时，在控制部分寄存该电子设备的语音识别表，随后当输入了该操作者的语音，就立即对操作者的语音与在控制部分中寄存的该电子设备的语音识别表进行比较；而且根据操作者的语音与该语音识别表的比较结果控制该电子设备的输入/输出。
按照本发明的语音识别控制方法，当分别提供语音识别表的未寄存的各种的电子设备已经连接到该控制部分时，各种的语音识别表被分别寄存在该控制部分中，使得响应操作者的语音就可以控制每个电子设备的输入/输出。
因此，语音识别控制系统和方法能够通过语音识别控制整个的语音可识别的电子设备。
参考所给出的结合附图的说明，本发明的上面的以及其它特征和优点将变得明显的。

图1是显示本发明的一个实施例的语音识别控制系统结构的例子的方框图；图2表示显示面板结构的例子的平面图；图3表示选择图像P的显示例子的图像图；图4表示再寄存图像Q1的一个显示例子的图像图；图5表示再寄存图像Q2的一个显示例子的图像图；图6表示再寄存图像Q3的一个显示例子的图像图；图7表示再寄存图像Q4的一个显示例子的图像图；图8表示再寄存图像Q5的一个显示例子的图像图；图9表示语音识别控制系统的操作例子(单一连接)的方框图；图10表示语音识别控制系统的另一个操作例子(复合的连接)的方框图；图11表示按照选择处理过程的一个选择例子(手动输入)的流程；图12表示按照选择处理过程的另一个选择例子(语音输入)的流程；
图13表示按照再寄存处理过程的一个再寄存例子(手动输入)的流程；以及图14表示按照再寄存处理过程的另外一个再寄存例子(语音输入)的流程；以下将说明表示本发明的语音识别控制系统的一个优选实施例。在这个实施例中，包括一种控制装置，该控制装置用于把输入操作者的语音与寄存的语音识别表比较而且根据这样的比较结果控制电子设备的输入/输出。以及当该电子设备连接到该控制装置时，寄存该电子设备的语音识别表，S使得通过语音识别就可以控制整个的可语音识别的电子设备的每一个的输入/输出。这里前提是使用MD播放器作为具有语音识别表的未寄存的电子设备。
图1表示作为本发明的一个实施例的语音识别控制系统100结构的例子的方框图。语音输入单元20起到图1中语音输入装置的作用，虽然没有示出，但它有输入语音的麦克风、放大该输入语音的麦克风放大器以及把该输入模拟信号转换成数字信号的A-D转换器。该语音输入单元20首先输入操作者语音构成的指令(以下称为语音命令)，然后把该输入语音命令(语音模拟数据)转换成适合于视频和音频信号传送的语音数字数据Vdd(同步的数据)，每一125μs秒传输或接收固定数量的数据包形式的语音数字数据Vdd，而且把如此获得的语音数字数据Vdd输出。
该语音输入单元20连接到比如例如IEEE 1394总线10的通信线路上。各种的装置连接到该IEEE 1394总线10从而构成一个局域网。这个IEEE 1394总线10起到与IEEE 1394标准一致的高性能的串行总线接口的作用，并且适合于用于传送同步数据等。具有语音识别表ITm的未寄存的MD播放器200连接到该IEEE 1394总线10，在该语音识别表ITm中把操作者发出语音命令经数字化后获得的语音数字数据Vdd存储为一个期望值。这个语音识别表ITm有表示该MD播放器200的作为期望值的语音命令“MD”。
构成的控制装置的语音识别器31、控制器32等也连接到IEEE 1394总线10。该语音识别器31寄存该电子设备的语音识别表ITm以及通过IEEE 1394总线10输入从语音输入20输出的语音数字数据Vdd。当仅存在一个寄存的语音识别表时，该语音识别器31对输入的语音数字数据Vdd与寄存的语音识别表ITm比较，然后执行语音识别例行程序识别语音数字数据Vdd。
在本例中，如果语音数字数据Vdd与该语音识别表ITm中的期望值一致，则通过使用该比较的语音识别表ITm，把语音数字数据Vdd转换成异步数据的语音文本数据TDm，随后通过IEEE 1394总线10传送该语音文本数据TDm给控制器32。控制器32使用语音文本数据TDm按照由操作者发出的语音执行控制作用。
当语音识别器31有许多寄存的语音识别表时，这里并没有示出，该语音识别器31把输入语音数字数据Vdd与整个寄存的语音识别表的每个进行比较，并且执行该语音识别例行程序。如果语音数字数据vdd符合例如语音识别表ITx中的期望值，则根据语音识别表ITx把语音数字数据vdd转换成语音文本数据TDx等。在语音识别器31有多个寄存的语音识别表的情况下，对是否存在任何重复的期望值或者相同的语音命令(语音数字数据Vdd)作出检测，在连接到IEEE 1394总线10的显示面板40上显示这样的检测结果。随后参考图2将描述这个显示面板40。语音输入单元20、IEEE 1394总线10以及语音识别器31不受到上述的限制，可以由任何其它有相同的功能的等同物替代。
控制器32包括CPU(中央处理机)等，而且识别出具有语音识别表ITm的MD播放器200被连接到IEEE 1394总线10。通过三个阶段的处理，也就是总线初始化阶段、树识别阶段以及自我识别阶段，获得关于节点(连接的装置)的信息，识别该连接。在总线初始化阶段，响应连接的节点的接通，复位该总线，并且完全地删除关于节点连接的的整个的信息。
在树结构识别阶段，通过控制器32的路由选择分别地连接的节点被识别以便按照树结构连接进行操作。以及在自识别阶段，通过通知自ID包的其它节点分别地设置独有的自节点ID，在自ID包中从树的终端处叶片节点按次序设置自节点ID。当识别出MD播放器200的连接时，控制器32立即响应总线判别把传送许可送到该语音识别器31，从该MD播放器发出该总线判别，请求许可传送该自语音识别表ITm。在这个阶段，按照异步传输模式(ATM)执行判别。
当语音输入单元20接收到操作者的语音命令是表示将要使用的电子设备的名称，比如“MD”表示MD播放器200的的指令时，则通过语音识别，具有表示ND播放器200的内容的语音文本数据TDm被从语音识别器31传送到控制器32，该语音识别器31处理语音命令“MD”，然后控制器32把根据语音文本数据TDm产生的装置通知信号Hm输出到语音识别器31。该装置通知信号Hm通知语音识别器31按照后面的语音识别处理程序使用寄存的MD播放器200的语音识别表ITm。
当语音输入单元20接收到操作者的语音命令是表示比如“播放”该电子设备的指令时，则通过语音识别，具有表示“播放”MD播放器200的内容的语音文本数据被从语音识别器31传送到控制器32，该语音识别器31具有处理的语音命令“播放”，然后控制器32把根据语音文本数据TDm产生的控制命令COm输出到语音识别器31。这个控制命令COm起到控制MD播放器200的输入/输出的作用。在这个例子中，命令Com控制MD播放器200操作在“播放”模式中。
应当理解这里控制器32不局限于仅仅上述例子，以及可以替换为任何有相同的功能的同等物。语音识别器31独自地连接到IEEE 1394总线，但是也可能包含在控制器32或MD播放器200中。另外，代替只连接到IEEE 1394总线，语音输入单元20还可能连接到语音识别器31、控制器32或MD播放器200。虽然显示面板40只连接到IEEE 1394总线，但是还可能连接到控制器32等。
图2表示在语音识别控制系统100的显示面板40结构的例子的平面图。在图2所示的显示屏幕41等上，显示了该系统的操作状态以及各种的信息。在显示屏幕41下有多个设置按键42，在显示屏幕41的在右边从上到下设置决定按键43、开始按键44、停止按键45、十字键46、音量开关47等。例如，通过例如，按动十字按键44，移动屏幕上显示的光标到期望的位置操作之后按动该决定按键43，选择了期望的显示图像。该显示面板40不仅局限于这个例子，以及可能替换为任何有相同的功能的同等物。
如果图1所示的语音识别器31检测到存在相同的语音命令(语音数字数据Vdd)的重复期望值，则在屏幕41上显示“警告”，而且还要显示选择处理过程，用于挑选将用于这样的重复期望值的一个期望值，或显示再寄存处理过程，用于再寄存另外一个期望值(语音)当作该重复的一个。当语音识别器31响应语音数字数据Vdd的输入检测到出现任何重复期望值时，显示有这样的选择处理过程的一个选择图像P。
当寄存语音识别表ITm时，语音识别器31检测到出现任何重复期望值时，显示有这样的再寄存处理过程的一个再寄存图像Q。通过或者手动输入或者语音输入可以获得选择图像P和再寄存图像Q。以下参考图3将解释选择图像P，参考图4到8解释再寄存图像Q1-Q5。
图3是说明选择图像P的显示例子的图像图。这里前提是MD播放器、CD播放器和汽车导航仪相连接。如图3所示，在显示屏幕41上的选择图像P的上部分中显示了“警告”。在“警告”的下面显示了“可能“播放”的许多源中你选择哪个？”。另外，在屏幕41的下部显示“CD”、“MD”，和“取消”。显示的这些“CD”、“MD”和“取消”是操作者的选择的命令，通过语音识别或通过操作决定按键43和十字按键46，就可以选择任意这样的命令。在显示中转换所选择的背景。
图4到8是分别地描述再寄存图像Q1到Q5的显示例子的图像图。如图4所示，在显示屏幕41上的再寄存图像Q1的上部分中显示了“警告”。而且在“警告”的下面显示“在多个装置中已经检测出相同的字”。并且在下面还显示了“查看详情”、“取消”命令。通过语音识别或通过操作决定按键43和十字按键46，就可以选择这样的“查看详情”和“取消”。在显示中转换所选择的一个键的背景。
响应再寄存图像Q1中的“查看详情”的选择，在显示屏幕41上显示图5所示的再寄存图像Q2。在再寄存图像Q2的左上方和右上方分别作为命令显示“菜单”和“返回”命令。而且在“菜单”的下面按照向下的顺序显示“CD”、“HD”和“MD”命令。这些表示在“CD”、“HD”和“MD”中存在相同重复字。这里，HD表示在汽车导航仪中的硬盘(未示出)。
当例如从“CD”、“HD”和“MD”命令中选择出了“MD”，并且转换了它的背景时，则在右边按照向下的顺序显示关于“MD”的信息例如，“停止”、“跳过”和“播放”。“MD”的这些“停止”、“跳过”和“播放”表示将与其它装置(“CD”和“HD”)重复。
响应寄存图像Q2中选择出的将被再寄存的该字，显示图6所示的再寄存图像Q3。在该再寄存图像Q3的左上方显示“菜单”命令。而且在接近该图像中心，显示一个命令，该指令达到“输入将被再寄存的字，或在取消的情况下输入取消”在这个阶段，除了这样的显示以外，还通过语音合成读取等可以用语音广播该显示的指令的内容。
响应在再寄存图像Q3中输入将被再寄存的字的语音命令，显示图7所示的再寄存图像Q4。在左上方显示“菜单”指令。而且在接近图像中心，显示一则消息，它表明已经完成了在例如“MD播放”之后在再寄存图像Q3中输入该再寄存的操作，即，替代MD的“播放”，“MD播放”已经被寄存。在这个阶段，除了这样的显示以外，还通过语音合成读取等可以用语音广播的该显示的处理结果。
当显示再寄存图像Q4之后必要再寄存任何其它字时，显示图8所示的再寄存图像Q5。在如此显示的再寄存图像Q7中，排除了例如已经完成了用于再寄存的指令“播放”。因为按照这种方式仅仅显示那些还没有再寄存的内容，因此操作者随后能够选择用于顺序的寄存整个的显示字所期望的字，并且再寄存该选择的字。
下面将给出本发明的一个优选实施例的有关语音识别控制方法的说明。这里，将按照两种情况情况分别地进行说明，一个情况是单一电子设备连接的单连接情况，另外一个情况是多路电子设备连接的多重连接情况。a.单连接的语音识别图9表示语音识别控制系统100的操作例子(单一连接)的方框图。这里前提是将连接的电子设备是具有语音识别表ITm的一个未寄存的MD播放器200。
当如图9所示MD播放器200已经连接到IEEE 1394总线10时，控制器32初始化该总线从而删除所有的关于系统的连接的配置信息。然后控制器32执行树识别，以便识别可进行树操作的连接的配置。其后控制器32执行自识别，设置自节点ID，从而确认MD播放器200已经连接到IEEE 1394总线10。
随后，已经确认如此连接的MD播放器200对控制器32执行判别，用于请求许可传送该语音识别表ITm到语音识别器31。当响应该判别许可控制器32进行这样的传送时，则MD播放器200立即传输该自语音识别表ITm给语音识别器31。然后语音识别器31寄存如此传送的该语音识别表ITm，从而在该语音识别控制系统100中寄存这个最近连接的MD播放器200。
当操作者(未示出)通过语音识别控制连接到该语音识别控制系统100的MD播放器200时，操作者发出，例如，语音命令“播放”。然后语音输入单元20接收这种语音命令。其后语音输入单元20把输入的语音命令转换成语音数字数据Vdd并且通过IEEE 1394总线10发出相同的语音数字数据Vdd给语音识别器31。
具有如此接收语音数字数据Vdd的语音识别器31通过把语音数字数据Vdd与预寄存的语音识别表ITm比较，执行一个语音识别处理，如果该语音数字数据Vdd(“播放”)符合语音识别表ITm中的期望值，则语音识别器31通过使用该语音识别表ITm把语音数字数据Vdd(“播放”)转换成语音文本数据TDm，然后通过IEEE 1394总线10把这种语音文本数据TDm传输给控制器32。
控制器32按照传送的语音文本数据TDm产生一个控制命令COm，以“播放”模式操作该MD播放器200，然后把该控制命令COm传输给MD播放器200。响应这个控制命令COm，MD播放器200按照从操作者发出该语音命令执行它的“播放”操作。
因此，当具有语音识别表ITm的未寄存的MD播放器200连接到IEEE 1394总线10时，语音识别器31寄存该语音识别表ITm，以使以前没有寄存的这个MD播放器200能够被语音识别器31确认，因此这个MD播放器200能够响应该语音命令实现对MD播放器200的期望的操作。b.多重连接中的语音识别图10表示语音识别控制系统100的操作例子(多重连接)的一个方框图。其中，前提是有语音识别表ITc的未寄存的CD播放器300和有语音识别表ITn的未寄存的汽车导航仪400还连接到已经预先连接有MD播放器200的IEEE 1394总线10上，该MD播放器200有语音识别表ITm。
当如图10所示CD播放器300和汽车导航仪400另外地连接到预先连接了MD播放器200的IEEE 1394总线10时，通过总线的初始化一次完全地删除所有的前述的连接的配置，按照控制器32执行的连接确认处理。然后控制器32确认该新连接的MD播放器200、CD播放器300和汽车导航仪400。其后MD播放器200、CD播放器300和汽车导航仪400执行判断，然后把MD播放器200的语音识别表ITm、CD播放器的语音识别表ITc和汽车导航仪400的语音识别表ITn分别地传送给语音识别器31。随后语音识别器31寄存传送到这里的语音识别表ITm、ITc和ITn，在该语音识别控制系统100中寄存了MD播放器、CD播放器300和汽车导航仪400。
当操作者通过语音识别控制连接到该语音识别控制系统100的MD播放器200、CD播放器300和汽车导航仪400时，例如在播放一个在该MD播放器200中装裁的MD记录介质(未示出)的情况下，首先该操作者发出指示这个MD播放器200的语音命令“MD”。然后语音输入单元20接收这种语音命令。其后语音输入单元20把输入的语音命令转换到语音数字数据Vdd并且通过IEEE 1394总线10发出相同的语音数字数据Vdd给语音识别器31。
具有如此接收的语音数字数据Vdd的该语音识别器31通过把该语音数字数据Vdd与预寄存的语音识别表ITm、ITc和ITn比较，执行语音识别处理。因为该语音识别表ITm具有作为期望值的语音数字数据Vdd(“MD”)，该语音数字数据Vdd表示这个MD播放器200的名字，因此语音识别器31通过使用语音识别表ITm，把语音数字数据Vdd(“MD”)转换成语音文本数据TDm(“MD”)，然后把该语音文本数据TDm通过IEEE 1394总线10传输给控制器32。
该控制器32根据传送给它的语音文本数据TDm产生一个装置通知信号Hm。然后控制器32把这个装置通知信号Hm送给语音识别器31，从而通知语音识别器31使用MD播放器200的语音识别表ITm，执行后面的语音识别。其后，如果操作者发出例如一个语音命令“播放”，则语音输入单元20接收这种语音命令。然后语音接收装置20把接收的语音命令转换成语音数字数据Vdd并且通过IEEE 1394总线10输出相同的语音数字数据Vdd给语音识别器31。
具有接收的语音数字数据Vdd的语音识别器31通过把语音数字数据Vdd与备用的语音识别表ITm比较，执行语音识别处理。而且如果该语音数字数据Vdd(“播放”，)与语音识别表ITm中的该期望值一致，则语音识别器31通过使用该语音识别表ITm把该语音数字数据(“播放”)转换成为语音文本数据TDm，然后把该语音文本数据TDm通过IEEE 1394总线10传输给控制器32。
控制器32按照传送的语音文本数据TDm产生以“播放”模式操作该MD播放器200的控制命令COm，然后把该控制命令COm传输给MD播放器200。响应这个控制命令COm，MD播放器200按照从操作者发出该语音命令执行它的“播放”操作。
虽然没有表示出，但同样的响应所输入的语音命令“CD”，从控制器32输出一个装置通知信号Hc，从而在备用的状态时放置CD播放器的语音识别表ITc。而且当输入语音命令“播放”时，控制器32使用语音识别表ITc根据转换该语音数字数据Vdd(“Play”)所获得的语音文本数据TDc，产生一个控制命令COc。而且CD播放器300按照该控制命令COc执行它的“播放”操作。
虽然没有表示出，但同样的响应所输入的语音命令“汽车导航”，从控制器32输出一个装置通知信号Hn，从而把汽车导航仪400的语音识别表Itn置为备用的状态。而且当输入一个语音命令“播放”时，控制器32使用语音识别表ITn根据转换该语音数字数据Vdd(“播放”)所获得的语音文本数据TDn，产生一个控制命令COn。而且汽车导航仪400按照该控制命令COn执行它的“播放”操作。
因此，即使在这样的未寄存的CD播放器300和汽车导航仪400已经另外地连接到预先连接了MD播放器200的该IEEE 1394总线10的情况下，该语音识别器31也可以自动识别MD播放器200的语音识别表ITm、CD播放器300的语音识别表ITc和汽车导航仪400的语音识别表ITn。因此，响应操作者的语音命令，都可以操作任意的这些MD播放器200、CD播放器300和汽车导航仪400。
现在假设在许多连接的电子设备中有重复期望值，即，它们的所有的寄存的语音识别表ITm、ITc和ITn都分别有作为期望值的语音命令“播放”。下面针对当仅仅已经输入语音“播放”代替将使用的电子设备的名字时，由于在确定选择那个语音识别表用于转换该输入语音的过程中出现的故障所引起的语音不识别(voice non-recognition)，分别地对后面的每一情况给出说明。(1)装置选择操作所进行的处理过程图11是语音识别控制系统100中根据选择处理过程的一种选择实例子(手动输入)的流程。图12是该控制系统100中根据一种选择处理过程的另外一个选择处理例子(语音输入)的流程。这里前提是在语音识别器31中寄存了MD播放器200的语音识别表ITm、CD播放器300的语音识别表ITc和汽车导航仪400的语音识别表ITn(图10)，其中语音命令“播放”被设置成一个期望值。
首先，将对通过手动输入进行的装置选择操作进行说明。如图11所示，在步骤S1处操作者发出例如“播放”语音命令，用语音把“播放”输入给语音输入单元20(图10)，然后该程序前进到步骤S2。随后在步骤S2，语音识别器31通过对输入的语音命令的转换所获得的语音数字数据vdd与寄存的语音识别表ITm、ITc和ITn中的每一个进行比较，执行它的语音识别。其后程序前进到步骤S3。
在步骤S3，语音识别器31检测在关于语音数字数据Vdd(“播放”)的语音识别结果(比较结果)中是否存在任何重复的期望值，而且如果没有任何重复的期望值，则该程序前进到步骤S6，进行该装置的“播放”操作，比如MD播放器200例如在步骤S1处被输入了设置作为一个期望值的语音命令“播放”，这样就完成了该处理例行程序。同时，在步骤S3已经检测到重复期望值的情况下，该程序前进到步骤S4，在此选择图像P(图4)被显示在显示屏41(图10)。
然后程序前进到步骤S5，在此步骤S5处，操作者通过该决定按键43和该十字按键46，操作在该选择图像P上显示的命令“CD”、“MD”和“取消”，选择例如指令“MD”。因此，对应于“MD”的并且由语音识别器31寄存的该语音识别表ITm被设置成备用的状态，以便用于后面的语音识别操作。其后程序前进步骤S6，执行步骤S5所选择的MD播放器200的“播放”操作，因此完成了该处理例行程序。
随后，将对响应于语音输入所进行的装置选择操作进行说明。如图12所示，在步骤T1处操作者发出例如“播放”语音命令，用语音把该“播放”输入给语音输入单元20，然后该程序前进到步骤T2。随后在步骤T2，语音识别器31通过对输入的语音命令的转换所获得的语音数字数据vdd与寄存的语音识别表ITm、ITc和ITn中的每一个进行比较，执行它的语音识别。其后程序前进到步骤T3。
在步骤T3，语音识别器30检测在关于语音数字数据Vdd(“播放”)的语音识别结果中是否存在任何重复的期望值，而且如果没有重复的期望值，则该程序前进到步骤T7，执行该语音命令，因此完成了该处理例行程序。同时，在步骤T3已经检测有重复期望值的情况下，该程序前进到步骤T4，在该步骤，在屏幕41上显示所选择的图像P，并且通过语音合成把所选择的图像P上所显示的警告同时通知操作者。
然后程序前进到步骤T5，在此步骤T5处，操作者通过选择性地输入，从在该选择图像P上显示的命令“CD”、“MD”和“取消”中，选择例如指令“MD”，而且程序前进到步骤T6，按照输入语音命令“MD”执行语音识别操作。其后在步骤T7，对应于步骤T6所处理并且由语音识别器31所寄存的语音命令“MD”的这个MD播放器200的语音识别表ITm被处于备用的状态，以便用于后面的语音识别。而且响应步骤T1所输入的语音命令，执行MD播放器200的“播放”操作，这样就完成了该处理例行程序。(2)再寄存处理图13是语音识别控制系统100中根据再寄存处理过程的再寄存例子(手动输入)的流程。图14是该控制系统100中根据再寄存处理过程的另外一个再寄存例子(语音输入)的流程。这里前提是图10中分别显示的具有语音识别表ITm的MD播放器200、具有语音识别表ITc的CD播放器300和具有语音识别表ITn显示的汽车导航仪400连接到IEEE 1394总线10，语音命令“播放”设置为一个期望值。
首先，将对通过手动输入进行的再寄存操作进行说明。当具有语音识别表ITm的MD播放器200、具有语音识别表ITc的CD播放器300和具有语音识别表ITn的汽车导航仪400已经连接到IEEE 1394总线10时，如图13所示，该程序前进到步骤U1。在步骤U1由语音识别器31确认这样的连接，然后该程序前进到步骤U2。
其后在步骤U2，MD播放器200把语音识别表ITm传输到语音识别器31。同样，CD播放器300把语音识别表ITc传输到语音识别器31，以及汽车导航仪400把语音识别表ITn传输到语音识别器31。然后语音识别器31寄存这些传送来的语音识别表ITm、ITc以及ITn。在步骤U3，检测在语音识别器31中所寄存的语音识别表ITm、ITc以及ITn中是否存在关于相同的语音(语音数字数据Vdd)的任何重复的期望值。而且如果没有重复期望值，则完成该处理例行程序。同时，如果在步骤U3有重复期望值，则程序前进到步骤U4，在该步骤处，在屏幕41上显示再寄存图像Q1(图4)。
在步骤U4，通过操作决定按键43和十字按键46，在该再寄存图像Q1上选择例如“查看详情”的一个指令，然后该程序前进到步骤U5。随后在步骤U5，该再寄存图像Q1改变到下一个再寄存图像Q2(图5)，在该再寄存图像Q2上显示了重复字(期望值)。当把例如该重复字“播放”改变到另外一个字时，操作者操作决定按键43和十字按键46，选择“播放”，程序前进到步骤U6。
然后在步骤U6，再寄存图像Q2改变到下一个再寄存图像Q3(图6)，在再寄存图像Q3处，显示该重复期望值的再寄存的指南，而且通过语音合成，把这样显示的指南同时地通知操作者。其后程序前进到步骤U7，在该步骤U7操作者用语音输入例如作为新的命令“MD播放”。然后程序前进到步骤U8，在该步骤用语音确认该输入的命令“MD播放”，这样重新再寄存“MD播放“代替”了“播放”。
随后该程序前进到步骤U9，在该步骤U9，再寄存图像Q3改变到下一个再寄存图像Q4(图7)，该再寄存图像Q4显示出完成了该再寄存操作，而且通过语音合成把这样显示的该再寄存的完成同时地通知操作者。其后该程序返回到步骤U3，再一次检测是否有任何重复期望值。如果检测的结果表示没有重复期望值，则完成该程序。同时，如果步骤U3所获得的结果表示存在重复期望值，则程序前进到步骤U4，显示下一个再寄存图像Q5(图8)。在这个图像Q5中显示某些仍然没有再寄存的重复期望值。连接着再寄存新的命令用于说明该重复期望值，最后在步骤U3将再检测不到出现该重复期望值，因此程序到达它的结束。
接下来，将对通过语音输入所进行的再寄存进行说明。在图14所示的步骤W1中，按照与图13的步骤U1相同的方式确认该连接。而且在步骤W2，按照与图13中步骤U2处相同的方式传送和寄存该语音识别表ITm、ITc和ITn。然后在步骤W3，检测在语音识别器31中所寄存的语音识别表ITm、ITc以及ITn中是否存在关于相同的语音(语音数字数据Vdd)的任何重复的期望值。如果检测的结果表示没有重复期望值，则结束该程序。同时，如果步骤W3获得的结果表示有重复的期望值，则程序前进到步骤W4，在该步骤W4处，在屏幕41上显示该再寄存图像Q1(图4)。
在步骤W4，用语音输入再寄存图像Q1上显示的“查看详情”的语音命令。然后程序前进的步骤W5，在步骤W5，该再寄存图像Q1改变到下一个再寄存图像Q2(图5)，在该再寄存图像Q2上显示了重复字(期望值)。当例如该重复字“播放”改变到另外一个字时，操作者用语音输入通过语音识别进行处理的语音命令“播放”，因此，选择了“播放”为将改变的字。
然后在步骤W6，该再寄存图像Q2改变到下一个再寄存图像Q3(图6)，显示再寄存该重复期望值的指南，并且把这样显示的指南，通过语音合成同时通知操作者。其后该程序前进到步骤W7，在步骤W7处，用语音输入例如新指令“MD播放”。然后程序前进到步骤W8，在该步骤用语音确认该输入的指令“MD播放”，这样重新再寄存“MD播放”代替“播放”。
随后程序前进到步骤W9，在该步骤W9处该再寄存图像Q3改变到下一个再寄存图像Q4(图7)，在该再寄存图像Q4上显示了完成该再寄存，而且通过语音合成把这样显示的该再寄存的完成同时地通知操作者。其后该程序返回到步骤W3，再一次检测是否有重复期望值。如果检测的结果表示没有重复期望值，则完成该处理例行程序。同时，如果步骤W3所获得的结果表示存在重复期望值，则处理程序前进到步骤W4，显示下一个再寄存图像Q5(图8)。在这个图像Q5中，显示某些仍然没有再寄存的重复期望值。因为接着再寄存新的命令用于说明该重复期望值，因此最后在步骤W3将再检测不到出现该重复期望值，因此结束程序。
因此，即使由于存在重复期望值导致语音不识别，通过选择装置，仍然能够容易解决这种现象，并且通过再寄存该期望值就能够加强语音识别的精度。
因此，根据如上所述的本发明的优选实施例的语音识别控制系统100和语音识别控制方法，当有语音识别表ITm的MD播放器200已经连接到IEEE1394总线10时，控制器32确认MD播放器200的这样的连接，然后语音识别器31寄存传送给它的该语音识别表ITm。随后语音输入单元20把输入的操作者的语音转换成为语音数字数据Vdd。其后语音识别器31对语音数字数据Vdd与寄存的语音识别表ITm中的期望值进行比较，从而执行语音识别，而且还使用该语音识别表ITm把数字数据Vdd转换成为语音文本数据TDm。而且控制器32把控制命令Com传输给该MD播放器200，该MD播放器200起到根据文本数据TDm遵守该语音命令执行操作的作用，因此按照该语音命令也能够操作具有该语音识别表ITm的甚至还未寄存的MD播放器200。
即使在未寄存的CD播放器300以及汽车导航仪400已经另外地连接到先前连接了这个MD播放器200的IEEE 1394总线10的情况下，该语音识别器31仍能寄存该语音识别表ITc和ITn，从而响应语音命令执行对MD播放器、CD播放器300以及汽车导航仪400的操作。
因此，通过语音识别就可以操作适合于语音识别的整个电子设备。另外，为了防备出现由于存在有关该语音命令的一些重复的期望值的语音不识别情况，本发明还有一种选择处理过程，用于通过手动地或者语音输入，指导操作者选择将使用的装置，来处理这样的语音非识别情况，本发明还有一种再寄存处理过程，用于在连接该装置的时候指导操作者检测这样的重复，并且寄存新的字来代替该重复的期望值，因此增加了语音识别的准确度和可操作性，并且还使操作者自己定制该语音识别控制系统。
如上所述，在本发明的语音识别控制系统中，提供了一种语音输入装置，对输入的操作者的语音与连接的电子设备的所寄存的语音识别表进行比较，而且提供了一种控制装置，用于根据这样的比较结果控制该电子设备的输入/输出。
依据这种结构，即使当已经连接了任意语音可识别的未寄存的电子设备时，通过识别语音也能对电子设备进行操作。
在本发明的一种控制方法中，执行以下步骤向每个电子设备提供一种语音识别表，在该语音识别表中预先把操作者的语音储存成为一个期望值；然后当已经把任何未寄存的具有所提供的语音识别表的电子设备连接到一个控制部分时，在控制部分寄存该电子设备的语音识别表，随后，当输入了该操作者的语音，就立即对操作者的语音与在控制部分中寄存的该电子设备的语音识别表进行比较；而且根据该操作者的语音与该语音识别表的比较结果控制该电子设备的输入/输出。
因此，语音识别可以应用于全部可语音识别的电子设备。
本发明尤其地适合于利用语音输入执行对汽车电子设备的控制操作的语音识别控制系统等。
权利要求
1．一种控制具有预记录的语音识别表的电子设备的输入/输出的语音识别控制系统，在该预记录的语音识别表中预先储存了作为期望值的操作者的语音，所述系统包括输入该操作者语音的语音输入装置；和用于通过识别由所述语音输入装置输入的该操作者的语音，控制所述电子设备的输入/输出的控制装置；其中，当任意未寄存的电子设备已经连接到所述控制装置时，所述控制装置寄存由所述电子设备提供的语音识别表，而且当该操作者的语音已经由所述语音输入装置输入时，所述控制装置把该操作者的语音与该预寄存的电子设备的语音识别表比较，然后根据操作者的语音与该语音识别表的比较结果，控制所述电子设备的输入/输出。
2．根据权利要求1而且包括语音输入装置和控制装置的语音识别控制系统，其中所述控制装置具有用于寄存所述电子设备的语音识别表和用于通过该语音识别表与由所述输入装置输入的语音比较确认该操作者的语音的一种语音识别单元，所述控制装置还具有控制器，该控制器根据所述语音识别单元所执行的比较结果控制所述电子设备的输入/输出。
3．根据权利要求2而且包括语音输入装置、语音识别单元和控制装置的语音识别控制系统，其中所述控制装置通过比较寄存的电子设备的语音识别表与输入的操作者的语音确认该语音，而且当该操作者的语音与该语音识别表中的期望值一致时，所述语音识别单元通过使用所述语音识别表把该操作者的语音转换成为语音文本数据，然后传输该语音文本数据给所述控制器。
4．根据权利要求3而且包括语音输入装置、语音识别单元和控制器的语音识别控制系统，其中，当已经确认由所述语音输入装置输入的该操作者的语音表示对所述电子设备进行操作时，所述控制器控制根据从所述语音识别单元传送的并且表示操作所述电子设备的语音文本数据，控制所述电子设备的输入/输出。
5．根据权利要求3而且包括语音输入装置、语音识别单元和控制器的语音识别控制系统，其中，当已经确认由所述语音输入装置输入的该操作者的语音表示了所述电子设备的预定名字时，所述控制器接收从所述语音识别单元传送的而且表示操作所述电子设备的名字的语音文本数据，并且指导所述语音识别单元使用所述电子设备的该语音识别表，执行后面的语音识别操作。
6．根据权利要求3而且包括语音输入装置、语音识别单元和控制器的语音识别控制系统，其中所述语音输入装置、语音识别单元和控制器经过通信线路互相连接，并且由所述语音输入装置输入的操作者的语音和语音文本数据两者都传输给所述通信线路。
7．一种用于确认操作者的语音和从控制部分控制各种的电子设备的输入/输出的语音识别控制系统中所采用的语音识别控制方法，所述方法包括以下步骤提供给每个所述电子设备的语音识别表，在语音识别表中预先储存作为期望值的操作者的语音；当具有所述语音识别表的任意未寄存的电子设备已经连接到所述控制部分时，在所述控制部分寄存有关电子设备的该语音识别表；当输入操作者的语音时，则比较该操作者的语音与所述控制部分中的电子设备的语音识别表；以及根据操作者的语音与语音识别表的比较结果控制所述电子设备的输入/输出。
8．根据权利要求7的语音识别控制方法，其特征在于当确认了操作者的语音，则针对所述控制部分中寄存的多个语音识别表中相同的语音，检测是否存在任何重复的期望值。
9．根据权利要求8的语音识别控制方法，其中显示作为一种指南的所述选择过程，它允许操作者选择预定的重复的期望值中的一个。
10．根据权利要求7的语音识别控制方法，其特征在于当寄存了连接到所述控制部分的多个电子设备的语音识别表时，针对在所述控制部分中寄存的多个语音识别表中相同的语音，检测是否存在任何重复期望值，以及当检测出任何重复期望值，则把这样的检测到的该重复期望值通知给操作者，以及还把用于处理该重复的期望值的再寄存程序通知给该操作者。
11．根据权利要求10语音识别控制方法，其中显示作为一种指南的所述再寄存过程，它允许操作者把该重复期望值再寄存成另外一个语音。
全文摘要
一种语音识别控制系统能够通过语音识别对电子设备进行控制。系统包括:语音输入器、语音识别器和控制器,控制器确认语音输入器获得的操作者的语音和控制具有语音识别表的MD播放器的输入/输出,在语音识别表中预先储存作为期望值的操作者语音。当连接未寄存的MD播放器时,语音识别器寄存由MD播放器提供的语音识别表,当语音输入器输入操作者的语音,控制器对语音与预寄存的语音识别表比较,控制器根据比较结果控制MD播放器的输入/输出。
文档编号G10L15/26GK1288225SQ00130680
公开日2001年3月21日申请日期2000年7月27日优先权日1999年7月27日
发明者宫崎良朗, 田中民也, 村山静江, 清田和久, 金子健二申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宫崎良朗;田中民也;村山静江;清田和久;金子健二
技术所有人：索尼公司
我是此专利的发明人