机动车中的语音识别的制作方法

文档序号：8417608阅读：485来源：国知局

机动车中的语音识别的制作方法
【专利说明】机动车中的语音识别
[0001]本发明涉及一种用于在机动车中进行语音识别的方法。借助于车辆内部的语音识别器一一该语音识别器在此被称为车载-语音识别器，基于用户的语音输入由语音输入来获得语言文本。本发明还涉及一种用于实施本发明方法的机动车信息娱乐系统，以及具有用于实施本发明方法的处理装置的机动车。
[0002]当今车辆中的信息-娱乐系统使用自动语音识别系统或ASR(Automatic SpeechRecognit1n)，以便接收来自驾驶员的语音输入。这些ASR可以要么在车辆本身(车载-onboard)中，要么在远程服务器(online)上。为此，识别装置可以被配备用于执行不同数量的任务。
[0003]在EP I 408 304 Al中介绍了一种用于机动车的控制系统，该控制系统可以实现机动车的设备的语音控制。车辆外部的语音识别器(结合本发明这被称为非车载-语音识别器)被用于识别单个语音输入，也就是说将其转换成机器可处理的语言文本。为此在现有技术中已经公知，检测语音声音作为语音信号，然后将所述语音声音数字化，并且借助于特征提取为语音识别做准备。接下来将所提取到的特征通过移动通信传递给非车载-语音识别器，然后该非车载-语音识别器将其识别结果再次通过移动通信提供给机动车。这种解决方案的缺点是，必须有移动通信连接可供使用，语音识别才能正常工作。
[0004]在EP I 341 363 BI中介绍了一种驾驶员信息系统，该驾驶员信息系统同样使用了非车载-语音识别器。附加地，非车载-语音识别器可以被用于简单的识别任务，例如识别个别控制命令。在这种情况下，决策单元根据需要在车载-语音识别器和非车载-语音识别器之间进行转换，以便将用户的单个语音输入转化成语言文本。非车载-语音识别器在此仅被设计用于在语音对话范围内进行识别。反之，车载-语音识别器仅理解单个的指令词。语音对话系统的优点是，如果他还未明白特定的语言输入，语音识别器可以提出疑问。然而，这种情况下的缺点是，在驾驶期间使用语音识别系统时会导致驾驶员分心。
[0005]本发明的目的是:在机动车中提供可靠的语音识别，其使得机动车中的用户尽可能少地从交通现状中分心。
[0006]该目的通过根据权利要求1所述的方法、根据权利要求12所述的信息娱乐系统和根据权利要求13所述的机动车来实现。本发明的有利的改进方案由从属权利要求给出。
[0007]根据本发明的方法确保:在不向用户提出询问的情况下将语音输入传输给一自动的语音识别系统以生成语言文本。在对特定的语音输入进行语音识别有困难时，它以有利的方式防止了用户从交通现状中分心。根据本发明的方法在此通过车载的处理装置来实施，该处理装置从车辆内部的检测装置一一例如带有联接在下游的信号处理装置的麦克风一一处接收用户的语音输入。至少一个所接收的语音输入在此被处理装置传输给车辆内部的车载-语音识别器。然后，处理装置从该车载-语音识别器接收第一识别结果、即例如可能的语言文本候选对象亦或多个可能的语言文本候选对象的列表。“语言文本候选对象”是将语音输入转换为了字符串的文本。如果发出的语音输入为“Hallo”，那么正确的语言文本候选对象是字符串“Hallo”。代替于纯文本“Hallo”，也可以以符号的形式表示为语言文本候选对象的语音识别结果或者表示为对可能的语言文本候选对象的列表的列表项的参考或者表示为列表项的标识符(例如ID_0815)。
[0008]这时希望降低基于第一识别结果进行错误识别的可能性，即降低输出不正确的语言文本的可能性，这将使用户不必分心。为此，通过处理装置将语音输入全部或部分地传输给车辆外部的非车载-语音识别器。然后由处理装置从该非车载-语音识别器接收第二识别结果、即语言文本候选对象或者由多个语言文本候选对象组成的列表。然后，不仅根据第一识别结果而且根据第二识别结果通过处理装置来确定最终作为识别结果而被输出的语言文本。
[0009]根据本发明的方法具有以下优点:语音输入被全部或部分地传输给一种双重的语音识别系统，即，一重为传输给车辆内的语音识别装置，另一重为传输给车辆外的语音识别装置。于是，最终作为识别结果而被输出的语言文本更可能符合用户实际说的话。结合本发明，语音输入要么可以理解为经变换的声信号、即模拟信号，要么可以理解为数字信号，或者也可以理解为通过对语音信号进行已知的特征提取而形成的、各信号段的特征的序列、即例如美尔倒谱系数的序列。
[0010]在一个实施方式中，根据本发明的方法规定进行串行的语音识别模式，在该串行的语音识别模式中，语音输入首先被传输给车载-语音识别器以进行关键词识别，并且第一识别结果被接收。然后，借助于第一识别结果从语音输入提取至少一个由车载-语音识别器不能识别的部分，然后将该部分传输给非车载-语音识别器。由此得到以下优点:首先使用通常具有较短反应时间的车载-语音识别器进行语音识别，仅仅对于在识别时有问题的情况才启用通常更高效能的非车载-语音识别器。另一优点在于:借助于关键词识别通过处理装置可以决定，要将语音输入传输给多个可能的非车载-语音识别器中的哪一个。如果例如借助于关键词识别已知用户想要确定导航目的地，那么就可以相应地控制用于导航系统的非车载-语音识别器。
[0011]根据本发明的方法的另一个实施方式规定，在并行的语音识别模式中，将至少一个语音输入传输给车载-语音识别器并独立地将该至少一个语音输入传输给非车载-语音识别器。于是就有两个识别结果可供使用，它们均与整个语音输入有关。然后，例如可以将被作为语言文本候选对象而包含在两个识别结果中的那个语言文本作为最终的识别结果进行输出。并行地使用车载-识别器和非车载-识别器的另一原因在于，两种识别器可以覆盖不同的职能范围。于是，得到的不是两个相同的或相似的结果，而是不同的结果。然而，两个中的一个通常具有明显更高的可信度、即用于识别的准确度的指示值，从而也可以合理地选择语言文本候选对象。
[0012]根据本方法的另一实施方式，由处理装置根据针对预定语言文本内容而预定的优先级基于第一识别结果和第二识别结果确定语言文本。“语言文本内容”这里系指一种主题语境，在该主题语境情况下用户表达了语音输入。因此，如果例如通过在串行的语音识别中进行关键词识别断定了涉及导航目的地的输入，那么就可以由非车载-语音识别器的第二识别结果从第二识别结果中有针对性地找到涉及导航目的地的语言文本候选对象。然后，通过关键词识别来确定用于语言文本内容“导航”的优先级。
[0013]根据本发明的一个实施方式，由处理装置根据至少一个环境参数基于第一识别结果和第二识别结果确定语言文本。所述环境参数描述机动车中当前的识别情况。例如可以通过环境参数来指示:机动车是否处于堵车状态、机动车位于哪里(例如GPS-接收器的地理坐标)、车辆位于所计划的行驶路线的起始位置还是终点位置、机动车当前是否在去驾驶员的工作场所的途中或者机动车是否在回家的返程路上。行驶类型(例如前往办公室或回家)例如可以从驾驶员激活的个人资料中读取。
[0014]附加于此地或替代于此地，也可以根据当前的车辆状态来确定语言文本。例如可以以“是否刚刚有电话呼叫并且例如通过铃声告知给驾驶员”为根据。同样可以检查，在机动车中是否刚刚向驾驶员发出了一定的指示、例如警告信号。环境参数和当前的车辆状态是一种可靠的指示:用户刚刚想用其语音输入表达什么。如果驾驶员例如正好在从工作回家的路上，那么他更有可能想要把涉及到其自由时间的东西作为语音输入。就其它情况而言，驾驶员在去工作的路上更可能处理或准备工作上的事情，于是，这就同样为语音识别提供了重要的语境。如果向驾驶员发出了警告指示，那么他的语音输入可能会涉及到该警告指示。在确定语言文本时，可以采用以下方式使用环境参数和车辆状态，即就识别结果而言，该识别结果具有多个语音识别候选对象、即多个可能的合理的识别结果，那些与相应的环境参数和/或车辆状态相适配的识别结果被优选或设为优先。
[0015]尤其有利的是，在所述方法中由处理装置

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：G·格吕沙尔斯基;T·坎切瓦;
技术所有人：奥迪股份公司;大众股份公司;
我是此专利的发明人