识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备与流程

文档序号：12473164阅读：179来源：国知局

本发明以一种按照独立权利要求的所属类型的方法或设备为出发点。本发明的主题也是一种计算机程序。

背景技术：

语音对话系统目前属于在车辆中的现代的HMI系统的标准。车辆的驾驶员可以借助语音对话系统例如用语音指令控制车辆的导航仪或信息娱乐系统。说话者识别和/或语音对话识别可以基于音频和/或基于视频且备选地或附加地通过借助NIR摄像机的眼部追踪完成。

在当前的语音对话系统中已经使用了对自然发声语音的处理以及对其的理解。对此的英语名称为“自然语言处理”（NLP）和“自然语言理解”（NLU）。自然的语音对话系统的特征在于，对于语音控制（Sprachsteuerung）来说不必再强制性地遵循呆板的命令词和说过的话的专门的次序。

DE 10 2011 084 552 A1描述了一种用于通过移动的仪器识别人的警觉状态的方法。

技术实现要素：

在这种背景下，用在此提出的解决方案介绍了按照独立权利要求所述的一种用于识别针对语音控制的语境（Sprachkontext）的方法，还介绍了一种用于求出针对语音控制的语音控制信号的方法、一种使用这些方法的设备以及最后介绍了一种相应的计算机程序。通过在从属权利要求中列举的措施可以实现对在独立权利要求中说明的方法的有利的改型和改进。

在将关于车辆乘员的视向的视向信息配属到车辆的内部空间中的观察区时，可以求出配属于该观察区的预先确定的语境。

按照例如基于摄像机确定车辆的至少所述驾驶员的视向的在此提出的方案，可以在语音输入的一个提前的时间点上或业已在语音输入开始之前就确定语音对话识别的有待预计的领域。

提出了一种用于识别在车辆中针对语音控制的语境的方法，其中，该方法具有以下步骤：

读入关于车辆的乘员的当前的视向的视向信息；

将视向信息配属给车辆的内部空间中的观察区域，以便获取关于由乘员当前观察到的观察区的观察区信息；以及

在使用观察区信息的情况下确定有关配属于当前观察到的观察区的预先确定的语境的语境信息。

这种方法可以例如在软件中或硬件中或以由软件和硬件构成的混合形式例如在控制器中被执行。

语音控制可以由安装于车辆中的语音对话系统来实施。车辆的乘员例如驾驶员可以利用语音对话系统，以便通过所说出的文本来发出控制指令，例如用于控制车辆的导航仪或信息娱乐系统。语境可以是语言领域，也就是说通过特定的选词表征的特定的生活范围。视向信息可以是用车辆的例如合适的传感器的电信号传达的数据。当前的视向可以借助矢量和所述矢量的空间内的3D位置示出。观察区可以是车辆的内部空间中的当前被乘员观察的区域。观察区可以是车辆的内部空间的一区域，该区域代表与语音对话系统联接的装置，例如车辆的导航仪。导航仪在此可以物理地或仅虚拟地处在这个区域中。观察区可以具有不同的大小且代表屏幕上的图标，正如例如车辆内的整个仪表盘区域（Armaturenbereich）。观察区信息可以包括关于当前所观察的观察区的功能的数据。观察区信息例如可以提供对当前所观察的观察区负责车辆中的哪些任务的指示。语境信息可以以关于配属于所观察的观察区的语境的数据为基础。

按照该方法的一种实施方式，当在读入的步骤中超过了注视时间的预先确定的注视时间阈值时，可以实施配属的步骤，其中，注视时间可以代表由乘员对观察区进行观察的持续时间。因此可以防止语音对话系统对乘员的偶然的注视、也就是说作出由乘员对车辆内部空间的一个区域的观察的反应，而所述乘员没有关联到这个区域进行语音控制的意愿。

仅当在读入的步骤中确定了一视向作为是朝着针对语音识别而设计的区的视向时，也才能够实施配属的步骤。因此可以有利地减少语音对话系统的运算耗费。

尤其可以在配属的步骤中在使用视向信息的情况下从多个观察区中选出所述观察区。因此可以在短时间内执行对语音指令来说有待预计的语言领域的过滤。

按照另一种实施方式，该方法具有在使用语境信息的情况下为语音控制选出预先确定的语音模型的步骤。有利的是，可以因此有效地提高语音控制的识别率。

也有益的是：当该方法具有在使用视向信息的情况下将乘员配属给来自多个乘员类别的一个乘员类别的步骤时。相应地还可以在确定的步骤中在使用配属于乘员的乘员类别的情况下确定语境信息。乘员类别可以例如是“驾驶员”、“副驾驶员”、“乘客”或类似。也可以以这种方式更快速地推断出有待预计的语境。

此外可以在将乘员配属到乘员类别的步骤中将乘员辨认为个体的人。这种实施方式同样能够实现例如在使用寄存的语音样本或寄存的从前的语音指令的情况下对识别率的改善。

按照另一种实施方式，该方法可以具有读入关于车辆的另一乘员的另一当前的视向的另一视向信息的步骤，将另一视向信息配属给车辆的内部空间中的另一观察区的步骤，以便获取关于由另一乘员当前观察到的另一观察区的另一观察区信息，以及具有在使用另外的观察区信息的情况下确定关于配属于当前被观察的另外观察区的另外预先确定的语境的另一语境信息的步骤。用这种实施方式可以同时或在时间上分开地将语音指令快速且牢固地配属给不同的人。

此外该方法可以具有读入关于车辆的乘员的当前的头部姿势（Kopfpose）的头部姿势信息的步骤以及将头部姿势信息配属到车辆的内部空间中的观察区的步骤，以便获取关于由乘员当前观察到的观察区的附加的观察区信息。相应地可以在确定关于配属于当前被观察的观察区的预先确定的语境的语境信息的步骤中还在使用附加的观察区信息的情况下确定语境信息。利用这种关于乘员的冗余的信息可以使该方法设计得更为耐用。

作为备选或附加，该方法可以具有读入关于车辆的乘员的当前的唇形（Lippenstellung）的唇形信息的步骤以及将唇形信息配属给车辆的内部空间中的观察区的步骤，以便获取关于由乘员当前观察到的观察区的第二附加的观察区信息。相应地可以在确定关于配属于当前被观察的观察区的预先确定的语境的语境信息的步骤中还在使用第二附加的观察区信息的情况下确定语境信息。利用该方法的这种实施方式也可以更为稳固地实现语音识别。

此外还提出了一种用于求出在车辆中针对语音控制的语音控制信号的方法，其中，该方法具有以下步骤：

读入根据上文阐释的用于识别语境的方法的一个实施方式确定的语境信息以及读入音频信号；以及

在使用语境信息和音频信号的情况下求出语音控制信号。

这种方法可以例如在软件中或硬件中或以由软件和硬件构成的混合形式例如在控制器中被执行。

语音控制信号可以是用于控制车辆的与语音对话系统关联的装置的电信号。音频信号可以是车辆的声音传感器的电信号。音频信号可以代表在车辆中被检测的语音元素。

按照该方法的一种实施方式，可以在读入的步骤中至少部分从缓存器中读入音频信号。缓存器可以被构造用于至少储存针对预先确定的时间段的音频信号。因此可以有效地防止，语音指令的一些部分在语音识别时的丢失。

此外还介绍了一种设备，该设备被设置用于实施用于识别针对语音控制的语境的方法和/或用于求出针对语音控制的语音控制信号的方法。

在此提出的解决方案还建立了一种设备，该设备被构造用于在相应的装置中执行、操控或实现在此提出的用于识别针对语音控制的语境的方法的和/或用于求出针对语音控制的语音控制信号的方法的实施变型的步骤。通过本发明的、形式为设备的这种实施变型也可以快速且有效地解决基于本发明的任务。

设备在当前可以系指电器，所述电器处理传感器信号并且根据传感器信号发出控制信号和/或数据信号。设备可以具有接口，所述接口可以硬件式地和/或软件式地构造。就硬件式的构造而言，所述接口例如可以是包含设备的最为不同的功能的、所谓的系统ASIC的一部分。但也可能的是，所述接口是自有的、集成的开关电路或至少部分由分立的结构元件构成。就软件式的构造而言，所述接口可以是软件模块，这些软件模块例如存在于微控制器上其它的软件模块旁。

也有利的是一种有程序代码的计算机程序或计算机程序产品，程序代码可以被储存在能被机器读入的载体或存储介质上，如半导体存储器、硬盘存储器或光学的存储器上，以及被用来执行、实现和/或操控按照前述实施方式中任一项所述的方法的步骤，尤其当程序产品或程序在计算机上或在设备上实施时。

附图说明

本发明的实施例在附图中被示出并且在接下来的说明中作更详细地阐释。附图中：

图1是按照一个实施例的带有语音对话系统的车辆的原理图；

图2是按照一个实施例的用于识别针对语音控制的语境的设备的方块图；

图3是按照一个实施例的用于求出针对语音控制的语音控制信号的设备的方块图；

图4是按照一个实施例的用于阐释基于传感器的、对视向信息和唇形信息进行检测的原理图；

图5是按照一个实施例的有多个可能的摄像机位的车辆内部空间的图示；

图6是按照一个实施例的用于识别针对语音控制的语境的方法的流程图；以及

图7是按照一个实施例的用于求出针对语音控制的语音控制信号的方法的流程图。

在接下来对本发明的有利的实施例的说明中，对在不同的图中示出的且相似地作用的元件使用相同的或相似的附图标记，其中，免除了对这些元件的重复说明。

具体实施方式

图1示出了按照一个实施例的带有语音对话系统或语音识别系统102的车辆100的原理图。车辆100是道路车辆，如载客汽车或载重汽车。语音对话系统102被构造用于检测车辆100的乘员104—在此为驾驶员104—的语音指令且基于所述语音指令来控制车辆100的与语音对话系统102联接的装置。

就图1示出的实施例而言，语音对话系统102被构造用于读入第一语音指令106和第二语音指令108并且关于第一语音指令106向车辆100的导航仪112发出控制信号110以及关于第二语音指令108向车辆100的信息娱乐系统116发出控制信号114。

语音对话系统102目前属于在车辆中现代的HMI系统的标准。大多数这些系统102现在都还基于命令式的输入，在命令式的输入中，预定义的词必须以预先说明的顺序被说出。当前的系统102已经能够识别和解释自然说出的语言，当作NLP能力和NLU能力（NLP = Natural Language Processing（自然语言处理）；NLU = Natural Language Understanding（自然语言理解））。在此不再必须强制性地遵循呆板的命令词和专门的语序。

对所有在语音对话系统102中使用的基于统计学的识别方法来说语言领域相关性是共同的。领域越是精确以及越是受限制，那么就可以利用更为专门的统计学的语音模型，例如在导航的上下文（Kontext）中输入地址时或在MP3集合内输入作者连同音乐名字时。在此，统计学的语音模型的质量对现代语音识别系统102的识别效率至关重要。

在这种能够实现在最高层面上的自然的语音输入的基于语音对话的HMI系统中，一个重要的目标在于，在第一次语音输入时尽可能大程度地缩小关于上下文的不确定性。例如原则上可以结合按压方向盘上通常存在的“即按即说（Push-to-Talk）”键来实现由通过系统102支持的领域的每个任意输入。在此应当达到的是，使语音识别中的初始搜索空间尽可能小以及此外在输入的这个时间点上不必调用可能导致更差的识别率的一般性的语音模型。

在语音对话系统102的一种伴随基于音频的说话者识别和语音对话识别的实施方案中，当前的基于音频的方法能够实现在一个音频信号中对多个说话者的识别以及能够实现在一个对话中对说话者的配属。此外，结合多重麦克风阵列还可以实现对识别到的人员的空间上的配属，在立体声麦克风阵列中是在左边和右边的说话者之间的区别，在单声道系统中则没有空间上的配属。此外这些方法可以良好地与基于视频的方法相结合且也可以足够好地解释自发的对话。

在伴随基于视频的说话者识别和语音对话识别的语音对话系统102的一种附加或备选的实施方案中，当前的方法从图像处理中例如借助脸部识别方法既能够实现对说话者的辨认，也基于与之通常相关联的用于提取唇形的方法实现了语音探测。此外在基于单声道的图像方法中也已经能够实现说话者本身的空间上的配属。借助头部姿势评估还可以求出朝着哪一方向说话。根据需要的精度可以通过车辆内部空间中的一个或多个摄像机为驾驶员104以及所有另外的乘员确定这一点。

也有利的是语音对话系统102的一种实现，该实现使用对乘员104的眼部运动追踪，下文中被称为“眼部追踪（Eye-Tracking）”。眼部追踪可以借助NIR摄像机通过所谓的角膜反射的原理进行。在此，红外发光二极管经由精确到毫秒的对所谓的角膜反射的测量、红外发光二极管在被测试者的眼睛中或眼睛的角膜上的反射的测量、对角膜的测量来检测眼部运动。这种角膜反射办法目前是用于记录视线的、被多个眼部追踪系统利用的方法。

无接触的视线记录额外需要使作为另外的参考点的瞳孔中心点或瞳孔一体化（Integration）；也就是说，相对瞳孔中心点的定位来测量角膜反射。为了在角膜上产生角膜反射，被测试者的眼睛在接受刺激期间被用微弱的红外光或近红外光（NIR；near-infrared light）照射，红外光或近红外光从集成在所述系统102的眼部追踪显示器中的发光二极管发出。红外线敏感的LED摄像机同时检验被测试者的眼睛。

从眼部追踪器的角度来看，瞳孔在此看作为小的黑色圆盘，其被彩色的外环-虹膜-包围，以及被白色的椭圆形光环（Mandorla）-眼球-以及上眼睑和下眼睑框起来。这些结构实际上同样用作视线记录的基础。眼部追踪软件将被测试者的瞳孔处理成最深色的点（因为瞳孔几乎完全吸收入射的红外光），以及角膜反射被处理成最浅色的点（由于所反射的高份额的红外光）。这种检验结果随后典型地被处理成眼部追踪器的分析软件的黑白视频图像。

现在，接下来详细论述的新型的方案允许将所有的或一些上面阐释的方法相互结合，以便因此始终确保在车辆100中说话者104的空间上的配属以及识别这些说话者的“视向和/或说话方向”。因此例如使得目前还需要的“即按即说”键在必要时可以废弃不用。但尤其基于说话者104的视向信息来确定在语音识别中有待预计的领域。若驾驶员104将视线例如投向导航112的图标并开始说话，那么系统102就识别到了这一点且将输入例如解释为地址输入。若驾驶员104（或另一乘员）将视线例如投向音乐集合的图标并开始说话，那么输入被解释为音乐搜索。

图2示出了按照一个实施例的用于识别在车辆中针对语音控制的语境的设备200的方块图。设备200是图1中示出的语音对话系统的一部分或者通过车辆的线路系统（Leitungssystem）与或能与语音对话系统联接。设备200包括读入装置202、配属装置204和确定装置206。

读入装置202被构造用于检测关于车辆的乘员例如驾驶员的当前的视向的视向信息208。视向信息208按照一个实施例由车辆的内部空间摄像机210经由合适的接口以电信号的形式提供给读入装置202。

配属装置204被构造用于在使用合适的算法的情况下将视向信息208配属到车辆的内部空间中的多个观察区中的一个观察区。该观察区的以及可能时另外的观察区的位置数据按照实施例都被寄存在设备200中或车辆的与该设备200联接的装置中。配属装置204被构造用于生成关于由乘员当前观察到的观察区的观察区信息212以及将该观察区信息提供给确定装置206。

确定装置206被构造用于在使用观察区信息212的情况下确定关于配属于当前所观察的观察区的预先确定的语境的语境信息214，以及将语境信息通过合适的接口提供给用于求出语音对话系统的针对语音控制的语音控制信号的设备216。

图3示出了用于求出在车辆中针对语音控制的语音控制信号的设备216的一个实施例的方块图。设备216是图1中示出的语音对话系统的一部分或者通过车辆的线路系统与或能与语音对话系统联接且包括读入装置300和求出装置302。

读入装置300被构造用于读入语境信息214以及车辆的声音传感器306的音频信号304。按照一个实施例，读入装置300还被构造用于至少部分从与读入装置300联接的缓冲存储器或缓存器308中读入音频信号304，以便确保音频信号304以完整的形式以供语音控制使用。缓存器308被构造用于暂存预先确定的时间段内的音频信号304。为了这个目的，缓存器308例如可以被设计成环缓存器（Ringpuffer）。

求出装置302被构造用于在使用语境信息214和音频信号304的情况下产生和提供用于对车辆的与车辆的语音对话系统联接的装置进行语音控制的语音控制信号310。

图4是用于阐释基于视频的、用于自然的语音对话系统的语境识别的语音识别和视向识别的原理图。

车辆的内部空间摄像机210的光学的传感器对准一个或多个乘员104且被构造用于检测至少下述脸部区域：该脸部区域包含眼睛以及可选地包含唇。摄像机210在近红外范围内工作并且因此在下文中也被称为NIR摄像机210。除了该NIR摄像机210外，还可以设置其它用于检测车辆内部空间中的乘员104的NIR摄像机。

就图4中示出的实施例而言，NIR摄像机210的光学的传感器被构造用于检测乘员104的、在此为驾驶员104的眼部区域和唇部区域。摄像机210相应地检测乘员104的当前的视向400和当前的唇形402。就图4所示的实施例而言，驾驶员104沿视向400将视线投向车辆内部空间中的例如观察区403。观察区403可以是车辆的导航仪或用于车辆的导航仪的图标。

所述NIR摄像机210基于当前的视向400将视向信息以及基于当前的唇形402将唇形信息提供给用于识别在车辆中针对语音控制的语境的设备。

所述NIR摄像机210或另一摄像机能够可选地被构造用于也检测乘员104的头部姿势以及将合适的头部姿势信息提供给用于识别语境的设备。

至少一个NIR内部空间摄像机210以下述方式对准驾驶员104：使得脸的至少眼部区域能在图像区域中被看到。NIR摄像机210的计算单元借助图像分析和已经公开的方法由图像处理确定视向400和视向的在车辆中产生的3D位置。计算单元例如解释由光学的检测产生的灰度值图以及确定驾驶员的视向400以及可能时的唇形402和/或头部姿势。就图4所示的实施例而言，也计算唇形402和头部的涉及到车辆内部空间的整个位置。计算单元因此为至少所述驾驶员104确定了在何时以及在何处或沿何种方向在车辆中看且可选地说。

然后由用于识别语境的设备进一步解释关于3D视向400的信息，以便确定HMI系统的处于其下的图标或也确定车辆内部空间中能自由定义的区。若推导出的区允许了语音输入，那么在超过对这个区的一定的注视时间时触发一事件，该事件通知语音识别系统关于上下文和有待预计的语言领域的信息，以便必要时将为此专用的语音模型下载到语音识别系统的存储器中。

作为备选，借助于所说明的传感器配置也对多个人员进行评估。然后基于脸部识别相应地对视向400、头部姿势、唇分析或还有身份进行配属。这一点具有下述优点：不同的人员在不同的上下文中可以进行他们的语音输入。例如驾驶员104可以在导航语境下以及副驾驶员可以在信息娱乐语境下进行语音输入。

此外，按照实施例，关于乘员、身份和语音活动的空间信息可以通过接口提供给外部的服务，以便进一步改善它们的质量，例如与说话者相关的语音识别的质量。同样可以因此业已得出有关驾驶员注意力的结论。

此外，可以通过对视向400的分析使其它的驾驶员辅助系统对排队等候的询问做好准备或甚至主动呈送对车辆中或围绕车辆的当前的事件的建议。这些建议此外可以结合现代的音频管理单个地发送给各自的乘员或在相应地存在的显示器中显示。

此外，现在可以既根据情况、也就是说谁正好坐在车辆中，谁提出了问题等等，也基于注意力、也就是说对话提示被感觉到是干扰性的、唤醒性的等等，来控制个性化的基于音频的驾驶员信息服务，如“文本到话语（Text to Speech）”，例如自动朗读所到达的短信或电子邮件。

另一种备选方案规定，为语音输入规定车辆中的专门投入的对象或专门投入的区。例如投向信息显示器或还有仪表板上的显著的点的视线可以激活语音输入。随后，人们可以将这些模式称为“和我说话（Talk-to-Me）”或“看着说话（Look-to-Talk）”。

如已经提到的那样，可以在车辆内部空间中的不同的区域内采用多个NIR摄像机210用于车辆中的乘员观察。图5为此透视地示出了车辆的一个示例性的内部空间500，在内部空间中采用了八个NIR摄像机210。它们的在车辆内部空间内的各自位置在图中用点标记。

按照一个实施例，为了分析和监视后方的车辆乘员，前排座椅的在图5未示出的头枕也具有NIR摄像机210。重要的尤其是，脸部和眼部区域分别处在摄像机210的视野中，唇部区域以及整个头部也选择性地处在摄像机210的视野中，以便因此可以求出至少所述驾驶员的精确的视向以及可能时唇形和/或头部位置。

图6示出了用于识别在车辆中针对语音控制的语境的方法600的一个实施例的流程图。该方法600可以由在图2中示出的用于识别针对语音控制的语境的设备实施。

在读入602的步骤中读入关于车辆的乘员的当前的视向的视向信息。在配属604的步骤中将视向信息配属给车辆的内部空间中的观察区，以便获取关于由乘员当前观察的观察区的观察区信息。在确定606的步骤中，在使用观察区信息的情况下确定了关于配属于当前被观察的观察区的预先确定的语境的语境信息。

按照方法600的一个实施例，在配属604的步骤中从多个观察区中选出所述观察区。

配属604的步骤原则上可以根据以下来实施：是否在读入602的步骤中将视向识别为朝着为语音识别设计的区的视向。

按照方法600的另一个实施例，配属604的步骤仅当在读入602的步骤中超过了针对观察区的注视时间的预先确定的注视时间阈值时才被实施。然后也可以将车辆内部空间的仅一个特定的区域定义为观察区。

此外，方法还可以具有选出608的步骤，在该步骤中，在使用语境信息的情况下从车辆的语音对话系统的多个语音模型中选出一个用于语音控制的预先确定的语音模型。

在一种示例性的改型方案中，方法600可以具有在使用视向信息的情况下将乘员配属到不同的乘员类别中的一个乘员的配属610的步骤。然后在确定606的步骤中还在使用配属于乘员的乘员类别的情况下确定语境信息。

按照另一个实施例，方法600可以具有读入612关于乘员的当前的头部姿势的头部姿势信息的步骤和将头部姿势信息配属614给车辆的内部空间中的观察区的步骤，以便获取关于由乘员当前观察到的观察区的附加的观察区信息。然后在确定606的步骤中还在使用附加的观察区信息的情况下确定语境信息。

在另一种实施变型中，方法600可以具有读入616关于乘员的当前的唇形的唇形信息的步骤和将该唇形信息配属618给观察区的步骤，以便获取关于由乘员当前观察的观察区的第二附加的观察区信息。然后在确定606的步骤中还在使用第二附加的观察区信息的情况下确定语境信息。

方法600当然可以被实施用于车辆的多位乘员。然后在所描绘的实施变型之一中同时针对车辆的多位或全体乘员实施该方法顺序。

方法600能够实现对至少所述驾驶员，更佳地对全体车辆乘员的视向的例如基于摄像机的确定。可选地，也可以识别头部位置（Kopfstellung）和唇形。通过求出视向以及可选地求出头部姿势可以实现语境识别。结合对唇形的可选的时间上的分析可以实现对车辆内的语音活动作空间上的配属。

通过对视向的分析以及对上下文的推导，可以在背景中预先装载现代的NLP系统的语音模型，这些语音模型然后在识别语音输入时造成了明显更好的结果。此外可以由此加速语音识别效率，因为在语音识别内部的搜索空间受到限制且结果变得更为明确，因而在语音识别中的现代的加速办法，所谓的“精简技术（Pruning-Techniken）”，可以更好地作用。

图7在这种关系下示出了用于求出车辆中针对语音控制的语音控制信号的方法700的一个实施例的流程图。方法700可以由在图3中示出的用于求出车辆中针对语音控制的语音控制信号的设备实施。

在读入702的步骤中读入按照用于识别语境的方法600的一个实施变型而确定的语境信息以及读入车辆的声音传感器的音频信号。在求出704的步骤中在使用语境信息和音频信息的情况下求出语音控制信号。

按照方法700的一个实施例，在读入702的步骤中至少部分从用于暂存音频信号的缓存器中读入音频信号。

方法700可以与一种基于音频的用于说话者识别和/或语音识别的方法结合，以便既改善参与语音输入的车辆乘客的空间上的配属，也更好地识别对话的内容。另一个计算单元然后在音频信号的基础上既识别说话者的身份也识别所谈的内容。这一点如上面所说明的那样具有下述优势：不同的人员在不同的上下文中可以进行他们的语音输入。

方法600通过至少一个内部空间摄像机或另一能够实现视向的提取的传感器，求出了乘员的精确的视向以及可选地也求出了乘员的头部姿势和身份。通过唇部探测和对在图像中的这个区域的时间的分析可以求出，各人员是否说话。通过所有识别到的人员、它们的话语活动以及它们的空间配属的组合，就已经可以将乘员配属给一对话，但无需理解或识别对话的内容。

现在，为了识别有待预计的语言领域，在语音输入时使用投向图标或车辆内的一区的在该时间点（或就在前不久）存在的视向。传感器提供为此所需的视向在车辆中的3D位置。然后从这个位置推导出操作单元的相应的图标，例如导航标记或用于音乐集合的标记，也或更为普遍的区，如前窗玻璃或后窗玻璃。现在，在真正的激活之前，语音识别系统就因此已经可以为可能时排队等候的输入做好准备以及将相应的语音模型加载到存储器中。

这个过程可以永久地在基于视向识别的背景下进行。可选地，为此对头部姿势的识别例如在车辆内部空间中的区很大时也可以是足够的。真正的语音识别的激活在此可以如传统那样用即按即说键来实现。

作为备选，不过在此所说明的方案也允许基于对唇形的时间上的分析通过视向、视线停留时间以及语音探测的组合的激活。若视线在特定的区上的停留时间处在一定的阈值之上且唇分析表明了语音活动，那么音频信号可以被解释为语音输入，而不必为此按键。激活通过唇分析才变得稳固，因为否则的话在更长的注视时间下每个在这个时间点上支配的音频信号，例如在车辆内部空间中运行的音乐，也会被解释为语音输入。

为了使语音输入的开始在激活的这种形式下不丢失，按照一个实施例，在超过注视时间时就已经用每个存在的音频信号对小的环缓存器进行填充。然后若唇分析表明了语音活动，那么真正的语音缓存器被用更小的环缓存器的内容初始化并进一步填充，以便最后通过语音识别系统进行处理。语音输入的结束在此通过信号处理的经典的办法、所谓的“起止探测”来识别。

若基于视频的方法700现在与基于音频的方法结合，那么现在也可以额外理解与可能时多个参与者的对话的内容。由此还可以在必要时改善乘员辨认的精确度。

在此所说明的方法600、700可以和车辆传感装置和周围环境传感装置结合。若所述传感装置确定会有设置讨论暂停，以便例如能从驾驶员的角度更好地评估形势，那么驾驶员辅助系统就可以指出这一点。

在此所建议的利用视向在语音控制时同时激活和改善识别效率的方案，适用于有效地改善汽车领域中自然语音对话系统的性能。

若实施例包括在第一特征和第二特征之间的“和/或”连词，那么这一点作以下理解：实施例按照一种实施方式既具有第一特征也具有第二特征以及按照另一种实施方式或仅具有第一特征，或仅具有第二特征。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.德罗伊夫;
技术所有人：罗伯特·博世有限公司;
我是此专利的发明人