车辆感知语音识别系统和方法与流程

文档序号：11776302阅读：651来源：国知局

本技术领域一般涉及语音系统和方法，并且更具体地涉及将车辆情境信息考虑在内的语音系统和方法。

背景技术：

车辆语音系统对车辆乘员发出的语音执行语音识别。语音发声通常包括针对车辆的一个或多个特征或其他通过车辆可访问的系统的查询或命令。

在某些情况下，对于不同的环境情况而言，用户与语音系统或其他系统的通信可能是不同的。例如，当驾驶员正将注意力集中到具体的驾驶操纵时，可以延迟传送到语音系统的全部或一部分语音发声。因此，期望使用车辆语音系统以在各种驾驶条件期间以改进的方式与用户产生交互。还期望提供用于与自动车辆一起运行的改进的语音系统和方法。此外，结合附图以及前述的技术领域和背景技术，本发明的其他期望特征和特点通过以下详细说明和所附权利要求将会变得显而易见。

技术实现要素：

提供了用于为自动或半自动车辆处理语音的方法和系统。在一个实施例中，一种方法包括通过处理器接收由车辆产生的情境数据；基于情境数据，通过处理器确定对话传递方法；以及基于对话传递方法，通过处理器经由至少一个输出设备选择性地向用户生成对话提示。

在一个实施例中，一种系统包括非暂时性计算机可读介质。非暂时性计算机介质包括通过处理器接收由车辆产生的情境数据的第一模块。非暂时性计算机介质还包括基于情境数据通过处理器确定对话传递方法的第二模块。非暂时性计算机介质还包括基于对话传递方法通过处理器经由至少一个输出设备选择性地向用户生成对话提示的第三模块。

附图说明

在下文中将结合以下附图来描述示例性实施例，其中相同的附图标记表示相同的元件，并且其中：

图1是根据各种示例性实施例的与语音系统相关联的自动车辆的功能框图；

图2是根据各种示例性实施例的图1的语音系统的功能框图；以及

图3至图5是示出了根据各种示例性实施例的可以由车辆和语音系统执行的语音方法的流程图。

具体实施方式

以下的详细说明在本质上仅是示例性的，并且不旨在限制应用和用途。此外，并不希望受到在前述技术领域、背景技术、发明内容或以下详细说明中所呈现的任何明示或暗示的理论的限制。如本文所用，术语“模块”是指专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享的，专用的或成组的)和存储器、组合逻辑电路和/或提供所述功能性的其他合适部件。

首先参照图1，根据本发明的示例性实施例，示出了一种与车辆12相关联的语音系统10。车辆12包括感测车辆12的环境的元素或接收来自其他车辆或车辆基础设施的信息并控制车辆12的一个或多个功能的一个或多个传感器。在各种实施例中，车辆12是自动或半自动车辆。例如，自动车辆或半自动车辆可以通过在车辆上“自生成”的命令、指令和/或输入来进行控制。可选地或另外地，自动车辆或半自动车辆可以由车辆12外部的一个或多个部件或系统所产生的命令、指令和/或输入进行控制，所述车辆包括但不限于：其他自动车辆；后端服务器系统；位于与车辆12相关联的外部操作环境中的控制设备或系统；诸如此类。因此，在某些实施例中，可以使用车辆到车辆的数据通信、车辆到基础设施的数据通信和/或基础设施到车辆的通信来控制指定的自动车辆。

车辆12还包括人机接口(hmi)模块16。hmi模块16包括一个或多个输入设备18和一个或多个输出设备20，用于从用户接收信息并向用户提供信息。输入设备18包括用于捕获用户的语音发声或其他通信(例如，选择和/或手势)的麦克风、触摸屏、图像处理器、旋钮、开关和/或其它感测设备。输出设备20至少包括用于将对话提示或其他警告传送回用户的音频设备、视觉设备、触觉设备和/或其他通信装置。

如图所示，语音系统10包括在服务器22或其他计算设备上。在各种实施例中，服务器22和语音系统10可以远离车辆12定位(如图所示)。在各种其他实施例中，语音系统10和服务器22可以部分地位于车辆12上并且部分地远离车辆12(未示出)。在各种其他实施例中，语音系统10和服务器22可以仅位于车辆12上(未示出)。

语音系统10通过hmi模块16为车辆12的一个或多个系统提供语音识别和对话。语音系统10通过定义的应用程序接口(api)24与hmi模块16通信。语音系统10基于车辆12提供的情境来提供语音识别和对话。情境数据由车辆12的传感器或其他系统提供；并且根据情境数据确定情境。

在各种实施例中，车辆12包括情境数据获取模块26，其与车辆12的传感器或其他系统通信以捕获情境数据。情境数据指示出车辆12的自动化水平或模式、车辆状态(例如，停放、静止、移动、处于操纵中等)、能见度条件、道路条件(例如，雨天、雾天、起伏不平、繁忙等)、驾驶类型(例如，城市、高速路、乡村道路等)、驾驶员状态(例如，如相机指出的注意力分散或注意力集中、意识到车辆情况或没有意识、语音不清，语音中的情绪等)等。可以理解的是，情境数据和事件的这些示例仅仅是一些示例，因为列表可能是详尽无遗的。本发明并不限于这些示例。在各种实施例中，情境数据获取模块26捕获情境数据并实时地评估该情境数据。

情境数据获取模块26然后将情境数据传送到hmi模块16。作为响应，hmi模块可以任选地改变数据或添加信息到数据，并且通过api24将情境数据传送到语音系统10。然后基于情境数据更新语音系统10。

在语音系统10完成语音处理之后，语音系统10向车辆12的hmi模块16提供对话提示和传递方法。之后，对话提示和传递方法通过例如hmi模块16进一步进行处理，以通过车辆12的系统将提示传递给用户或安排动作。通过基于情境数据对传递方法进行调整，在各种驾驶场景期间改善了经由语音系统10与用户进行通信的效率。

现在参照图2并继续参照图1，更详细地示出了根据各种实施例的语音系统10。语音系统10通常包括情境管理器模块28、自动语音识别(asr)模块30和对话管理器模块32。可以理解的是，在各种实施例中，情境管理器模块28、asr模块30和对话管理器模块32可以实施为分开的系统和/或实施为一个或多个组合系统。

情境管理器模块28接收来自车辆12的情境数据34。情境管理器模块28通过将情境数据34存储在情境数据存储器36中并处理所存储的数据来选择性地设定语音处理和对话处理的情境。

在各种实施例中，情境管理器模块28处理所存储的情境数据34，以确定对话速度和/或时机、输入模态和/或输出模态。例如，在各种实施例中，情境管理器模块28对情境数据34进行处理，以确定通信的适当输入和/或输出模态被限制为不那么分散注意力的通信手段或者根本不会受到限制。例如，如果车辆正在特定操纵下运行或者道路条件较差，则输出通信模态可以限于不那么分散注意力的模态类型，例如但不限于，语音或其他音频警告类型；并且输入模态可以限于不那么分散注意力的模态类型，例如但不限于，语音和/或手势类型。在另一示例中，如果车辆是静止的或停放好的，则输入和输出通信模态类型不必受到限制，并且可以包括文本、触摸屏或其他交互式模态类型。

在另一示例中，情境管理器模块28处理情境数据34，以确定对话速度。对话速度可以和与语音识别相关联的时间段以及与语音提示传递相关联的时间段相关联。在各种实施例中，通过调整对话速度，可以增加、减少和/或延迟与各个时间段相关联的时机。例如，如果车辆12正在操纵下运行或驾驶员的注意力发生了分散，则对话速度可以指示语音提示传递速度和/或语音识别速度，其是更慢的速度(例如，一个或多个增加的时间段或一个或多个延迟的时间段)或是暂停的。在另一示例中，如果车辆12正在进入复杂的驾驶场景且同时驾驶员与语音系统接合(例如搜索音乐)，则可以暂停对话，直到情境数据表示场景变得缓和。在另一示例中，如果车辆是静止的或停放好的，则对话速度类型可以指示语音提示传递速度和/或语音识别速度，其是更快的速度或交互性更强的速度(例如，一个或多个更短的时间段)。

然后，将所确定的对话速度和/或时机、输入模态和/或输出模态与相关联的情境数据34一起存储在情境数据存储器36中，以便由asr模块30和/或对话管理器模块32用于进一步的语音处理。通过使用定义的api24，情境管理器模块28通过hmi模块16将指示已经设定了情境的确认37传送回车辆12。

在操作期间，asr模块30通过hmi模块16从用户接收语音发声38。asr模块30通常使用一个或多个语音处理模型和确定的语法来处理语音发声38，以产生一个或多个识别结果。

对话管理器模块32从asr模块30接收识别结果。对话管理器模块32基于识别结果确定对话提示41。对话管理器模块32还基于所存储的对话速度和/或时机、输入模态和/或输出模态动态地确定传递方法42。对话管理器模块32通过api将对话提示41和/或传递方法42传送回车辆12。hmi模块16然后将提示传送给用户并且基于传递方法从用户接收后续通信。

例如，对话管理器模块32对识别结果进行处理以确定对话。对话管理器模块32然后基于识别结果和存储在情境数据存储器36中的情境数据34从对话中选择适当的提示。对话管理器模块然后基于存储在情境数据存储器36中的情境数据34确定传递所确定的提示的传递方法。用于提示的传递方法包括但不限于提示的具体时机或速度和后续通信、传递模式、后续通信的接收模式。

现在参照图3至图5并继续参照图1至图2，流程图示出了根据各种示例性实施例的可以由语音系统10和/或车辆12执行的语音方法。根据本发明可以理解的是，方法内的操作顺序并不限于如图3至图5所示的顺序执行，但是可以根据本发明按照适用的一个或多个变化顺序来执行。可进一步理解的是，可以在不改变方法的精神的情况下增加或去掉方法的一个或多个步骤。

参照图3，流程图示出了可以执行来以情境数据34更新语音系统10的示例性方法。可以理解的是，该方法可以安排来以预定的时间间隔运行或者安排来基于事件运行。

在各种实施例中，方法可以开始于100。在110处，从车辆12(例如，直接从传感器、间接从其他控制模块或车辆的系统)获取情境数据34。在130处，情境数据从例如hmi模块16传送到语音系统10。对情境数据34进行处理，以确定将会最适合于车辆情境的模态、速度和/或时机。在140处，情境数据34和所确定的模态、速度和/或时机存储在情境数据存储器36中。在150处，生成确认37并通过hmi模块16将其传送回车辆12。在此之后，方法可以于160处结束。

参照图4，流程图示出了可以执行来通过使用存储在情境数据存储器36中的数据由语音系统10处理语音发声38的示例性方法。语音发声38由hmi模块16传送到语音系统10。可以理解的是，该方法可以安排为基于事件(例如，由用户说话创建的事件)运行。

在各种实施例中，方法可以开始于200。在210处接收语音发声38。在220处，基于语法和一个或多个语音识别方法来处理语音发声38，以确定一个或多个识别结果。随后在230处根据识别结果确定对话。然后在240处，基于存储在情境数据存储器36中的数据来确定提示和传递方法。然后在250处，通过hmi模块16将对话提示41和传递方法传送回车辆12。在此之后，方法可以于260处结束。

参照图5，流程图示出了可以由hmi模块16执行来处理从语音系统10接收的对话提示41的示例性方法。可以理解的是，该方法可以安排为基于事件(例如，基于接收的用户输入)运行。

在各种实施例中，方法可以开始于300。在310处接收对话提示41和传递方法42。在320处，根据传递方法，经由hmi模块16将对话提示310传送给用户。在此之后，方法可以于330处结束。

尽管在前述详细说明中已经呈现出了至少一个示例性实施例，但是应理解的是，也存在有许多变型。还应当理解的是，一个或多个示例性实施例仅是示例，并不期望以任何方式限制本发明的范围、适用性或配置。相反，前述详细说明将是为本领域技术人员提供实施这些一个或多个示例性实施例的便利指引。应当理解，在不脱离所附权利要求及其合法等同物所阐述的本发明范围的前提下，可以在元件的功能和布置方面作出各种改变。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：E·蒂泽凯尔-汉考克;S·D·卡斯特;D·P·波普
技术所有人：通用汽车环球科技运作有限责任公司
我是此专利的发明人