自适应交互语音系统的制作方法

文档序号：10536396阅读：532来源：国知局

自适应交互语音系统的制作方法
【专利摘要】在一个实施方案中，提供了一种用于经由语音交互而与驾驶员自适应地交互的装置。所述装置包括计算模型块和自适应交互语音系统。所述计算模型块被配置来从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数。所述计算模型块还被配置来基于所述驾驶员相关的参数生成驾驶员状态模型，并且基于所述车辆相关的参数生成车辆状态模型。所述计算模型块还被配置来基于所述车辆环境参数生成车辆环境状态模型。所述自适应交互语音系统被配置来基于如在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的信息上指示的驾驶员的情境和语境来生成语音输出。
【专利说明】
自适应交互语音系统
技术领域
[0001 ]如本文公开的方面一般涉及自适应交互语音系统。
【背景技术】
[0002]常规的语音交互系统可能会中断在交谈中的用户，这在人与人交谈中被认为是不恰当的。在其它情况下，语音交互系统可能在繁忙的驾驶状况中发出声音(或提供语音输出)。实质上，这种语音交互系统在其不期望或其不应该时发出声音，或以完全不恰当的声调发出声音。在汽车设置中，语音交互系统的这种“不体贴的行为”导致驾驶员关闭这些系统，或忽略输出提示，因为它们不是语境相关的。另外，这种语音交互系统像机械人的、仿真的(或非人类的)，并因此让人觉得不愉快和虚假。这是不幸的，因为语音交互系统被创建来模仿人与人之间的互动，但是它们在这方面是不成功的。
[0003]常规的语音交互系统可能不适应于用户的语境。例如，如果驾驶员正处于繁忙的驾驶状况中，车辆中的语音交互系统完全不改变它的声调或停止说话。在常规的语音交互系统中，相同的语音(言语、语速、声调等)用于所有的语音交互使用案例中，并且对提供给用户的不重要和重要的音频输出信息的语音通常相同的，以及对于及时和不太及时的信息的语音也是相同，等等。另外，常规的语音交互系统不是语境感知的，因此这种系统不理解何时插入驾驶员可能正与乘客进行的交谈中或何时避免打断交谈。

【发明内容】

[0004]在一个实施方案中，提供了一种用于经由语音交互而与驾驶员自适应地交互的装置。所述装置包括计算模型块和自适应交互语音系统。所述计算模型块被配置来从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数。所述计算模型块还被配置来基于所述驾驶员相关的参数生成驾驶员状态模型，并且基于所述车辆相关的参数生成车辆状态模型。所述计算模型块还被配置来基于所述车辆环境参数生成车辆环境状态模型。所述自适应交互语音系统被配置来基于如在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的信息上指示的驾驶员的情境和语境来生成语音输出。
[0005]在另一实施方案中，提供了体现在非临时性计算机可读介质的计算机程序产品，其被编程用于经由语音交互而与用户自适应地交互。计算机程序产品包括指令以从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数。计算机程序产品还包括指令以基于驾驶员相关的参数生成驾驶员状态模型，并且基于车辆相关的参数生成车辆状态模型。计算机程序产品还包括指令以基于车辆环境参数生成车辆环境状态模型。计算机程序产品还包括指令以基于如在驾驶员状态模型、车辆状态模型和车辆环境状态模型中的至少一个内包括的信息上指示的驾驶员的情境和语境提供语音输出。
[0006]在另一实施方案中，提供了一种用于经由语音交互而与驾驶员自适应地交互的装置。所述装置包括计算模型块和自适应交互语音系统。计算模型块被编程来从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数。计算模型块还被编程来基于驾驶员相关的参数生成驾驶员状态模型，并且基于车辆相关的参数生成车辆状态模型。计算模型块还被编程来基于车辆环境参数生成车辆环境状态模型。自适应交互语音系统还被编程来响应于在驾驶员状态模型、车辆状态模型和车辆环境状态模型中的至少一个内包括的指示驾驶员正经历高认知负荷的信息，避免生成语音输出以防止驾驶员注意力分散。
【附图说明】
[0007]本公开的实施方案被指出具有随附权利要求书中的特殊性。然而，通过参考结合附图的以下详细描述，各种实施方案的其它特征将变得更明显且将得到最好理解，其中:
[0008]图1描绘根据一个实施方案的自适应交互语音系统；
[0009]图2描绘根据一个实施方案的用于监测响应并用于基于所述响应使语音输出适应于驾驶员的方法；
[0010]图3描绘根据一个实施方案到一个实施方案的第一使用案例，所述第一使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音生成至驾驶员；
[0011]图4描绘根据一个实施方案到一个实施方案的第二使用案例，所述第二使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；
[0012]图5描绘根据一个实施方案到一个实施方案的第三使用案例，所述第三使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；
[0013]图6描绘根据一个实施方案到一个实施方案的第四使用案例，所述第四使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；
[0014]图7描绘根据一个实施方案到一个实施方案的第五使用案例，所述第五使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；
[0015]图8描绘根据一个实施方案到一个实施方案的第六使用案例，所述第六使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；
[0016]图9描绘根据一个实施方案到一个实施方案的第七使用案例，所述第七使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员；以及
[0017]图10描绘根据一个实施方案到一个实施方案的第八使用案例，所述第八使用案例监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员。
【具体实施方式】
[0018]根据需要，本文公开了本发明的详细实施方案;然而，将理解，所公开的实施方案仅为本发明的示例，其可体现为各种替代形式。附图不必按比例绘制;一些特征可被夸大或最小化，以示出特定组件的细节。因此，本文公开的具体结构和功能细节不被解译为限制性的，而仅作为用于教导本领域的技术人员多方面地采用本发明的代表性基础。
[0019]本公开的实施方案通常提供多个电路或其它电气设备。对电路和其它电气设备的所有引用以及各自提供的功能不意图限制于仅包括本文所图示并描述的那些。虽然可将特定标签分配给所公开的各种电路或其它电气设备，但是这种标签不旨在限制用于电路和其它电气设备的操作的范围。这种电路和其它电气设备可彼此组合和/或以基于所期望的特定类型的电气实施方式的任何方式分离。应认识到，本文公开的任何电路或其它电气设备可包括任何数量的微处理器、集成电路、存储器设备(例如，FLASH、随机存取存储器(RAM)、只读存储器(ROM)、电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或其其它合适的变体)和软件，其彼此协作以执行本文所公开的操作。此外，电气设备中的任何一个或多个可被配置来执行计算机程序，所述计算机程序产品体现在被编程以执行如公开的任何数量的功能的非临时性计算机可读介质中。
[0020]一般而言，本公开通常涉及口语对话系统、自适应系统、语境感知系统、情绪表达言语合成和听觉警戒。本公开将能够使语音交互适应驾驶员的情境和语境的自适应交互系统提供给车辆的驾驶员。这包括但不限于，在高认知负荷时停止响应以及灵活地改变语音的声调来传达不同条件。
[0021]本公开的方面可通过提供有帮助的安全特征来使驾驶员更安全，在该安全特征中，不同类型的语音交互与不同的语音声调相关联，使得驾驶员能够更快地识别信息的重要性和及时性。另外，本公开的各个方面增加到令人愉快的体验，因为使用各种语音声调为驾驶员创建与人与人互动类似的更令人激动和更吸引人的体验。进一步地，本公开的方面可提高驾驶能力，因为情境和语境感知系统通过对驾驶员的状态以及车辆的外部情况敏感(或协调一致)来降低驾驶员的认知负荷。
[0022]图1描绘包括被定位在车辆12中的自适应交互语音系统10(下文称为“系统10”)的装置。系统10包括定位在其上的任何数量的电气设备，以执行用于执行如本文所述的操作的指令。应认识到，装置可结合任何运输介质使用，诸如汽车、摩托车、飞机或船只等。装置还包括计算模型块(或电路)14、传感器处理块(或电路)16和多个传感器18。一般而言，系统10被配置来基于驾驶员24的情境和语境来调整与车辆12的驾驶员24的语音交互。驾驶员24与系统10之间的语音交互通过使用麦克风20、21和扬声器22来促进。例如，每个麦克风20、21接收来自驾驶员24的传入音频信号，并将传入音频信号提供给系统10以用于处理。扬声器22基于系统10提供的信息将语音输出传输到驾驶员24。
[0023]系统10被配置来评估驾驶员24的认知负荷，并且可在驾驶员24被检测到处于高认知负荷下时避免与驾驶员24连接。额外地，系统10还可在不同条件下灵活地改变其传出的音频输出的声调以传达至驾驶员24。这些条件通常基于与驾驶员24、车辆12和环境相关的感测参数。
[0024]多个传感器18通常被配置来感测与驾驶员24相关的各个方面，诸如他/她的手部26(例如，手势)、手指28(例如，手指手势)、头部30、眼睛注视、面部表情、语音声调等。具体而言，多个传感器18通常包括麦克风20、21。例如，每个麦克风20、21可接收来自驾驶员24的语音输入，并且将该信息提供给传感器处理块16以确定(i)驾驶员何时忙于交谈(例如，检测到常规的话轮转换交谈，诸如驾驶员24忙于和乘客交谈或驾驶员24正在说话)，以及(ii)驾驶员24何时处于压力下或何时监测驾驶员24的情绪状态和警戒级别。
[0025]多个传感器18还可包括红/蓝/绿(RBG)成像器、深度传感器、红外线角膜反射传感器、以及温度和握力传感器。RBG成像器将信息提供到与驾驶员24的头部位置和定向对应的传感器处理块16。深度传感器将信息提供到与手指手势和头部姿势对应的传感器处理块
16。红外角膜反射传感器通常结合传感器处理块16使用，以跟踪驾驶员眼睛的眼睛注视。
[0026]此外，多个传感器18还可感测与参数32相关的各种车辆，诸如油门位置、离合器、档位选择(例如，传动状态(停车挡、倒档、空档、驱动档、低速档))、制动踏板、方向盘转角等。多个传感器18将与上述车辆相关的参数32对应的信息传输到传感器处理块16以供处理。传感器18还可包括全球定位系统(GPS)相关机制或其它位置传感器，以提供车辆12的GPS坐标。传感器18还可包括惯性和磁性传感器，以提供车辆定向和动态信息。多个传感器18将与车辆位置、定向和动态信息对应的信息传输到传感器处理块16以供处理。
[0027]多个传感器18被配置来使用基于飞行时间、激光等(物体检测和情景分析)的深度传感器、RGB传感器(或摄像头)(例如，用于物体识别)、热/运动传感器(例如，用于行人检测)、和雷达/激光雷达传感器(例如，低能见度感测和障碍物识别等)中的一个或多个来感测车辆12外部的环境，诸如静止和运动物体。多个传感器18将与环境对应的信息传输到传感器处理块16以供处理。多个传感器18还可包括虚拟传感器，其用于将与额外的环境方面(诸如当地天气、交通等)对应的信息传输到传感器处理块16以供处理。
[0028]传感器处理块16将从多个传感器18接收到的信息提供到计算模型块14。计算模型块14采用具有指令的建模软件，所述指令在定位于其上的任何数量的电气设备(未示出)上执行，以创建并持续更新(i)基于驾驶员24的感测信息驾驶员状态34、(ii)基于车辆12的感测信息的车辆状态36、和(i i i)基于感测的环境信息的环境状态38的各种模型。
[0029]例如，驾驶员状态34的模型可包括生理、认知和/或情感状态(例如，认知负荷、应力水平、警戒、和情绪状态)。这些因素基于与驾驶员24相关的感测信息，诸如驾驶员24的常规设置；驾驶员24的头部位置、定向和面部特征；驾驶员24的手指手势和手势；驾驶员24的眼睛注视、和驾驶员24在方向盘上的温度和握力(例如，应力水平)。
[0030]车辆状态36的各种模型可包括最大的可用车辆性能(例如，考虑车辆维护级别、轮胎条件、可用握力和冲击条件)。车辆状态36的模型还可包括由多个传感器18检测到的方面，诸如但不限于下列项中的任何一个:油门位置、离合器位置、档位选择、制动踏板等。环境状态38的各种模型通常包括与车辆12的外部环境相关的方面，诸如靠近车辆12的温度和/或物体。这些物体可包括车辆、树、车道指示灯、高速公路屏障等。
[0031]系统10通常包括对话管理器块40、表达性言语和合成器块42、和言语识别器块44。系统10利用与麦克风20、21和扬声器22有关的信号处理技术，诸如麦克风回音消除和用于定向信号传输或接收的波束成形。虽然未图示，但是麦克风阵列和放大器可配备有系统10。
[0032]对话管理器块40通常被配置来确定驾驶员24忙于哪个对话。例如，对话管理器块40可发起与驾驶员24的语音交互，该语音交互涉及如基于驾驶员状态34、车辆状态36和环境状态38的模型指示的气候控制选择、音频选择和安全警告。对话管理器块40被配置来生成与具有以下特征的言语交互:不同级别的冗余度/简洁度(例如，冗余形式可为“2英尺内即将有交通堵塞，您可能需要减速”；简洁形式可为“交通堵塞!减速!”)；正式度/非正式度(例如，正式的言语短语将是“请注意，在下个十字路口将向左侧行驶!”，而非正式的言语短语可能是当心:在下个路口左转)；和更加高级的语言特征，诸如合成语音的文化归属(例如，所生成的对话可能遵循特定于文化或种族人群的语言约定)。
[0033]言语和声音合成器块42被配置来生成语音响应，虽然该语音响应具有相同的语义内容，但是其可根据不同的言语级别而改变，诸如(i)合成语音的总语速、音量和音高，(ii)声音情感参数，这在下文将进行更详细描述，(iii)非口头和非语言发声、副语言呼吸(例如，笑声、咳嗽声、哨声等)、和(iv)非言语改变声音(例如，嘟嘟声、啾啾声、滴答声等)。这些语音响应在其感知的情绪效果方面各不相同，例如，相同的语义内容可使用对用户轻柔而婉转、急促而生硬的言语来呈现。感知的情绪效果中的这些变化可通过使用具有轻柔音或硬音、以及多音节或生硬节律的词语而生成。例如，将由温和的多音节节律加强的音(诸如‘1、‘m’和‘η’)和长元音或双元音解读为比具有硬音(诸如‘g’和‘k’)、短元音和生硬节律的i司 +吾 $子。i吾白勺.S； ( m 女口，女口 $ http://grammar.about.eom/od/rs/g/soundsymboli smterm.htm中描述)提供了尝试通过使言语中的特定声音序列与特定含义关联而灌输影响的多种启发法。
[0034]如上所述的声音情感参数通常包括(i)音高参数(例如，口音形状、平均音高、调型斜率、最终降低和音高范围定时参数(例如，语速和应力频率)、(iii)语音质量参数(例如，气息声、辉度、喉化音、音量、停顿中断和音高连续性)、和(i V)发音参数。言语识别器44被配置来接收/理解驾驶员24的语音。
[0035]在额外的自适应交互系统与系统10同在的情况下(例如，当便携式通信设备(诸如手机等)存在并连接到也配置有语音交互系统的头单元时)，系统10被配置来仲裁、优先考虑并强调额外的自适应交互系统，并传输抑制额外的自适应交互系统的命令，以阻止驾驶员24对于多个语音提示/交谈感到困惑(例如，多个系统将语音信息提供给驾驶员24)。
[0036]一般而言，系统10被配置来使用在多个传感器18处感测并由传感器处理块16处理的信息，以创建并持续更新(i)驾驶员状态34(例如，生理、认知和情感方面(或认知负荷、应力水平、警戒和情绪状态车辆状态36(例如，最大的可用车辆性能等)、和(iii)环境38(例如，靠近车辆12或在车辆12的道路上的物体)的模型。对话管理器块40被配置来使用驾驶员状态34的模型、车辆状态36的模型和环境38的模型，以基于交互的类型(例如，一般信息、导航指令、迫切危险警戒等)而改变语音输出的类型和声调。应认识到，除了可听言语，语音输出还可包括非语言发声，诸如笑声、呼吸声、迟疑声(例如，“呃”)和/或非口头同意(例如，“啊哈”)。一般而言，言语合成器42可以改变语音声调，以允许语音输出更具表达性，且更语境相关。
[0037]例如，对话管理器块40可提供(i)以正常声调(例如，中音量、中速)提供的基本方向和建议;和(ii)基于危险的靠近程度而用不同的语音声调给出的安全警告(例如，当危险越靠近时，越大声)，其中可能混有适用于警告条件的警告音(嘟嘟声)，以及(iii)其它类型的信息，其可使用允许驾驶员将该类型的信息与特定语音声调类型关联的特定语音声调来传达。应认识到，系统10可使用驾驶员状态36、车辆状态38和环境状态38的所生成模型来确定在当前时刻与驾驶员24交互是否合适，或停止语音交互直到高认知负荷状况已经过去是否可取。一般而言，对话管理器块40为系统10创建语音响应的语义级别(本质上为文本串)，且随后将文本串传输到言语合成器块42。对话管理器块40告诉言语合成块42该说什么。同时(与此并行)，对话管理器块40指示言语合成器块42有关如何使用较低级别的情感属性(诸如语音声调、语音类型等)来呈现特定的文本串。简而言之，对话管理器块40创建响应(“是什么”和“怎么做”二者)，但是言语合成器块42基于来自对话管理器块40的指令来呈现响应。
[0038]图2描绘根据一个实施方案的用于与驾驶员24进行自适应地语音交互的方法80。
[0039]一般而言，操作82、84和86与操作90、92、94、96、98、100、102和104并行执行。操作82、84和86独立于操作90、92、94、96、98、100、102和104。
[0040]在操作82和操作84中，多个传感器18监测或感测驾驶员相关的方面、车辆相关的方面和环境相关的方面，以及传感器处理块16处理所感测的信息。例如，所感测和处理的驾驶员相关的方面可包括手/手指手势；头部位置和头部定向；眼睛注视；用于测量应力和情绪状态的面部表情;用于测量应力、情绪状态和警戒级别、驾驶员是否忙于交谈(例如，检测常规的话轮转换交谈，诸如驾驶员忙于与乘客交谈或驾驶员正在说话)的语音声调。
[0041]所感测和处理的车辆相关的方面可包括车速；油门、离合器和/或制动踏板的位置;档位选择(或传动状态)；方向盘转角；车辆12的位置(例如，经由GPS坐标)；车辆12的定向和车辆动态信息。所感测和处理的环境相关的方面可包括对相对于车辆12的静态和移动物体的检测;对车辆12附近的行人的检测;车辆12正经历的有关车辆12的低能见度条件(除了当地天气、交通等之外)。应认识到，所感测的驾驶员相关的方面、所感测的车辆相关的方面和所感测的环境相关的方面动态地改变，所以此类方面由计算模型块14动态地更新。
[0042]在操作86中，计算模型块14响应于所感测的驾驶员相关的方面、所感测的车辆相关的方面和所感测的环境相关的方面而持续地更新驾驶员状态34、车辆状态36和环境状态38的模型。
[0043]在操作90中，系统10确定存在与驾驶员24交谈的需要。如果该条件为真，则方法80进行到操作92。例如，系统10可从驾驶员24接收语音输入，并将呈到驾驶员24的语音输出形式的传出数据传输到语音输入。系统10还可基于将对关注事件的警告或通知传达到驾驶员24的需要而向驾驶员24提供语音输出。
[0044]在操作92中，系统10生成最初的文本串，以呈语音输出的形式提供给驾驶员24。
[0045]在操作94中，系统10咨询计算模型块14，以评估所感测的驾驶员相关物体、所感测的车辆相关物体和所感测的环境相关的方面的当前状态，从而确定语境感知(例如，驾驶员的认知负荷、当前车辆12条件和车辆12周围的环境)。
[0046]在操作96中，对话管理器块40响应于确定如在操作94中阐述的语境感知而确定语音输出和对应的声调以提供给驾驶员24。
[0047]在操作98中，系统10(或言语合成器块42)生成言语发言(例如，语音输出和对应的声调)，并经由扬声器22将言语发言传输到驾驶员24。换言之，系统10可听见地将语音输出和对应的声调传输到驾驶员24。
[0048]在操作100中，系统10再一次确定是否需要继续与驾驶员24交谈。如果该条件为真，则方法80移至操作102。如果否，则方法80移回到操作92。
[0049]在操作102中，系统10(例如，言语识别器44)经由麦克风20接收来自驾驶员24的语音输入。言语识别器44监测来自驾驶员24的语音输入，以监测驾驶员24的应力水平。
[0050]在操作104中，系统10(例如，对话管理器块40)规划下一部分的对话。例如，对话管理器块40可响应于接收自驾驶员24的语音输入而确定合适的文本串以进行提供。文本串可与在语音输入(例如，对改变温度的请求的响应、对识别车辆的当前无线电台设置的请求的响应、对改变无线电台设置的请求的响应等)中提出的话题或主题有关。然后，方法80移至操作90以供执行。
[0051 ] 一般而言，出于各种原因(例如，参见操作90)，方法80首先开始与驾驶员24交谈(例如，参见操作96) ο在方法80(或系统10)已呈现语音输出之后(例如，参见操作98)，方法80(或系统10)将决定是否需要监听驾驶员24是否被期望做出响应(例如，参见操作102)。如果是，则交换变成实际对话(或循环)。
[0052]为了简化，系统10(和方法80)与驾驶员24交谈，并且如果系统10(和方法80)需要对驾驶员24做出响应，则系统10(和方法80)等待驾驶员的语音(参见操作102)。基于驾驶员24所说的内容，系统规划下一部分的对话。应认识到，言语识别器44(和麦克风20)执行语音识别。麦克风21并行执行语音声调识别。进一步认识到，无论驾驶员24与谁交谈(例如，驾驶员24在通电话、驾驶员24与乘客交谈等)，麦克风21分析语音声调。该类型的监听不是言语识别，而是语音声调识别。作为语音声调识别的一部分，麦克风20和/或所感测的传感器处理块16用于从韵律学等识别驾驶员的情绪状态。这意味着，麦克风20和/或传感器处理块16将不仅识别所说的内容，而且识别如何呈现或感知所说的内容。
[0053]图3描绘根据一个实施方案的第一使用案例120，其监测驾驶员相关的方面、车辆相关的方面和环境相关的方面，并且基于所监测的方面将语音输出生成至驾驶员。第一使用案例120通常与以下情景对应:其中驾驶员24退出停车点，但是在车辆12后方的自行车上有个孩子，该自行车对驾驶员24不清晰可见。
[0054]在操作122中，多个传感器18监测驾驶员相关的方面、车辆相关的方面和/或环境相关的方面，以及传感器处理块16处理此类信息。例如，多个传感器18可(i)经由指向后方的摄像头(或任何其它类型的传感器，诸如热传感器、运动传感器、声学传感器等)检测定位在车辆后方的孩子的存在；(ii)基于信息或能见度传感器是否位于汽车上检测出能见度条件可能不清晰；以及(iii)确定关闭的车辆速度不关于车辆12后方处的孩子的位置而降低。
[0055]在操作124中，计算模型块14从传感器处理块16接收经处理的信息:(i)物体定位在车辆的后方；(ii)基于天气信息，能见度条件不清晰；以及(iii)车辆的关闭速度不关于物体相对于车辆12的位置而降低。计算模型块14将反映上述条件，并将该语境提供给系统10。
[0056]在操作126中，系统10接收来自计算模型块14的语境，并且以非常坚定、略响亮的声调生成驾驶员24后方定位有障碍物的语音输出。
[0057]图4描绘根据一个实施方案的第二使用案例130，其监测驾驶员相关的方面、车辆相关的方面和/或环境方面，并且基于所监测的方面将语音输出生成至驾驶员。第二使用案例130通常与以下情景对应:其中驾驶员24以相对快的速度驱出车道，并且车道由遮掩主干道视野的树围绕。在这种情况下，系统10需要指示驾驶员24减速。
[0058]在操作132中，多个传感器18监测驾驶员相关的方面、车辆相关的方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18(i)使用指向后方和前方的摄像头(或雷达传感器)检测车辆12附近的树的存在，和(ii)当车辆移动通过车道时，监测车辆12的速度和方向/定向。
[0059]在操作134中，计算模型块14从传感器处理块16接收经处理的信息:(i)树被定位在车辆12周围，以及(ii)车辆12的速度和定向。计算模型块14将反映上述条件，并将该语境提供给系统24。
[0060]在操作136中，系统10接收来自计算模型块14的语境，并将语音输出生成至驾驶员24，以当驾驶员24向车道移动时，指示驾驶员24减速。
[0061]替代地，该第二使用案例130还可包括以下情景:其中多个传感器18中的一个或多个确定主干道是否畅通(例如，可看穿树的传感器，诸如运动传感器或已访问主干道的将信息提供给车辆12的传感器)。在这种情况下，车辆12可确定驾驶员24是否可继续。例如，当主干道畅通时，系统10可将语音输出“确保安全移动”提供给驾驶员24。
[0062]图5描绘根据一个实施方案的第三使用案例150，其监测驾驶员相关的方面、车辆相关的方面和/或环境方面，并且基于所监测的方面将语音输出生成至驾驶员24。第三使用案例150通常与以下情景对应:其中驾驶员24试图切换车道，以及存在也进入相同车道的另一车辆。在这种情况下，必须通知驾驶员24何时改变车道是安全的，以及通知驾驶员24何时改变车道是不安全的。
[0063]在操作152中，多个传感器18监测驾驶员相关方面、车辆相关方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18(i)检测到车辆12意图改变车道，以及(ii)检测另一车辆12已进入车辆12意图改变到的车道。
[0064]在操作154中，计算模型块14从传感器处理块16接收经处理的信息:(i)车辆12意图改变车道，以及(ii)另一车辆12已进入车辆12意图改变到的车道。计算模型块14将反映上述条件，并将该语境提供给系统1。
[0065]在操作156中，系统10接收来自计算模型块14的语境，并以响亮而危险的声调生成进入车道是不安全的语音输出，并以令人愉悦的声调生成何时安全进入车道的语音输出。
[0066]图6描绘根据一个实施方案的第四使用案例170，其监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员24。第四使用案例170通常与以下情景对应:其中驾驶员24的手部26出汗，这表明驾驶员24感到紧张或处于高认知负荷下。在这种情况下，系统10避免生成并传输语音输出至驾驶员24。
[0067]在操作172中，多个传感器18检测驾驶员相关的方面、车辆相关的方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18(例如，位于方向盘上的温度、握力传感器和皮电反应传感器)检测驾驶员24的手部26超过预定温度，驾驶员24握住方向盘所使用的力超过预定力级别，和/或驾驶员的手比正常情况下更具传导性，即出汗。
[0068]在操作174中，计算模型块14从传感器处理块16接收经处理的信息:驾驶员24的手部26超过预定温度，驾驶员24握住方向盘所使用的力超过预定力级别，和/或驾驶员的手比正常情况下更具传导性。计算模型块14将反映上述条件，并将该语境提供给系统24。
[0069]在操作176中，系统10接收来自计算模型块14的语境，并且避免提供语音输出，直到驾驶员24的应力水平已降低。应认识到，在车辆12的驾驶员24被检测出处于潜在危害的状态的情况下，系统10以对应的声调提供语音输出。
[0070]图7描绘根据一个实施方案的第五使用案例190，其监测驾驶员相关的方面、车辆相关的方面和环境方面，并且基于所监测的方面将语音输出生成至驾驶员24。第五使用案例190通常与以下情景对应:其中车辆12高速行驶且车辆12行驶的车道变窄，这迫使驾驶员24密切注意他/她的驾驶。
[0071]在操作192中，多个传感器18监测驾驶员相关的方面、车辆相关的方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18(例如，指向前方的摄像头和车速传感器)检测道路的宽度以当前速率减小额外地，多个传感器18 (例如，位于方向盘上的温度和握力传感器)检测到驾驶员24的手部26超过预定温度，并且驾驶员24握住方向盘所使用的力超过预定力级别，这表明驾驶员24正处于高认知负荷下。
[0072]在操作194中，计算模型块14从传感器处理块16接收经处理的信息:道路的车道以高速率减小，以及驾驶员24的手部26超过预定温度，并且驾驶员24握住方向盘所使用的力超过预定力级别。计算模型块14将反映上述条件，并将该语境提供给系统10。
[0073]在操作196中，系统10接收来自计算模型块14的语境，并避免或停止提供语音输出，直到驾驶员对驾驶的应力水平和认知负荷降低。
[0074]图8描绘根据一个实施方案的第六使用案例210，其监测驾驶员相关的方面、车辆相关的方面和/或环境方面，以及基于所监测的方面生成语音输出至驾驶员24。第六使用案例210通常与以下情景对应:其中驾驶员的注视偏向车辆12的左侧，并且在车辆12的右侧外部存在驾驶员无法看清的障碍物(例如，轮胎碎片)。
[0075]在操作212中，多个传感器18监测驾驶员相关的方面、车辆相关的方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18(例如，红外角膜反射传感器)监测驾驶员24的眼睛注视，并且(例如，雷达传感器)检测到车辆12的右侧存在障碍物。
[0076]在操作214中，计算模型块14从传感器处理块16接收经处理的信息:驾驶员的眼睛注视偏向左侧，而物体位于车辆12的右侧上。计算模型块14将反映上述条件，并将该语境提供给系统24。
[0077]在操作216中，系统10从计算模型块14接收语境，以及以非常响亮的声调生成语音输出并降低任何音乐的音量，并且使用高语速告知驾驶员24:在他/她前方的车道中(例如)50英尺内存在轮胎。
[0078]图9描绘根据一个实施方案的第七使用案例230，其监测驾驶员相关的方面、车辆相关的方面和/或环境方面，并且基于所监测的方面将语音输出生成至驾驶员24。第七使用案例230通常与以下情景对应:其中将手机(例如，智能电话)连接到车载导航系统。车载导航系统希望向驾驶员24提供方向，且同时，手机准备向驾驶员24提供可听消息:文本消息已收到。这些两个系统竞争驾驶员的听觉，因为二者意图对驾驶员说话。
[0079]在操作232中，多个传感器18监测驾驶员相关的方面，车辆相关的方面和/或环境方面，以及传感器处理块16处理此类信息。例如，多个传感器18确定车辆12中具有准备提供传入文本消息的可听通知的手机。一般而言，手机可能可选地连接到车载导航系统，以在车辆12中提供无需操作的手机。手机配置有代码(和硬件)，其实质上在呈现口语短语之前将警告或预警提供给装置。进一步地，车载导航系统可能可选地耦接到系统10，以检测手机和传入文本的存在。在该情景下，多个传感器18中的一个或多个是虚拟的。系统10从手机接收指示其想对驾驶员说话的预警，以及系统从车载导航系统接收指示车载导航系统也期望对驾驶员24说话的预警。
[0080]在操作234中，计算模型块14从传感器处理块16接收经处理的信息:手机想要提供传入文本消息的可听通知，而车载导航系统向驾驶员24提供方向。计算模型块14将反映上述条件，并将该语境提供给系统24。
[0081]在操作236中，系统10接收来自计算模型块14的语境，并抑制手机的语音系统，以使得车载导航系统向驾驶员24提供方向。然后，在车载导航系统已向驾驶员24提供方向之后，系统10可警告手机提供可听通知。一般而言，手机被配置来避免向驾驶员24提供可听信号，除非车辆12允许手机向驾驶员24提供可听信号。这可在操作系统级上或音频级上完成。在后一种情况下，例如，如果手机希望使用汽车的扬声器22对驾驶员说话，则系统10不可简单地通过扬声器22提供对手机的控制，直到导航系统已经使用完汽车的扬声器22且已通过汽车的扬声器22释放控制为止。
[0082]图10描绘根据一个实施方案的第八使用案例250，其监测驾驶员相关的方面、车辆相关的方面和/或环境方面，并且基于所监测的方面将语音输出生成至驾驶员24。第八使用案例210通常与以下情景对应:其中驾驶员24忙于与车辆12中的乘客的交谈，或经由手机与另一用户的交谈。
[0083]在操作252中，多个传感器18(例如，车辆12中的麦克风或经由直接来自手机的指示驾驶员正在通话的消息)感测音频数据，所述音频数据指示驾驶员24忙于与车辆12中的乘客交谈，或经由手机与另一用户交谈。
[0084]在操作254中，计算模型块14从传感器处理块16接收经处理的信息:驾驶员24忙于交谈。计算模型块14将反映上述条件，并将该语境提供给系统10。
[0085]在操作256中，系统10接收来自计算模型块14的语境，并避免或停止提供语音输出以尊重交谈的话轮转换，而不中断交谈。系统10由于其对礼貌的语境感知和理解而有效地成为交谈的一部分。
[0086]虽然上文描述了示例性实施方案，但是不意味着这些实施方案描述本发明的所有可能的形式。相反，在说明书中使用的词是描述性而非限制性的词，并且应理解，在不脱离本发明的精神和范围的情况下，可做出各种改变。额外地，各种实施方案的特征可组合以形成本发明的进一步实施方案。
【主权项】
1.一种用于经由语音交互而与驾驶员自适应地交互的装置，所述装置包括: 计算模型块，其被配置成: 从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数；基于所述驾驶员相关的参数生成驾驶员状态模型；基于所述车辆相关的参数生成车辆状态模型；以及基于所述车辆环境参数生成车辆环境状态模型;和自适应交互语音系统，其被配置成基于在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的信息上指示的驾驶员的情境和语境生成语音输出。2.根据权利要求1所述的装置，其中所述自适应交互语音系统被配置成通过基于所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的所述信息改变所述语音输出的声调，来基于所述驾驶员的情境和语境生成所述语音输出。3.根据权利要求1所述的装置，其中所述自适应交互语音系统被配置成基于所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的指示所述驾驶员正经历高认知负荷的所述信息来避免生成所述语音输出，以防止驾驶员注意力分散。4.根据权利要求1所述的装置，其中所述驾驶员状态模型包括所述驾驶员的生理状态、所述驾驶员的认知负荷、所述驾驶员的应力水平、所述驾驶员的警戒状态和所述驾驶员的情绪状态中的至少一个。5.根据权利要求1所述的装置，其中所述车辆状态模型包括油门位置、离合器位置、传动档位选择、制动踏板状态、车速和轮胎条件中的至少一个。6.根据权利要求1所述的装置，其中所述车辆环境状态模型包括天气和被定位在所述车辆外部的物体中的至少一个。7.根据权利要求1所述的装置，其中所述自适应交互系统还被配置成生成所述语音输出以包括各种级别的冗余度和正式度。8.根据权利要求1所述的装置，其中所述多个传感器包括被配置成接收来自驾驶员的语音输入并对所述语音输入执行语音声调识别的至少一个麦克风。9.一种用于经由语音交互而与驾驶员自适应地交互的装置，所述装置包括: 计算模型块，其被编程以: 从多个传感器接收驾驶员相关的参数、车辆相关的参数和车辆环境参数；基于所述驾驶员相关的参数生成驾驶员状态模型；基于所述车辆相关的参数生成车辆状态模型；基于所述车辆环境参数生成车辆环境状态模型;和自适应交互语音系统，其被编程来响应于在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的至少一个内包括的指示所述驾驶员正经历高认知负荷的信息，避免生成语音输出以防止驾驶员注意力分散。10.根据权利要求9所述的装置，其中所述自适应交互语音系统还被编程来基于在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的所述至少一个内包括的所述信息上所指示的驾驶员的情境和语境，来提供语音输出。11.根据权利要求10所述的装置，其中所述自适应交互语音系统还被编程以通过基于在所述驾驶员状态模型、所述车辆状态模型和所述车辆环境状态模型中的所述至少一个内包括的所述信息改变语音输出的声调，来基于所述驾驶员的情境和语境提供所述语音输出。12.根据权利要求11所述的装置，其中所述驾驶员状态模型包括所述驾驶员的生理状态、所述驾驶员的认知负荷、所述驾驶员的应力水平、所述驾驶员的警戒状态和所述驾驶员的情绪状态中的至少一个。13.根据权利要求11所述的装置，其中所述车辆状态模型包括油门位置、离合器位置、传动档位选择、制动踏板状态、车速和轮胎条件中的至少一个。
【文档编号】G10L15/22GK105895095SQ201610083057
【公开日】2016年8月24日
【申请日】2016年2月6日
【发明人】A.朱内加, S.马蒂, D.迪森索
【申请人】哈曼国际工业有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.朱内加;S.马蒂;D.迪森索;
技术所有人：哈曼国际工业有限公司;
我是此专利的发明人

上一篇：一种身份识别与语音交互操作的方法及装置的制造方法
上一篇：一种业务获取方法及装置的制造方法