语音系统的适应方法和系统的制作方法

文档序号：9472484阅读：441来源：国知局

语音系统的适应方法和系统的制作方法
【技术领域】
[0001]技术领域总体涉及语音系统，并更具体地说，涉及使语音系统适应的方法和系统，并且更具体地，涉及基于对话语速使语音系统适应的方法和系统。
【背景技术】
[0002]车辆语音系统执行对该车辆的占用者所说的语音进行语音识别。该语音言辞通常包括命令，这些命令控制该车辆或者可由该车辆访问的其它系统的一个或多个特征。语音系统基于所述命令管理与该车辆的使用者的对话。该对话对全部使用者来说通常是通用的。不是所有的使用者都以相同的方式与语音系统交流。而且，同一使用者可能每次都不是以同样的方式与该语音系统交流。例如，某些上下文条件会影响使用者讲出该命令的能力。
[0003]因此，期望提供用于使车辆的语音系统适应的方法和系统。另外，本发明的其它令人满意的特征和特点将从下面的具体描述和所附的权利要求并结合附图以及前面的技术领域和【背景技术】而变得易于理解。

【发明内容】

[0004]提供了用于车辆的语音系统的适应方法和系统。在一个实施例中，方法包括:接收语音数据；基于该语音数据确定语音语速；基于所述语音语速确定使用者模型；以及基于所述使用者模型生成用于语音识别系统和对话管理器中至少一者的适应参数。
[0005]在一个实施例中，系统包括第一模块，该第一模块接收语音数据并且基于该语音数据确定语音语速。该系统还包括第二模块，该第二模块基于该语音语速确定使用者模型。该系统还包括第三模块，该第三模块基于所述使用者模型产生用于所述语音识别系统和对话管理器中至少一者的适应参数。
[0006]本申请提出了如下方案:
方案1.一种车辆的语音系统的适应方法，包括:
接收语音数据；
基于所述语音数据确定语音语速；
基于所述语音语速确定使用者模型；以及基于所述使用者模型生成用于语音识别系统和对话管理器中的至少一个的适应参数。
[0007]方案2.如方案I所述的方法，其中语音数据包括在定义的记录窗口之前和该定义的记录窗口之后记录的数据中的至少一个和在语音窗口期间记录的数据。
[0008]方案3.如方案I所述的方法，其中所述确定所述语音语速包括将所述语音数据划分成语音部分和非语音部分，并且其中所述确定所述语音语速是基于所述语音部分和所述非语音部分的时间。
[0009]方案4.如方案I所述的方法，其中所述确定所述使用者模型包括将所述语音语速与使用者标识符相关联。
[0010]方案5.如方案I所述的方法，其中所述确定所述使用者模型还包括将上下文数据与所述语音语速相关联。
[0011]方案6.如方案5所述的方法，其中所述上下文数据包括使用者注意力数据、车辆环境数据、车辆操纵数据、导航数据和天气数据中的至少一个。
[0012]方案7.如方案I所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话语速适应的适应参数。
[0013]方案8.如方案I所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话提示适应的适应参数。
[0014]方案9.如方案I所述的方法，其中所述生成所述适应参数包括生成使所述语音识别系统的记录窗口适应的适应参数。
[0015]方案10.如方案I所述的方法，其中所述生成所述适应参数包括生成使所述语音识别系统的语音识别适应的适应参数。
[0016]方案11.一种车辆的语音系统的适应系统，包括:
第一模块，其接收语音数据并且基于所述语音数据确定语音语速；
第二模块，其基于所述语音语速确定使用者模型；以及
第三模块，其基于所述使用者模型生成用于语音识别系统和对话管理器中的至少一个的适应参数。
[0017]方案12.如方案11所述的系统，其中语音数据包括在定义的记录窗口之前和该定义的记录窗口之后记录的数据中的至少一个和在语音窗口期间记录的数据。
[0018]方案13.如方案11所述的系统，其中所述第一模块通过将所述语音数据划分成语音部分和非语音部分确定所述语音语速，并且基于所述语音部分和所述非语音部分的时间确定所述语音语速。
[0019]方案14.如方案11所述的系统，其中所述第二模块通过将所述语音语速与使用者标识符相关联确定所述使用者模型。
[0020]方案15.如方案11所述的系统，其中所述第二模块通过将上下文数据与所述语音语速相关联确定所述使用者模型。
[0021]方案16.如方案15所述的系统，其中所述上下文数据包括使用者注意力数据、车辆环境数据、车辆操纵数据、导航数据和天气数据中的至少一个。
[0022]方案17.如方案11所述的系统，其中所述第三模块通过生成使所述对话管理器的对话语速适应的适应参数生成所述适应参数。
[0023]方案18.如方案11所述的系统，其中所述第三模块通过生成使所述对话管理器的对话提示适应的适应参数生成所述适应参数。
[0024]方案19.如方案11所述的系统，其中所述第三模块通过生成使所述语音识别系统的记录窗口适应的适应参数生成所述适应参数。
[0025]方案20.如方案11所述的系统，其中所述第三模块通过生成使所述语音识别系统的语音识别适应的适应参数生成所述适应参数。
【附图说明】
[0026]此后将结合下面的附图描述示例性实施例，其中相同的附图标记表示相同的元件；并且附图中:
图1是包括根据各种示例性实施例的语音系统的车辆的功能框图；
图2A和2B是根据示例性实施例的语音系统的记录语音数据的图示；
图3是数据流图，其说明了根据各种示例性实施例的语音系统的适应模块；以及图4是流程图，其说明了可由根据各种示例性实施例的语音系统执行的适应方法。
【具体实施方式】
[0027]下面的具体描述本质上仅仅是示例性的，并非用于限定应用和使用。而且，并不意在受在前面的技术领域、【背景技术】、
【发明内容】
或者后面的【具体实施方式】中出现的任何明示或暗示的理论的约束。当在本文被使用时，术语模块指的是专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的、或群组)和内存、组合逻辑电路；和/或提供所描述功能的其它合适的部件。
[0028]首先参照图1，根据本公开的示例性实施例，语音系统10被示出为包括在车辆12内。语音系统10通过人机界面(HMI)模块14为一个或多个车辆系统提供语音识别和对话。这些车辆系统可包括，例如，但不限于，电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24、或者可包括依赖语音应用程序的任何其它车辆系统。如能理解的，语音系统10的一个或多个实施例可被应用于具有依赖语音应用程序的其它非车辆系统，并且因此，这些实施例不限于目前的车辆示例。出于示例性目的，仍在车辆示例的背景下讨论语音系统10。
[0029]语音系统10通过HMI模块14和通信总线和/或其它通信装置28 (例如，有线的、短程无线、或长距离无线)与多个车辆系统16 — 24和/或其它车辆系统26通信。该通信总线可例如是，但不限于，CAN总线。
[0030]总的来说，语音系统10包括自动语音识别(ASR)模块30、对话管理器模块32、和适应模块34。如能理解的，ASR模块30、对话管理器模块32和适应模块34可被实施为单独的系统和/或被实施为如所示的组合式系统。如还能被理解的，语音系统10的模块可全都被实施在车辆12上，或者部分实施在车辆12上且部分实施在远程系统上，例如远程服务器(未示出)。
[0031]总的来说，ASR模块30接收和处理数据，该数据包括由HMI模块14记录的语音言辞。来自该语音言辞的一些被识别出的命令(例如，基于置信阈值)被发送给对话管理器模块32。对话管理器模块32基于该命令管理交互顺序和提示。
[0032]根据本公开的各种实施例，ASR模块30接收第二组数据，该组数据包括由HMI模块14记录的语音言辞。该第二组数据包括已经被记录的时间长度比第一组数据更长的数据。例如，如在图2A中所示，第一组数据40包括在记录窗口 42期间记录的数据41，该记录窗口 42在提示完成之后就立即在44开始并且在记录开始后的预定时间在46结束。如在图2B中所示，第二组数据48包括在第二记录窗口 50期间记录的数据，该第二记录窗口大于第一记录窗口 42 (图2A)，第二组数据包括在记录窗口 42 (图2A)之前(例如，在记录窗口 42 (图2A)之前的预定时间，例如，在语音提示期间)被记录的数据52、在记录窗口 42(图2A)期间被记录的数据54、和在记录窗口 42 (图2A)之后(例如，在记录窗口 42之后的预定时间，例如，在语音处理期间或者在后来的语音提示期间)被记录的数据56。
[0033]回看图1，ASR模块30将该第二组数据48提供给适应模块34。适应模块34处理该数据48，以及来自各种车辆系统16-24的数据、和/或来自各种其它车辆系统26 (例如，不包括语音应用程序)的数据。适应模块34处理所述数据以确定语速并学习讲出该语速时的上下文。基于该语速和上下文，适应模块34确定用于使由ASR模块30和/或对话管理器模块32执行的对话和语音识别中的至少一个适应的适应参数。
[0034]如能理解的，适应模块34所进行的处理的全部或部分可被实时地执行、可被部分实时地且部分脱机地执行、或者可被完全地脱机执行。如还能被理解的，适应模块34可被实施为位于车辆12上、部分地位于车辆12上且部分地位于远程服务器上、或者完全位于远程服务器上。
[0035]现在参照图3并继续参照图1、2A和2B，数据流图说明了根据各种实施例的适应模块34。如所能理解的，根据本公开的适应模块34的各种实施例可包括任何数量的子模块。例如，图3中示出的子模块可被组合和/或进一步划分以类似地确定使用者的语速并且确定适应参数。在各种示例性实施例中，适应模块34包括语速确定模块60、使用者模型确定模块62、适应参数确定模块64、和使用者模型数据库65。
[0036]语速确定模块60接收作为输入的第二组语音数据48。语速确定模块60处理该第二组数据48以定义该语音的语速。例如，如在图2B中所述，语速确定模块将该语音数据划分成语音部分67、68和非语音部分69 — 71。语速确定模块60通过探测语音的开始和结束来划分该语音数据。
[0037]再参照图3，基于部分67 - 71，语速确定模块60确定该语音的语速72。语速确定模块60基于在提示结束之后且使用者语音开始之前的时间帧、在该语

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.王;U.温特;T.J.格罗斯特;M.M.海斯特隆;
技术所有人：通用汽车环球科技运作有限责任公司;
我是此专利的发明人

上一篇：语音控制方法和系统的制作方法
上一篇：一种指令式语音控制发音词典辅助生成方法