用于语音系统的方法和系统的制作方法

文档序号：2826595阅读：176来源：国知局

用于语音系统的方法和系统的制作方法
【专利摘要】提供了一种用于语音系统的方法和系统，具体地，提供了用于车辆的语音系统的方法和系统。在一个实施例中，该方法包括：从自语音系统的用户处接收的语音发声中产生发声标记，而不没有对用户识别交互作用的特定需求；基于所述发声标记为用户生成用户标记；以及，基于所述用户标记来管理与用户有关的对话。
【专利说明】用于语音系统的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求2012年11月13日提交的美国临时申请N0.61/725，804的权益，其全部内容在此通过引用被并入。
【技术领域】
[0003]【技术领域】一般涉及语音系统，并且更具体地，涉及为车辆的语音系统产生用户标记的方法和系统。
【背景技术】
[0004]车辆语音识别系统对车辆乘客发出的语音进行语音识别。语音发声典型地包括控制车辆的一个或多个特征或者可由车辆访问的其他系统(例如但不限于，银行业务和购物)的命令。语音对话系统利用了一般的对话技术，使得来自车辆中任何乘客的语音发声都能被处理。每个用户在使用语音对话系统时可能具有不同的熟练程度和偏好。因此，一般的对话系统对所有用户而言可能并不理想。
[0005]因此，期望提供用于识别和追踪用户的方法和系统。因此，还期望提供一种方法和系统，其基于对用户的识别和追踪来对语音对话系统进行管理和调整。此外，从接下来的详细描述和所附权利要求，并且结合附图和前述的【技术领域】以及【背景技术】，本发明的其他期望特征和特性将显而易见。

【发明内容】

[0006]提供了用于车辆语音系统的方法和系统。在一个实施例中，所述方法包括:从自语音系统的用户处接收的语音发声来产生发声标记，而不存在对用户识别交互作用的特定需求；基于发声标记来为用户产生用户标记；以及，基于用户标记管理与用户有关的对话。
[0007]在另一个实施例中，一种系统包括第一模块，所述第一模块用于从自语音系统的用户处接收的语音发声来产生发声标记，而不存在对用户识别交互作用的特定需求。第二模块基于发声标记为用户产生用户标记。第三模块基于用户标记来管理与用户有关的对话。
[0008]本发明还包括下列方案:
[0009]1.一种用于车辆的语音系统的方法，包括:
[0010]从自所述语音系统的用户处接收的语音发声来产生发声标记，而没有对用户识别交互作用的特定需求；
[0011]基于所述发声标记来为用户生成用户标记；和
[0012]基于所述用户标记来管理与所述用户有关的对话。
[0013]2.如方案I所述的方法，其中，所述生成包括:基于所述发声标记和存储的用户标记来生成所述用户标记。
[0014]3.如方案2所述的方法，其中，所述存储的用户标记是基于至少两个在先的发声标记
[0015]4.如方案3所述的方法，其中，所述存储的用户标记还基于交互作用中的全部或
一些在先发声。
[0016]5.如方案I所述的方法，其中，所述生成用户标记包括:确定不存在与所述发声标记类似的用户标记，以及将所述发声标记作为所述用户标记存储在数据库中。
[0017]6.如方案I所述的方法，其中，所述产生用户标记包括:确定存在与所述发声标记类似的用户标记，利用所述发声标记来对与所述发声标记类似的所述用户标记进行更新，以及将更新后的用户标记存储在数据库中。
[0018]7.如方案6所述的方法，其中，所述确定存在与所述发声标记类似的用户标记包括:确定来自相同事务处理的用户标记不存在。
[0019]8.如方案6所述的方法，其中，所述确定存在与所述发声标记类似的用户标记包括:确定来自不同事务处理的用户标记不存在。
[0020]9.如方案I所述的方法，进一步包括:基于第二用户标记，基本上同时管理与第二用户有关的对话。
[0021]10.如方案9所述的方法，其中，所述管理与第二用户有关的对话还基于波束形成。
[0022]11.如方案I所述的方法，其中，管理对话包括:基于所述用户标记来调整与所述用户有关的提示和交互作用序列中的至少一个。
[0023]12.—种车辆语音系统,包括:
[0024]第一模块，所述第一模块从自所述语音系统的用户处接收的语音发声来产生发声标记，而没有对用户识别交互作用的特定需求；
[0025]第二模块，所述第二模炔基于所述发声标记为所述用户生成用户标记；和
[0026]第三模块，所述第三模炔基于所述用户标记来管理与所述用户有关的对话。
[0027]13.如方案12所述的语音系统，其中，所述第二模炔基于所述发声标记和存储的用户标记来生成所述用户标记。
[0028]14.如方案13所述的语音系统，其中，所述存储的用户标记是基于至少两个在先的发声标记，或者基于交互作用中的全部或一些在先发声的集合。
[0029]15.如方案12所述的语音系统，其中，所述第二模块通过下述来生成所述用户标记:确定不存在与所述发声标记类似的用户标记，以及将所述发声标记作为所述用户标记存储在数据库中。
[0030]16.如方案12所述的语音系统，其中，所述第二模块通过下述来生成所述用户标记:确定存在与所述发声标记类似的用户标记，利用所述发声标记来对与所述发声标记类似的所述用户标记进行更新，以及将更新后的用户标记存储在数据库中。
[0031]17.如方案16所述的语音系统，其中，所述第二模块通过确定来自相同事务处理的用户标记不存在来确定与所述发声标记类似的用户标记存在。
[0032]18.如方案16所述的语音系统，其中，所述第二模块通过确定来自不同事务处理的用户标记不存在来确定与所述发声标记类似的用户标记存在。
[0033]19.如方案12所述的语音系统，其中，所述第三模炔基于第二用户标记基本上同时管理与第二用户有关的对话。[0034]20.如方案19所述的语音系统，其中，所述第三模块基于波束形成来管理与所述第二用户有关的对话。
[0035]21.如方案12所述的语音系统，其中，所述第三模块通过下述来管理所述对话:基于所述用户标记，调整与所述用户有关的提示和交互作用序列中的至少一个。
【专利附图】

【附图说明】
[0036]下面将结合下列附图对示例性实施例进行描述，附图中相同的附图标记指示了相同的元件，并且附图中:
[0037]图1为车辆的功能框图，其包括根据各种示例性实施例的语音系统；
[0038]图2为数据流图，其示出了根据各种示例性实施例的语音系统的标记引擎；和
[0039]图3是序列图，其示出了标记产生方法，所述标记产生方法可以由根据各种示例性实施例的语音系统执行。
【具体实施方式】
[0040]下面的详细描述本质上仅是示例性的，且并不旨在限制本发明以及其应用。此外，也不旨在受到前述【技术领域】、【背景技术】、
【发明内容】
或者下面的详细描述中所出现的任何明确或暗示的理论的约束。如在此所用地，术语“模块”指的是专用集成电路(ASIC)、电子电路、执行一种或多种软件或固件程序的处理器(共享的、专用的或成组的)和存储器、组合逻辑电路和/或提供了所述功能的其它合适部件。
[0041]根据本发明的示例性实施例，示出了语音系统10被包含在车辆12内。在各种示例性实施例中，语音系统10通过人机接口模块(HMI模块)14为一个或多个车辆系统提供了语音识别和/或对话。这样的车辆系统可以包括但不限于，例如电话系统16、导航系统
18、媒体系统20、远程信息处理系统22、网络系统24,或者可以包括依赖语音的应用的任何其它车辆系统。应当认识到，语音系统10的一个或多个实施例可以应用于具有依赖语音的应用的其它非车辆系统，因此，并不局限于当前的车辆示例。
[0042]语音系统10通过HMI模块14和通信总线和/或其他通信装置26 (例如，有线的、短程无线的或远程无线的)与多种车辆系统16-24进行通信。所述通信总线可以是，例如但不限于，CAN总线。
[0043]语音系统10包括语音识别引擎(ASR)模块32和对话管理器模块34。应当理解的是，如所示的那样，ASR模块32和对话管理器模块34可以被实施成分立的系统和/或组合的系统。ASR模块32接收和处理来自HMI模块14的语音发声。一些从语音发声中识别出的命令(例如，基于置信度阈值)被发送给对话管理器模块34。对话管理器模块34基于所述命令来管理交互作用序列和提示。在各种实施例中，语音系统10还包括文本到语音引擎(未示出)，其接收和处理从HMI模块14接收到的文本。文本到语音引擎产生由对话管理器模块34类似地使用的命令。
[0044]在各种示例性实施例中，语音系统10还包括标记引擎模块30。标记引擎模块30接收和处理来自HMI模块14的语音发声。附加地或替代地，标记引擎模块30接收和处理由ASR模块32所执行的处理产生的信息(例如，通过语音识别处理所提取的特征、通过语音识别处理所确定的字边界，等等)。标记引擎模块30识别语音系统10的用户，并且基于语音发声(以及，在一些情况下，基于来自ASR模块32的信息)为语音系统的每个用户建立用户标记。
[0045]在各种示例性实施例中，标记引擎模块30基于语音发声且随着时间的过去来逐渐建立用户标记，而不需要用户主动识别其自身。然后，对话管理器模块34利用用户标记进行追踪，并且为每个特定用户调整提示和交互作用序列。通过利用用户标记，对话管理器模块34以及因此语音系统10可以同时管理与两个或更多个用户有关的两个或更多个对话。
[0046]现参照图2，所图示的数据流图示出了根据各种示例性实施例的标记引擎模块30。应当理解的是，根据现有的公开内容，标记引擎模块30的各种示例性实施例可以包括任意数量的子模块。在各种实施例中，图2中所示的子模块可以组合和/或进一步分割，以类似地产生用户标记。在各种示例性实施例中，标记引擎模块30包括标记产生器模块40、标记建立器模块42和标记数据库44。
[0047]标记产生器模块40接收由用户通过HMI模块14(图1)提供的语音发声46作为输Ao标记产生器模块40处理语音发声46,并且基于语音发声46的特征来产生发声标记48。例如，标记引擎模块40可以执行超向量方法以进行说话人识别并产生发声标记48。该方法将音频流转换成高维空间中的单个点。从原始表示的变换(即，音频至目标表示)可以通过多个阶段来进行。例如，首先可以将信号切分成多个窗口，并进行梅尔倒谱(Mel-Cepstrum)变换。该表示将每个窗口映射为空间中的一个点，所述空间中距离与音素差别相关。两个点相距越远，则它们来自同一音素的可能性越小。如果忽略时间，则该点的集合(每个点针对一个窗口)可以被概括为梅尔倒谱空间中的概率分布。该分布对于每个说话人来说都是几乎唯一的。对该分布进行建模的一种通常方法是通过高斯混合模型(GMM)来进行。因此，所述标记可以表示为由全部的GMM高斯函数的均值(means)产生的GMM或超向量。
[0048]应当理解的是，所述方法仅仅是示例性的。用于产生用户标记的其它方法被认为落入本发明的范围内。因此，本发明并不局限于现有的例子。
[0049]标记建立器模块42接收发声标记48作为输入。基于发声标记48，标记建立器模块42使用用户标记50来更新标记数据库44。例如，如果标记数据库44中不存在用户标记50，则标记建立器模块42将发声标记48作为用户标记50存储到标记数据库44中。然而，如果标记数据库44中存在一个或多个在先存储的用户标记50，则标记建立器模块42将该发声标记48与在先存储的用户发声标记48进行比较。如果发声标记48与用户标记50不相似，则发声标记48被当作新的用户标记50存储到标记数据库44中。然而，如果发声标记48与所存储的用户标记50类似，则类似的用户标记50通过发声标记48被更新并且被存储在标记数据库44中。应当理解的是，术语“存在”和“不存在”指的是硬判决和软判决两者，其中似然值被分配给“存在”和“不存在”。
[0050]例如，如上述的例子，在说话人的GMM是从多个说话人的全局GMM调整而来的映射的情况下，可以在发声标记48和存储的用户标记50两者的GMM分布参数中执行校正。校正后的均值(means)的集合可以被结合成单个高维向量。该空间中的距离与说话人之间的差别相关。因此，可以评估向量间的距离以确定相似的标记。一旦找到了相似的标记，则每个标记48、50的GMM可以被合并，并且作为更新后的用户标记50进行存储。
[0051]应当理解的是，所述方法仅仅是示例性的。用于产生用户标记的其它方法也被认为落入本发明的范围内。因此，本发明并不局限于现有的例子。
[0052]现参照图3，所示的序列图示出了一种标记产生方法，其可以由根据各种示例性实施例的语音系统10执行。应当理解的是，在本发明的启示下，该方法中的操作顺序并不局限于图3中所示的执行顺序，而是可以根据应用和现有的公开按照一种或多种不同的顺序来执行。应当进一步理解的是，可以添加或去除方法中的一个或多个步骤，而不改变本方法的精神。
[0053]如所示，在100处，用户通过HMI模块14将语音发声提供至ASR模块32。在110处，由ASR模块32对语音发声进行评估以确定口头表达的命令。在120处，在给出判据(例如，置信度分数)的情况下，口头表达的命令被提供给对话管理器模块34。基本上同时或稍微随后地，在130处，由HMI模块14将语音发声提供给标记引擎30。然后，标记引擎30对语音发声进行评估。例如，在140处，标记产生器模块40使用超向量方法或一些其它方法对语音发声进行处理以确定标记。标记建立器模块42在150处使用该标记来建立，并且在160处存储用户标记。用户标记或该标记的多个隐式表示,例如分数(scores),在170处被发送至对话管理器。在180，对话管理器模块40使用用户标记和命令来确定对话的提示和/或交互作用序列。在190，所述对话管理器模块将所述提示或命令提供给HMI模块。
[0054]应当理解的是，对于用户提供的任意数量的语音发声而言，所述序列是可以重复的。还应当理解的是，可以同时为多个用户提供的多个语音发声执行相同或类似的序列。在这种情况下，为每个用户产生单独的用户标记，并且基于单独的用户标记来为每个用户管理对话。在各种实施例中，为了提高精确度，在管理对话中除了用户标记之外还可以使用波束形成技术。
[0055]尽管在前述的详细描述中已经公开了至少一个示例性实施例，但应当理解的是，存在大量的变形。还应当理解的是，一个或多个示例性实施例只是例子，且不旨在以任何方式限制本发明的范围、应用或配置。相反，前述的详细描述将为本领域技术人员提供实现所述一个或多个示例性实施例的便捷路线图。应当理解的是，可以在不脱离由所附权利要求书及其法律等同物阐明的本发明范围的情况下，对功能和元件的设置进行各种变化。
【权利要求】
1.一种用于车辆的语音系统的方法，包括: 从自所述语音系统的用户处接收的语音发声来产生发声标记，而没有对用户识别交互作用的特定需求；基于所述发声标记来为用户生成用户标记；和基于所述用户标记来管理与所述用户有关的对话。
2.如权利要求1所述的方法，其中，所述生成包括:基于所述发声标记和存储的用户标记来生成所述用户标记。
3.如权利要求2所述的方法，其中，所述存储的用户标记是基于至少两个在先的发声 T 己 O
4.如权利要求3所述的方法，其中，所述存储的用户标记还基于交互作用中的全部或一些在先发声。
5.如权利要求1所述的方法，其中，所述生成用户标记包括:确定不存在与所述发声标记类似的用户标记，以及将所述发声标记作为所述用户标记存储在数据库中。
6.如权利要求1所述的方法，其中，所述产生用户标记包括:确定存在与所述发声标记类似的用户标记，利用所述发声标记来对与所述发声标记类似的所述用户标记进行更新，以及将更新后的用户标记存储在数据库中。
7.如权利要求6所述的方法，其中，所述确定存在与所述发声标记类似的用户标记包括:确定来自相同事务处理的用户标记不存在。
8.如权利要求6所述的方法，其中，所述确定存在与所述发声标记类似的用户标记包括:确定来自不同事务处理的用户标记不存在。
9.如权利要求1所述的方法，进一步包括:基于第二用户标记，基本上同时管理与第二用户有关的对话。
10.一种车辆语音系统，包括: 第一模块，所述第一模块从自所述语音系统的用户处接收的语音发声来产生发声标记，而没有对用户识别交互作用的特定需求；第二模块，所述第二模块基于所述发声标记为所述用户生成用户标记；和第三模块，所述第三模块基于所述用户标记来管理与所述用户有关的对话。
【文档编号】G10L15/07GK103871400SQ201310757199
【公开日】2014年6月18日申请日期:2013年11月13日优先权日:2012年11月13日
【发明者】R·M·赫奇特, O·尖霍尼, U·温特, R·D·辛斯三世申请人:通用汽车环球科技运作有限责任公司

完整全部详细技术资料下载