车辆上的远程语音识别的制作方法

文档序号:13983673阅读:355来源:国知局
车辆上的远程语音识别的制作方法

本发明涉及语音识别,更具体地,涉及在车辆中使用远程语音识别。



背景技术:

在车辆上使用自动语音识别可以控制各种车辆功能或获得服务。车辆包括能够从车辆乘员接收语音、处理该语音以理解语音内容,然后基于语音内容进行一些动作的硬件和软件。车辆可以使用硬件和软件来仅在车辆上处理接收的语音。或者,车辆可以将接收的语音作为分组数据发送到发生语音识别处理的远程设备。远程设备可以通过语音识别分析来响应车辆。在每个位置执行语音识别具有其优势,并且当将语音发送到远程设备而不是在车辆上执行语音识别更有利时,对识别条件将是有帮助的。



技术实现要素:

根据本发明的实施例,提供了在车辆上使用远程语音识别的方法。该方法包括在车辆上接收来自车辆乘员的语音;确定车辆和远程语音处理设备之间的无线服务质量;当无线服务质量高于阈值时,将接收的语音发送到远程语音处理设备;以及当无线服务质量低于阈值时,在车辆上处理接收的语音。

根据本发明的另一个实施例,提供了在车辆上使用远程语音识别的方法。该方法包括对具有多个远程语音识别命令字的自动语音识别(asr)系统进行训练;在车辆上接收来自车辆乘员的语音;使用asr系统最初处理接收的语音;在产生语音假设之前,识别包括在接收的语音中的一个或多个远程语音识别命令字;以及基于存在的一个或多个语音识别命令字,将接收的语音无线发送到远程语音处理设备。

根据本发明的另一个实施例,提供了在车辆上使用远程语音识别的方法。该方法包括在车辆上接收来自车辆乘员的语音;确定从车辆乘员接收的语音数量;当语音数低于阈值时,将接收的语音发送到远程语音处理设备;以及当语音数量高于阈值时,在车辆上处理接收的语音。

附图说明

以下将结合附图描述本发明的一个或多个实施例,其中相似的标号表示相同的元件,并且其中:

图1是描绘能够利用本文公开的方法的通信系统的实施例的框图;并且

图2是描绘自动语音识别(asr)系统的实施例的框图。

图3是触发车辆中的远程语音识别的方法的实施例的流程图。

具体实施方式

下面描述的系统和方法涉及在车辆上接收来自车辆乘员的语音,并且在车辆上或在从车辆无线接收语音的远程语音处理设备上对该语音执行语音识别。根据与接收的语音的内容或车辆上可用的无线通信的质量有关的多个因素,在车辆或远程设备上处理语音可能是有利的。例如,向远程设备发送语音的缺点涉及由无线载波系统收取的用于从车辆向远程设备发送语音的使用费。每当车辆发送要由远程设备分析的语音时,车辆或远程信息处理服务提供商将为此收取费用。该费用可以基于发送语音所需的时间长度、语音包括的数据量或两者。另一方面,从车辆接收语音的远程设备可以保持更强大的计算机处理能力,利用比车辆上可用的语言模型更复杂的语言模型。基于车辆的语音处理可能有其自己的缺点。尽管识别在车辆上接收的语音可以使无线运营商系统收取的费用最小化,但车辆的计算机处理能力可能没有在远程设备可用的计算机处理能力强,并且车辆可能使用更简单的语言模型,其可能包括比在远程设备可用的更少的内容,这可能意味着不太准确的结果。

不是在车辆上从车辆乘员处接收的所有语音都是均衡的,由用于发送语音的无线载波系统提供的服务质量也不是不变的。语音内容可以取决于车辆乘员给出的命令的上下文,并且内容或长度发生变化。而且,由无线运营商系统提供的服务质量可以使得从车辆到远程设备的语音或多或少具有吸引力。可以分析在车辆上接收的语音,以评估与语音内容、服务质量或两者有关的因素,以及关于是否应当将语音发送到远程设备以进行识别或者车辆是否应该在车辆上执行语音识别的决定。

通信系统-

参考图1,示出了包括移动车辆通信系统10的操作环境,并且可以用于实现本文公开的方法。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18和呼叫中心20。应当理解,所公开的方法可以与任何数量的不同系统一起使用,并且不特别限于这里所示的操作环境。此外,系统10及其各个组件的架构、构造、设置和操作在本领域中通常是已知的。因此,以下段落简单地概述了一个这样的通信系统10。然而,这里未示出的其它系统也可以采用所公开的方法。

车辆12在所示实施例中被描述为客车,但是应当理解,也可以使用包括摩托车、卡车、运动型多用途车(suv)、休闲车(rv)、船舶、飞机等的任何其它车辆。图1中总体示出了车辆电子设备28中的一些,并且包括远程信息处理单元30、麦克风32、一个或多个按钮或其它控制输入34、音频系统36、视觉显示器38和gps模块40以及多个其它车辆系统模块(vsm)42。这些设备的一些可以直接连接到远程信息处理单元,例如,麦克风32和按钮34,而其它设备使用一个或多个网络(诸如,通信总线44或娱乐总线46)间接连接。合适的网络连接的示例包括控制器局域网络(can)、面向媒体的系统传输(most)、本地互连网络(lin)、局域网(lan)以及其它适当的连接,诸如,以太网或符合已知的iso、sae和ieee标准和规范的其它网络,仅举几个示例。

远程信息处理单元30本身是车辆系统模块(vsm),并且可以被实现为安装在车辆中的oem安装(嵌入式)或售后设备,并且能够使无线语音和/或数据通过无线网络在无线载波系统14上通信。这使得车辆能够与呼叫中心20、其它远程信息处理车辆或其它实体或设备进行通信。远程信息处理单元优选地使用无线电传输来建立与无线载波系统14的通信信道(语音信道和/或数据信道),使得可以通过信道发送和接收语音和/或数据传输。通过提供语音和数据通信,远程信息处理单元30使得车辆能够提供多种不同的服务,包括与导航、电话、紧急援助、诊断、信息娱乐等相关的服务。数据可以经由数据连接(诸如,通过数据信道上的分组数据传输)或者经由使用本领域已知技术的语音信道发送。对于涉及语音通信(例如,具有在呼叫中心20处的现场顾问或语音响应单元)和数据通信(例如,向呼叫中心20提供gps位置数据或车辆诊断数据)的组合服务,系统可以在语音信道上利用单个呼叫,并根据需要在语音信道上切换语音传输和数据传输,并且可以使用本领域技术人员已知的技术来完成。

根据一个实施例,远程信息处理单元30利用根据gsm、cdma或lte标准的蜂窝通信,并且,因此包括用于诸如免提呼叫的语音通信的标准蜂窝芯片组50、用于数据传输的无线调制解调器、电子处理设备52、一个或多个数字存储设备54和双天线56。应当理解,调制解调器可以由存储在远程信息处理单元中并由处理器52执行的软件来实现,或者它可以是位于远程信息处理单元30内部或外部的单独的硬件组件。调制解调器可以使用任何数量的不同的标准或协议(诸如,lte、evdo、cdma、gprs和edge)进行操作。车辆和其它联网设备之间的无线网络也可以使用远程信息处理单元30来执行。为此,远程信息处理单元30可以被配置为根据一种或多种无线协议进行无线通信,包括短距离无线通信(srwc)(诸如,ieee802.11协议、wimax、zigbeetm、wi-fi直接、蓝牙tm)或近场通信(nfc)。当用于诸如tcp/ip的分组交换数据通信时,远程信息处理单元可以被配置为静态ip地址,或者可以被设置为自动从网络上的另一设备(诸如,路由器)或从网络地址服务器接收分配的ip地址。

处理器52可以是能够处理电子指令的任何类型的设备,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(asic)。它可以是仅用于远程信息处理单元30的专用处理器,或者可以与其它车辆系统共享。处理器52执行各种类型的数字存储的指令,诸如,存储在存储器54中的软件或硬件程序,其使远程信息处理单元能够提供各种各样的服务。例如,处理器52可以执行程序或处理数据以执行本文讨论的方法的至少一部分。

远程信息处理单元30可以用于提供涉及到和/或来自车辆的无线通信的各种各样的车辆服务。这样的服务包括:转弯指导和连同基于gps的车辆导航模块40一起提供的其它导航相关的服务;安全气囊展开通知和与一个或多个碰撞传感器接口模块(诸如,身体控制模块(未示出))一起提供的紧急或路边救援相关的服务;利用一个或多个诊断模块的诊断报告;以及由信息娱乐模块(未示出)下载音乐、网页、电影、电视节目、电子游戏和/或其它信息的信息娱乐相关的服务,并被存储以用于当前或稍后的播放。上述服务绝不是远程信息处理单元30的所有功能的详尽列表,而是简单地列举远程信息处理单元能够提供的一些服务。此外,应当理解,前述模块中的至少一些可以以保存在远程信息处理单元30内部或外部的软件指令的形式来实现,它们可以是位于远程信息处理单元30内部或外部的硬件组件,或者它们可以彼此集成和/或共享,或与整个车辆的其它系统集成,引用但有一些可能性。在模块被实现为位于远程信息处理单元30外部的vsm42的情况下,它们可以利用车辆总线44与远程信息处理单元交换数据和命令。

gps模块40从gps卫星的星座60接收无线电信号。根据这些信号,模块40可以确定用于向车辆驾驶员提供导航和其它位置相关的服务的车辆位置。导航信息可以呈现在显示器38(或车辆内的其它显示器)上,或者可以口头呈现,诸如,在提供转弯导航时所做的。可以使用专用的车载导航模块(其可以是gps模块40的一部分)来提供导航服务,或者可以通过远程信息处理单元30完成一些或所有导航服务,其中,将位置信息发送到远程位置,以用于向车辆提供位导航地图、地图注释(兴趣点,餐馆等)、路线计算等的目的。位置信息可以提供给呼叫中心20或诸如计算机18的其它远程计算机系统,以用于诸如车队管理的其它目的。此外,新的或更新的地图数据可以经由远程信息处理单元30从呼叫中心20下载到gps模块40。

除了音频系统36和gps模块40之外,车辆12可以包括位于整个车辆中的电子硬件组件形式的其它车辆系统模块(vsm)42,并且通常从一个或多个传感器接收输入,使用检测到的输入来执行诊断、监视、控制、报告和/或其它功能。每个vsm42优选地通过通信总线44连接到其它vsm以及远程信息处理单元30,并且可以被编程以运行车辆系统和子系统诊断测试。作为示例,一个vsm42可以是控制诸如燃料点火和点火正时等发动机操作的各个方面的发动机控制模块(ecm),另一个vsm42可以是调节车辆动力系统中一个或多个部件的操作的动力系统控制模块,而另一个vsm42可以是车身控制模块,其控制位于整个车辆上的各种电气部件,如车辆的电动门锁和前大灯。根据一个实施例,发动机控制模块配备有车载诊断(obd)特征,其提供无数的实时数据,诸如,从包括车辆排放传感器的各种传感器接收的实时数据,并提供标准化的系列诊断故障代码(dtc),其允许技术人员快速识别和维修车辆内的故障。如本领域技术人员所理解的,上述vsm仅仅是车辆12中可以使用的一些模块的示例,因为许多其它模块也是可能的。

车辆电子设备28还包括多个车辆用户界面,其向车辆乘员提供接收和/或提供信息的装置,包括麦克风32、按钮34、音频系统36和视觉显示器38。如本文所使用的,术语“车辆用户界面”广泛地包括任何合适形式的电子设备,包括位于车辆上并使得车辆用户能够与车辆的部件通信或通过车辆的部件进行通信的硬件和软件组件。麦克风32向远程信息处理单元提供音频输入,以使得驾驶员或其它乘员能够提供语音命令并通过无线运营商系统14执行免提呼叫。为此,它可以使用本领域已知的人机界面(hmi)技术连接到车载自动语音处理单元。按钮34允许手动用户输入到远程信息处理单元30,以发起无线电话呼叫并提供其它数据、响应或控制输入。单独的按钮可以用于发起紧急呼叫,而不是对呼叫中心20的常规服务辅助呼叫。音频系统36向车辆乘员提供音频输出,并且可以是专用的独立系统或主要车辆音频系统的一部分。根据这里所示的特定实施例,音频系统36可操作地耦接到车辆总线44和娱乐总线46两者,并且可以提供am、fm和卫星无线电、cd、dvd和其它多媒体功能。该功能可以与上述信息娱乐模块结合或独立地提供。视觉显示器38优选地是图形显示器,诸如,仪表板上的触摸屏或从挡风玻璃反射的平视显示器,并且可以用于提供多种输入和输出功能。也可以使用各种其它车辆用户界面作为图1的界面。图1仅仅是一个特定实现的示例。

无线载波系统14优选地是蜂窝电话系统,其包括多个小区塔70(仅示出一个)、一个或多个移动交换中心(msc)72以及连接无线载波与陆地网络16所需的任何其它网络组件系统14。每个小区塔70包括发送和接收天线以及基站,其中来自不同小区塔的基站直接或经由诸如基站控制器的中间设备连接到msc72。蜂窝系统14可以实现任何合适的通信技术,包括例如诸如amps的模拟技术或诸如cdma(例如,cdma2000)或gsm/gprs的较新数字技术。如本领域技术人员将理解的,各种小区塔/基站/msc布置是可能的,并且可以与无线系统14一起使用。例如,基站和小区塔可以位于相同的站点,或者它们可以彼此位于远程位置,每个基站可以负责单个小区塔,或者单个基站可以服务各个小区塔,并且各个基站可以耦接到单个msc,仅举几种可能的布置。

除了使用无线载波系统14之外,可以使用卫星通信形式的不同无线载波系统来提供与车辆的单向或双向通信。这可以使用一个或多个通信卫星62和上行链路发射站64来完成。单向通信可以是例如卫星无线电业务,其中由发射站64接收编程内容(消息、音乐等),打包上载,然后发送到向用户广播节目的卫星62。双向通信可以是例如使用卫星62的卫星电话业务来中继车辆12和车站64之间的电话通信。如果使用的话,这种卫星电话可以在除无线载波系统14之外或代替无线载波系统14使用。

陆地网络16可以是连接到一个或多个固定电话并将无线运营商系统14连接到呼叫中心20的常规陆地电信网络。例如,陆地网络16可以包括诸如用于提供硬连线电话、分组交换数据通信和因特网基础架构的公共交换电话网络(pstn)。陆地网络16的一个或多个部分可以通过使用标准有线网络、光纤或其它光网络、有线网络、电力线、诸如无线局域网(wlan)的其它无线网络或提供宽带无线接入(bwa)的网络或它们的任何组合来实现。此外,呼叫中心20不需要经由陆地网络16连接,而是可以包括无线电话设备,使得呼叫中心可以直接与诸如无线载波系统14之类的无线网络进行通信。

计算机18可以是通过诸如因特网的私有或公共网络可访问的多个计算机之一。每个这样的计算机18可以用于一个或多个目的,例如由车辆通过远程信息处理单元30和无线运营商14可访问的网络服务器。其它这样的可访问计算机18可以是例如:服务中心计算机,其中可以经由远程信息处理单元30从车辆上传诊断信息和其它车辆数据;由车主或其它用户使用的用于访问或接收车辆数据或设置或配置用户偏好或控制车辆功能的客户端计算机;或通过与车辆12或呼叫中心20或二者进行通信,以向其提供或从其获得车辆数据或其它信息的第三方存储库。计算机18还可以用于提供诸如dns服务之类的因特网连接,或者作为使用dhcp或其它合适协议的网络地址服务器来为车辆12分配ip地址。

呼叫中心20被设计为向车辆电子设备28提供多个不同的系统后端功能,并且根据这里示出的示例性实施例,通常包括一个或多个交换机80、服务器82、数据库84、现场顾问86以及自动语音应答系统(vrs)88,所有这些都是本领域已知的。这些各种呼叫中心组件优选地经由有线或无线局域网90彼此耦接。可以是专用分支交换(pbx)交换机的交换机80路由输入信号,使得语音传输通常通过常规电话发送到实时顾问86,或者使用voip发送到自动语音响应系统88。现场顾问电话还可以使用如图1中虚线所示的voip。通过交换机80的voip和其它数据通信通过连接在交换机80和网络90之间的调制解调器(未示出)来实现。数据传输通过调制解调器传递到服务器82和/或数据库84。数据库84可以存储诸如用户认证信息、车辆标识符、简档记录、行为模式和其它相关用户信息的帐户信息。数据传输也可以由诸如802.11x、gprs等的无线系统进行。虽然已经描述了所示实施例,它将与使用实际顾问86的人工呼叫中心20一起使用,但是应当理解,呼叫中心可以替代地使用vrs88作为自动顾问,或者可以使用vrs88和现场顾问86的组合。

现在转到图2,示出了用于asr系统210的说明性架构,其可以用于实现当前公开的方法。一般来说,车辆乘员与自动语音识别系统(asr)进行语音交互,用于以下一个或多个基本目的:训练系统以了解车辆乘员的特定声音;存储离散语音,例如语音名称或诸如数字或关键词的口头控制词;或识别车辆乘员的语音以用于任何适当的目的,诸如,语音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等。通常,asr从人类语音中提取声学数据,将声学数据与存储的子词数据进行比较和对比,选择可以与其它所选择的子词串连接的适当的子词,并输出用于后处理的连接词或词,诸如,口述或抄录、地址簿拨号、存储到存储器、训练asr模型或适应参数等。

asr系统是本领域技术人员通常已知的,图2仅示出了一个具体的说明性asr系统210。系统210包括用于接收语音的设备,诸如远程信息处理麦克风32,以及声学接口33,诸如具有将语音数字化为声学数据的模数转换器的远程信息处理单元30的声卡。系统210还包括存储器,诸如,用于存储声学数据和存储语音识别软件和数据库的远程信息处理存储器54,以及处理器,诸如,处理声学数据的远程信息处理器52。处理器与存储器连同以下模块一起作用:用于将语音的声学数据的流解析成诸如声学特征的参数表示的一个或多个前端处理器或预处理器软件模块212;用于解码声学特征以产生对应于输入语音话语的数字子字或字输出数据的一个或多个解码器软件模块214;以及用于为了任何合适的目的使用来自解码器模块214的输出数据的一个或多个的处理器软件模块216。

系统210还可以从任何其它合适的音频源31接收语音,其可以如实线所示直接与预处理器软件模块212通信,或者经由声学接口间接地与其通信33。音频源31可以包括诸如语音邮件系统或任何类型的其它电话服务的电话音频。

一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词典模型218可以提供管理哪些单词可以逻辑地跟随其它单词以形成有效句子的规则。在广义上,语法可以定义系统210在任何给定的asr模式下、在任何给定时间期望的词汇母群体。例如,如果系统210处于用于训练命令的训练模式中,则语法模型218可以包括系统210已知和使用的所有命令。在另一示例中,如果系统210处于主菜单模式,则活跃语法模型218可以包括系统210期望的所有主菜单命令,诸如,呼叫、拨号、退出、删除、目录等。第二,声学模型220协助选择对应于来自预处理器模块212的输入的最可能的子词或词。第三,词汇模型222和句子/语言模型224提供将所选择的子词或词放入词或句子上下文中的规则、语法和/或语义。此外,句子/语言模型224可以定义系统210在任何给定asr模式下、在任何给定时间期望的句子的母群体,和/或可以提供管理哪些句子可以逻辑跟随其它句子以形成有效的扩展语音的规则等。

根据替代说明性实施例,一些或所有asr系统210可以驻留在远离车辆12(诸如,计算机18或呼叫中心20)的位置的计算设备上并由其处理。例如,可以将语法模型、声学模型等存储在呼叫中心20中的服务器82和/或数据库84之一的存储器中,并将其传送到车辆远程信息处理单元30用于车载语音处理。类似地,可以使用呼叫中心20中的一个服务器82的处理器来处理语音识别软件。换句话说,asr系统210可以驻留在远程信息处理单元30中,以任何期望的方式分布在计算机18/呼叫中心20和车辆12上,和/或驻留在计算机18或呼叫中心20处。

首先,从人类语音中提取声学数据,其中车辆乘员对麦克风32讲话,麦克风32将话语转换成电信号并将这种信号传送到声学接口33。麦克风32中的声音响应元件捕获乘员的语音话语作为空气压力的变化,并将话语转换成模拟电信号(诸如,直流或电压)的相应变化。声学接口33接收模拟电信号,这些模拟电信号首先被采样,使得模拟信号的值在离散时刻被捕获,然后被量化,使得模拟信号的幅度在每个采样时刻被转换为连续的数字语音数据流。换句话说,声学接口33将模拟电信号转换为数字电子信号。数字数据是二进制位,它们被缓存在远程信息处理存储器54中,然后被远程信息处理器52处理,或者可以在它们被处理器52最初实时地接收时被处理。

第二,预处理器模块212将数字语音数据的连续流转换成离散的声学参数序列。更具体地,处理器52执行预处理器模块212,以将数字语音数据分段成例如10-30ms持续时间的重叠语音或声音帧。这些帧对应于诸如音节、半音节、电话、双声道、音素等的声学子词。预处理器模块212还执行语音分析,以从每个帧内从乘员的语音(诸如,时变特征向量)中提取声学参数。乘员语音中的语音可以表示为这些特征向量的序列。例如,并且如本领域技术人员已知的,可以提取特征向量,并且可以包括例如可以通过执行帧的傅立叶变换来获得的声音间距、能量分布、频谱属性和/或倒谱系数,并使用余弦变换对声谱解相关。覆盖特定语音持续时间的声音帧和对应的参数被级联成将被解码的未知的语音测试模式。

第三,处理器执行解码器模块214,以处理每个测试模式的输入特征向量。解码器模块214也被称为识别引擎或分类器,并且使用存储的已知的语音参考模式。与测试模式一样,参考模式被定义为相关声学帧和对应参数的级联。解码器模块214将要识别的子字测试模式的声学特征向量与存储的子参考模式进行比较和对比,评估它们之间的差异或相似性的大小,并且最终使用决策逻辑来选择最佳匹配子字作为识别的子字。通常,最佳匹配子词是对应于存储的已知参考模式,其具有与本领域技术人员已知的分析和识别子词的各种技术中的任一种所确定的测试模式的最小不相似性或最高概率。这样的技术可以包括动态时间扭曲分类器、人造智能技术、神经网络、免费音素识别器和/或概率模式匹配器,诸如,隐马尔可夫模型(hmm)引擎。

本领域技术人员已知hmm引擎用于产生声学输入的多个语音识别模型假设。考虑到这些假设,最终通过语音的特征分析来识别和选择表示声学输入的最可能正确解码的识别输出。更具体地,hmm引擎以子词模型假设的“n-最佳”列表的形式产生统计模型,其根据hmm计算出的置信度值或观测到的给出(诸如,由贝叶斯定理的应用)的一个或另一个子词的声学数据序列的概率进行排序。

贝叶斯hmm过程识别与最可能的话语或针对给定的声学特征向量的观测序列的子词序列相对应的最佳假设,并且其置信度值可以取决于多种因素,包括与进入的声学数据相关联的声学信噪比。hmm还可以包括称为对角高斯混合物的统计分布,其针对每个子词的每个观察到的特征向量产生可能性分数,该分数可用于重新排序n-最佳假设列表。hmm引擎还可以识别并选择其模型可能性得分最高的子词。

以类似的方式,用于子词序列的单个hmm可以被级联以建立单个或多个词hmm。此后,可以生成单个或多个词参考模式和相关参数值的n-最佳列表并进一步评估。

在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量,以生成参考模式的n-最佳列表。如本文所使用的,术语参考模式可以与模型、波形、模板、丰富的信号模型、示例、假设或其它类型的参考相互替换。参考模式可以包括代表一个或多个词或子词的一系列特征向量,并且可以基于特定的说话者、说话风格和可听见的环境条件。本领域技术人员将认识到,参考模式可以通过asr系统的适当参考模式训练产生,并存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考模式,其中参考模式的参数值基于参考模式训练和asr系统的实际使用之间的语音输入信号的差异进行适应。例如,基于来自不同车辆乘员或不同声学条件的有限数量的训练数据,针对一个车辆乘员或某些声学条件训练的一组参考模式可以被适应并保存为用于不同的车辆乘员或不同的声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,并且可以在语音识别期间进行调整。

使用词汇语法和任何合适的解码器算法和声学模型,处理器从存储器访问解释测试模式的几个参考模式。例如,处理器可以产生并存储n个最佳词汇结果或参考模式的列表以及对应的参数值。说明性参数值可以包括n-最佳词汇列表中的每个参考模式的可信度分数和相关联的相关段持续时间、可能性分数、信噪比(snr)值等。可以参数值的幅值的降序来排列词汇的n-最佳列表。例如,具有最高置信度分数的词汇参考模式是第一最佳参考模式,依此类推。一旦建立了一串被识别的子词,就可以用它们与来自词汇模型222的输入构建词,并与来自语言模型224的输入构造句子。

最后,后处理器软件模块216为了任何合适的目的从解码器模块214接收输出数据。在一个示例中,后处理器软件模块216可以从单个或多个词参考模式的n-最佳列表中识别或选择一个参考模式作为识别的语音。在另一示例中,后处理器模块216可用于将声学数据转换成用于与asr系统或其它车辆系统的其它方面一起使用的文本或数字。在另一示例中,后处理器模块216可用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器216可用于训练解码器模块214的声学模型,或训练用于预处理器模块212的适配参数。

该方法或其部分可以在嵌入在计算机可读介质中的计算机程序产品中实现,并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用以使系统实现一个或多个方法步骤的指令。计算机程序产品可以包括一个或多个软件程序,该一个或多个软件程序由以下部分组成:源代码、目标代码、可执行代码或其它格式代码中的程序指令;一个或多个硬件程序;或硬件描述语言(hdl)文件;和任何程序相关数据。数据可以包括数据结构、查找表或任何其它合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、组件等。计算机程序可以在一个计算机上或在彼此通信的多个计算机上执行。

程序可以存放在计算机可读介质上,其可以是非暂时性的,并且可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统存储器,例如,ram(随机存取存储器)、rom(只读存储器);半导体存储器,例如,eprom(可擦除可编程rom)、eeprom(电可擦除可编程rom)、闪存;磁盘或光盘;和/或类似物。计算机可读介质还可以包括计算机到计算机连接,例如,当数据通过网络或其它通信连接(有线、无线或其组合)传送或提供时。上述示例的任何组合也包括在计算机可读介质的范围内。因此,应当理解,该方法可以由能够执行与所公开方法的一个或多个步骤相对应的指令的任何电子物品和/或设备至少部分地执行。

方法-

现在转到图3,示出了在车辆12中使用远程语音识别的方法(300)的实施例。方法300从用多个远程语音识别命令字训练asr系统210开始。asr系统210可以包括一个或多个语法模型218,其已经被使用通常用于调用针对特定上下文的语音识别的单词所训练。这些命令字可用于确定何时将接收的语音发送到远程语音处理设备。远程语音处理设备与车辆12的车辆电子设备28分开;通常位于远程设备或位置,诸如,计算机18或呼叫中心20。

可能识别上下文,应该将接收的作为那些上下文的一部分的语音发送到远程设备。例如,在车辆环境中,这些上下文可以包括与电话交互、媒体请求或导航请求有关的词。媒体请求可以涉及电子邮件、娱乐和新闻内容的请求。单独的语法模型218可以分别用通常用于每个上下文的命令字进行训练。例如,可以使用诸如“呼叫”、“查找”、“拨号”和“联系”之类的词来训练电话上下文的命令字。关于对媒体的请求,可以使用通常被访问的因特网无线电广播应用(诸如,“pandora”、“spotify”,“iheartradio”等)来训练语法模型218。还可以利用与车辆乘员可能请求的电子邮件、娱乐或新闻内容(例如,“gmail”、“espn”和“newyorktimes”)相关联的名称来训练语法模型218。语法模型218可以在车辆12被递送给购买者之前被训练,但是模型218也可以被连续地修改,使得由asr系统210接收的频繁使用的词或命令通过重复使用可以被添加到语法模型218,使得asr系统210适于并入新的命令。方法300进行到步骤320。

在步骤320,在车辆12上接收来自车辆乘员的语音。车辆乘员可以启动asr系统210,以接收可以控制车辆功能或请求车辆12上的可用服务的语音和命令。在使用诸如通过按下按钮34的输入来启动asr系统210之后,用户可以列举由麦克风32接收并如上文参照图2描述的被处理的命令或请求。车辆功能可以包括控制音频系统36的方面,诸如,体积或车站选择,或气候控制系统的方面,诸如,温度或风扇速度,以提供几个示例。车上的可用服务包括导航服务和提供媒体或电子邮件内容。导航服务可以包括转弯指导和关于兴趣点的信息。可以使用车辆远程信息处理单元30通过无线运营商系统14访问因特网的能力,在车辆12上接收媒体内容或电子邮件。车辆远程信息处理单元30可以提供诸如上述识别的网络服务以及大量其它可能服务的内容。方法300进行到步骤330。

在步骤330,使用语法模型218来最初处理接收的语音,已经利用识别要被发送到远程语音处理设备的上下文的命令字对语法模型218进行了训练。在后处理器软件模块216中达到语音识别假设之前,asr系统210可以使用解码器模块214处理语音,并且处理语法模型218中的字,其与应该被发送到远程设备的语音上下文相关联。例如,车辆乘员可能会说“请访问gmail和阅读我的消息”。asr系统210可能不会产生对整个语句的语音假说,而是能够识别单词“访问”、“gmail”和/或“消息”。在另一个示例中,车辆乘员可以通过说“请从spotify播放音乐”提供口头命令以访问互联网内容。当具有媒体内容请求时,asr系统210可识别单词“spotify”,这将用信号通知asr系统210,该语音识别应当被发送到远程语音处理设备。

作为命令的一部分的语音接收还可以包括训练作为asr系统210的一部分的统计语言模型,asr系统210适于学习由乘员提供的语言。随着新的互联网应用变得可用并被车辆乘员请求,统计语言模型可以识别这些应用被请求的频率,并将描述应用的单词构建到语法模型218中。目前存在不同类型的统计语言模型,并且本领域技术人员理解其实现。在一些实现中,语法模型218不仅可以包括诸如因特网应用的媒体请求的名称,而且还可以包括它所属的子上下文。为了提供示例,应用“iheartradio”可与子上下文“音乐”相关联,或者“谷歌地图”可与子上下文“导航”相关联。子上下文可以提供关于由所请求的应用提供的内容的附加信息。当找到一个或多个语音识别命令字时,方法300进行到步骤370。否则,方法300进行到步骤360。

在步骤340,确定从车辆乘员接收的语音数量。如果语音数量高于特定阈值,则可以在车辆12上处理接收的语音。如果语音数量低于特定阈值,则该方法进行到步骤380,并且可以由远程语音处理设备处理。asr系统210可以使用由处理器52维护的定时器来测量接收的语音数量。asr系统210可以确定由车辆乘员提供的语音的持续时间,并将该持续时间与时间阈值进行比较。在一个实现中,该时间阈值可以是3.5秒。超过3.5秒的语音可以由车辆12上的asr系统210处理。否则,持续时间少于3.5秒的语音可以发送到远程设备的asr系统。时间阈值可以防止向远程设备发送更长的语音段,从而最小化经由无线运营商系统14发送的数据量,并降低数据通信成本。

也可以通过检测双麦克风的存在来确定语音数量。在车辆12中的多于一个麦克风处接收的语音可以显着增加要通过无线载波系统14发送的音频数据量。当asr系统210检测到车辆12中存在多个麦克风或者asr系统210从多个麦克风接收语音时,asr系统210可以决定在车辆12上处理该语音,而不是将其发送到远程设备。在一个麦克风处接收的语音可由asr系统210在车辆12上处理。在多个麦克风处接收的语音附带的附加数据将增加通过无线载波系统14发送的数据量,并增加发送该数据的成本。因此,可以在步骤360中指定在车辆12上处理在多于一个麦克风处接收的语音。

在步骤350,确定车辆12和远程设备之间的无线服务质量。如果无线服务质量低于特定阈值,则在车辆12上处理语音。如果语音质量高于特定阈值,则可以在步骤380将语音发送到远程语音处理设备。车辆远程信息处理单元30可以向远程设备发送参考信号,该参考信号将测试在车辆12上可用的服务质量。当服务质量低或差时,在远程语音处理设备进行的语音识别可能无法最佳地工作。因此,当存在这些情况时,防止使用远程语音处理设备来执行语音识别,并且在车辆12上使用asr系统210是有帮助的。车辆远程信息处理单元30可以通过无线运营商系统14的小区塔70将该参考信号发送到该实现计算机18或呼叫中心20中的远程语音处理设备。作为语音通信会话的一部分,参考信号可以在车辆远程信息处理单元30和远程语音处理设备之间发送。车辆远程信息处理单元30可以实现单端音频质量估计算法,其提供表示车辆12上可用的服务质量的质量值。在一个实现中,国际电信联盟(itu)描述的p.563算法可用于执行单端音频质量估计。由p.563算法测量的值范围从1(差)到5(最佳)。asr系统210可以计算这些值,并选择针对小于3.5-4.0的值在车辆12上执行语音识别。另外,也可以使用由itug.107描述的e-模型,其将服务质量评估在0-100的范围内。asr系统210可以决定在车辆12上执行针对小于65的值的语音识别。然而,应当理解,其它质量估计算法以及不同的阈值是可能的。

车辆远程信息处理单元30还可以在发送参考信号时确定车辆12的位置,并使用位置来确定车辆远程信息处理单元30将发送附加参考信号以重新评估服务质量的频率。如果车辆12没有移动或仅在限定的时间段内稍微移动,则车辆远程信息处理单元30可以决定不发送另一个参考信号,或延长参考信号发送之间的时间段。然而,如果车辆12沿着道路行驶,则车辆远程信息处理单元30可以决定更频繁地发送参考信号。例如,当车辆12停放一天或行驶,使得车辆远程信息处理单元30维持与同一小区塔70的通信时,车辆远程信息处理单元30可以采用扩展的监视时间表,并且每天发送一次参考信号。另一方面,如果车辆远程信息处理单元30正在行驶,使得在车辆12移动时改变小区塔,则车辆远程信息处理单元30可以更频繁地发送参考信号,例如每20分钟发送一次。这些时间值仅用于解释一个可能的实现,并且应当理解,其它值是可能的。

服务质量也可以以其它方式估计。车辆远程信息处理单元30能够确定车辆远程信息处理单元30正在与之通信或“驻留”的小区塔70的信号强度。如果信号强度低于特定阈值,则对接收的语音的语音识别可以在车辆12上进行(步骤360),如果信号强度高于特定阈值,则远程语音处理设备可以处理该语音(步骤370)。在一种可能的实现中,当接收的小区塔信号的信号强度小于-90db时,asr系统210可将接收的语音发送给远程语音处理设备。

在步骤360,在车辆12上处理接收的语音。可以使用asr系统210来处理在车辆12上接收的语音,如上面关于图1所讨论的。

在步骤370,接收的语音被无线地发送到远程语音处理设备。车辆远程信息处理单元30可以经由无线运营商系统14将接收的语音发送到远程语音处理设备。可以在远程语音处理设备处将语音接收为分组数据,并如上面关于asr系统210和图2所讨论的那样对其处理。如上所述,远程语音处理设备可以是计算机18或呼叫中心20。一旦远程设备产生最可能的语音识别假设或最可能的语音识别假设的列表,则最可能的语音假设可以经由无线载波系统14作为分组化数据从远程语音处理设备发送到车辆远程信息处理单元30。然后方法300结束。

应当理解,前述内容是对本发明的一个或多个实施例的描述。本发明不限于本文公开的特定实施例,而是仅由下面的权利要求限定。此外,包括在前述描述中的声明涉及具体的实施方案,不能解释为限定本发明的范围或限定权利要求所使用的术语,除非该术语或措词在上面进行了的明确限定。对所公开的实施例的各种其它实施例和各种变化和修改对于本领域技术人员将是显而易见的。所有这些其它实施例、改变和修改旨在落入所附权利要求的范围内。

如在本说明书和权利要求中使用的,术语“例如”、“举例来说”、“诸如”、以及“等”,以及动词“包括”、“具有”、“包含”和它们的其它动词形式在与一个或多个部件或其它项目一起使用时,分别被解释为开放式的,这意味着该列表不应被认为是排除其它附加组件或项目。除非在需要不同解释的上下文中使用其它术语,否则应使用其最广泛的合理含义来解释。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1