增强语音识别任务完成的制作方法

文档序号:15259418发布日期:2018-08-24 21:18阅读:177来源:国知局

本发明涉及用于车辆的语音识别系统,并且更具体地涉及响应于各种各样的命令或原本不可预测的命令的语音识别系统。



背景技术:

车辆中的语音识别系统依赖于处理日益增加的任务范围。仅作为示例,诸如车辆导航等一些任务需要包含大量非标准的或专门的指令,诸如街道名称、地址或兴趣点名称。大量的潜在指令需要鲁棒的语音识别系统,因为潜在的指令是多变的和不可预测的。因此,语音识别成功率通常较低。导航系统典型的相对较低的成功率可能导致用户感到沮丧,并降低语音识别系统的利用率。



技术实现要素:

在至少一个示例中,一种识别车辆中的语音的方法包括在安装至车辆的麦克风处接收语音并且确定语音是否包括导航指令。如果语音包括导航指令,那么该语音可被发送至远程设施。在将语音发送至远程设施之后,在车辆中向用户提供本地语音识别结果(即,在车辆中确定)。在本文描述的至少一些实施方案中,发送至远程设施的语音可用于提供校正动作,例如,在本地语音识别结果不足或用户经历系统困难的情况下提供校正动作。

在至少一个实施方案中,识别车辆中的语音的方法包括确定语音识别任务中语音识别的成功率低于预定阈值。该方法可进一步包括在安装至车辆的麦克风处接收语音并且确定语音是否针对语音识别任务。响应于语音针对语音识别任务且与语音识别任务相关联的成功率低于预定阈值的确定,语音可被发送至远程设施。在步骤(c)中发送语音之后提供车辆中的本地语音识别结果,该本地语音识别结果在车辆中确定。在本文描述的至少一些实施方案中,如上所述,发送至远程设施的语音可用于提供校正动作。

在至少一个示例中,一种用于识别车辆中的语音的系统包括安装在车辆中的麦克风,其被配置为从用户接收语音命令。车辆语音识别系统可被配置为从语音命令中确定本地语音识别结果,并且确定语音命令何时包括导航指令。该系统可进一步包括与车辆通信的远程服务器,其被配置为当语音命令包括导航指令时从语音识别系统接收语音命令的样本。

附图说明

下面将结合附图描述本发明的一个或多个实施例,其中相同的标号表示相同的元件,且其中:

图1是描绘能够利用在本文公开的方法的通信系统的实施例的框图;

图2是描绘自动语音识别(asr)系统的实施例的框图;且

图3是说明识别车辆中的语音的示例方法的过程流程图。

具体实施方式

下面描述的示例方法和系统通常可对语音进行归档或在语音识别系统在预定阈值以下执行时提供校正辅助。例如,在要求车辆语音识别系统识别诸如联系人的官方名字、街道名称或其它专有名称等非标准化指令的情况下,语音命令可在车辆上存档或发送至远程设施。被存档或发送至远程设施的语音命令然后可在检测到某个用户使用语音识别系统时遇到困难时被使用。远程设施的人员通常可在检测到用户使用语音识别系统遇到困难时提供备份或校正辅助。另外,语音可在车辆接收时存档或发送至远程设施,由此允许远程人员一旦观察到随后的用户难度时就立刻提供帮助。

通信系统

参考图1,示出了包括机动车辆通信系统10并且可用于实施本文所公开的方法的操作环境。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18和呼叫中心20。应当理解的是,所公开的方法可结合任何数量的不同系统使用并且不具体限于这里所示的操作环境。另外,系统10和其个别部件的架构、构造、设置和操作在本领域中是通常已知的。因此,以下段落仅仅提供了针对一个这样的通信系统10的简要概述;然而,这里未示出的其它系统也可采用所公开的方法。

车辆12在所说明的实施例中被描绘为客车,但是应当明白的是,也可使用包括摩托车、卡车、运动型多功能车(suv)、娱乐车(rv)、船舶、飞机等任何其它车辆。图1中总体上示出了某些车辆电子器件28且其包括远程信息处理单元30、麦克风32、一个或多个按钮或其它控制输入34、音频系统36、可视显示器38和gps模块40以及许多其它车辆系统模块(vsm)42。一些这样的装置可直接连接至远程信息处理单元(诸如,例如麦克风32和按钮34),而其它装置使用一个或多个网络连接(诸如通信总线44或娱乐总线46)间接地连接。合适的网络连接的示例包括控制器区域网络(can)、媒体导向系统传输(most)、本地互连网络(lin)、局域网(lan)以及其它适当的连接(诸如以太网或符合已知的iso、sae和ieee标准和规范的其它网络),仅举几例。

远程信息处理单元30本身是车辆系统模块(vsm),并且可被实施为oem安装(嵌入式)或售后装置,该装置安装在车辆中并且通过无线载波系统14和经由无线联网实现无线语音和/或数据通信。这使得车辆能够与呼叫中心20、其它启用远程信息处理的车辆或其它实体或装置进行通信。远程信息处理单元优选地使用无线电传输来与无线载波系统14建立通信信道(语音信道和/或数据信道),使得可通过信道发送和接收语音和/或数据传输。通过提供语音和数据通信这两者,远程信息处理单元30使得车辆能够提供许多不同的服务,包括与导航、电话、紧急援助、诊断、信息娱乐等相关的服务。数据可使用本领域已知的技术经由数据连接(诸如经由通过数据信道的分组数据传输)或经由语音信道来发送。对于涉及语音通信(例如,与呼叫中心20处的实时顾问或语音响应单元进行的语音通信)和数据通信(例如,向呼叫中心20提供gps位置数据或车辆诊断数据)的组合服务来说,系统可利用通过语音信道的单个呼叫并且根据需要通过语音信道在语音和数据传输之间加以切换,并且这可以使用本领域技术人员已知的技术完成。

根据一个实施例,远程信息处理单元30利用根据gsm、cdma或lte标准的蜂窝通信,且因此包括用于语音通信(如免提呼叫)的标准的蜂窝芯片集50、用于数据传输的无线调制解调器、电子处理装置52、一个或多个数字存储器装置54以及双天线56。应当明白的是,调制解调器可通过存储在远程信息处理单元中并且由处理器52执行的软件来实施,或其可以是位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可使用诸如lte、evdo、cdma、gprs和edge等任何数量的不同标准或协议来操作。还可使用远程信息处理单元30执行车辆与其它联网装置之间的无线联网。为此,远程信息处理单元30可被配置为根据一个或多个无线协议(包括短程无线通信(srwc),诸如ieee802.11协议、wimax、zigbeetm、wi-fi直连、蓝牙或近场通信(nfc)中的任一种)进行无线通信。当用于诸如tcp/ip等分组交换数据通信时,远程信息处理单元可配置有静态ip地址或可设置成从网络上的另一个装置(诸如路由器)或从网络地址服务器自动地接收所分配的ip地址。

处理器52可以是能够处理电子指令的任何类型的装置,包括微处理器、微控制器、主机处理器、控制器、车辆通信处理器以及专用集成电路(asic)。其可以是仅用于远程信息处理单元30的专用处理器,或可与其它车辆系统共享。处理器52执行各种类型的数字存储指令,诸如存储在存储器54中的软件或固件程序,该指令使得远程信息处理单元能够提供多种服务。例如,处理器52可执行程序或过程数据以执行本文所讨论的方法的至少一部分。

远程信息处理单元30可用于提供涉及至车辆和/或来自车辆的无线通信的各种各样的车辆服务。此类服务包括:与基于gps的车辆导航模块40结合地提供的逐向导航和其它导航相关的服务;与一个或多个碰撞传感器接口模块(诸如车身控制模块(未示出))结合地提供的安全气囊展开通知和其它与紧急援助或路边援助有关的服务;使用一个或多个诊断模块的诊断报告;以及信息娱乐相关服务,其中音乐、网页、电影、电视节目、视频游戏和/或其它信息是由信息娱乐模块(未示出)下载并且存储以供当前或后续回放。上文列举的服务决不是远程信息处理单元30的全部能力的详尽列举,而仅仅是远程信息处理单元能够提供的一些服务的枚举。另外,应当理解的是,至少一些前述提及的模块可按照保存在远程信息处理单元30内部或外部的软件指令的形式来实施,它们可以是位于远程信息处理单元30内部或外部的硬件部件,或它们可与彼此或与位于整辆车中的其它系统集成和/或共享,这里仅列举几种可能性。如果模块被实施为位于远程信息处理单元30外部的vsm42,那么它们可利用车辆总线44来与远程信息处理单元交换数据和命令。

gps模块40从gps卫星群60接收无线电信号。根据这些信号,模块40可确定用于向车辆驾驶员提供导航和其它位置相关服务的车辆位置。导航信息可呈现在显示器38(或车辆内的其它显示器)上或可用语言呈现,诸如在提供逐向导航时这样做。可使用专用车内导航模块(其可以是gps模块40的一部分)提供导航服务,或可经由远程信息处理单元30完成一些或全部导航服务,其中将位置信息发送至远程位置用于给车辆提供导航地图、地图注释(兴趣点、餐馆等)、路线计算等。可将位置信息供应至呼叫中心20或其它远程计算系统(诸如计算机18),以便用于其它目的,诸如车队管理。另外,可经由远程信息处理单元30将新的或更新的地图数据从呼叫中心20下载至gps模块40。

除音频系统36和gps模块40之外,车辆12可包括呈电子硬件部件形式的其它车辆系统模块(vsm)42,该电子硬件部件位于整辆车中并且通常从一个或多个传感器接收输入并使用所感测的输入来执行诊断、监视、控制、报告和/或其它功能。每个vsm42均优选地由通信总线44连接至其它vsm以及远程信息处理单元30,并且可编程为运行车辆系统和子系统诊断测试。作为示例,一个vsm42可以是控制诸如燃料点火和点火正时等发动机操作的各个方面的发动机控制模块(ecm),另一个vsm42可以是调节车辆动力系的一个或多个部件的操作的动力系控制模块,且另一个vsm42可以是控制位于整辆车中的各种电部件(如车辆的电动门锁和车头灯)的车身控制模块。根据一个实施例,发动机控制模块配备有车载诊断(obd)特征,其提供诸如从包括车辆排放传感器等各种传感器接收的数据的多种实时数据,并且提供允许技术人员快速地识别并修复车辆内故障的一系列标准化诊断故障代码(dtc)。如本领域技术人员所明白的是,上述提及的vsm仅仅是可以在车辆12中使用的某些模块的示例,因为许多其它模块也是可能的。

车辆电子器件28还包括多个车辆用户界面,其向车辆乘客提供用于提供和/或接收信息的装置,包括麦克风32、按钮34、音频系统36和可视显示器38。如本文所使用,术语'车辆用户界面'广泛地包括任何合适形式的电子装置,包括硬件和软件部件两者,该电子装置位于车辆上并且使得车辆用户能够与车辆的部件通信或通过车辆的部件进行通信。麦克风32向远程信息处理单元提供音频输入以使得驾驶员或其它乘客能够经由无线载波系统14提供语音命令并执行免提呼叫。为此,其可利用本领域中已知的人机界面(hmi)技术连接至车载自动语音处理单元。按钮34允许手动用户输入进入远程信息处理单元30以起始无线电话呼叫并且提供其它数据、响应或控制输入。单独的按钮可用于起始紧急呼叫与对呼叫中心20进行的常规服务救援呼叫。音频系统36向车辆乘客提供音频输出,并且可以是专用的、独立系统或主要车辆音频系统的一部分。根据这里所示的特定实施例,音频系统36操作地联接至车辆总线44和娱乐总线46两者,并且可提供am、fm和卫星无线电、cd、dvd和其它多媒体功能。该功能可与上述信息娱乐模块结合或独立地提供。可视显示器38优选地是诸如仪表板上的触摸屏或从挡风玻璃反射的平视显示器等图形显示器,并且可用于提供多种输入和输出功能。也可利用各种其它车辆用户界面,因为图1的界面仅仅是一个特定实施方案的示例。

无线载波系统14优选地是蜂窝电话系统,其包括多个手机信号塔70(仅示出一个)、一个或多个移动交换中心(msc)72以及将无线载波系统14与陆地网络16连接所需要的任何其它联网部件。每个手机信号塔70均包括发送和接收天线以及基站,其中来自不同手机信号塔的基站直接或经由诸如基站控制器等中间设备连接至msc72。无线载波系统14可实施任何合适的通信技术,包括(例如)诸如amps等模拟技术或诸如cdma(例如,cdma2000)或gsm/gprs等较新数字技术。如本领域技术人员将明白的是,各种手机信号塔/基站/msc布置是可能的并且可结合无线系统14使用。例如,基站和手机信号塔可共同位于相同站点处或它们可远离彼此,每个基站可负责单个手机信号塔或单个基站可服务于各个手机信号塔,且各个基站可联接至单个msc,这里仅列举几种可能布置。

除使用无线载波系统14之外,可使用呈卫星通信的形式的不同无线载波系统来提供与车辆的单向或双向通信。这可使用一个或多个通信卫星62和上行链路传输站64来进行。单向通信可为(例如)卫星无线电服务,其中节目内容(新闻、音乐等)是由传输站64接收、封装上传并且然后发送至卫星62,从而向用户广播该节目。双向通信可以是(例如)使用卫星62以在车辆12与传输站64之间中继电话通信的卫星电话服务。如果使用,那么除了或代替无线载波系统14,可利用此卫星电话。

陆地网络16可以是连接至一个或多个固定电话并且将无线载波系统14连接至呼叫中心20的常规陆基电信网络。例如,陆地网络16可包括诸如用于提供硬接线电话、分组交换数据通信和因特网基础设施的公共交换电话网(pstn)。一段或多段陆地网络16可通过使用标准有线网络、光纤或其它光学网络、电缆网络、电力线、其它无线网络(诸如无线局域网(wlan))或提供宽带无线接入(bwa)的网络或其任何组合来实施。另外,呼叫中心20不需要经由陆地网络16连接,反而可包括无线电话设备使得其可直接与无线网络(诸如无线载波系统14)通信。

计算机18可以是可经由诸如因特网等专用或公共网络接入的许多计算机中的一种。每个这样的计算机18可用于一个或多个目的,诸如可由车辆经由远程信息处理单元30和无线载波14接入网络服务器。其它这样的可接入计算机18可以是例如:服务中心计算机,其中可经由远程信息处理单元30从车辆上传诊断信息和其它车辆数据;由车主或其它用户使用的客户端计算机,其用于诸如接入或接收车辆数据或设置或配置用户偏好或控制车辆功能等目的;或第三方数据仓库,将车辆数据或其它信息提供至该第三方数据仓库或从该第三方数据仓库提供车辆数据或其它信息,而无关于是否与车辆12或呼叫中心20或两者进行通信。计算机18还可用于提供诸如dns服务器或网络地址服务器等因特网连接性,该网络地址服务器使用dhcp或其它合适协议来将ip地址分配至车辆12。

呼叫中心20设计成对车辆电子器件28提供许多不同的系统后端功能,并且根据这里所示的示例性实施例,通常包括一个或多个交换机80、服务器82、数据库84、实时顾问86以及自动语音响应系统(vrs)88,其全部是本领域中所已知的。这些不同的呼叫中心部件优选地经由有线或无线局域网90彼此联接。交换机80(其可以是专用交换分机(pbx)交换机)路由传入信号使得语音传输通常由常规的电话发送至实时顾问86或使用voip发送至自动语音响应系统88。实时顾问电话还可使用voip,如图1中的虚线所指示。通过交换机80进行的voip和其它数据通信经由连接在交换机80与网络90之间的调制解调器(未示出)来实施。数据传输经由调制解调器传递至服务器82和/或数据库84。数据库84可存储诸如用户认证信息、车辆标识符、简档记录、行为模式和其它相关用户信息等帐户信息。数据传输也可以由诸如802.11x、gprs等无线系统进行。虽然所说明的实施例已经被描述为其将结合使用实时顾问86的人工呼叫中心20使用,但是应当明白的是,数据中心反而可利用vrs88作为自动顾问,或可使用vrs88与实时顾问86的组合。

现在转至图2,示出了可用于实现本公开方法的asr系统210的说明性架构。一般而言,车辆乘客为了以下一个或多个基本目的而与自动语音识别系统(asr)进行语音交互:训练系统以理解车辆乘客的特定语音;存储离散语音,诸如口头姓名标签或口头控制字,如数字或关键字;或为了诸如语音拨号、菜单导航、转录、服务请求、车辆装置或装置功能控制等任何合适的目的而识别车辆乘客的语音。通常,asr从人类语音中提取声学数据,将声学数据与存储的子字数据进行比较和对比,选择可与其它选定子字串联的适当的子字,并且输出串接的子字或字用于诸如口述或转录、地址簿拨号、存储至存储器、训练asr模型或适配参数等后处理。

asr系统通常是本领域技术人员已知的,且图2仅说明了一个特定说明性asr系统210。系统210包括用于接收语音的装置(诸如远程信息处理麦克风32)以及声学接口33(诸如具有用于语音数字化为声学数据的模数转换器的远程信息处理单元30的声卡)。系统210还包括用于存储声学数据并且存储语音识别软件和数据库的存储器(诸如远程信息处理存储器54)以及用于处理声学数据的处理器(诸如远程信息处理处理器52)。处理器与存储器一起工作并且结合以下模块:一个或多个前端处理器或预处理器软件模块212,其用于将语音的声学数据流解析为诸如声学特征等参数表示;一个或多个解码器软件模块214,其用于解码声学特征以产生与输入语音话语对应的数字子字或字输出数据;以及一个或多个后处理器软件模块216,其用于使用来自解码器模块214的输出数据用于任何合适的目的。

系统210还可从任何其它合适的音频源31接收语音,该音频源可如实线所示直接与预处理器软件模块212通信或经由声学接口33间接地与预处理器软件模块212通信。音频源31可包括例如诸如语音邮件系统等音频电话源,或任何类型的其它电话服务。

一个或多个模块或模型可用作解码器模块214的输入。首先,语法和/或词典模型218可提供管理哪些字可在逻辑上跟随其它字以形成有效句子的规则。从广义上讲,语法可定义系统210在任何给定的asr模式下在任何给定时间所期望的词汇的域。例如,如果系统210处于用于训练命令的训练模式,那么语法模型218可包括系统210已知并使用的所有命令。在另一个示例中,如果系统210处于主菜单模式,那么活动语法模型218可包括系统210期望的所有主菜单命令,诸如呼叫、拨号、退出、删除,目录等。其次,声学模型220帮助选择与来自预处理器模块212的输入对应的最可能的子字或字。第三,字模型222和句子/语言模型224提供将选定子字或字放置在字或句子上下文中的规则、语法和/或语义。而且,句子/语言模型224可定义系统210在任何给定的asr模式下在任何给定的时间所期望的句子的域,和/或可提供规则等来管理哪些句子可在逻辑上跟随其它句子以形成有效的扩充语音。

根据替代说明性实施例,asr系统210中的一些或全部可驻留在远离车辆12的位置(诸如呼叫中心20)中的计算装置上并且使用该计算装置进行处理。例如,语法模型、声学模型等可被存储在呼叫中心20中的服务器82和/或数据库84中的一个的存储器中,并且被传送至车辆远程信息处理单元30以进行车内语音处理。类似地,可使用呼叫中心20中的一个服务器82的处理器来处理语音识别软件。换言之,asr系统210可驻留在远程信息处理单元30中,以任何期望的方式分布在呼叫中心20和车辆12上,和/或驻留在呼叫中心20处。

首先,从人类语音中提取声学数据,其中车辆乘客向麦克风32讲话,麦克风32将话语转换为电信号并且将此类信号传送至声学接口33。麦克风32中的语音响应元件捕捉乘客的语音话语作为气压变化,并且将话语转换为诸如直流电或电压等模拟电信号的对应变化。声学接口33接收模拟电信号,其首先被采样使得模拟信号的值在离散时刻被捕捉,且然后被量化,使得模拟信号的振幅在每个采样时刻被转换为连续的数字语音数据流。换言之,声学接口33将模拟电信号转换为数字电子信号。数字数据是在远程信息处理存储器54中被缓冲并且然后由远程信息处理处理器52处理或可在最初由处理器52实时接收时进行处理的二进制位。

其次,预处理器模块212将连续数字语音数据流变换成声学参数的离散序列。更具体地,处理器52执行预处理器模块212以将数字语音数据分段为例如10至30ms持续时间的重叠语音或语音帧。帧对应于诸如音节、半音节、音素、双音素、音素集等声学子字。预处理器模块212还执行语音分析以从每个帧内从乘客的语音(诸如时变特征向量)中提取声学参数。乘客的语音内的话语可被表示为这些特征向量的序列。例如且如本领域技术人员已知的,可提取特征向量且特征向量可包括例如可通过对帧进行傅里叶变换并使用余弦变换将声谱去相关而获得的音高、能量分布、频谱属性和/或倒谱系数。覆盖特定语音持续时间的声学帧和对应参数被串接为待解码语音的未知测试模式。

第三,处理器执行解码器模块214来处理每个测试模式的输入特征向量。解码器模块214也被称为识别引擎或分类器,并且使用存储的已知的语音参考模式。与测试模式一样,参考模式被定义为相关声学帧与对应参数的串接。解码器模块214将待识别的子字测试模式的声学特征向量与所存储的子字参考模式进行比较和对比,评估它们之间的差异或相似性的量值,并且最终使用判定逻辑来选择最佳匹配子字作为识别的子字。一般来说,最佳匹配子字是对应于所存储的已知参考模式的子字,该参考模式与通过本领域技术人员已知的用于分析和识别子字的各种技术中的任何技术所确定的测试模式具有最小差异性或有最高可能性是该测试模式。此类技术可包括动态时间规整分类器、人工智能技术、神经网络、自由音素集识别器,和/或概率模式匹配器,诸如隐马尔可夫模型(hmm)引擎。

本领域技术人员已知hmm引擎用于产生声学输入的多个语音识别模型假设。在最终识别和选择经由语音的特征分析来表示声学输入的最可能正确解码的识别输出中考虑假设。更具体地,hmm引擎以根据hmm计算的置信度值或在给定一个或另一子字的情况下诸如通过贝叶斯定理的应用得出的声学数据的观察序列的概率排列的子字模型假设的“n-最佳”列表的形式产生统计模型。

贝叶斯hmm过程识别与声学特征向量的给定观察序列的最可能话语或子字对应的最佳假设,且其置信度值可取决于各种因素,包括与输入声学数据相关联的声信噪比。hmm还可包括被称为对角线高斯混合的统计分布,其产生每个子字的每个观察特征向量的似然分数,这些分数可用于对n-最佳假设列表进行重新排序。hmm引擎还可识别和选择模型似然分数最高的子字。

以类似方式,用于子字序列的各个hmm可被串接以建立单个或多个字hmm。之后,可产生并进一步评估单个或多个字参考模式和相关参数值的n-最佳列表。

在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量以产生参考模式的n-最佳列表。如本文所使用的,术语参考模式与模型、波形、模板、富信号模型、范例、假设或其它类型的参考是可互换的。参考模式可包括表示一个或多个字或子字的一系列特征矢量,并且可基于特定说话者、说话风格和可听环境条件。本领域技术人员将认识到,可通过asr系统的适当的参考模式训练来产生参考模式并将其存储在存储器中。本领域技术人员还将认识到,可操纵所存储的参考模式,其中参考模式的参数值基于参考模式训练与asr系统的实际使用之间的语音输入信号的差异而被适配。例如,基于来自不同车辆乘客或不同声学条件的有限量的训练数据,针对一个车辆乘客或某些声学条件训练的一组参考模式可被适配并且保存为用于不同车辆乘客或不同声学条件的另一组参考模式。换言之,参考模式不一定是固定的,并且在语音识别期间可被调整。

使用词汇内语法和任何合适的解码器算法和声学模型,处理器从存储器存取解释测试模式的若干参考模式。例如,处理器可产生n-最佳词汇或参考模式的列表以及对应的参数值并且将该列表存储至存储器。说明性的参数值可包括n-最佳词汇列表和相关片段持续时间中的每个参考模式的置信度分数、似然分数、信噪比(snr)值等。n-最佳词汇列表可通过以降序排列参数值的量值来进行排序。例如,具有最高置信度分数的词汇参考模式是第一最佳参考模式,依此类推。一旦建立了一串识别的子字,它们就可被用来利用字模型222的输入来构造字并且利用来自语言模型224的输入来构造句子。

最后,出于任何合适的目的,后处理器软件模块216从解码器模块214接收输出数据。在一个示例中,后处理器软件模块216可从单个或多个字参考模式的n-最佳列表中识别或选择一个参考模式作为识别的语音。在另一个示例中,后处理器模块216可用于将声学数据转换为文本或数字以供asr系统的其它方面或其它车辆系统使用。在进一步示例中,后处理器模块216可用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器216可用于训练解码器模块214的声学模型,或训练预处理器模块212的适配参数。

该方法或其部分可在计算机程序产品中实施,该计算机程序产品在计算机可读介质中实施并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令以使系统实施一个或多个方法步骤。该计算机程序产品可包括:一个或多个软件程序,该程序由源代码、目标代码、可执行代码或其它格式中的程序指令组成;一个或多个固件程序;或硬件描述语言(hdl)文件;以及任何程序相关数据。数据可包括数据结构、查找表或任何其它合适格式的数据。程序指令可包括程序模块、例程、程序、对象、部件等。计算机程序可在一台计算机上或在彼此通信的多台计算机上执行。

程序可实施在计算机可读介质上,该计算机可读介质可以是非暂时性的并且可包括一个或多个存储装置、制品等。示例性计算机可读介质包括:计算机系统存储器例如,ram(随机存取存储器)、rom(只读存储器);半导体存储器,例如eprom(可擦除可编程rom)、eeprom(电可擦除可编程rom)、闪速存储器;磁盘或光盘或磁带;等。例如当通过网络或另一种通信连接(有线、无线或其组合)传递或提供数据时,计算机可读介质还可包括计算机与计算机连接。上述示例的任何组合也包括在计算机可读介质的范围内。因此应当理解的是,该方法可至少部分地由能够实行与所公开方法的一个或多个步骤对应的指令的任何电子物品和/或装置来执行。

方法

现在转至图3,示出了用于完成语音识别任务的示例方法的过程流程图。过程300可在框305处开始,其中在车辆12中接收到语音命令。例如,可在安装在车辆12中或安装至车辆12的麦克风52处接收语音。

前进至框310,过程300可确定在语音识别系统或子系统中是否需要校正辅助。在一些示例中,可使用低于给定阈值的随时间变化的性能来确定校正辅助将是有益的。更具体地,例如车辆12的asr系统的准确率可能低于规定阈值,或可能存在一致的用户困难度的某个其它指示。

在一些示例中,框310可简单地查询语音命令的域是否是通常遭遇降低的性能或准确度的域(诸如导航)还是采用专有名称、街道名称、城市名称等的其它语音域。在此类示例中,车辆12可使用便利的任何手段来确定语音的域是否涉及导航。仅作为示例,可分析语音以确定地址、兴趣点或导航语音命令的典型其它特性的存在。

如果框310处的查询的结果是不需要校正辅助,或该域不是导航,那么过程300可前进至框315,其中使用标准语音识别流程或逻辑,即,不存档如下面在框320至345中进一步描述的语音命令。从框315开始,过程300接着可终止。

替代地,如果框310处的查询的结果是需要校正辅助或校正辅助将会有用的,或语音命令的域是导航,那么过程300可前进至框320。在框320处,可例如在车辆12处存档语音命令。仅作为示例,语音命令可被存档为.ogg或.wav文件,并且可被存储在安装于车辆12中的存储器中,例如作为远程信息处理单元30的一部分或存储在asr系统210中。存档的语音可用于至少在后续语音识别会话中改进对语音的识别。例如,在车辆12的后续语音识别会话中,可使用归档的语音来快速地与后续语音进行比较。以此方式,车辆12可相对快速地提供改进的语音识别,并且不需要依赖例如由远程设施80提供的远离车辆12的资源。在一些示例方法中,诸如归档语音等车内资源的使用可仅在语音识别域中使用,其中准确度或客户满意度是有问题的,诸如导航。过程300然后可前进至框325。

在框325处,可将存档语音命令发送至远程设施80。语音命令可以任何便利的方式发送至远程设施80。例如,可能需要在将归档语音命令发送至远程设施80之前压缩或以其它方式最小化归档语音命令的大小,由此减少车辆12的带宽使用。

前进至框330,车辆12可对语音命令执行本地语音识别,即,使用上文在图2中描述的车辆12的语音识别系统,并且将结果呈现给车辆12的用户。过程300然后可前进至框335。

在框335处,过程300可询问在框330处呈现的语音识别结果是否充分表示了期望的语音命令。例如,车辆12可确定车辆12的用户是否立即接受所呈现的一种结果,指示成功的识别结果,或反而所呈现结果面临一定困难。如果用户拒绝了结果,或重复了请求,或将请求重复了预定的次数,那么这可提供语音识别的结果不正确的指示。如果确定识别结果不正确或用户对得到该结果有一定困难,那么过程300可前进至框345。

通常,框335可使用车辆12的用户如何响应在框330处呈现的语音识别结果的分析,以确定呈现给用户的语音识别结果是否足够。在用户响应指示得到结果有一定困难的情况下,例如通过一次或多次拒绝结果,或在成功完成语音命令会话之前结束语音命令会话,过程300可确定语音识别结果没有充分捕捉预期的语音命令。

因此,在确定用户对所呈现的结果有一定困难的情况下,在框345处,可由远程设施80向车辆12提供或传输路线请求。例如,远程设施80的人员可被通知用户在车辆12中面临困难,并且可分析被发送至远程设施80的压缩语音命令。人员可例如通过在框320/325处已经发送至远程设施的存档命令来查看语音命令,并且确定预期的请求。另外,在一些示例中,远程设施80可查看从车辆12接收的存档语音的记录。因此,在某些短语或命令已经导致车辆12中的asr系统的多个故障的情况下,远程设施80可查看先前的命令的历史以确定车辆12的asr系统不能准确识别的校正动作或特定命令。远程设施80可将旨在回答预期语音命令的结果直接传输至车辆12。例如,因为车辆12没有正确地确定用户请求是什么,所以远程设施80可用于例如通过向车辆12提供逐向导航来提供导航服务。以此方式,在用户对得到语音命令有一定困难的情况下,用户通常可自动接收路线请求或可能回答他们的初始查询的信息。过程300然后可终止。

如果在框330处向用户呈现的识别结果在框335处被确定为已被用户接受,或以其它方式呈现而用户没有实质困难,那么过程300可前进至框340。在框340处,导航任务通过普通语音识别过程完成,即,不需要由远程设施80处的人员分析存档的导航命令的远程分析。因此,可使用车辆12的车载资源(例如,gps和地图数据)来完全满足语音命令请求(例如,用于导航辅助)。

应当理解的是,前述内容是对本发明的一个或多个实施例的描述。本发明不限于本文公开的特定实施例,而是仅由下面的权利要求限定。另外,包括在前述描述中的声明涉及特定实施例,并且不能解释为限定本发明的范围或限定权利要求书中所使用的术语,除非术语或措词在上面进行了明确限定。对所公开的实施例的各种其它实施例和各种改变和修改对于本领域技术人员将是显而易见的。所有这些其它实施例、改变和修改旨在落入所附权利要求的范围内。

如本说明书和权利要求中所使用,术语“例如(e.g.)”、“例如(forexample)”、“例如(forinstance)”、“诸如”和“等”以及动词“包含(comprising)”、“具有”、“包括(including)”和它们的其它动词形式在结合一个或多个部件或其它项目的列表使用时,各自被解释为开放式,意指该列表不应被视为排除其它、另外的部件或项目。其它术语是使用它们的最广泛的合理含义来解释,除非它们用于要求有不同解释的上下文中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1