车辆自动语音识别系统的优先化内容加载的制作方法

文档序号:12598529阅读:196来源:国知局
车辆自动语音识别系统的优先化内容加载的制作方法与工艺

本发明涉及加载车辆自动语音识别(ASR)系统的内容,并且更具体地,涉及基于一个或多个用户的系统交互历史来选择性地加载内容。



背景技术:

个人数据内容的大小持续增加,这往往导致针对车辆自动语音识别(ASR)系统的问题。目前,车辆ASR系统的内容可基于非专用标准或通用标准(诸如字母顺序)来加载,直到达到系统存储器的存储极限。即使可能加载所有的内容,但这可能并不是人们所期望的,因为如果大多数内容不被请求,那么系统性能可能会受到负面影响。如果个人数据的大小过于庞大而不能被加载并且不可由ASR系统完全访问,则用户命令则可能不被理解,因为随着数据量的逐渐增大,语音识别的精确度往往降低。因此,在用户请求未被理解时,用户可能变得沮丧,因为请求的内容项目是随机可用的,而不是随时可用的。



技术实现要素:

根据本发明的一个实施例,提供了一种加载车辆自动语音识别(ASR)系统内容的方法。车辆ASR系统包括处理器和存储器。该方法包括跟踪请求的内容项目,建立相关内容项目的计数,使用该相关内容项目的计数来计算请求的内容项目与相关内容项目的似然准则,并且基于该似然准则对内容项目的加载进行优先级排序,使得所请求的内容项目与相关内容项目优先于非请求内容项目或者非相关内容项目被加载到车辆ASR系统的存储器中。

根据本发明的另一实施例,提供了一种加载车辆自动语音识别(ASR)系统内容的方法。车辆ASR系统包括处理器和存储器。该方法包括跟踪请求的内容项目以及将所请求的内容项目分类为多个内容项目类别。内容项目类别包括媒体内容项目、电话内容项目以及导航内容项目。该方法还包括从每个内容项目类别选择性地加载内容项目,使得具有较高计数的请求的内容项目先于具有较低计数的请求的内容项目被加载到车辆ASR系统的存储器上。

附图说明

下文将结合附图对本发明的一个或多个实施例进行描述,其中,相同的标记表示相同的元件,并且其中:

图1是描绘语音用户接口和通信系统的一个实施例的框图,该通信系统能够利用本发明所公开的方法,并且能够为发明所公开的方法提供输入;

图2是描绘自动语音识别(ASR)系统的一个实施例的框图;以及

图3是示出可与图1和图2中示出的通信系统和ASR系统一起使用的方法步骤的流程图。

具体实施方式

下面描述的加载车辆自动语音识别(ASR)系统的内容的方法可以利用有关一个或多个用户的交互历史的ASR系统知识。交互历史以及其它有关信息可用来对更可能被用户请求的内容项目进行优先级排序。由于有助于确保最可能呈现的内容随时可用(而不是随机可用),ASR系统的精确度以及语音交互的有效性可改善用户体验。通常,用户仅访问和/或请求约20%的内容,所以通过优选地限制被加载内容,ASR系统特性可得以改进。

图1描绘了基于语音的用户接口和通信系统10的一个实施例,其可用于通过移动设备、车辆自身或另一基于陆地或基于云的应用程序来提供各种内容项目。内容项目可以免提的方式提供给车辆驾驶员。一些实施例能够被实现为提供可能需要一些与移动设备的交互的免提体验,例如将其置于收听模式,而其它实施例能够执行成完全免提的,例如当移动设备在用户的口袋、钱包或者公务包中,而无需与设备进行身体接触。

在所示的实施例中,车辆12的驾驶员与车上已安装的声音用户接口14进行语音交互,该接口经由短程无线连接与驾驶员移动设备16通信,在本例中,移动设备16为蜂窝电话。移动设备16可以是任何可携带的设备,其能够使用无论是微处理器还是一些更简单或更复杂的电路来进行无线通信和数字处理。因此,移动设备包括蜂窝电话、PDA、膝上电脑、笔记本、上网本以及其它个人电子设备。图1描绘的蜂窝电话16通常指的是智能电话,假设它允许用户向智能电话增加软件应用程序(app),以实现电话之外的功能。电话16包括触摸屏接口、一个或多个手动按钮、麦克风、扬声器以及内部电路(硬件),该内部电路包括微处理器、用于存储软件和数据的存储器以及通信电路,该通信电路至少包括如蓝牙和/或WiFi的短程无线通信技术诸,而且还包括诸如用于CDMA以及GSM的蜂窝芯片组的蜂窝通信技术或者其它标准化技术。如果需要的话,移动设备16的这些不同部件可以是常规部件,因而此处不再单独示出或者描述。

除移动设备硬件之外,蜂窝电话16还可包括移动语音平台(MVP)18,该移动语音平台(MVP)18包括在移动设备上运行的软件。MVP 18可包括语音平台内核(SPK)20以及应用程序接口组(AIS)22,上述两者都是包括诸多计算机指令的程序模块,当设备的处理器执行这些计算机指令时,其执行各自的模块功能。与在移动设备本身上提供自动语音处理(ASR)不同,远程定位(移动式和基于云的)的语音服务可以提供移动式和基于云的、经常被使用的内容项目24,但是在一些实施例中,在接入或者不接入远程定位语音模块、语法和计算设施的情况下,ASR可以车辆12的硬件上执行。移动设备16还包括操作系统(OS)26,其提供根一级的功能,包括例如应用程序之间的通信机制以及设备硬件和在设备16上运行的软件模块及应用程序之间的输入/输出(IO)接口连接。在OS的这些硬件接口功能中,包括:由设备所使用的通信协议,以与用于提供移动式和基于云的内容项目24的各种语音服务、以及可以通过因特网或其它网络技术获得的其它服务进行通信。经常地,来自移动设备16的内容项目24可上传至并存储在位于车辆12硬件内的存储器中。虽然在图1中仅作为示意图显示在车辆外面,但是作为语音用户接口10一部分的移动设备16的典型使用将涉及移动设备位于车内的情形,例如当驾驶员在路面上操作车辆时。

总体上,使用移动语音平台18或另一车辆、云或陆上模块的免提接入服务将涉及执行完整的语音会话,而无需进行任何实体交互。这广泛地包括:从用户请求的内容项目接收语音输入,从响应于该语音输入的上下文的服务获取该内容项目,并且将该内容项目本身提供给用户或者将作为呈现的语音响应的内容项目提供给用户。使用图1中的车辆12,驾驶员(用户)可以与移动设备交互,例如,以通过用户接口14执行语音会话。这可包括:车内用户接口14与移动设备16之间建立短程无线连接,例如,该连接随后允许使用用户接口14的麦克风和扬声器分别用于从驾驶员或其他乘员接收和向其呈现语音。语音输入可以在这种短程无线连接上通过诸如Bluetooth或WiFi的数字通信协议、作为数字化语音被发送。驾驶员还可与车辆硬件交互,以执行语音会话,以下将对其进行详细描述。

在示出的实施例中,车辆12被描绘为运动型多用途汽车(SUV),但是,应当理解的是,也可以使用任何其它车辆,包括:客车、卡车、摩托车、休闲车(RV)、海洋船舶、飞机等。在图1中一般性地示出了一些车辆电子设备28,其包括远程信息处理单元30、麦克风32、一个或多个按钮或者其它控制输入34、音频系统36、视觉显示器38和GPS模块40以及一定数量的车辆系统模块(VSM)42。麦克风32和一个或多个按钮或者其它控制输入34可以用来形成用户接口14。一些此类设备可直接连接至远程信息处理单元,诸如,例如,麦克风32和按钮34,而其它此类设备可使用一个或多个网络连接(诸如,通信总线44或娱乐总线46)间接连接。合适的网络连接的实例包括控制器局域网(CAN)、面向媒体的系统传输(MOST)、本地互连网络(LIN)、本地局域网(LAN)及其它适当的连接,诸如,以太网(Ethernet)或其它遵守公知的ISO、SAE和IEEE标准和规范的网络等。

远程信息处理单元30可以是原始装备制造商(OEM)安装的(嵌入的)设备或者售后市场设备,其安装在车辆中并且在无线载波系统14上并且通过无线网络进行无线语音和/或数据通信。这使车辆能够与呼叫中心、其它具备远程信息处理能力的车辆或某种其它实体或设备进行通信。远程信息处理单元优选地使用无线电传输来建立与无线载波系统14的通信信道(语音信道和/或数据信道),使得语言传输和/或数据传输在信道上被发送和接收。通过同时提供语音与数据通信,远程信息处理单元30使车辆能够提供许多不同的内容项目,包括那些有关导航、电话、紧急救助、车辆诊断、媒体和信息娱乐等内容项目。通过数据连接(诸如通过数据信道上的分组数据传输)或者通过使用本领域已知技术中的语音信道可以发送数据。对于同时涉及语音通信(例如,使用呼叫中心处的实时顾问或语音响应单元)和数据通信(例如,向呼叫中心提供GPS位置数据或车辆诊断数据)的组合服务,系统可以通过语音信道来使用单个呼叫,并且可以通过语音信道根据需要在语音和数据传输之间切换,并且这可以使用本领域技术人员已知的技术来完成。

根据一个实施例,远程信息处理单元30利用根据GSM标准、CDMA标准或者LTE标准的蜂窝通信,因此包括类似免提呼叫的用于语音通信的标准的蜂窝芯片组50、用于数据传输的无线调制解调器、电子信息处理设备或处理器52、包括存储器54的一个或多个数字存储设备以及双天线56。应当理解,调制解调器既可以通过被存储在远程信息处理单元中的软件来实现并且由处理器52来执行,又可以是位于远程信息处理单元30的内部或外部的、单独的硬件部件。调制解调器可以使用任意数目的不同标准或协议(诸如LTE、EVDO、CDMA、GPRS和EDGE)来操作。车辆与其它联网的设备之间的无线网络还可使用远程信息处理单元30来执行。为此目的,远程信息处理单元30可以被配置成根据一种或多种无线协议(其包括短程无线通信(SRWC),诸如IEEE 802.11协议、WiMAX、ZigBeeTM、直接Wi-Fi、蓝牙或近场通信(NFC))中的任一个来以无线方式通信。当被用于诸如TCP/IP的分组交换数据通信时,远程信息处理单元可以配置有静态IP地址或可以建立,以自动地从网络上的诸如路由器的另一设备或从网络地址服务器接收被指配的IP地址。

处理器52可以是能够处理电子指令的任何一种设备,包括微处理器、微控制器、主机处理器、控制器、车辆通信处理器以及专用集成电路(ASIC)。它可以是仅用于远程信息处理单元30的专用处理器,或是被其它车辆系统共享的处理器。处理器52执行各种类型的数字存储指令,诸如存储在存储器54中的软件或固件程序,它们使远程信息处理单元能够于提供多种服务。例如,处理器52可以执行程序或处理数据,以实现此处所讨论的方法的至少一部分。

在一个实施例中,处理器52和远程信息处理单元30的存储器54充当用于ASR系统的处理器和存储器。然而,应理解的是,ASR系统存储器可以包括来自未示出的各种来源的多个存储器设备。相应地,一种或多种类型的存储器54可包括非易失性存储器、驱动器、大容量存储设备,并且可以包括任意合适的软件、算法和/或子程序,该子程序提供具有存储、组织以及允许检索内容的能力的数据存储部件。存储器54可包括单一部件或多个共同作用的分立部件。存储器54可专门用于与远程信息处理单元30一起使用,然而在其它实例中,存储器54可以被车辆12的车载或车外其他系统共享。

远程信息处理单元30可用于提供不同范围的内容项目,通常涉及到车辆的无线通信和/或来自车辆的无线通信。此类内容项目可包括但不限于:诸如分路段显示路线的内容项目、地址列表和其它与导航相关的服务,这些服务结合基于GPS车辆导航模块40来提供;车辆诊断内容项目,例如,安全气囊展开通知和其它急救或路边救助相关的通知及服务,其可结合一个或多个碰撞传感器接口模块(诸如车身控制模块(未示出))以及使用一个或多个诊断模块的诊断报告来提供;以及信息娱乐相关内容项目(例如,媒体内容项目和基于应用程序的内容项目),在其中音乐、网页、电影、电视节目、应用程序、视频游戏和/或其它信息由信息娱乐模块(未示出)或者远程信息处理单元30本身下载,并被存储以供当前或以后播放。上述列举的内容项目决不是远程信息处理装置30的所有能力的穷举性列举,而是简单地列举远程信息处理装置30能够提供的一些内容项目。而且,除了来自远程信息处理单元,内容项目还可以直接地或者间接地来自各种其它来源。此外,应当理解的是,如上所述的模块中至少一些可采取软件指令的形式来实施,这些软件指令被保存在远程信息处理单元30的内部或者外部,它们可以是位于远程信息处理单元30的内部或外部的硬件部件,或它们可以是集成系统和/或彼此共享或与位于整个车辆中的其它系统共享,在此仅列几种可能。在模块作为位于远程信息处理单元30的外部的VSM 42被实施的情况下,它们可以利用车辆总线44和远程信息处理单元交换数据和命令。

GPS模块40可以从GPS卫星的星座58接收无线电信号。模块40可通过这些信号来确定车辆位置,该车辆位置被用于向车辆驾驶员提供导航和其它位置相关的服务。导航信息可以在显示器38(或车辆内的其它显示器)上呈现,或诸如在提供逐向路线导航时口头呈现。导航内容项目可使用专用车载导航模块(其可以是GPS模块40的一部分)来提供,或者一些或所有导航内容项目可以通过远程信息处理单元30来提供,其中,将位置信息发送至远程位置,目的是用于向车辆提供请求的目的地、导航地图、地图注释(兴趣点、餐馆等)、路径计算等等。位置信息可以被提供至呼叫中心或其它远程计算机系统(诸如计算机60)以用于其它目的(诸如车队管理)。还可以通过远程信息处理单元30从呼叫中心将新的或更新的地图数据下载至GPS模块40。

除了音频系统36和GPS模块40,车辆12还可包括采用电子硬件部件形式的其它车辆系统模块(VSM)42,它们位于整个车辆中且通常从一个或多个传感器接收输入,并且使用所感测的输入来执行诊断功能、监视功能、控制功能、报告功能和/或其它功能。每个VSM 42优选地通过通信总线44连接到其它VSMs以及远程信息处理单元30,并且可以被编程来运行车辆系统以及子系统诊断测试。作为实例,一个VSM 42可以是发动机控制模块(ECM),其控制发动机操作的各个方面,诸如燃料点火和点火时间,另一VSM 42可以是动力系统控制模块,其调节车辆动力系统的一个或多个部件的操作,并且另一VSM 42可以是车身控制模块,其支配位于整个车辆中的各种电气部件,诸如车辆的电源门锁和前灯。根据一个实施例,发动机控制模块配备有车载诊断(OBD)特征,这些特征可提供大量的实时数据,诸如从包括车辆排放传感器的各种传感器接收的数据,并提供一系列标准化诊断故障代码(DTC),这就允许技术员快速识别并修补车辆内的故障。正如本领域技术人员所理解的,上述VSM仅是可以用于车辆12的一些模块的实例,许多其它的模块也是可能的。

车辆电子设备28还包括用户接口14,所述用户接口为车辆乘员提供用于提供和/或接收信息的装置,包括麦克风32、按钮34、音频系统36和视觉显示器38。正如本文所使用的,术语“用户接口”广义地包括任何适当形式的电子设备,包括硬件和软件部件,其位于车辆上并使得车辆使用者能与车辆部件通信或通过车辆部件进行通信。麦克风32向远程信息处理单元30提供音频输入,使得驾驶者或其它乘员能够通过无线载波系统62提供语音命令并且进行免提呼叫。为了这个目的,它可以利用本领域已知的人机接口(HMI)技术连接到车载自动语音处理单元。按钮34允许人工用户输入进入远程信息处理单元30以启动无线电话呼叫并提供其它数据、响应或控制输入。独立按钮可以用于启动呼叫中心的紧急呼叫与常规服务援助呼叫。音频系统36可以向车辆乘员提供媒体内容项目且可以是专用的独立系统或是主车辆音频系统的一部分。根据本文所示的具体实施例,音频系统36可操作地联接到车辆总线44和娱乐总线46,且可以提供AM、FM以及卫星无线电广播、CD、DVD以及其它多媒体功能。此功能可以结合上述信息娱乐模块或独立于上述信息娱乐模块提供。视觉显示器38优选是图形显示器,诸如仪表板上的触摸屏或从挡风玻璃映出的仰视显示器,并可以用于提供多种输入和输出功能。也可以利用各种其它车辆用户接口,因为图1的接口仅仅是一个具体实施方式的实例。

无线载波系统62优选是蜂窝式电话系统,该蜂窝式电话系统包括多个蜂窝塔64(仅示出一个)、一个或多个移动交换中心(MSC)66以及连接无线载波系统62与陆地网络68所需的任何其它网络部件。每个蜂窝塔64包括发送和接收天线以及基站,来自不同蜂窝塔的基站直接或经由诸如基站控制器的中间设备连接到移动交换中心66。蜂窝系统62可以采用任何合适的通信技术,包括例如,模拟技术(例如,AMPS),或诸如CDMA(例如,CDMA2000)或GSM/GPRS的数字技术。如本领域技术人员将理解的,各种蜂窝塔/基站/MSC布置是可能的且可以与无线系统62一起使用。例如,基站和蜂窝塔可以共同位于相同位置处或者可以彼此相距较远,每个基站可负责单个蜂窝塔或者单个基站可服务多个蜂窝塔,且多个基站可联接到单个MSC,这里仅列举一些可能的布置。

除了使用无线载波系统62,还可以使用卫星通信形式的不同无线载波系统来提供与车辆的单向或双向通信。这可以用一个或多个通信卫星70和上行链路传输站72来完成。单向通信可以是例如卫星无线电服务,其中节目编排内容(新闻、音乐等)由传输站72接收,打包以便上传,然后发送给卫星70,卫星70将该节目广播给用户。双向通信可以是例如卫星电话服务,使用卫星70来在车辆12和传输站72之间中继电话通信。如果使用,则该卫星电话可以在无线载波系统62之外使用或替代无线载波系统62而使用。

陆地网络68可以是常规的陆上电信网络,其可连接到一个或多个陆地线路电话,并可以将无线载波系统62连接到诸如用于提供内容项目24的基于移动和云的应用程序以及其它计算机或服务器60(诸如位于住所的个人计算机或其它设施)。例如,陆地网络68可以包括公共交换电话网络(PSTN),例如用于提供硬线电话、分组交换数据通信以及互联网基础设施。陆地网络68的一个或多个部分可以通过使用标准有线网络、光纤或其它光网络、线缆网络、电力线、其它无线网络诸如无线局域网(WLAN)、提供宽带无线接入(BWA)的网络或它们的任意组合实施。此外,图1中所示的语音和云内容项目不需要经由陆地网络68提供,而可以包括无线电话设备,使得其可以直接与无线网络(诸如无线载波系统62)通信。

计算机60可以是可经由专用或公共网络(例如,互联网)访问的多台计算机之一。每台这种计算机60可以用于一个或多个目的,例如可由车辆经用户接口14/移动设备16通过无线载波系统62,和/或经远程信息处理单元30访问的网页服务器。其它这种可访问的计算机60可以是例如:服务中心计算机,其中,诊断信息和其它车辆数据可以经由远程信息处理单元30从车辆上传;客户端计算机,由车辆拥有者或其它远程信息处理服务订户使用,用于诸如访问或接收车辆数据或设置或配置订户偏好或控制车辆功能的目的;或第三方库,车辆数据或其它信息从所述第三方库提供或提供给所述第三方库。计算机60还可以用于提供互联网连接,例如DNS服务或网络地址服务器,其使用DHCP或其它合适的协议来分配IP地址给车辆12和/或移动设备16。当被车辆拥有者作为客户端计算机60使用时,例如在住所内,则可以使用任何适当的短距离无线通信技术例如蓝牙或任何802.11协议在移动设备16与计算机60之间提供无线连接。

参考图1所标识的语音服务和内容项目的提供可以以各种方式实施,且在一些实施例中可以被唯一地设计或包含设计为用于支持语音用户接口10的特定语法或模型。在其他实施例中,一般化云ASR服务被用作车辆ASR;也就是说,其中的一个,虽然它可以允许对于语音识别引擎的特定语言模型和其他通用配置进行参数规定,但是其却并不使用为用户语音会话所期望的会话上下文而定制的语法。如图1所示,移动设备16的移动语音平台18与车辆12的用户接口14之间可发生语音交互,该用户接口14通常包括车辆ASR系统或是车辆ASR系统的一部分,这将在下文进一步详细说明。

现转到图2,其示出了可以与本发明公开的方法结合使用的车辆ASR系统210的示例性架构。通常,车辆乘员为了下面一个或多个基本目的用言辞与ASR系统进行交互:训练系统以理解车辆乘员的特定语音;存储离散语音,诸如说出的用户标签或说出的控制词语(如数字或关键字);或识别车辆乘员的语音,用于任何适当的目的,诸如请求可包括各种语音拨号操作、菜单导航、转录、服务请求、车辆设备或设备功能控制等等在内的内容项目。通常,ASR系统从人的语音中提取声学数据,将该声学数据与存储的子词语数据进行对照和对比,选择能与其它选择的子词语连接的适当子词语,并输出连接后的子词语或词语以用于后处理,诸如口述或转录、通信录拨号、存储到存储器、训练ASR模型或适配参数等等。

ASR系统通常是本领域技术人员已知的,且图2仅示出一个具体示例性的ASR系统210。系统210包括接收语音的设备(诸如远程信息处理麦克风32)和声学接口33(诸如远程信息处理单元30的具有模数转换器以将语音转换为声学数据的声卡)。系统210还包括存储器(诸如远程信息处理存储器54),用于存储声学数据以及存储语音识别软件和内容项目数据库;以及处理器(诸如远程信息处理处理器52),以处理声学数据。处理器与存储器一起并联合以下模块来正常运行:一个或多个前端处理器或预处理器软件模块212,用于将语音的声学数据流解析成参数表示,诸如声学特征;一个或多个解码器软件模块214,用于解码声学特征以产生与输入语音话语相对应的数字子词语或词语输出数据;以及一个或多个后处理器软件模块216,以用于将来自解码器模块214的输出数据用于任何适当目的。

系统210还可以从任何其它适当的音频源31接收语音,该音频源31可以如实线所示地直接与预处理器软件模块212通信或经由声学接口33与预处理器软件模块212间接通信。音频源31可以包括例如音频的远程信息处理源,诸如语音邮件系统,或任何类型的其它远程信息处理服务或基于应用程序的服务。

一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词汇模型218可提供管理哪个词语逻辑上可以在其他词语之后以形成正确语句的规则。从广义上讲,语法可以定义系统210在任意给定时间在任意给定ASR模式中期望的词汇总体。例如,如果系统210处在用于训练命令的训练模式,则语法模型218可以包括系统210已知和使用的所有命令。在另一个实例中,如果系统210处于主菜单模式,则有效的语法模型218可以包括系统210期望的所有主菜单命令,如呼叫、拨号、退出、删除、目录等。其次,声学模型220可以帮助选择与来自预处理器模块212的输入相对应的最可能的子词语或词语。第三,词语模型222和语句/语言模型224可以在将选择的子词语或词语排列成词语或语句上下文时提供规则、语法和/或语义。另外,语句/语言模型224可以定义系统210在任意给定时间在任意给定ASR模式中期望的语句总体,和/或可以提供管理哪些语句逻辑上可以在其它语句之后以形成正确扩展语音的规则等。

根据替换性示例性实施例,ASR系统210的部分或全部可以驻留在处于远离车辆12的位置处诸如呼叫中心的计算设备上,并可使用该计算设备来处理ASR系统210的部分或全部。例如,语法模型、声学模型等可存储在呼叫中心的服务器存储器和/或数据库中,并通信到车辆远程信息处理单元30以用于车内语音处理。换句话说,ASR系统210可以驻留在远程信息处理单元30中,以任何期望方式分布在呼叫中心和车辆12,和/或驻留在呼叫中心。

首先,从人的语音中提取声学数据,其中,用户对着麦克风32说话,麦克风32将话语转换成电信号,并将此信号通信到声学接口33。麦克风32中的声音响应元件捕获用户的语音话语作为空气压力的变化,并将该话语转换成诸如直流电流或电压的模拟电信号的相应变化。声学接口33接收模拟电信号,首先对该模拟电信号进行采样,从而在离散时刻捕获该模拟信号的值,然后对其量化从而在每个采样时刻将模拟信号的幅值转换为连续的数字语音数据流。换句话说,声学接口33将模拟电信号转换成数字电信号。数字数据是二进制位,其在远程信息处理存储器54中进行缓冲,然后由远程信息处理处理器52进行处理,或可以在由处理器52最初接收时实时处理。

第二,预处理器模块212可以将连续的数字语音数据流变换为声学参数的离散序列。更具体地,处理器52可以执行预处理器模块212,以将数字语音数据分段为例如10-30ms持续时间的交叠的语音或声学帧。帧对应于声学子词语,例如音节、半音节、单音、双连音、音素等。预处理器模块212还进行语音分析,以从每一帧内从乘员的语音提取声学参数,诸如随时间变化的特征向量。乘员语音中的话语可以被表示为这些特征向量的序列。例如,如本领域技术人员所知的,可以提取特征向量,且特征向量可以包括,例如,音高、能线图、光谱属性和/或倒频谱系数,这些可以通过执行帧的傅里叶变换以及使用余弦变换对声谱进行解相关来获得。覆盖特定语音持续时间的声学帧和对应参数被连接成待解码的未知语音测试模式。

第三,处理器可以执行解码器模块214,以处理每个测试模式的进入特征向量。解码器模块214也被称为识别引擎或分类器,并使用存储的已知语音参考模式。如测试模式,参考模式也被定义为相关声学帧与相应参数的连接。解码器模块214将待识别的子词语测试模式与存储的子词语参考模式的声学特征向量进行对照和对比,评估它们之间的差异或相似度的大小,并且最终使用判决逻辑选择最佳匹配子词语作为识别后的子词语。通常,最佳匹配子词语是这样的子词语:其和通过本领域技术人员已知的分析和识别子词语的各种技术中的任一种确定的与该测试模式具有最小不相似度的或最有可能是该测试模式所存储的已知参考模式相对应。这些技术可以包括动态时间规整分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器,例如隐马氏模型(HMM)引擎。

在一个实例中,语音识别解码器214用适当的声学模型、语法和算法处理特征向量以生成参考模式的N-最佳列表。如本文所使用的,术语参考模式可与模型、波形、模板、富信号模型、示例、假设或其它类型参考互换。参考模式可以包括代表一个或多个词语或子词语的一系列特征向量,并且可以基于特定说话者、说话风格和听得见的环境状况。本领域技术人员将认识到,可以通过ASR系统适当的参考模式训练生成参考模式并将其存储在存储器中。本领域技术人员还将认识到,可以操纵所存储的参考模式,其中基于参考模式训练与ASR系统的实际使用之间的语音输入信号中的差异而调整参考模式的参数值。例如,基于不同车辆乘员或不同声学状况的有限量的训练数据,针对一位车辆乘员或某些声学状况而训练的一组参考模式可以被调整并存储为针对不同车辆乘员或不同声学状况的另一组参考模式。换句话说,参考模式不一定要固定,且可以在语音识别期间被调整。

使用词汇内语法以及任何适当解码器算法和声学模型,处理器从存储器访问了解释该测试模式的若干参考模式。例如,处理器可以生成且在存储器中存储N-最佳词汇结果或参考模式的列表以及相应的参数值。示例性参数值可以包括词汇的N-最佳列表中的每个参考模式的信赖分数以及相关段持续时间、可能性分数、信号噪声比(SNR)值等。可以按照参数值大小的下降排列词汇的N-最佳列表。例如,具有最高信赖分数的词汇参考模式是第一最佳参考模式等。一旦建立了被识别的子词串,这些子词语就可以用于利用词语模型222的输入构建词语,并利用来自语言模型224的输入构建语句。

最终,后处理器软件模块216可以接收来自解码器模块214的输出数据以用于任何适当的目的。在一个实例中,后处理器软件模块216可以从单个或多个词语参考模式的N-最佳列表中识别或选择参考模式之一作为被识别的语音。在另一个实例中,后处理器模块216可以用于将声学数据转换为文本或数字,以用于ASR系统的其它方面或其它车辆系统。在又一个实例中,后处理器模块216可以用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器软件模块216可以用于为解码器模块214训练声学模型,或者训练预处理器模块212的适应参数。

可以计算机程序产品中实施该方法或其一部分,该计算机程序产品包括在计算机可读介质中承载供一个或多个系统中的一台或多台计算机的一个或多个处理器使用以实施一个或多个方法步骤的指令。计算机程序产品可包括:一个或多个软件程序,其包括源代码、目标代码、可执行代码或其它格式的程序指令;一个或多个固件程序;或硬件描述语言(HDL)文件;以及任何程序相关的数据。所述数据可以包括数据结构、查找表或任何其它适当格式的数据。所述程序指令可以包括程序模块、例程、程序、对象、部件等。可以在一台计算机上或者在彼此通信的多台计算机上执行计算机程序。

程序可以承载在计算机可读介质上,所述计算机可读介质可以是非瞬时的且可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括:计算机系统存储器,例如,RAM(随机存取存储器)、ROM(只读存储器);半导体存储器,例如,EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、闪存;磁盘或光盘或磁带;和/或其它。计算机可读介质还可包括计算机到计算机的连接,例如,当通过网络或另一个通信连接(有线、无线或其组合)传输或提供数据时。上述实例的任意组合也包括在计算机可读介质的范围内。因此,应当理解的是,可以通过能够执行与所公开的方法的一个或多个步骤相对应的指令的任何电子产品和/或设备至少部分地执行该方法

现转到图3,提出了一种对车辆ASR系统内容的加载进行优先级排序的方法310。在一些实施例中,所述方法310或其部分可接入或利用来自所述基于语音的用户接口和通信系统10的各个部分的内容项目,且所述方法310或其部分可完成涉及自动语音识别系统210的不同部分和/或过程。所述方法310可包括比下文描述更多或更少的步骤,一些步骤是可选的,且各步骤的顺序可与详细描述的不同。熟练的技术人员将理解在产生用于执行对车辆自动语音识别系统内容加载进行优先级排序的方法的算法和/或其它程序或过程中所涉及的设计灵活性,因此,可采用方法步骤或方法步骤的部分的任何可操作组合。

从步骤312开始,所述方法跟踪请求的内容项目。内容项目可包括各媒体内容项目、电话内容项目、导航内容项目、基于应用程序的内容项目、和/或车辆诊断内容项目。内容项目可包括任何用户ASR系统请求,包括但不限于通过用户移动设备、歌曲、播放列表、艺术家、广播电台、音乐类型、媒体流来源、视频、地址、分路段显示路线、车辆诊断请求等特定语音拨号或语音输入请求。所述内容项目可以是专用于特定用户的自动语音识别系统,以便由此形成个性化系统交互历史。或者,所述内容项目可以是由许多不同用户所请求。内容项目可来自车载源(诸如来自GPS模块40),可来自车外源(诸如可从呼叫中心转接或由呼叫中心管理的车辆诊断内容项目),或者可来自第三方源(诸如电子邮件提供商或应用程序),仅举几例。在一些实施例中,来自车外源和第三方源的内容项目可经由远程信息处理单元30访问。在一个优选实施例中,所请求的内容项目按源进行计数。例如,如果一名用户38次请求将Rolling StonesTM作为内容项目,其中15次经由SpotifyTM访问,且其中23次经由MyMediaTM访问,所请求的项目可包括下列各项:Rolling Stones38次,Spotify15次,以及MyMedia23次。进一步地,应当理解的是,请求SpotifyTM和MyMediaTM可以是它们本身中的内容项目。

步骤314涉及建立相关内容项目的计数。相关内容项目可包括一项请求内容项目的总和,该请求内容项目可以是或者可以不是按如上所述的源计数,例如,且相关内容项目也可包括来自不同内容项目类别或单个内容项目类别的不同子目录的内容项目。继续上述实例,一项Rolling StonesTM SpotifyTM请求和一项Rolling StonesTM MyMediaTM请求可能是相关内容项目,或与Rolling StonesTM请求相关的内容项目可包括但不限于经典摇滚广播电台或音乐流媒体、包括Rolling StonesTM的歌曲、Rolling StonesTM的视频等的播放列表。在另一实例中,如果你请求分路段显示路线获得Jane′s house,则相关内容项目可包括来自Jane、Jane的电话联系信息等的电子邮件或文本消息。下面进一步详细描述内容项目如何相关联的其它实例。

步骤316是可选的,且涉及对请求的内容项目和相关内容项目进行分类。在一个实施例中,内容项目可分类为一定数量的内容项目类别,包括但不限于媒体内容项目、电话内容项目,及导航内容项目。在另一个实施例中,内容项目类别可进一步包括车辆诊断内容项目和其它基于应用程序的内容项目。其它内容项目类别当然是可能的。本文中所列举的内容项目类别仅为实例,且进一步地,其可以不是互相排斥的。在一个实施例中,内容项目类别可具有一个或多个子类别。举一些例子,媒体内容项目类别可在艺术家、播放列表、类型等中进行细分。电话内容项目类别可在个人联系人、收藏联系人、家庭成员等中进行细分。导航内容项目类别可在收藏地址、与联系人姓名相关联的地址、最近地址等中进行细分。

内容项目类别和/或任何子类别可用于帮助限定相关内容项目。在一个实施例中,相关内容项目可由包括多个内容项目类别的类别内分布限定,其中每个内容项目类别包括一个或多个子类别。类别内分布涉及基于内容项目是否在同一内容项目类别的相关内容项目。继续上述实例,Gimmie Shelter(歌曲)可以是基于类别内分布与Let it Bleed(专辑)、Rolling StonesTM(艺术家)及经典摇滚(类型)相关的内容项目,其中歌曲、专辑、艺术家、类型是媒体内容项目类别的各子类别。在另一实施例中,相关内容项目可由类别内分布限定,其中关于特定主题的内容项目被认为是相关的,都但是事实上它们可能在不同的内容项目类别下。重申上述实例,如果你请求分路段显示路线获得″Jane′s house″(导航内容项目),则相关内容项目可包括来自Jane的电子邮件或文本消息(基于应用程序的内容项目)、Jane的电话联系信息(电话内容项目)等。所述方法310也可使用类别间分布和类别内分布的组合。

所述方法中的步骤318涉及使用相关内容项目计数来计算用于所请求的内容项目和相关内容项目的似然准则。在一个实施例中,计算似然准则可简单涉及对相关内容项目的计数进行排序。例如,如果所述内容项目计数较高(例如,Rolling StonesTM38次计数请求高于BeatlesTM35次请求),则步骤318可确定给定内容项目的似然准则高于另一内容项目。计算似然准则可考虑确定何时添加内容项目,其中最近添加的内容项目比其它内容项目具有更高的似然准则。最新添加的内容项目可能已经在最后一天、最后三天等被添加,且可以是至少部分基于用户添加内容的频率,例如,通过保持N个最近添加内容项目的列表和在添加更近期添加的内容项时移除相比不是最近的内容项目。计算似然准则可涉及根据特定算法的设计,给予内容项目一定的概率值、排序、比值、百分比等。计算似然准则通常可以被认为是开发用于为一个或多个用户开发系统交互历史的知识库的方式。

步骤320涉及基于所述似然准则对内容项目的加载进行优先级排序。为了让用户随时访问而不是随机访问,内容项目可加载到存储器54上。因而,通过基于似然准则对内容项目进行优先级排序,更可能的是,先前请求的内容项目或相关内容项目能够随时可用。如果似然准则是跟踪的内容项目和相关内容项目的排序列表的形式,例如,则内容加载将根据所述排序列表进行优先级排序。如果似然准则考虑内容项目是否最近已被添加,例如,则内容加载可基于所述内容的新近度进行优先级排序。

步骤322涉及选择性地加载内容项目。在一个实施例中,内容项目可选择性地从每个内容项目类别加载,从而具有较高计数的内容项目先于具有较低计数的内容项目被加载到车辆ASR系统的存储器上。可基于关于步骤320所描述的优先级来选择性地加载内容项目。该步骤还可以包括将加载到存储器(诸如ASR系统存储器54)中的内容项目的量限制为所请求的内容项目和相关内容项目。通常,存储器限制为大约10000个内容项目,并且在一个实施例中,大约一半的存储器专用于可选择地加载的内容项目或优先加载的内容项目,并且剩余一半可以不被加载或可以被任意加载。限制可选择性加载或根据优先级加载的内容项目的量可有益于ASR系统的某些方面,包括语法模型、对话流和多道识别。内容项目加载可取决于所实现的数据库结构和与系统相关联的算法或方法。如果所述系统包括可实时查询数据库,则有可能请求特定类别中所有的内容项目(诸如艺术家、播放列表或类型),例如,并且存储所有返回的结果。在其它实施例中,可存在盲序加载过程,其中每个内容项目依次被加载,且系统决定是将其保存还是丢弃。这种过滤程序必须递归地执行,每一道识别有一个较宽的过滤程序,直到达到所期望的限度为止。其它系统实施方式、算法等当然是可能的。

步骤324是可选的,且涉及对内容项目类别进行优先级排序。在一个实施例中,所述内容项目类别可按照具有较高计数的总内容项目先于具有较低计数的总内容项目的加载内容项目类别进行优先级排序。例如,如果用户请求相对于媒体内容项目成比例数目的电话内容项目,则该方法可以相应地成比例地调整分配给每个内容项目的存储的量。可选地,如果默认分配是4000个电话联系人和6000首歌曲用于选择性加载,但是用户从电话和媒体内容项目类别请求相等数量的内容项目,则该分配可以转换为5000个电话内容项目和5000首歌曲。

步骤326是可选步骤,其涉及基于一个或多个用户交互历史来适配车辆ASR系统,例如ASR系统210。如上所述,根据优先级排序选择性地加载或加载的内容项可能是有利的,因为每个对话步骤的优化内容可以提高其自身的识别,并且可以减少任务完成次数。此外,似然准则可添加至语法模型218(例如,有限状态语法)、词语模型222,或语句/语言模型224,并且被整合到置信度得分中。似然准则可被添加到识别结果的结果列表,因此,可以重新计算结果列表的置信度得分。进一步地,似然准则可与多道识别一起使用。在一个实施例中,在第一道识别中,如果完全识别尝试失败,则系统可尝试理解所述类别或预期用户动作,并基于特定类别或子类别的内容项目执行第二道识别或第三道识别。通过限制所述内容项目类别,此类别的更多内容项目可被选择地加载。例如,两道识别可使当媒体内容项目超过时,可被给定对话步骤或用户顺序加载的所述大小,例如,可以启用两道识别,使得当媒体内容项目的数量超过对于给定的对话步骤或用户轮次可以加载的大小时,其中内容量太大而不能被完全加载,针对可选择地加载的两道话语识别,仅执行所述媒体内容项目的孤立上下文。在另一实施例中,对话流可被适应。如果ASR系统多次不识别用户请求,这一现象有可能发生,因为在当前对话步骤中可获得有限的内容,则所述ASR系统可通知用户将所述请求分成更小的步骤,使得ASR系统中的每一步骤具有选择性地加载的内容项目分布。在另一实施例中,可形成信息性提示。例如,如果ASR系统不能识别用户请求,这种情况有可能再次发生,因为在当前对话步骤中可获得有限的内容,系统可通知用户这种局限性及如何去克服。例如,系统可以响应,“好吧,对不起。我可能还不知道这首歌曲。我可以识别艺术家或播放列表。你想要我做些什么?”一旦用户选择想要的歌曲的艺术家或者手动地选择,所述歌曲就将变成跟踪式请求内容项目。

在本方法310的一个实施例中,每个内容项目类别就所述优先级和/或内容项目的选择性加载具有不同的域规则的设置。进一步地,在一些实施方案中可以优选仅将域规则应用于特定内容项目类别。在一个实施例中,更受欢迎的内容项目类别具有域规则,而其它内容项目类别不具有,从而使得所述受欢迎的内容项目类别选择性地加载,之后是其它内容项目的一般的或任意的加载。在一些实施例中,域规则一般可与似然准则一致。

例如,用于媒体内容项目类别的域规则可包括首先加载最近添加的媒体内容项目,然后由类别内分布装载,媒体内容项目从狭义的子类别到广义的子类别(例如:艺术家、播放列表、类型)。随后,可以被用于加载基于应用程序的内容项目(例如:加载在流传输应用源中请求的,在广播元数据源中观察或在这些源之一中赞同为喜欢的请求的或相关的内容项目)。最后,所述媒体域规则可加载剩余的(或该剩余的子集)媒体内容项目,直到满足内容项目或媒体内容项目的阈值量。

用于电话内容项目类别的域规则可包括加载所有联系人名称,该联系人名称曾由用户通过语音或通过电话诸如移动设备16(例如,类别内分布)请求,加载最近添加的联系人,如果可获得所述信息,且最终加载曾通过其它源请求的联系人名称(例如,类别间分布)诸如消息应用、电子邮件,或其它可获得联系人信息或名称的通信源。最后,所述电话域规则可加载剩余的(或该剩余的子集)电话内容项目,直到满足内容项目或电话内容项目的阈值量。

用于导航内容项目类别的域规则可包括加载所有曾由用户通过语音或通过诸如GPS模块40(例如,类别间分布)的导航系统请求的目的地,可通过其它内容项目类别跟踪,诸如基于应用程序的可加载至用户移动设备上诸如移动设备16的GPS服务或应用程序,包括收藏、最近添加,或类似列表。可加载在所请求目的地领域中的目的地。可加载类似类型的目的地(例如,相关内容项目诸如所有兴趣点的餐馆或加油站)。所有从个人内容可获得的目的地可被加载,诸如与电话内容项目诸如联系人名称(例如类别内分布)相关的地址。最后,所述导航域规则可加载剩余的(或该剩余的子集)导航内容项目,直到满足内容项目或导航内容项目的阈值量。

可以理解前面是本发明的一个或多个实施例的描述。本发明不限于在此公开的特殊的实施方案,而是由下面的权利要求书来唯一限定。此外,包含在前面描述中的声明涉及具体的实施例,不能解释为限定本发明的范围或限定权利要求所使用的术语,该术语或措词在上面进行了的特别限定的情况除外。各种其他的实施例和已公开实施例的各种变化以及修改对熟悉本领域的技术人员而言显而易见。各种其它的实施例、各种变化和修改都应为附属权利要求的范围之内。

如本说明书和权利要求中使用,术语“e.g.,”、“for example”、“for instance”、“such as”及“like”和动词“comprising”、“having”、“including”以及它们的其他动词形式,当与一个或多个元件或其它条目列表结合使用时每个都应被理解为是开放式,意味着所述列表不应被看作排除了其它,附加元件或条目。其它术语采用其最广泛的合理含义来解释,用于要求有不同解释的上下文时除外。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1