交通工具内根据状况的语音识别的制作方法

文档序号:3904152阅读:121来源:国知局
专利名称:交通工具内根据状况的语音识别的制作方法
技术领域
本发明涉及语音信号处理,更具体地,涉及用于控制交通工具功能
的自动语音识别(ASR)。
背景技术
ASR技术使得配备有麦克风的计算设备能够翻译语音从而提供对传统人机输入设备(例如键盘或键区)的替代。典型的ASR系统包括几个基本元件。麦克风和声接口 ( acoustic interface )接收来自用户的词的话语(utterance),并将该话语数字化为声学数据。声音预处理器将声学数据解析成承载信息的声学特征。解码器使用声学模型来将声学特征解码成话语假设(hypotheses)。该解码器为每个假设产生置信值(confidence value ), 以反映每个,支i殳与每个i舌^吾的子词(subword )在语音上匹配的程度,并且为每个子词选择最佳的假设。使用语言模型,解码器将子词串联成与用户发出的词对应的输出词。ASR系统的用户向ASR系统说出请求,以控制不同的交通工具设备或者交通工具设备之一的不同功能。
具备ASR能力(ASR-enabled)的交通工具功能控制遇到的一个问题是尽管这样的系统可以正确地解码用户的输入语音,但是它可能会不正确地将认出(recognized)的语音应用于非预期的交通工具功能。换句话说,当前具备ASR能力的交通工具功能控制在消除用于一种交通工具功能的语音和用于某个其他交通工具功能的语音之间的歧义方面有着明显的困难。例如,用户可能说"let me hear some traffic (让我听交通报告/让我听traffic乐队的音乐)",以使得交通工具无线电设备播放来自19世纪60年代的摇滚乐队Traffic的音乐,但是具备ASR能力的交通工具控制器可能会曲解该请求并且相反使另一个交通工具设备播放路线交通报告。因而,具备ASR能力的交通工具的用户变得对此情况很失望。

发明内容
4本发明提供一种在交通工具内才艮据状况(circumstantial)的语音识别方法。根据一个实施例,该方法包括以下步骤
(a)监控与多个交通工具功能有关的多个参数,作为当前交通工具^l犬况(circumstances)的指示;以及
(b )当所监控的与所述多个交通工具功能中的至少一个功能有关的多个参数中的至少 一个参数符合预定标准时,识别至少 一个交通工具功能作为用户预期的ASR控制的候选者。
根据本发明的另 一方面,提供了 一种在交通工具内基于用户与交通工具的交互的根据状况的语音识另'J方法。该方法包括以下步骤
监控与用户交互的多个交通工具设备;
基于用户与交通工具设备的交互识别用于用户预期的A S R控制的交通工具设备;
接收来自于用户的语音;以及
至少部分基于所识别的交通工具设备,消除包含在该语音内的两个或更多个可能的命令之间的歧义。
这些方法使得A S R系统能够增加应用认出的语音来控制用户预期使
用的交通工具功能的可能性。


下面将结合附图来描述本发明的优选示范性实施例,其中相似的标记指代相似的元件,并且其中
图l是描述能够与交通工具内的根据状况的语音识别的方法结合使用的远程信息处理系统的示例的框图2是示出能够嵌入到图1的远程信息处理系统中并且用来实现语音识别的示范性方法的示范性自动语音识别架构的框图3是能够使用图1的远程信息处理系统执行的交通工具内的根据状况的语音识别的示范性方法的实施例的流程图4是能够使用自动语音识别系统控制的交通工具控制器和相关交通工具设备的示例的框图;以及
图5是能够使用图1的远程信息处理系统执行的交通工具内的根据状况的语音识别方法的另 一个实施例的流程图。
具体实施例方式
示范性工作环境如图l所示,并且可以用来实现在此公开的根据状况的语音识别方法。能够使用任何合适的远程信息处理系统来执行该方法,并且优选地,结合诸如系统100的交通工具远程信息处理系统来执行该方法。本领域技术人员应当理解,系统100的整体架构、设置、操作和各个部件在本领域内通常都是已知的。因而,下面对系统的描述仅
提供了 一个这样的示范性远程信息处理系统的简短概述,但是这里未示出的其他系统和部件也可以支持在此公开的方法。
示范性远程信息处理系统100包括用于运载一个或多个乘员(occupant )或用户的交通工具102和用于提供与交通工具102的双向无线通信的无线通信系统104。另外,系统100可以包括第二通信系统106,用于使无线通信系统104与向交通工具102提供服务的系统100的呼叫中心108进行通信。此外,系统100可以包括与交通工具102和/或呼叫中心108进行通信的网络服务器(未示出)用于向其提供因特网服务。
系统100 —般可以促进用于交通工具乘员的一个或多个合适的服务,该一个或多个合适的服务诸如交通工具导航、分段显示驾驶路线(turn—by—turn driving directions) 、 j言息娱乐、紧急、月良务、交通工具诊断、交通工具系统更新以及免提通话(hands-free telephony)和使用自动语音识别的交通工具交互。为此,系统100处理数据和指令,以及促进位于交通工具102上的硬件和位于远程呼叫中心108中的硬件之间的无线话音和数据传输。例如,系统100使得交通工具乘员能够发起与呼叫中心108的话音通信。另外,系统100使得能够实现交通工具102和网络服务器或呼叫中心108之间的数据通信,用于各种目的,例如发送和/或接收数据(例如话音消息、电子邮件、新闻、因特网内容等等)。
交通工具
在示出的实施例中,将交通工具102描述为客车,应当理解,在不脱离本发明的范围的情况下,可以使用任何其他交通工具,包括摩托车、船舶、飞行器、休闲车(recreational vehicle),以及其他汽车,例如货车、卡车等。各种电子模块可以位于交通工具102内,并且包括一
6个或多个交通工具系统才莫块(VSM) 110、装载在交通工具上的(onboard )交通工具通信总线112以及由总线112连接到VSM 110的一个或多个交通工具远程信息处理单元114。
VSM 110促进任何合适的装载在交通工具上的功能,例如交通工具诊断、监控、控制、报告和/或其他功能。例如,VSM110可以用来通过各种交通工具传感器控制引擎操作、监控和展开安全气嚢或其他安全设备、和/或诊断交通工具系统。VSM 110宽泛地代表遍及交通工具的与远程信息处理单元114进行交互的任何软件、电子或机电子系统和相关传感器或其他部件。在特定示例中,如果呼叫中心108向交通工具102发送信号以解锁交通工具的门,则远程信息处理单元114指示机电门锁VSM解锁该门。
交通工具通信总线112促进各个交通工具系统(例如VSM 110和/或远程信息处理单元114)之间的交互,并且使用任何合适的网络通信配置,不管是有线的还是无线的。合适的接口可以插入在总线112和各个交通工具系统之间。这里所用的术语"接口"宽泛地指任何合适形式的电子设备或适配器,或者甚至是软件模块或适配器,以使得一台设备能够与另 一 台设备通信或者控制另 一 台设备。总线的几个例子包括控制器区域网络(CAN )、面向媒体的系统传输(MOST )、局域互连网络(LIN )、以太网(10baseT、 100baseT)、局域网(LAN)、无线区域网络(WAN)和/或任何合适的国际标准化组织(ISO)或者汽车工程师学会(SAE)通信标准。
交通工具远程信息处理单元114促进交通工具102或其乘员与包括呼叫中心108的各种远程位置之间的通信和其他服务。远程信息处理单元114通过交通工具通信总线112与各种VSM 110对接(interface)。远程信息处理单元114可以任何合适的配置实现,但是可以包括处理器116、用来经由一个或多个天线120与交通工具102进行双向无线通信的通信设备118、用来存储计算机程序124和/或一个或多个数据库126的存储器122,和用户接口 128。远程信息处理单元114也包括用于在前述设备之间互相通信的任何合适的接口 。
尽管在图1中作为分开的单独模块来描述,但是本领域技术人员应当理解,远程信息处理单元114的许多部件可以集成在一起,或者与其他交通工具系统集成和/或共享。例如,存储器122可以被合并到处理器116中或者位于远程信息处理单元114之外并且与诸如交通工具中央处理单元的一个或多个其他交通工具系统共享。尽管VSM 110被示出为与远程信息处理单元114分开,但是这些VSM 110的任何组合可能集成到远程信息处理单元114内。此外,远程信息处理单元114可以包括未示出的附加部件,或者可以省略示出的一些部件。
可以按照本领域技术人员公知的多种方式的任意 一种实现远程信息处理处理器116,例如按照控制器、微处理器、微控制器、主处理器、交通工具通信处理器、专用集成电路(ASIC)或其它任何合适的处理器类型的形式。可替换地,处理器116可以与执行通用计算机的功能的中央处理单元(未示出)结合工作。处理器116可以与其它合适的设备和/或模块(未示出)相关,例如提供精确日期和时间信息的实时时钟设备和/或跟踪时间间隔的定时器模块。
处理器116运行存储在存储器122中的该一个或多个程序124以执行各种功能,例如系统监控、数据处理、以及使远程信息处理单元114与VSM 110、交通工具乘员和远程位置进4亍通信。例如,处理器116可以运行一个或多个控制程序并处理程序和/或数据,以单独或者与呼叫中心108结合实现根据状况的语音识别方法。在另一个示例中,处理器116控制、产生和接受远程信息处理单元114和呼叫中心108之间以及远程信息处理单元114和连接到各种VSM 110的交通工具通信总线112之间传输的信号。在一种模式中,这些信号用于激活VSM 110的编程和操作模式。
远程信息处理存储器122可以是提供处理器116所用的数据和程序的计算机可读存储的任意电子存储设备。存储器122可以包括易失性和/或非易失性存储器存储,例如RAM、 NVRAM、硬盘、闪存等,并且可以被实现为一个或多个单独的物理设备。程序124包括一个或多个计算机程序,其作为指令由处理器116运行,以执行远程信息处理单元114的各种功能,例如消息收发、诊断、通信、语音识别等等。例如,驻留在存储器122中并且由处理器116运行的程序124可以用来实现根据状况的语音识别方法。数据库126可以用来存储消息数据、诊断故障代码数据或其它诊断数据、交通工具数据上传(VDU)记录、事件激活表、语音识别数据等等。数据库126可以被实现为数据库表,该数据库表使得能够对存储在数据库126中的数据进行查找,这可以使用公知的索引技
8术、数据库查询、通过这样的表格的直接串行搜索、和/或其它任何合适的存储和查找技术来完成。
远程信息处理通信设备118和相关天线120向无线通信系统104发
送话音和数据并从无线通信系统104接收话音和数据,以使得远程信息处理单元114可以诸如经由第二通信系统1 06与呼叫中心108进行通信。通信设备118经由蜂窝、卫星和/或其它无线路径提供这样的无线通信,并且可以促进话音和/或数据通信,其中话音和数据信号都可以在话音信道和/或数据信道上被发送和接收。本领域技术人员应当认识到,通信设备118可以通过应用任何合适类型的编码或调制,以通过合并在蜂窝芯片组中的声码器或语音编解码器转换数字数据用于通信,从而在话音信道上发送和接收数据。可以使用任何提供可接受的数据速率和误码率的合适的编码或调制技术。通信设备118可以包括下面讨论的任何其它合适的模块。
通信设备118可以包括通话(telephony)模块,该通话模块包括诸如无线调制解调器和/或移动电话的通信软件和硬件。移动电话可以是任何合适的无线通话设备(例如移动电话),其可以是模拟、数字、双模、双频带、多模式和/或多频带的。移动电话可以包括单独的处理器和存储器和/或标准的蜂窝芯片组。此外,移动电话可以使用任何合适的蜂窝技术,例如高级移动电话系统(AMPS)、码分多址(CDMA)、时分多址(TDMA)、全球移动通信系统(GSM)等,但是也可以利用专有的(proprietary)或其它无线技术来与无线通信系统104进行通信。
远程信息处理用户接口 128包括一个或多个输入和输出接口 ,以从远程信息处理用户接收输入并向远程信息处理用户发送输出。这里所用的术语"用户',包括远程信息处理服务订户、包括驾驶者和乘客的交通工具乘员等。同样,这里所用的术语"用户接口"宽泛地指任何合适形式的电子设备或适配器,或者甚至是软件模块或适配器,其使得交通工具乘员能够与另一台设备通信或者控制另一台设备。用户接口 128可以包括遍布交通工具的各个部件,和/或可以一皮集成为单个单元,例如人机接口 (HMI)、多媒体中心等等。多媒体中心可以接收并存储下载的内容(例如音乐、网页、电影、电视节目、视频游戏等)以便当前或延迟回放。
输入接口可以包括一个或多个触觉设备130、一个或多个麦克风132或者任何其它类型的输入技术。首先,触觉输入设备130使得交通工具
乘员能够激活远程信息处理单元114的一个或多个功能,并且可以包括 一个或多个按钮开关、键区、键盘或位于交通工具102内在交通工具乘 员接触范围内的合适的其它输入设备。例如,触觉输入设备130可以用 来启动与远程位置(例如呼叫中心108或移动电话)的远程通信和/或 启动交通工具更新、诊断等。其次,麦克风132允许交通工具乘员向远 程信息处理单元114提供有声(vocal)输入,并且使得能够经由通信 设备118与各个远程位置进行有声通信。可以使用合适的模数接口和/ 或数字信号处理器(例如麦克风132和处理器116之间的声卡(未示出)) 和存储在存储器122内的话音和语音识别程序和数据翻译来自交通工具 乘员的有声输入。
输出接口可以包括一个或多个扬声器134、视觉显示设备或任何其 它类型的视觉输出技术,所述视觉显示设备例如液晶显示器、等离子屏 幕、触摸屏、抬头(heads-up)显示器等(未示出)。扬声器134使得 远程信息处理单元114能够将可听语音、信号、音频文件等传输给交通 工具乘客,并且可以是交通工具音频系统的一部分或特定专用于远程信 息处理单元114的独立部件。诸如声卡(未示出)的合适的接口可以插 入在扬声器134和远程信息处理处理器116之间。
通信系统
通信系统104、 106可以被单独实现或者可以被组合为整体系统。 同样,利用合适的设备,呼叫中心108可以直接与无线通信系统104进 行无线通信,而不需要第二系统106.
无线通信系统104可以包括一个或多个模拟和/或数字蜂窝网络 136、无线计算机网络,例如广域网(WAN)、无线局域网(WLAN)、宽 带无线区域(BWA)网络、和/或用于在交通工具102与诸如呼叫中心108 的各个远程位置之间发送语音和/或数据信号的任何其它合适的无线网 络。示范性蜂窝网络136可以被实现为CDMA、 GSM或使得交通工具102 和第二通信系统106之间能够交换话音和数据的其它蜂窝通信网络。网 络136可以包括蜂窝塔(cell tower)、基站和/或移动交换中心(MSC ) 的任何合适的组合。例如,基站和蜂窝塔可以共同位于相同的地点或者 它们可以彼此远离定位,每个基站可以服务于单个蜂窝塔或多个蜂窝塔,并且各个基站可以耦合到单个MSC,还有很多可能的配置,这里就
不——列举了。语音编解码器或声码器可以被合并到系统104中,例如
合并到一个或多个基站中,但是根据无线网络的具体架构,它可以被合
并到MSC或一些其它网络部件中。
系统104也可以或可替换地通过使用一个或多个卫星138的卫星传 输来执行无线通信,以经由地基卫星收发器140使交通工具102与呼叫 中心108进行通信。作为示范性实施方式,卫星收发器140和一个(或 多个)卫星138可以向交通工具102发送无线电信号。例如,卫星传输 可以通过"S"频带内的频谦被广播,该"S"频带由美国联邦通信委员 会分配用于基于卫星的数字音频无线电服务(DARS)的国家广播。详细 来说,可以使用XMTM牌卫星无线电服务来执行卫星传输。第二通信系统106可以是陆基(land-based)有线系统,例如/>共 交换电话网络(PTSN)、网际协议(IP)网络、光网络、光纤网络、电 缆网络和/或公用(utility)电力传输线。系统106也可以是与系统104 类似的另一种无线通信系统、WAN、 WLAN或BWA网络,或者可以是前述 示例的任意组合,可以使用或改编这些系统的任一种来进行话音和/或 数据通信。
呼叫中心
呼叫中心108通过处理并存储数据以及与交通工具102进行通信, 来向交通工具102提供服务。呼叫中心108可以向交通工具远程信息处 理单元114提供后端功能,并且可以包括在一个或多个位置的一个或多 个固定或移动的数据中心。呼叫中心108可以包括顾问142,用于监控 各种交通工具状况,响应服务请求,并且提供交通工具服务,例如与交 通工具内安全和保障系统有关的远程交通工具协助。顾问142可以被实 现为真人顾问、或者^L实现为响应于用户请求的自动机或计算机程序。
呼叫中心108包括例如有线或无线调制解调器的 一个或多个话音和 /或数据接口 144、诸如专用交换分机(private branch exchange, PBX) 的交换机和/或路由器。接口 144通过通信系统104、 106中的一个或者 二者在交通工具远程信息处理单元114和呼叫中心108之间例如通过交 通工具数据上载(VDU)发送和接收话音和/或数据信号。对于话音上数 据(data-over-voice)通信来说,接口 l44优选地应用某种类型的编码或调制来转换数字数据,以用于与声码器或语音编解码器通信。
呼叫中心108还可以包括一个或多个通信服务管理器146、用来处 理数据的一个或多个服务器148、用来存储用户数据的一个或多个合适 的数据库150,所述用户数据例如订户简档和认证数据以及任何其它合 适的数据。呼叫中心108也可以包括一个或多个有线和/或无线网络 152,例如LAN或WLAN,用于将呼叫中心部件与该一个或多个顾问142 所用的任何计算机连接在一起。例如,服务器148和数据库150单独地 或者与交通工具102的远程信息处理单元114相结合地运行并存储一个 或多个控制程序和数据,以实现根据状况的语音识别方法。换句话说, 本公开的方法可以由交通工具102的远程信息处理单元114、由呼叫中 心108中的计算设备和/或人员或者通过这两者的组合来实现。
示范性ASR系统
一般来说,交通工具乘员与自动语音识别系统(ASR)进行声音交 互,用于下述基本目的中的一个或多个训练该系统理解交通工具乘员 的特殊话音;存储离散语音,例如口头名签(nametag)或像数字或关键 词的口头控制词;或者识别用于任何合适目的的交通工具乘员的语音, 所述目的例如话音拨号、菜单导航、转录、服务请求、交通工具设备或 设备功能控制等。 一般来说,ASR从人的语音中提取声学数据,将该声 学数据与存储的子词数据进行比较和对照,选择可以与其它被选子词串 接的合适的子词,并输出所串接的子词或词用于后处理,例如口述或转 录、地址簿拨号、存储到存储器、训练ASR模型或者适配参数等。
ASR系统对于本领域技术人员一般是公知的,图2示出了可以用来 实现本公开的方法的ASR系统210的详细示范性架构。系统210包括接 收语音的设备,例如远程信息处理麦克风132,还包括声接口 133,例 如远程信息处理用户接口 128的声卡,以将语音数字化成声学数据。系 统210也包括诸如远程信息处理存储器122之类的用于存储声学数据并 且存储语音识别软件和数据库的存储器,以及诸如远程信息处理处理器 116之类的用于处理声学数据的处理器。处理器利用存储器并结合下述 模块来运行前端处理器或预处理器软件模块212,用于将语音的声学 数据流解析成诸如声学特征的参量表示;解码器软件模块214,用于将 声学特征解码以产生与输入语音话语对应的数字子词或词输出数据;以及后处理器软件模块216,用于使用来自解码器模块214的输出数据用
于任何合适的目的。
一个或多个模块或模型可以用作到解码器模块214的输入。首先, 语法和/或词法模型218可以提供规定哪些词逻辑上可以跟在其它词之 后以形成有效语句的规则。广义上讲,语法可以定义系统210在任何给 定ASR;f莫式下在任何给定时间预期的词汇总体。例如,如果系统210处 于训练命令的训练模式,则一个(或多个)语法模型218可以包括系统 210已知的并使用的所有命令。在另一个示例中,如果系统210处于主 菜单模式,则活动的(active) —个(或多个)语法模型218可以包括 系统210预期的所有主菜单命令,例如呼叫、拨号、退出、删除、目录 等。其次, 一个(或多个)声学模型220协助选择与来自预处理器模块 212的输入对应的最有可能的子词或词。再者, 一个(或多个)词模型 222和一个(或多个)语句/语言模型224在将被选子词或词放到词或语 句上下文时提供规则、句法和/或语义。另外, 一个(或多个)语句/语 言^^莫型224可以定义系统210在任何给定ASR冲莫式下在任何给定时间预 期的语句的总体,和/或能够提供规定哪些语句逻辑上可以跟在其它语 句之后以形成有效的扩展语音的规则等。
才艮据可替换示范性实施例, 一些或所有ASR系统210可以驻留在位 于远离交通工具102的位置处的计算设备(例如呼叫中心108)上,并 且可以利用所述计算设备对ASR系统进行处理。例如,语法模型、声学 模型等可以被存储在呼叫中心108中的其中一个服务器148的存储器中 和/或数据库150中,并且被传送到交通工具远程信息处理单元114以 用于交通工具内的语音处理。相似地,可以使用呼叫中心108中的其中 一个服务器H8的处理器来处理语音识别软件。换句话说,ASR系统210 可以驻留在远程信息处理系统114内或者以任何期望的方式分布于呼叫 中心108和交通工具102之间。
首先,从交通工具乘员向麦克风132说的人类语音中提取声学数据, 其中麦克风132将话语转换成电信号并且将这样的信号传输给声接口 133。麦克风132中的声响应元件作为空气压力中的变化来捕获乘员的 语音话语,并且将该话语转换成才莫拟电信号(例如直流电流或电压)的 相应变化。声接口 133接收该模拟电信号,该电信号首先被采样使得在 离散的时刻捕获模拟信号的值,然后被量化使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说,声接口 133将模 拟电信号转换成数字电信号。数字数据是二进制比特,其被緩沖在远程
信息处理存储器122中,然后由远程信息处理处理器116处理或者可以 在它们最初被处理器116接收到时实时处理。
其次,预处理器模块212将连续的数字语音数据流变换成离散的声 学参数序列。更详细地,处理器116运行预处理器模块212以将数字语 音数据分割成例如10-30ms持续时间的重叠语音或声学帧。这些帧对 应于声学子词,例如音节、半音节、音素、双音素、音位等等。预处理 器模块212也执行语音分析,以从每一帧内的乘员的语音中提取声学参 数,例如时变特征矢量。乘员语音内的话语可以被表示为这些特征矢量 的序列。例如,并且如本领域技术人员公知的,特征矢量可以被提取并 且可以包括例如声调、能量分布曲线、频谦属性和/或可以通过执行帧 的傅立叶变换以及使用余弦变换将声谱去相关而得到的倒谱 (cepstral)系数。覆盖特定持续时间的语音的声学帧和相应的参数被 串接成要4皮解码的语音的未知测试才莫式(test pattern)。
然后,处理器运行解码器模块214以处理每个测试模式的输入特征 矢量。解码器模块2U也被称为识别引擎或分类器,并且使用存储的已 知的语音参考模式。就像测试模式一样,参考模式被定义为相关的声学 帧和对应参数的串接。解码器模块214将要认出的子词测试模式的声学 特征矢量与存储的子词参考模式进行比较和对照,估计它们之间的差别 或相似性的程度,以及最终使用判决逻辑来选择最匹配的子词作为认出 的子词。 一般来说,最匹配的子词是与存储的已知参考模式对应的、与 测试模式具有最小的相异性或者是测试模式的可能性最高的子词,所述 测试模式是通过本领域技术人员公知的各种技术中的任何一种分析并 认出子词来确定的。这样的技术可以包括动态时间规整(t i me-warp i ng ) 分类器、人工智能技术、神经网络、自由音位识别器和/或概率模式匹 配器(例如隐马尔可夫模型(H画)引擎)。
本领域技术人员公知HMM引擎用于产生声学输入的多个语音识别模 型假设。在通过语音的特征分析最终识别并选择代表声学输入的最有可 能的正确解码的识别输出时,考虑该假设。更详细地,HMM引擎例如通 过应用贝叶斯定理产生以子词模型假设的"N-best"列表为形式的统计 模型,该子词模型假设是根据HMM计算的置信值或者给定一个或另 一个子词的情况下声学数据的观察序列的概率而排序的。
对于声学特征矢量的给定观察序列,贝叶斯丽M过程识别与最可能
的话语或者子词序列对应的最佳假设,并且其置信值可以取决于各种因
素,包括与输入声学数据相关的声学信噪比。HMM也可以包括被称为对 角高斯混合(mixture of diagonal Gaussian)的统计分布,其对于每 个子词的每个观察的特征矢量生成似然分数(likelihood score),这 些分数可以用来对々i设的N-best列表进行重新排序。腹M引擎也可以识 别并选择其模型似然分数最高的子词。为了识别词,用于子词序列的各 个丽M可以被串接以建立词丽M 。
语音识别解码器214使用合适的声学模型、语法和算法来处理特征 矢量,以产生参考模式的N-best列表。这里所用的术语"参考模式" 可与参考的模型、波形、模板、富集(r i ch )信号模型、样本(exemplar )、 假设或者其它类型的参考互换。参考模式可以包括 一 系列代表词或子词 的特征矢量,并且可以基于具体的说话者、说话风格和可听环境条件。 本领域技术人员应当认识到,参考模式可以通过ASR系统的合适的参考 模式训练产生并且存储在存储器中。本领域技术人员还应当认识到,所 存储的参考模式可以被操纵,其中基于ASR系统的参考模式训练和实际 使用之间的语音输入信号的差异来适配参考模式的参数值。例如,可以 基于来自不同交通工具乘员或不同声学条件的有限量的训练数据,将为 一个交通工具乘员或一定的声学条件训练的 一组参考模式修改并保存
话说,参;模式不一定是固i的,5并且可以在语音识别i间进;调整:
4吏用词汇内i吾法(in-vocabulary grammar)和4壬1可合适的解石马器 算法和声学模型,处理器从存储器中访问解释测试模式的几个参考模 式。例如,处理器可以产生N-best词汇结果或参考模式的列表以及相 应的参数值,并将其存储到存储器。示范性参数值可以包括词汇的 N-best列表中的每个参考模式的置信分数和相关的分段持续时间 (segment duration)、似然分数、信噪比(SNR )值等等。可以按参 数值的幅度的降序对词汇的N-best列表进行排序。例如,具有最高置 信分数的词汇参考模式是第一最好参考模式,等等。 一旦建立了所认出 的子词串,则它们可以用来利用来自词模型222的输入构建词,并且利 用来自语言模型224的输入构建语句。最后,后处理器软件模块216接收来自解码器模块214的输出数据, 以用于任何合适的目的。例如,后处理器模块216可以用来将声学数据 转换成文本或数字,以用于ASR系统的其它方面或其它交通工具系统。 在另一个示例中,后处理器模块216可以用来向解码器214或预处理器 212提供训练反馈。更详细地,后处理器216可以用来训练解码器模块 214的声学模型,或者训练预处理器模块212的适配参数。
根据状况的语音识别方法
这里提供了根据状况的语音识别方法,并且可以使用上述远程信息 处理系统100的操作环境下的ASR系统210的架构来将该方法执行为一 个或多个计算机程序。本领域技术人员也应当认识到,可以使用其它操 作环境下的其它ASR系统来执行该方法。
提供该方法以通过基于语音识别时交通工具内发生的特定状况来 提供对认出的语音的较好的歧义消除,从而提高具备ASR能力的交通工 具控制器的性能。在任意给定时间交通工具内发生的状况可以提供对用 户使用ASR的意图的了解。具体来说,用户自己在交通工具内的动作可 以提供对用户意图的特别好的了解。换句话说,该方法评估用户语音正 #皮认出和应用的环境。
一般来说,监控与各种交通工具功能相关的各种参数作为当前交通 工具状况的指示。另外,当所监控的与交通工具功能相关的交通工具参 数满足预定标准时,该交通工具功能被识别为用户预期的ASR控制的候 选者。因而,通过这样的改进可以提高交通工具控制器的性能,因为其 能够增加所认出的语音将被应用于用户预期的交通工具功能的可能性。 图3示出了示范性的根据状况的语音识别方法300,下面将详细讨论。
在步骤305中,方法300以任何合适的方式开始。例如,可以通过 用户按下远程信息处理系统100的远程信息处理单元114的激活按钮 130来启动ASR会话,以开始用户输入可以由工作在语音识别才莫式下的 远程信息处理单元114翻译的口头请求的会话。使用扬声器134,远程 信息处理单元114可以通过播放声音或提供对来自用户或乘员的命令的 口头请求,来确认该按钮激活。根据另一方面,ASR系统210可以连续 地和被动地监控用户语音,以使得用户不需要通过手动按钮按压来单独 并主动地启动ASR。这种类型的监控和自动ASR激活对本领域技术人员
16来说是公知的。
在步骤310,监控与多个交通工具功能相关的多个参数作为当前交 通工具状况的指示。例如,并且参照图4,可以使用任何交通工具设备 410,并且可以监控与这些设备410以任何方式相关的任何参数。这里 所用的短语"交通工具功能,,可以包括不同的交通工具设备或一个或多 个不同的交通工具设备的不同功能。
如图4所示,交通工具设备41Q可以与任何合适的交通工具控制器 412进行通信,该交通工具控制器412可以包括一个或多个合适的处理 器414、耦合到处理器414的任何合适类型的存储器416、以及耦合在 处理器414与交通工具设备410和ASR系统210之间的合适的输入/输 出接口 418。交通工具控制器412可以是交通工具携带的任何类型的任 何计算设备,例如引擎或传动系控制器、仪表面板控制器等等中的一个 或多个。
可以由交通工具控制器412使用任何合适的硬件、软件和/或固件 来监控交通工具功能参数。例如,交通工具设备410可以包括集成的传 感器(未示出)或单独的传感器(未示出)。在另一个示例,控制器"2 可以轮询(poll)交通工具设备410的处理器或存储器,以得到指示交 通工具功能参数的数据,例如设备的开/关状态,或者与用户与设备的 交互相关的数据,例如外部设备的连接/未连接状态、自从用户上次调 整设备以来消逝的时间,以及任何其它数据。
示范性交通工具设备可以包括媒体设备,例如无线电设备、电视 机、视频播放器等;气候控制设备,例如空调、加热器、风扇、通风口 等;门锁;窗户;镜子;方向盘;座椅;拭窗器;内部和外部灯;时钟; 远程通信设备,例如电话、远程信息处理单元等;导航设备,例如全球 定位系统(GPS)头、接收器等;信息设备,例如因特网浏览器等;风 窗除霜器;座椅加热器;燃料门释放装置(fuel d。or release);车 箱和车盖释放装置(trunk and hood release);旅程计算机;等等, 这里就不——列举了。
示范性的监控的参数可以包括交通工具设备和外部设备之间的连 接状态,该外部设备例如以无线方式或其它方式刚刚连接到交通工具无 线电设备的MP3播放器。另外,可以监控由气候控制系统的温度传感器 感测的温度值。其它示例参数可以包括设备的开/关信号、音量和/或音
17量设置、温度和/或温度设置、设备速度和/或速度设置、设备位置和/
或位置设置、亮度等级(light level )和/或等级设置、时间和/或时
间设置、和,/或交通工具位置和,/或位置设置,还有4艮多,这里就不--
列举了。另外,可以仅监控参数自身,或者可以监控作为一些其它参数 的函数的参数。例如,可以监控作为时间的函数的参数,例如与连接或 断开连接之后消逝的时间相结合的 一 台电子设备相对于另 一 台的连接 状态。
在步骤315,并且再参照图3,对于用户预期的ASR控制,识别至 少一个交通工具功能。例如,来自步骤310的交通工具功能中的一个或 多个可以被识别为用户预期的用于ASR控制的功能,例如,当与多个交 通工具功能中的至少一个相关的被监控的多个参数中的至少一个满足 预定标准时。
在一个详细示例中,当用户最近通过有线方式或者通过将具备无线 通信能力的MP3播放器放置在适当靠近具备无线通信能力的交通工具无 线电设备的地方等将MP3播放器连接到交通工具无线电设备时,交通工 具无线电设备可以被识别为ASR控制的候选者。在这样的情况下,可以 推断出如果在连接之后的预定时间量内接收到任何用户语音,则用户想 要用声音控制MP3播放器,而不是一些其它的交通工具设备,例如远程 信息处理系统或气候控制系统。
在另一个具体示例中,如果交通工具内部温度被监控并且被确定为 在一定的高温阈值之上,则空调可以#1识别为语音识别控制的候选者。
因而,预定标准可以是设备连接或者其它事件的存在或不存在、设 备开或关信号、或者设备的另一个状态信号,例如温度值、风扇设置、 窗户打开量等。代替地或附加地,预定标准可以是时间相关的,例如在 事件发生之后消逝的时间,该事件例如用户与交通工具设备的交互。该 预定标准可以包括单个阈值参数值、值的范围等等。
在步骤320,交通工具内的音频可以被ASR系统以任何合适方式监 控以用于用户语音。例如,ASR系统210可以被调整以使得麦克风132 -波激活并且准备接收用户话语。
在步骤325,可以提示用户说出请求或者可以开始对监听的ASR系 统说话。在一个示例中,ASR系统210可以播放记录的提示(例如"准 备,,),或者可以播放哔哔声、闪烁灯等等。在另一个示例中,ASR系统210可以连续监控用户语音。无论在哪种情况下,用户可以例如通过 讲出诸如"拨号"或"播放"或"激活,,的命令并接着讲出诸如具体的 电话号码或者歌曲的名称或设备功能的变量来输入请求。
在步骤330, ASR系统*接收用户语音。例如,ASR系统210可以^使用 ASR系统210的激活的麦克风132、处理器116和存储器122接收来自 用户的话语。 一旦接收到,则转换器133可以将模拟用户语音转换成声 学数据,该声学数据可以被保存到存储器122中。
在步骤335,接收到的用户语音可以被预处理。例如,来自步骤330 的声学数据可以由ASR系统210的预处理器212进行预处理,以从中提 取任何合适的声学特征。
在步骤340,预处理后的用户语音被解码。例如,与来自步骤335 的用户话语对应的声学特征可以被ASR系统210的解码器214解码,以 产生包括识别结果、假设等等的任何合适的输出。更详细地,解码器214 可以使用语音识别^t型218、 220、 222和224中的一个或多个来解码预 处理后的声学数据。
在具体示例中,;漠型218、 220、 222和224每一个都可以包括与多 个不同的交通工具功能对应的多个不同的模型版本。更详细地,多个不 同的语法模型218可以用于多个不同的交通工具功能,以使得例如无线 电专用语法模型可以对应于无线电设备,远程信息处理专用语法模型可 以对应于远程信息处理单元,等等。相似地,多个不同的设备专用的声 学、词和语句^^莫型可以与相应的交通工具功能相关。
在步骤345,使用认出的语音数据来控制交通工具功能。例如,可 以使用在步骤340中解码的语音数据来控制步骤315中识别的交通工具 功能。在具体的示例中,可以使用在用户将MP3播放器连接到无线电设 备之后的预定时间内接收到的语音数据来控制交通工具无线电设备。在 另 一个详细示例中,可以使用在交通工具内的温度高于或低于预定极限 时接收到的语音数据来控制交通工具气候控制系统。
如上所述,图3的过程可以使用基于识别的、交通工具操作者可能 正与其进行交互的交通工具功能而选择的不同的语音识别模型。这可以
提供接收到的语音之间的歧义消除,作为语音识别过程本身的 一 部分。 也就是说,通过基于识别的交通工具功能选择语法模型,所选择的具体 模型将在适合于所识别的交通工具功能的环境下解释接收到的语音,并
19且在进行这个的过程中,将自然地帮助消除语音的歧义。
在另一个实施例中,如图5所示,在不考虑任何识别的交通工具功
能的情况下执行语音识别;相反,当在语音识别之后需要消除接收到的 语音在两个或更多个候选者可能性之间的歧义时使用识别的交通工具 功能。方法5GG开始于步骤505,在其后,在步骤510开始监控交通工 具功能参数。当该过程识别可能影响ASR控制的交通工具功能时(例如, 识别用户已与其进行交互的交通工具设备),如步骤515所示,其记录 该发生以用于随后在操作者开始ASR会话的情况中使用。例如,如果用 户将MP3播放器连接到音频系统,则系统注意到该事件。然后,在步骤 520 —旦开始ASR会话,则在步骤525用户说出命令,语音识别系统210 处理接收到的语音以认出各个词,如步骤530所示。例如,当用户说"let me hear some Traffic"时,ASR系统210处理语音并且识别相关的部 分"hear traffic"。此时,基于所识别的(和所存储的)交通工具功 能来执行歧义消除,在该示例中该交通工具功能是音乐播放器到音频系 统的连接。这如步骤5 35所示。因而,,在该示例中,认出的词"hear traffic"被认为是播放乐队组合Traffic的音乐的命令,而不是获得 并且可听地展示当地交通报告的命令。基于该歧义消除,系统然后采取 适当的动作,如步骤540所示。该动作可以是例如自动执行所选择的(消 除歧义后的)命令,或者在进行之前请求来自用户的对所选择的命令的 确认。 一旦采取了合适的动作,该过程结束。
应当理解,前面的描述不是对本发明的限定,而是对本发明的一个 或多个优选示范性实施例的描述。本发明不限于这里所公开的具体实施 例,而是仅由下面的权利要求书来限定。此外,在前面的描述中包含的 陈述涉及具体实施例,并且不应当被理解为限制本发明的范围,或者限 制权利要求中所用的术语,除了上面明确地定义了术语或短语。对所公 开的实施例的各种其它实施例和各种改变和修改对本领域技术人员是 显而易见的。例如,接收到的语音的歧义消除可以不仅仅基于识别的交 通工具功能或设备,而是可以部分地基于所识别的交通工具功能或设备 并基于其它因素。例如,在图3中,识别的交通工具功能可以用来在不 同的可用语音识别模型之间选择,但是合适的模型的选择也可以基于其 它因素,例如以考虑地方方言。所有这样的其它实施例、改变和修改意 图落入所附权利要求书的范围之内。在该说明书和权利要求书中,当与一个或多个部件或其它条目的列 举结合使用时所用的术语"例如"和"诸如",以及动词"包括"、"具 有"和"包含"以及它们的其它动词形式,每一个都应当被理解为开放 的,意思是该列举不应当被认为排除其它、另外的部件或条目。应当使 用它们最宽的合理的意思理解其它术语,除非它们被用在需要不同解释 的语境之下。
权利要求
1、一种在交通工具内根据状况的语音识别方法,该方法包括以下步骤监控与多个交通工具功能有关的多个参数,作为当前交通工具状况的指示;以及当所监控的与所述多个交通工具功能中的至少一个有关的多个参数中的至少一个参数符合预定标准时,识别至少一个交通工具功能,作为用户预期的ASR控制的候选者。
2、 如权利要求l所述的方法,还包括以下步骤 接收用户语音;预处理该用户语音;将该经过预处理的语音解码成认出的语音数据;以及使用所认出的语音数据控制所识别的至少 一个交通工具功能。
3、 如权利要求2所述的方法,其中所述经过预处理的语音是通过 应用与所述多个交通工具功能中的至少一个有关的至少一个语音识别 模型来解码的。
4、 如权利要求1所述的方法,其中,所述多个参数包括用户启动 的事件。
5、 如权利要求4所述的方法,其中,所述用户启动的事件包括外 部设备到交通工具设备的连接。
6、 一种基于用户与交通工具的交互在该交通工具内根据状况的语 音识别方法,该方法包4舌以下步骤接收来自用户的语音; 预处理所接收到的语音;将该经过预处理的语音解码成认出的语音数据; 监控由该用户交互的多个交通工具设备;如果该用户已在预定的逝去时间内与一个交通工具设备交互,则识 别用于用户预期的ASR控制的交通工具设备;以及使用所认出的语音数据控制所识别的交通工具设备。
7、 如权利要求6所述的方法,其中,所述经过预处理的语音是通 过应用与所识别的交通工具设备有关的至少 一个语音识别模型来解码 的。
8、如权利要求6所述的方法,其中,所述用户交互包括外部设备 到交通工具设备的连接。音识别方法,该方法包括以下步骤监控由用户交互的多个交通工具设备;
9.基于用户与交通工具设备的交互识别用于用户预期的ASR控制的该 交通工具设备;接收来自用户的语音;以及至少部分基于所识别的交通工具设备,消除包含在该语音内的两个 或更多个可能的命令之间的歧义。
10、 如权利要求9所述的方法,其中,该消除歧义步骤还包括使用至少部分基于所识别的交通工具设备而选择的语音识别模型来认出该 语音。
11、 如权利要求9所述的方法,其中,该消除歧义步骤还包括使用两个或更多个潜在命令中的哪一个是用户预期的。
12、 如权利要求9所述的方法,还包括步骤使用所认出的语音数 据来控制所识别的交通工具设备。
13、 如权利要求9所述的方法,还包括步骤在所述消除歧义步骤 之前预处理接收到的语音。
14、 如权利要求9所述的方法,其中,该监控步骤还包括监控外部 设备到所述交通工具设备之一的连接。
全文摘要
本发明涉及交通工具内根据状况的语音识别。一种在交通工具内根据状况的语音识别方法。监控与多个交通工具功能有关的多个参数,作为当前交通工具状况的指示。基于用户与交通工具的交互,识别至少一种交通工具功能作为用户预期的ASR控制的候选者。所识别的交通工具功能然后用来消除包含在从用户接收到的语音内的可能的命令之间的歧义。
文档编号B60R16/037GK101462522SQ20081018536
公开日2009年6月24日 申请日期2008年12月22日 优先权日2007年12月21日
发明者E·J·阿贝斯卡, R·钱加尔瓦拉彦, T·J·格罗斯特 申请人:通用汽车公司;通用汽车环球科技运作公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1