用于接到移动设备的基于语音的接口的服务识别和启动的制作方法

文档序号:7867592阅读:265来源:国知局
专利名称:用于接到移动设备的基于语音的接口的服务识别和启动的制作方法
技术领域
本发明涉及接到从蜂窝电话或者其他移动设备以无线方式获得的基于计算机的服务的语音接口,以及在车辆例如客车中实现的这种接口。
背景技术
接到车辆功能和蜂窝电话功能和应用程序的基于语音的人机接口(HMI)通常涉及特定于应用程序或者特定于功能的受限的命令集,其需要在用户和HMI之间进行句法上受限制的交互。在这些系统中,输入的语音可以转换为一个用于特定应用的特定命令,但是通常只有有限的能力去识别和实现涉及不同应用程序或者服务提供商的不同的服务。
在车辆中使用蜂窝电话的领域内,已经提出如下系统并且实现了其中的一些所述系统通过提供免提电话体验以及实现一些基本的车辆控制任务来帮助降低驾驶员的分心,所述基本的车辆控制任务例如选择和控制车上的收音机以及其他信息娱乐服务。在一些系统中,这是通过使用一个内嵌的蜂窝电话来完成的,所述蜂窝电话可以接入至少部分的车辆电子器件以便允许通过一个语音用户接口来进行控制和报告。在另外的车辆中,驾驶员或其他乘员的个人移动设备(例如,蜂窝电话)被用于该目的,并且所述车辆提供基本的音频接口,包括麦克风和一个或多个扬声器,以及接到所述移动设备的蓝牙或者其他无线连接。这允许语音或者其他音频在音频接口以及移动设备之间以任意方向进行传送。但是,这些系统通常被限制为只能实现一些基本的移动设备功能,例如呼叫以及控制音乐选择和回放。它们不提供向许多其他内置以及用户添加的应用程序和功能的接入,而这些应用程序和功能是通常如今可获得的。
例如,现在有广泛可获得和应用的移动设备,例如智能电话,其允许用户下载以及安装相对较小的软件应用程序(app)。其中一些智能电话具有内置语音支持,要么通过操作系统(OS),例如安卓tmOS的情况,要么通过内嵌应用程序,例如在iPhone4STM上可用的 Siri 。例如参见公开于2011年7月21日的W02011088053。尽管提供了较高水平的集成, 但这些可商购的系统没有被配置为提供使用移动设备的完全免提体验,因为它们在语音会话中依然严重依赖于屏幕来与用户交互。发明内容
根据本发明的一个方面,提供了一种方法,该方法使用移动设备提供免提服务,所述移动设备可无线接入基于计算机的服务。所述方法包括在移动设备和一个或多个音频设备之间建立短距离无线连接,所述音频设备至少包括麦克风和扬声器;在移动设备处接收通过 麦克风从用户输入并且通过短距离无线连接发送的语音;将从所述移动设备输入的语音无线传送至提供自动语音识别(ASR)的语音识别服务器;在移动设备处接收语音识别结果,所述结果表示所述语音输入的内容;通过处理所述语音识别结果来确定期望的服务, 所述处理是采用第一服务识别语法进行的;通过处理至少一部分语音识别结果来确定用户服务请求,所述处理是采用与所期望的服务相关联的第二特定于服务的语法进行的;启动所述用户服务请求并接收服务响应;根据所述服务响应生成音频消息;并且通过扬声器将所述音频消息呈现给用户。
本发明还涉及如下的方案。
1. 一种使用移动设备提供免提服务的方法,所述移动设备能够无线接入基于计算机的服务,所述方法包括以下步骤
(a)在移动设备和一个或多个音频设备之间建立短距离无线连接,所述音频设备至少包括麦克风和扬声器;
(b)在所述移动设备处接收通过麦克风从用户输入并且通过短距离无线连接发送的语音;
(c)将从所述移动设备输入的语音无线传送至提供自动语音识别(ASR)的语音识别服务器;
(d)在所述移动设备处接收语音识别结果,所述语音识别结果表示所述语音输入的内容;
(e)通过采用第一服务识别语法处理所述语音识别结果来确定期望的服务;
(f)通过采用与所期望的服务相关联的第二特定于服务的语法处理至少一部分语音识别结果来确定用户服务请求;
(g)启动所述用户服务请求并接收服务响应;
(h)根据所述服务响应生成音频消息;并且
(i)通过扬声器将所述音频消息呈现给用户。
2.方案I所述的方法,其中所述ASR服务器包括广义化的第三方云服务,以及其中,步骤(C)还包括发送所述语音输入到所述广义化的第三方云服务。
3.方案2所述的方法,其中步骤(d)还包括在确定会话上下文之前接收所述语音识别结果,以及其中,步骤(e)还包括使用所述第一语法确定所述会话上下文。
4.方案I所述的方法,其中所述第一服务识别语法包括表示多个会话上下文的词汇,以及其中,步骤(e)包括根据所述语音识别结果和所述第一语法来确定所述会话上下文中的哪一个或多个涉及所述语音输入的内容。
5.方案4所述的方法,其中所述会话上下文包括就餐、天气、交通、导航、日程安排以及消息传递。
6.方案4所述的方法,其中步骤(e)还包括识别一个主要会话上下文和一个或多个辅助会话上下文。
7.方案6所述的方法,其中步骤(e)还包括确定与所述主要会话上下文关联的期望服务以及针对每个辅助会话上下文的辅助服务。
8.方案I所述的方法,其中所述方法是采用具有安装的音频用户接口的车辆实现的,其中步骤(a)还包括在所述移动设备和音频用户接口之间建立短距离无线连接 ,以及其中,步骤(i)还包括通过所述短距离无线连接将所述音频消息发送至所述音频用户接口以便在车辆中进行有声呈现。
9.方案I所述的方法,其中步骤(g)包括向安装在所述移动设备上的应用程序发送所述服务请求并且从所述安装的应用程序接收服务响应。
10.方案I所述的方法,其中步骤(g)包括向云服务发送所述服务请求并且从所述云服务接收服务响应。
11.方案I所述的方法,其中步骤(h)包括基于所述服务响应生成文本响应,通过无线通信系统发送所述文本响应到文本到语音(TTS)云服务,并且通过所述无线通信系统从所述TTS服务接收所述音频消息。


本发明的一个或多个实施例随后将结合附图进行描述,其中相同的附图标记代表相同的元件,并且其中
附图1根据本发明的一个实施例概略地示出了部分硬件和方法,用以提供语音用户接口 ;
附图2是一个示出了通信系统的实施例的框图,所述通信系统能够使用附图1的语音用户接口以及在此描述的方法;
附图3是在附图1和2中描述的移动设备的其中一些硬件和软件组成的框附图4描述了附图1-3的移动设备上使用的移动语音平台以及操作系统的分层软件结构以及程序模块交互;
附图5进一步描述了涉及在附图4的应用程序接口套件中使用的服务接口结构的细节;
附图6是一个流程图,示出了可以与附图1和2的语音用户接口一起使用的方法, 用以向用户提供一个完整的免提语音会话;
附图7是一个序列图,示出了用于一个示例性语音会话的消息流;以及
附图8包括附图8A和8B,是另一个序列图,示出了另外一个示例性语音会话的消息流。
具体实施方式
以下描述的系统和方法提供了一个移动语音平台,该移动语音平台(I)使得能够在车辆乘员和该乘员的蜂窝电话或者其他移动设备之间进行免提通信,而无需与移动设备进行物理交互,以及(2)实现该目的的方式使得能够对通过所述移动设备获得的基于因特网以及其他基于计算机的服务中的部分或全部提供广泛支持。如在此使用的,“服务”一般包括提供信息、控制以及/或者对移动设备用户的通信辅助。另外,如在此使用的,“在移动设备上使用或者通过移动设备接入的服务”包括那些通过安装在移动设备上的应用程序提供的服务以及只有通过与远端服务器通信才可获得的基于计算机的服务。后面的基于计算机的服务也被称作“云服务”,可以由任何具有可接入服务器的服务提供商提供,所述可接入服务器通过私人或公共网络是可用的,例如内部网或者因特网。
附图1描述了一个基于语音的用户接口 10的实施例,其可被用于通过移动设备以免提方式向车辆驾驶员提供服务。如在此使用的,“免提(hands-free)”意思是用户能够或者已经使用移动设备执行一个完整的基于语音的会话的一部分或者全部,而没有与所述设备物理交互或对所述设备进行控制。“完全免提(fully hands-free)”意思是用户能够或者已经使用移动设备执行一个完整的基于语音的会话的全部,而没有与所述设备物理交互或对所述设备进行控制。一些实施例可被执行用于提供一种免提体验,这种免提体验可能需要与移动设备进行一些交互,例如,将其置于接听模式,而其他一些实施例可被执行为完全免提,例如,当移动设备在用户的口袋、钱包或者公文包中时,无需物理接触所述设备。
在所描述的实施例中,车辆12的驾驶员通过语音与车载已安装的音频用户接口 14进行交互,所述用户接口通过短距离无线连接与驾驶员的移动设备16进行通信,在这种情况下,移动设备是一个蜂窝电话。移动设备16可以为能够进行无线通信以及无论是使用微处理器还是一些更简单或者更复杂的电路进行数字处理的任何便携设备。因此,移动设备包括蜂窝电话、PDA、膝上型电脑、笔记本、上网本以及其他个人电子设备。在附图1中描述的蜂窝电话16通常被称为智能电话,因为它允许用户向所述智能电话添加软件应用程序(app)以便执行在通话之外的功能。电话16包括触摸屏界面、一个或多个手动按钮、 麦克风、扬声器、以及内部电路(硬件),内部电路包括微处理器、用于存储软件和数据的存储器、以及通信电路,所述通信电路至少包括短距离无线通信技术,例如蓝牙以及/或者 WiFi,以及蜂窝通信技术,例如,用于CDMA、GSM或者其他标准化技术的蜂窝芯片组。如果需要,移动设备16的这些构件都是常规的,因此在这里就不单独示出或描述了。
除了移动设备硬件之外,蜂窝电话16还包括移动语音平台(MVP) 18,MVP18包括在所述移动设备上运行的软件。MVP18包括语音平台内核(SPK) 20以及应用程序接口套件 (AIS) 22,二者全部是包括计算机指令的程序模块,当计算机指令由设备的处理器执行时会执行其相应模块的功能,如下面将要描述的。使用位于远端的(云)语音服务24,而不是在移动设备自身上提供自动语音处理(ASR),但在一些实施例中,ASR可以在移动设备16上执行,接入或者不接入位于远端的语音模块、语法以及计算设施。移动设备16还包括操作系统(OS) 26,其可以提供根级别的功能,包括例如应用程序间的通信机制以及在设备硬件和软件模块以及运行于设备16上的应用程序之间接口的输入/输出(I/O)。包括在所述OS 的这些硬件接口功能中的是被所述设备用于与语音服务24以及其他可通过因特网或其他网络获得的云服务28通信的通信协议。任何基于计算机的服务都可以包括在云服务28的列表中,但是在附图1中示出的是对蜂窝电话的用户最有用的那些服务中的一部分,即社交媒体,位置服务(例如,导航),交通,天气,新闻,日程安排,就餐以及电影。也存在其他很多服务。
一般地,使用移动语音平台18免提接入服务将涉及通过移动设备16执行一个完整的语音会话,而与移动设备没有任何物理交互。这广泛地包括从用户接收语音输入,从响应于所述语音输入的内容的云服务获取服务结果,以及将所述服务结果作为语音响应呈现给用户。采用附图1的车辆12,驾驶员(用户)可以通过音频接口 14与移动设备交互来执行语音会话。这可以包括在车内音频接口 14和移动设备16之间建立短距离无线连接,以便随后允许使用音频接口的麦克风和扬声器来分别接收语音和向驾驶员或其他乘员呈现语音。所述语音输入可以作为数字化的语音,通过数字通信协议例如蓝牙或者WiFi在所述短距离无线连接上发送。 所述数字化的语音输入然后可以从所述移动设备16通过蜂窝或者其他无线通信系统被发送至语音服务24来执行涉及自动语音识别的语音到文本(STT)服务,或者文本到语音(TTS)服务,文本到语音(TTS)服务提供合成的或者记录的语音或者语音片段(例如,语音因素),用以生成音频消息,从而提供针对所述语音输入的合适的语音响应。语音识别结果(例如,返回的文本)然后被SPK20处理以最终确定要使用的合适的(所期望的)服务以便执行用户的请求。一旦确定所期望的服务,就使用通过一个或多个服务接口从应用程序接口套件(AIS) 22所选择的特定服务支持的命令和参数来形成服务请求,如下面将要更详细描述的。所述服务请求被送往所期望的服务(安装的应用程序以及/或者云服务)并且返回一个服务结果。然后使用那个服务结果生成自然语言语音响应;即,使用熟悉的以及特定于上下文的对话语言以及句子/从句结构。所述语音响应可以是音频消息,该音频消息最初是作为文本响应根据服务结果中的信息以及根据其他可用的信息(例如会话变量以及特定于上下文的条目)而建立的,如下面将要更详细描述的。一旦形成了所述文本响应,就将其转换为音频语音响应(例如,音频消息),这可以在所述移动设备16自身上完成,或者可以使用TTS服务24完成。所述音频消息然后可以通过短距离无线连接从移动设备被发送至音频用户接口 14,从而通过车辆扬声器呈现给车辆乘员。
现在转向附图2,示出了一个操作环境,包括移动车辆通信系统100,该系统包含所述基于语音的用户接口(SUI) 10,并且可被用于执行在此描述的方法。通信系统100大体上包括车辆12以及它的音频用户接口 14、移动设备16、语音服务24、以及云服务28,还有一些未在附图1中示出的系统基础设施,这些系统基础设施包括一个或多个无线载波系统 34,以及陆地通信网络36。还可以包括其他可选的设备、设施以及系统,例如计算机37、呼叫中心38、居所或者其他固定局域网设施39、具有固定天线的卫星通信系统54、以及一个或多个卫星56,以及还有用于导航的GPS卫星的星群58。应当理解的是,所公开的方法可以与任何数目的不同系统一起使用并且不特定地限制于在此示出的操作环境。另外,在此未描述的所述系统100的构件的构造、结构、设置以及操作在本领域中一般是已知的。因此, 以下段落简单的提供了一个这种通信系统10的简短概况,但是,未在此示出的其他系统也可以采用所公开的方法。
在所描述的实施例中车辆12被描述为一个运动型多功能车(SUV),但是应当理解的是,其他任何交通工具,包括客车、卡车、摩托车、休闲车(RV),船舶、飞行器等等都可以使用。其中一些车辆电子设备29大体地在附图2中示出,并且包括远程信息处理或者电话单元30,用于通过天线32以及本领域技术人员公知的其他电路与载波系统34无线地通信。车辆电子设备29还包括音频用户接口 14,该接口包括用于短距离无线通信的天线40、麦克风 42、一个或多个按钮或者其他控制输入装置44、以及一个或多个扬声器46。其他用户接口构件可以被包括在所述车辆中或者作为音频用户接口 14的一部分,例如视觉显示器(未示出)。所述音频用户接口 14可以是一组实质上独立的构件,这些构件只通过天线40通信, 或者可以硬线连接或以其它方式连接到车辆电子设备系统的其他模块或者部分,例如连接到电话单元30以及/或者车辆总线。所述音频用户接口 14可以硬线连接至车辆12以便在一个语音会话中调低通风扇、收音机音量等等。如在此使用的,术语“音频用户接口”广义的包括麦克风和扬声器在车辆中的任何适合的安装,包括硬件和任何软件构件,这使得车辆用户可以与车辆或者车辆中的其他设备例如移动设备16进行口头通信。麦克风42提供可以通过短距离无线连接使用天线40进行发送的音频输入。一个或多个按钮44允许用户手动输入 至音频用户接口来启动操作,例如开始一个语音会话,在该语音会话中采用所述麦克风42和扬声器46来向用户在车辆中提供免提服务,例如执行无线电话呼叫或者访问数据,提供远端控制或者提供消息发送以及通信服务。所述按钮可以位于对驾驶员来说方便的区域,例如方向盘毂或者辐条上。扬声器46可以是单个的专用于音频用户接口 14 的扬声器,或者可以与其他构件或者系统集成,例如无线电系统扬声器。
在所描述的实施例中,电话单元30是一个可选构件,在执行语音用户接口 (SUI) 10的操作中是不使用的,但是在其他实施例中,可以包括电话单元30并且电话单元 30可以与所述音频用户接口集成作为单个功能模块。电话单元30可以是一个安装在车辆中的OEM安装(嵌入)设备或者售后市场设备,其使得能够进行通过无线载波系统34或者通过无线网络的无线语音以及/或者数据通信。这使得车辆可以与呼叫中心38、其他启用了远程信息处理的车辆、或者一些其他实体或者设备进行通信。所述电话单元优选使用无线电传输来建立与无线载波系统34的通信信道(语音信道以及/或者数据信道)以便可以在所述信道上发送和接收语音以及/或者数据传输。通过提供语音和数据通信,电话单元30使得所述车辆可以提供多个不同的服务,包括那些涉及导航、电话通信、紧急救助、诊断、信息娱乐等等的服务。数据可以通过数据连接发送,例如通过在数据信道上的包数据传输来发送,或者可以使用本领域公知的技术通过语音信道发送。对于涉及语音通信(例如, 与位于所述呼叫中心38的真人顾问或者语音响应单元进行语音通信)和数据通信(例如, 向呼叫中心38提供GPS定位数据或者车辆诊断数据)的组合服务,所述系统可以在语音信道上采用单个呼叫并且在需要时在语音信道上的语音和数据传输之间进行切换,并且这可以使用本领域技术人员公知的技术来完成。对于定位服务,所述电话单元可以具有它自己的GPS电路,或者可以采用其他可用的GPS设备,例如安装在所述车辆上作为车辆导航系统一部分的GPS设备,或者使用来自移动设备16中的GPS设备。
无线载波系统34优选的是蜂窝电话系统,其包括多个发射塔50 (只示出了一个)、 一个或多个移动切换中心(MSC) 52、以及任何其他将无线载波系统34连接至陆地网络36 所需要的网络组件。每个发射塔50包括发送天线和接收天线以及基站,来自不同发射塔的基站直接或者通过中间设备例如基站控制器被连接至MSC52。蜂窝系统34可以实施任何适合的通信技术,包括例如,模拟技术诸如AMPS,或者较新的数字技术诸如CDMA (例如, CDMA2000)或者GSM/GPRS。如本领域技术人员将会理解的,各种发射塔/基站/MSC布置都是可能的并且可以与无线系统34—起使用。例如,所述基站和发射塔可以共位于同一位置或者它们可以互相远离设置,每个基站可以负责单个发射塔或者单个基站可以服务各种发射塔,以及各种基站可以联接至单个MSC,这只是列举了几个可能的布置。
除了采用无线载波系统34,还可以采用不同的卫星通信形式的无线载波系统来提供与车辆的单向或者双向通信。可以通过使用一个或多个通信卫星56以及上行传送站54 来完成。单向通信可以是,例如,卫星无线电服务,其中节目内容(新闻,音乐等等)被传送站54接收,打包用于上载,并且然后传送至卫星52,所述卫星向注册用户广播所述节目。双向通信可以是,例如,使用卫星56在车辆12和传送站54之间中继电话通信的卫星通话服务。如果被使用,该卫星通话可以作为无线载波系统34的补充或者替代来使用。
陆地网络36可以是常规的陆基电信网络,其连接至一个或多个固定电话并目连接无线载波系统34到例如语音服务24、云服务28、以及其他计算机或者服务器37 (例如位于居所39或者其他设施中的个人计算机)。例如,陆地网络36可以包括公用交换电话网络(PSTN),例如用于提供硬线通话(hardwired telephony)、包交换数据通信、以及因特网基础设施的PSTN。陆地网络36的一个或多个部分可以通过使用标准有线网络、光纤或其它光学网络、电缆网络、电力线、其他无线网络(例如无线局域网(WLAN)、或者提供宽带无线接入(BWA)的网络)、或者以上网络的任意组合来实现。另外,在附图2中示出的各种语音以及云服务无需通过陆地网络36连接,但是可以包括无线通话设备使得其可以直接与无线网络例如无线载波系统34进行通信。
计算机37可以是多个可以通过私人或者公共网络例如因特网访问的计算机中的一个。每个这种计算机37可被用于一个或多个目的,例如网页服务器,其可以被所述车辆通过无线载波34借助于音频用户接口 14/移动设备16,以及/或者借助于电话单元30而访问。其他这种可访问的计算机37可以是,例如服务中心计算机,诊断信息以及其他车辆数据可以从车辆通过电话单元30上载至所述服务中心计算机;被车辆所有者或者其他远程信息处理服务注册用户使用的客户端计算机,其用于例如访问或者接收车辆数据或者设置或配置注册用户的喜好或者控制车辆功能的目的;或者第三方库,从该第三方库获取车辆数据或其它信息或者将车辆数据或其它信息提供给该第三方库。计算机37也可以被用来提供因特网连接,例如DNS服务,或者作为网络地址服务器,该网络地址服务器采用DHCP 或者其他合适的协议来分配IP地址到所述车辆12以及/或者到所述移动设备16。当被车辆所有者用作客户端计算机37时,例如在居所39内,在移动设备16和计算机37之间的无线连接可以采用任何适合的短距离无线通信技术例如蓝牙或者任何802. 11协议来提供。
在附图2中示出的作为一个云服务的是呼叫中心38,其可以被用来向车辆操作员以及/或者车辆电子设备29提供多个不同的与车辆相关的服务以及系统后端功能。这些包括路旁或者紧急救助、诊断以及维护支持、娱乐服务、信息以及导航辅助,等等,如本领域已知的。可以提供这些呼叫中心服务作为车辆操作员通过语音用户接口 10可访问的服务的补充,或者作为在所述操作员在操作语音用户接口有困难时的备份。
尽管仅仅为了图解说明而被示出在附图1和2的车辆外部,但所述移动设备16作为语音用户接口 10的一部分的典型使用将涉及以下情形所述移动设备位于车辆中,例如当驾驶员在公路上操作车辆时。在附图3中示出了移动设备16的一些基本的功能硬件和软件构件。根据所示出的实施例,移动设备16是智能电话,其采用根据GSM以及/或者CDMA 标准的蜂窝通信,并且因此包括标准的蜂窝芯片组61以及天线62(用于语音和数据通信)、 天线63和64以及它们相关的电路(分别用于蓝牙以及WiFi无线连接)、电子处理设备65、 一个或多个数字存储器设备66、以及GPS接收器67。
处理器65可以是任何类型的能够处理电子指令的设备,包括微处理器、微控制器、主机处理器、控制器、车辆通信处理器、以及特定用途集成电路(ASIC)。处理器65执行各种类型的数字存储指令,例如存储在存储器66中的软件或者固件程序。这包括设备OS 26、移动车辆平台18、以及任何已安装的应用程序68,所有这些都可以存储在存储器66中。
GPS模块67从GPS卫星的星群58接收无线电信号。从这些信号,模块67可以确定移动设备位置,该移动设备位置被用于提供导航以及其他位置相关的服务。导航信息可以呈现在设备的显示器69上或者可以通过设备自己的扬声器(未示出)或者通过音频用户接口 14用语言呈现,例如可以实施以便提供分路段导航(turn-by-turn navigation)。
一般地,所述语音用户接口 10可以使用移动语音平台18来部分地实现,移动语音平台18运行于设备OS 26上并且与所安装的应用程序68、云服务28、或者这二者进行接口以便基于用户的语音输入为用户执行服务。所述移动语音平台以及其与移动设备16的其他部件的交互的其他细节在附图4和5中示出。
附图4描述了不同的程序模块,其中每个模块提供计算机指令,这些计算机指令在被处理器65执行时,使用所述设备OS 26来执行其已编程的功能,从而与所述设备16的各种硬件部分进行接口。所述移动语音平台18包括语音平台内核(SPK) 20以及应用程序接口套件(AIS) 22。SPK 20包括应用程序启动模块21,被用于启动从SPK20到设备上的服务(例如,应用程序68之一)或者在云中的服务(例如,云服务28之一)的服务呼叫。AIS 22包括多个单独应用程序服务接口 23,每个接口关联于可用于移动语音平台18的不同服务中的一个。由不同层执行的各个功能如下
设备OS 26
使用蓝牙提供底层通信以及设备连接控制
提供移动设备媒体播放功能,用于通过扬声器播放音频文件
提供麦克风驱动语音识别系统,用于将说出的语音转换为等同的文本
提供应用程序间的通信机制
语音平台内核20:
管理与车辆12的 所有高等级蓝牙集成
提供一致的词汇以及机制用于处理普通的语音交互,例如失败、原谅(不是很明白你)、以及退出
将转换的语音到文本处理成供应用程序使用的命令结构
保持与蓝牙设备相关的高等级应用程序偏好,请求管理
提供记录和安全管理
保持在音频信道和麦克风信道上的控制,包括音频聚焦(audio focus)以及在合适倍数的增益等级
服务接口 23
使用标准化的命令/参数I/O协议与SPK进行接口
籲定义它所支持的用于启动的语法
定义当应用程序被激活时它所支持的语法
处理由SPK20提供的进入语音到文本命令结构,并且将它们转换为期望的动作
连接至云服务以便发送和接收处理请求所需的信息
提供任何期望的设备显示器69用户接口
如上以及在附图4中所描述的,SPK20运行于操作系统26的上层,并且处理用于移动语音平台的消息发送的全部控制以及路由(routing)。SPK20根据以上结合附图1所讨论的以及在附图6-8中所示出的方法提供模块间的命令来执行语音会话的基本处理流程。在从用户接收了输入(例如,请求或命令)的语音会话中,SPK20操作语音识别结果的语音处理,所述结果是由基于云的自动语音识别(ASR)服务返回的。这是通过使用后-ASR 服务-识别语法(post-ASR service-1dentifying grammar)来完成的,所述语法被专门设计为具有这样的词汇用于从语音识别结果识别期望的服务或者会话上下文。构建到这个功能中的是自然语言响应的建立以及错误处理,所述自然语言响应用于向用户返回一个语音响应。会话上下文(例如,导航V.消息发送V.预约就餐)也可以在SPK20处使用该第一语法确定,并且所述会话上下文可被用于进一步限制由SPK20所选择的服务选项,或者被用于辅助所述语音识别结果的后-ASR处理。每个语音会话具有至少一个上下文,即,至少一个与用户语音输入相关的主题领域。在附图1和2中示出的不同的云服务指示了可以识别和区分的各种会话上下文中的一些。对于任何语音会话,都会有一个主要的会话上下文以及一个或多个辅助服务上下文。例如,进行就餐预约可能会调用就餐会话上下文,其中所寻求的主要消息内容包括饭店识别、宴会人数、预约时间等等。但是它还可以调用导航上下文,其中期望了解到达饭店的路径。或者与他人共享预约通知的消息上下文。SPK 20不仅确定一个主要的会话上下文,也确定一个或多个辅助会话上下文,如果合适的话,并且对于每个会话上下文,识别一个合适的云服务或者安装的服务。
在附图1和2中识别的语音服务可以按各种方式执行,在一些实施例中,可以被唯一的设计或者包括特别的被设计用于支持所述语音用户接口 10的语法或者模型。在其他实施例中,采用广义化的云ASR服务;即,这样的服务其中,尽管它可以允许用于语音识别引擎的特定语言模型以及其他通用配置的参数说明,但不会使用针对用户语音会话所预期的会话上下文定制的语法。可从谷歌获取的安卓语音功能是广义化云ASR服务的一个例子。
一旦SPK20已经识别或者以其它方式确定期望的服务,它就使用应用程序启动模块21,通过关联于所述服务的服务接口 23来开始所选择的服务。如在附图4中示出的,一些服务接口 23只与云服务交互,或者只与云服务以及所述设备用户接口(例如,显示器69) 交互,而其他服务接口与安装的应用程序(例如,应用程序4)进行接口,安装的应用程序本身可以通过使用操作系统到云服务的接口而访问云服务。
现在转向附图5,示出了服务接口 23的更多细节。每个服务接口 23包括SPK消息结构接口,其遵循由SPK20使用的标准化I/O协议用于传递消息到服务接口。这提供了一个普通框架用以与移动语音平台交互以便可以通过创建服务接口来访问新的服务,所述接口满足所述SPK 20 I/O规格,同时识别到达SPK 20的命令和参数,所述命令和参数是呼叫和接收来自服务的结果所需的。所述服务接口包括命令处理,其使用特定于服务的语法来建立服务请求并且然后通过OS 26发送该服务请求到所述云服务或者安装的应用程序。所述特定于服务的语法是包括用于启动和命令所述服务的词汇的语法。
SPK20的应用程序启动模块21可以采用与服务接口相同的结构来实现,除了它是被SPK20使用的特殊目的的接口,用于联系选择的服务接口来启动所述服务并且传递所述服务使用的命令和参数。
附图6示出了一个完整语音会话的流程图,该完整语音会话可被用于为车辆中的驾驶员提供移动设备的免提或者甚至完全免提的操作。
附图7和8提供了一个完整语音会话的更详细的例子,示出了各种模块间以及设备间的呼叫和序列,用于请求服务、获取结果、并且将该结果提供给车辆驾驶员,这些全部是通过音频用户接口 14进行的。
可以理解的是以上只是本发明的一个或多个实施例的描述。本发明并不局限于在此公开的特定实施例,而是仅由下面的权利要求所限定。另外,在以上描述中所包含的陈述内容涉及特定的实施例并且不能解释成对本发明的范围或者在权利要求中使用的术语的定义的限制,除非在上文中明确定义了术语或者短语。各种其他的实施例以及对所公开实施例的各种变化和修改对本领域技术人员来说都是显而易见的。所有这样的其他实施例、 变化以及修改都被认为是涵盖在所附权利要求的范围内。
如在本说明书和权利要求中所使用的,术语“例如”、“举个例子”、“举例”、“诸如” 以及“类似”以及动词“包括”、“具有”、“包含”以及它们的其他动词形式,当和一个或多个构件或其他项目的列表一起使用时,每个都应理解成是开放式的,意味着所述列表不被认为排除了其他 、额外的构件或项目。其他的术语应被解释为使用它们最广义合理的含义,除非它们被用于一个需要不同解释的上下文中。
权利要求
1.一种使用移动设备提供免提服务的方法,所述移动设备能够无线接入基于计算机的服务,所述方法包括以下步骤(a)在移动设备和一个或多个音频设备之间建立短距离无线连接,所述音频设备至少包括麦克风和扬声器;(b)在所述移动设备处接收通过麦克风从用户输入并且通过短距离无线连接发送的语曰;(c)将从所述移动设备输入的语音无线传送至提供自动语音识别(ASR)的语音识别服务器;(d)在所述移动设备处接收语音识别结果,所述语音识别结果表示所述语音输入的内容;(e)通过采用第一服务识别语法处理所述语音识别结果来确定期望的服务;(f)通过采用与所期望的服务相关联的第二特定于服务的语法处理至少一部分语音识别结果来确定用户服务请求;(g)启动所述用户服务请求并接收服务响应;(h)根据所述服务响应生成音频消息;并且(i)通过扬声器将所述音频消息呈现给用户。
2.权利要求1所述的方法,其中所述ASR服务器包括广义化的第三方云服务,以及其中,步骤(c)还包括发送所述语音输入到所述广义化的第三方云服务。
3.权利要求2所述的方法,其中步骤(d)还包括在确定会话上下文之前接收所述语音识别结果,以及其中,步骤(e)还包括使用所述第一语法确定所述会话上下文。
4.权利要求1所述的方法,其中所述第一服务识别语法包括表示多个会话上下文的词汇,以及其中,步骤(e)包括根据所述语音识别结果和所述第一语法来确定所述会话上下文中的哪一个或多个涉及所述语音输入的内容。
5.权利要求4所述的方法,其中所述会话上下文包括就餐、天气、交通、导航、日程安排以及消息传递。
6.权利要求4所述的方法,其中步骤(e)还包括识别一个主要会话上下文和一个或多个辅助会话上下文。
7.权利要求6所述的方法,其中步骤(e)还包括确定与所述主要会话上下文关联的期望服务以及针对每个辅助会话上下文的辅助服务。
8.权利要求1所述的方法,其中所述方法是采用具有安装的音频用户接口的车辆实现的,其中步骤(a)还包括在所述移动设备和音频用户接口之间建立短距离无线连接,以及其中,步骤(i)还包括通过所述短距离无线连接将所述音频消息发送至所述音频用户接口以便在车辆中进行有声呈现。
9.权利要求1所述的方法,其中步骤(g)包括向安装在所述移动设备上的应用程序发送所述服务请求并且从所述安装的应用程序接收服务响应。
10.权利要求1所述的方法,其中步骤(g)包括向云服务发送所述服务请求并且从所述云服务接收服务响应。
全文摘要
本发明涉及用于接到移动设备的基于语音的接口的服务识别和启动。提供使用移动设备(可无线接入基于计算机的服务)的免提服务的方法包括在移动设备和一个或多个至少含麦克风和扬声器的音频设备间建立短距离无线连接;移动设备接收经麦克风从用户输入且经短距离无线连接发送的语音;将从移动设备输入的语音无线传送至提供自动语音识别的语音识别服务器;移动设备接收表示语音输入内容的语音识别结果;采用第一服务识别语法处理语音识别结果而确定期望服务;采用与期望服务关联的第二特定于服务的语法处理至少一部分语音识别结果而确定用户服务请求;启动该请求并接收服务响应;根据服务响应生成音频消息;通过扬声器将音频消息呈现给用户。
文档编号H04L29/08GK103067443SQ201210517520
公开日2013年4月24日 申请日期2012年10月18日 优先权日2011年10月18日
发明者D·R·伯克, D·古罗维奇, D·E·鲁曼, K·A·弗里, S·M·麦卡钦, M·T·卡内维尔, M·古普塔 申请人:通用汽车环球科技运作有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1