实现语音请求的系统和方法与流程

文档序号:18900771发布日期:2019-10-18 21:54阅读:227来源:国知局
实现语音请求的系统和方法与流程

许多车辆、智能电话、计算机和/或其他系统和装置使用语音助理来提供信息或其他服务以响应于用户请求。然而,在某些情况下,可能希望对这些用户请求的处理和/或协助进行改进。

例如,当用户提供语音助理无法识别的请求时,语音助理将提供后退意图,让用户知道语音助理无法识别请求的特定意图,因此无法实现该请求。这会致使用户不得不去单独的在线商店/数据库为他们的语音助理获取新技能,或者致使用户直接访问单独的私人助理来实现该请求。对于希望及时实现请求的用户来说,这些工作可能会令人沮丧。因此,希望提供一种系统或方法,即使当语音助理最初没有识别出这种请求背后的特定意图时,该系统或方法能够使用户执行他们的语音助理以实现请求。



技术实现要素:

一台或多台计算机的系统可以被配置成通过在系统上安装软件、固件、硬件或其组合来进行特定的操作或动作,这些软件、固件、硬件或其组合在操作中致使系统进行这些动作。一个或多个计算机程序可以被配置成通过指令来进行特定的操作或动作,这些指令包括在其被数据处理设备执行时致使该设备进行这些动作的指令。一个总的方面包括一种车辆,其包括:用于用户的乘客舱;位于乘客舱中的传感器,该传感器被配置成获取用户的语音请求;存储器,其被配置成存储语音请求的特定意图;和处理器,其被配置成至少有助于:获取用户的语音请求;试图通过语音助理对语音请求的特定意图进行分类;确定语音助理不能对语音请求的特定意图进行分类;在确定语音助理不能对特定意图进行分类之后,通过一种或多种自然语言处理(nlp)方法来解释特定意图;在一种或多种nlp方法解释了特定意图之后,执行语音助理以实现语音请求,或者访问一个或多个私人助理以实现语音请求或其某种组合。该方面的其他实施例包括记录在一个或多个计算机存储装置上的相应的计算机系统、设备和计算机程序,计算机系统、设备和计算机程序中的每一个被配置成进行该方法的动作。

具体实施可以包括以下特征中的一个或多个。该车辆还包括为该特定意图生成一个或多个规则集,其中一个或多个规则集被配置成帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。该车辆还包括应用一种或多种机器学习方法来帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。所述车辆,其中,一个或多个私人助理包括:汽车车主手册私人助理、车辆域私人助理、旅行私人助理、购物私人助理和娱乐私人助理。所述车辆,其中,被访问的一个或多个私人助理包括作为远程计算机系统一部分的自动化私人助理。所述技术的具体实施可以包括计算机可访问介质上的硬件、方法或过程、或计算机软件。

一个一般方面包括一种用于实现语音请求的方法,该方法包括:通过传感器获取用户的语音请求;执行语音助理,通过处理器对语音请求的特定意图进行分类;当语音助理不能通过处理器对特定意图进行分类时,执行一种或多种自然语言处理方法来解释特定意图;和基于由一种或多种nlp方法解释的特定意图,通过处理器访问一个或多个私人助理以实现语音请求,或者执行语音助理以实现语音请求或其某种组合。该方面的其他实施例包括记录在一个或多个计算机存储装置上的相应的计算机系统、设备和计算机程序,计算机系统、设备和计算机程序中的每一个被配置成进行该方法的动作。

具体实施可以包括以下特征中的一个或多个。该方法还包括,在特定意图被一种或多种nlp方法解释之后,通过处理器生成用于该特定意图的一个或多个规则集,其中该一个或多个规则集被配置为帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。该方法还包括,在特定意图被一种或多种nlp方法解释之后,通过处理器应用一个或多个机器学习方法以帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。所述方法,其中,将用户置于车辆内;并且将处理器设置在车辆内,并且在车辆内执行语音助理和一种或多种nlp方法。所述方法,其中,将用户置于车辆内;和将处理器设置在远程服务器内,并且从远程服务器执行语音助理和一种或多种nlp方法。所述方法,其中,一个或多个私人助理包括:汽车车主手册私人助理、车辆域私人助理、旅行私人助理、购物私人助理和娱乐私人助理。所述方法,其中,被访问的一个或多个私人助理包括作为远程计算机系统一部分的自动化私人助理。所述技术的具体实施可以包括计算机可访问介质上的硬件、方法或过程、或计算机软件。

一个一般方面包括一种用于实现语音请求的系统,该系统包括:传感器,其被配置为获取用户的语音请求;存储器,其被配置成存储语音请求的特定意图的语言;和处理器,其被配置成至少有助于:获取用户的语音请求;试图通过语音助理对语音请求的特定意图进行分类;确定语音助理不能对特定意图进行分类;在确定语音助理不能对特定意图进行分类之后,通过一种或多种自然语言处理(nlp)方法来解释特定意图;在一种或多种nlp方法解释了特定意图之后,执行语音助理以实现语音请求,或者访问一个或多个私人助理以实现语音请求或其某种组合。该方面的其他实施例包括记录在一个或多个计算机存储装置上的相应的计算机系统、设备和计算机程序,计算机系统、设备和计算机程序中的每一个被配置成进行该方法的动作。

具体实施可以包括以下特征中的一个或多个。该系统还包括为该特定意图生成一个或多个规则集,其中一个或多个规则集被配置成帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。该系统还包括应用一种或多种机器学习方法来帮助语音助理对一个或多个后续类似语音请求的特定意图进行分类。所述系统,其中,将用户置于车辆内;和将处理器设置在车辆内,并且在车辆内执行语音助理和一种或多种nlp方法。所述系统,其中,将用户置于车辆内;和将处理器设置在远程服务器内,并且从远程服务器执行语音助理和一种或多种nlp方法。所述系统,其中,一个或多个私人助理包括:汽车车主手册私人助理、车辆域私人助理、旅行私人助理、购物私人助理和娱乐私人助理。所述系统,其中,被访问的一个或多个私人助理包括作为远程计算机系统一部分的自动化私人助理。所述技术的具体实施可以包括计算机可访问介质上的硬件、方法或过程、或计算机软件。

附图说明

以下将结合附图描述公开的示例,其中相同的数字表示相同的元件,并且其中:

图1是根据示例性实施例的系统的功能框图,该系统包括车辆、远程服务器、各种语音助理、以及控制系统,该控制系统用于响应于用户的请求而利用语音助理来提供信息或其他服务;

图2是描述了自动语音识别(asr)系统的实施例的框图,该自动语音识别系统能够利用本文公开的系统和方法;并且

图3是根据示例性实施例的用于实现用户的语音请求的过程的流程图。

具体实施方式

以下详细描述本质上仅是示例性的,并不旨在限制所述公开或应用及其用途。此外,将不受在前述

背景技术:
或以下具体实施方式中提出的任何理论的约束。

图1示出了包括车辆102、远程服务器104和各种远程私人助理174(a)至私人助理174(n)的系统100。在各种实施例中,如图1所示,车辆102包括:一个或多个前端主语音助理170,每个前端主语音助理170都是可以为用户进行一项或多项任务的基于软件的代理(通常称为“聊天机器人”);一个或多个前端自然语言处理(nlp)引擎173;和一个或多个前端机器学习引擎176,并且远程服务器104包括一个或多个后端语音助理172(类似于前端语音助理170)、一个或多个后端nlp引擎175和一个或多个后端机器学习引擎177。

在某些实施例中,语音助理为用户提供与车辆102的一个或多个系统有关的信息(例如,与车辆巡航控制系统、灯、信息娱乐系统、气候控制系统等的操作有关)。同样在某些实施例中,语音助理为用户提供与导航有关的信息(例如,与车辆102在行驶时的旅行和/或兴趣点有关)。同样在某些实施例中,语音助理为用户提供与一般个人协助有关的信息(例如,与语音交互、制作待办事项列表、设置警报、音乐回放、流式播客、播放有声读物、诸如但不限于天气、交通和新闻等其他实时信息有关,以及与一种或多种可下载技能有关)。在某些实施例中,前端nlp引擎173和后端nlp引擎175都利用已知的nlp技术/算法(即,自然语言理解启发式教育法)来创建对应于文本输入的语言的一个或多个常识解释。在某些实施例中,前端机器学习引擎176和后端机器学习引擎177都利用已知的基于统计的建模技术/算法来随着时间流逝建立数据,以基于数据洞察力(例如,监督学习、非监督学习、强化学习算法等)调整模型和路线信息。

同样在某些实施例中,二级私人助理174(即,用于执行一项或多项任务的其他基于软件的代理)可以配置有可以为用户提供与一个或多个特定意图有关的集中信息的一个或多个专业的技能集,诸如(举例说明):一个或多个汽车车主手册私人助理174(a)(例如,提供一个或多个数据库的信息,该数据库具有与一辆或多辆车辆有关的指导信息),其例如通过特征导师(featureteachertm)来配置;一个或多个车辆域助理174(b)(例如,提供一个或多个数据库的信息,该数据库具有与一辆或多辆车辆有关的车辆部件信息),其例如通过吉娜汽车机器人(ginavehiclebottm)来配置;一个或多个旅行私人助理174(c)(例如,提供一个或多个数据库的信息,该数据库具有各种类型旅行信息),其例如通过谷歌助理(googleassistanttm)、快速旅游网(snaptraveltm)、嬉芒网(hipmunktm)或卡亚克网(kayaktm)等旅行网站来配置;一个或多个购物助理174(d)(例如,提供一个或多个数据库信息,该数据库具有各种购物/零售相关的信息),其例如通过谷歌购物(googleshoppingtm)、购物专区(shopzillatm)或比价网(pricegrabbertm)等购物网站来配置;和一个或多个娱乐助理174(e)(例如,提供一个或多个数据库的信息,该数据库具有媒体相关的信息),其例如通过山羊机器人(goatbottm)、factpediatm、datbottm等来配置。应当理解,在不同的实施例中,私人助理的数量和/或类型可以变化(例如,使用字母a到n表示的附加私人助理174可以代表任意数量的语音助理)。

在各种实施例中,私人助理174(a)至私人助理174(n)中的每一个与具有处理器和存储器的一个或多个计算机系统相关联。同样在各种实施例中,私人助理174(a)至私人助理174(n)中的每一个可以包括自动语音助理、消息传送助理和/或人类语音助理。在各种实施例中,在自动语音助理的情况下,相关联的计算机系统代表自动语音助理做出各种决定并实现用户请求。同样在各种实施例中,在人类语音助理(例如,远程服务器104的人类语音助理146,如图1所示)的情况下,相关联的计算机系统提供人类在代表人类语音助理做出各种决定并实现用户请求时可以使用的信息。

如图1所示,在各种实施例中,车辆102、远程服务器104和各种私人助理174(a)至私人助理174(n)通过一个或多个通信网络106(例如,在各种实施例中,一个或多个蜂窝、卫星和/或其他无线网络)进行通信。在各种实施例中,系统100包括一个或多个语音助理控制系统119,该语音助理控制系统119用于响应于用户请求,利用语音助理来提供信息或其他服务。

在各种实施例中,车辆102包括车身101、设置在车身101内的乘客舱(即,客舱)103、一个或多个车轮105、驱动系统108、显示器110、一个或多个其他车辆系统111和车辆控制系统112。根据示例性实施例,在各种实施例中,车辆102的车辆控制系统112包括语音助理控制系统119或者是语音助理控制系统119的一部分,该语音助理控制系统119用于响应于用户请求,利用语音助理来提供信息或其他服务。在各种实施例中,语音助理控制系统119和/或其组件也可以是远程服务器104的一部分。

在各种实施例中,车辆102包括汽车。车辆102可以是多种不同类型的机动车中的任何一种,例如轿车、货车、卡车或运动型多功能车(suv),并且在某些实施例中可以是两轮驱动(2wd)(即后轮驱动或前轮驱动)、四轮驱动(4wd)或全轮驱动(awd),和/或各种其他类型的车辆。在某些实施例中,语音助理控制系统119可以结合一种或多种不同类型的车辆来实现,和/或结合一种或多种不同类型的系统和/或装置来实现,例如计算机、平板电脑、智能电话等和/或其软件和/或其应用,和/或在私人助理174(a)至私人助理174(n)中的任一个的一个或多个计算机系统中或在与私人助理174(a)至私人助理174(n)中的任一个相关联的一个或多个计算机系统中实现。

在各种实施例中,驱动系统108安装在底盘(图1中未示出)上,并驱动车轮109。在各种实施例中,驱动系统108包括推进系统。在某些示例性实施例中,驱动系统108包括内燃机和/或电动机/发电机,其与变速器联接。在某些实施例中,驱动系统108可以变化,和/或可以使用两个或多个驱动系统108。举例来说,车辆102还可结合多种不同类型的推进系统中的任何一种或其组合,例如汽油或柴油燃料内燃机、“柔性燃料车辆”(ffv)发动机(即,使用汽油和酒精的混合物)、气态化合物(例如,氢气和/或天然气)燃料发动机、燃烧/电动机混合发动机、以及电动机。

在各种实施例中,显示器110包括显示屏、扬声器和/或一个或多个相关联的设备、装置和/或系统,用于为用户提供视觉和/或音频信息,例如地图和导航信息。在各种实施例中,显示器110包括触摸屏。同样在各种实施例中,显示器110包括车辆102的导航系统,和/或是车辆102的导航系统的一部分,和/或联接到车辆102的导航系统。同样在各种实施例中,显示器110位于车辆102的前仪表板处或附近,例如在车辆102的前排乘客座椅之间。在某些实施例中,显示器110可以是车辆102内的一个或多个其他装置和/或系统的一部分。在某些其他实施例中,显示器110可以是一个或多个单独的装置和/或系统的一部分(例如,与车辆分离或不同的),例如智能电话、计算机、桌子和/或其他装置和/或系统,和/或用于其他导航和地图相关的各应用。

同样在各种实施例中,该一个或多个其他车辆系统111包括用户可能正在向其请求信息或服务的车辆102的一个或多个系统(例如,车辆巡航控制系统、灯、信息娱乐系统、气候控制系统等)。

在各种实施例中,车辆控制系统112包括一个或多个收发器114、传感器116和控制器118。如上所述,根据示例性实施例,在各种实施例中,车辆102的车辆控制系统112包括语音助理控制系统119或者是语音助理控制系统119的一部分,该语音助理控制系统119用于响应于用户请求,利用语音助理来提供信息或其他服务。此外,类似于以上讨论,虽然在某些实施例中,语音助理控制系统119(和/或其组件)是车辆102的一部分,但是在某些其他实施例中,语音助理控制系统119可以是远程服务器104的一部分和/或一个或多个其他单独的装置和/或系统的一部分(例如,与车辆和远程服务器分离或不同),例如智能电话、计算机等,和/或私人助理174(a)至私人助理174(n)中的任一个,等等。

在各种实施例中,一个或多个收发器114用于与远程服务器104和私人助理174(a)至私人助理174(n)通信。在各种实施例中,一个或多个收发器114经由一个或多个通信网络106与远程服务器104的一个或多个相应的收发器144和/或附加私人助理174的相应收发器(未示出)通信。

此外,如图1所示,传感器116包括一个或多个麦克风120、其他输入传感器122、摄像头123和一个或多个附加传感器124。在各种实施例中,麦克风120接收用户的输入,包括用户的请求(例如,用户对待提供的信息的请求和/或用户对待进行的一项或多项其他服务的请求)。同样在各种实施例中,其他输入传感器122例如经由显示器110的触摸屏或键盘接收用户的其他输入(例如,在某些实施例中,关于请求的其他细节)。在某些实施例中,利用一个或多个摄像头123来获取与兴趣点和/或用户感兴趣的其他类型的信息和/或服务有关的数据和/或信息,例如,通过扫描快速响应(qr)代码来获得与兴趣点有关的名称和/或其他信息和/或用户请求的信息和/或服务(例如,通过扫描优选餐馆、商店等的优惠券,和/或扫描车辆102内或周围的其他材料,和/或在语音和多模态交互对话中智能地利用摄像头123)等等。

此外,在各种实施例中,附加传感器124获取与驱动系统108(例如,与其操作有关)有关的数据和/或用户可能向其请求信息或服务的一个或多个其他车辆系统111(例如,车辆巡航控制系统、灯、信息娱乐系统、气候控制系统等)的数据。

在各种实施例中,控制器118联接到收发器114和传感器116。在某些实施例中,控制器118还联接到显示器110和/或驱动系统108和/或其他车辆系统111。同样在各种实施例中,控制器118控制收发器和传感器116的操作,并且在某些实施例中,控制器118还全部或部分地控制驱动系统108、显示器110和/或其他车辆系统111。

在各种实施例中,控制器118接收用户的输入,包括用户对信息的请求(即,语音请求)和/或对提供一个或多个其他服务的请求。同样在各种实施例中,控制器118经由远程服务器104与前端语音助理170或后端语音助理172通信。同样在各种实施例中,语音助理170/172将对用户请求背后的特定意图进行识别和分类,并随后经由一个或多个嵌入技能来实现用户请求,或者在某些情况下,语音助理170/172确定访问私人助理174(a)至私人助理174(n)中的哪一个以获得支持或者基于特定意图确定私人助理174(a)至私人助理174(n)中的哪一个独立地实现了用户请求。

同样在各种实施例中,如果语音助理170/172不能轻易地对用户请求的语言背后的特定意图进行分类从而实现用户请求(即,用户请求接收后退意图分类),语音助理170/172将执行其自动语音识别(asr)系统的各方面,如下所述,以将语音请求的语言转换成文本并将转录的语音传递给nlp引擎173/175以获得额外支持。同样在各种实施例中,nlp引擎173/175将执行自然语言技术以创建对转录的语音语言的一个或多个常识性解释,并基于这些常识性解释中的至少一个对特定意图进行分类,而且如果特定意图可以被分类,则语音助理170/172和/或私人助理174(a)至私人助理174(n)中适当的一个将被访问以处理和实现该请求。同样在各种实施例中,可以生成规则集和/或可以执行机器学习引擎176/177以帮助语音助理170/172对类似性质的后续用户请求背后的特定意图进行分类。同样在各种实施例中,结合图3,根据下文进一步描述的过程300的步骤,控制器118自动化地进行这些任务。在某些实施例中,这些任务中的一些或全部也可以由一个或多个其他控制器全部或部分地进行,例如远程服务器控制器148(下面将进一步讨论)和/或附加私人助理174的一个或多个控制器(未示出),该其他控制器代替或与车辆控制器118一起使用。

控制器118包括计算机系统。在某些实施例中,控制器118还可以包括一个或多个收发器114、传感器116、其他车辆系统和/或装置、和/或其部件。此外,可以理解,控制器118可以在其他方面不同于图1所示的实施例。例如,控制器118可以联接到或以其他方式利用一个或多个远程计算机系统和/或其他控制系统,例如,作为上述识别的车辆102装置和系统的一个或多个中的一部分,和/或远程服务器104和/或其一个或多个部件的一部分,和/或附加私人助理174的一个或多个装置和/或系统的一部分或与附加私人助理174的一个或多个装置和/或系统相关联的一部分。

在所示实施例中,控制器118的计算机系统包括处理器126、存储器128、接口130、存储装置132和总线134。处理器126进行控制器118的计算和控制功能,并且可以包括任何类型的处理器或多个处理器、诸如微处理器的单个集成电路、或者任何适当数量的协同工作以实现处理单元的功能的集成电路装置和/或电路板。在操作期间,一般在执行本文所述各过程时,例如结合图3在下文进一步描述的过程300时,处理器126执行包含在存储器128内的一个或多个程序136,并且正因如此,处理器126控制控制器118和控制器118的计算机系统的一般操作。

存储器128可以是任何类型的合适的存储器。例如,存储器128可以包括各种类型的动态随机存取存储器(dram),例如同步动态随机存储(sdram)、各种类型的静态随机存取存储器(sram)和各种类型的非易失性存储器(可编程序只读存储器(prom),电可编程序只读存储器(eprom和闪存))。在某些示例中,存储器128与处理器126位于和/或共同位于同一计算机芯片上。在所述实施例中,存储器128存储上述程序136以及一个或多个存储值138(例如,在各种实施例中,与不同私人助理174(a)至私人助理174(n)中的每一个相关联的特定技能数据库)。

总线134用于在控制器118的计算机系统的各个部件之间传输程序、数据、状态和其他信息或信号。接口130允许例如从系统驱动器和/或另一计算机系统与控制器118的计算机系统通信,并且可以使用任何合适的方法和设备来实现。在一个实施例中,接口130从收发器114、传感器116、驱动系统108、显示器110和/或其他车辆系统111获取各种数据,并且处理器126基于该数据为用户请求的处理提供控制。在各种实施例中,接口130可以包括一个或多个网络接口以与其他系统或部件通信。接口130还可以包括用于与技术人员通信的一个或多个网络接口,和/或用于连接到诸如存储装置132等存储设备的一个或多个存储接口。

存储装置132可以是任何合适类型的存储设备,包括直接访问存储设备,例如硬盘驱动器、闪存系统、软盘驱动器和光盘驱动器。在一个示例性实施例中,存储装置132包括程序产品,存储器128可以从该程序产品接收执行本公开的一个或多个过程的一个或多个实施例的程序136,例如结合图3在下文进一步描述的过程300(及其任何子过程)的步骤。在另一示例性实施例中,程序产品可以直接存储在存储器128和/或盘(例如,盘140)中和/或被存储器128和/或盘(例如,盘140)访问,如下所述。

总线134可以是连接计算机系统和部件的任何合适的物理或逻辑装置。这包括但不限于直接硬线连接、光纤、红外和无线总线技术。在操作期间,程序136存储在存储器128中,并由处理器126执行。

应当理解,虽然在全功能计算机系统的环境下描述了该示例性实施例,但是本领域技术人员将会认识到,本公开的机制能够作为程序产品发布,该程序产品具有一种或多种类型的非暂时性计算机可读信号承载介质,该信号承载介质用于存储该程序及其指令并执行其发布,例如承载该程序并包含存储在其中的计算机指令的非暂时性计算机可读介质,其用于使计算机处理器(例如处理器126)进行和执行该程序。这种程序产品可以采取多种形式,并且同样适用于本公开,而与用于执行分发的计算机可读信号承载介质的特定类型无关。信号承载介质的例子包括:可记录介质,如软盘、硬盘、存储卡和光盘,以及诸如数字和模拟通信链路等传输介质。应当理解,在某些实施例中也可以利用基于云的存储和/或其他技术。同样应当理解,控制器118的计算机系统也可以在以下方面不同于图1所示的实施例,例如控制器118的计算机系统可以联接到一个或多个远程计算机系统和/或其他控制系统,或者可以以其他方式利用这些系统。

此外,如图1所示,在各种实施例中,远程服务器104包括收发器144、一个或多个人类语音助理146和远程服务器控制器148。在各种实施例中,收发器144使用一个或多个通信网络106经由车辆控制系统112的收发器114与车辆控制系统112通信。

此外,如图1所示,在各种实施例中,远程服务器104包括语音助理172,其在上文详细讨论过并与远程服务器104(例如,控制器148)的一个或多个计算机系统相关联。在某些实施例中,远程服务器104包括自动语音助理172,其经由控制器148为用户提供自动信息和服务。在某些其他实施例中,远程服务器104包括人类语音助理146,其经由人向用户提供信息和服务,这也可以通过联接到人类语音助理146和/或由人类语音助理146使用的控制器148提供的信息和/或决定来促进。

同样在各种实施例中,远程服务器控制器148有助于促进请求处理以及人类语音助理146的参与和介入,和/或可以用作自动语音助理。如贯穿本申请所用,术语“语音助理”是指根据请求向用户提供信息的任何数量的不同类型的语音助理、语音代理、虚拟语音助理等。例如,在各种实施例中,远程服务器控制器148可以全部或部分地包括语音助理控制系统119(例如,在某些实施例中,单独地或者结合车辆控制系统112和/或用户智能电话、计算机或其他电子装置的类似系统)。在某些实施例中,通过结合车辆102的控制器118(单独地或者结合车辆102的控制器118)和/或结合图3的过程300所讨论的,远程服务器控制器148可以进行下文的一些或全部处理步骤。

此外,在各种实施例中,远程服务器控制器148包括处理器150、具有一个或多个程序160和存储在其中的存储值162的存储器152、接口154、存储装置156、总线158和/或盘164(和/或其他存储设备),并且类似于车辆102的控制器118。同样在各种实施例中,如上所述,例如,远程服务器控制器148的处理器150、存储器152、程序160、存储值162、接口154、存储装置156、总线158、盘164和/或的其他存储设备在结构和功能上类似于车辆102的控制器118的相应处理器126、存储器128、程序136、存储值138、接口130、存储装置132、总线134、盘140和/或其他存储设备。

如上所述,在各种实施例中,各种私人助理174(a)至私人助理174(n)可以提供用于特定意图的信息,例如,一个或多个汽车车主手册助理174(a);车辆域助理174(b);旅行助理174(c);购物助理174(d);娱乐助理174(e);和/或任何数量的其他特定意图私人助理174(n)(例如,与任何数量的其他用户需求和期望相关)。

还应当理解,在各种实施例中,附加私人助理174中的每一个可以包括、联接于和/或关联于和/或可以利用与结合车辆102和远程服务器104描述的装置和系统类似的各种相应的装置和系统,例如,包括相应的收发器、控制器/计算机系统、处理器、存储器、总线、接口、存储装置、程序、存储值、人类语音助理等,其结构和/或功能与车辆102和/或远程服务器104中所述的相似。此外,还应当理解,在某些实施例中,这些装置和/或系统可以全部或部分地包括私人助理控制系统119(例如,在某些实施例中,单独地或者结合车辆控制系统112、远程服务器控制器148和/或用户智能电话、计算机或其他电子装置的类似系统),和/或可以进行结合车辆102的控制器118、远程服务器控制器148和/或结合图3的过程300中讨论的一些或全部处理步骤。

现在转向图2,示出了自动语音识别系统(asr)系统210的示例性体系结构,其可用于实现当前公开的方法。asr系统210可以被结合到任何客户端装置中,例如上面讨论的那些,包括前端语音助理170和后端语音助理172。与asr系统210相似或相同的asr系统可以被结合到一个或多个远程语音处理服务器中,包括一个或多个服务器,该服务器位于私人助理174(a)至私人助理174(n)中的任一个的一个或多个计算机系统中或位于与私人助理174(a)至私人助理174(n)中的任一个相关联的一个或多个计算机系统中。一般来说,车辆乘员通过声音与asr系统交互,用于以下基本目的中的一个或多个:训练系统理解车辆乘员的特定声音;存储离散语音,诸如如同数字或关键字词的语音用户标签或语音控制字;或者出于任何合适的目的识别车辆乘客的语音,诸如语音拨号、菜单导航、转录、服务请求、车辆装置或装置功能控制等。通常,asr从人类语音中提取声学数据,将声学数据与存储的子词数据进行比较和对比,选择合适的可以与其他选择的子词连接的子词,并且输出串联的子词或词进行后处理,诸如听写或转录、地址簿拨号、存储到存储器、训练asr模型或适配参数、等等。

asr系统对于本领域技术人员来说是公知的,并且图2仅示出了一个特定的示例性asr系统210。系统210包括用于接收语音的传感器,诸如车辆麦克风120;和声学接口33,诸如具有模数转换器以将语音数字化为声学数据的声卡。系统210还包括存储器,例如用于存储声学数据并存储语音识别软件和数据库的存储器128;和处理器,诸如处理声学数据的处理器126。处理器与存储器一起并结合以下模块运转:一个或多个前端处理器、预处理器或预处理器软件模块212,用于将语音的声学数据流解析成参数表示,诸如声学特征;一个或多个解码器或解码器软件模块214,用于解码声学特征以产生对应于输入语音话语的数字子词或单词输出数据;以及一个或多个后端处理器、后处理器或后处理器软件模块216,用于将来自解码器模块214的输出数据用于任何合适的目的。

系统210还可以从任何其他合适的音频源31接收语音,该语音可以直接与预处理器软件模块212通信,如实线所示,或者经由声学接口33与其间接通信。音频源31可以包括例如电话音频源,诸如语音邮件系统,或者任何类型的其他电话服务。

一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词典模型218可以提供控制哪些单词可以逻辑上跟随其他单词以形成有效句子的规则。广义而言,词典或语法可以定义系统210在任何给定asr模式下的任何给定时间期望的词汇集合。例如,如果系统210处于训练命令的训练模式下,则词典或语法模型218可以包括系统210已知和使用的所有命令。在另一示例中,如果系统210处于主菜单模式,则活动词典或语法模型218可以包括系统210预期的所有主菜单命令,诸如呼叫、拨号、退出、删除、目录等。第二,声学模型220有助于选择与来自预处理器模块212的输入相对应的最可能的子词或单词。第三,单词模型222和句子/语言模型224在将所选子单词或单词置于单词或句子语境中时提供规则、句法和/或语义。此外,句子/语言模型224可以定义系统210在任何给定asr模式下在任何给定时间期望的句子的集合,和/或可以提供控制哪些句子在逻辑上可以跟随其他句子形成有效的扩展语音的规则等。

根据另选的示例性实施例,asr系统210的一些或全部可以驻留在远离车辆102处的计算设备,诸如远程服务器104,并使用该计算设备进行处理。例如,语法模型、声学模型等可以被存储在远程服务器104中的远程服务器控制器148和/或存储装置156中的一者的存储器152中,并且被传送到车辆远程信息处理单元30进行车内语音处理。类似地,语音识别软件可以使用呼叫中心20中的服务器82中的一个的处理器来处理。换言之,asr系统210可以驻留在车辆102中或分布在远程服务器104上,和/或驻留在私人助理174(a)至私人助理174(n)中的任一个的一个或多个计算机系统中或与私人助理174(a)至私人助理174(n)中的任一个相关联的一个或多个计算机系统中。

首先,从人类语音中提取声学数据,其中车辆乘客对麦克风120讲话,麦克风120将话语转换成电信号,并将这些信号传送到声学接口33。麦克风120中的声音响应元件捕获乘客的语音话语作为气压的变化,并将这些话语转换成模拟电信号的相应变化,诸如直流电流或电压。声学接口33接收模拟电信号,该模拟电信号首先被采样,使得模拟信号的值在离散时刻被捕获,然后被量子化,使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换言之,声学接口33将模拟电信号转换成数字电子信号。数字数据是二进制位,其被缓存在远程信息处理存储器54中,然后由远程信息处理处理器52处理,或者当它们最初被处理器52实时接收时可以被处理。

第二,预处理器模块212将连续的数字语音数据流转换成离散的声学参数序列。更具体地,处理器126执行预处理器模块212以将数字语音数据分割成例如持续时间为10-30ms的重叠语音或声学帧。声学帧对应于声学子词,诸如音节、半音节、音素、双音素、音位等。预处理器模块212还进行语音分析,以从每个帧内的乘客语音中提取声学参数,例如时变特征向量。乘客语音中的话语可以表示为这些特征向量的序列。例如,如本领域技术人员所知,特征向量可以被提取,并且可以包括例如音调、能线图、频谱属性和/或倒谱系数,这些音调、能线图、频谱属性和/或倒谱系数可以通过进行帧的傅立叶变换和使用余弦变换来解相关声学频谱来获得。覆盖特定语音持续时间的声学帧和相应参数被串连成待解码语音的未知测试模式。

第三,处理器执行解码器模块214以处理每个测试模式的输入特征向量。解码器模块214也称为识别引擎或分类器,并使用存储的已知的语音参考模式。像测试模式一样,参考模式被定义为相关声学帧和相应参数的串联。解码器模块214将待识别的子词测试模式的声学特征向量与存储的子词参考模式进行比较和对比,评估它们之间的差异或相似性的大小,并最终使用决策逻辑来选择最佳匹配的子词作为识别的子词。一般来说,最佳匹配的子词是对应于存储的已知参考模式的子词,如本领域技术人员已知的分析和识别子词的各种技术中的任何一种所确定的,该参考模式与测试模式具有最小的不同性,或者该参考模式最有可能成为测试模。这种技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器,例如隐马尔可夫模型(hmm)引擎。

hmm引擎对于本领域技术人员来说是已知的,其用于产生声学输入的多个语音识别模型假设。这些假设在最终识别和选择识别输出时被考虑,该识别输出代表通过语音的特征分析对声学输入的最可能的正确解码。更具体地,hmm引擎以子词模型假设的“n个最佳”列表的形式生成统计模型,该列表例如通过应用贝叶斯定理,根据hmm计算的置信度值或给定一个或另一个子词的观察到的声学数据序列的概率来排序。

贝叶斯hmm过程识别最佳假设,该最佳假设对应于给定声学特征向量观察序列的最可能话语或子词序列,并且其置信度值可以取决于多种因素,包括与输入声学数据相关联的声学信噪比。hmm还可以包括一个被称为对角高斯混合的统计分布,它为每个子词的每个观察到的特征向量产生一个似然度,该似然度可以用来重新排序n个最佳假设列表。hmm引擎还可以识别并选择模型似然度最高的子词。

以类似的方式,一系列子词的单个hmm可以串联起来建立单个或多个单词hmm。此后,可以生成并进一步评估单个或多个单词参考模式和相关联的参数值的n个最佳列表。

在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量,以生成n个最佳参考模式表。如本文所用,术语参考模式可与模型、波形、模板、丰富信号模型、样本、假设或其他类型的参考互换。参考模式可以包括表示一个或多个单词或子单词的一系列特征向量,并且可以基于特定的扬声器、说话风格和可听环境条件。本领域技术人员将认识到,参考模式可以通过asr系统的适当参考模式训练来生成,并存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考模式,其中基于参考模式训练和asr系统的实际使用之间语音输入信号的差异,参考模式的参数值可调整。例如,基于不同车辆乘员或不同声学条件的有限数量的训练数据,针对一个车辆乘员或特定声学条件训练的一组参考模式可以被调整并保存为针对另一车辆乘员或不同声学条件的另一组参考模式。换言之,参考模式不一定是固定的,并且可以在语音识别期间进行调整。

使用词汇内语法和任何合适的解码器算法和声学模型,处理器访问存储器中的解释测试模式的几个参考模式。例如,处理器可以生成n个最佳词汇结果或参考模式列表,以及相应的参数值,并将其存储到存储器中。示例性参数值可以包括n个最佳词汇表和相关联片段持续时间的每个参考模式的置信度、似然度、信噪比(snr)值等。n个最佳词汇表可以通过参数值的递减幅度来排序。例如,置信度最高的词汇参考模式是第一个最佳参考模式,依此类推。一旦建立了一串已识别的子词,它们就可以被用于利用单词模型222的输入来构建各单词,并且利用语言模型224的输入来构建句子。

最后,后处理器软件模块216出于任何合适的目的接收解码器模块214的输出数据。在一个示例中,后处理器软件模块216可以从单个或多个单词参考模式的n个最佳列表中识别或选择参考模式中的一个作为已识别的语音。在另一示例中,后处理器模块216可用于将声学数据转换成文本或数字,用于asr系统或其他车辆系统的其他方面,例如一个或多个nlp引擎173/175。在另一示例中,后处理器模块216可用于向解码器214或前处理器212提供训练反馈。更具体地,后处理器216可用于训练解码器模块214的声学模型,或者训练前处理器模块212的适配参数。

图3是根据示例性实施例的过程的流程图,该过程用于实现具有特定意图语言的语音请求,而语音助理170/172起初无法对该特定意图语言进行分类。根据示例性实施例,过程200可以结合车辆102和远程服务器104及其各种部件(包括但不限于控制系统和控制器及其组件)来实施。

参考图3,过程300以步骤301开始。在某些实施例中,过程300在当车辆驱动或点火循环开始时开始,例如当驾驶员接近或进入车辆102时,或者当驾驶员打开车辆和/或为其点火时(例如,通过转动钥匙、使用钥匙链或启动按钮、等等)。在某些实施例中,当激活车辆控制系统112(例如,包括麦克风120或其其他输入传感器122)和/或智能电话、计算机和/或其他系统和/或装置的控制系统时,过程300开始。在某些实施例中,过程300的各步骤在车辆(和/或其它系统和/或装置)操作期间连续进行。

在各种实施例中,在该步骤中注册私人助理数据。在各种实施例中,不同私人助理174(a)至私人助理174(n)的相应技能集例如通过由一个或多个处理器(例如车辆处理器126、远程服务器处理器150和/或与私人助理174(a)至私人助理174(n)中的任一个相关联的一个或多个其他处理器)提供的指令来获得。此外,在各种实施例中,对应于不同私人助理174(a)至私人助理174(n)的相应技能集的特定意图语言数据被存储在存储器中(例如,作为车辆存储器128中存储的数据库值138、远程服务器存储器152中存储的数据库值162,和/或与私人助理174(a)至私人助理174(n)中的任一个相关联的一个或多个其他存储装置)。

在各种实施例中,麦克风120识别并获取用户语音请求输入(步骤310)。语音请求可以包括直接或间接跟在信息和/或其他服务请求之后的唤醒话语。例如,唤醒话语是用户发出的语音命令,使语音助理实现激活(即,在睡眠模式下唤醒系统)。例如,在各种实施例中,唤醒话语可以是“hellosiri(你好,siri)”,或者更具体地,单词“hello”(即,当唤醒话语是英语时)。

此外,例如,在各种实施例中,语音请求包括与信息/服务请求有关的特定意图,并考虑要实现的用户的特定期望,例如但不限于兴趣点(例如,餐馆、酒店、服务站、旅游景点等)、天气预报、交通预报、打电话、发送消息、控制一个或多个车辆功能、获得家庭相关信息或服务,获得音频相关信息或服务,获得移动电话相关信息或服务,获得购物相关信息或服务,获得网络浏览器相关信息或服务,和/或获得一种或多种其他类型的信息或服务。

在某些实施例中,获得了其他传感器数据。例如,在某些实施例中,附加传感器124自动地从各种车辆系统收集数据或收集与各种车辆系统相关的数据,用户可以为这些车辆系统寻找信息,或者用户希望控制这些车辆系统,诸如车辆102的一个或多个发动机、娱乐系统、气候控制系统、窗户系统等。

在各种实施例中,执行语音助理170/172以试图对语音请求的特定意图语言进行分类(步骤320)。为了对特定意图语言进行分类,还可以检索特定意图语言查找表(“特定意图语言数据库”)。在各种实施例中,特定意图语言数据库包括各种类型的示例性语言短语,以帮助/实现特定意图分类,例如但不限于等同于以下的短语:“联系”(与打电话有关)、“开大声音”(与提高扬声器音量有关)、“给我买个”(与购买商品有关)、“让我们这样做”(与一项或多项任务的开始有关)、“发生了什么”(与事件有关)、“让我们观看”(与调电视台的请求有关)。同样在各种实施例中,特定意图语言数据库作为其存储值存储在存储器128(和/或存储器152,和/或一个或多个其他存储装置)中,并且在步骤320由处理器126(和/或由处理器150,和/或一个或多个其他处理器)自动检索。

在某些实施例中,特定意图语言数据库包括数据和/或信息,根据基于用户使用历史的最高使用频率,该数据或信息关于用户先前使用的语言/语言音素(用户语言历史),等等。在某些实施例中,例如,这样,机器学习引擎176/177可以被实现为利用已知的基于统计的建模方法来为某些特定意图语言短语建立指南/指令。因此,为了帮助语音助理170/172对未来语音请求(即,随后的类似语音请求)中的特定意图进行分类。

当语音助理170/172可以识别特定意图语言数据库中的语言短语时,语音助理170/172将进而基于识别的语言短语对语音请求的特定意图进行分类(步骤330)。语音助理170/172然后将检查与语言短语相关联的规则集以实现语音请求。特别地,这些相关联的规则集提供了一个或多个硬编码的假设的规则,这些规则可以为实现语音请求提供先例。在各种实施例中,例如,语音助理170/172将独立地(即,通过使用语音助理特有的嵌入技能)实现语音请求,例如,实现导航或一般个人协助请求。在各种实施例中,例如,语音助理170/172可以在一个或多个私人助理174(a)至私人助理174(n)的支持技能下实现语音请求。在各种实施例中,例如,语音助理170/172将语音请求传递给一个或多个私人助理174(a)至私人助理174(n)以实现(即,当技能超出嵌入语音助理170/172中的技能的范围时)语音请求。熟练的技术人员还会看到语音助理170/172和一个或多个私人助理174(a)至私人助理174(n)中的一个或多个其他组合可以实现语音请求。在实现语音请求后,该方法将接着完成302。

当确定在特定意图语言数据库中找不到语言短语,因而语音助理170/172不能对语音请求的特定意图进行分类时,语音助理170/172将语音请求的语言(经由asr系统210的各方面)转录成文本(步骤340)。语音助理170/172然后将转录的语音请求文本传递给nlp引擎173/175来利用已知的nlp方法,并且为语音请求文本创建一个或多个常识解释(步骤350)。例如,如果转录的语音请求陈述:“你好,siri,我的雪佛兰博尔特有多少电?”,nlp引擎173/175可以将该语言转换为“你好,siri,我的雪佛兰博尔特的电池剩余寿命是多少。”此外,nlp引擎173/175可以被配置为识别和剥离对应于唤醒话语(即,“你好,siri”)的语言和对应于实体的语言(即,“我的雪佛兰博尔特”),以及语音请求文本中的任何其他不必要的语言,都以转录的语音请求中的常识解释的特定意图语言结束(即,保留“电池剩余寿命”是多少)。可以再次检索特定意图语言数据库,以识别语言短语和相关联的规则集,以对转录的常识特定意图进行分类。

在各种实施例中,在特定意图被分类之后,可以生成新的规则集,并将其与从最初提供给麦克风的语音请求中识别的特定意图相关联(即,“我有多少电”)(可选步骤360)。例如,规则集可以将原始特定意图语言与由nlp引擎173/175转换的特定意图的常识解释语言相对应(即,“我有多少电”=“电池剩余寿命是多少”)。这个新生成的规则集也可以存储在特定意图语言数据库中,以便语音助理170/172可以在将来的语音请求中对这个特定意图进行分类(即,类似地询问“我的雪佛兰博尔特有多少电?”)中。在各种实施例中,另选地或附加地,在该可选步骤中,可以经由机器学习引擎176/177部署一个或多个基于统计的建模算法,以帮助语音助理170/172对未来语音请求中的特定意图进行分类。

在各种实施例中,在特定意图被分类之后,将再次访问语音助理170/172以实现语音请求(步骤370)。在各种实施例中,语音助理170/172将独立地(例如,通过嵌入式技能中的一种或多种)实现语音请求。在各种实施例中,语音助理170/172可以在一个或多个私人助理174(a)至私人助理174(n)的支持下实现语音请求。在各种实施例中,可以访问一个或多个私人助理174(a)至私人助理174(n)中的至少一个以独立地实现语音请求。熟练的技术人员还会看到语音助理170/172和一个或多个私人助理174(a)至私人助理174(n)中的一个或多个其他组合可以实现语音请求。在上面的示例中,特定意图“我有多少电”可以被分类为对应于规则集,该规则集使得车辆领域私人助理174(b)被访问以提供车辆102的电量状态(soc)信息。在实现语音请求后,该方法将接着完成302。

因此,本文所述的系统、车辆和方法提供了对例如车辆用户的用户请求的潜在改进的处理。基于对用户请求的性质的识别以及与多个不同类型的语音助理的各种相应技能的比较,用户请求被路由到最合适的语音助理。

因此,系统、车辆和方法为用户提供了潜在改进的和/或高效的体验,让针对特定的用户请求定制的最准确和/或高效的语音助理来处理他或她的请求。如上所述,在某些实施例中,上述技术可用于车辆中。此外,如上所述,在某些其他实施例中,上述技术也可以结合用户的智能电话、平板电脑、计算机、其他电子装置和系统来使用。

虽然在前述详细描述中已经给出了至少一个示例性实施例,但是应当理解,存在大量的变化。还应当理解,示例性实施例仅仅是示例,并不旨在以任何方式限制本公开的范围、适用性或构造。相反,前述的详细说明将给本领域的技术人员提供用于实现上述示例性实施例的方便的路线图。应当理解,在不脱离所附权利要求和其法定等同物所阐述的本公开的范围的情况下,可对元件的功能和布置做出各种改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1