用于语音接口设备的对话感知主动通知的制作方法

文档序号:14910806发布日期:2018-07-10 23:21阅读:199来源:国知局

本申请要求2016年12月30日提交的题为“Conversation-Aware Proactive Notifications for a Voice Interface Device(用于语音接口设备的对话感知主动通知)”的美国临时专利申请No.62/441,116的优先权。

本申请涉及以下申请,其全部内容通过引用并入本文:

2016年11月3日提交的题为“Focus Session at a Voice Interface Device(语音接口设备处的焦点会话)”的美国临时专利申请;

2016年5月10日提交的题为“Implementations for Voice Assistant on Devices(设备上的语音辅助的实现)”的美国临时专利申请No.62/334,434;以及

2016年5月13日提交的题为“LED Design Language for Visual Affordance of Voice User Interfaces(语音用户接口的视觉可供性的LED设计语言)”的美国临时专利申请No.62/336,566。

技术领域

所公开的实施方式大体涉及语音接口和相关设备,包括但不限于用于提供对于长期语音接口对话稳健的低时延主动语音通知的方法和系统。



背景技术:

具有语音接口的电子设备已被广泛用于收集来自用户的语音输入,并根据该语音输入执行不同的语音激活功能。这些语音激活功能可包括导引或命令目标设备执行操作。例如,用户可以向语音接口设备讲出语音输入以导引目标设备打开或关闭,或者控制目标设备处的媒体回放。

通常,如果用户希望进行导引目标设备执行操作的语音输入,则用户将在语音输入中指定目标设备。然而,必须为所有这样的语音输入明确指定目标设备对于用户而言是繁琐且繁重的。期望的是语音接口设备即使在语音输入没有指定目标或指定模糊目标时,也具有针对语音输入的目标设备。

此外,语音接口设备能够通知用户重要的更新是有用的。这些“主动通知”可以是诸如出租车到达、食物送达、家庭安全警报、或者甚至运动队赢得或输掉比赛的事情。然而,这些主动通知的及时传递可能受到用户与设备之间的其他交互的影响。用户可能正处于与设备的长时间交互(例如,对话、玩游戏、或预订)中,并且在与设备的长时间交互正在进行的同时提供通知可能中断交互的流动,这可能对用户造成干扰,并且甚至可能使该应用重新开始。另一方面,如果通知延迟直到交互结束,则该通知可以是不及时的。



技术实现要素:

因此,需要一种具有语音辅助系统和/或语音辅助服务器系统的电子设备,所述电子设备包含了当语音输入中的目标设备的指定不存在或不明确时,用于确定或指派针对该语音输入的目标设备的方法和系统。在本申请中描述的各个实施方式中,操作环境包括提供到语音辅助服务的接口的语音激活电子设备以及可经由语音辅助服务通过语音输入来控制的多个设备(例如,投射(cast)设备、智能家庭设备)。语音激活电子设备被配置为记录语音输入,语音辅助服务(例如,语音辅助服务器系统)根据该语音输入来确定用户语音请求(例如,媒体回放请求、电力状态改变请求)。语音辅助服务器系统然后将该用户语音请求导引至语音输入所指示的目标设备。语音激活电子设备被配置为记录随后的其中目标设备的指示不存在或不明确的语音输入。电子设备或语音辅助服务器系统为该语音输入指派目标设备,确定包括在该语音输入中的用户语音请求,并将该用户语音请求导引至指派的目标设备。

根据一些实施方式,一种方法在具有一个或多个麦克风、扬声器、一个或多个处理器以及存储一个或多个程序的存储器的第一电子设备处执行,所述一个或多个程序由一个或多个处理器执行。第一电子设备是通信地耦合到公共网络服务的连接的电子设备的本地群组的成员。该方法包括:接收包括对于第一操作的请求的第一语音命令;从连接的电子设备的本地群组中确定用于第一操作的第一目标设备;建立关于第一目标设备的焦点会话;使得该第一操作由第一目标设备经由公共网络服务的操作来执行;接收包括对于第二操作的请求的第二语音命令;确定第二语音命令不包括对第二目标设备的明确指命;确定第二操作可以由第一目标设备执行;确定第二语音命令是否满足一个或多个焦点会话维持准则;并且根据第二语音命令满足焦点会话维持准则的确定,使得第二操作由第一目标设备经由公共网络服务的操作来执行。

根据一些实施方式,电子设备包括一个或多个麦克风、扬声器、一个或多个处理器以及存储要由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于执行上述方法的指令。

根据一些实施方式,一种非暂时性计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令在由具有一个或多个麦克风、扬声器以及一个或多个处理器的电子设备执行时使得所述电子设备执行上述方法的操作。

此外,需要一种具有语音辅助系统和/或语音辅助服务器系统的电子设备,其包含了用于以知晓用户和设备之间正在进行的交互的方式提供主动通知的方法和系统。在本申请中描述的各个实施方式中,操作环境包括向语音辅助服务提供接口的语音激活的电子设备。语音激活电子设备被配置为提供被配置为接收并记录语音输入的语音接口,响应于于此语音辅助服务(例如语音辅助服务器系统)提供语音输出、执行操作等等;以这种方式,用户和语音辅助服务可以通过语音进行交互(例如,如同在对话中一样)。当语音辅助服务试图向用户提供通知时,设备和/或语音辅助服务确定是否存在正在进行的交互以及是否可以得体地中断该交互以用于通知。如果可以进行得体的中断,则做出指示通知转入和转出的输出,该通知在过渡输出之间进行。否则,可利用唐突的过渡来做出通知。

根据一些实施方式,一种用于语音接口设备中的主动通知的方法包括:接收对于具有未来执行时间的动作的第一用户语音请求;将第一用户语音请求指派给语音辅助服务以用于执行;在该接收之后,接收第二用户语音请求,并响应于第二用户语音请求而发起与用户的对话;以及在对话期间:从语音辅助服务接收执行动作的通知;触发对用户的第一可听通告,以指示从对话过渡并中断对话;触发对用户的第二可听通告以指示动作的执行;并且触发对用户的第三可听通告以指示回到对话并重新加入对话。

根据一些实施方式,电子设备包括扬声器、一个或多个处理器以及存储被配置为由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于执行上述方法的指令。根据一些实施方式,一个或多个程序包括用于与一个或多个和所述电子设备互连的服务器合作来执行上述方法的指令。

根据一些实现,服务器包括一个或多个处理器,以及存储被配置为由一个或多个处理器执行的一个或多个程序的存储器。一个或多个程序包括用于执行上述方法的指令。

根据一些实施方式,非暂时性计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令在由具有扬声器和一个或多个处理器的电子设备执行时使电子设备执行上述方法。根据一些实施方式,一个或多个程序包括指令,所述指令在由电子设备执行时使电子设备与同一个或多个和所述电子设备互连的服务器合作来执行上述方法。

根据一些实施方式,非暂时性计算机可读存储介质存储一个或多个程序。所述一个或多个程序包括指令,所述指令在由具有一个或多个处理器的服务器执行时使电子设备执行上述方法。

附图简要说明

为了更好地理解各个所描述的实施方式,将结合以下附图,对下面的实施方式的描述作参考,其中各附图中相似的附图标记指代对应的部分。

图1图示了根据一些实施方式的示例操作环境。

图2图示了根据一些实施方式的示例语音激活电子设备。

图3A-3B图示了根据一些实施方式的示例语音辅助服务器系统。

图3C图示了根据一些实施方式的,提供主动通知的语音辅助系统的示例功能框图。

图3D图示了根据一些实施方式的,与图3C的语音辅助系统相关联的所存储的数据。

图4A-4D图示了根据一些实施方式的焦点会话的示例。

图5图示了根据一些实施方式的,建立焦点会话和根据焦点会话来响应语音输入的示例过程的流程图。

图6图示了根据一些实施方式的,用于话音接口设备中的主动通知的示例过程的流程图。

图7A和图7B是根据一些实施方式的语音激活电子设备的前视图和后视图。

图7C是根据一些实施方式的语音激活电子设备的俯视图,图7D示出了根据一些实施方式的由全色LED阵列显示的用于指示语音处理状态的视觉模式。

贯穿附图的多个视图,相似的附图标记指代对应的部分。

具体实施方式

虽然数字革命已经提供了从公开分享信息到全球社区意识的许多益处,然而新兴的新技术经常在消费者中引起困惑、怀疑和恐惧,从而阻止消费者从该技术中受益。电子设备可方便地用作语音接口来接收来自用户的语音输入并启动语音激活功能,并且由此提供无需眼睛和无需手的方案来接洽现有技术和新兴技术二者。具体而言,即使用户的视线被挡且没有空手,在电子设备处接收到的语音输入也可以携载指令和信息。为了实现无需眼睛和无需手的体验,语音激活电子设备不断地或者仅在被触发时才收听环境(即不断地处理从周围收集的音频信号)。另一方面,用户身份与用户的语音和用户使用的语言链接。为了保护用户身份,这些语音激活电子设备通常用在受保护、受控和私密空间(例如家庭和汽车)的非公共场所。

根据一些实施方式,当语音命令中的目标设备的指示不存在或不明确时,语音激活电子设备给以语音命令进行的请求确定或指派目标设备。语音激活电子设备关于在语音命令中明确指定或指示的目标设备建立焦点会话。当语音激活电子设备接收到其中目标设备的指定或指示不存在或不明确的后续语音命令时,如果该语音命令满足一个或多个准则,则电子设备将焦点会话的目标设备指派给语音命令准则。

在一些实施方式中,当用户与语音接口设备谈话以控制另一设备时,语音接口设备存储正被用户作为目标的设备(例如,焦点会话)。在此之后的一段时间内,用于控制的默认目标设备是存储的设备。例如,如果用户首先讲出语音命令“打开厨房灯”,并且然后讲出“关闭灯”,则如果在第一命令后不久接收到第二命令,那么第二语音命令的目标设备默认为“厨房灯”。作为另一示例,如果第一命令是“在客厅扬声器上播放音乐”,并且随后的命令是“停止音乐”,则如果在第一命令后不久接收到第二命令,那么第二语音命令的目标设备默认为“客厅扬声器”。

另外,在一些实施方式中,如果语音输入之间存在较长的时间间隙,则可以要求用户确认或验证最后使用的目标设备是意图的目标设备。例如,如果第一语音命令是“在客厅扬声器上播放音乐”,并且在与第一语音命令相隔更长的时间间隙之后接收的后续命令是“停止音乐”,则语音接口设备可以询问用户,“您想停止客厅扬声器上的音乐吗?”,以确认目标设备是“客厅扬声器”。

以这种方式,用户可以省去必须在每个语音输入中指定其请求的完整场境(context)的负担(例如,省去必须在每个语音输入中包括请求执行操作的目标设备的指定)。

根据一些实施方式,语音激活电子设备以对用户与设备之间的长期交互稳健的方式提供低时延主动通知。在一些实施方式中,存在语音激活电子设备,对话管理器(例如对话管理器模块),能够确定是否需要递送通知或者需要递送什么通知的通知管理器(例如,通知管理器模块)以及对话管理器对其交谈的代理(例如,代理模块和/或系统)。代理可以是例如假期预定系统。

在一些实施方式中,可以确定与用户交互的状态的对话管理器也可以确定是否存在需要提供给用户的主动通知或更新。

例如,在正在进行的交互(例如,用户与代理之间经由该设备的“对话”)的过程中,假设通知进入。对话管理器询问代理是否代理可以支持在与用户的交互中的中断。如果代理不能支持中断,则对话管理器可以抢占用户与代理的交互,并立即向用户提供可听通知(例如,导引设备输出通知作为语音输出)。通知的语音输出可能会说,例如,“对不起,我需要打断一下,<通知>”。

在一些实施方式中,如果代理可以支持中断,则可以给予代理提供在对话中转出和转入的机会以转出交互,使得可以给出通知,并且然后转回交互。在一些实施方式中,当用户和代理之间没有正在进行的对话时,对话管理器可以简单地使得设备在适当的时间(例如,鉴于用户设置和通知的性质)发布通知,而不需要如上所述与代理交互。

以这种方式,可以立即或以其他方式及时地递送重要通知,而无需完全停止交互,或者在与用户正在交互的代理之间具有非常唐突或礼貌的过渡。

语音辅助操作环境

图1是根据一些实施方式的示例操作环境。操作环境100包括一个或多个语音激活电子设备104(例如,语音激活电子设备104-1至104-N,以下称为“语音激活设备”)。一个或多个语音激活设备104可以位于一个或多个位置(例如,全部位于结构体的房间或空间中,遍布结构体内的多个空间或遍布多个结构体(例如房屋中一个语音激活设备104并且用户车中一个语音激活设备104))。

环境100还包括一个或多个可控电子设备106(例如,电子设备106-1至106-N,下文称为“可控设备”)。可控设备106的示例包括媒体设备(智能电视、扬声器系统、无线扬声器、机顶盒、媒体流送设备、投射设备)以及智能家庭设备(例如智能相机、智能恒温器、智能灯、智能危险检测器、智能门锁)。

语音激活设备104和可控设备106通过通信网络110通信地耦合到语音辅助服务140(例如,到语音辅助服务140的语音辅助服务器系统112)。在一些实施方式中,语音激活设备104和可控设备106中的一个或多个通信地耦合到本地网络108,本地网络108通信地耦合到通信网络110;语音激活设备104和/或可控设备106经由本地网络108通信地耦合到通信网络110(并且通过通信网络110耦合到语音辅助服务器系统112)。在一些实施方式中,本地网络108是在网络接口(例如,路由器)处实现的局域网。通信地耦合到本地网络108的语音激活设备104和可控设备106也可以通过本地网络108彼此通信。

可选地,语音激活设备104中的一个或多个通信地耦合到通信网络110并且不在本地网络108上。例如,这些语音激活设备不在对应于本地网络108的Wi-Fi网络上,但通过蜂窝连接而连接到通信网络110。在一些实施方式中,在本地网络108上的语音激活设备104和不在本地网络108上的语音激活设备104之间的通信通过语音辅助服务器系统112来完成。语音激活设备104(无论是在本地网络108或在网络110上)被注册在语音辅助服务140的设备注册表118中,并且因此对于语音辅助服务器系统112是已知的。类似地,不在本地网络108上的语音激活设备104可以与可控设备106通过语音辅助服务器系统112通信。可控设备106(无论在本地网络108上还是在网络110上)也被注册在设备注册表118中。在一些实施方式中,在语音激活设备104和可控设备106之间的通信通过语音辅助服务器系统112。

在一些实施方式中,环境100还包括一个或多个内容主机114。内容主机114可以是远程内容源,根据包括在用户语音输入或命令中的请求,内容被流送或以其他方式获得。内容主机114可以是语音辅助服务器系统112根据用户语音请求从其中检索信息的信息源。

在一些实施方式中,可控设备106能够接收命令或请求以执行指定的操作或转换到指定的状态(例如,从语音激活设备104和/或语音辅助服务器系统112)并且根据所接收的命令或请求来执行操作或转换状态。

在一些实施方式中,可控设备106中的一个或多个是布置在操作环境100中以向一个或多个用户提供媒体内容、新闻和/或其他信息的媒体设备。在一些实施方式中,由媒体设备提供的内容被存储在本地内容源处、从远程内容源(例如内容主机114)流送、或者本地生成(例如,通过向操作环境100的一个或多个占用者朗读定制的新闻简报、电子邮件、文本、本地天气报告等的本地文本转语音处理器)。在一些实施方式中,媒体设备包括将媒体内容直接输出给观众(例如,一个或多个用户)的媒体输出设备,以及联网以将媒体内容流送到媒体输出设备的投射设备。媒体输出设备的示例包括但不限于电视(TV)显示设备和音乐播放器。投射设备的示例包括但不限于机顶盒(STB)、DVD播放器、电视盒以及诸如Google的Chromecast TM媒体流送设备的媒体流送设备。

在一些实施方式中,可控设备106也是语音激活设备104。在一些实施方式中,语音激活设备104也是可控设备106。例如,可控设备106可以包括向语音辅助服务140的语音接口(例如,也可以接收、处理及响应用户语音输入的媒体设备)。作为另一个示例,语音激活设备104也可以根据语音输入(例如,也可以播放流式音乐的语音接口设备)中的请求或命令来执行特定操作并转换到特定状态。

在一些实施方式中,语音激活设备104和可控设备106与在用户域中具有相应账户的用户或与具有相应用户账户的多个用户(例如,一组相关用户,诸如家庭中的用户或组织;更通常地,主用户和一个或多个授权的附加用户)。用户可对语音激活设备104进行语音输入或语音命令。语音激活设备104从用户(例如用户102)接收这些语音输入,并且语音激活设备104和/或语音辅助服务器系统112继续确定语音输入中的请求并生成对该请求的响应。

在一些实施方式中,包括在语音输入中的请求是对可控设备106执行操作(例如,播放媒体、暂停媒体、快进或倒回媒体、改变音量、改变屏幕亮度、改变灯光亮度)的命令或请求或转换到另一种状态(例如,改变操作模式、打开或关闭、进入睡眠模式或从睡眠模式唤醒)。

在一些实施方式中,语音激活电子设备104通过以下来响应语音输入:生成并提供对语音命令的语音响应(例如,响应于问题“现在几点?”说出当前时间);流送由用户请求的媒体内容(例如,“播放BeachBoys歌曲”);朗读为用户准备的新闻报道或每日新闻简报;播放存储在个人辅助设备上或本地网络上的媒体项目;改变状态或操作操作环境100内的一个或多个其他连接的设备(例如,打开/关闭灯、电器或媒体设备、锁定/解锁锁、打开窗等);或经由网络110向服务器发出对应的请求。

在一些实施方式中,一个或多个语音激活设备104被布置在操作环境100中以收集用于发起各个功能(例如,媒体设备的媒体播放功能)的音频输入。在一些实施方式中,这些语音激活设备104(例如,设备104-1到104-N)被布置在可控设备104(例如,媒体设备)附近,例如与投射设备和媒体输出设备在同一房间。替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能家庭设备而没有任何媒体设备的结构体中。替选地,在一些实施方式中,语音激活设备104被布置在具有一个或多个智能家庭设备和一个或多个媒体设备的结构体中。替选地,在一些实施方式中,语音激活设备104被布置在不具有联网的电子设备的位置中。此外,在一些实施方式中,结构体中的房间或空间可以具有多个语音激活设备104。

在一些实施方式中,语音激活设备104包括至少一个或多个麦克风、扬声器、处理器和存储至少一个供处理器执行的程序的存储器。扬声器被配置为允许语音激活设备104将语音消息和其他音频(例如,可听音调)递送到语音激活设备104在操作环境100中所处的位置,从而广播音乐、报告音频输入处理的状态、与语音激活设备104的用户进行对话或给出指令。作为语音消息的替选方案,视觉信号也可以用于向语音激活设备104的用户提供关于音频输入处理的状态的反馈。当语音激活设备104是移动设备(例如,手机或平板计算机)时,其显示屏幕被配置为显示关于音频输入处理的状态的通知。

在一些实施方式中,语音激活设备104是语音接口设备,其被网络连接以借助语音辅助服务器系统112来提供语音辨识功能。例如,语音激活设备104包括智能扬声器,其为用户提供音乐并允许不用眼和不用手访问语音辅助服务(例如,GoogleAssistant)。可选地,语音激活设备104是台式或膝上型计算机、平板计算机、包括麦克风的移动电话、包括麦克风和可选包括扬声器的投射设备、音频系统(例如立体声系统、扬声器系统、便携式扬声器)、包括麦克风和扬声器的电视机、包括麦克风和扬声器以及可选地包括显示器的汽车中的用户接口系统。可选地,语音激活设备104是简单且低成本的语音接口设备。通常,语音激活设备104可以是能够网络连接并且包括麦克风、扬声器以及用于与语音辅助服务交互的程序、模块和数据的任何设备。鉴于语音激活设备104的简单性和低成本,语音激活设备104包括发光二极管(LED)阵列而不是全显示屏,并且在LED上显示视觉图案以指示音频输入处理的状态。在一些实施方式中,LED是全色LED,并且LED的颜色可以被用作要显示在LED上的视觉图案的一部分。2016年5月13日提交的题为“LED Design Language for Visual Affordance of Voice User Interfaces(语音用户接口的视觉可供性的LED设计语言)”的美国临时专利申请No.62/336,566中描述了使用LED来显示视觉图案以传达信息或设备状态的多个示例,该专利申请通过引用全部并入本文。在一些实施方式中,使用与执行语音处理操作的语音激活设备相关联的常规显示器上所示的特性图像来显示指示语音处理操作的状态的视觉模式。

在一些实施方式中,使用LED或其他视觉显示器来传达多个参与电子设备的总体语音处理状态。例如,在存在多个语音处理或语音接口设备(例如,如‘566申请的图4A中所示的多个电子设备104;图1的多个语音激活设备104)的操作环境中,与相应电子设备相关联的彩色LED群组(例如,‘566申请的图4A中所示的LED 404)可以用于传达哪些电子设备正在倾听用户,以及哪个监听设备是领导者(其中“领导者”设备通常带头响应由用户发出的说出的请求)。

更一般地,‘566申请描述了(例如,参见第[0087]-[0100]段)用于使用LED的集合来在视觉上指示电子设备的各个语音处理状态——诸如热词检测状态、监听状态、思考模式、工作模式、响应模式或讲话模式、以及主动通知模式的“LED设计语言”。在一些实施方式中,根据‘566申请的“LED设计语言”的一个或多个方面,使用一组LED来表示本文描述的语音处理操作的独特状态。这些视觉指示符还可以与由正在执行语音处理操作的电子设备生成的一个或多个音频指示符组合。得到的音频和/或视觉指示符将使得语音交互环境中的用户能够理解环境中各个语音处理电子设备的状态,并以自然、直观的方式有效地与这些设备进行交互。

在一些实施方式中,当语音激活设备104的语音输入被用于经由投射设备来控制媒体输出设备时,语音激活设备104有效地启用对支持投射的媒体设备的新控制层级。在一个具体示例中,语音激活设备104包括休闲娱乐扬声器(casual enjoyment speaker),其具有远场语音访问并充当语音辅助服务的语音接口设备。语音激活设备104可以布置在操作环境100中的任何区域中。当多个语音激活设备104分布在多个房间中时,它们变成投射音频接收器,其被同步以提供来自这些房间的语音输入。

具体地,在一些实施方式中,语音激活设备104包括具有连接到语音激活的语音辅助服务(例如GoogleAssistant)的麦克风的Wi-Fi扬声器。用户可以经由语音激活设备104的麦克风发出媒体播放请求,并请求语音辅助服务在语音激活设备104本身或另一个连接的媒体输出设备上播放媒体内容。例如,用户可以通过对Wi-Fi扬声器说“OK Google,在我的客厅电视上播放猫视频”来发出媒体播放请求。然后,语音辅助服务使用默认或指命的媒体应用通过播放在所请求的设备上请求的媒体内容来实现媒体播放请求。

在一些实施方式中,用户可以经由语音激活设备104的麦克风发出关于在显示设备上已经播放或正在播放的媒体内容的语音请求(例如,用户可以要求关于媒体内容的信息,通过在线商店购买媒体内容,或者撰写并发布关于媒体内容的社交帖子)。

在一些实施方式中,当用户在家中移动时,用户可能想要与他们进行当前媒体会话,并且可以从一个或多个语音激活设备104请求这样的服务。这需要语音辅助服务140将当前媒体会话从第一投射设备传输到不直接连接到第一投射设备或不知道第一投射设备的存在的第二投射设备。在媒体内容传输之后,耦合到第二投射设备的第二输出设备从音乐曲目或视频剪辑中在耦合到第一投射设备的第一输出设备上停止播放媒体内容的确切点继续开始播放先前该第一输出设备的媒体内容。在一些实施方式中,接收到请求传输媒体会话的语音激活设备104可以满足该请求。在一些实施方式中,接收到请求传输媒体对话的语音激活设备104将该请求中继到另一设备或系统(例如,语音辅助服务器系统112)以进行处置。

此外,在一些实施方式中,用户可以经由语音激活设备104的麦克风发出对于信息或者对于执行动作或操作的请求。所请求的信息可以是个人的(例如,用户的电子邮件、用户的日历事件、用户的航班信息等),非个人的(例如体育比分、新闻报道等)或二者之间的某种(例如用户优选的队伍或运动的比分、来自用户优选资源的新闻报道等)。所请求的信息或动作/操作可涉及访问个人信息(例如,购买具有由用户提供的支付信息的数字媒体项目、购买物质产品)。语音激活设备104利用对用户的语音消息响应来响应该请求,其中响应可包括例如请求附加信息以完成请求,确认请求已被履行,通知请求无法被履行,等等。

在一些实施方式中,除了语音激活设备104和可控设备106中的媒体设备之外,操作环境100还可以包括可控设备106中的一个或多个智能家庭设备。集成智能家庭设备包括在智能家庭网络和/或中央服务器或云计算系统中相互无缝集成的智能多感测网络连接设备,以提供各种有用的智能家庭功能。在一些实施方式中,智能家庭设备被布置在操作环境100的与投射设备和/或输出设备相同位置处,并且因此相对于投射设备和输出设备位于其附近或与其相距已知距离。

操作环境100中的智能家庭设备可以包括但不限于一个或多个智能多感测网络连接恒温器,一个或多个智能网络连接多感测危险检测器,一个或多个智能多感测网络连接入口通路设备(以下称为“智能门铃”和“智能门锁”),一个或多个智能多感测网络连接警报系统,一个或多个智能多感测网络连接相机系统,一个或多个智能多感测网络连接墙壁开关,一个或多个智能多感测网络连接电源插座,以及一个或多个智能多感测器网络连接灯。在一些实施方式中,图1的操作环境100中的智能家庭设备包括多个智能多感测网络连接电器(以下称为“智能电器”),例如冰箱、炉灶、烤箱、电视机、洗衣机、干衣机、灯、音响、对讲系统、车库门开启器、落地扇、吊扇、壁挂式空调、泳池加热器、灌溉系统、安全系统、小型取暖器、窗式空调单元、电动管道通风口等等。在一些实施方式中,这些智能家庭设备类型中的任何一个可以配备有麦克风以及如本文所述的一个或多个语音处理能力,以便全部或部分地响应来自占用者或用户的语音请求。

在一些实施方式中,可控设备104和语音激活设备104中的每一个都能够与其他可控设备106、语音激活电子设备104、中央服务器或云计算系统和/或网络连接的其他设备(例如,客户端设备)共享数据通信和信息。数据通信可以使用各种定制或标准无线协议(例如IEEE802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、BluetoothSmart、ISA100.11a、WirelessHART、MiWi等)和/或各种定制或标准有线协议(例如,Ethernet、HomePlug等)中的任何一种或任何其它合适的通信协议,包括截止本文档的提交日期前尚未开发的通信协议。

通过通信网络(例如互联网)110,可控设备106和语音激活设备104可以与服务器系统(在本文中也称为中央服务器系统和/或云计算系统)通信。可选地,服务器系统可以和与可控设备相关联的制造者、支持实体或服务提供者以及向用户显示的媒体内容相关联。因此,服务器系统包括处理由语音激活设备104收集的音频输入的语音辅助服务器112,提供所显示的媒体内容的一个或多个内容主机114,可选地包括基于分布式设备终端创建虚拟用户域的云端服务服务器以及保持虚拟用户环境中的分布式设备终端的记录的设备注册表118。分布式设备终端的示例包括但不限于可控设备106、语音激活设备104和媒体输出设备。在一些实施方式中,这些分布式设备终端链接到虚拟用户域中的用户账户(例如,Google用户账户)。应理解的是,由语音激活设备104收集的音频输入的处理可以在语音激活设备104处、在语音辅助服务器112处、在另一个智能家庭设备(例如,集线器设备)处或在以上的全部或子集的一些组合处本地执行。

应理解的是,在一些实施方式中,语音激活设备104还在没有智能家庭设备的环境中起作用。例如,即使在智能家庭设备不存在的情况下,语音激活设备104也可以响应用户对于动作的信息或执行的请求,和/或启动或控制各个媒体播放功能。语音激活设备104还可以在广泛的环境中工作,包括但不限于载具、船舶、商业、或制造环境。

在一些实施方式中,语音激活设备104被包括热词(也称为“唤醒词”)的语音输入“唤醒”(例如,激活针对语音激活设备104上的语音辅助服务的接口,使语音激活设备104进入语音激活设备104已准备好接收对语音辅助服务的语音请求的状态)。在一些实施方式中,如果语音激活设备104已经相对于对语音输入的接收空闲了至少预定义量的时间(例如,5分钟),则语音激活设备104需要唤醒;预定义的时间量对应于语音接口会话或谈话超时之前所允许的空闲时间的量。热词可以是单词或短语,并且可以是预定义的默认值和/或可以由用户定制(例如,用户可以为特定的语音激活设备104设置昵称以作为设备的热词)。在一些实施方式中,可以有多个可以唤醒语音激活设备104的热词。用户可以说出热词,等待来自语音激活设备104的确收响应(例如,语音激活设备104输出问候语),并且用户发出第一个语音请求。替选地,用户可以在一个语音输入中组合热词和第一语音请求(例如,语音输入包括后跟语音请求的热词)。

在一些实施方式中,语音激活设备104依据一些实施方式与操作环境100的可控设备106(例如,媒体设备、智能家庭设备),客户端设备或服务器系统进行交互。语音激活设备104被配置为接收来自语音激活设备104附近的环境的音频输入。可选地,语音激活设备104存储音频输入并至少部分地在本地处理音频输入。可选地,语音激活设备104经由通信网络110将接收到的音频输入或部分处理的音频输入传送到语音辅助服务器系统112以用于进一步处理。语音激活设备104或语音辅助服务器系统112确定在音频输入中是否存在请求以及该请求是什么,确定并生成对该请求的响应,并将该请求传送到一个或多个可控设备106。接收响应的可控设备106被配置为根据响应而执行操作或改变状态。例如,媒体设备被配置为根据对音频输入中的请求的响应,从一个或多个内容主机114获得媒体内容或互联网内容以用于在耦合到媒体设备的输出设备上显示。

在一些实施方式中,可控设备106和语音激活设备104在用户域中彼此链接,并且更具体地,经由用户域中的用户账户相互关联。在可控设备106(无论在本地网络108上还是在网络110上)和语音激活设备104(无论在本地网络108上还是在网络110上)上的信息与用户帐号关联地存储在设备注册表118中。在一些实施方式中,存在用于语音激活设备104的设备注册表和用于可控设备106的设备注册表。可控设备注册表可以引用在用户域中关联的语音激活设备注册表中的设备,反之亦然。

在一些实施方式中,经由客户端设备103将语音激活设备104(以及一个或多个投射设备)中的一个或多个和可控设备106中的一个或多个委托给语音辅助服务140。在一些实施方式中,语音激活设备104不包括任何显示屏幕,并且依赖于客户端设备103以在委托过程期间提供用户界面,并且类似地对可控设备106也如此。具体而言,客户端设备103安装有使得用户界面能够促进布置在客户端设备附近的新的语音激活设备104和/或可控设备106的委托的应用。用户可以在客户端设备103的用户界面上发送请求,以启动需要委托的新电子设备104/106的委托过程。在接收委托请求之后,客户端设备103与需要委托的新电子设备104/103建立短距离通信链路。可选地,基于近场通信(NFC)、蓝牙、低功耗蓝牙(BLE)等建立短程通信链路。客户端设备103然后将与无线局域网(WLAN)(例如,本地网络108)相关联的无线配置数据传达至新的或电子设备104/106。无线配置数据至少包括WLAN安全码(即,服务集标识符(SSID)密码),并且可选地包括SSID、互联网协议(IP)地址、代理配置和网关配置。新电子设备104/106在经由短程通信链路接收到无线配置数据后,对无线配置数据进行解码并恢复,并基于无线配置数据加入WLAN。

在一些实施方式中,附加的用户域信息被录入在客户端设备103上显示的用户界面上,并且用于将新的电子设备104/106链接到用户域中的账户。可选地,附加的用户域信息经由短程通信链路与无线通信数据结合被传达到新电子设备104/106。可选地,在新设备已经加入WLAN之后,附加的用户域信息经由WLAN被传达到新电子设备104/106。

一旦电子设备104/106被委托进入用户域,就可以经由多个控制路径来控制其他设备及其相关联的活动。根据一个控制路径,安装在客户端设备103上的应用被用于控制另一个设备及其相关联活动(例如,媒体播放活动)。替选地,根据另一个控制路径,电子设备104/106用于实现另一个设备及其相关活动的无需眼睛和无需手的控制。

在一些实施方式中,语音激活设备104和可控设备106可以由用户(例如,由与用户域中的设备相关联的主用户)指派昵称。例如,客厅中的扬声器设备可以被指派昵称“客厅扬声器”。这样,通过说出设备的昵称,用户可以更容易地以语音输入指代设备。在一些实施方式中,对对应设备的设备昵称和映射被存储在语音激活设备104(其将存储仅与和语音激活设备相同的用户相关联的设备的昵称)和/或语音辅助服务器系统112(其将存储与和不同用户相关联的设备的昵称)。例如,语音辅助服务器系统112存储跨不同设备和用户的许多设备昵称和映射,并且与特定用户相关联的语音激活设备104下载与用于本地存储的特定用户相关联的设备的昵称和映射。

在一些实施方式中,用户可以将语音激活设备104和/或可控设备106中的一个或多个分组成用户创建的设备群组。该群组可以被给予一个名称,并且该设备群组可以由组名指代,类似于通过昵称来指代个体设备。类似于设备昵称,设备群组和组名可以存储在语音激活设备104和/或语音辅助服务器系统112处。

来自用户的语音输入可以在语音输入中明确指定用于该请求的目标可控设备106或目标设备群组。例如,用户可以讲出语音输入“在客厅扬声器上播放古典音乐”。语音输入中的目标设备是“客厅扬声器”。在语音输入中的请求是要求“客厅扬声器”播放古典音乐的请求。作为另一示例,用户可以讲出语音输入“在居所扬声器上播放古典音乐”,其中“居所扬声器”是设备群组的名称。语音输入中的目标设备群组是“居所扬声器”。在语音输入中的请求是请求“居所扬声器”群组中的设备播放古典音乐的请求。

来自用户的语音输入可能不具有目标设备或设备群组的明确指定;语音输入中不存在通过名称对目标设备或设备群组的指代。例如,在上面的示例语音输入“在客厅扬声器上播放古典音乐”之后,用户可以讲出随后的语音输入“暂停”。语音输入不包括用于暂停操作的请求的目标设备指定。在一些实施方式中,语音输入中的目标设备指定可能是模糊的。例如,用户可能不完整地讲出设备名称。在一些实施方式中,如下所述,目标设备或设备群组可以被指派其中明确的目标设备指定不存在或者目标设备指定模糊的语音输入。

在一些实施方式中,当语音激活设备104接收到具有目标设备或设备群组的明确指定的语音输入时,语音激活设备104建立关于指定的目标设备或设备群组的焦点会话。在一些实施方式中,语音激活设备104为焦点会话存储会话开始时间(例如,基于焦点会话开始的语音输入的时间戳),并且指定的目标设备或设备群组作为用于焦点会话的焦点内(in-focus)设备。在一些实施方式中,语音激活设备104还记录焦点会话中的后续语音输入。语音激活的设备104至少记录焦点会话中最近的语音输入,并且可选地记录和保留焦点会话内的在前的语音输入。在一些实施方式中,语音辅助服务器系统112建立焦点会话。在一些实施方式中,焦点会话可以通过明确指定不同的目标设备或设备群组的语音输入来结束。

虽然关于设备的焦点会话是激活的并且语音激活设备接收语音输入,然而语音激活设备104关于语音输入做出一个或多个确定。在一些实施方式中,确定包括:语音输入是否包括明确的目标设备指定,语音输入中的请求是否是可由焦点中设备履行的请求,以及与时间在焦点会话中输入的上一个语音的时间和/或会话开始时间相比的语音输入的时间。如果语音输入不包括明确的目标设备指定,包括可由焦点中设备执行的请求,并且满足相对于焦点会话中的最后语音输入的时间和/或会话开始时间的预定义的时间准则,则将焦点中设备指派为语音输入的目标设备。下面描述关于焦点会话的更多细节。

操作环境中的设备

图2是图示了根据一些实施方式的,被应用作为语音接口以在操作环境(例如,操作环境100)中收集用户语音命令的示例语音激活设备104的框图。语音激活设备104通常包括一个或多个处理单元(CPU)202,一个或多个网络接口204,存储器206以及用于互连这些组件一个或多个通信总线208(有时称为芯片组)。语音激活设备104包括促进用户输入的一个或多个输入设备210,诸如按钮212、触摸感测阵列214、以及一个或多个麦克风216。语音激活设备104还包括一个或多个输出设备218,其包括一个或多个扬声器220,可选地包括LED阵列222以及可选地包括显示器224。在一些实施方式中,LED阵列222是全色LED的阵列。在一些实施方式中,取决于设备的类型,语音激活设备104具有LED阵列222或显示器224或两者。在一些实施方式中,语音激活设备104还包括位置检测设备226(例如GPS模块)和一个或多个传感器228(例如,加速计、陀螺仪、光传感器等)。

存储器206包括高速随机存取存储器,例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或者一个或多个其他非易失性固态存储设备。可选地,存储器206包括与一个或多个处理单元202远程定位的一个或多个存储设备。存储器206——或替选地存储器206内的非易失性存储器——包括非暂时性计算机可读存储介质。在一些实施方式中,存储器206或存储器206的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集:

·操作系统232,包括用于处置各个基本系统服务和用于执行依赖于硬件任务的程序;

·网络通信模块234,用于经由一个或多个网络接口204(有线或无线)和一个或多个网络110——例如互联网、其他广域网、局域网(例如本地网络108)、城域网等——将语音激活设备104连接到其他设备(例如语音辅助服务140、一个或多个可控设备106、一个或多个客户端设备103以及其他语音激活设备104);

·输入/输出控制模块236,用于经由一个或多个输入设备接收输入并且使得能够经由一个或多个输出设备218在语音激活设备104处呈现信息,包括:

语音处理模块238,用于处理在语音激活设备104周围的环境中收集的音频输入或语音消息,或准备收集的音频输入或语音消息以在语音辅助服务器系统112处处理;

LED控制模块240,用于根据语音激活设备104的设备状态在LED222上生成视觉图案;以及

触摸感测模块242,用于感测语音激活设备104的顶面(例如,触摸传感器阵列214上)的触摸事件;

·语音激活设备数据244,用于至少存储与语音激活设备104相关联的数据,包括:

语音设备设置246,用于存储与语音激活设备104本身相关联的信息,包括普通设备设置(例如,服务层、设备型号、存储容量、处理能力、通信能力等),用户域中一个或多个用户帐户的信息,设备昵称和设备群组,与应对非注册用户时的限制有关的设置,以及与由LED222显示的一个或多个视觉图案相关联的显示指定;以及

语音控制数据248,用于存储与语音激活设备104的语音接口功能有关的音频信号、语音消息、响应消息和其他数据;

·响应模块250,用于执行包括在由语音辅助服务器系统112生成的语音请求响应中的指令,并且在一些实施方式中,生成对某些语音输入的响应;以及

·焦点会话模块252,用于建立、管理和结束关于设备的焦点会话。

在一些实施方式中,语音处理模块238包括以下模块(未示出):

·用户识别模块,用于识别向语音激活设备104提供语音输入的用户并且对其消歧;

·热词辨识模块,用于确定语音输入是否包括用于唤醒语音激活设备104的热词并且在语音输入中辨识这样的热词;以及

·请求辨识模块,用于确定包含在语音输入中的用户请求。

在一些实施方式中,存储器206还存储未完成焦点会话的焦点会话数据254,包括以下内容:

·会话焦点中(Sessionin-focusdevice)设备256,用于存储在未完成焦点会话中处于焦点中的设备或设备群组的标识符(例如设备的昵称、设备群组名称、设备的MAC地址);

·会话开始时间258,用于存储未完成焦点会话开始的时间戳;以及

·会话命令历史260,用于存储焦点会话中的先前请求或命令的日志,至少包括最近的请求/命令。该日志至少包括所记录的在先请求/命令的时间戳。

以上标识的元件中的每一个可以被存储在前面提到的存储器设备中的一个或多个中,并且对应于用于执行上述功能的指令集。以上标识的模块或程序(即,指令集)不需要被实现为单独的软件程序、过程、模块或数据结构,并且因此这些模块的各个子集可以在各个实施方式中被组合或以其他方式重新布置。在一些实施方式中,可选地,存储器206存储以上标识的模块和数据结构的子集。此外,可选地,存储器206存储上面没有描述的附加模块和数据结构。在一些实施方式中,存储在存储器206中的程序、模块和/或数据的子集可以存储在语音辅助服务器系统112上和/或由其执行。

在一些实施方式中,上述存储器206中的一个或多个模块是模块的语音处理库的一部分。语音处理库可以被实现并嵌入在各种各样的设备上。语音处理库的一个示例在2016年5月10日提交的名称为“Implementations for Voice Assistant on Devices(设备上的语音辅助的实现)”的美国临时专利申请No.62/334,434中描述,该申请通过引用全部并入本文。

图3A-3B是图示了根据一些实施方式的,操作环境(例如,操作环境100)的语音辅助服务140的示例语音辅助服务器系统112的框图。服务器系统112通常包括的一个或多个处理单元(CPU)302,一个或多个网络接口304,存储器306以及用于互连这些组件一个或多个通信总线308(有时称为芯片组)。服务器系统112可以包括促进用户输入的一个或多个输入设备310,诸如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机、或其他输入按钮或控件。此外,服务器系统112可使用麦克风和语音辨识或相机和手势辨识来补充或替换键盘。在一些实施方式中,服务器系统112包括用于捕获例如印在电子设备上的图形系列代码的图像的一个或多个相机、扫描仪或光传感器单元。服务器系统112还可以包括一个或多个能够呈现用户界面和显示内容的输出设备312,包括一个或多个扬声器和/或一个或多个视觉显示器。

存储器306包括高速随机存取存储器,例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备;并且可选地包括非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或者一个或多个其他非易失性固态存储设备。存储器306可选地包括与一个或多个处理单元302远程定位的一个或多个存储设备。存储器306——或替选地存储器306内的非易失性存储器——包括非暂时性计算机可读存储介质。在一些实施方式中,存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序,模块和数据结构或其子集或超集:

·操作系统316,包括用于处置各个基本系统服务和用于执行依赖于硬件任务的程序;

·网络通信模块318,用于经由一个或多个网络接口304(有线或无线)和一个或多个网络110——例如互联网、其他广域网、局域网、城域网等——将服务器系统112连接到其他设备(例如,客户端设备103,可控设备106,语音激活设备104);

·用户界面模块320,用于使得能够在客户端设备上呈现信息(例如,用于呈现应用322-328、小部件、其网站和网页、和/或游戏、音频和/或视频内容、文本等的图形用户界面);

·命令执行模块321,用于在服务器侧执行(例如游戏、社交网络应用、智能家庭应用和/或用于控制客户端设备103、可控设备106、语音激活设备104、和智能家庭设备并审查由这样的设备捕获的数据的其他基于web或非web的应用),包括以下中的一个或多个:

投射设备应用322,其被执行以提供用于与投射设备相关联的设备置配、设备控制和用户账户管理的服务器侧功能;

一个或多个媒体播放器应用324,其被执行以提供用于与对应媒体源相关联的媒体显示和用户帐户管理的服务器侧功能;

一个或多个智能家庭设备应用326,其被执行以提供用于对应的智能家庭设备的设备置配、设备控制、数据处理和数据审查的服务器侧功能;以及

语音辅助应用328,其被执行以布置从语音激活设备104接收到的语音消息的语音处理,或者直接处理语音消息以提取用户语音命令和该用户语音命令的一个或多个参数(例如,投射设备或另一个语音激活设备104的指命);以及

·服务器系统数据330,至少存储与媒体显示的自动控制(例如,以自动媒体输出模式和后续模式)相关联的数据以及其他数据,包括以下一个或多个:

客户端设备设置332,用于存储与一个或多个客户端设备相关联的信息,包括普通设备设置(例如,服务层、设备型号、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息;

投射设备设置334,用于存储与投射设备应用322的用户账户相关联的信息,包括账户访问信息,用于设备设置的信息(例如服务层、设备型号、存储容量、处理能力、通信能力、等等)和用于自动媒体显示控制的信息;

媒体播放器应用设置336,用于存储与一个或多个媒体播放器应用324的用户帐户相关联的信息,包括帐户访问信息、媒体内容类型的用户偏好、评论历史数据和用于自动媒体显示控制的信息中的一个或多个;

智能家庭设备设置338,用于存储与智能家庭应用326的用户账户相关联的信息,包括账户访问信息、用于一个或多个智能家庭设备的信息(例如,服务层、设备型号、存储容量、处理能力、通信能力等);

语音辅助数据340,用于存储与语音辅助应用328的用户账户相关联的信息,包括账户访问信息、用于一个或多个语音激活设备104的信息(例如,服务层、设备型号、存储容量、处理能力、通信能力等)中的一个或多个;

用户数据342,用于存储与用户域中的用户相关联的信息,包括用户的订阅(例如,音乐流送服务订阅、视频流式服务订阅、时事通讯订阅),用户设备(例如,与相应用户、设备昵称、设备群组相关联的设备注册表118中注册的设备),用户账号(例如用户账号、日历账号、财务账号),和其他用户数据

用户语音简档344,用于存储用户域中的用户的语音简档,包括例如用户的语音模型或语音指纹以及用户舒适的音量水平阈值;以及

焦点会话数据346,用于存储多个设备的焦点会话数据。

·设备注册模块348,用于管理设备注册表118;

·语音处理模块350,用于处理在电子设备104周围的环境中收集的音频输入或语音消息;以及

·焦点会话模块352,用于建立、管理和结束关于设备的焦点会话。

在一些实施方式中,存储器306还存储一个或多个未完成的焦点会话3462-1到3462-M的焦点会话数据346,包括以下:

·会话源设备3464,用于存储建立焦点会话的设备的标识符;

·会话焦点中设备3466,用于将焦点中的设备或设备群组的标识符存储在未完成的焦点会话中(例如设备的昵称、设备群组名称、设备的MAC地址));

·会话开始时间3468,用于存储未完成焦点会话开始的时间戳;以及

·会话命令历史3470,用于存储焦点会话中的先前请求或命令的日志,至少包括最近的请求/命令。

在一些实施方式中,语音辅助服务器系统112主要负责语音输入的处理,并且因此在以上参照图2描述的存储器206中的程序、模块和数据结构中的一个或多个包括在存储器306中的相应模块中(例如,语音处理模块238中包括的程序、模块和数据结构被包括在语音处理模块350中)。语音激活设备104或者将捕获的语音输入传送至语音辅助服务器系统112进行处理,或者先对语音输入进行预处理,并将预处理后的语音输入传送至语音辅助服务器系统112以进行处理。在一些实施方式中,语音辅助服务器系统112和语音激活设备104具有关于语音输入的处理的一些共享的和一些分开的职责,并且图2中所示的程序、模块和数据结构可以被包括在语音辅助服务器系统112和语音激活设备104两者中或者在两者间划分。图2中示出的其他程序、模块和数据结构或者其类似物也可以被包括在语音辅助服务器系统112中。

上面标识的每个元件可以存储在一个或多个前述的存储器设备中,并且对应于用于执行上述功能的指令集。以上标识的模块或程序(即,指令集)不需要被实现为单独的软件程序、过程、模块或数据结构,并且因此这些模块的各个子集可以在各个实施方式中被组合或以其他方式重新布置。在一些实施方式中,存储器306可选地存储以上标识的模块和数据结构的子集。此外,存储器306可选地存储上面没有描述的附加模块和数据结构。

示例焦点会话

图4A-4D图示了根据一些实施方式的焦点会话的示例。在具有语音激活设备104(例如,操作环境100)和多个可控设备106的操作环境中,当环境中的用户进行将可控设备106中的一个指定为目标设备的语音输入时,可以在目标设备作为焦点中设备的情况下建立焦点会话。

图4A示出了在操作环境(例如,操作环境100)中的语音激活设备404(例如,语音激活设备104)和三个可控制的设备406,408和410(例如,可控设备106)。设备可以与用户402处于相同的空间(例如,在相同的房间中),或者遍布在用户所在的结构中。设备406是昵称为“主卧室扬声器”的扬声器系统。设备408是昵称为“客厅电视”的媒体设备。设备410是昵称为“游戏室电视”的媒体设备。目前没有焦点会话。焦点会话418是空的。

用户402讲出语音输入403“在游戏室电视上播放猫视频”,并且语音激活设备404接收语音输入。语音激活设备404确定语音输入403中的请求是播放猫视频的请求,并且目标设备是在语音输入403中明确指定的“游戏室电视”设备410。如图4B所示,在语音激活设备404处建立焦点中设备是“游戏室电视”设备410的会话418。播放猫视频的命令(由设备404或语音辅助服务器系统112)被发送到“游戏室电视”设备410,并且设备410执行操作416。

随后,在与焦点中“游戏房间电视”410的会话418活动并且设备410正在执行操作416的同时,用户402讲出另一个语音输入“暂停”420。语音激活设备404确定语音输入420是否包括目标设备的指定,以及语音输入420中的请求是否可以由焦点中设备410执行。在特定语音输入420“暂停”的情况下,语音激活设备404确定语音输入420不包括目标设备的指定,并且语音输入中的请求(“暂停”正在播放的任何内容)可以由焦点中设备执行。在一些实施方式中,确定语音输入420是否包括目标设备的指定包括寻找与语音输入中的设备昵称的匹配(例如,对语音输入执行话音转文本辨识并解析文本以寻找设备昵称)。在一些实施方式中,确定是否可以由焦点中设备执行语音输入中的请求包括确定语音输入中的请求是什么,并且比较该请求与当前焦点会话418的命令历史(例如历史260)以确定与会话中的上一个命令的一致性(例如,“暂停音乐”请求与最近的“暂停音乐”命令不一致),以及比较该请求以确定与焦点中设备的能力的一致性(例如,“暂停音乐”请求与智能灯的能力不一致)。

在一些实施方式中,语音激活设备404还确定语音输入420是否满足一个或多个焦点会话维持准则。在一些实施方式中,焦点会话维持准则是语音输入420的时间戳处于从主动会话中的最后语音输入403的时间戳开始的特定时间内(例如,第二语音输入于在前的第一个语音输入的特定时间内接收)。在一些实施方式中,该准则有多个时间阈值。例如,可以有第一较短的时间阈值(例如20分钟)和第二较长的时间阈值(例如4小时)。如果在上一个语音输入403的第一较短阈值内接收到语音输入420,并且满足上述其它准则,则将焦点中设备设置为语音输入420的目标设备(并且在一些实施方式中,当传送语音输入420到语音辅助服务器系统112以供处理时也传送该目标设备设置)。例如,确定语音输入420不包括目标设备指定,并且确定请求“暂停”与上一个命令“播放猫视频”一致。如果在语音输入403的较短时间阈值内接收到语音输入420,则将焦点中设备“游戏室电视”设备410设置为用于语音输入的目标设备420,并且在“游戏室电视”设备410处执行的操作416正按照语音输入420暂停猫视频,如图4D所示。

如果在上一个语音输入403的第一较短的阈值之后并且在第二较长的阈值内接收到语音输入420以及满足上述的其他准则,则语音激活设备404输出语音提示以请求用户确认焦点中设备是针对语音输入420的期望的目标设备。在接收到焦点中设备是期望的目标设备的确认之后,语音激活设备404维持会话418并且将焦点中设备设置为语音输入420的目标设备(并且在一些实施方式中,还在将语音输入420传送到语音辅助服务器系统112以供处理时传送该目标设备设置)。如果用户没有确认目标设备,则语音激活设备404可以请求用户提供目标设备指定,请求用户再次说出语音输入但包括目标设备指定,和/或结束会话418。在一些实施方式中,如果在来自上一个语音输入403的第二较长阈值之后接收到语音输入420或上述其他准则不被满足,则会话418结束。在一些实施方式中,这些时间阈值的值被存储在存储器206和/或存储器306中。将语音输入之间流逝的时间与这些阈值进行比较。

在一些实施方式中,语音输入中缺少明确指定的目标设备,以及语音输入中的请求与上一个语音输入及与焦点中设备的能力的一致性也被认为是焦点会话维持准则。

示例过程

图5是图示根据一些实施方式的响应用户的语音输入的方法500的流程图。在一些实施方式中,方法500在具有一个或多个麦克风、扬声器、一个或多个处理器和存储由该一个或多个处理器执行的一个或多个程序的存储器的第一电子设备(例如,语音激活设备104)处实现。第一电子设备是通信地耦合(例如,通过网络110)到公共网络服务(例如,语音协助服务140)的连接的电子设备的本地群组的成员(例如与用户账户相关联的语音激活设备104和可控设备106;与特定语音激活设备104相关联的可控设备106)。

第一电子设备接收(502)包括对于第一操作的请求的第一语音命令。例如,语音激活设备404接收第一语音输入403。

第一电子设备确定(504)来自连接的电子设备的本地群组中用于第一操作的第一目标设备。语音激活设备404从设备406、408和410中确定(例如,基于语音处理模块238的处理)用于语音输入403的目标设备(或设备群组)。语音激活设备404将语音输入403中的目标设备指定“游戏室电视”辨识为“游戏室电视”设备410。

第一电子设备关于第一目标设备(或设备群组)建立(506)焦点会话。语音激活设备404(例如,焦点会话模块252)建立“游戏室电视”设备410作为焦点中设备的焦点会话418。

第一电子设备经由公共网络服务的操作使得(508)第一操作由第一目标设备(或设备群组)执行。语音激活设备404或语音辅助服务器系统112经由语音辅助服务140向设备410传送命令以执行语音输入403中所请求的操作。

第一电子设备接收(510)包括对于第二操作的请求的第二语音命令。语音激活设备404接收第二语音输入420。

第一电子设备确定(512)第二语音命令不包括第二目标设备(或设备群组)的明确指命。语音激活设备404确定(例如,基于语音处理模块238的处理)用于语音输入420的目标设备,并且辨识语音输入420不包括目标设备指定。

第一电子设备确定(514)第二操作可以由第一目标设备(或设备群组)执行。语音激活设备404确定在语音输入420中请求的操作能够由焦点中设备410执行,并且与在语音输入403中请求的并且由焦点中设备410执行的上一个操作一致。

第一电子设备确定(516)第二语音命令是否满足一个或多个焦点会话维持准则。语音激活设备404确定是否在语音输入403的特定时间内接收到语音输入420。

根据第二语音命令满足焦点会话维持准则的确定,第一电子设备使得(518)由第一目标设备(或设备群组)经由公共网络的操作执行第二操作。语音激活设备404确定在语音输入403的第一较短时间阈值内接收到语音输入420,并且根据该确定将用于语音输入420的目标设备设置为焦点中设备410。语音激活设备404或语音辅助服务器系统112经由语音辅助服务140将命令传送到设备410以执行语音输入420中所请求的操作。

在一些实施方式中,从连接的电子设备的本地群组中确定用于第一操作的第一目标设备包括从第一语音命令获得第一目标设备的明确指定。语音激活设备404可以预处理语音输入403以确定语音输入403是否包括目标设备的明确指定。替选地,语音激活设备404可以从处理语音输入403的语音辅助服务器系统112接收目标设备的明确规定。

在一些实施方式中,从连接的电子设备的本地群组中确定用于第一操作的第一目标设备包括:确定第一语音命令不包括第一目标设备的明确指定,确定第一操作可以由连接的电子设备的本地群组中的第二电子设备执行,并选择该第二电子设备作为第一目标设备。如果第一语音输入不包括目标的明确指定,但是包括在第一语音输入内的请求是可以由该群组内的单个设备执行的请求(例如,视频相关的命令并且群组中只有一个支持视频的设备),则将该单个设备设置为用于第一语音输入的目标设备。此外,在一些实施方式中,如果除了语音激活设备之外仅有一个可控设备,则该可控设备是用于不明确地指定目标设备的语音输入的默认目标设备,并且该语音输入所请求的操作可以由该可控设备执行。

在一些实施方式中,可以分析(例如,通过语音辅助服务器系统112或语音激活设备104)用户的语音输入历史(例如,由语音辅助服务器系统112收集并存储在存储器306中,由语音激活设备104收集并存储在存储器206中)以确定该历史是否示出特定的语音激活设备104被频繁地用于控制特定的可控设备106。如果历史确实示出这样的关系,则可将特定的可控制的设备设置为向语音激活设备的语音输入的默认目标设备。

在一些实施方式中,默认目标设备的指定(例如,标识符)被存储在语音激活设备104和/或语音辅助服务器系统112处。

在一些实施方式中,根据确定第二语音命令满足焦点会话维持准则,关于第一目标设备扩展焦点会话。在一些实施方式中,焦点会话在一定量的时间之后超时(即,结束)。如果第二语音输入420满足焦点会话维持准则,则焦点会话418可以在时间上延长(例如,重置超时计时器)。

在一些实施方式中,关于第一目标设备建立焦点会话包括存储第一语音命令的时间戳,并且存储第一目标设备的标识符。当在接收到语音输入403之后建立焦点会话时,语音激活设备404存储语音输入403的时间(例如,在会话命令历史260中)和焦点中设备410的标识符(例如,在会话焦点中设备256)。

在一些实施方式中,焦点会话维持准则包括:第二语音命令是在相对于接收第一语音命令的第一预定义时间间隔内或者相对于接收第一语音命令的第二预定义时间间隔内由第一电子设备接收的准则,所述第二预定义时间间隔在第一预定义时间间隔之后;并且确定第二语音命令是否满足所述一个或多个焦点会话维持准则包括:确定是否在第一预定义时间间隔或第二预定义时间间隔中的任一个内接收到第二语音命令。语音激活设备404确定语音输入420是否满足一个或多个焦点会话维持准则,包括在语音输入403的第一时间阈值或第二时间阈值内是否接收到语音输入420。

在一些实施方式中,根据确定在第一预定义时间间隔内接收到第二语音命令,第一电子设替选择第一目标设备作为第二语音命令的目标设备。如果确定在第一较短时间阈值内从语音输入403接收到语音输入420,则将焦点中设备410设置为语音输入420的目标设备。

在一些实施方式中,根据确定在第二预定义时间间隔内接收到第二语音命令,第一电子设备输出确认第一目标设备作为第二语音命令的目标设备的请求;并且根据响应于请求确认的第一目标设备的肯定性确认,选择第一目标设备作为第二语音命令的目标设备。如果确定语音输入420在语音输入403的第一较短时间阈值之外但在第二较长时间阈值之内被接收,则语音激活设备提示用户确认目标设备(例如,询问用户焦点中设备410是否是意图的目标设备)。如果用户确认焦点中设备410是意图的目标设备,则将焦点中设备410设置为用于语音输入的目标设备420。

在一些实施方式中,第一电子设备接收第三语音命令,该第三语音命令包括对于第三操作的请求和对连接的电子设备的本地群组中的和第三目标设备的明确指命,结束关于第一目标设备的焦点会话,建立关于第三目标设备的焦点会话,并且使得由第三目标设备经由公共网络服务的操作来执行第三操作。语音激活设备404可以在语音输入420之后接收新的语音输入,该语音输入420包括除了设备410之外的目标设备(例如,设备406或408)的明确指定。根据该语音输入的接收,结束与处于焦点中的焦点设备410的焦点会话418,并建立与处于焦点中的新目标设备的新会话。语音激活设备404或语音辅助服务器系统112经由语音辅助服务140将命令传送到新的目标设备以执行新语音输入中所请求的操作。

在一些实施方式中,第一目标设备是第一电子设备。第一电子设备接收第四语音命令,该第四语音命令包括对于第四操作的请求以及在连接的电子设备的本地群组中的第四目标设备的明确指定,其中第四目标设备是连接的电子设备的本地群组中的第三电子设备成员,所述第三电子设备不同于第一电子设备;维持关于第一目标设备的焦点会话;并且使得第四目标设备经由公共网络服务的操作来执行第四操作。如果语音激活设备404处的用于激活焦点会话418的焦点中设备是语音激活设备404本身,并且然后在语音输入420之后接收到指定不同设备作为目标的新语音输入,则语音激活设备404或语音辅助服务器系统112经由语音辅助服务140将命令传送到不同的目标设备以执行在新语音输入中所请求的操作,然而焦点会话通过处于焦点中的语音激活设备404。

在一些实施方式中,在使得第四操作由第四目标设备执行之后接收第二语音命令,第一操作是媒体回放操作,并且第二操作是媒体停止操作。第一电子设备接收第五语音命令,该第五语音命令包括对于第五操作的请求和连接的电子设备的本地群组中的第五目标设备的明确指定,其中第五目标设备是第三电子设备;结束关于第一目标设备的焦点会话;建立关于第五目标设备的焦点会话,并且使得由第五目标设备经由公共网络服务的操作来执行第五操作。如果在语音激活设备404处的用于主动焦点会话418的焦点中设备是语音激活设备404本身,并且语音输入403包括发起媒体回放的请求,并且语音输入403包括对作为语音输入403的结果而暂停媒体播放的请求,并且在语音输入420之后接收到指定不同设备作为目标的新语音输入,则语音激活设备404或语音辅助服务器系统112经由语音辅助服务140向不同的目标设备传送指令以执行新的语音输入中所请求的操作,并结束与焦点中的语音激活设备的焦点会话,并且建立与焦点中的新的目标设备的新焦点会话。

在一些实施方式中,第一电子设备接收包括预定义操作终止请求的第五语音命令,并且根据接收第五语音命令,使得第一操作停止由第一目标设备执行,并且结束关于第一目标设备的焦点会话。如果语音激活设备404接收到预定义的终止命令(例如,“停止”),则语音激活设备404或语音辅助服务器系统112经由语音辅助服务140向设备410传送命令以停止执行操作416并结束焦点会话418。

在一些实施方式中,第一操作是媒体回放操作,并且第二操作是以下中的一个:媒体停止操作、媒体倒回操作、媒体快进操作、音量增大操作、和音量减小操作。语音输入403中的请求可以是请求发起媒体内容(例如,视频,音乐)的回放,并且语音输入420中的请求可以是请求控制回放(例如,暂停、倒回、快进、增大/减小音量,下一个项目/曲目,上一个项目/曲目等)。

在一些实施方式中,第一操作是到多个设备状态中的第一状态的设备状态改变操作,并且第二操作是到多个设备状态中的第二状态的设备状态改变操作。语音输入403中的请求可以是转换到第一状态(例如打开灯或设备、进入睡眠模式)的请求,并且语音输入420中的请求可以是转换到第二状态(例如,关闭灯或设备、从睡眠模式唤醒)的请求。

在一些实施方式中,第一操作是幅度范围中的第一方向上的幅度改变操作,并且第二操作是幅度范围中的与第一方向相反的第二方向上的幅度改变操作。语音输入403中的请求可以是改变一个方向上的幅值(例如,增亮光线、增大音量)的请求,并且语音输入420中的请求可以是改变相反方向上的幅值(例如,调暗光线、减小音量)的请求。

在一些实施方式中,第一电子设备包括一个或多个LED的阵列。第一电子设备通过照亮LED阵列中的一个或多个LED来指示焦点会话的状态。语音激活设备404可以通过在LED阵列上显示图案,指示存在焦点会话或与该焦点会话相关联的其他状态和其他信息(例如,焦点会话已经活动了多长时间的指示或者从上一个语音输入起已经流逝了多长时间的指示)。

在一些实施方式中,可以为每个识别的用户建立焦点会话。例如,如果用户说出指定目标设备的语音输入,则识别用户并且关于识别的用户建立焦点会话,其中在语音输入中指定的目标设备处于焦点中。如果不同的用户说出语音输入并且指定不同的目标设备,则识别该不同的用户,并且关于所识别的不同用户建立另一个焦点会话,其中不同的目标设备处于焦点中。可以基于对应于相应识别的用户的主动焦点会话来为不同的用户说出的并且不指定目标设备的语音输入指派不同的目标设备。在2016年10月3日提交的名称为“Multi-User Personalization at a Voice Interface Device(在语音接口设备处的多用户个性化)”的美国专利申请No.15/284,476中描述了讲话者识别的示例,其全部内容通过引用并入本文。

焦点会话的其他示例

以下实施方式描述语音激活设备104与作为媒体设备的一个或多个可控设备106在同一房间内的场境中的实现。应该理解的是,下面描述的实施方式可适用于其他类型的可控设备106(例如,智能家庭设备)以及其他设备放置设置。

在一些实施方式中,如果在语音激活设备上尚未播放媒体,则可以以可控设备而非语音激活设备为焦点中设备来开始焦点会话。在一些实施方式中,如果在语音激活设备上播放的媒体被暂停,则可以使用可控设备而非语音激活设备作为焦点中设备来开始焦点会话。

在一些实施方式中,如果用户发出具有指向与语音激活设备相关联(并且可选地在与语音激活设备相同的WiFi网络上)的设备或设备群组的明确目标设备的任何有效请求,则开始焦点会话。这样的有效请求的示例包括“在我的客厅扬声器上播放一些音乐”,“在卧室电视上增大音量”,“在我的家庭组上的下一首歌曲”和“暂停客厅扬声器”。明确的目标设备成为焦点会话的焦点中设备。

在一些实施方式中,如果请求清楚地作为与视频相关联的请求,并且在相关联的可控设备中存在单个有视频能力的设备,则可以将具有视频能力的设备作为焦点中设备来建立焦点会话。

在一些实施方式中,如果在语音激活设备正在主动播放媒体时接收到与另一设备作为目标设备的请求,则焦点将保持在语音激活设备上,然而一旦语音激活设备停止或暂停其会话中,在另一个设备上播放或控制媒体的任何新请求都会将焦点转移到该另一个设备上。

例如,用户请求“播放Lady Gaga”,并且语音激活设备开始播放Lady Gaga音乐,并开始与焦点中的语音激活设备的焦点会话。用户然后请求“暂停”,并且语音激活设备暂停Lady Gaga音乐(并且维持焦点会话例如2小时)。1小时后,用户请求“在我的电视上播放猫视频”。焦点移动到电视上,电视开始播放猫视频。

作为另一示例,用户请求“播放Lady Gaga”,并且语音激活设备开始播放Lady Gaga音乐,并开始与焦点中的语音激活设备的焦点会话。然后用户请求“在我的电视上显示猫视频”,猫视频开始在电视上显示,但焦点仍然在语音激活设备上。然后用户请求“下一个”,根据该请求语音激活设备前进到Lady Gaga音乐中的下一个轨道。用户然后请求“暂停”,并且在语音激活设备处的音乐被暂停。然后用户请求“我的电视上的下一张幻灯片”,下一张幻灯片在电视机上开始,焦点转移到电视机。

在一些实施方式中,有效请求包括发起音乐、发起视频、发起新闻朗读(例如,朗读新闻文章)、发起播客、发起照片(例如,照片显示或幻灯片放映)以及任何媒体控制命令(除了结束当前焦点会话的预定义的STOP命令以外。)

在一些实施方式中,当发生以下任何事件时,焦点会话结束:

·焦点会话被转移到不同的设备(通过语音输入,例如明确指定不同设备的语音输入),在这种情况下,焦点会话从不同的设备开始;

·经由语音输入或投射自另一设备(例如,通过语音:“播放Lady Gaga<语音接口设备的昵称>”,“本体播放LadyGaga”等;经由投射:用户经由客户端设备上的应用将内容投射到语音激活设备),焦点会话在语音激活设备上开始或继续(离开暂停状态);

o然而,如果语音激活设备是即将播放媒体的群组的成员(追随者或领导者),则不会停止焦点(即使正在播放)。因此,焦点将仍旧在群组的领导者(其可能是另一个语音激活设备)。

·当请求是对于作为焦点中的可控设备的预定义的“停止”命令(包括所有相关的语法);

·超时相关命令:

o不同于预定义的“停止”命令,可以从给予可控设备的上一个请求或者命令来测量超时,可控设备被明确地指定或者基于焦点会话的焦点中设备来设置;

o在各个可能的命令中超时可以是240分钟;以及

·当用户按下语音激活设备上的用于暂停/播放的按钮(此外,这还将在语音激活设备上本地继续任何暂停的内容)。

在一些实施方式中,语音激活设备请求目标设备的用户确认。如果用户想要在可控设备上播放媒体,则会提示该用户进行确认,如下所示:

·针对媒体启动触发提示(例如,在没有播放任何音乐的情况下开始音乐)(相对于媒体控制,诸如快进或下一曲目)。

·焦点会话处于活动状态时触发提示;以及

·不同于预定义的“停止”命令,在给予可控设备的当前语音激活设备的上一个语音命令已过去某个时间(例如,20分钟)之后触发提示,明确指定可控设备还是基于焦点会话的焦点中设备来设置。

提示确认可以是,例如:

·语音激活设备输出“您想让我在<可控设备名称>上播放吗?

o用户响应“是”。然后,所请求的媒体在焦点中可控设备上播放,并且焦点保持在该设备上。

o用户响应“否”。然后在语音激活设备上播放所请求的媒体,并且焦点会话结束。

o其他:例如,如果用户的响应不清楚,则语音激活设备可以输出“抱歉,无法理解您的回复”。

在一些实施方式中,当启动焦点会话时,将媒体启动和基于语音的控制命令应用于焦点中可控设备。非媒体请求(例如,搜索、问题)由语音激活设备回答,并且非媒体请求不结束焦点会话。

在一些实施方式中,即使当焦点会话已经开始时,物理交互仍将控制语音激活设备,因此用以改变音量和暂停/播放的与语音激活设备的物理交互(例如,按下按钮、触摸触敏区域)影响语音激活设备,而不一定是可控设备。

在一些实施方式中,发至在语音激活设备上的定时器/闹钟/播放的文本转语音的请求或命令具有比焦点中可控设备的类似请求或命令更高的优先级。例如,如果语音激活设备正针对定时器或闹钟而响铃,并且用户讲出“停止”,则语音激活设备停止定时器或闹钟振铃。如果用户然后讲出“音量<增大/减小>”,则定时器或闹铃响铃仍然被停止,并且可控设备上的音量被增大或减小。

作为另一示例,如果语音激活设备正在播放文本转语音(例如,朗读用户的电子邮件),并且用户说出“停止”,则语音激活设备停止文本转语音朗读。如果用户然后讲出“音量<增大/减小>”,语音激活设备上的音量被增大或减小。

作为又一示例,如果语音激活设备是空闲的、暂停的或应用加载的,并且用户讲出“停止”,则停止在可控设备处播放的媒体,并且焦点会话结束。如果用户然后讲出“音量<增大/减小>”,则可控设备上的音量被增大或减小。

主动语音通知

在一些实施方式中,操作环境100还包括代理116,如图1所示。代理116可以是一个或多个服务器或其他计算设备的系统。代理116实现服务的接口或前端;用户可以通过与代理116对接来访问服务。例如,代理116可以是假期预定系统的代理(例如,用于预订和预约航班、旅馆、租赁汽车等的服务);用户可以与代理116进行对接以检查航班、旅馆等的可用性和定价,并且对航班、旅馆等进行预定。作为另一示例,代理116可以是用于在线商店或在线递送服务的代理;用户可以与代理交互以查看待售产品或服务并进行购买。在一些实施方式中,代理116是用于服务的服务器系统(例如,后端服务器系统)的内容主机114的前端。

在一些实施方式中,存储器206(图2)或存储器206的非暂时性计算机可读存储介质还存储以下程序、模块和数据结构或其子集或超集:

·对话管理器模块262,用于管理和监视用户与语音辅助服务140或代理116的交互的状态,并确定交互是否可以被通知中断;

·通知管理器模块264,用于管理要递送给用户的通知;

·代理模块266,用于与服务的代理116进行对接;

·通知268,用于存储(例如,排队)要提供给与设备104相关联的用户的通知,以及可选地存储与设备104相关联的用户的通知配置(例如,提供什么通知等)。

在一些实施方式中,存储器306(图3A)或存储器306的非暂时性计算机可读存储介质还存储以下程序、模块和数据结构或其子集或超集:

·对话管理器模块354,用于监视用户与语音辅助服务140或代理116的交互的状态,并确定交互是否可能被通知中断;

·通知管理器模块356,用于管理要递送给用户的通知;

·代理模块358,用于与服务的代理116进行对接;以及

·每用户通知360,用于存储(例如,排队)要提供给用户的通知,以及可选地存储用户的通知配置(例如,提供什么通知等)。

在一些实施方式中,对话管理器模块262、通知管理器模块264和代理模块266中的一个或多个可以被实现为语音处理模块238或响应模块250中的一个或多个的一部分。在一些实施方式中,对话管理器模块262、通知管理器模块264和代理模块266中的一个或多个可以全部或部分地实现在设备104(图2)上或在语音辅助服务器系统112(图3)上,(例如,分别作为对话管理器模块354、通知管理器模块356和代理模块358)。

参考图3C,在一些实施方式中,用户402对设备104说话并且收听设备104进行的输出以与语音辅助服务140或与代理116(例如,通过代理模块266)交互。例如,用户402作出一个或多个说出的请求,其作为一个或多个数字请求消息105而由设备104处理并传送。请求105由语音辅助服务140或代理116(取决于该请求的性质)经由一个或多个数字响应消息107执行并响应。数字响应消息107作为用户402的输出可听信息而由设备104处理并播放。一个或多个请求消息105和有关的响应消息107的系列有时被称为对话,其能够是简短的(例如,包括单个请求和响应——如在用户询问当前天气时)或冗长的(例如,包括作为用户与代理或语音辅助服务器之间的复杂交互的一部分的许多请求105和响应107——如在用户视图预定餐厅或旅游套餐时)。

参照图3D,在一些实施方式中,代理模块266(在一些实施方式中,和/或语音辅助服务140)存储代理模块信息267,其指示该代理模块关于特定代理116针对特定用户402管理的每个请求105的状态,所述代理模块信息267包括以下中的一个或多个:

·用户/设备信息272a,其关于请求(例如,用户ID和账户信息、代理ID和信息、设备ID和信息等中的一个或多个);

·关联的请求105的独特标识符272b(例如,用以允许请求105和响应107被跟踪并与对话相关联);

·请求发起和完成时间272c/272d;以及

·与请求有关的指示符/标识272e的集合,包括以下中的一个或多个:

代理116能够支持对话中的中断的指示274b;

中断在进行中的指示274c;和/或

请求105和关联的用户对话已经完成的指示274d。

在一些实施方式中,代理模块266存储代理模块266存储转入和转出短语276a/276b的库,代理模块266在主动通知263的回放之前和之后根据该库生成转入和转出267a/267b以供设备104回放(图3C)。在一些实施方式中,对话管理器模块262警示代理模块266通知263的可用性(例如,通过使用通知请求消息265b)。因此,代理模块263能够在中断之前和之后提供与被中断的对话的语言、风格和发声特性(vocal characteristics)相符(或有意不相符——取决于情形)的过渡。以这种方式使用过渡使通知263的递送不那么突兀并且比在对话中作为唐突的中断来插入该通知更为有效。在一些实施方式中,过渡267针对相对重要性和/或其引入的主动通知263的紧急性来定制。例如,会议即将开始或航班正在登机的主动通知263能够用这样的过渡来引入:过渡诸如“请注意:<通知>”或“请不要走开,有重要通告:<通知>”(其中“<通知>”表示通知263的回放),其比通常音量更响地播放或以唐突的音调播放。另一方面,赛事比分的通知263能够使用更为放松的转换短语和回放风格。

参考图3C,对话管理器模块262跟踪用户402与语音辅助服务140或代理116之间的交互/对话的状态。在一些实施方式中,对话管理器模块262从代理模块266(和/或语音辅助服务140)接收该信息以作为对话状态信息消息141,其提供诸如代理116是否能够支持活动对话中的中断的消息。对话管理器模块262还监视通知管理器模块264针对用户402生成的主动通知263(例如,经由通知管理器模块264发送的通知请求265)。主动通知263响应环境100生成的且与请求105区别的、未完成的用户请求109或更新。基于对话状态信息141,对话管理器模块262确定是否和如何中断设备104和用户402之间的对话来递送主动通知263。在一些实施方式中,对话管理器模块262以场境敏感的方式来递送通知263,该场景敏感方式确保通知263更有可能被用户402注意(例如,由于通过代理模块266供应的吸引用户对主动通知263的注意的转换短语来引入)

参考图3D,在一些实施方式中,对话管理器模块262存储对话管理器模块信息283,其指示其监视的用户与语音辅助服务140或代理116之间的交互中的一个或多个的状态。在一些实施方式中,所存储的信息283包括以下中的一个或多个:

·每个被监视的对话的独特标识符282b-i(例如,用以允对话被跟踪并与请求、响应和通知相关联);

·来自语音辅助服务140的对话状态信息141a-i;

·来自代理116的对话状态信息141b-i,包括以下中的一个或多个:

代理116能够支持对话中的中断的指示274b-i;

请求105和关联的用户对话已经完成的指示274d-i。

在一些实施方式中,对话管理器模块262存储转入和转出短语286a/286b的库,对话管理器模块262在主动通知263的回放之前和之后能够使用该库生成待由设备104播放的过渡267。过渡286a/286b能够与代理模块266维持的过渡短语276a/276b相同或不同。在一些实施方式中,在代理116无法支持对当前对话的中断时(如一些实施方式中由设置为“否”的对话可中断指示符274b-i所指示),对话管理器模块262生成过渡267。使用对话管理器模块262生成过渡267的一个优点在于:这使得能够独立于被中断通知263的回放的特定代理266来提供相符的过渡,这有助于建立通知263的可辨识语音和风格,其强化了对这些通知的用户辨识。

再参照图3C,对话管理器模块262获得关于要提供给用户的主动通知或更新的信息(例如,通知管理器模块264将信息/通知请求265a发送给对话管理器模块262,或对话管理器模块262周期性地向通知管理器模块264探询(ping)关于通知的信息),因此对话管理器模块262也知道是否存在需要提供给用户的主动通知或更新。例如,如果响应于未完成的请求109而在用户/代理交互过程中发出通知263,则通知管理器模块264将关于通知263的信息发送给对话管理器模块262(例如,作为通知265a,在一些实施方式中响应于其对话管理器模块262经由第二通知请求265b向代理模块266检查代理166是否能够支持用于通知263的中断)。

参考图3D,在一些实施方式中,通知管理器模块264存储通知管理器模块信息293,其指示该通知管理器模块264针对一个或多个用户402管理的每个未完成请求109和关联的通知的状态,所述通知管理器模块信息293包括以下中的一个或多个:

·会导致主动通知263或更新的未完成请求292a的独特标识符282b-i;

·未完成的请求发起和完成时间292b和292c;

·未完成的请求的未来执行时间292d或该未来执行时间不确定的指示292e;

·一个或多个通知的通知信息298-i,包括以下中的一个或多个:

为用户402准备的主动通知263-i;

通知设置297-i,诸如通知的特定优先级水平或类型,完成未完成的请求的处理/执行的指示以及主动通知已递送至用户的指示(例如,基于对话管理器模块262所提供的信息),以及重复通知263的次数。

在一些实施方式中,通知管理器模块264存储转入和转出短语296a/296b的库,通知管理器模块264主动通知263的回放之前和之后能够使用该库生成待由设备104播放的过渡267。过渡296a/296b能够与代理模块266维持的过渡短语276a/276b相同或不同。

对话管理器模块262通过代理模块266与代理116进行通信,以询问代理116是否代理116可以在其与用户的交互中支持中断。如果代理116不能,则对话管理器模块262抢占用户与代理116的交互,并立即告知用户通知(例如,指示设备104输出该通知263)。通知可能会发出语音,例如,“对不起,我需要中断,<通知>”。

如果代理116可以支持中断,则代理116将有机会提供转出和转入的通知(例如,指示向通知的过渡和转回到交互中的语音输出)。

例如,在与代理116进行交互以进行旅行预订的过程中,假定食物递送接近到达。用户和代理116之间的语音交互可以如下进行:

·代理:我有您的名字和目的地,然而您想要什么样的旅馆?

·用户:我想...

·代理:请稍等。

·语音辅助服务:您的Dominos比萨即将到达。

·代理:感谢您的等待。现在,您能再次告诉我您想要什么样的酒店吗?

在上面的示例中,输出“请稍等”是向通知的过渡,并且输出“感谢等待。现在...”是回到交互的过渡。在一些实施方式中,这些输出由代理116或代理模块266/358提供。

作为另一个示例,在代理116的长文本转语音输出期间通知到达的交互可以如下进行:

·代理:这个地区有15家酒店供您考虑。Hyatt Regency是一家四星级酒店,

·代理:等一下,我马上回来告诉您这个地区的酒店。

·语音辅助服务:您的Dominos披萨即将到达。

·代理:好的,回到在该地区的酒店,有Hyatt Regency...

在上面的示例中,输出“等一下,我马上回来告诉您这个地区的酒店”是向通知的过渡,并且输出“好的,回到在该地区的酒店,有...”是回到交互的过渡。在一些实施方式中,这些输出由代理116或代理模块266/358提供。

在一些实施方式中,主动通知可以通过具有未来执行时间的用户请求来启用,例如用户如在上面的示例中那样订购比萨,预约出租车到机场,或请求特定事件发生时的通知,例如大学橄榄球比赛开始,或预测的暴雨开始。在一些实施方式中,主动通知也可以在没有任何明确的用户请求的情况下被启用,并且作为替代可以基于编程的系统行为来启用,所述编程的系统行为基于监视系统需要向用户传送要通知的多个条件或信息项目来确定。

以这种方式,可以立即传递重要通知,而不必完全停止用户与代理之间的对话或交互,或者在与用户交互的代理之间具有非常唐突/不礼貌的过渡。因此,重要或即将发生的事件经由人机交互以有帮助、礼貌且有用的方式提供——包括通过语音助手设备在某些实例下经由自然和无缝地中断另一个语音交互来提供重要的通知。在一些实施方式中,由语音辅助设备/语音辅助服务器生成并使用中断交互的主动语音交互和主动通知之间的转换短语使得中断对于用户而言感觉自然,如同交互和通知是由人类助手处置,而不是由语音响应设备和远程语音交互处理服务器组合来支持的计算机驱动的辅助。

在一些实施方式中,如本文所描述的用户个性化特征和焦点会话被配置为与主动通知交互操作。例如,如果当前焦点会话处于活动状态的用户也是主动通知的指定接收者,那么参与与该用户的活动焦点会话的电子设备也被用来提供指命用于此用户的主动通知,如本文所描述。在一些实施方式中,如果主动通知特别重要,则即使主动通知的指命的接收者涉及假定的众多语音辅助设备之一的焦点会话,主动通知也可以在该假定下在参与焦点会话的设备上和其他设备上播放。

在一些实施方式中,个性化特征允许在语音辅助基础设施中管理多个主动通知,这是通过使得能够对参与假定的活动语音辅助对话(包括焦点会话)的一个或多个用户的识别以及随后经由被每个识别的用户正在使用的相应设备发布对这些个体进行适当的主动通知来进行的。个性化特征还可以使得语音辅助设备能够在根据与特定语音辅助设备进行交互的用户的身份的前提下配置每个个体的主动通知。

图6是示出根据一些实施方式的用于语音接口设备中的主动通知的方法600的流程图。在一些实施方式中,用于在语音接口设备中的主动通知的方法600包括:接收(602)用于具有未来执行时间的动作的第一用户语音请求,将第一用户语音请求指派(604)给语音辅助服务以供执行,接收后,接收(606)第二用户语音请求,并响应于第二用户语音请求发起与用户的对话;以及在对话期间(608):从语音辅助服务接收(610)执行动作的通知;触发(612)对用户的第一可听通告以指示从对话过渡并中断对话;触发(614)对用户的第二可听通告以指示动作的执行;以及触发(616)第三可听通告给用户以指示转回对话并重新加入对话。在一些实施方式中,该方法在语音激活电子设备(例如设备104)或语音辅助服务140(例如语音辅助服务器112)的服务器系统处实现。

在一些实施方式中,一个或多个可听通告伴随在用户语音接口设备上显示的视觉提示。在一些实施方式中,可以根据在此描述的LED设计语言的元件经由设备的显示元件来提供视觉提示。

在一些实施方式中,第一用户语音请求在用户语音接口设备处被接收,该用户语音接口设备可以是具有一个或多个扬声器和一个或多个麦克风(例如,GOOGLE HOME设备或类似)的语音辅助设备、手机、平板计算机或笔记本计算机。

在一些实施方式中,未来的执行时间是不确定的。例如,未来的执行时间可能不是用户请求的一部分、难以确定、或者可能发生在一定时间范围内(如在披萨送货请求的情况下)。另外,如果不存在引起主动通知的明确的用户请求(例如,当语音辅助设备被配置为在出现多个监视条件之一时提供主动通知),则未来的执行时间可以是任何时候。在一些实施方式中,在这些或其他类似的情形下,如本文所述管理主动通知(无论何时需要发出)以及与语音辅助设备正在进行的用户交互的任何产生的中断。

在一些实施方式中,语音辅助服务在与用户语音接口设备通信的服务器上实现。

在一些实施方式中,通过在与用户语音接口设备通信的服务器处实现的数字对话管理器来监视对话。

在一些实施方式中,数字对话管理器接收通知。

在一些实施方式中,该方法还包括基于对话的场境来确定触发第一可听通告的适当时间。

在一些实施方式中,对话在用户和软件代理之间执行,其中软件代理确定并生成一个或多个可听通告。

语音激活电子设备的物理特性

图7A和图7B是根据一些实施方式的示例语音激活设备104的前视图700和后视图720。语音激活设备104被设计为温暖而诱人,并且自然地融入家庭的许多区域。语音激活设备104包括一个或多个麦克风702以及全色LED阵列704。全色LED 704可隐藏在语音激活设备104的顶部表面下方,并且在一些实施方式中当他们没有点亮时对用户不可见。在一些实施方式中,全色LED阵列704物理地布置成环状。在一些实施方式中,全彩LED的阵列物理地布置成网格状。此外,语音激活设备104的后侧可选地包括被配置为耦合到电源的电源连接器708。在一些实施方式中,语音激活设备104还包括具有扬声器格栅710的基座,该扬声器格栅710保护隐藏在扬声器格栅下面的扬声器。

在一些实施方式中,语音激活设备104呈现不具有可见按钮的干净外观,并且与语音激活设备104的交互基于语音和触摸手势(例如,利用在语音激活设备104上的触敏表面(未示出))。替选地,在一些实施方式中,语音激活设备104包括有限数目的物理按钮(例如,在其后侧的按钮706),并且除了语音和触摸手势外,与语音激活设备104的交互还进一步基于按压按钮。

语音用户接口的视觉可供性的LED设计语言

在一些实施方式中,语音激活设备104包括全色发光二极管(LED)阵列而不是全显示屏幕。采用LED设计语言来配置全色LED阵列的照明,并启用指示语音激活设备104的不同语音处理状态的不同视觉图案。LED设计语言由应用于全色LED的固定集合的颜色、图案、和特定运动的语法组成。语言中的元素被组合以在使用语音激活设备104期间在视觉上指示特定的设备状态。在一些实施方式中,全色LED的照明旨在清楚地描绘语音激活设备104的被动收听和主动收听状态以及其他重要状态。全色LED的放置符合语音激活设备104的物理约束,并且全色LED阵列可以用于由第三方原始设备制造商(OEM)基于特定技术(例如,Google Assistant)制造的扬声器。

当在由第三方OEM基于特定技术制造的扬声器中使用全色LED阵列时,全色LED和LED设计语言被配置为适应OEM扬声器的对应物理用户界面。在这种情形下,OEM扬声器的设备状态保持不变,而代表设备状态的特定视觉图案可以变化(例如,全色LED的颜色可以不同但以相似的动画效果显示)。

在语音激活设备104中,当语音激活设备104处理从其周围环境收集的音频输入但不存储音频输入或将音频输入传送到任何远程服务器时,发生被动收听。相反,当语音激活设备104存储从其周围环境收集的音频输入和/或与远程服务器共享音频输入时,发生主动收听。根据本申请的一些实施方式,语音激活设备104仅被动地监听其周围环境中的音频输入而不破坏语音激活设备104的用户的隐私。

图7C是根据一些实施方式的,语音激活设备104的俯视图,图7D示出了根据一些实施方式的,由全色LED阵列显示的用于指示语音处理状态的视觉图案。在一些实施方式中,语音激活设备104不包括任何显示屏幕,并且与全显示屏幕相比,全彩LED提供简单且低成本的视觉用户界面。全色LED可以隐藏在电子设备的顶部表面下,并且当不点亮时对用户不可见。在一些实施方式中,语音激活设备104的顶部表面是触敏的。参照图7C和图7D,在一些实施方式中,全色LED阵列物理排列成环状。在一些实施方式中,灯跟踪用户与电子设备104的物理交互。例如,如图7D(6)所示,全彩LED 704的阵列可以顺序点亮以跟踪在语音激活设备的触敏顶表面上的顺时针或逆时针滑动。下面参照图7D(1)-7D(8)解释关于与电子设备104的语音处理状态相关联的视觉图案的更多细节。

在电子设备104处实施用于在视觉上指示语音处理状态的方法。电子设备104经由一个或多个麦克风702收集来自电子设备附近的环境的音频输入,并处理该音频输入。处理包括识别并响应来自环境中的用户的语音输入中的一个或多个。电子设备104从多个预定义的语音处理状态中确定处理的状态。对于全色LED 704中的每一个,电子设备104识别与所确定的语音处理状态相关联的相应的预定LED照明规格。照明规格包括LED照明持续时间、脉冲率、占空比、颜色顺序和亮度中的一个或多个。在一些实施方式中,电子设备104确定语音处理状态与多个用户中的一个用户相关联,并且通过根据多个用户中的一个用户的身份来定制至少一个预定的LED照明规格(例如,颜色顺序)。例如,LED照明规格可以:(a)使所有LED以单一颜色一起脉动或“呼吸”(例如,不同红色强度之间的脉冲,如图7D(1)所示);(b)使特定的LED以不同的颜色点亮(例如,分别以蓝色、红色、黄色和绿色分别照亮顶部、右侧、底部和左侧的单个LED,如图7D(2)所示),或者照亮所有LED,每个颜色都不同,如图7(D)(4)所示);(c)使得所有LED在不同颜色之间曳动(例如,如图7D(3)所示,在白色和不同灰度之间曳动);或使限定的一组LED闪烁(例如,如图7D(5)所示,从白色闪光到关闭)。

此外,在一些实施方式中,根据所确定的语音处理状态,全色LED的颜色包括预定的一组颜色。例如,参照图7D(2)、7D(4)和7D(7)-(10),预定颜色组包括Google品牌颜色,其包括蓝色、绿色、黄色和红色,并且全色LED分为四个象限,每个象限与Google品牌的一种颜色相关联。

根据全色LED的所识别的LED照明规格,电子设备104使全色LED阵列的照明同步,以提供指示所确定的语音处理状态的视觉图案。在一些实施方式中,指示语音处理状态的视觉图案包括多个分立的LED照明像素。在一些实施方式中,视觉图案包括开始段、循环段和终止段。循环段持续与全色LED的LED照明持续时间相关的一段时间,并被配置为匹配语音处理状态的长度。

在一些实施方式中,电子设备104具有由LED设计语言表示的多于二十个不同的设备状态(包括多个预定义的语音处理状态)。可选的,所述多个预定义的语音处理状态包括热词检测状态、监听状态、思考状态和响应状态中的一个或多个。

如本文描述的,根据一些实施方式,语音激活电子设备104可以根据确定电子设备104的语音输入或操作满足一个或多个准则来显示非默认的替选视觉输出。在本应已经显示默认视觉输出时,可以代替默认视觉输出(例如,参照图7D描述的示例默认视觉输出颜色和/或图案/序列中的任何一个)来显示非默认的替选视觉输出。如本文中所描述的,在一些实施方式中,在满足替选视觉输出准则时,用于显示非默认视觉输出的信息或指令由远程系统(例如,服务器系统)提供和/或存储在电子设备104中。如本文所述,在一些实施方式中,可以在所接收的LED输出指令254(图2)中指定替选的视觉输出特性,并且可以在本地LED输出指令252(图2)中指定默认或预定义的视觉输出指令。

在语音激活电子设备104的一些实施方式中,可使用LED设计语言的一个或多个元素,采用类似于LED 704的灯来提供一个或多个主动通知状态的指示(例如,与根据图6描述的不同的主动通知操作相关联的状态)。例如,经由LED 704显示的不同类型的视觉输出可以指示设备104正在主动通知模式下操作,即将传递主动通知(例如,根据提供介绍性过渡通告)、执行主动通知、已经完成主动通知(例如,根据提供最终过渡通告)、退出主动通知模式、或者以后台主动通知模式进行操作(例如,没有接收到明确的用户请求)。这些各种主动通知状态还可以使用诸如移动电话、平板电脑、笔记本电脑、连接的电视或智能家庭控制面板的语音激活电子设备的显示屏来指示。

已经详细参考了实施方式进行说明,实施方式的示例在附图中示出。在上面的详细描述中,已经阐述了许多具体细节以便提供对所描述的各个实现的透彻理解。然而,对于本领域的普通技术人员而言显而易见的是,可以在没有这些具体细节的情况下实施各个所描述的实现。在其他实例中,未详细描述众所周知的方法、过程、组件、电路和网络,以免不必要地模糊实施方式的方面。

还将理解的是,尽管术语第一、第二等在一些情况下在本文中用于描述各个元件,然而这些元件不应受这些术语的限制。这些术语仅用于区分一个元素和另一个元素。例如,第一设备可以被称为第二设备,并且类似地,第二设备可以被称为第一设备,而不背离各个所描述的实施方式的范围。第一设备和第二设备都是二个类型的设备,但它们不是相同设备。

在此描述的各个所描述的实施方式中所使用的术语仅用于描述特定实施方式的目的,而不意图是限制性的。如在各个所描述的实施方式和所附权利要求的描述中所使用的,除非场境另外清楚地指出,否则单数形式“一”、“一个”和“该”旨在也包括复数形式。还应理解的是,本文所使用的术语“和/或”是指并且包含一个或多个相关所列项目的任何和所有可能的组合。应进一步理解的是,当在本说明书中使用时,术语“包括”、“包括了”,“包含”和/或“包含了”指明所述特征、整体、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合。

如本文所使用的,术语“如果”可选地根据场境被解释为意指“何时”或“在…时”或“响应于确定”或“响应于检测”或“根据确定…”。类似地,短语“如果确定”或“如果检测到[所陈述的状况或事件]”根据场境,被可选地解释为意指“在确定…时”或“响应于确定”或“在检测到[所陈述的状况或事件]”或“响应于检测到[所陈述的状况或事件]”或“根据确定[所述状况或事件]被检测到”。

对于上面讨论的系统收集关于用户的信息的情形,用户可以被提供机会来选择加入/退出可以收集个人信息的程序或特征(例如,关于用户的偏好或者使用的智能设备的信息)。另外,在一些实施方式中,某些数据在被存储或使用之前可以一种或多种方式匿名化,从而移除个人可识别信息。例如,用户的身份可以是匿名的,使得个人可识别信息无法被确定或与用户相关联,并且使得用户偏好或用户交互被泛化(例如,基于用户人口统计概括),而不是与特定用户相关联。

虽然各个附图中的一些示出了以特定顺序的多个逻辑阶段,然而不依赖顺序的阶段可以被重新排序,并且其他阶段可以被组合或者分解。虽然具体提到了一些重新排序或其他分组,然而其他分组对于本领域的普通技术人员而言将是显而易见的,因此在此呈现的排序和分组不是详尽的替选方案列表。而且,应该认识到,这些阶段可以用硬件、固件、软件或其任何组合来实现。

为了解释的目的,前面的描述已经参考具体实施方式进行了描述。然而,上面的说明性讨论并不是穷举性的或者将权利要求的范围限制为所公开的确切形式。鉴于上述教导,许多修改和变化是可能的。选择这些实施方式是为了最好地解释权利要求及其实际应用的基础的原理,从而使本领域的其他技术人员能够以适合于预期的特定用途的各个修改来最佳地使用这些实施方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1