用于将内容路由到相关联输出设备的系统和方法与流程

文档序号:17439983发布日期:2019-04-17 04:37阅读:191来源:国知局
用于将内容路由到相关联输出设备的系统和方法与流程

诸如语音激活电子设备的电子设备相对较新,但也变得越来越普遍。个人可以与他们的电子设备交互以执行各种基本功能,诸如拨打电话到流式传输内容。本文讨论对电子设备和与这些电子设备一起工作的后端机的改进。

附图说明

图1是根据各种实施方案的用于将内容路由到相关联输出电子设备的系统的例示图;

图2是根据各种实施方案的用于基于相关联输出电子设备的状态来路由内容的系统的例示图;

图3是根据各种实施方案的图1的系统的架构的例示图;

图4是根据各种实施方案的包括内容类型的类别的表的另一例示图;

图5是根据各种实施方案的解决对内容的不明确请求的实例的例示图;

图6是根据各种实施方案的用于使输出电子设备与语音激活电子设备相关联的系统的例示图;

图7是示出根据各种实施方案的两个示例性设备的链接的例示图;

图8是根据各种实施方案的将内容发送到相关联设备的过程的例示性流程图;

图9a是根据各种实施方案的用于基于内容的类型来路由内容的过程的例示性流程图;

图9b是根据各种实施方案的接续图9a中的过程的例示性流程图,其中基于内容将内容路由到相关联设备;

图9c是根据各种实施方案的接续图9a中的过程的例示性流程图,其中基于内容将内容路由到电子设备;

图10是根据各种实施方案的用于接收改变输出设备的请求的过程的例示性流程图;

图11a是根据各种实施方案的用于基于相关联设备的状态来路由内容的过程的例示性流程图;

图11b是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是就绪状态;

图11c是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是可用状态;并且

图11d是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是不可用状态。

具体实施方式

本公开(如以下所陈述)总体涉及与在一个设备处接收命令(诸如对内容的请求)以及通过另一设备输出所请求内容相关的方法和设备的各种实施方案。

在一些实施方案中,个人可以向所述语音激活电子设备说出话语,诸如对收听天气预报的请求。所述语音激活电子设备可以使用一个或多个传声器或换能器来捕获所说命令的音频信号,所述音频信号可以转换成表示所说话语的音频数据。所述语音激活电子设备可以将所述音频数据发送到后端系统。在一些实施方案中,所述语音激活电子设备可以与用户账户相关联,所述用户账户还与例如像电视和/或连接到电视的流媒体设备的输出电子设备相关联。所述用户帐户与所述语音激活电子设备和所述输出电子设备两者之间的关联可以存储在基于云的后端系统中。所述后端系统可以通过首先标识与所述语音激活电子设备相关联的设备标识符来标识此关联。然后,可以使用所述设备标识符来确定与所述设备标识符相关联的用户帐户。一旦所述基于云的后端系统标识与所述语音激活电子设备相关联的用户帐户,所述基于云的后端系统然后就可以标识与所标识用户帐户相关联的所有产品。在此实例中,所述基于云的后端系统可以标识也与所标识用户帐户相关联的电视。

一旦所述基于云的后端系统确定与所述语音激活电子设备相关联的产品或者在确定与所述语音激活电子设备相关联的产品时,所述基于云的后端系统然后就可以通过对表示所述话语的所述音频数据执行语音到文本(stt)功能性来将所述音频数据转换成文本数据。一旦所述音频数据转换成所述文本数据,所述基于云的后端系统然后就将通过对表示所述音频数据的所述文本数据执行自然语言理解(nlu)功能性来弄清楚所述话语的意图。nlu将弄清楚所述文本数据的意图和含义。例如,所述基于云的后端系统可以确定所说话语包括对在目标设备上收听天气预报的请求。然后,所述nlu可以确定所述目标设备是与所述用户帐户相关联的输出设备。一旦所述基于云的后端系统弄清楚所说话语所请求的内容,所述基于云的后端系统就将搜索适当的响应。例如,响应于对所述天气预报的请求,所述基于云的后端系统可以找到陈述所述天气预报的文本数据。另外,所述后端系统可以查明响应于所述话语的视觉信息是可用的。在一些实施方案中,一旦找到响应于所述话语的视觉信息,所述基于云的后端系统就可以确定所述目标设备能够显示所述视觉信息。此外,如果所述用户帐户与电视相关联,那么所述后端系统可以进一步确定:因为所述语音激活电子设备与所述电视相关联,所以所述响应应当包括两个响应。第一响应可以发送到所述语音激活电子设备。第二响应可以发送到所述电视。在一些实施方案中,所述第二响应可以包括音频的且视觉的。

在一些实施方案中,在所述基于云的后端系统决定所述响应将发送到所述语音激活电子系统和所述电视两者之后,所述基于云的后端系统可以接收用于所述语音激活电子设备的表示对所述话语的响应的文本数据。所述文本数据可以转换成对响应性文本数据执行文本到语音(tts)功能性的音频数据。在通过执行tts创建所述音频数据之后,可以将所述音频数据发送到所述语音激活电子设备。一旦由所述语音激活电子设备接收到,所述音频数据就可以由所述语音激活电子设备上的一个或多个扬声器播放。例如,所述语音激活电子设备可以陈述:“正在您的电视上显示西雅图的天气预报。”

所述基于云的后端系统还可以接收表示响应性视觉信息的视频数据。在将所述视频数据发送到所述电视之前,所述基于云的后端系统可以认识到应当生成第二音频数据以与所述视频数据一起发送到所述电视。然后,所述基于云的后端系统可以接收用于所述电视的表示对所述话语的响应的文本数据。与用于所述语音激活电子设备的响应于所述话语的文本数据一样,用于所述电视的文本数据可以转换成对用于所述电视的响应性文本数据执行tts功能性的音频数据。在通过执行tts创建所述音频数据之后,可以将所述音频数据和所述视频数据发送到所述电视。一旦由所述电视接收到,所述音频数据和所述视频数据就可以由所述电视播放。例如,所述电视可以陈述“这是西雅图的预报。”在一些实施方案中,所述后端系统还可以将所请求内容发送到所述输出电子设备。

在一些实施方案中,个人可以向所述语音激活电子设备陈述可能具有两种不同含义的话语。例如,个人可能会说“alexa,播放footloose(浑身是劲)。”在这种情况下,“播放footloose”可能有两种不同的含义。例如,播放可以是指除其他内容类型之外对应于电影和歌曲两者的动作。所述基于云的后端系统将通过对所说话语“alexa,播放footloose”的音频数据执行stt功能性来将所述音频数据转换成文本数据。一旦所述音频数据转换成所述文本数据,所述基于云的后端系统就将尝试通过对表示所述音频数据的所述文本数据应用nlu功能性来弄清楚所述话语的意图。nlu将试图弄清楚所述文本数据的意图。在一些实施方案中,所述nlu将从两个分离的域接收两个置信度分数。这些置信度分数中的每一个可能超过预定阈值。如果所述nlu接收到超过所述预定阈值的两个置信度分数,那么所述基于云的后端系统可以确定发送正确响应需要更多信息。

一旦确定需要更多信息,所述基于云的后端系统就可以接收表示意图问题的查询文本数据,所述意图问题询问所述话语是寻求来自第一域的响应还是来自第二域的响应。然后,所述基于云的后端系统可以通过对所述查询文本数据执行tts功能性来将所述查询文本数据转换成音频数据。在发送表示查询的音频数据之前,所述基于云的后端系统可以生成用于所述语音激活电子设备的接听指令。在一些实施方案中,所述接听指令可以指示所述语音激活电子设备在播放所述查询音频之后接听响应。在生成所述接听指令之后,所述基于云的后端系统可以将表示所述查询的所述音频数据发送到所述语音激活电子设备。所述语音激活电子设备可以在其一个或多个扬声器上播放所述音频数据。例如,所述语音激活电子设备可以播放“您想要播放电影footloose还是歌曲footloose?”然后,所述基于云的后端系统可以将所述接听指令发送到所述语音激活电子设备,从而指示所述语音激活电子设备接听对所述查询的响应并向所述基于云的后端系统发送表示对所述查询的响应的音频数据。在一些实施方案中,一旦所述语音激活电子设备已经播放所述查询,所述语音激活电子设备就可以向所述基于云的后端系统发送响应。此响应将由所述基于云的后端系统作为音频数据接收。所述音频数据将由stt转换成文本文件并由nlu分析。基于所分析的确认响应,所述基于云的后端系统将能够弄清楚原始话语的意图。

例如,如果响应是“电影”,那么所述基于云的后端系统可以查验与用户帐户相关联的、也与所述语音电子设备相关联的设备可以流式传输电影。如果所述设备可以流式传输电影,那么所述基于云的后端系统可以查验所述用户帐户是否能够访问电影。如果以查看用户帐户能够访问电影,那么所述基于云的后端系统将生成允许以查看设备流式传输电影的url。一旦生成所述url,所述基于云的后端系统就可以将所述url发送到所述设备,使得所述设备开始流式传输电影。

如果响应是“歌曲”,那么所述基于云的后端系统将确定要在所述语音激活电子设备上播放歌曲。然后,所述基于云的后端系统可以生成允许所述语音激活电子设备流式传输歌曲的url。一旦已经生成所述url,所述基于云的后端系统就可以将所生成url发送到所述语音激活电子设备,使得在所述语音激活电子设备的至少一个扬声器上播放歌曲。一旦歌曲开始在所述语音激活电子设备上播放,个人可能会向所述语音激活电子设备陈述另外的话语。此话语可能是对播放同一歌曲、但是是在电视上播放的请求。例如,个人可能已经陈述“在电视上播放歌曲footloose。”在所述基于云的后端系统对所接收音频执行stt功能性并且对表示所接收音频数据的文本数据执行nlu功能性之后,所述基于云的后端系统可以认识到个人想要在电视上播放同一歌曲。

在识别出所述话语是对在电视上播放同一歌曲的请求之后,所述基于云的后端系统可以生成用于所述语音激活的用户设备的停止指令。然后,所述基于云的后端系统将向所述语音激活电子设备发送停止播放歌曲的指令发送。然后,所生成指令可以被发送到所述语音激活电子设备,致使所述语音激活电子设备停止流式传输歌曲。在所述语音激活设备停止流式传输歌曲之后,所述基于云的后端系统将接收允许电视流式传输歌曲的另一url。然后,可以将歌曲的url发送到电视,以便当在所述语音激活电子设备上停止歌曲时开始播放。在一些实施方案中,可以由所述基于云的后端系统生成通知用户歌曲将在电视上播放的通知,然后将其发送到所述语音激活电子设备并由其播放。例如,所述语音激活电子设备播放“歌曲footloose将在您的电视上播放。”

在一些实施方案中,所述输出电子设备可以包括连接到外围输出设备的流媒体设备。所述流媒体设备还可以控制所述外围输出设备。例如,在一些实施方案中,所述外围输出电子设备可以是连接到所述流媒体设备的电视。所述外围输出设备可以并不直接连接到所述后端系统。换句话说,所述后端系统可能仅能够通过所述流媒体设备与所述外围输出设备通信或对其进行控制。在所述输出电子设备包括所述外围输出设备的实施方案中,所述输出后端系统向所述输出电子设备发送的输出内容的指令可以致使所述流媒体设备控制所述外围电子设备来输出所述内容。

在一些实施方案中,所述基于云的后端系统可以确定所述基于云的后端系统上存储有关联。此关联可以具有所存储的输入设备、输出设备和内容偏好。在一些实施方案中,一旦所述语音激活电子设备已经发送表示第一话语的音频数据,所述基于云的后端系统就可以认识到所述语音激活电子设备是所存储关联中的输入设备。在认识到这一点之后,所述基于云的后端系统可以注意查看所述输出设备是什么以及是否存在内容偏好。例如,所存储关联可以是语音激活电子设备与电视之间的关联。所存储内容偏好可以是歌曲。如果情况是这样,那么在一些实施方案中,来自语音激活用户设备的对歌曲的请求将致使所述基于云的后端系统将所请求歌曲发送到电视。

在一些实施方案中,所述基于云的后端系统可以基于所述输出电子设备的状态来确定是否应当输出所请求内容。例如,在所述输出电子设备是电视的实施方案中,对在电视上播放内容的请求可以取决于电视是处于不可用状态、可用状态还是就绪状态。为了确定电视处于什么状态,在一些实施方案中,所述基于云的后端系统可以向电视发送状态请求。如果电视未在预定量的时间内发回状态响应,那么可以认为电视是不可用的。如果电视在预定量的时间内发回状态响应,那么所述状态响应可以包括指示电视是处于就绪模式还是可用模式的数据。

在一些实施方案中,当电视关闭时,电视可能处于不可用状态。如果所述基于云的后端系统确定电视处于不可用状态,那么所述基于云的后端系统可以接收表示通知的文本。然后,所述基于云的后端系统可以通过执行tts功能性来生成表示所述通知文本的音频数据。然后,可以将所述音频数据发送到所述语音激活设备并由其进行播放。例如,所述语音激活设备可以播放“您的电视不可用。”一旦所述语音激活设备已经播放通知,所述基于云的后端系统就可以接收所请求内容。然后,可以将此所请求内容发送到所述语音激活电子设备,使得由所述语音激活电子设备播放所述内容。

响应于被通知电视处于不可用状态,个人可以打开电视,从而有效地使电视处于就绪状态。一旦处于就绪状态,所述基于云的后端系统就可以从电视接收通知所述基于云的后端系统电视处于就绪状态的状态更新。然后,所述基于云的后端系统可以接收表示提示的文本。然后,所述基于云的后端系统可以通过执行tts功能性来生成表示所述文本的音频数据。在发送所述提示之前,所述基于云的后端系统可以生成用于所述语音激活电子设备的接听指令。然后,可以将所述音频数据发送到所述语音激活设备并由其进行播放。例如,所述语音激活设备可以播放“您想要在电视上播放内容?”然后,所述基于云的后端系统可以向所述语音激活电子设备发送接听指令。所述接听指令可以致使所述语音激活电子设备接听响应并向所述基于云的后端系统发送表示所述响应的音频数据。

然后,所述基于云的后端系统可以接收对所述请求的响应,所述响应指示内容应当在电视上继续。然后,所述基于云的后端系统可以生成停止指令,以便停止在所述语音激活电子设备上播放内容。然后,所述基于云的后端系统可以将停止指令发送到所述语音激活电子设备以停止播放内容。在所述语音激活设备已经停止播放内容之后,所述基于云的后端系统可以再次接收内容。然后,可以将内容发送到电视,这样电视就可以播放内容。在一些实施方案中,可以由所述基于云的后端系统生成通知用户内容将在电视上播放的通知,然后将其发送到所述语音激活电子设备并由其播放。例如,所述语音激活电子设备播放“内容将在您的电视上播放。”

在一些实施方案中,当电视不执行其他任务并且准备好接收和播放内容时,电视可处于就绪状态。如果电视处于就绪状态,那么所述基于云的后端系统可以接收响应性文本数据和响应性视频数据。所述基于云的后端系统可以通过对所述文本数据执行tts功能性来生成音频数据。然后,可以将响应性音频数据和响应性视频数据发送到电视以进行播放。在一些实施方案中,可以由所述基于云的后端系统生成通知用户内容将在电视上播放的通知,然后将其发送到所述语音激活电子设备并由其播放。例如,所述语音激活电子设备播放“内容将在您的电视上继续。”

在一些实施方案中,当电视执行其他任务时,电视可处于可用状态。如果电视是可用状态,那么所述基于云的后端系统可以生成用于使电视将状态从可用更改为就绪的指令。一旦生成,所述基于云的后端系统就可以发送所述指令。一旦已经更改所述状态,电视就可以向所述基于云的后端系统发送状态已经从可用状态改变变成就绪状态的确认。一旦电视处于就绪状态,所述基于云的后端系统就可以接收响应性文本数据和响应性视频数据。所述基于云的后端系统可以通过对所述文本数据执行tts功能性来生成音频数据。然后,可以将响应性音频数据和响应性视频数据发送到电视以进行播放。在一些实施方案中,可以由所述基于云的后端系统生成通知用户内容将在电视上播放的通知,然后将其发送到所述语音激活电子设备并由其播放。例如,所述语音激活电子设备播放“内容将在您的电视上继续。”在一些实施方案中,可以由所述基于云的后端系统生成通知用户内容将在电视上播放的通知,然后将其发送到所述语音激活电子设备并由其播放。例如,所述语音激活电子设备播放“内容将在您的电视上继续。”

图1是根据各种实施方案的用于路由内容的系统的例示图。在一个示例性非限制性实施方案中,语音激活电子设备10可以与后端系统100通信,所述后端系统100进而可以与跟语音激活电子设备10相关联的输出电子设备300通信。个人2可以向语音激活电子设备10或者在语音激活电子设备10所位于的房间或空间体积中说出命令4。如本文所使用,命令4可以是指可以对语音激活电子设备10说出的任何问题、请求、评论和/或指令。例如,个人2可以询问“alexa,天气预报是怎样的?”

在一些实施方案中,所说语音命令以唤醒词开头,唤醒词也可以称为触发表达、唤醒表达或激活词。响应于检测到唤醒词的话语,语音激活电子设备10可以被配置来检测和解释跟随在所检测到的唤醒词之后的任何词作为可行动的输入或命令。在一些实施方案中,语音激活电子设备10可以通过语音激活电子设备10也可以被配置来检测的短语或一组词来激活。因此,语音激活电子设备也可能够检测和解释跟随在那个短语或一组词之后的任何词。

如本文所使用,术语“唤醒词”可以对应于“关键词”或“关键短语”、“一个激活词”或“多个激活词”、或者“触发器”、“触发词”或“触发表达”。一个示例性唤醒词可以是名字,诸如名字“alexa”,然而本领域普通技术人员将认识到,任何词(例如,“amazon”)或一系列词(例如,“wakeup(醒来)”或者“hello,alexa(你好,alexa)”)可以可替代地用作唤醒词。此外,唤醒词可以由操作语音激活电子设备10的个人来设置或设定,并且在一些实施方案中,可以有多于一个唤醒词(例如,两个或更多个不同的唤醒词)可供用于激活语音激活电子设备。在又一个实施方案中,用于激活语音激活电子设备10的触发器可以是任何一系列时间上相关的声音。

在一些实施方案中,触发表达可以是非言语声音。例如,门打开、报警器响起、玻璃破碎、电话铃声的声音或任何其他声音可以可替代地用于激活设备10。在此特定场景中,设备10(可替代地可以被描述为声音激活电子设备,可以基本上类似于语音激活电子设备10)对非言语声音的检测可以导致发生某种动作或响应。例如,如果检测到门打开的声音(也是声音激活设备的触发器),那么那个所检测到的触发器可以导致防盗报警器打开。

语音激活电子设备10可以使用驻留在其上的一个或多个传声器来检测所说命令4。在检测到命令4之后,语音激活电子设备10可以向后端系统100发送表示命令4的音频数据。语音激活电子设备10还可以向后端系统100发送一条或多条另外的相关联数据。可以包括在音频数据中的各种类型的相关联数据包括但不限于:语音激活电子设备10检测到命令4的时间和/或日期、语音激活电子设备10的位置(例如,gps位置)、与语音激活电子设备10相关联的ip地址、语音激活电子设备10的设备类型、或任何其他类型的相关联数据,或其任何组合。例如,当个人2说出命令4时,语音激活电子设备10可以获得设备10的gps位置以确定个体2所处的位置和作出命令4的时间/日期(例如,小时、分钟、秒、日、月、年等)。

音频数据和相关联数据可以通过网络(诸如互联网)使用任何数量的通信协议来传输到后端系统100。例如,传输控制协议和互联网协议(“tcp/ip”)(例如,每个tcp/ip层中所使用的协议中的任一个)、超文本传输协议(“http”)和无线应用协议(“wap”)是可以用于促进语音激活电子设备10与后端系统100之间的通信的各种类型的协议中的一些。在一些实施方案中,语音激活电子设备10和后端系统100可以通过web浏览器使用http与彼此通信。可以使用各种另外的通信协议来促进语音激活电子设备10与后端系统100之间的通信,所述通信协议包括但不限于:wi-fi(例如,802.11协议)、射频系统(例如,900mhz、1.4ghz以及5.6ghz的通信系统)、蜂窝网络(例如,gsm、amps、gprs、cdma、ev-do、edge、3gsm、dect、is-136/tdma、iden、lte、或任何其他合适的蜂窝网络协议)、红外线、bittorrent、ftp、rtp、rtsp、ssh和/或voip。

后端系统100可以包括一个或多个服务器,每个服务器与彼此、语音激活电子设备10和/或输出电子设备300通信。后端系统100和输出电子设备300可以使用任何上述通信协议与彼此通信。后端系统100内的每个服务器可以与能够存储、检索、处理、分析和/或生成要提供到语音激活电子设备10的数据的一个或多个数据库或处理器相关联。例如,后端系统100可以包括各自对应于一个类别的一个或多个服务器。作为一个实例,后端系统100可以包括“天气”类别服务器,其包括一个或多个天气信息(例如,预报、雷达图像、过敏信息等)数据库。作为另一个实例,后端系统100可以包括“体育”类别服务器,其包括具有各种体育或运动信息(例如,分数、团队、比赛等)的一个或多个数据库。作为又一个实例,后端系统100可以包括“交通”类别服务器,其包括具有各种地理区域的交通信息(例如,街道地图、交通警示、交通状况、方向信息等)的一个或多个数据库。在一些实施方案中,后端系统100可以对应于位于远程设施内的一系列服务器,并且个人可以使用一个或多个上述通信协议来将数据存储在后端系统100上和/或与后端系统100通信。

在一些实施方案中,后端系统100可以包括能够存储使语音激活电子设备10与输出电子设备300相关联的数据结构102的一个或多个服务器。数据结构102可以是例如能够存储指示语音激活电子设备10与输出电子设备300之间的关联的信息的文件、数据库条目或其他类型的数据结构。数据结构102可以包括例如用于语音激活电子设备10和输出电子设备300的设备标识信息。数据结构102还可以包括关于语音激活电子设备10和/或输出电子设备300的另外的信息。在一些实施方案中,数据结构102可以包括输出电子设备300的类型(例如,电视、流媒体设备、扬声器系统等)。数据结构102还可以包括关于输出电子设备300的状态(例如,就绪、可用、不可用)的信息。后端系统100可以根据数据结构102确定语音激活电子设备10是否与输出电子设备300相关联。

输出电子设备300可以是能够输出视觉和/或听觉内容的任何类型的一个或多个电子设备。在一些实施方案中,输出电子设备300可以包括流媒体设备302和连接到流媒体设备302的外围视频输出设备304(例如,电视或监视器)。视频输出设备可以是能够接收和输出内容的任何设备。流媒体设备302可以能够从后端系统100或其他信息源接收内容,并根据与视频输出设备304兼容的协议将这类内容提供到视频输出设备304。在一些实施方案中,流媒体设备302可以根据高清晰度多媒体接口(hdmi)协议将内容提供到视频输出设备304。流媒体设备302还能够与视频输出设备304通信并对其进行控制。例如,流媒体设备302可以能够与视频输出设备304通信以确定视频输出设备304是否是打开的。流媒体设备302还能够与视频输出设备304通信以确定视频输出设备304是否被设置为与流媒体设备302相关联的输入源。流媒体设备302还可以控制视频输出设备304来执行诸如打开或关闭、切换到所选择输入源、调整视频输出设备304的音量、或控制视频输出设备304的其他功能的功能。在一些实施方案中,流媒体设备302可以使用消费电子控制(cec)协议与视频输出设备304通信并对其进行控制。cec协议是允许一个设备通过hdmi协议控制与其连接的另一个设备的hdmi功能。本领域技术人员将理解,流媒体设备302也可以使用其他协议与视频输出设备304通信并对其进行控制。在一些实施方案中,输出电子设备可以是并入流媒体设备302(例如,智能电视)的功能性的视频输出设备。另外,在一些实施方案中,输出电子设备300可以是音频输出设备,诸如扬声器或扬声器系统(例如,基本单元和连接到基本单元的数个外围扬声器)。

返回参考后端系统100,一旦后端系统100从语音激活电子设备10接收到音频数据,后端系统100就可以通过例如对音频数据执行stt功能性来分析音频数据以确定所说命令4中包括哪些词。然后,后端系统100可以执行nlu功能性,以便确定所说命令4的意图或含义。后端系统100可以进一步确定对所说命令4的响应。在一些实施方案中,后端系统100可以确定语音激活电子设备10与输出电子设备300相关联,并且还可以确定对所说命令4的响应应当包括通过输出电子设备300输出内容。另外,后端系统100可以确定响应应当包括通过语音激活电子设备10输出通知以通知个人2将通过输出电子设备300输出内容。后端系统100还可以确定响应应当包括通过输出电子设备300输出通知以通知个人将通过输出电子设备300输出内容。以下在图3中更详细地描述后端系统。

例如,在一些实施方案中,对所说命令4的响应可以包括内容,例如像天气预报。后端系统100可以首先通过查找存储在数据结构102中的语音激活电子设备10与输出电子设备300之间的关联来确定输出电子设备300与语音激活电子设备10相关联。然后,后端系统100可以确定应当通过输出电子设备300输出内容。在一些实施方案中,确定输出电子设备300与语音激活电子设备10相关联足以确定应当通过输出电子设备300输出内容。然而,在一些实施方案中,后端系统100可以在确定是否应当通过输出电子设备300输出内容时将另外的信息(诸如,输出电子设备300的状态、内容类型、用户偏好、或其他另外的信息)考虑在内,如将更详细地描述。在确定应当通过输出电子设备300输出内容时,后端系统100可以使用文本到语音(tts)处理来生成第一响应性音频数据。第一响应性音频数据可以表示第一音频消息12,其通知个体2将由输出电子设备300输出内容。后端系统100可以将第一响应性音频数据发送到语音激活电子设备10。在一些实施方案中,后端系统100还可以将表示在被接收时致使第一音频消息12在语音激活电子设备10上播放的指令的数据发送到语音激活电子设备10。例如,在接收到第一音频数据和任何相关联指令之后,诸如“在您的电视上显示天气预报”的第一音频消息12可以在语音激活电子设备10上播放。第一音频消息12还可以并入标识输出电子设备300的信息(例如,“您的tv”、“您的扬声器系统”等)。

后端系统100还可以使用tts处理生成第二响应性音频数据。第二响应性音频数据可以表示第二音频消息14,其通知个体2将由输出电子设备300输出内容。在将第一响应性数据发送到语音激活电子设备10之后,后端系统100可以将第二音频数据发送到输出电子设备300。在一些实施方案中,后端系统100还可以将表示在被接收时致使第二音频消息14在输出电子设备300上播放的指令的数据发送到输出电子设备300。例如,在接收到第二音频数据和任何相关联指令之后,诸如“这里是天气预报”的第二音频消息14可以在输出电子设备300上播放。在语音激活电子设备10上播放音频消息12、然后随后在输出电子设备300上播放音频消息14,通过向个人2通知内容将在哪里输出并且允许个人2标识内容将在那里输出的输出电子设备300,来为个体2提供增强的体验。

在一些实施方案中,在将第一响应性音频数据发送到语音激活电子设备10并且将第二响应性音频数据发送到输出电子设备300之后,后端系统100可以向输出电子设备300发送致使输出电子设备300输出响应于所说命令4的内容的指令。后端系统100还可以将响应于所说命令4的内容发送到输出电子设备300。例如,在一些实施方案中,后端系统100可以确定对所说命令4的响应应当包括诸如天气预报的内容。后端系统100可以从一个或多个类别服务器(例如,“天气”类别服务器)检索内容(例如,天气预报),并将内容连同用于输出内容的指令一起发送到输出电子设备300。在接收到内容和指令时,输出电子设备300可以输出内容(例如,显示天气预报)。尽管已经将天气预报描述为与所公开概念的实施方案相关联的一种内容类型,但是本领域普通技术人员将理解,内容可以包括各种类型的视觉和/或听觉内容(例如,电影、图片、有声读物、音乐等)。

在一些实施方案中,后端系统100可以向输出电子设备300发送致使输出电子设备300输出内容的指令,并且输出电子设备300可以从除后端系统100之外的源获得内容。在一些实施方案中,内容可能已经存储在输出电子设备300上,因此后端系统100不需要将内容发送到输出电子设备300。而且,在一些实施方案中,输出电子设备300可以能够从除后端系统100之外的基于云的系统检索内容。例如,输出电子设备300可以连接到除后端系统100之外的视频或音频流服务。后端系统100可以发送致使输出电子设备300从诸如视频或音频流服务的基于云的系统检索所选择内容并输出所选择内容的输出电子设备300指令。例如,后端系统100可以确定命令4包括对播放特定节目的请求。后端系统100可以确定来自视频流服务的内容可供用于播放。例如,与语音激活电子设备10相关联的用户帐户可以包括指示个人2订阅视频流服务的信息。后端系统100可以进一步通过与视频流服务通信或者咨询其他信息源(诸如标识哪些内容可通过视频流服务获得的数据库)来确定所请求节目可通过视频流服务获得。最后,后端系统100可以向输出电子设备300发送致使输出电子设备300向视频流服务请求节目并开始播放所请求节目的指令。

参考图2,示出了根据各种实施方案的用于基于输出电子设备300的状态来路由内容的例示图。在一些实施方案中,当确定对所说命令4的响应是否应当包括通过输出电子设备300输出内容时,后端系统100可以考虑输出电子设备300的状态。例如,输出电子设备300可以具有就绪状态、可用状态和不可用状态。在就绪状态下,输出电子设备300可以准备好输出内容。例如,在一些实施方案中,在就绪状态下,流媒体设备302是打开的,并且外围视频输出设备是打开的并被设置到与流媒体设备302相关联的输入源。在可用状态下,输出电子设备300可以是可供用于输出内容的,但是可能需要采取另外的步骤以使输出电子设备300准备好输出内容。例如,在一些实施方案中,当流媒体设备302通电、但是外围视频输出设备304断电或未被设置到与流媒体设备302相关联的输入源时,输出电子设备300可以处于可用状态。在输出电子设备300准备好输出内容之前,流媒体设备302可能需要控制视频输出设备304通电或将其输入端切换到与流媒体设备302相关联的输入源。在不可用状态下,输出电子设备300不可用于输出内容。例如,在一些实施方案中,当流媒体设备302断电时,输出电子设备300可以处于不可用状态。而且,在一些实施方案中,当外围视频输出设备304与流媒体设备304断开连接时,输出电子设备300可以处于不可用状态。

在一些实施方案中,后端系统100可以确定输出电子设备300的状态。例如,后端系统100通过请求输出电子设备300的状态的查询与输出电子设备300进行通信。输出电子设备300可以确定其状态并且可以用指示其状态的信息进行响应。例如,流媒体设备302可以接收来自后端系统100的查询,然后可以与外围视频输出设备304进行通信,以便确定外围视频输出设备304是否是连接、通电并被设置到与流媒体设备302相关联的输入源。流媒体设备302可以使用cec协议与外围视频输出设备304通信,并且确定外围视频输出设备304是否是连接、通电并被设置到与流媒体设备302相关联的输入源。例如,如果流媒体设备302确定外围视频输出设备304连接、通电并被设置到与流媒体设备302相关联的输入源,那么流媒体设备302可以确定输出电子设备(例如,流媒体设备302和外围视频输出设备304)处于就绪状态。流媒体设备302可以将指示输出电子设备300的状态的信息传送到后端系统100,并且后端系统100可以存储所述信息。在一些实施方案中,后端系统100可以基于输出电子设备300未能对来自后端系统100的查询作出响应来确定输出电子设备300不可用。在一些实施方案中,后端系统100可以将指示输出电子设备300的所确定状态的信息存储在例如数据结构102中。

基于输出电子设备300的所确定状态,后端系统100可以确定要将所请求内容路由到哪里。例如,在一些实施方案中,后端系统100可以确定所说命令4包括对在输出电子设备300处于就绪状态的情况下应当由输出电子设备300输出的内容的请求。然而,如果输出电子设备300未处于就绪状态(例如,输出电子设备处于可用或不可用状态),那么后端系统100可以将所请求内容发送到语音激活电子设备10。例如,如果所请求内容是天气预报,那么后端系统100可以从一个或多个类别服务器(例如,“天气”类别服务器)检索内容(例如,天气预报)。后端系统100可以使用文本到语音(tts)处理生成响应性音频数据,并且响应性音频数据可以表示并入内容的音频消息12。后端系统100可以将响应性音频数据连同表示在被接收时致使音频消息12在语音激活电子设备10上播放的指令的数据一起发送到语音激活电子设备10。例如,在接收到返回文件8之后,诸如“明天的天气预报是晴天和七十度”的音频消息12可以在语音激活电子设备10上播放。另一方面,如果后端系统100确定输出电子设备300处于就绪状态,那么后端系统100可以继续发送表示音频消息12的第一响应性音频数据,所述音频消息12通知个人2将由输出电子设备300输出内容。后端系统100可以随后将通知个人2将由输出电子设备300输出内容的第二响应性音频数据发送到输出电子设备300,然后将用于输出内容的指令发送到输出电子设备300。

图3是根据各种实施方案的图1的系统的架构的例示图。在一些实施方案中,语音激活电子设备10可以对应于能够响应于检测到特定声音而被激活的任何类型的电子设备。在一些实施方案中,语音激活电子设备10可以在检测到特定声音(例如,唤醒词或触发器)之后,识别所捕获音频内的命令(例如,音频命令、输入),并且可以响应于所接收命令而执行一个或多个动作。各种类型的电子设备可以包括但不限于:台式计算机、移动计算机(例如,膝上型电脑、超极本)、移动电话、智能电话、平板电脑、电视、机顶盒、智能电视、手表、手镯、显示屏、个人数字助理(“pda”)、智能家具、智能家居设备、智能车辆、智能交通设备和/或智能配件。在一些实施方案中,语音激活电子设备10在结构上可以是相对简单的或基础的,使得可以不提供一个或多个机械输入选项(例如,键盘、鼠标、触控板)或一个或多个触摸输入装置(例如,触摸屏、按钮)。例如,语音激活电子设备10可以能够接收和输出音频,并且可以包括电源、处理能力、存储装置/存储器能力、以及通信能力。

语音激活电子设备10可以包括极小数量的输入机构,诸如通电/断电开关,但是在一个实施方案中,语音激活电子设备10的主要功能性可以仅仅是通过音频输入和音频输出进行。例如,语音激活电子设备10可以通过连续监视本地音频来接听唤醒词(例如,“alexa”或“amazon”)。响应于检测到唤醒词,语音激活电子设备10可以建立与后端系统100的连接、将音频数据发送到后端系统100、以及等待/接收来自后端系统100的响应。然而,在一些实施方案中,非语音激活电子设备也可以与后端系统100通信(例如,按压通话或点击通话设备)。例如,在一个实施方案中,电子设备10对应于手动激活电子设备,并且前述描述可以同样适用于非语音激活电子设备。

语音激活电子设备10可以包括一个或多个处理器202、存储装置/存储器204、通信电路206、一个或多个传声器208或其他音频输入设备(例如,换能器)、一个或多个扬声器210或其他音频输出设备,以及任选的输入/输出(“i/o”)接口212。然而,可以在语音激活电子设备10内包括一个或多个另外的部件,和/或可以省略一个或多个部件。例如,语音激活电子设备10可以包括电源供应器或总线连接器。作为另一个实例,语音激活电子设备10可以不包括i/o接口。此外,虽然可以在语音激活电子设备10内包括一个或多个部件的多个实例,但是为了简单起见,每个部件仅示出一个。

一个或多个处理器202可以包括能够控制语音激活电子设备10的操作和功能性以及促进语音激活电子设备10内的各种部件之间的通信的任何合适的处理电路。在一些实施方案中,一个或多个处理器202可以包括中央处理单元(“cpu”)、图形处理单元(“gpu”)、一个或多个微处理器、数字信号处理器、或任何其他类型的处理器,或其任何组合。在一些实施方案中,一个或多个处理器202的功能性可以由一个或多个硬件逻辑部件执行,所述一个或多个硬件逻辑部件包括但不限于:现场可编程门阵列(“fpga”)、专用集成电路(“asic”)、专用标准产品(“assp”)、系统级芯片系统(“soc”)、和/或复杂可编程逻辑器件(“cpld”)。此外,每个处理器202可以包括其自己的本地存储器,所述本地存储器可以存储程序模块、程序数据、和/或一个或多个操作系统。然而,一个或多个处理器202可以运行用于语音激活电子设备10的操作系统(“os”)、和/或一个或多个固件应用程序、媒体应用程序、和/或驻留在其上的应用程序。

存储装置/存储器204可以包括用于将数据存储在语音激活电子设备10上的一种或多种类型的存储介质,诸如以任何合适的方式实现的任何易失性或非易失性存储器或任何可移动或不可移动存储器。例如,可以使用计算机可读指令、数据结构和/或程序模块来存储信息。各种类型的存储装置/存储器可包括但不限于:硬盘驱动器、固态驱动器、闪速存储器、永久性存储器(例如,rom)、电可擦除可编程只读存储器(“eeprom”)、cd-rom、数字通用光盘(“dvd”)或其他光学存储介质、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、raid存储系统、或任何其他存储类型,或其任何组合。此外,存储装置/存储器204可以被实现为计算机可读存储介质(“crsm”),其可以是可由一个或多个处理器202访问以执行存储在存储装置/存储器204内的一个或多个指令的任何可用物理介质。在一些实施方案中,一个或多个应用程序(例如,游戏、音乐、视频、日历、列表等)可以由一个或多个处理器202运行,并且可以存储在存储器204中。

在一些实施方案中,存储装置/存储器204可以包括一个或多个模块和/或数据库,诸如语音识别模块214、唤醒词列表数据库216和唤醒词检测模块218。语音识别模块214可以例如包括识别所检测到的音频中的人类语音的自动语音识别(“asr”)部件。语音识别模块214还可以包括基于所检测到的音频确定用户意图的自然语言理解(“nlu”)部件。语音识别模块214内还包括能够将文本转换成语音以便由一个或多个扬声器210输出的文本到语音(“tts”)部件,和/或能够将所接收音频信号转换成文本以便发送到后端系统100以用于处理的语音到文本(“stt”)部件。

唤醒词列表数据库216可以是本地存储在语音激活电子设备10上的数据库,所述数据库包括用于语音激活电子设备10的当前唤醒词列表,以及用于语音激活电子设备10的一个或多个先前使用的或替代性的唤醒词。在一些实施方案中,个人2可以设置或设定用于语音激活电子设备10的唤醒词。唤醒词可以直接在语音激活电子设备10上设定,或者一个或多个唤醒词可以由个人通过与后端系统100通信的后端系统应用程序来设置。例如,个人2可以使用他们的具有在其上运行的后端系统应用程序的移动设备来设置唤醒词。然后可以将特定唤醒词从移动设备传送到后端系统100,后端系统100进而可以将个人对唤醒词的选择发送/通知给语音激活电子设备10。然后可以将所选择激活存储在存储装置/存储器204的数据库216中。

唤醒词检测模块218可以包括表达检测器,其分析由一个或多个传声器208产生的音频信号以检测唤醒词,所述唤醒词总体上可以是预限定的词、短语、或任何其他声音,或任何一系列在时间上相关的声音。作为一个实例,这种表达检测器可以使用关键词检出技术来实现。关键词检出器可以是评估音频信号以检测由一个或多个传声器208检测到的音频信号内的预限定的词或表达的存在的功能部件或算法。关键词检出器不是产生语音的词的转录本,而是生成指示音频信号中是否表示出预限定的词或表达的真/假输出(例如,逻辑1/0)。在一些实施方案中,表达检测器可以被配置来分析音频信号以产生指示由一个或多个传声器208检测到的音频信号内表示出唤醒词的可能性的分数。然后,表达检测器可以将那个分数与阈值进行比较,以确定唤醒词是否将被断言为已被说出。

在一些实施方案中,关键词检出器可以使用简化的asr技术。例如,表达检测器可以使用隐马尔可夫模型(“hmm”)识别器,其执行音频信号的声学建模,并将音频信号的hmm模型与已经通过针对特定触发器表达进行训练所创建的一个或多个参考hmm模型进行比较。hmm模型将词表示为一系列状态。总体上,通过将音频信号的hmm模型与触发表达的hmm模型进行比较来分析所述音频信号的一部分,从而产生表示音频信号模型与触发表达模型的相似性的特征分数。

在实践中,hmm识别器可以产生对应于hmm模型的不同特征的多个特征分数。表达检测器可以使用支持向量机(“svm”)分类器,其接收由hmm识别器产生的一个或多个特征分数。svm分类器产生指示音频信号包含触发表达的可能性的置信度分数。将置信度分数与置信度阈值进行比较,以做出关于音频信号的特定部分是否表示触发表达(例如,唤醒词)的话语的最终决定。在断言音频信号表示触发表达的话语时,语音激活电子设备10然后可以开始将音频信号传输到后端系统100,以用于对由个人2作出的随后话语进行检测和分析。

通信电路206可以包括允许语音激活电子设备10或使其能够与一个或多个设备、服务器和/或系统通信的任何电路。例如,通信电路206可以促进语音激活电子设备10与后端系统100之间的通信。通信电路206可以使用任何通信协议,诸如任何先前提到的示例性通信协议。在一些实施方案中,语音激活电子设备10可以包括天线,以促进使用各种无线技术(例如,wi-fi、射频等)与网络进行的无线通信。在又一个实施方案中,语音激活电子设备10可以包括一个或多个通用串行总线(“usb”)端口、一个或多个以太网或宽带端口、和/或任何其他类型的硬线接入端口,使得通信电路206允许语音激活电子设备10与一个或多个通信网络通信。

语音激活电子设备10还可以包括一个或多个传声器208和/或换能器。一个或多个传声器208可以是能够检测音频信号的任何合适的部件。例如,一个或多个传声器208可包括用于生成电信号的一个或多个传感器以及能够处理所生成电信号的电路。在一些实施方案中,一个或多个传声器208可以包括能够检测各种频率水平的多个传声器。作为说明性实例,语音激活电子设备10可以包括关于语音激活电子设备10放置在各种位置处的多个传声器(例如,四个、七个、十个等),以监视/捕获在语音激活电子设备10所位于的环境中输出的任何音频。各种传声器208可以包括针对远距离声音优化的一些传声器,而一些传声器可以针对出现在语音激活电子设备10的近距离范围内的声音进行优化。

语音激活电子设备10还可以包括一个或多个扬声器210。一个或多个扬声器210可以对应于用于输出音频信号的任何合适的机构。例如,一个或多个扬声器210可以包括能够将音频信号和或音频内容广播到语音激活电子设备10可以位于的周围区域的一个或多个扬声器单元、换能器、扬声器阵列、和/或换能器阵列。在一些实施方案中,一个或多个扬声器210可以包括可以无线连接或硬连线到语音激活电子设备10的耳机或耳塞,所述耳机或耳塞可以能够直接向个体2广播音频。

在一些实施方案中,语音激活电子设备10可以硬连线或无线连接到一个或多个扬声器210。例如,语音激活电子设备10可以致使一个或多个扬声器210在其上输出音频。在此特定场景中,语音激活电子设备10可以接收要由扬声器210输出的音频,并且语音激活电子设备10可以使用一个或多个通信协议将音频发送到扬声器210。例如,语音激活电子设备10和一个或多个扬声器210可以使用连接或另一种近场通信协议来与彼此通信。在一些实施方案中,语音激活电子设备10可以与一个或多个扬声器210间接地通信。

在一些实施方案中,一个或多个传声器208可以用作用于接收音频输入(诸如来自个体2的语音)的输入设备。在先前提到的实施方案中,语音激活电子设备10然后还可以包括用于输出听觉响应的一个或多个扬声器210。以这种方式,语音激活电子设备10可以仅通过语音或音频起作用,而无需使用或不需要任何输入机构或显示器。

在一个示例性实施方案中,语音激活电子设备10包括i/o接口212。i/o接口212的输入部分可以对应于用于接收来自语音激活电子设备10的用户的输入的任何合适的机构。例如,相机、键盘、鼠标、操纵杆或外部控制器可以用作i/o接口212的输入机构。i/o接口212的输出部分可以对应于用于从语音激活电子设备10生成输出的任何合适的机构。例如,一个或多个显示器可以用作i/o接口212的输出机构。作为另一个实例,一个或多个灯、发光二极管(“led”)、或一个或多个其他视觉指示器可以用于通过语音激活电子设备10的i/o接口212输出信号。在一些实施方案中,i/o接口212内可以包括一个或多个振动机构或其他触觉特征,以从语音激活电子设备10向个体2提供触觉响应。本领域普通技术人员将认识到,在一些实施方案中,i/o接口212的一个或多个特征可以包括在纯语音激活版本的语音激活电子设备10中。例如,一个或多个led灯可以包括在语音激活电子设备10上,使得当一个或多个传声器208接收到来自个体2的音频时,一个或多个led灯变亮,从而表明语音激活电子设备10已经接收到音频。在一些实施方案中,i/o接口212可以包括可以具有任何尺寸和/或形状并且可以位于语音激活电子设备10的任何部分处的显示屏和/或触摸屏。各种类型的显示器可以包括但不限于:液晶显示器(“lcd”)、单色显示器、彩色图形适配器(“cga”)显示器、增强型图形适配器(“ega”)显示器、可变图形阵列(“vga”)显示器、或任何其他类型的显示器,或其任何组合。更进一步地,在一些实施方案中,触摸屏可以对应于包括能够识别其上的触摸输入的电容式感测面板的显示屏。

如先前所提到的,在一些实施方案中,后端系统100可以与语音激活电子设备10通信。后端系统100包括各种部件和模块,其包括但不限于:自动语音识别(“asr”)模块258、自然语言理解(“nlu”)模块260、技能模块262、文本到语音(“tts”)模块264以及用户账户模块268。语音到文本(“stt”)模块266可以包括在asr模块258中。在一些实施方案中,后端系统100还可以包括计算机可读介质,其包括但不限于:闪速存储器、随机存取存储器(“ram”)、和/或只读存储器(“rom”)。后端系统100还可以包括存储用于后端系统100的软件、硬件、逻辑、指令和/或命令的各种模块,诸如说话者标识(“id”)模块、用户简档模块、或任何其他模块,或其任何组合。

后端系统100还可以包括内容路由模块270。在一个实施方案中,内容路由模块270可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。在一些实施方案中,一个或多个处理器252、存储装置/存储器254以及通信电路256可以基本上类似于上文更详细描述的一个或多个处理器202、存储装置/存储器204以及通信电路206,并且上述对后者的描述可以适用。数据结构102可以存储在内容路由模块270内。内容路由模块270可以被配置成使得其确定内容应当由语音激活电子设备10输出还是由输出电子设备300输出。内容路由模块270还可以存储用于促进确定内容应当由语音激活电子设备10输出还是由输出电子设备300输出的程序和/或指令。

asr模块258可以被配置成使得其识别所检测到的音频(诸如由语音激活电子设备10捕获的音频)中的人类语音。在一个实施方案中,asr模块258可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。在一些实施方案中,一个或多个处理器252、存储装置/存储器254以及通信电路256可以基本上类似于上文更详细描述的一个或多个处理器202、存储装置/存储器204以及通信电路206,并且上述对后者的描述可以适用。nlu模块260可以被配置成使得其基于从语音激活电子设备10接收的所检测到的音频来确定用户意图。nlu模块260可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。在一些实施方案中,asr模块258可以包括stt模块266。stt模块266可以采用各种语音到文本技术。然而,用于将语音转录成文本的技术在本领域中是公知的并且不需要在本文进行进一步详细描述,并且任何合适的计算机实现的语音到文本技术(诸如可从autonomy公司获得的语音处理技术,这个公司的总部位于英国英格兰的剑桥)都可以用于将一个或多个所接收音频信号转换成文本。

技能模块262可以例如对应于能够处理各种任务特定的动作的各种动作特定的技能或服务器。技能模块262还可以对应于可操作以执行不同任务或动作的第一方应用程序和/或第三方应用程序。例如,基于从语音激活电子设备10接收的音频的上下文,后端系统100可以使用某个应用程序或技能来检索或生成响应,所述响应进而可以被传送回语音激活电子设备10。技能模块262可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。作为说明性实例,技能262可以对应于用于存储和处理与不同游戏(例如,“simonsays(西蒙说)”、“karaoke(卡拉ok)”等)相关的信息的一个或多个游戏服务器。作为另一个实例,技能262可以包括用于存储天气信息和/或向语音激活电子设备10提供天气信息的一个或多个天气服务器。

tts模块264可以采用各种文本到语音技术。用于将语音转录成文本的技术在本领域中是公知的并且不需要在本文进行进一步详细描述,任何合适的计算机实现的语音到文本技术(诸如可从autonomy公司获得的语音处理技术,这个公司的总部位于英国英格兰的剑桥)都可以用于将一个或多个所接收音频信号转换成文本。tts模块264也可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。在一些实施方案中,可以将一个或多个滤波器应用于所接收音频数据以减小或最小化外来噪声。

用户帐户模块268可以存储对应于在后端系统100上具有注册帐户的用户的一个或多个用户简档。例如,父母可以在后端系统100上具有注册帐户,并且父母的每个孩子可以在父母的注册帐户下注册他们自己的用户简档。针对每个用户简档的信息(例如,设置和/或偏好)可以存储在用户简档数据库内。在一些实施方案中,用户账户模块268可以存储特定用户简档的语音信号,诸如语音生物识别信息。这可以允许使用说话者识别技术来将语音匹配到与特定用户简档相关联的语音与语音生物识别数据。在一些实施方案中,用户账户模块268可以存储分配给特定用户简档的电话号码。用户账户模块268还可以包括一个或多个处理器252、存储装置/存储器254以及通信电路256。

本领域普通技术人员将认识到,尽管asr模块258、nlu模块260、技能模块262、tts模块264和用户账户模块268中的每一者包括一个或多个处理器252、存储装置/存储器254以及通信电路256的实例,但是asr模块258、nlu模块260、技能模块262、tts模块264和用户账户模块268中的每一者内的一个或多个处理器252、存储装置/存储器254以及通信电路256的那些实例可以不同。例如,asr模块258内的一个或多个处理器252的结构、功能和样式可以基本上类似于nlu模块260内的一个或多个处理器252的结构、功能和样式,但是实际的一个或多个处理器252不必是同一实体。

如先前所提到的,在一些实施方案中,后端系统100还可以与输出电子设备300通信。在一些实施方案中,输出电子设备300可以包括流媒体设备302和连接到流媒体设备302的外围视频输出设备304。流媒体设备302可以包括一个或多个处理器306、存储装置/存储器308以及通信电路310。如先前所提到的,流媒体设备302可以与外围视频输出设备304通信。另外,流媒体设备302可以与诸如音频或视频流服务的基于云的系统通信。各种类型的输出电子设备包括但不限于:电视、便携式媒体播放器、蜂窝电话或智能电话、袖珍个人计算机、个人数字助理(“pda”)、台式计算机、膝上型计算机、平板计算机、和/或电子配件设备(诸如智能手表和手镯)。

外围视频输出设备304可以包括一个或多个处理器306、存储装置/存储器308、通信电路310、显示器312以及扬声器314。显示器312可以是可以具有任何尺寸和/或形状并且可以位于语音激活电子设备10的任何部分处的显示屏和/或触摸屏。各种类型的显示器可以包括但不限于:液晶显示器(“lcd”)、单色显示器、彩色图形适配器(“cga”)显示器、增强型图形适配器(“ega”)显示器、可变图形阵列(“vga”)显示器、或任何其他类型的显示器,或其任何组合。

本领域普通技术人员将理解,在一些实施方案中,流媒体设备302和外围视频输出设备304可以是分离的设备,或者在一些实施方案中,可以组合到单个设备中。例如,在不脱离所公开概念的范围的情况下,流媒体设备302的功能性可以集成到视频输出设备304中。流媒体设备可以是能够与后端系统100通信的任何设备。各种类型的流媒体设备包括但不限于:防火电视棒(firetvstick)、具有语音遥控的消防电视棒、电视、便携式媒体播放器、蜂窝电话或智能电话、袖珍个人计算机、个人数字助理(“pda”)、台式计算机、膝上型计算机、平板计算机、和/或电子配件设备(诸如智能手表和手镯)。本领域普通技术人员还将理解,流媒体设备302和外围视频输出设备304是输出电子设备300的一个实例。输出电子设备300可以是能够输出听觉或视觉内容的任何类型的电子设备或设备组合。例如,在一些实施方案中,输出电子设备300可以包括流媒体设备302和一个或多个连接的外围音频设备(诸如扬声器)。

图4示出根据所公开概念的实施方案的不同内容类别的表400。后端系统100可以在确定要将内容发送到哪里时进一步将所请求内容的类型考虑在内。例如,表400示出划分到指示后端系统100应当将内容路由到哪里的不同类别中的不同内容类型。表400可以包括对应于应当仅由输出电子设备300输出的内容的类型的第一类别402。在图4所示的实例中,第一类别402包括视频和图片。在一些实施方案中,后端系统100可以确定所说命令4包括对来自第一类别402的内容的请求,并且后端系统100可以将所请求内容发送到输出电子设备300。另外,在一些实施方案中,后端系统可以借助于例如通过对输出电子设备300的状态的请求查询输出电子设备300来确定其状态。在一些实施方案中,如果后端系统100确定输出电子设备300处于可用状态而不是就绪状态,那么后端系统100可以首先向输出电子设备300发送致使输出电子设备300从可用状态改变到就绪状态的指令(例如,指令可以致使流媒体设备302使用cec协议下的命令来打开外围视频输出设备304并将外围视频输出设备304设置到与流媒体设备302相关联的输入源),并且随后向输出电子设备300发送致使输出电子设备300输出内容的指令。

在一些实施方案中,后端系统100可以确定输出电子设备300的状态是不可用的(例如,流媒体设备302是断电的或者以其他方式不对请求其状态的查询作出响应,或者外围视频输出设备304未连接到流媒体设备304)。如果后端系统100确定其输出电子设备300不可用,那么后端系统100可以生成表示用于通知个人2无法播放内容的音频消息(例如,“由于相关联电视未连接,无法播放内容”)的响应性文本数据,并且可以发送音频数据以便由语音激活电子设备10输出。

表400还可以包括第二类别404,其可以包括可以根据输出电子设备300是否处于就绪状态而由输出电子设备300或语音激活电子设备10输出的内容的类型。在图4所示的实例中,第二类别404包括音乐、天气和有声读物。在一些实施方案中,后端系统100可以确定所说命令4包括对来自第二类别404的内容的请求,然后可以通过查询输出电子设备300、从而请求其状态来进一步确定输出电子设备300是否处于就绪状态。如果后端系统100基于来自输出电子设备300的响应确定输出电子设备300处于就绪状态,那么后端系统100可以向输出电子设备300发送用于输出来自第二类别404的内容的指示。然而,如果后端系统100确定输出电子设备300未处于就绪状态,那么后端系统100可以改为将来自第二类别404的内容发送到语音激活电子设备10。例如,如果所请求内容是天气预报并且后端系统100确定天气预报是第二类别中的内容类型,那么在输出电子设备300处于就绪状态的情况下,后端系统100可以仅发送用于通过输出电子设备300输出所请求天气预报的指令。在一些实施方案中,当流媒体设备302通电但外围视频输出设备304断电时,输出电子设备300将处于可用状态但不是处于就绪状态,并且后端系统100可以将天气预报发送到语音激活电子设备10而不是输出电子设备300。

最后,表400可以包括第三类别406,其可以包括由于内容的性质和格式而可以主要路由到语音激活电子设备10的内容的类型。在图4所示的实例中,第三类别406包括诸如警报和计时器的内容。这种内容在本质上基本上可以是音频,并且特别地,可以是质量不太重要的类型的。例如,警报的主要目的是使它被听到,此时它通常被关闭。因此,这种内容可以更适当地通过在物理上可以离个人用户更近的语音激活电子设备10来提供。在那些实施方案中,后端系统100可以确定所说命令4包括对来自第三类别406的内容的请求,然后可以将所请求内容发送到语音激活电子设备10。即使语音激活电子设备10与输出电子设备300相关联并且输出电子设备300处于就绪状态,来自第三类别406的内容通常也应当被发送到语音激活电子设备10。

尽管图4中示出第一类别402、第二类别404和第三类别406中的内容类型的一些实例,但本领域普通技术人员将理解,表400中可以包括另外的或不同的内容类型。此外,表400中的内容类型及其在类别之间的划分仅是实例,并且本领域普通技术人员将理解,在不脱离所公开概念的范围的情况下,内容类型及其在类别之间的划分可以与图4所示的实例不同。另外,内容类型及其在类别之间的划分可以由语音激活电子设备10的用户设置和改变。图4中所包括的信息可以在后端系统100上存储在例如内容路由模块270中。

在一些实施方案中,输出电子设备300的状态可能在输出内容时改变。例如,当正通过外围视频输出设备304输出内容时,个体2可能关闭外围视频输出设备304,从而致使输出电子设备300的状态从就绪变为可用。在一些实施方案中,输出电子设备300可以监视其状态的任何变化并将所述变化传送到后端系统100。例如,流媒体设备302可以使用cec协议来周期性地监视外围视频输出设备304是否已经关闭或者已经改变输入源,以确定输出电子设备300的状态是否已经从就绪变为可用。然后,流媒体设备302可以将状态变化传送到后端系统100。在一些实施方案中,后端系统100可以周期性地查询输出电子设备300、从而请求其状态。基于来自输出电子设备300的响应,后端系统100可以确定输出电子设备300的状态是否已经改变。在一些实施方案中,后端系统100可以确定输出电子设备300的状态已经从就绪状态变为可用或不可用状态,并且可以基于状态变化向输出电子设备300发送停止指令以停止输出内容。例如,所述指令可以致使流媒体设备302停止向外围视频输出设备304发送内容。在一些实施方案中,当输出电子设备300的状态从就绪状态变为可用或不可用状态时,后端系统100可以随后开始将内容发送到语音激活电子设备10。

类似地,在一些实施方案中,当正通过语音激活电子设备10输出内容时,输出电子设备300的状态可能从不可用或可用状态变为就绪状态。后端系统100可以确定输出电子设备300的状态已经从不可用或可用状态变为就绪状态,并且可以开始代替发送到语音激活电子设备10而将内容发送到输出电子设备300。在一些实施方案中,在确定输出电子设备300的状态已经从不可用或可用状态变为就绪状态时,后端系统100可以生成问询个体2是否想要代替通过语音激活电子设备10而通过输出电子设备300来输出内容的提示。在一些实施方案中,提示可以在输出电子设备300上作为用户界面显示。个人2可以与用户界面交互以指示是否应当通过输出电子设备300来输出内容。而且,在一些实施方案中,提示可以通过语音激活电子设备10作为音频输出。个人2可以提供口语响应以指示是否应当通过输出电子设备300来输出内容。语音激活电子设备10可以向后端系统100发送表示个人2的响应的音频数据,并且后端系统100可以确定个人2的响应的性质并相应地路由内容(例如,后端系统100可以响应于个人2指示他/她想要将内容发送到输出电子设备300而发送用于通过输出电子设备300来输出内容的指令)。

在一些实施方案中,当正通过语音激活电子设备10输出内容时,输出电子设备300的状态可能从不可用状态变为可用状态。后端系统100可以确定输出电子设备300的状态已经从不可用状态变为可用状态,并且可以生成问询个体2是否想要代替通过语音激活电子设备10而通过输出电子设备300来输出内容的音频提示。后端系统100可以将音频提示发送到语音激活电子设备10以作为音频输出。个人2可以提供口语响应以指示是否应当通过输出电子设备300来输出内容。语音激活电子设备10可以向后端系统100发送表示个人2的响应的音频数据,并且后端系统100可以确定个人2的响应的性质并相应地路由内容。如果所述响应指示个人2想要将内容发送到输出电子设备300,那么后端系统100可以向输出电子设备300发送使其改变到就绪状态并输出内容的指令。后端系统100还可以向语音激活电子设备10发送使其停止输出内容的指令。

此外,在一些实施方案中,个人2可以通过在所说命令4中指定目标设备来将内容定向到语音激活电子设备10或输出电子设备300。例如,个人2可以对语音激活电子设备10说:“alexa,在我的tv上播放我的音乐播放列表。”后端系统100可以使用stt和nlu处理来确定个体2已经指定用于内容的目标设备,并且可以将所请求内容发送到输出电子设备300。例如,输出电子设备300的类型(例如,电视)可以存储在内容路由模块270中的数据结构102中。nlu模块260可以确定在命令4中指定目标设备,并且可以查询内容路由模块270,从而请求关于语音激活电子设备10是否与输出电子设备300相关联的信息以及关于输出电子设备300的类型的信息。nlu模块260可以使用nlu功能性和关于输出电子设备300的类型的信息来确定个体2已经请求输出电子设备300的概率是否高于预定阈值概率。例如,如果命令4包括对在“我的tv”上播放内容的请求并且输出电子设备300是电视,那么输出电子设备300很可能是就所请求的设备。然而,如果命令4包括对在“我的扬声器系统”上播放内容的请求并且输出电子设备300是电视,那么输出电子设备300不太可能是所请求的设备。如果后端系统100不能确定所请求的目标设备,那么后端系统100可以生成音频提示以请求来自个人的阐明或通知个人无法找到所请求的目标设备。后端系统100可以将音频提示发送到语音激活电子设备10以作为音频向个体2输出。个人2可以类似地通过将语音激活电子设备10指定为目标设备来请求将内容发送到语音激活电子设备10。在一些实施方案中,后端系统100将内容发送到明确请求的目标设备,即使内容类型可能是在通常应当发送到不同设备的类别中也是如此。

图5是解决对内容的不明确请求的实例的例示图。在所公开概念的一些实施方案中,所说命令4可以包括对内容的不明确请求。例如,个人2可以说“alexa,播放footloose。”所述请求可以对应于电影footloose或电影原声音乐footloose。为了解决不明确性,后端系统100可以生成表示请求阐明对内容的请求的听觉消息12的响应性音频数据。例如,听觉消息12可以是“电影还是原声音乐?”个人2可以向语音激活电子设备10提供口语响应。然后,后端系统100可以使用stt来分析口语响应以确定说出了哪些词,之后进行nlu处理以确定所说词的含义并因此确定个体2指的是哪个特定内容。在确定个体2指的是哪个特定内容时,后端系统100可以将所选择内容路由到输出电子设备300或语音激活电子设备10中的适当一个。

在一些实施方案中,后端系统100可以使用其他方法来解决对内容的不明确请求。例如,如果所说命令4包括对在特定设备上播放内容的请求,那么它可以帮助确定个人2请求了哪个内容。例如,如果所说命令4是“alexa,在我的tv上播放bookthief”,那么后端系统100系统可以确定个人2正在请求电影thebookthief而不是书thebookthief。在一些实施方案中,后端系统100还可以使用所说命令4中包括的其他信息来帮助确定个人2请求了哪个内容。例如,如果所说命令4是“alexa,朗读bookthief”,那么后端系统100可以根据术语“朗读”的使用来确定个人2正在请求书“thebookthief”而不是电影“thebookthief”。

图6是可以用于在语音激活电子设备10与输出电子设备300之间建立关联的系统的例示图。在一些实施方案中,可以通过用户电子设备500来访问语音激活电子设备10的设置。用户电子设备500可以是例如移动电话、计算机、平板电脑或其他类型的电子设备。用户电子设备500可以与后端系统100通信,并且可以包括允许用户在语音激活电子设备10和输出电子设备300之间建立关联的应用程序或其他程序。例如,用户可以将输出电子设备300标识和/或选择为与语音激活电子设备10相关联的设备。在已经通过用户电子设备500建立语音激活电子设备10与输出电子设备300之间的关联之后,可以将所述关联在后端系统100上存储在例如数据结构102中(参见例如图1)。在一些实施方案中,关于所述关联的信息(诸如标识输出电子设备300的信息)可以存储在数据结构102中,所述数据结构102可以存储在内容路由模块207中(参见例如图3)。指示语音激活电子设备10与另一设备相关联的另外的元数据(例如,标志)可以存储在例如用户账户模块268中。存储在用户账户模块268中的另外的元数据可以触发后端系统100来查看内容路由模块270,以确定输出电子设备300的标识并确定是否应当由输出电子设备300输出所请求内容。

用户电子设备500可以用于改变与后端系统100确定要将内容路由到哪里的方式相关联的设置。例如,用户电子设备500可以用于指定应当始终在输出电子设备300上播放的内容的类型、以及如果输出电子设备300处于活动状态则应当在其上播放的内容的类型。本领域普通技术人员将理解,可以通过用户电子设备500设置与语音激活电子设备10、后端系统100和输出电子设备300相关联的各种其他设置。在一些实施方案中,是输出电子设备300而不是用户电子设备500可以用于使语音激活电子设备10与输出电子设备300相关联。

一旦输出电子设备300已经与语音激活电子设备10相关联,就可以通过由语音激活电子设备10接收的所说命令来解除或重新建立所述关联。例如,诸如“断开我的tv”的所说命令可以用于结束语音激活电子设备10与输出电子设备300之间的关联,并且诸如“重新连接我的tv”的所说命令可以用于重新建立语音激活电子设备10与输出电子设备300之间的关联。

图7是示出根据各种实施方案的两个示例性设备的链接的例示图。在一些实施方案中,电子设备702可以对应于任何电子设备或系统。各种类型的电子设备可以包括但不限于:台式计算机、移动计算机(例如,膝上型电脑、超极本)、移动电话、智能电话、平板电脑、电视、机顶盒、智能电视、手表、手镯、显示屏、个人数字助理(“pda”)、智能家具、智能家居设备、智能车辆、智能交通设备和/或智能配件。在一些实施方案中,电子设备10在结构上可以是相对简单的或基础的,使得可以不提供一个或多个机械输入选项(例如,键盘、鼠标、触控板)或一个或多个触摸输入装置(例如,触摸屏、按钮)。然而,在一些实施方案中,电子设备10也可以对应于设备网络。

电子设备702可以具有显示屏704。显示屏704可以在电子设备702上显示内容。在一些实施方案中,电子设备702可以具有一个或多个处理器、存储器、通信电路以及输入/输出接口。电子设备702的一个或多个处理器可以类似于图3的一个或多个处理器202,并且相同的描述适用。电子设备702的存储器可以类似于图3的存储装置/存储器204,并且相同的描述适用。电子设备702的通信电路可以类似于图3的通信电路206,并且相同的描述适用。电子设备702的输入/输出接口可以类似于图3的输入/输出接口212,并且相同的描述适用。另外,电子设备702可以具有一个或多个传声器。电子设备702的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。此外,电子设备702可以具有一个或多个扬声器。电子设备702的一个或多个扬声器可以类似于图3的扬声器210,并且相同的描述适用。

在一个示例性实施方案中,个人可能想要通过选择接收命令的设备和响应于所接收命令输出内容的另一设备来将两个或更多个设备链接在一起。虽然针对每个选项(接收命令和输出响应)仅示出一个设备,但是普通技术人员认识到可以链接任何数量的设备。在一些实施方案中,可以选择输入设备706。为了选择输入设备706,电子设备702可以搜索能够接收输入的设备。在一些实施方案中,电子设备702可以使用http通过web浏览器搜索合适的设备。可以使用各种另外的通信协议来促进语音激活电子设备10与后端系统100之间的通信,所述通信协议包括但不限于:wi-fi(例如,802.11协议)、射频系统(例如,900mhz、1.4ghz以及5.6ghz的通信系统)、蜂窝网络(例如,gsm、amps、gprs、cdma、ev-do、edge、3gsm、dect、is-136/tdma、iden、lte、或任何其他合适的蜂窝网络协议)、红外线、bittorrent、ftp、rtp、rtsp、ssh和/或voip。一旦电子设备702已经定位了合适的输入设备,电子设备702就可以在显示屏704上列出设备以供个人从中选择。在图7所示的实例中,所选择设备是第一设备712。一旦将第一设备712选择为输入设备,电子设备702就可以存储第一设备712的标识符。在一些实施方案中,第一设备712可以类似于语音激活设备10,并且相同的描述适用。

为了选择输出设备708,电子设备702可以搜索能够输出内容的设备。类似于搜索输入设备706,电子设备702可以使用http通过web浏览器搜索合适的设备。可以使用各种另外的通信协议来促进语音激活电子设备10与后端系统100之间的通信,所述通信协议包括但不限于:wi-fi(例如,802.11协议)、射频系统(例如,900mhz、1.4ghz以及5.6ghz的通信系统)、蜂窝网络(例如,gsm、amps、gprs、cdma、ev-do、edge、3gsm、dect、is-136/tdma、iden、lte、或任何其他合适的蜂窝网络协议)、红外线、bittorrent、ftp、rtp、rtsp、ssh和/或voip。一旦电子设备702已经定位了合适的输出设备,电子设备702就可以在显示屏704上列出设备以供个人从中选择。所列出设备可以是基于所选择内容选项710a。以下示出对内容选项710a的更详细描述。在图7所示的实例中,所选择输出设备是第二设备714。一旦将第二设备714选择为输出设备,电子设备702就可以存储第二设备714的标识符。

个人还可以选择将被发送到输出设备708的内容的类型。在一些实施方案中,个人可以从下拉菜单中进行选择。内容选项710a可以包含各种选项。在一些实施方案中,第一选项可以是图像文件710b。如果被选择,那么此内容选项可以将第一设备712所请求的任何图像文件发送到第二设备714。图像数据可以包括包含视觉信息的任何内容,包括但不限于视频、电影、照片、演示或任何其他视觉显示。例如,如果个人向第一设备712陈述“alexa,播放电影”,那么将由第二设备714播放电影。在一些实施方案中,第二选项可以是音频文件710c。音频文件可以包括包含音频数据的任何类型的内容。如果被选择,那么此内容选项可以将第一设备712所请求的任何音频文件发送到第二设备714。例如,如果个人向第一设备712陈述“alexa,播放歌曲”,那么将由第二设备714播放歌曲。第三选项,即更多选项710d,可以是任何类型的内容。更多选项710d可以特定于特定请求。例如,更多选项710d可以是天气预报。在此实施方案中,如果个人向第一设备712陈述“alexa,给我天气预报”,那么将在第二设备714上输出天气预报。作为另一个实例,更多选项710d可以是新闻资讯。在此实施方案中,如果个人向第一设备712陈述“alexa,告诉我新闻”,那么将在第二设备714上输出新闻。在一些实施方案中,可以选择多个选项。例如,可以选择图像文件710b和音频文件710c。在此实例中,如果第一设备712接收对音频文件或图像文件的请求,那么将会将内容发送到第二设备714。虽然图7中仅示出几种类型的内容,但是普通技术人员认识到:这仅用于示例性目的,并且可以在内容选项710a中选择任何类型或任何数量的类型。

在一些实施方案中,电子设备702可以与后端系统100通信。如果这样,电子设备702就可以将第一设备712标识符发送到后端系统100。另外,电子设备702可以将第二设备714标识符发送到后端系统。此外,电子设备702可以将内容选项710a标识符发送到后端系统。标识符可以使用图3的用户帐户268来存储,并且相同的描述适用。然后,后端系统100可以存储第一设备712与第二设备714之间的链接,使得当第一设备712请求在内容选项710a中选择的内容的类型时,将所请求内容发送到第二设备714。如果个人未在内容选项710a下选择内容类型,那么后端系统可以将第一设备712请求的内容发送到第二设备714,所述内容可以由第二设备714输出。

在一些实施方案中,可能针对输出设备708存在多个输入设备。在另一个实施方案中,可能针对输入设备706存在多个输出设备。在另一个实施方案中,可能针对输入设备706存在主输出设备和次输出设备。在此实施方案中,将要从输入设备706路由到输出设备708的对内容的请求将被路由到主输出设备。如果主输出设备不能够接收内容,那么可以将内容路由到次输出设备。

图8是根据各种实施方案的将内容发送到相关联设备的过程1000的例示性流程图。过程1000可以在例如后端系统100中实现,并且相同的描述适用于此。在一些实施方案中,过程1000可以在步骤1002处开始。在步骤1002处,后端系统100可以从第一电子设备接收第一音频数据。在一些实施方案中,过程1000的第一电子设备可以是图1至图3和图5至图6的语音激活设备10,并且相同的描述适用。第一音频数据可以表示来自个人2的所说命令4,并且可以包括对内容的请求,例如像对天气预报的请求。例如,如果个人2陈述“alexa,天气预报是怎样的”,那么语音激活电子设备可以记录所陈述措辞并将音频数据发送到后端系统。语音激活电子设备可以使用语音激活电子设备上的一个或多个传声器来接收第一音频数据。语音激活设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。

在步骤1004处,后端系统100可以确定存在与第一电子设备相关联的用户帐户。在一些实施方案中,后端系统可以接收与语音激活电子设备相关联的标识符。此数据可以客户标识符、产品编号、ip地址、gps位置、或标识语音激活电子设备的任何其他合适方法的形式呈现。然后,后端系统可以搜索并标识与标识符相关联的用户帐户。用户帐户可以是能够标识与语音激活电子设备相关联的用户的任何合适的数字或标识符。

在一些实施方案中,一旦后端系统已经确定与第一电子设备相关联的第一用户帐户,后端系统就可以找到所存储的两个电子设备之间的关联。在一些实施方案中,后端系统可以发现第一电子设备是所存储的两个电子设备之间的关联中的输入设备。可以基于所存储的关联来路由对所接收第一音频数据的响应。以下图9a中是对基于所存储的关联来路由内容的进一步描述。

在步骤1006处,后端系统可以生成表示从语音激活电子设备接收的第一音频数据的第一文本数据。文本数据可以通过对所接收第一音频数据执行stt功能性来生成。stt功能性可以用于确定所接收第一音频数据内的各个词。过程1000的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的相同公开内容适用于此。更具体地,步骤1006可以通过使用自动语音识别258内的语音到文本266来完成,并且相同的公开内容适用。继续所述实例,一旦后端系统接收到陈述“alexa,天气预报是怎样的”的音频数据,自动语音识别258就将对音频数据执行stt功能性。这将创建表示“alexa,天气预报是怎样的”的文本数据。

在步骤1008处,后端系统100可以确定第一文本数据的意图。在后端系统已经生成表示第一音频数据的第一文本数据之后,将会将文本数据发送到nlu以进行处理。nlu接收第一文本数据以便确定第一文本数据的意图。本文描述的nlu可以通过使用图3的自然语言理解260来完成。图3的相同公开内容适用于此。继续所述实例,nlu接收表示陈述“alexa,天气预报是怎样的”的音频数据的文本数据。nlu可以识别出“alexa”是唤醒词并且因此与确定所接收音频数据的意图无关。然后,nlu可以断开并分析措辞或话语“天气预报是怎样的。”首先,nlu可以分析话语中的动词“怎样的”。这将允许nlu更好地理解话语的意图。接下来,nlu可以将剩余的措辞“天气预报是”分裂成“天气预报”和“是”。这也允许nlu更好地理解话语的意图。在对措辞进行分裂和分析的情况下,nlu然后可以针对可能请求列表对后端系统进行搜索,从而为每个请求分配置信度分数。如本文所使用的置信度分数可以是可以被分配、从而允许系统对可能的数据匹配进行排名的任何标识符。然后,可以将置信度分数与预定阈值进行比较,以便确定可能意图是否匹配。以下在对图8的描述中更详细地解释置信度分数和预定阈值。在步骤1008中,nlu可以确定第一文本数据的意图是找到天气预报。因为第一音频数据内没有陈述位置,所以nlu还可以确定天气预报应当是在语音激活电子设备的地理区域内。语音激活电子设备的地理区域可以来自语音激活电子设备发送的数据。

如果nlu未能在后端系统的数据库中找到满足或超过预定阈值的请求,那么后端系统可以生成道歉文本数据。然后,后端系统可以通过对道歉文本数据执行stt功能性来接收表示道歉文本数据的音频数据。后端系统可以将音频数据发送到语音激活电子设备。然后,语音激活电子设备将在其一个或多个扬声器上播放音频数据。例如,如果nlu找不到适合于所述请求的匹配,那么语音激活设备可能会说“对不起,我不理解请求。”

可替代地,如果nlu找到多于一个合适的匹配,那么后端系统可以生成确认。所述确认可以帮助nlu在多于一个的合适匹配之间做出决定。以下在对图8a、图8b和图8c的描述中更详细地描述这种情况。

在步骤1010处,后端系统确定第二电子设备也与用户帐户相关联。在标识与标识符相关联的用户帐户之后,后端系统然后可以搜索与用户帐户相关联的任何另外的设备。所述设备可以是能够与基于云的后端系统通信的任何设备。所述设备可以是但不限于电视、计算机、膝上型电脑、个人数字助理(pda)、以及可以连接到互联网的任何设备或可以通过蓝牙连接来到另一设备的任何设备。虽然已经列出一些设备,但是本领域普通技术人员认识到,可以使用可以连接到另一设备的任何设备。此外,过程1000中的与用户账户相关联的第二电子设备可以是图1至图3和图5至图6的输出电子设备300。输出电子设备300的公开内容同样适用于此处的与语音激活电子设备相关联的设备。

在步骤1012处,后端系统确定对第一音频数据的响应将是音频响应和视觉响应。继续所述实例,当nlu确定第一文本数据的意图是确定天气预报时,后端系统可以访问天气类别服务器。天气类别服务器可以类似于图3的类别服务器/技能262或在其内,并且相同的描述适用于此。天气类别服务器可以具有与语音激活电子设备的位置的天气有关的信息。在天气类别服务器的存储器中,可能存在不同的数据类别。此处描述的不同的数据类别可能类似于图4所示的类别,并且相同的描述适用。天气类别服务器的存储器可能具有表示对天气请求的响应的文本数据。另外,天气类别存储器可以具有响应于天气请求的视频数据。如果天气类别存储器找到响应于天气请求的视频数据,那么后端系统可以查验相关联设备是否能够显示视频数据。因为后端系统已经确定设备与电子设备相关联,所以后端系统可以寻找响应于来自语音激活电子设备的第一音频数据的音频数据和视频数据两者。例如,响应于天气预报请求的音频数据可能包含当天具有高温和低温连同其他各种天气条件的陈述。视觉数据可以是可以在相关联设备的屏幕上显示的五天天气预报。

在步骤1014处,后端系统确定将要将响应发送到第一电子设备。一旦找到响应性音频数据,后端系统就确定将要将对第一音频数据的回答发送到第一电子设备。在一些实施方案中,此确定是这样以使得后端系统准备好将音频数据发送到第一电子设备。继续所述实例,后端系统现在确定将会将对天气预报请求的响应发送到第一电子设备。

在步骤1016处,后端系统确定将要将响应发送到第二电子设备。如果后端系统确定第二电子设备可以显示视觉数据,那么在一些实施方案中,在步骤1016处,后端系统确定将会将音频响应和视频响应两者发送到第二电子设备。在一些实施方案中,因为将要在第二电子设备上播放视觉响应,所以发送到语音激活电子设备的音频响应可以仅仅是将会在第二电子设备上显示视觉响应的信号。继续所述实例,后端系统现在确定将会在相关联设备上显示对天气预报请求的响应。此外,来自语音激活设备的响应可以陈述“正在您的电视上显示您的天气预报。”

在步骤1018处,后端系统接收表示第一音频响应的第二文本数据。在一些实施方案中,由后端系统接收的文本数据将来自类别服务器或技能服务器。类别服务器或技能服务器可以与图3的类别服务器/技能262相同或在其内,并且相同的描述适用。在一些实施方案中,第二文本数据可以是对从语音激活电子设备接收的第一音频数据的完整响应。例如,响应于对新闻的请求,文本数据可以包含当天的新闻。如果存在视觉数据和能够显示视觉数据的第二电子设备,那么在一些实施方案中,第二文本可以指示将会在哪里播放响应。例如,响应于新闻请求,文本数据可以指示将会在电视上显示响应。继续天气预报实例,天气类别服务器将会将表示响应的文本数据发送到后端系统。文本数据可以具有指示将会在电视上播放天气预报的文本。

在步骤1020处,后端系统生成表示第二文本数据的第二音频数据。一旦已经从类别服务器或技能服务器接收到文本数据,就将那个文本数据就转换成音频数据。所述数据通过对文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。继续天气预报实例,如果由天气类别服务器接收的文本数据包含全音频响应,那么音频数据可以陈述“西雅图的天气预报有72度的最高温度和55度的最低温度,并且有可能会有阵雨。”如果文本数据仅仅是将会在第二个电子设备上播放视觉数据的表示,那么音频数据可以陈述“西雅图的天气预报在您的电视上。”

在步骤1022处,后端系统将第二音频数据发送到第一电子设备。将通过对第二文本数据执行tts功能性创建的第二音频数据传输到第一电子设备。一旦将第二音频数据发送到第一电子设备,就由第一电子设备上的一个或多个扬声器输出第二音频数据。一个或多个扬声器类似于图3的一个或多个扬声器210,并且相同的描述适用。继续天气预报实例,如果音频数据包含全音频响应,那么第一电子设备可以陈述“西雅图的天气预报有72度的最高温度和55度的最低温度,并且有可能会有阵雨。”如果音频数据仅仅是将会在第二个电子设备上播放视觉数据的表示,那么第一电子设备可以陈述“西雅图的天气预报在您的电视上。”

在步骤1024处,后端系统接收表示第二音频响应的第三文本数据。在一些实施方案中,由后端系统接收的第三文本数据将来自类别服务器或技能服务器。类别服务器或技能服务器可以与图3的类别服务器/技能262相同或在其内,并且相同的描述适用。在一些实施方案中,第三文本数据可以是对从第一电子设备接收的第一音频数据的完整响应。例如,响应于对通勤的请求,文本数据可以包含交通报告。如果存在视觉数据并且第二电子设备能够输出视觉数据,那么在一些实施方案中,第三文本可以是将会在第二电子设备上显示的响应的指示。例如,响应于新闻请求,文本数据可以指示将会在电视上显示响应。继续天气预报实例,与第二文本数据一样,后端系统将从天气类别服务器接收表示对第一音频数据的响应的第三文本数据。第三文本数据可以具有指示正在电视上显示天气预报的文本。

在步骤1026处,后端系统接收表示第三文本数据的第三音频数据。一旦已经从类别服务器或技能服务器接收到第三文本数据,就将第三文本数据就转换成音频数据。所述数据通过对第三文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。继续天气预报实例,如果由天气类别服务器接收的第三文本数据包含全音频响应,那么音频数据可以陈述“西雅图的天气预报有72度的最高温度和55度的最低温度,并且有可能会有阵雨。”如果第三文本数据仅仅是将会在第二个电子设备上播放视觉数据的表示,那么音频数据可以陈述“这里是西雅图的天气预报。”

在步骤1028处,后端系统接收表示视频响应的图像数据。如本文所述,图像数据可以是任何视觉信息,包括但不限于电影、视频、照片和演示。一旦后端系统确定第二电子设备能够显示视频内容,后端系统就将注意将来自类别服务器或技能服务器的响应于第一音频数据的视觉数据发送到第二电子设备。类别服务器或技能服务器可以与图3的类别服务器/技能262相同或在其内,并且相同的描述适用。视频内容可以是类别服务器或技能服务器内的一类数据的一部分。此类别可以类似于图4的仅在输出设备402上播放,并且相同的描述适用。在一些实施方案中,输出设备可以是指能够输出视频数据的设备,诸如过程1000的相关联设备或图3的输出电子设备300。过程1000的第二电子设备可以类似于图3的输出电子设备300,并且相同的描述适用。继续天气预报实例,后端系统可以接收天气预报的视觉数据。

在步骤1030处,后端系统将第三音频数据发送到第二电子设备。将通过对第三文本数据执行tts功能性创建的第三音频数据发送到相关联设备。一旦将第三音频数据发送到第二电子设备,就由第二电子设备上的一个或多个扬声器输出第三音频数据。一个或多个扬声器类似于图3的扬声器314,并且相同的描述适用。继续天气预报实例,如果音频数据包含全音频响应,那么第二电子设备可以陈述“西雅图的天气预报有72度的最高温度和55度的最低温度,并且有可能会有阵雨。”如果音频数据仅仅是将会在第二个电子设备上播放视觉数据的表示,那么第二电子设备的一个或多个扬声器可以播放“这里是西雅图的天气预报。”

在步骤1032处,后端系统将视频数据发送到第二电子设备。将从类别服务器或技能服务器接收的视频数据传输到第二电子设备。然后,可以由第二电子设备在相关联设备的显示屏上播放或显示视频数据。第二电子设备的显示屏可以类似于图3的显示器312,并且相同的描述适用。

图9a是根据各种实施方案的用于基于内容的类型来路由内容的过程1100的例示性流程图。与过程1000一样,过程1100可以在例如后端系统100中实现,并且相同的描述适用于此。在一些实施方案中,过程1100可以在步骤1102处开始。在步骤1102处,后端系统100可以从语音激活电子设备接收第一音频数据。步骤1102可以类似于过程1000的步骤1002,并且相同的描述适用。在一些实施方案中,过程1100的语音激活电子设备可以是图1至图3和图5至图6的语音激活设备10,并且相同的描述适用。第一音频数据可以表示个人所说的话语,并且可以包括请求。例如,如果个人陈述“alexa,播放footloose”,那么语音激活电子设备可以记录所陈述措辞并将音频数据发送到后端系统。语音激活电子设备可以使用语音激活电子设备上的一个或多个传声器来接收第一音频数据。语音激活设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。

在步骤1104处,后端系统100可以确定存在与第一电子设备相关联的用户帐户。在一些实施方案中,步骤1104可以基本上类似于过程1000的步骤1004,并且相同的描述适用。在一些实施方案中,后端系统可以接收与语音激活电子设备相关联的标识符。然后,后端系统可以搜索并标识与标识符相关联的用户帐户。用户帐户可以是能够标识与语音激活电子设备相关联的用户的任何合适的数字或标识符。

在步骤1106处,后端系统可以确定第二电子设备也与用户帐户相关联。在标识与标识符相关联的用户帐户之后,后端系统然后可以搜索与用户帐户相关联的任何另外的设备。在一些实施方案中,后端系统可以发现第二电子设备也与用户帐户相关联。第二电子设备可以类似于过程1000的第二电子设备,并且相同的描述适用。另外,过程1100中所描述的与用户账户相关联的第二电子设备可以是图1至图3和图5至图6的输出电子设备300。输出电子设备300的公开内容同样适用于过程1100中的与语音激活电子设备相关联的设备。例如,也与用户帐户相关联的第二电子设备可以是电视。

在步骤1108处,后端系统可以生成表示从语音激活电子设备接收的第一音频数据的第一文本数据。步骤1106可以类似于过程1000的步骤1006,并且相同的描述适用。文本数据可以通过对所接收第一音频数据执行stt功能性来生成。过程1100的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“alexa,播放footloose”的音频数据,自动语音识别258就可以对音频数据执行stt功能性。这将创建表示所接收音频的文本数据。

在步骤1110处,后端系统从第一域接收第一置信度分数。在步骤1110处,后端系统可以与过程1000的步骤1008类似的方式使用nlu功能性,并且相同的描述适用。过程1100中描述的nlu可以类似于图3的自然语言理解260,并且相同的描述适用。第一域可以是指位于后端系统内或连接到后端系统的任何一个或多个服务器。域可以类似于图3的类别服务器/技能262或在其内,并且相同的描述适用。类似于过程1000的步骤1008,nlu可以对措辞“alexa,播放footloose”进行分裂。nlu可以识别唤醒词并且集中在话语“alexa,播放footloose”的动词和名词上。话语中的动词将是“播放”。除其他内容类型外,播放可以是指歌曲和电影。虽然本文仅公开歌曲和电影,但是本领域普通技术人员认识到,可以使用任何内容。虽然播放可能并不缩小正确响应,但是nlu会注意名词以查看是否可能缩小可能性。nlu可以通过对类别服务器或技能服务器进行搜索以确定“footloose”可能与哪种内容相关来分析“footloose”。歌曲类别服务器可以向nlu发送置信度分数,其指示第一音频请求播放歌曲footloose的可能性很高。所分配的置信度分数可以是来自域的响应是正确响应的可能性的函数。当nlu搜索匹配时,它向可能的响应分配值。

因为nlu可以确定话语“播放footloose”是指在第一电子设备上播放歌曲footloose的可能性很高,所以指的是歌曲footloose的置信度分数可能超过预定阈值。为了确定哪个响应是正确的,可以设置预定阈值。预定阈值可以确保不将对话语的不正确响应发送回语音激活电子设备。另外,预定阈值可以帮助确保不选择多个不相关的响应。这可以帮助更快、更准确地获得对由第一电子设备接收的话语的响应。

在步骤1112处,后端系统从第二域接收第二置信度分数。在步骤1112处,后端系统可以与过程1000的步骤1008类似的方式使用nlu功能性,并且相同的描述适用。第二域可以是指位于后端系统内或连接到后端系统的任何一个或多个服务器。第二域可以与步骤1110的第一域基本上类似,并且相同的描述适用。后端系统可以接收所具有的置信度分数大于预定阈值的第二意图。继续footloose实例,nlu还可以从域接收指示第一音频可已经请求视频响应的置信度分数。如果后端系统已经确认第二电子设备能够输出视频数据,那么nlu可以仅搜索视频数据。如果后端系统确定第二电子设备能够输出视频数据,那么nlu然后可以从类别服务器或技能服务器接收针对音频内容和视频内容的置信度分数。因为“播放footloose”也可以是指播放footloose电影,所以nlu可以接收指示话语是指在相关联设备上播放电影footloose的可能性很高的超过预定阈值的置信度分数。nlu还可以确定电影footloose的预告片和其他响应可能具有大于预定阈值的置信度分数。然而,为了简单起见,在此实例中仅示出了两种不同类型的意图。因为在此实施方案中nlu认为话语正在请求歌曲footloose和电影footloose的可能性很高,所以nlu确定需要更多信息以准确地对第一音频数据作出响应。

在步骤1114处,后端系统接收查询文本数据。因为已经接收到指示任一响应都可能正确的两个置信度分数,所以后端系统可以确定更多信息是必要的。如果后端系统确定更多信息是必要的,那么后端系统可以生成查询文本。此查询文本可以表示询问哪个响应正确的问题。例如,查询文本可以表示询问“播放footloose”是指歌曲footloose还是电影footloose的问题。

在步骤1116处,后端系统生成表示查询文本数据的查询音频数据。一旦后端系统已经接收到查询文本数据,就将查询文本数据转换成音频数据。查询文本数据通过对查询文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。例如,查询音频数据可以陈述:“您的意思是歌曲footloose还是电影footloose?”

在步骤1118处,后端系统生成接听指令。在发送查询之前,后端系统可以生成用于第一电子设备的接听指令。接听指令可以指示第一电子设备记录对查询的响应并将那个响应发送到后端系统。在一些实施方案中,接听指令指示第一电子设备记录而无需等待唤醒词。

在步骤1120处,后端系统将查询音频数据发送到第一电子设备。可以将通过对查询文本数据执行tts功能性创建的查询音频数据传输到第一电子设备。一旦将查询音频数据发送到第一电子设备,就由第一电子设备上的一个或多个扬声器输出查询音频数据。一个或多个扬声器类似于图3的一个或多个扬声器210,并且相同的描述适用。例如,第一电子设备可以播放:“您的意思是歌曲footloose还是电影footloose?”

在步骤1122处,后端系统将接听指令发送到第一电子设备。在发送查询之后,后端系统可以将接听指令发送到第一电子设备。接听指令可以指示第一电子设备记录对查询的响应并将表示所述响应的音频数据发送到后端系统。

在步骤1124处,后端系统从第一电子设备接收第二音频数据。在一些实施方案中,第一电子设备可以接收表示对查询音频数据的响应的第二音频数据。例如,第二音频可以是“电影”。作为另一个实例,第二音频可以是“歌曲”。

在步骤1126处,后端系统生成表示第二音频数据的第二文本数据。一旦接收到第二音频数据,然后就可以通过对第二音频数据执行stt功能性来将第二音频数据转换成文本数据。这可以类似于过程1000的步骤1006和过程1100的步骤1106,相同的描述适用。stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“电影”或“歌曲”的音频数据,自动语音识别258就可以对音频数据执行stt功能性。这将创建表示所接收音频的文本数据。

在步骤1128处,后端系统确定第二文本数据的意图。一旦后端系统生成第二文本数据,然后nlu就可以分析第二文本数据。所描述的nlu可以类似于图3的自然语言理解260,并且相同的描述适用。在这个实例中,nlu可能只是寻找名词。因为nlu已经确定动词是播放,而是关于播放是指电影footloose还是歌曲footloose有疑惑。因此,nlu可以仅分析来自表示第二音频数据的第二文本数据的名词。在步骤1130处,nlu确定是播放音频数据还是播放视频数据。nlu可以确定第二音频数据请求了电影footloose。这种情况在图9b中继续。nlu也可以确定第二音频数据请求了歌曲footloose。这种情况在图9c中继续。此外,nlu可确定第二音频数据对查询无响应或者是否定响应。在这种情况下,nlu可以用信号通知后端系统应当完全停止所述过程。

图9b是根据各种实施方案的接续图9a中的过程的例示性流程图,其中基于内容将内容路由到相关联设备。在步骤1132b处,后端系统确定第二电子设备将输出视频内容。如果nlu确定第二音频数据的意图是播放视频数据,那么nlu可以确定视频数据的目标设备是第二电子设备。在一些实施方案中,因为后端系统确定第二电子设备能够输出视频数据,这可能发生。在一些实施方案中,后端系统可以基于第一电子设备是否能输出视频数据进行此确定。在一些实施方案中,因为第一电子设备不能输出视频数据并且第二电子设备能输出视频数据,nlu可以确定目标设备是第二电子设备。第一电子设备和第二电子设备的能力可以存储在后端系统上。另外,可以通过生成对能力信息的请求并将其发送到第一电子设备和/或第二电子设备来确定能力。电子设备可以发送对信息请求的响应,所述响应指示电子设备能输出什么类型的数据。在一些实施方案中,后端系统可以将测试内容发送到第一电子设备和第二电子设备。在一些实施方案中,测试内容可以专门用于确定第一电子设备和第二电子设备的能力,并且可以不由第一电子设备和第二电子设备输出。例如,如果第二电子设备是电视,那么信息请求或测试内容可以指示第二电子设备能输出视频数据。如果第一电子设备是图1的语音激活设备10,那么对信息请求或测试内容的响应可以指示第一电子设备不能输出视频数据。此外,如果第二音频数据指示目标设备,那么nlu可以确定目标设备。例如,第二音频数据可以陈述“在我的电视上播放电影”的响应。

在步骤1134b处,后端系统确定用户帐户能够访问视频内容。一旦后端系统确定第二电子设备将要播放视频内容,后端系统就可以在用户帐户可访问的类别中搜索所请求视频内容。用户帐户可以与可访问多个电影和歌曲的帐户相关联。如果用户帐户可访问多个电影,那么用户帐户将在可访问电影中寻找所请求视频内容。在一些实施方案中,用户帐户将可访问所请求视频内容。在一些实施方案中,用户帐户将不可访问所请求电影。如果用户帐户不可访问所请求内容,那么后端系统可以搜索所请求内容的预览。此外,如果用户帐户不可访问所请求内容,那么后端系统可以接收陈述内容不可用的通知消息。然后,可以通过对通知消息执行tts功能性来将此通知消息转换成音频数据。然后,可以将音频数据发送到第一电子设备或第二电子设备,以便在第一电子设备或第二电子设备上的一个或多个扬声器上输出。

在步骤1136b处,后端系统生成允许第二电子设备流式传输视频内容的url。一旦后端系统确定用户帐户可访问视频内容,后端系统就可以生成url。此url可以允许第二电子设备流式传输由第一音频数据请求并由第二音频数据确认的视频内容。在一些实施方案中,一旦后端系统生成url,后端系统就可以生成表示确认消息的文本。确认消息可以用信号通知第一电子设备理解第二音频数据。然后,通过执行tts功能性来将此文本转换成音频。然后,可以将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,第一电子设备可以陈述“ok。”

在步骤1138b处,后端系统将url发送到第二电子设备。然后,可以将由后端系统生成的url从后端系统发送到第二电子设备。然后,可以由第二电子设备上的扬声器播放视频数据,并由第二电子设备在第二电子设备的显示屏上显示所述视频数据。第二电子设备的扬声器可以类似于图3的扬声器314,并且相同的描述适用。第二电子设备的显示屏可以类似于图3的显示器312,并且相同的描述适用。在一些实施方案中,后端系统可以生成表示确认消息的文本。然后,通过执行tts功能性来将此文本转换成音频。可将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,第一电子设备可以陈述:“您的电影正在您的电视上开始。”

图9c是根据各种实施方案的接续图9a中的过程的例示性流程图,其中基于内容将内容路由到电子设备。在步骤1132c处,后端系统确定第一电子设备将输出音频内容。如果nlu确定第二音频数据的意图是要播放音频数据,那么nlu可以确定用于音频数据的目标设备是第一电子设备。此确定可以与图9b的步骤1132b类似的方式发生,并且相同的描述适用。在一些实施方案中,第一电子设备和第二电子设备可都能够输出音频数据。在这种情况下,后端系统可以确定第一电子设备是目标设备,因为它是用于播放音频数据的默认设备。此外,后端系统可能想要更多信息来在设备之间进行确定。此信息可以与过程1100的步骤1114至1128类似的方式找到。在一些实施方案中,如果第二音频数据指示目标设备,那么nlu可以确定目标设备。

在步骤1134c处,后端系统确定用户帐户能够访问音频内容。一旦后端系统确定第一电子设备将要播放歌曲,后端系统就可以在用户帐户可访问的类别中搜索所请求音频内容。用户帐户可以与可访问多个电影和歌曲的帐户相关联。如果用户帐户可访问多个歌曲,那么用户帐户将在可访问歌曲中寻找所请求音频内容。在一些实施方案中,用户帐户将可访问所请求歌曲。在一些实施方案中,用户帐户将不可访问所请求歌曲。如果用户帐户不可访问所请求内容,那么后端系统可以搜索所请求内容的预览。此外,如果用户帐户不可访问所请求内容,那么后端系统可以接收陈述内容不可用的通知消息。然后,可以通过对通知消息执行tts功能性来将此通知消息转换成音频数据。然后,可以将音频数据发送到第一电子设备或第二电子设备,以便在第一电子设备或第二电子设备上的一个或多个扬声器上输出。

在步骤1136c处,后端系统生成允许第一电子设备流式传输音频内容的url。一旦后端系统确定用户帐户可访问音频内容,后端系统就可以生成url。此url可以允许第一电子设备流式传输由第一音频数据请求并由第二音频数据确认的音频内容。在一些实施方案中,一旦后端系统生成url,后端系统就可以生成表示确认消息的文本。确认消息可以用信号通知第一电子设备理解第二音频数据。然后,通过执行tts功能性来将此文本转换成音频。然后,可以将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,第一电子设备可以陈述“ok。”

在步骤1138c处,后端系统将url发送到第一电子设备。然后,可以将由后端系统生成的url从后端系统发送到第一电子设备。然后,可以由第一电子设备通过语音激活电子设备上的一个或多个传声器播放或流式传输音频数据。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。在一些实施方案中,后端系统可以生成表示确认消息的文本。然后,通过执行tts功能性来将此文本转换成音频。可将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,语音激活电子设备可以陈述:“播放歌曲footloose。”

图10是根据各种实施方案的用于接收对改变输出设备的请求的过程1200的例示性流程图;与过程1100一样,过程1200可以在例如后端系统100中实现,并且相同的描述适用于此。在一些实施方案中,过程1200可以在步骤1202处开始。在步骤1202处,后端系统100可以从第一电子设备接收第一音频数据。步骤1202可以类似于过程1000的步骤1002,并且相同的描述适用。在一些实施方案中,过程1200的第一电子设备可以是图1至图3和图5至图6的语音激活设备10,并且相同的描述适用。第一音频数据可以表示个人所说的话语,并且可以包括请求。例如,如果个人陈述“alexa,播放content(内容)”,那么语音激活电子设备可以记录所陈述措辞并将音频数据发送到后端系统。语音激活电子设备可以使用语音激活电子设备上的一个或多个传声器来接收第一音频数据。语音激活设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。

在步骤1204处,后端系统100确定存在与第一电子设备相关联的用户帐户。步骤1204可以类似于过程1000的步骤1004,并且相同的描述适用。在一些实施方案中,如在过程1000的步骤1004中,后端系统可以接收与第一电子设备相关联的标识符。一旦接收到标识符,后端系统然后就可以标识与标识符相关联的用户帐户。

在步骤1206处,后端系统生成表示第一音频数据的第一文本数据。步骤1206可以类似于过程1000的步骤1006,并且相同的描述适用。文本数据可以通过对所接收第一音频数据执行stt功能性来生成。过程1200的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“alexa,播放song(歌曲)”的音频数据,自动语音识别258就可以对音频数据执行stt功能性。这将创建表示所接收音频的文本数据。

在步骤1208处,后端系统100确定第一文本数据的意图。类似于步骤1008,在后端系统已经生成表示第一音频数据的第一文本数据之后,将会将文本数据发送到nlu以进行处理。步骤1208中的nlu处理可以类似于过程1000的步骤1008的nlu处理,并且相同的描述适用。nlu接收第一文本数据以确定第一文本数据的意图。本文描述的nlu可以通过使用图3的自然语言理解260来完成。图3的相同公开内容适用于此。继续所述实例,nlu接收表示陈述“alexa,播放content”的音频数据的文本数据。在识别唤醒词之后,nlu可以断开并分析话语“播放content”。为了允许nlu更好地理解意图,nlu将分裂出动词“播放”并对其进行分析。与过程1100一样,播放可以是指许多内容类型,诸如歌曲或电影。在此实施方案中,名词是确定性的,因为它是“content”。在此实施方案中使用的词内容是指nlu会理解的特定内容。然而,本领域普通技术人员理解,如果术语“content”是指可以是两首不同歌曲的标题,那么可以使用类似于过程1100的过程来缩小选择范围。接下来,nlu然后可以针对可能请求列表对后端系统进行搜索,从而为每个请求分配置信度分数。以上在对图8的描述中更详细地解释置信度分数和预定阈值。

在步骤1210处,后端系统接收响应于第一音频数据的内容。内容可以是能在第一电子设备上播放的任何内容。如果nlu确定第一音频数据用信号通知了应当播放“content”,那么后端系统可以从特定内容类别接收内容。所述内容类别可以类似于图3的类别服务器/技能262或在其内,并且相同的描述适用。如果后端系统不确定它是否检索到正确内容,那么后端系统可以生成表示确认消息的文本数据。可以使用tts功能性将此文本数据转换成音频数据。一旦后端系统接收到音频数据,后端系统就可以将音频数据发送到第一电子设备,使得由语音激活电子设备上的一个或多个扬声器播放音频消息。此消息例如可以是“您的意思是content?”一旦发送此确认消息,内容电子设备就可以接收响应性音频数据。可以将此音频数据发送到后端系统,在后端系统中,将会使用stt功能性将音频数据转换成文本数据。然后,nlu将分析文本数据以确定后端系统是否具有正确内容。如果nlu确定所述响应指示后端系统不具有正确内容,那么后端系统可以停止所述过程。

在步骤1212处,后端系统将内容发送到第一电子设备。继续所述实例,将从类别服务器或技能服务器接收的内容数据传输到第一电子设备。然后,可以由第一电子设备通过第一电子设备上的一个或多个传声器播放内容。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。在一些实施方案中,后端系统可以生成表示确认消息的文本。然后,通过执行tts功能性来将此文本转换成音频。可将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,第一电子设备可以陈述:“播放content。”

在步骤1214处,后端系统从第一电子设备接收第二音频数据。步骤1214可以类似于过程1000的步骤1002,并且相同的描述适用。第二音频数据可以表示个人所说的话语,并且可以包括请求。例如,如果个人陈述“alexa,在我的电视上播放content”,那么第一电子设备可以记录所陈述措辞并将音频数据发送到后端系统。第二音频数据可以由第一电子设备使用第一电子设备上的一个或多个传声器来记录。

在步骤1216处,后端系统生成表示第二音频数据的第二文本数据。步骤1216可以类似于步骤1206和过程1000的步骤1006,相同的描述适用。第二文本数据可以通过对所接收第二音频数据执行stt功能性来接收。过程1200的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“alexa,播放song”的音频数据,自动语音识别258就可以执行stt。

在步骤1218处,后端系统确定第二电子设备也与用户帐户相关联。在标识与标识符相关联的用户帐户之后,后端系统然后可以搜索与用户帐户相关联的任何另外的设备。相关联设备可以类似于过程1000的相关联设备,并且相同的描述适用。另外,过程1200中所描述的具有用户账户的第二电子设备可以是图1至图3和图5至图6的输出电子设备300。输出电子设备300的公开内容同样适用于过程1200中的第二电子设备。

在步骤1220处,后端系统确定第二文本数据的意图是请求第二电子设备上的内容。nlu可以分析表示第二音频数据的第二文本数据,并确定目标设备在第二文本数据中。在一些实施方案中,目标设备可以是第二电子设备。目标设备的确定可以类似于步骤1132b和1132c,并且相同的描述适用。

在步骤1222处,后端系统确定第二内容和第一内容是相同的。类似于步骤1008,在后端系统已经生成表示第二音频数据的第二文本数据之后,将会将文本数据传输到nlu以进行处理。步骤1218中的nlu处理可以类似于来自步骤1208和过程1000的步骤1008两者的nlu处理,相同的描述适用。nlu接收第一文本数据以确定第一文本数据的意图。经历与步骤1208类似的过程之后,nlu可以分裂出第二文本数据的动词、名词并对其进行分析。然后,nlu可以针对可能请求列表对后端系统进行搜索,从而为每个请求分配置信度分数。以上在对图8的描述中更详细地解释置信度分数和预定阈值。然后,nlu可以将第一所请求内容和第二所请求内容进行比较以确定是否存在完全匹配。这可以通过将所分析第二文本与所分析第一文本进行比较并创建置信度分数来实现。如果置信度分数超过预定阈值,那么后端系统可以确定内容是相同的。例如,nlu可以确定第二文本数据对“content”的提及是与第一文本数据中所提及相同的内容。在一些实施方案中,后端系统可以确定确认是必要的。如果情况是这样,那么后端系统可以生成确认文本。此确认文本可以表示询问是否应当将歌曲传送到第二电子设备的问题。例如,确认文本可以表示询问“您想要在您的电视上播放content吗?”的问题。然后,将会通过对确认文本数据执行tts功能性来将此确认文本数据转换成确认音频数据。一旦被后端系统接收,就可以将确认音频发送到第一电子设备,使得由第一电子设备上的一个或多个扬声器播放确认音频。例如,第一个电子设备可以陈述:“您想要在您的电视上播放content吗?”

然后,第一电子设备可以接收对确认音频的响应性音频。然后,可以将响应性音频传输到后端系统。如在步骤1206中,然后将会将通过对响应性音频上执行stt功能性来将响应性音频转换成文本。一旦后端系统接收到表示响应性音频的文本,然后就会将文本发送到nlu以进行分析。nlu将确定所述响应是肯定响应还是否定响应。如果响应是肯定的,那么所述过程将继续进行下面的步骤1224。肯定响应例如可以是“是”。如果响应是否定响应,那么所述过程可以停止并且可以在第一电子设备上播放content。否定响应例如可以是“否”。

在步骤1224处,后端系统确定生成停止指令。停止指令可以用于停止由第一电子设备播放内容的目的。停止指令可以指导第一电子设备停止播放content。

在步骤1226处,后端系统将停止指令发送到第一电子设备。一旦后端系统已经生成停止指令,后端系统然后就可以将停止指令发送到第一设备以停止播放内容。语音激活电子设备将接收指令并停止内容。在一些实施方案中,后端系统可以生成表示通知消息的文本。通知消息的目的可以是通知个人将继续在相关联设备上播放内容。将会通过对通知文本执行tts功能性来将通知文本转换成通知音频。一旦后端系统已经接收到通知音频,就会将通知音频传输到第一电子设备,使得由第一电子设备上的一个或多个扬声器播放通知音频。例如,语音激活电子设备可以陈述:“将在您的电视上播放content。”在一些实施方案中,可以由第二电子设备上的一个或多个扬声器播放通知音频。在此实施方案中,代替或除了发送到第一电子设备,将会将通知音频发送到第二电子设备。

在步骤1228处,后端系统接收对第二音频数据的响应性内容。类似于步骤1210,内容可以是能在第二电子设备上播放的任何内容。在一些实施方案中,内容可以是content。普通技术人员认识到,content的使用仅仅是示例性的。后端系统可以接收在第一电子设备上播放的相同内容。

在步骤1230处,后端系统将第二内容发送到第二电子设备。然后,可以由第二电子设备通过第二电子设备上的一个或多个传声器播放第二内容数据。第二电子设备上的一个或多个传声器可以类似于图3的扬声器314,并且相同的描述适用。在一些实施方案中,后端系统可以生成表示确认消息的文本。然后,通过执行tts功能性来将此文本转换成音频。可将确认消息发送到第二电子设备。然后,第二电子设备可以使用一个或多个扬声器输出确认消息。例如,语音激活电子设备可以陈述:“播放content。”在一些实施方案中,可以由第一电子设备上的一个或多个扬声器播放确认音频。在此实施方案中,代替或除了发送到第二电子设备,将会将确认音频发送到第一电子设备。

图11a是根据各种实施方案的用于基于相关联设备的状态来路由内容的过程1300的例示性流程图。与过程1300一样,过程1300可以在例如后端系统100中实现,并且相同的描述适用于此。本领域普通技术人员将认识到,在一些实施方案中,可以重新排列或省略过程1300内的步骤。在一些实施方案中,过程1300可以在步骤1302处开始。在步骤1302处,后端系统100可以从第一电子设备接收第一音频数据。步骤1202可以类似于过程1000的步骤1002,并且相同的描述适用。在一些实施方案中,过程1300的第一电子设备可以是图1至图3和图5至图6的语音激活设备10,并且相同的描述适用。第一音频数据可以表示个人所说的话语,并且可以包括请求。例如,如果个人陈述“alexa,在电视上播放song”,那么第一电子设备可以记录所陈述措辞并将音频数据发送到后端系统。第一音频数据可以由第一电子设备使用第一电子设备上的一个或多个传声器来接收。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。

在步骤1304处,后端系统确定存在与第一电子设备相关联的用户帐户。步骤1304可以类似于过程1000的步骤1004,并且相同的描述适用。在一些实施方案中,如在过程1000的步骤1004中,后端系统可以接收与语音激活电子设备相关联的标识符。一旦接收到标识符,后端系统然后就可以标识与标识符相关联的用户帐户。在标识与标识符相关联的用户帐户之后,后端系统然后可以搜索与用户帐户相关联的任何另外的设备。

在步骤1306处,后端系统可以确定第一音频数据来自所存储关联内的输入设备。所存储关联可以存储在用户帐户上。在一些实施方案中,在后端系统上可以存在所存储关联。所存储关联可以类似于图7所示的关联,并且相同的描述适用。例如,后端系统可以确定第一音频数据来自语音激活电子设备。一旦确定音频来自哪里,后端系统就可以识别语音激活电子设备是所存储关联内的输入设备。所存储关联可以是语音激活电子设备与电视之间的关联。在一个实例中,所存储关联可以具有作为输入设备的语音激活电子设备和作为输出设备的电视。此外,可能存在所存储内容偏好。例如,所存储内容偏好可以是对歌曲的偏好。如果情况是这样,那么来自语音激活电子设备的对歌曲的请求将在电视上输出。

在步骤1308处,后端系统可以确定所存储关联中的内容偏好和输出设备。在一些实施方案中,关联可以具有一个输入设备和一个输出设备。一旦确定第一音频来自所存储关联中的输入设备,后端系统就可以确定输出设备是什么。此外,后端系统可以确定内容偏好是什么(如果有的话)。例如,所存储关联可以是语音激活电子设备与电视之间的关联。语音激活电子设备可以是输入设备。电视可以是输出设备。此外,可能存在内容偏好。如果这样,那么内容偏好可以确定从输入设备接收的音频数据是否触发所述关联。例如,如果内容偏好是有声读物(将意味着任何时间从语音激活电子设备接收的音频都请求有声读物),那么将在电视上播放有声读物。在一些实施方案中,可以省略这个步骤。

在步骤1310处,后端系统可以生成表示第一音频数据的第一文本数据。步骤1310可以类似于过程1000的步骤1006,并且相同的描述适用。文本数据可以通过对所接收第一音频数据执行stt功能性来生成。过程1300的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“alexa,在电视上播放song”的音频数据,自动语音识别258就可以对音频数据执行stt功能性。这将创建表示所接收音频的文本数据。

在步骤1312处,后端系统100可以确定第一文本数据的意图。类似于步骤1008,在后端系统已经生成表示第一音频数据的第一文本数据之后,将会将文本数据发送到nlu以进行处理。步骤1308中的nlu处理可以类似于过程1000的步骤1008的nlu处理,并且相同的描述适用。nlu接收第一文本数据以确定第一文本数据的意图。本文描述的nlu可以通过使用图3的自然语言理解260来完成。图3的相同公开内容适用于此。继续所述实例,nlu接收表示陈述“alexa,播放song”的音频数据的文本数据。在识别唤醒词之后,nlu可以分裂出话语“播放song”和“在电视上”并对其进行分析。为了允许nlu更好地理解意图,nlu将分裂出动词“播放”并对其进行分析。与过程1100一样,播放可以是指许多内容类型,诸如歌曲或电影。在此实施方案中,名词是确定性的,因为它是“song”。在此实施方案中使用的词歌曲是指nlu会理解的特定电影。如果“song”不是确定性的,那么后端系统可以使用类似于过程1100的过程来缩小话语的意图。接下来,nlu然后可以针对可能请求列表对后端系统进行搜索,从而为每个请求分配置信度分数。以上在对图8的描述中更详细地解释置信度分数和预定阈值。nlu可以确定第一文本数据的意图是对播放song的请求。

在步骤1314处,后端系统可以确定所请求内容的类型是所述关联中存储的内容的相同类型。在一些实施方案中,所存储关联可以具有内容偏好。一旦后端系统确定所接收音频来自关联内的输入设备,后端系统就可以注意查看是否存在内容偏好。如果存在内容偏好,那么后端系统可以尝试将所请求内容类型和所存储内容偏好进行匹配。例如,当nlu已经确定第一文本数据的意图时,nlu可以确定所请求内容的类型。在确定所请求内容的类型之后,nlu可以尝试将所请求内容的类型与所述关联内的所存储内容偏好进行匹配。如果所请求内容类型与所存储偏好匹配,那么nlu将知道要将内容发送到哪里。例如,如果所存储偏好是歌曲,那么nlu将尝试将所请求内容类型与歌曲进行匹配。继续上面的实例,因为所请求内容是song,于是nlu将知道目标设备将是所述关联中的输出设备。在此实施方案中,因为输出设备是电视机,所以输入设备所请求的song将在电视上播放。在一些实施方案中,可以省略这个步骤。

在一些实施方案中,所请求内容的类型将不与内容偏好匹配。如果情况是这样,那么后端系统可以与过程1000和1100类似的方式操作。在一些实施方案中,没有内容偏好。如果情况是这样,那么可以基于输出设备是否能输出所请求内容来将内容路由到输出设备。如果输出设备不能输出所请求内容,那么输入设备或任何其他相关联设备可以输出所请求内容。

在步骤1316处,后端系统确定第二电子设备是就绪、可用还是不可用。在一些实施方案中,“就绪、可用或不可用”可以称为功能状态。一旦后端系统确定由于所述关联将会将内容路由到第二电子设备,后端系统就可以确定第二电子设备是否能接收内容。在一些实施方案中,如果存在相关联,那么可以将第二电子设备的状态存储在所述关联中。此外,在一些实施方案中,后端系统可以向第二电子设备发送状态请求。状态请求可以来自图3的内容路由模块270,并且相同的描述适用。后端系统发送的状态请求可以确定相关联设备所处的状态。相关联设备的状态可以帮助确定是否能将内容路由到相关联设备。在一些实施方案中,存在三种状态:不可用、就绪和可用。虽然仅公开了三种状态,但是本领域普通技术人员将认识到,可以使用任何数量的状态并且可以有效地确定是否能将内容路由到相关联设备。后端系统可以发送模拟测试或确定第二电子设备是否可以输出所请求内容的任何其他合适的手段。以下在图11b至图11d的描述中更详细地描述了每种状态的情况。

图11b是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是就绪状态。继续图11a中的过程1300,在步骤1318b处,后端系统确定输出设备的状态是就绪。在一些实施方案中,输出设备的就绪状态可以通过从第二电子设备发送到后端系统的对状态请求的响应来确定。此响应可以元数据的形式呈现。在一些实施方案中,输出设备的就绪状态可以通过由输出设备发送到后端系统的保存状态更新来确定。此保存状态更新可以定期发送,或者可以仅在输出设备变成就绪时发送。在一些实施方案中,可已经将测试发送到输出设备。此测试可已经成功运行,从而确定第二电子设备可能够输出所请求内容。

在步骤1320b处,后端系统接收响应于第一音频数据的内容。内容可以是能在第一电子设备或第二电子设备上播放的任何内容。在一些实施方案中,内容可以是歌曲。如果nlu确定第一音频数据用信号通知了应当播放“song”,那么后端系统可以从歌曲类别接收音频数据。歌曲类别可以类似于图3的类别服务器/技能262或在其内,并且相同的描述适用。如果后端系统不确定它是否检索到正确歌曲,那么后端系统可以生成表示确认消息的文本数据。可以使用tts功能性将此文本数据转换成音频数据。此外,后端系统可以接收接听指令。这些接听指令可以类似于过程1000的接听指令,并且相同的描述适用。一旦后端系统接收到音频数据,后端系统就可以将音频数据发送到第一电子设备,使得由第一电子设备上的一个或多个扬声器播放音频消息。此消息例如可以是“您的意思是song吗?”在所播放音频之后,后端系统将会将接听指令发送到第一个电子设备。一旦发送了此确认消息和接听指令,第一电子设备就可以接收响应性音频数据。可以将此音频数据发送到后端系统,在后端系统中,将会使用stt功能性将音频数据转换成文本数据。然后,nlu将分析文本数据以确定后端系统是否具有正确歌曲。如果nlu确定所述响应指示后端系统不具有正确歌曲,那么后端系统可以停止所述过程。在一些实施方案中,可以省略这个步骤。在一些实施方案中,内容可以存储在本地。

在步骤1322b处,后端系统将内容发送到输出设备。继续song实例,将从类别服务器或技能服务器接收的音频数据传输到输出设备。过程1300的输出设备可以类似于图3的输出电子设备300,并且相同的描述适用。然后,可以由输出设备的一个或多个扬声器播放音频数据。输出设备的一个或多个扬声器可以类似于图3的扬声器314,并且相同的描述适用。

在一些实施方案中,后端系统可以确定用户帐户能够访问内容。这可以与对应地图8b和图8c的步骤1134b和步骤1134c类似地完成,并且相同的描述适用。后端系统还可以生成允许第二电子设备流式传输所接收内容的url。这可以与对应地图8b和图8c的步骤1136b和步骤1136c类似地完成,并且相同的描述适用。此外,可以将所生成url发送到第二电子设备,从而允许第二电子设备流式传输所请求内容。这可以与对应地图8b和图8c的步骤1138b和步骤1138c类似地完成,并且相同的描述适用。

在步骤1324b处,后端系统接收表示输出设备就绪的通知的通知文本数据。在一些实施方案中,后端系统可以生成表示输出设备就绪的通知消息的文本。此通知文本可以使用图3的内容路由模块270生成,并且相同的描述适用。例如,表示通知的文本可以陈述:“您的电视已就绪。”

在步骤1326b处,后端系统生成表示通知文本数据的通知音频数据。一旦后端系统接收到通知文本数据,就将通知文本数据转换成音频数据。通知文本数据通过对通知文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。例如,确认音频数据可以陈述:“您的电视已就绪。”

在步骤1328b处,后端系统将通知音频数据发送到第一电子设备。将从tts生成的通知音频数据发送到第一电子设备。然后,可以由第一电子设备使用第一电子设备上的一个或多个传声器来播放音频数据。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。例如,语音激活电子设备可以陈述:“您的电视已就绪。”

图11c是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是可用状态。继续图11a中的过程1300,在步骤1318c处,后端系统确定输出设备的状态是可用。在一些实施方案中,输出设备的可用状态可以通过从输出设备发送的对状态请求的响应来确定。此响应可以元数据的形式呈现。在一些实施方案中,输出设备的可用状态可以通过由第二电子设备发送到后端系统的保存状态更新来确定。此保存状态更新可以定期发送,或者可以仅在输出设备变得可用时发送。

在步骤1320c处,后端系统生成用于使输出设备更改状态的指令。响应于确定输出设备可用,后端系统可以生成将输出设备的状态从可用状态更改为就绪状态的指令。虽然可用状态可以是输出设备已通电的指示,但它可能并不允许输出设备播放任何内容。在一些实施方案中,输出设备可能处于可用状态,因为输出设备已经在播放内容。如果情况是这样,那么所生成指令可以包括停止播放内容的指令。

在步骤1322c处,后端系统将指令发送到输出设备。一旦已经生成指令,后端系统就可以发送所生成指令以将输出设备的状态从可用状态更改为就绪状态,从而允许传输内容并由输出设备播放内容。在一些实施方案中,一旦输出设备更改其状态,就可以从输出设备向后端系统发送确认通告。此通告可以确认输出设备处于就绪状态并且能接收和输出内容。

在步骤1324c处,后端系统接收响应于第一音频数据的内容。步骤1324c可以类似于步骤1320b,并且相同的描述适用。在一些实施方案中,内容可以是电影。如果nlu确定所述内容用信号通知了应当播放“电影”,那么后端系统可以从电影类别接收视频数据。电影类别可以类似于图3的类别服务器/技能262或在其内,并且相同的描述适用。在一些实施方案中,可以省略这个步骤。

在步骤1326c处,后端系统将内容发送到输出设备。继续所述实例,将从类别服务器或技能服务器接收的视频数据传输到第二电子设备。过程1300的第二电子设备可以类似于图3的输出电子设备300,并且相同的描述适用。然后,可以由输出设备的一个或多个扬声器和显示屏播放视频数据。输出设备的一个或多个扬声器可以类似于图3的扬声器314,并且相同的描述适用。输出设备的显示屏可以类似于图3的显示器312,并且相同的描述适用。

在一些实施方案中,后端系统可以确定用户帐户能够访问内容。这可以与对应地图8b和图8c的步骤1134b和步骤1134c类似地完成,并且相同的描述适用。后端系统还可以生成允许第二电子设备流式传输所接收内容的url。这可以与对应地图8b和图8c的步骤1136b和步骤1136c类似地完成,并且相同的描述适用。此外,可以将所生成url发送到第二电子设备,从而允许第二电子设备流式传输所请求内容。这可以与对应地图8b和图8c的步骤1138b和步骤1138c类似地完成,并且相同的描述适用。

在步骤1328c处,后端系统接收表示输出设备就绪的通知的通知文本数据。这个步骤可以类似于图11b的步骤1324b,并且相同的描述适用。在一些实施方案中,后端系统可以接收表示第二电子设备就绪的通知消息的文本。此通知文本可以使用图3的内容路由模块270生成,并且相同的描述适用。例如,表示通知的文本可以陈述:“您的电视已就绪。”

在步骤1330c处,后端系统生成表示通知文本数据的通知音频数据。这个步骤可以类似于图11b的步骤1326b,并且相同的描述适用。一旦后端系统接收到通知文本数据,就将通知文本数据转换成音频数据。通知文本数据通过对通知文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。例如,确认音频数据可以陈述:“您的电视已就绪。”

在步骤1332c处,后端系统将表示通知的通知音频数据发送到第一电子设备。这个步骤可以类似于图11b的步骤1328b,并且相同的描述适用。将通过tts生成的通知音频数据发送到第一电子设备。然后,可以由第一电子设备通过第一电子设备上的一个或多个传声器来播放音频数据。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。例如,第一设备可以陈述:“您的电视已就绪。”

图11d是根据各种实施方案的接续图11a中的过程的例示性流程图,其中相关联设备的状态是不可用状态。继续图11a中的过程1300,在步骤1318d处,后端系统确定输出设备的状态是不可用。在一些实施方案中,这可以通过在预定量的时间内未接收到对状态请求的响应来实现。例如,如果后端系统向输出设备发送状态请求,那么后端系统可以等待两秒钟来接收响应。如果在这两秒窗口内未接收到响应,那么后端系统可以确定输出设备不可用。在一些实施方案中,这可以通过具有从输出设备变得不可用时保存的状态来实现。在一些实施方案中,状态可以通过向输出设备发送测试来确定。如果测试失败,那么后端系统可以确定输出设备不可用。

在步骤1320d处,后端系统接收表示输出设备不可用的通知的通知文本数据。在一些实施方案中,后端系统可以接收表示输出设备不可用的通知消息的文本。此通知文本可以使用图3的内容路由模块270生成,并且相同的描述适用。例如,表示通知的文本可以陈述:“您的电视不可用。”

在步骤1322d处,后端系统生成表示通知文本数据的通知音频数据。一旦后端系统接收到通知文本数据,就将通知文本数据转换成音频数据。通知文本数据通过对通知文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。例如,确认音频数据可以陈述:“您的电视不可用。”

在步骤1324d处,后端系统将通知音频数据发送到第一电子设备。将通过tts生成的通知音频数据发送到第一电子设备。然后,可以由第一电子设备通过第一电子设备上的一个或多个传声器来播放音频数据。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。例如,第一电子设备可以播放:“您的电视不可用。”在一些实施方案中,所述过程可以在此处停止。然而,在一些实施方案中,可以在第一电子设备上播放内容。在一些实施方案中,后端系统可以接收表示请求用户是否想要在第一电子设备上播放内容的确认消息的文本。在此实施方案中,通过对文本执行tts功能性来将所接收文本转换成音频数据。然后,后端系统可以生成接听指令。如所描述的,接听指令可以类似于过程1100的接听指令,并且相同的描述适用于此。然后,将音频发送到第一电子设备。例如,第一电子设备可以播放:“您想要在语音激活电子设备上播放song吗?”在发送音频之后,后端系统可以将接听指令发送到第一电子设备,使得第一电子设备进行记录并发送响应。然后,后端系统可以接收响应。一旦后端系统生成表示响应性音频的文本,nlu然后就会分析文本。nlu将确定所述响应是肯定响应还是否定响应。如果响应是肯定的,那么将在第一电子设备上播放内容。肯定响应例如可以是“是”。如果响应是否定响应,那么所述过程可以停止。否定响应例如可以是“否”。

在步骤1326d处,后端系统接收响应于第一音频数据的内容。如果nlu确定被请求在第二电子设备上播放的内容也能在第一电子设备上播放,那么后端系统可以接收响应于第一音频数据的内容。在图4、图8a、图8b和图8c的描述中更详细地描述了用于确定哪种内容能在哪种设备上播放的过程,并且这些描述适用于此。例如,如果个人请求在他/她的电视上播放歌曲,那么后端系统可以确定可以在第二电子设备(即,电视)或第一电子设备上播放此内容。然而,如果请求了电影,那么后端系统可以确定不能在第一电子设备上播放内容(即,如果第一电子设备没有显示屏的话),并且所述过程可以停止。继续song实例,后端系统可以从歌曲类别接收song。此类别可以类似于图3的类别服务器/技能262,并且相同的描述适用。在一些实施方案中,可以省略这个步骤。

在步骤1328d处,后端系统将内容发送到第一电子设备。将从类别服务器或技能服务器接收的内容传输到第一电子设备。然后,可以由第一电子设备的一个或多个扬声器播放内容。第一电子设备的一个或多个扬声器可以类似于图3的一个或多个扬声器210,并且相同的描述适用。在一些实施方案中,所述过程可以在这里结束,并且可以完成在第一电子设备上播放内容。

在一些实施方案中,后端系统可以确定用户帐户能够访问内容。这可以与对应地图8b和图8c的步骤1134b和步骤1134c类似地完成,并且相同的描述适用。后端系统还可以生成允许第一电子设备流式传输所接收内容的url。这可以与对应地图8b和图8c的步骤1136b和步骤1136c类似地完成,并且相同的描述适用。此外,可以将所生成url发送到第一电子设备,从而允许第一电子设备流式传输所请求内容。这可以与对应地图8b和图8c的步骤1138b和步骤1138c类似地完成,并且相同的描述适用。

在步骤1330d处,后端系统确定输出设备处于就绪状态。在一些实施方案中,输出设备的就绪状态可以通过从输出设备发送到后端系统的对状态请求的响应来确定。例如,如果刚刚打开输出设备,那么可以向后端系统发送对已发送状态报告的响应,所述响应指示输出设备已打开并准备好接收内容。在一些实施方案中,输出设备的就绪状态可以通过在打开输出设备时发送的状态更新来确定。这可在每次打开输出设备时发生,并且可以由后端系统存储。

在步骤1332d处,后端系统接收表示询问将内容移动到输出设备的提示的文本数据。一旦后端系统确定输出设备处于就绪状态,后端系统就可以接收表示询问是否应当将内容移动到输出设备的提示的提示文本数据。此通知可以从图3的内容路由模块270接收,并且相同的描述适用。例如,表示通知的文本可以陈述:“应当将内容移动到电视?”

在步骤1334d处,后端系统生成表示提示文本数据的提示音频数据。一旦后端系统已经接收到提示文本数据,那么就将提示文本数据转换成音频数据。提示文本数据通过对提示文本数据执行tts功能性来转换成音频数据。tts功能性可以类似于图3的文本到语音264,并且相同的描述适用。例如,提示音频数据可以陈述:“应当将内容移动到电视?”

在步骤1336d处,后端系统生成接听指令。过程1300的接听指令可以类似于过程1100的接听指令,并且相同的描述适用。在发送提示之前,后端系统可以生成用于第一电子设备的接听指令。接听指令可以指示第一电子设备记录对提示的响应并将那个响应发送到后端系统。在一些实施方案中,接听指令指示第一电子设备记录而无需等待唤醒词。

在步骤1338d处,后端系统将提示音频数据发送到第一电子设备。将从tts接收的提示音频数据传输到第一电子设备。然后,可以由第一电子设备通过第一电子设备上的一个或多个传声器来播放音频数据。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。例如,语音激活电子设备可以陈述:“应当将内容移动到电视?”

在步骤1340d处,后端系统将接听指令发送到第一电子设备。可以将所生成接听指令发送到第一电子设备,以便指示第一电子设备记录对提示的响应。然后,可以将所记录响应发送回后端系统。步骤1338d可以类似于图8a中的过程1100的步骤1122,并且相同的描述适用。

在步骤1342d处,后端系统从第一电子设备接收第二音频数据。第二音频数据可以表示对第一电子设备所记录的提示的响应。第一电子设备可以通过使用其传声器中的一个或多个来记录响应。第一电子设备上的一个或多个传声器可以类似于图3的一个或多个传声器208,并且相同的描述适用。例如,音频数据可以表示陈述“是的,在我的电视上播放内容”的响应。

在步骤1344d处,后端系统生成表示第二音频数据的文本数据。步骤1344d可以类似于过程1000的步骤1006,并且相同的描述适用。文本数据可以通过对所接收第二音频数据执行stt功能性来生成。过程1300的stt功能性可以通过使用图3所示的自动语音识别258来完成。图3的自动语音识别258和图3的语音到文本266的公开内容适用于此。继续所述实例,一旦后端系统接收到陈述“是的,在我的电视上播放内容”的音频数据,自动语音识别258就可以对音频数据执行stt功能性。这将创建表示所接收音频的文本数据。

在步骤1346d处,后端系统确定第二音频数据的意图。一旦后端系统生成表示第二音频数据的文本,nlu然后就会分析文本。nlu将确定所述响应是肯定响应还是否定响应。如果响应是肯定的,那么将在第二电子设备上播放内容。肯定响应例如可以是“是”。如果响应是否定响应,那么内容将仍然在语音激活电子设备上。否定响应例如可以是“否”。例如,如果个人用“否”来响应所述提示,那么可以继续在第一电子设备上播放song。

在步骤1348d处,后端系统生成停止指令。步骤1346d可以类似于图10的步骤1224,并且相同的描述适用。停止指令可以用于停止由第一电子设备播放内容的目的。停止指令可以指示第一电子设备停止播放当前正在第一电子设备上输出的内容。

在步骤1350d处,后端系统将停止指令发送到第一电子设备。第一电子设备可以接收指令并停止内容。在一些实施方案中,后端系统可以接收表示通知消息的文本。通知消息的目的可以是通知个人将继续在第二电子设备上播放内容。将会通过对通知文本执行tts功能性来将通知文本转换成通知音频。一旦后端系统已经生成通知音频,就会将通知音频传输到第一电子设备,使得由第一电子设备上的一个或多个扬声器播放通知音频。例如,语音激活电子设备可以陈述:“将在您的电视上播放您的内容。”在一些实施方案中,可以由第二电子设备上的一个或多个扬声器播放通知音频。在此实施方案中,代替或除了发送到第一电子设备,将会将通知音频发送到第二电子设备。

在步骤1352d处,后端系统接收响应于第一音频数据的内容。后端系统可以接收在第一电子设备上播放的相同内容。在一些实施方案中,后端系统可以生成表示确认消息的文本数据。步骤1352d可以类似于步骤1326d,并且相同的描述适用。在一些实施方案中,可以省略这个步骤。

在步骤1354d处,后端系统将内容发送到输出设备。然后,可以由输出设备通过输出设备上的一个或多个传声器来播放内容。在一些实施方案中,后端系统可以接收表示确认消息的文本。然后,通过执行tts功能性来将此文本转换成音频。可将确认消息发送到第一电子设备。然后,第一电子设备可以使用一个或多个扬声器输出确认消息。例如,语音激活电子设备可以陈述:“播放content。”在一些实施方案中,可以由输出设备上的一个或多个扬声器播放确认音频。在此实施方案中,代替或除了发送到第一电子设备,将会将确认音频发送到输出设备。

在一些实施方案中,后端系统可以确定用户帐户能够访问内容。这可以与对应地图8b和图8c的步骤1134b和步骤1134c类似地完成,并且相同的描述适用。后端系统还可以生成允许第二电子设备流式传输所接收内容的url。这可以与对应地图8b和图8c的步骤1136b和步骤1136c类似地完成,并且相同的描述适用。此外,可以将所生成url发送到第二电子设备,从而允许第二电子设备流式传输所请求内容。这可以与对应地图8b和图8c的步骤1138b和步骤1138c类似地完成,并且相同的描述适用。

本发明的各种实施方案可以通过软件实现,但也可以以硬件实现,或者以硬件和软件的组合实现。本发明也可以体现为计算机可读介质上的计算机可读代码。计算机可读介质可以是此后可由计算机系统读取的任何数据存储设备。

上述内容也可以根据以下条款来理解。

1.一种方法,其包括:

在电子设备处接收表示第一话语的第一音频数据,所述第一音频数据是从语音激活电子设备接收的;

接收与所述语音激活电子设备相关联的客户标识符;

确定与所述客户标识符相关联的用户帐户;

通过对所述第一请求音频数据执行语音到文本功能性,生成表示所述第一请求音频数据的第一文本数据;

使用所述第一文本数据确定第一话语的第一意图是要由目标设备输出信息;

确定能够呈现视觉数据的输出设备也与用户帐户相关联;

确定对所述第一话语的视觉信息响应是可获得的;

确定所述目标设备是所述输出设备,使得将由所述输出设备的显示屏显示所述视觉信息响应;

确定要将第一音频响应发送到所述语音激活电子设备;

确定要将第二音频响应发送到所述输出设备;

确定还要将视频响应发送到所述输出设备;

生成表示所述第一音频响应的第一响应文本数据;

通过对所述第一响应文本数据执行文本到语音功能性,生成表示所述第一响应文本数据的第一音频数据;

将所述第一音频数据发送到所述语音激活电子设备,使得由所述语音激活电子设备的扬声器播放所述第一音频响应;

生成对所述第一话语的所述第二音频响应的第二响应文本数据,这包括从应用程序接收所述第二响应文本数据的至少一部分;

通过对所述第二响应文本数据执行所述文本到语音功能性,生成表示所述第二响应文本数据的第二音频数据;

生成表示对所述第一话语的所述视频响应的响应性视频数据;

将所述第二音频数据发送到所述输出设备,使得由所述输出设备的第二扬声器播放所述第二音频响应;以及

将所述响应性视频数据发送到电视,使得由所述输出设备的所述显示屏播放所述视频响应。

2.如条款1所述的方法,其还包括:

从所述语音激活电子设备接收表示第二话语的第二请求音频数据;

通过对所述第二请求音频数据执行语音到文本功能性,生成表示所述第二请求音频数据的第二文本数据;

通过以下方式使用所述第二文本数据确定所述第二话语的第二意图:

从第一域接收第一置信度分数,所述第一置信度分数指示所述第二话语是对在所述语音激活电子设备上播放第一内容的请求的第一可能性;

从第二域接收第二置信度分数,所述第二置信度分数指示所述第二话语是对在所述输出设备上播放第二内容的请求的第二可能性;

确定所述第一置信度分数大于预定阈值,从而指示所述第一域的第一功能性能够服务所述第二话语;

确定所述第二置信度分数也大于所述预定阈值,从而指示所述第二域的第二功能性也能够服务所述第二话语;

确定需要选择所述第一功能性或所述第二功能性来用于对所述第二话语作出响应以确定所述第二意图;

生成表示询问应当由所述第一域还是由所述第二域来对所述第二话语作出响应的意图问题的查询文本数据;

通过对所述查询文本数据执行所述文本到语音功能性,生成表示所述查询文本数据的查询音频数据;

生成用于使所述语音激活用户设备在播放所述查询音频之后继续发送表示本地音频的另外音频数据的指令,所述另外音频数据由所述语音激活电子设备捕获;

将所述查询音频数据发送到所述语音激活电子设备,使得由所述扬声器播放所述意图问题;

将所述指令发送到所述语音激活用户设备;

从所述语音激活用户设备接收所述另外音频数据;

通过对所述另外音频数据执行所述语音到文本功能性,生成表示所述另外音频数据的第三文本数据;以及

使用所述第三文本数据确定所述本地音频包括意图响应的第三话语,所述意图响应具有在所述输出设备上播放所述第二内容的第三意图;

确定所述用户帐户能够访问所述第二内容;

生成允许所述输出设备流式传输所述第二内容的url;以及

将所述url发送到所述输出设备,使得所述输出设备流式传输所述第二内容。

3.如条款1所述的方法,其还包括:

从所述语音激活电子设备接收表示第二话语的第二请求音频数据;

通过对所述第二请求音频数据执行语音到文本功能性,生成表示所述第二请求音频数据的第二文本数据;

确定所述第二文本数据的第二意图是对在所述语音激活电子设备上播放第一歌曲的请求;

生成允许所述语音激活电子设备流式传输所述第一歌曲的第一url;

将所述第一url发送到所述语音激活电子设备,使得使用所述扬声器播放所述歌曲;

从所述语音激活用户设备接收表示第三话语的第三请求音频数据;

通过对所述第三请求音频数据执行语音到文本功能性,生成表示所述第三请求音频数据的第三文本数据;

确定所述第三文本数据的第三意图是对在所述输出设备上播放所述第一歌曲的另一请求;

生成用于使所述语音激活用户设备停止播放所述第一歌曲的指令;

将所述指令发送到所述语音激活设备,使得停止在所述语音激活用户设备上播放所述第一歌曲;

生成允许所述输出设备流式传输所述第一歌曲的第二url;

生成用于所述输出设备的歌曲视频数据;

将所述第二url发送到所述输出设备,使得由所述第二扬声器播放所述第一歌曲;

将所述歌曲视频数据发送到所述输出设备,使得在由所述第二扬声器播放所述第一歌曲的同时由所述显示屏播放所述歌曲视频数据;

接收表示电视确认消息的第四文本数据;

通过对所述第五文本数据执行文本到语音功能性,生成表示所述第四文本数据的第五音频数据;以及

将所述第五音频数据发送到所述语音激活用户设备,使得由所述扬声器播放所述电视确认。

4.一种用于路由内容的方法,所述方法包括:

从第一电子设备接收表示第一话语的第一音频数据;

确定第一用户帐户与所述第一电子设备相关联;

生成表示所述第一音频数据的第一文本数据;

使用所述第一文本数据确定所述第一话语的第一意图;

确定第二电子设备也与所述用户帐户相关联;

确定对所述第一话语的图像响应能够被发送到所述第二电子设备;

生成表示对所述第一话语的第一响应的第二文本数据;

生成表示对所述第一话语的第二响应的第三文本数据;

生成表示所述第二文本数据的第二音频数据;

将所述第二音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第一响应;

生成表示所述第三文本数据的第三音频数据;

将所述第三音频数据发送到所述第二电子设备,使得由所述第二电子设备输出所述第二响应;

生成表示所述图像响应的图像数据;以及

将所述图像数据发送到所述第二电子设备,使得在所述第二电子设备上输出所述图像响应。

5.如条款4所述的方法,其中确定所述第一用户帐户还包括:

接收与所述第一电子设备相关联的客户标识符;以及

确定所述客户标识符与所述用户帐户相关联。

6.如条款4所述的方法,其还包括:

确定第一意图还包括:确定所述第一意图是要在目标设备上播放内容;并且

确定第二电子设备也与所述用户账户相关联还包括:确定所述目标设备是所述第二电子设备。

7.如条款4所述的方法,其还包括:

从所述第一电子设备接收表示第二话语的第四音频数据;

生成表示所述第四音频数据的第四文本数据;

通过以下方式确定所述第四文本数据的第二意图:

接收超过预定阈值的第一置信度分数;

接收超过所述预定阈值的第二置信度分数;

生成表示查询消息的第五文本数据;

生成表示所述第五文本数据的第五音频数据;

生成用于所述第一电子设备的第一指令;

将第五音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第五音频数据;

将所述第一指令发送到所述第一电子设备,使得所述第一电子设备发送第六音频数据;

从所述第一电子设备接收表示对所述查询消息的响应的所述第六音频数据;

生成表示所述第六音频数据的第六文本数据;以及

使用所述第六文本数据确定对所述查询消息的所述响应的第三意图;

接收响应于所述第二话语的第一内容;以及

将所述第一内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第一内容。

8.如条款7所述的方法,其还包括:

生成第七文本数据;

生成表示所述第七文本数据的第七音频数据;以及

将所述第七音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第七音频数据。

9.如条款4所述的方法,其中确定所述意图还包括:

基于所述第一文本数据确定至少两个域能够对所述第一话语作出响应。

10.如条款9所述的方法,其中所述至少两个域包括:

第一域,所述第一域指示所述第二话语是对在所述第一电子设备上播放具有标题的歌曲的请求;以及

第二域,所述第二域指示所述第二话语是对在所述第二电子设备上播放具有所述标题的电影的请求。

11.如条款4所述的方法,其还包括:

从所述第一电子设备接收表示第二话语的第四音频数据;

生成表示所述第四音频数据的第四文本数据;

确定所述第四文本数据的第二意图;

接收响应于所述第二话语的第一内容;

将所述第一内容发送到所述第一电子设备,使得由所述第一电子设备输出所述第一内容;

从所述第一电子设备接收表示第三话语的第五音频数据;

生成表示所述第五音频数据的第五文本数据;

确定所述第五文本数据的第三意图是要在所述第二电子设备上播放第二内容;

确定所述第二内容和所述第一内容是相同的;

生成用于所述第一电子设备的第一指令;

将所述第一指令发送到所述第一电子设备,使得不再由所述第一电子设备输出所述第一内容;

接收所述第二内容;以及

将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

12.如条款11所述的方法,其还包括:

生成第二图像数据;以及

将所述第二图像数据发送到所述第二电子设备。

13.一种电子设备,其包括:

通信电路,所述通信电路从第一电子设备接收表示话语的第一音频数据;

存储器;以及

至少一个处理器,所述至少一个处理器能操作来:

使用所述通信电路接收表示来自第一电子设备的命令的第一音频数据;

确定所述第一电子设备与第一用户帐户相关联;

生成表示所述第一音频数据的第一文本数据;

使用所述第一文本数据确定所述话语的第一意图;

确定第二电子设备与所述用户帐户相关联;

确定对所述第一话语的图像响应能够被发送到所述第二电子设备;

生成表示对所述第一话语的第一响应的第二文本数据;

生成表示对所述第一话语的第二响应的第三文本数据;

生成表示所述第二文本数据的第二音频数据;

致使所述通信电路将所述第二音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第一响应;

生成表示所述第三文本数据的第三音频数据;

致使所述通信电路将所述第三音频数据发送到所述第二电子设备,使得由所述第二电子设备输出所述第二响应;

生成表示所述图像响应的图像数据;以及

致使所述通信电路将所述图像数据发送到所述第二电子设备,使得在所述第二电子设备上输出所述图像响应。

14.如条款13所述的电子设备,其中所述通信电路进一步从所述第一电子设备接收客户标识符,所述至少一个处理器能进一步操作来:

确定所述客户标识符与所述用户帐户相关联。

15.如条款13所述的电子设备,其中所述至少一个处理器能进一步操作来:

确定第一意图还包括:确定所述第一意图是要在目标设备上播放内容;并且

确定第二电子设备与所述用户账户相关联还包括:确定所述目标设备是所述第二电子设备。

16.如条款13所述的电子设备,其中所述通信电路进一步从所述第一电子设备接收表示第二话语的第四音频数据,所述至少一个处理器能进一步操作来:

生成表示所述第四音频数据的第四文本数据;

接收超过预定阈值的第一置信度分数;

接收超过所述预定阈值的第二置信度分数;

生成表示查询消息的第五文本数据;

生成表示所述第五文本数据的第五音频数据;

生成用于所述第一电子设备的接听指令;

致使所述通信电路将所述第五音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述查询消息;

致使所述通信电路将所述接听指令发送到所述第一电子设备,使得所述第一电子设备发送第六音频;

确定所述通信电路从所述第一电子设备接收到所述第六音频数据;

生成表示所述第六音频数据的第六文本数据;

确定所述第六文本数据的第二意图;

接收响应于所述第二话语的第一内容;以及

致使所述通信电路将所述第一内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第一内容。

17.如条款16所述的电子设备,其中所述至少一个处理器能进一步操作来:

接收第七文本数据;

生成表示所述第七文本数据的第七音频数据;以及

致使所述通信电路将所述第七音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第七音频数据。

18.如条款16所述的电子设备,其中确定所述意图还包括:

基于所述第一文本数据确定至少两个域能够对所述第一话语作出响应。

19.如条款13所述的电子设备,其中所述通信电路进一步从所述第一电子设备接收表示第二话语的第四音频数据,所述至少一个处理器能进一步操作来:

从所述第一电子设备接收表示第二话语的第四音频数据;

生成表示所述第四音频数据的第四文本数据;

确定所述第四文本数据的第二意图;

接收响应于所述第二话语的第一内容;

致使所述通信电路将所述第一内容发送到所述第一电子设备,使得由所述第一电子设备输出所述第一内容。

确定所述通信电路从所述第一电子设备接收到表示第三话语的第五音频数据;

生成表示所述第五音频数据的第五文本数据;

确定所述第五文本数据的第三意图是要在所述第二电子设备上输出所述第一内容;

生成用于所述第一电子设备的第一指令;

致使所述通信电路将第一指令发送到所述第一电子设备,使得不再由所述第一电子设备输出所述第一内容;

接收第二内容,使得所述第二内容与所述第一内容相同;以及

致使所述通信电路将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

20.如条款19所述的电子设备,其中所述至少一个处理器能进一步操作来:

生成第二图像数据;以及

将第二图像数据发送到第二电子设备。

21.一种方法,其包括:

在电子设备处接收表示第一话语的第一音频数据,所述第一音频数据由语音激活电子设备发送;

接收与所述语音激活电子设备相关联的客户标识符;

确定与所述客户标识符相关联的用户帐户;

确定存在存储在所述用户帐户上的关联,其中所述关联是输入设备与输出设备之间的关联;

确定所述输入设备是所述语音激活电子设备;

确定所述输出设备是辅助设备;

确定所述第一话语由所述输入设备接收到;

确定第一内容类型,使得当所述输入设备请求所述第一类型的内容时,将所述第一类型的内容发送到所述输出设备;

通过对所述第一请求音频数据执行语音到文本功能性,生成表示所述第一音频数据的第一文本数据;

使用所述第一文本数据确定所述第一话语的意图是要播放第一内容;

基于所述第一内容属于所述第一内容类型,确定要将所述第一内容发送到所述辅助设备;

确定所述用户帐户能够访问所述第一内容;

向所述辅助设备发送关于所述辅助设备的功能状态进行问询的第一状态请求,其中所述功能状态包括就绪状态、可用状态或不可用状态中的至少一者;

确定在所述第一状态请求被发送时的预定量的时间内未接收到对所述第一状态请求的第一状态响应;

由于在所述预定量的时间内未接收到所述第一状态响应,确定所述辅助设备的所述第一状态是所述不可用状态;

生成表示通知消息的第二文本数据,所述通知消息指示所述辅助设备不能播放所述第一内容并且所述语音激活电子设备将播放所述第一内容;

通过对所述第二文本数据执行文本到语音功能性,生成表示所述第二文本数据的第二音频数据;

将所述第二音频数据发送到所述语音激活电子设备,使得由所述语音激活电子设备的扬声器播放所述通知消息;

生成允许所述语音激活电子设备流式传输所述第一内容的url;以及

将所述url发送到所述语音激活电子设备,使得在所述通知消息之后使用所述扬声器播放所述第一内容。

22.如条款21所述的方法,其还包括:

响应于所述第一状态请求,从所述辅助设备接收状态更新,所述状态更新指示所述辅助设备处于所述就绪状态;

生成第三文本数据,所述第三文本数据表示指示所述辅助设备处于所述就绪状态的状态更新;

通过对所述第三文本数据执行文本到语音功能性,生成表示所述第三文本数据的第三音频数据;

将所述第三音频数据发送到所述语音激活电子设备,使得由所述扬声器播放所述状态更新;

生成第四文本数据,所述第四文本数据表示询问是否应当在所述辅助设备上播放所述歌曲的提示;

通过对所述第四文本数据执行文本到语音功能性,生成表示所述第四文本数据的第四音频数据;

生成用于使所述语音激活电子设备在播放所述查询音频之后发送第五音频的接听指令;

将所述第四音频数据发送到所述语音激活设备,使得由所述扬声器播放所述提示;

将所述接听指令发送到所述语音激活电子设备,使得一旦播放所述提示,所述语音激活电子设备就发送所述第五音频数据;

从所述语音激活设备接收表示对所述提示的响应的第五音频数据;

通过对所述第五音频数据执行语音到文本功能性,生成表示所述第五音频数据的第五文本数据;

确定所述第五文本数据的意图是对所述提示的响应,所述响应指示应当在所述辅助设备上播放所述第一内容;

生成停止在所述语音激活电子设备上流式传输所述第一内容的第一指令;

将用于停止流式传输所述第一内容的所述第一指令发送到所述语音激活电子设备,使得所述语音激活电子设备停止播放所述歌曲;

生成允许所述辅助设备流式传输所述第一内容的url;以及

将所述url发送到所述辅助设备,使得使用所述辅助设备的第二扬声器播放所述第一内容。

23.如条款21所述的方法,其还包括:

从所述语音激活电子设备接收表示第二话语的第三音频数据;

确定所述第二话语被所述输入设备接收到;

通过对所述第三音频数据执行语音到文本功能性,生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的意图是对要播放第二内容的请求;

基于所述第二内容属于所述第一内容类型,确定要将所述第二内容发送到所述辅助设备;

向所述辅助设备发送对第二状态的第二状态请求;

从所述辅助设备接收第二状态响应,所述第二状态响应指示所述输出设备的所述第二状态是所述就绪状态;

生成允许所述辅助设备流式传输所述第二内容的url;

将所述url发送到所述辅助设备,使得使用所述第二扬声器播放所述第二内容;

生成表示确认消息的第四文本数据,所述确认消息指示正在所述辅助设备上播放所述内容;

通过对所述第四文本数据执行文本到语音功能性,生成表示所述第四文本数据的第四音频数据;以及

将所述第四音频数据发送到所述语音激活电子设备,使得由所述扬声器播放所述确认消息。

24.如条款21所述的方法,其还包括:

从所述语音激活电子设备接收表示第二话语的第二请求音频数据;

确定所述第二话语被所述输入设备接收到;

通过对所述第三音频数据执行语音到文本功能性,生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的意图是对要播放第二内容的请求;

基于所述第二内容属于所述第一内容类型,确定要将所述第二内容发送到所述辅助设备;

向所述辅助设备发送对第二状态的第二状态请求;

从所述辅助设备接收第二状态响应,所述第二状态响应指示所述辅助设备的所述第二状态是所述可用状态;

生成用于所述辅助设备的就绪指令,使得所述指令致使所述辅助设备将其状态从所述可用状态更改为所述就绪状态;

将所述就绪指令发送到所述输出设备,使得所述辅助设备的所述第二状态从所述可用状态更改为所述就绪状态;

从所述辅助设备接收指示所述辅助设备处于所述就绪状态的状态更新;

生成允许所述辅助设备流式传输所述第二内容的url;

将所述url发送到所述辅助设备,使得使用所述第二扬声器播放所述第二内容;

生成表示确认消息的第四文本数据,所述确认消息指示正在所述辅助设备上播放所述内容;

通过对所述第四文本数据执行文本到语音功能性,生成表示所述第四文本数据的第四音频数据;以及

将所述第四音频数据发送到所述语音激活电子设备,使得由所述扬声器播放所述确认消息。

25.一种用于路由内容的方法,所述方法包括:

接收表示来自第一电子设备的第一命令的第一音频数据;

确定所述第一电子设备与第二电子设备之间存在关联;

生成表示所述第一音频数据的第一文本数据;

确定所述第一文本数据的第一意图,所述第一意图指示要输出第一内容;

确定要将所述第一内容发送到所述第二电子设备;

确定所述第二电子设备的第一状态是不可用;

生成第二文本数据;

生成表示所述第二文本数据的第二音频数据;

将所述第二音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第二音频数据;以及

将所述第一内容发送到所述第一电子设备,使得由所述第一电子设备输出所述第一内容。

26.如条款25所述的方法,其中确定第一状态还包括:

向所述第二电子设备发送第一状态请求;

确定在预定量的时间内未接收到对所述第一状态请求的第一状态响应;以及

确定所述第二电子设备的所述第一状态是不可用。

27.如条款25所述的方法,其中确定所述第一电子设备与所述第二电子设备之间存在关联还包括:

接收与所述第一电子设备相关联的客户标识符;

确定与所述客户标识符相关联的用户帐户;

确定存在存储在所述用户帐户上的关联,所述关联是输入设备与输出设备之间的关联;

确定所述输入设备是所述第一电子设备;

确定所述输出设备是所述第二电子设备;以及

确定第一内容类型,使得当所述输入设备请求所述第一类型的内容时,将所述第一类型的内容发送到所述输出设备。

28.如条款27所述的方法,其中确定要将所述第一内容发送到所述第二电子设备还包括:

确定所述第一内容属于所述第一内容类型。

29.如条款25所述的方法,其还包括:

确定所述第二电子设备的第二状态是就绪;

生成第三文本数据;

生成表示所述第三文本数据的第三音频数据;

生成用于所述第一电子设备的第一指令;

将所述第三音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第三音频数据;

将所述第一指令发送到所述第一电子设备,使得所述第一电子设备发送所述第三音频数据;

从所述第一电子设备接收表示对所述第三音频数据的响应的所述第四音频数据;

生成表示所述第四音频数据的第四文本数据;

确定所述第四文本数据的第二意图;

生成用于所述第一电子设备的第二指令;

将所述第二指令发送到所述第一电子设备,使得所述第一电子设备停止输出所述第一内容;以及

将所述第一内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第一内容。

30.如条款25所述的方法,其还包括:

接收表示来自所述第一电子设备的第二命令的第三音频数据;

生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的第二意图,所述第二意图指示要输出第二内容;

确定要将所述第二内容发送到所述第二电子设备;

确定所述第二电子设备的第二状态是可用;

生成用于所述第二电子设备的第二指令;

将所述第二指令发送到所述第二电子设备,使得所述第二电子设备从所述第二状态变为第三状态;

确定所述第二电子设备的所述第三状态是就绪;以及

将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

31.如条款25所述的方法,其还包括:

接收表示来自所述第一电子设备的第二命令的第三音频数据;

生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的第二意图,所述第二意图指示要输出第二内容;

确定要将所述第二内容发送到所述第二电子设备;

确定所述第二电子设备的第二状态是就绪;以及

将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

32.如条款30所述的方法,其中确定第二状态还包括:

向所述第二电子设备发送第二状态请求;以及

接收指示所述第二电子设备处于所述就绪状态的第二状态响应。

33.一种电子设备,其包括:

通信电路;

存储器;以及

至少一个处理器,所述至少一个处理器能操作来:

使用所述通信电路接收表示来自第一电子设备的第一命令的第一音频数据;

确定所述第一电子设备与第二电子设备之间存在关联;

生成表示所述第一音频数据的第一文本数据;

确定所述第一文本数据的第一意图,所述第一意图指示要输出第一内容;

确定要将所述第一内容发送到所述第二电子设备;

确定所述第二电子设备的第一状态是不可用;

生成第二文本数据;

生成表示所述第二文本数据的第二音频数据;

致使所述通信电路将所述第二音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第二音频数据;以及

致使所述通信电路将所述第一内容发送到所述第一电子设备,使得由所述第一电子设备输出所述第一内容。

34.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

致使所述通信电路向所述第二电子设备发送第一状态请求;以及

确定在预定量的时间内未接收到对所述第一状态请求的第一状态响应。

35.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

致使所述通信电路接收与所述第一电子设备相关联的客户标识符;

确定与所述客户标识符相关联的用户帐户;

确定存在存储在所述用户帐户上的关联,所述关联是输入设备与输出设备之间的关联;

确定所述输入设备是所述第一电子设备;

确定所述输出设备是所述第二电子设备;以及

确定第一内容类型,使得当所述输入设备请求所述第一类型的内容时,将所述第一类型的内容发送到所述输出设备;

36.如条款35所述的电子设备,其中所述至少一个处理器能进一步操作来:

确定所述第一内容属于所述第一内容类型。

37.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

确定所述第二电子设备的第二状态是就绪;

生成第三文本数据;

生成表示所述第三文本数据的第三音频数据;

生成用于所述第一电子设备的第一指令;

致使所述通信电路将所述第三音频数据发送到所述第一电子设备,使得由所述第一电子设备输出所述第三音频数据;

致使所述通信电路将所述第一指令发送到所述第一电子设备,使得所述第一电子设备发送第四音频数据;

使用所述通信电路接收来自所述第一电子设备的第四音频数据;

生成表示所述第四音频数据的第四文本数据;

确定所述第四文本数据的第二意图;

生成用于所述第一电子设备的第二指令;

致使所述通信电路将所述第二指令发送到所述第一电子设备,使得所述第一电子设备停止输出所述第一内容;以及

致使所述通信电路将所述第一内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第一内容。

38.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

使用所述通信电路接收表示来自所述第一电子设备的第二命令的第三音频数据;

生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的第二意图,所述第二意图指示要输出第二内容;

确定要将所述第二内容发送到所述第二电子设备;

确定所述第二电子设备的第二状态是可用;

生成用于所述第二电子设备的第二指令;

致使所述通信电路将所述第二指令发送到所述第二电子设备,使得所述第二电子设备从所述第二状态变为第三状态;

确定所述第二电子设备的所述第三状态是就绪;

接收所述第二内容;以及

致使所述通信电路将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

39.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

使用所述通信电路接收表示来自所述第一电子设备的第二命令的第三音频数据;

生成表示所述第三音频数据的第三文本数据;

确定所述第三文本数据的第二意图,所述第二意图指示要输出第二内容;

确定要将所述第二内容发送到所述第二电子设备;

确定所述第二电子设备的第二状态是就绪;以及

致使所述通信电路将所述第二内容发送到所述第二电子设备,使得由所述第二电子设备输出所述第二内容。

40.如条款33所述的电子设备,其中所述至少一个处理器能进一步操作来:

致使所述通信电路向所述第二电子设备发送第一状态请求;

确定在预定量的时间内未接收到对所述第一状态请求的第一状态响应;以及

确定所述第二电子设备的所述第一状态是不可用。

提供本发明的上述实施方案是为了说明目的,而不是意图进行限制。虽然已用特定于结构特征的语言描述了主题,但是还应理解,所附权利要求中限定的主题不必限于所描述的具体特征。实际上,具体特征作为实施权利要求的说明性形式来公开。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1