媒体环境中的智能自动化助理的制作方法

文档序号:13453366
媒体环境中的智能自动化助理的制作方法

相关专利申请的交叉引用

本专利申请要求于2015年9月8日提交的名称为“Intelligent Automated Assistant in a Media Environment”的美国临时序列号62/215,676和2015年 12月8日提交的名称为“Intelligent Automated Assistant in a Media Environment”的临时序列号14/963,094的优先权,这两个专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请与以下共同未决的专利申请相关:于2015年12月8日提交的美国非临时专利申请序列号14/963,089,“Intelligent Automated Assistant for Media Search and Playback”(代理人案卷号106842137900(P27499US1));于2014年9月26日提交的美国非临时专利申请序列号14/498,503,“Intelligent Automated Assistant for TV User Interactions”(代理人案卷号 106842065100(P18133US1));以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391,“Real-time Digital Assistant Knowledge Updates” (代理人案卷号106842097900(P22498US1)),这三个申请据此全文以引用方式并入本文以用于所有目的。

技术领域

本发明整体涉及智能自动化助理,并且更具体地涉及正在媒体环境中操作的智能自动化助理。



背景技术:

智能自动化助理(或数字助理)可提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过以自然语言形式将口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理,以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务,并且在一些示例中,可将相关的输出以自然语言形式返回给用户。

期望将数字助理集成到媒体环境(例如,电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中,以帮助用户执行与媒体消费相关的任务。例如,可使用数字助理来帮助找到所需的媒体内容来消费。然而,与数字助理的用户交互可包括可能干扰媒体内容的消费的音频输出和视频输出。因此,将数字助理以一种方式集成到媒体环境中使得在使对媒体内容的消费的干扰最小化时向用户提供足够多的帮助具有挑战性。



技术实现要素:

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在一些示例性过程中,可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。

在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可执行至少部分地满足用户请求的任务。在一些示例中,该任务可包括获取至少部分地满足用户请求的结果,并且显示具有结果的一部分的第二用户界面。可在显示第二用户界面时继续显示内容的一部分,并且第二用户界面的显示区域可小于内容的该一部分的显示区域。

在一些实施方案中,可在显示第二用户界面时检测第三用户输入。响应于检测到第三用户输入,可利用对具有结果的该一部分的第三用户界面的显示来替换对第二用户界面的显示。该第三用户界面可至少占据显示单元的大部分显示区域。此外,可获取至少部分地满足用户请求的第二结果。该第二结果可不同于该结果。该第三用户界面可包括第二结果的至少一部分。

在一些实施方案中,可在显示第三用户界面时检测第四用户输入。该第四用户输入可指示方向。响应于检测到第四用户输入,该第三用户界面的焦点可从第三用户界面中的第一项目切换至第三用户界面中的第二项目。该第二项目可相对于第一项目而被定位在所指示的方向上。

在一些实施方案中,可在显示第三用户界面时检测第五用户输入。响应于检测到第五用户输入,可显示搜索字段。此外,可显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。此外,在一些实施方案中,可使得得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将能够由电子设备经由第二电子设备的键盘来接收。

在一些实施方案中,可在显示第三用户界面时检测第六用户输入。响应于检测到第六用户输入,可对包含第二用户请求的第二音频数据进行采样。该过程可确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可经由第三用户界面来显示结果的子组。根据确定第二用户请求不是用于细化用户请求的结果的请求,可获取至少部分地满足第二用户请求的第三结果。可经由第三用户界面来显示第三结果的一部分。

在一些实施方案中,经采样的音频数据可包括用户话语,并且可确定与用户话语对应的用户意图。该过程可确定用户意图是否包括用于调整应用程序的状态或设置的请求。根据确定用户意图包括用于调整应用程序的状态或设置的请求,可调整应用程序的状态或设置以满足用户意图。

在一些实施方案中,根据确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求,该过程可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。根据确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可显示至少部分地满足用户意图的纯文本结果。

在一些实施方案中,根据确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型,该过程可确定所显示的内容是否包括媒体内容。根据确定所显示的内容包括媒体内容,该过程可进一步确定媒体内容是否可被暂停。根据确定媒体内容可被暂停,使媒体内容暂停,并且可经由第三用户界面来显示至少部分地满足用户意图的结果。该第三用户界面可至少占据显示单元的大部分显示区域。根据确定媒体内容不可被暂停,在显示媒体内容时可经由第二用户界面来显示结果。第二用户界面所占据的显示区域可小于媒体内容所占据的显示区域。此外,在一些实施方案中,根据确定所显示的内容不包括媒体内容,可经由第三用户界面来显示结果。

附图说明

图1示出了根据各种示例的用于实现数字助理的系统和环境的框图。

图2示出了根据各种示例的媒体系统的框图。

图3示出了根据各种示例的用户设备的框图。

图4A示出了根据各种示例的数字助理系统或其服务器部分的框图。

图4B示出了根据各种示例的图4A所示的数字助理的功能。

图4C示出了根据各种示例的知识本体的一部分。

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图6A至图6Q示出了根据各种示例的在图5A至图5I中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图6O被有意地省略,以避免大写字母O和数字0(零)之间的任何混淆。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图8A至图8W示出了根据各种示例的在图7A至图7C中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图8O被有意地省略,以避免大写字母O和数字0(零)之间的任何混淆。

图9示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图10示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

图11示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

具体实施方式

在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。

本发明涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中,可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。可期望上下文相关的示例性自然语言请求可方便地将与媒体设备上的用户的当前使用条件最相关的数字助理的能力告知用户。这可鼓励用户使用数字助理服务并且还可改善与数字助理的用户交互式体验。

在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可执行至少部分地满足用户请求的任务。

在一些实施方案中,所执行的任务可取决于用户请求的性质以及在检测到第二输入类型的用户输入时所显示的内容。如果用户请求是用于调整电子设备上的应用程序的状态或设置的请求(例如,打开已显示的媒体内容的字幕),则该任务可包括调整应用程序的状态或设置。如果用户请求是与纯文本输出(例如,对当前时间的请求)相关联的多个预先确定的请求类型中的一个预先确定的请求类型,则任务可包括显示满足用户请求的文本。如果所显示的内容包括媒体内容并且用户请求要求获取并显示结果,则该过程可确定是否媒体内容可被暂停。如果确定媒体内容可被暂停,则使媒体内容暂停,并且可在经扩展的用户界面(例如,图6H中所示的第三用户界面626)上显示满足该用户请求的结果。如果确定媒体内容不可被暂停,则在继续显示媒体内容时可将满足该用户请求的结果显示在经缩窄的用户界面(例如,图 6G中所示的第二用户界面618)上。第二用户界面的显示区域可小于媒体内容的显示区域。此外,如果所显示的内容不包括媒体内容,则可在经扩展的用户界面上显示满足该用户请求的结果。根据所显示的内容和用户请求的类型来调整输出格式,数字助理可在使对媒体内容的用户消费的干扰最小化时通过提供全面的帮助来智能地取得平衡。这样可改善用户体验。

1.系统和环境

图1示出了根据各种示例的用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了根据推断出的用户意图采取行动,系统可执行以下内容中的一者或多者:利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、应用编程接口(API)等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。

具体地,数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常,用户请求可寻求数字助理作出信息性回答或者寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户可向数字助理提问,诸如“Paris现在是几点?”数字助理可检索所请求的信息并回答“Paris现在是下午4:00。”。用户还可请求执行任务,例如“为我查找由Reese Witherspoon主演的电影。”。作为响应,数字助理可执行所请求的搜索查询,并显示相关电影名称以供用户从中选择。在执行所请求的任务期间,数字助理有时可在很长时间段内在涉及多次信息交换的持续对话过程中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应和采取所编程的动作之外,数字助理还可提供其他视觉形式或音频形式的响应,例如言语、警报、音乐、图像、视频、动画等形式的响应。此外,如本文所讨论的,示例性数字助理可控制媒体内容的回放(例如,在电视机顶盒上),并且将媒体内容或其他信息显示在显示单元(例如,电视机)上。

如图1中所示,在一些示例中,数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(后文称作“DA客户端102”),以及在服务器系统108上执行的服务器侧部分106 (后文称作“DA服务器106”)。此外,在一些示例中,客户端侧部分还可在用户设备122上执行。DA客户端102可通过一个或多个网络110来DA 服务器106进行通信。DA客户端102可提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106的通信。DA服务器106可为各自驻留在相应设备(例如,媒体设备104和用户设备122)上的任意数量的 DA客户端102提供服务器侧功能。

媒体设备104可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如,媒体设备104可包括电视机顶盒,诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray DiscTM播放器、此类设备的组合等。如图1所示,媒体设备104 可以是媒体系统128的一部分。除了媒体设备104之外,媒体系统128可包括遥控器124和显示单元126。媒体设备104可在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,媒体设备104可连接到可与显示单元126集成或分开的音频系统(例如,音频接收器)和扬声器(未示出)。在其他示例中,显示单元126和媒体设备104可一起并入单个设备中,诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中,媒体设备104的功能可作为组合设备上的应用程序来执行。

在一些示例中,媒体设备104可用作针对媒体内容的多种类型和来源的媒体控制中心。例如,媒体设备104可便于用户访问电视直播(例如,无线电视、卫星电视或有线电视)。因此,媒体设备104可包括电缆调谐器或卫星调谐器等。在一些示例中,媒体设备104还可记录电视节目以供稍后时移观看。在其他示例中,媒体设备104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,媒体设备104可方便回放或显示来自任何其他来源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。媒体设备104还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图2详细描述了媒体设备104。

用户设备122可以是任何个人电子设备,诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。下文参考图3详细描述了用户设备122。

在一些示例中,用户可通过用户设备122、遥控器124或与媒体设备104 集成的接口元件(例如,按钮、麦克风、相机、操纵杆等)来与媒体设备104 进行交互。例如,可在用户设备122和/或遥控器124处接收包括用于数字助理的媒体相关查询或命令的语音输入,并且该语音输入可用于使得媒体相关的任务将在媒体设备104上执行。同样,可在用户设备122和/或遥控器124 (以及未示出的其他设备)处接收用于控制媒体设备104上的媒体的触觉命令。因此,可采用各种方式来控制媒体设备104的各种功能,从而给予用户控制来自多个设备的媒体内容的多种选择。

一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。

DA服务器106可包括面向客户端的输入/输出I/O接口112、一个或多个处理模块114、数据与模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112可有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据与模型116来处理语音输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114可基于推断出的用户意图来执行任务。在一些示例中,DA服务器106可通过一个或多个网络110来与外部服务120(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等) 进行通信,以完成任务或获取信息。至外部服务的I/O接口118可促进此类通信。

服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中,服务器系统108还可采用第三方服务提供方 (例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统 108的潜在计算资源和/或基础结构资源。

虽然图1中所示的数字助理可包括客户端侧部分(例如,DA客户端102) 和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,在用户设备122或媒体设备104上执行的 DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。

2.媒体系统

图2示出了根据各种示例的媒体系统128的框图。媒体系统128可包括通信地耦接至显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可经由遥控器124来接收用户输入。来自媒体设备104的媒体内容可被显示在显示单元126上。

在本示例中,如图2所示,媒体设备104可包括存储器接口202、一个或多个处理器204、和外围设备接口206。媒体设备104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104还可包括耦接至外围设备接口206的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。

例如,媒体设备104可包括通信子系统224。可通过一个或多个有线和 /或无线通信子系统224来促进通信功能,这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。

在一些示例中,媒体设备104还可包括耦接至外围设备接口206的I/O 子系统240。I/O子系统240可包括音频/视频输出控制器270。音频/视频输出控制器270可耦接至显示单元126和扬声器268,或者能够以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统 240还可包括远程控制器242。远程控制器242可通信地耦接至遥控器124 (例如,经由有线连接、蓝牙、Wi-Fi等)。

遥控器124可包括用于捕获音频数据(例如,来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274,以及用于促进经由远程控制器 242与媒体设备104的通信的收发器276。此外,遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可检测触敏表面278上的接触(以及接触的任何移动或中断),并将检测到的接触(例如,手势、接触动作等)转换成与被显示在显示单元126上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在一些示例中,遥控器124还可包括其他输入机构,诸如键盘、操纵杆等。在一些示例中,遥控器124还可包括输出机构,诸如灯、显示器、扬声器等。在遥控器124处所接收的输入(例如,用户语音、按钮按压、接触动作等)可经由遥控器124而被传送到媒体设备104。 I/O子系统240还可包括一个或多个其他输入控制器244。可将一个或多个其他输入控制器244耦接至其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中,媒体设备104还可包括耦接至存储器250的存储器接口 202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器 250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备内置媒体模块258、设备外置媒体模块260、和应用程序模块262。操作系统252可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。设备内置媒体模块258可促进在媒体设备104上本地存储的媒体内容的存储和回放。设备外置媒体模块260可促进从外部源(例如,在远程服务器上、在用户设备122上等)获取的媒体内容的流式回放或下载。此外,设备外置媒体模块260可促进接收广播和有线内容(例如,频道调谐)。应用程序模块262可促进媒体相关应用程序的各种功能,诸如网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述,存储器250还可存储客户端侧数字助理指令(例如,在数字助理客户端模块264中)和各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等),从而例如提供数字助理的客户端侧功能。用户数据266还可用于执行语音识别来支持数字助理或用于任何其他应用程序。

在各种示例中,数字助理客户端模块264可能够通过媒体设备104的各种用户界面(例如,I/O子系统240等)来接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如,DA服务器106)进行通信。

在一些示例中,数字助理客户端模块264可利用各种子系统和外围设备来从媒体设备104的周围环境收集与媒体设备104相关的附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息,诸如来自用户设备122的信息。在一些示例中,数字助理客户端模块264可将上下文信息或其子组与用户输入一起提供至数字助理服务器,以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104或服务器系统108用于支持准确的语音识别。

在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104的物理状态(例如,设备位置、设备温度、功率电平等)或媒体设备104的软件状态(例如,运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如,语音输入)、用户请求的信息、和呈现给用户的信息(例如,当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备122上显示的内容、用户设备122上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106(或用于媒体设备104本身)。

在一些示例中,数字助理客户端模块264可响应于来自DA服务器106 的请求而选择性地提供被存储在媒体设备104上的信息(例如,用户数据 266)。除此之外或作为另外一种选择,该信息可在媒体设备104本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264还可在由DA 服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264可将附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中,存储器250可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中) 实现媒体设备104的各种功能。

3.用户设备

图3示出了根据各种示例的示例性用户设备122的框图。如图所示,用户设备122可包括存储器接口302、一个或多个处理器304、以及外围设备接口306。用户设备122中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122还可包括耦接至外围设备接口306的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和 /促进用户设备122的各种功能。

例如,用户设备122可包括运动传感器310、光传感器312以及接近传感器314,这些传感器耦接至外围设备接口306,以促进取向、照明和接近感测功能。一个或多个其他传感器316(诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306以促进相关功能。

在一些示例中,相机子系统320和光学传感器322可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统 324来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。可将音频子系统326 耦接至扬声器328和麦克风330,以促进支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中,用户设备122还可包括耦接至外围设备接口306的I/O 子系统340。I/O子系统340可包括触摸屏控制器342和/或一个或多个其他输入控制器344。触摸屏控制器342可耦接至触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中,用户设备122还可包括耦接至存储器350的存储器接口 302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器,诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文所述的各种过程的部分或全部),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行本文所描述的各种过程的部分或全部) 可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中,“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用程序模块362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。传感器处理模块358可促进与传感器相关的处理和功能。电话模块 360可促进与电话相关的过程和功能。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/ 或其他过程和功能。

如本文所述,存储器350还可存储客户端侧数字助理指令(例如,存储在数字助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供数字助理的客户端侧功能。用户数据366还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364和用户数据366可分别与数字助理客户端模块 264和用户数据266类似或相同,如上面参考图2所述。

在各种示例中,存储器350可包括附加指令或更少的指令。此外,可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122的各种功能。

在一些示例中,用户设备122可被配置为控制媒体设备104的各个方面。例如,用户设备122可用作遥控器(例如,遥控器124)。经由用户设备122 接收的用户输入可(例如,使用通信子系统)被传输到媒体设备104,以使得媒体设备104执行对应的动作。此外,用户设备122可被配置为从媒体设备104接收指令。例如,媒体设备104可将任务移交给用户设备122,以执行并使得对象(例如,可选择示能表示)被显示在用户设备122上。

应当理解,系统100和媒体系统128不限于图1和图2所示的部件和配置,并且用户设备122、媒体设备104和遥控器124同样不限于图2和图3 中所示的部件和配置。在根据各种示例的多种配置中,系统100、媒体系统 128、用户设备122、媒体设备104和遥控器124可全部包括更少的部件,或包括其他部件。

4.数字助理系统

图4A示出根据各种示例的数字助理系统400的框图。在一些示例中,数字助理系统400可在独立式计算机系统上实现。在一些示例中,数字助理系统400可跨多个计算机分布。在一些示例中,数字助理的一些模块和功能可被划分成服务器部分和客户端部分,其中客户端部驻留在一个或多个用户设备(例如,设备104或设备122)上并通过一个或多个网络与服务器部分 (例如,服务器系统108)进行通信,例如如图1中所示。在一些示例中,数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106) 的具体实施。应当指出,数字助理系统400仅为数字助理系统的一个示例,并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件,或者可具有部件的不同配置或布局。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。

数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口 406、以及网络通信接口408。这些部件可通过一条或多条通信总线或者信号线410而彼此通信。

在一些示例中,存储器402可包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。

在一些示例中,I/O接口406可将数字助理系统400的I/O设备416诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如当数字助理在独立式用户设备上实现时,数字助理系统400可包括相对于图2或图3 中各自的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统400可代表数字助理具体实施的服务器部分,并且可通过驻留在客户端设备(例如,设备104或设备122)上的客户端侧部分与用户进行交互。

在一些示例中,网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络及其他通信设备接收RF信号和/或光学信号,并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者,诸如GSM、EDGE、CDMA、 TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使数字助理系统400通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。

在一些示例中,存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构,其包括以下内容中的全部或其子组:操作系统418、通信模块420、用户界面模块422、一个或多个应用程序424和数字助理模块426。具体地,存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令,并且可从数据结构读取数据或将数据写到数据结构。

操作系统418(例如,Darwin、RTXC、LINUX、UNIX、iOS、OS X、 WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器,并且促进各种硬件、固件与软件组件之间的通信。

通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如,通信模块420可与电子设备(例如,104,122)的通信子系统(例如,224,324)进行通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。

用户界面模块422可经由I/O接口406来从用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入,并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等),并经由I/O接口406(例如,通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。

应用程序424可包括被配置为由一个或多个处理器404执行的程序和/ 或模块。例如,如果数字助理系统400在独立式用户设备上实现,则应用程序424可包括用户应用程序,诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400在服务器上实现,则应用程序424 可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。

存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中,数字助理模块426可包括以下子模块,或包括它们的子集或超集:I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438、以及语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426 的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456、和自动语音识别(ASR)系统431。

在一些示例中,使用在数字助理模块426中实现的处理模块、数据和模型,该数字助理可执行以下操作中的至少一些操作:将语音输入转换成文本;识别从用户接收的在自然语言输入中表达的用户意图;主动引出并获取充分推断用户意图所需的信息(例如,通过对字词、游戏、意向等消歧);确定用于满足推断出的意图的任务流;以及执行任务流以满足推断出的意图。

在一些示例中,如图4B中所示,I/O处理模块428可通过图4A中的I/O 设备416与用户进行交互或通过图4A中的网络通信接口408与电子设备(例如,设备104或设备122)进行交互,以获取用户输入(例如,语音输入) 并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块428在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态,和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中,I/O处理模块428还可向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被 I/O处理模块428接收并且用户请求可包括语音输入时,I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器),以进行语音文本转换。

STT处理模块430可包括一个或多个ASR系统(例如,ASR系统431)。一个或多个ASR系统可处理通过I/O处理模块428所接收的语音输入,以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如,前端语音预处理器可对语音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外,每个ASR系统可包括一个或多个语音识别模型(例如,声音模型和/或语言模型),并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征,以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串或符号的序列)。在一些示例中,语音输入可至少部分地由第三方服务处理或在电子设备(例如,设备104设备 122)上处理以产生识别结果。一旦STT处理模块430产生包含文本串(例如,字词、字词的序列或符号的序列)的识别结果,该识别结果便可被传送至自然语言处理模块432以供意图推断。

在一些示例中,一个或多个ASR系统的一个或多个语言模型可被配置为偏向于媒体相关结果。在一个示例中,可使用媒体相关的文本的语料库来训练一个或多个语言模型。在另一个示例中,ASR系统可被配置为有利于媒体相关的识别结果。在一些示例中,一个或多个ASR系统可包括静态语言模型和动态语言模型。静态语言模型可使用文本的一般语料库来训练,而动态语言模型可使用特定于用户的文本来训练。例如,可使用与从用户所接收的先前语音输入的文本来生成动态语言模型。在一些示例中,一个或多个ASR系统可被配置为基于静态语言模型和/或动态语言模型来生成识别结果。此外,在一些示例中,一个或多个ASR系统可被配置为有利于与最近接收的先前语音输入对应的识别结果。

有关语音转文本处理的更多细节在于2011年9月20日提交的名为“Consolidating Speech Recognition Results”的美国实用新型专利申请序列号 13/236,942中有所描述,其全部公开内容以引用方式并入本文。

在一些示例中,STT处理模块430可包括可识别字词的词汇和/或可经由语音字母转换模块431来访问词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇可包括与多个候选发音相关联的字词。例如,该词汇可包括与和的候选发音相关联的字词“tomato”。此外,词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中,可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中,候选发音可手动生成,例如,基于已知的标准发音而手动生成。

在一些示例中,可基于候选发音的普遍性来对候选发音进行排名。例如,候选发音可比排名更高,因为(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子组而言)前者是更常用的发音。在一些示例中,可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的专有名词。在一些示例中,候选发音可与一个或多个语音特征相关联,诸如地理起源、国家或种族。例如,候选发音可与美国相关联,而候选发音可与英国相关联。此外,候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于该用户与美国相关联,候选发音(与美国相关联)可比候选发音(与英国相关联)排名高。在一些示例中,经排名的候选发音中的一个候选发音可被选作预测发音(例如,最可能的发音)。

在接收到语音输入时,STT处理模块430可用于(例如,使用声音模型) 确定与该语音输入对应的音素,并且然后可尝试(例如,使用语言模型)确定与该音素匹配的字词。例如,如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。

在一些示例中,STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块430可确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。

数字助理的自然语言处理模块432(“自然语言处理器”)可采用由STT 处理模块430生成的字词或符号的序列(“符号序列”),并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型 454中实现并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。

在一些示例中,除从STT处理模块430获取的字词或符号的序列之外,自然语言处理器432还可(例如,从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如:用户偏好;用户设备的硬件和/或软件状态;在用户请求之前、期间或之后不久收集的传感器信息;数字助理与用户之间的先前交互(例如,对话)等。如本文所述,上下文信息可以是动态的,并且可随对话的时间、位置、内容以及其他因素而变化。

在一些示例中,自然语言处理可基于例如知识本体460。知识本体460 可以是包含许多节点的分级结构,每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”可表示数字助理能够执行的任务,即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。

在一些示例中,知识本体460可由可执行意图节点和属性节点组成。在知识本体460内,每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图4C所示,知识本体460可包括“媒体”节点(即,可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即,“媒体搜索”节点)。另外,属性节点“名称”、“年龄”、“Ulmer scale排名”和“国籍”可以是属性节点“演员”的子节点。

在另一个示例中,如图4C所示,知识本体460还可包括“天气”节点 (即,另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到,在一些示例中,一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中,该一个或多个属性节点可连接到与知识本体460中的两个或更多个可执行意图对应的相应节点。

可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中,每个域可与相应可执行意图相关联,并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如,图4C中所示的知识本体460 可包括知识本体460内的媒体域462的示例和天气域464的示例。媒体域462 可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”,以及属性节点“位置”和“日期/时间”。在一些示例中,知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。

虽然图4C示出了知识本体460内的两个示例性域,但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联,并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。

在一些示例中,知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中,知识本体460可诸如通过添加或移除整个域或节点或者通过修改知识本体460内的节点之间的关系而被修改。

在一些示例中,知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在词汇索引444中,该词汇索引与由节点表示的属性或可执行意图相关联。例如,返回图4C,与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“Arnold Schwarzenegger”、“Brad Pitt”等。在另一个示例中,与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444可以可选地包括不同语言的字词和短语。

自然语言处理模块432可从STT处理模块430接收符号序列(例如,文本串),并确定符号序列中的字词牵涉哪些节点。在一些示例中,如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联,则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,可选择具有最多“已触发”节点的域。在一些示例中,可(例如,基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中,可基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还要考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。

用户数据448可包括用户特定的信息,诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块432可使用用户特定的信息来补充被包含在用户输入中的信息,以进一步限定用户意图。例如,对于用户请求“本周天气如何”,自然语言处理模块432可访问用户数据448来确定用户位于何处,而不是要求用户在其请求中明确地提供此类信息。

基于符号串搜索知识本体的其他细节在于2008年12月22日提交的名为“Method and Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。

在一些示例中,一旦自然语言处理模块432基于用户请求识别出可执行意图(或域),自然语言处理模块432便可生成结构化查询来表示所识别的可执行意图。在一些示例中,结构化查询可包括域内针对可执行意图的一个或多个节点的参数,并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户可以说“为我查找这个电视连续剧的其他几个季。”。在这种情况下,自然语言处理模块432可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体,用于“媒体”域的结构化查询可包括参数,诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中,基于语音输入和使用STT处理模块430从语音输入得出的文本,自然语言处理模块432可针对餐厅预订域来生成部分结构化查询,其中该部分结构化查询包括参数{媒体分类=“电视连续剧”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询中可能未指定其他必要参数,诸如{媒体标题}。在一些示例中,自然语言处理模块432可使用所接收的上下文信息来填充结构化查询的一些参数。例如,当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息,自然语言处理模块432可使用“Mad Men”来填充结构化查询中的{媒体标题}参数。

在一些示例中,自然语言处理模块432可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为从自然语言处理模块432接收结构化查询,并且在必要时完成结构化查询,并且执行“完成”用户最终请求所需的动作。在一些示例中,可在任务流模型454中提供完成这些任务所必需的各种过程。在一些示例中,任务流模型454可包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。

如上所述,为了完成结构化查询,任务流处理模块436可能需要发起与用户的附加对话,以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时,任务流处理模块436可调用对话流处理模块434来参与和用户的对话。在一些示例中,对话流处理模块434可确定如何(和/ 或何时)向用户请求附加信息,并且可接收和处理用户响应。通过I/O处理模块428可将问题提供至用户并可从用户接收回答。在一些示例中,对话流处理模块434可经由音频和/或视频输出来向用户呈现对话输出,并且可接收经由口头或物理(例如,点击)响应的来自用户的输入。例如,用户可问“Paris 的天气如何?”当任务流处理模块436调用对话流处理模块434来确定与域“天气搜索”相关联的结构化查询的“位置”信息时,对话流处理模块434 可生成诸如“哪个Paris?”等问题传送给用户。此外,对话流处理模块434 可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现,以供用户选择。一旦接收到来自用户的响应,对话流处理模块434便可利用缺失信息来填充结构化查询,或将信息传送给任务流处理模块436以来自完成结构化查询的缺失信息。

一旦任务流处理模块436已针对可执行意图完成结构化查询,任务流处理模块436便可开始执行与可执行意图相关联的最终任务。因此,任务流处理模块436可根据结构化查询中包含的特定参数来执行任务流模型454中的步骤和指令。例如,“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如,通过使用结构化查询诸如:{媒体搜索,媒体分类=电视连续剧,媒体标题=Mad Men},任务流处理模块436可执行以下步骤:(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项;(2)根据相关性和/或流行度来对所获取的媒体项进行排名,以及(3)根据相关性和/或流行度来显示经分类的媒体项。

在一些示例中,任务流处理模块436可在服务处理模块438(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如,服务处理模块438可代表任务流处理模块436来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互,并且调用第三方服务(例如,社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中,可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型,并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。

例如,第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型,以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436发出请求时,服务处理模块438可建立与媒体搜索服务的网络连接,并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如,媒体演员、媒体类型、媒体标题)。

在一些示例中,自然语言处理模块432、对话流处理模块434以及任务流处理模块436可被共同并且反复地使用,以推断并限定用户的意图、获取信息以进一步明确并细化用户意图,并且最终生成响应(即,输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外,在一些示例中,所生成的响应可被输出为语音输出。在这些示例中,所生成的响应可被发送至语音合成模块440 (例如,语音合成器),其中该响应可被处理,以将该对话响应合成为语音形式。在其他示例中,所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。

语音合成模块440可被配置为合成语音输出,以供呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应可为文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何适当的语音合成技术,以便从文本生成语音输出,该任何适当的语音合成技术包括但不限于:拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM) 的合成、以及正弦波合成。在一些示例中,语音合成模块440可被配置为基于与字词对应的音素串来合成各个字词。例如,音素串可与所生成的对话响应中的字词相关联。音素串可被存储在与字词相关联的元数据中。语音合成模块440可被配置为直接处理元数据中的音素串,以合成语音形式的字词。

在一些示例中,替代使用语音合成模块440(或除此之外),语音合成可在远程设备(例如,服务器系统108)上执行,并且合成的语音可发送至用户设备,以供输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获取比客户端侧合成将实现的质量更高的语音输出。

有关数字助理的更多细节可见于2011年1月10日提交的名称为“Intelligent Automated Assistant”的美国实用新型专利申请号12/987,982,以及2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks to Perform”的美国实用新型专利申请号13/251,088中,这两个专利申请的全部公开内容以引用方式并入本文。

4.用于在媒体环境中与数字助理进行交互的过程

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程500。可使用实现数字助理的一个或多个电子设备来执行过程500。例如,可使用上述系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程500。图6A至图6Q示出了根据各种示例的在过程500的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图5A至图5I和图6A至图6Q来对过程500进行描述。应当理解,过程500中的一些操作可组合,一些操作的顺序可改变,而一些操作可省略。

在过程500的框502处,可在显示单元(例如,显示单元126)上显示内容。在图6A所示的本示例中,所显示的内容可包括在媒体设备(例如,媒体设备104)上播放的媒体内容602(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括与媒体设备相关联的其他内容,诸如与媒体设备上运行的应用程序相关联的内容,或用于与媒体设备的数字助理进行交互的用户界面。具体地,所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面(例如,第二用户界面618 或第三用户界面626)。

在过程500的框504处,可检测用户输入。可在显示框502的内容时检测用户输入。在一些示例中,可在媒体设备的遥控器(例如,遥控器124) 上检测用户输入。具体地,用户输入可以是用户与遥控器的交互,诸如按压按钮(例如,按钮274)或接触遥控器的触敏表面(例如,触敏表面278)。在一些示例中,可经由被配置为与媒体设备进行交互的第二电子设备(例如,设备122)来检测用户输入。响应于检测到用户输入,可执行框506至框592 中的一个或多个框。

在过程500的框506处,可确定用户输入是否对应于第一输入类型。第一输入类型可以是至媒体设备的预定义的输入。在一个示例中,第一输入类型可包括按压遥控器的特定按钮,并在按压该按钮的预先确定的持续时间内释放该按钮(例如,短按)。媒体设备可确定用户输入是否与第一输入类型相匹配。根据确定用户输入对应于第一输入类型,可执行框508至框514中的一个或多个框。

在过程500的框508处,并且参考图6B,可显示用于调用数字助理并与其进行交互的文本指令604。具体地,指令604可描述调用数字助理并与其交互所需的用户输入。例如,指令604可解释如何执行下面在框516处描述的第二输入类型。

在过程500的框510处,如图6B中所示,被动视觉指示符606可被显示在显示单元上。被动视觉指示符606可指示数字助理尚未被调用。具体地,媒体设备的麦克风(例如,麦克风272)可响应于检测到用户输入而不被激活。因此,被动视觉指示符606可用作数字助理并未正在处理音频输入的视觉信号。在本示例中,视觉指示符606可以是不响应于用户的语音的被动平坦波形。此外,被动视觉指示符606可包括中性色(例如,黑色、灰色等),以指示其被动状态。应当认识到,对于被动视觉指示符可预期其他视觉图案或图像。被动视觉指示符606可与指令604同时被显示。此外,可在执行框 512至框514中的一个或多个框时连续显示被动视觉指示符606。

在过程500的框512处,并且参考图6C,用于执行键入搜索的指令608 可被显示在显示单元上。具体地,指令608可描述显示可用于执行键入搜索的虚拟键盘界面所需的用户输入。在一些示例中,用于调用数字助理并与其进行交互的指令604和用于执行键入搜索的指令608可按顺序在不同的时间被显示。例如,对指令608的显示可替换对指令604的显示,或反之亦然。在本示例中,指令604,608是文本形式。应当认识到,在其他示例中,指令 604,608可以是图形形式(例如,图片、符号、动画等)。

在过程500的框514处,可在显示单元上显示一个或多个示例性自然语言请求。例如,图6D至图6E示出了显示在显示单元上的两种不同的示例性自然语言请求610,612。在一些示例中,示例性自然语言请求可经由显示单元上的第一用户界面而被显示。第一用户界面可被覆盖在所显示的内容上。示例性自然语言请求可向用户提供与数字助理进行交互的指导。此外,示例性自然语言请求可告知用户数字助理的各种能力。响应于接收到与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语,数字助理可使得执行相应动作。例如,响应于媒体设备的数字助理被调用(例如,通过框504 处的第二输入类型的用户输入)并且(例如,在框518处)提供有“向前跳 30秒”的用户话语,数字助理可使得在媒体设备上播放的媒体内容向前跳 30秒。

所显示的示例性自然语言请求可与正在显示的内容(例如,媒体内容 602)上下文相关。例如,一组示例性自然语言请求可被存储在媒体设备上或独立的服务器上。该组示例性自然语言请求中的每个示例性自然语言请求可与一个或多个上下文属性(例如,正在播放的媒体内容、主页、iTunes媒体商店、演员、电影、天气、体育、股市等)相关联。在一些示例中,框514 可包括从具有对应于与显示单元上的显示内容对应的上下文属性的该组示例性自然语言请求识别示例性自然语言请求。然后可在显示单元上显示所识别的示例性自然语言请求。因此,针对显示单元上的不同显示内容可显示不同的示例性自然语言请求。显示上下文相关的示例性自然语言请求可用于方便地告知用户与媒体设备上的用户的当前使用条件最相关的数字助理的能力。这样可改善整体用户体验。

在图6D至图6E所示的本示例中,示例性自然语言请求610和示例性自然语言请求612可各自与显示单元上的媒体内容602上下文相关。具体地,示例性自然语言请求610和示例性自然语言请求612可以是用于修改或控制与在媒体设备上播放的媒体内容相关联的一个或多个设置的请求。此类示例性自然语言请求可包括用于以下操作的请求:打开/关闭隐藏式字幕、打开特定语言的字幕、快退/向前跳、暂停播放媒体内容、重新开始播放媒体内容、减慢或加快播放媒体内容、提高/降低媒体内容的音量(例如,音频增益)等。此外,与媒体内容602上下文相关的其他示例性自然语言请求可包括用于以下操作的请求:向用户的观看列表添加与媒体内容602对应的媒体项、显示与媒体内容602相关的信息(例如,演员信息、剧情简介、发行日期等)、显示与媒体内容602相关的其他媒体项或内容(例如,同一系列、同一季、同一演员/导演、同一分类等),等等。

在所显示的内容包括与媒体设备的应用程序相关联的内容的示例中,上下文相关的示例性自然语言请求可包括用于修改应用程序的一个或多个设置或状态的请求。具体地,示例性自然语言请求可包括用于打开或关闭应用程序或者操控应用程序的一个或多个特征的请求。

在一些示例中,所显示的内容可包括用于搜索、浏览或选择项目的用户界面(例如,第二用户界面618或第三用户界面626)。具体地,所显示的用户界面可包括一个或多个媒体项。此外,用户界面的焦点可位于一个或多个媒体项中的媒体项(例如,在图6G中由光标624突出显示的媒体项623) 上。在这些示例中,上下文相关的示例性自然语言请求可包括对有关所显示的用户界面中的一个或多个媒体项的信息或其他媒体项的请求。具体地,示例性自然语言请求可包括与作为用户界面的焦点的媒体项相关的请求。在这些示例中,示例性自然语言请求可包括多个请求,诸如“它的内容是什么?”、“它排名多少?”、“其中有谁?”、“下一集何时出现?”、“为我显示更多这样的电影。”以及“为我显示由同一演员主演的电影。”。在特定示例中,可经由用户界面来显示与一个媒体项或一系列媒体项相关的信息,诸如电视连续剧Mad Men。在该示例中,上下文相关的示例性自然语言请求可包括基于媒体项或一系列媒体项(例如,January Jones参加的其他节目)的一个或多个属性(例如,阵容、情节、排名、发行日期、导演、提供方等)的要求。此外,上下文相关的示例性自然语言请求可包括用于播放、选择或获取所聚焦的媒体项或在用户界面中显示的另一媒体项的请求(例如,“租这个。”、“播放这个。”、“买这个。”或“播放How to Train Your Dragon 2。”),或包括用于在用户界面中导航媒体项(例如,“转到喜剧。”或“跳转到恐怖电影。”)的请求。此外,在这些示例中,上下文相关的示例性自然语言请求可包括用于搜索其他媒体项的请求(例如,“查找新喜剧。”、“显示免费且好看的电影。”或“由Nicole Kidman主演的节目有哪些?”)。

在一些示例中,所显示的内容可包括根据特定类别或主题组织的媒体项。在这些示例中,上下文相关的示例性自然语言请求可包括与该特定类别或主题相关的请求。例如,在所显示的内容包括根据各种演员组织的媒体项的示例中,上下文相关的示例性自然语言请求可包括对与演员相关的信息或媒体项的请求(例如,“由Jennifer Lawrence主演的电影有哪些?”、“Scarlett Johansson年龄多大?”、“Brad Pitt的最新电影有哪些?”)。在所显示的内容包括根据节目频道或内容提供方(例如,频道页面或电视指南页面)组织的媒体项的另一示例中,上下文相关的示例性自然语言请求可包括对与节目频道或内容提供方相关的信息或媒体项的请求(例如,“一小时之后播放什么?”、“HBO在黄金时段播放什么?”、“调到ABC。”或“哪些频道正在播放篮球比赛?”)。在所显示的内容包括用户最近选择(例如,“最近播放”列表)的媒体项或被识别为用户感兴趣的媒体项(例如,“观看列表”) 的另一示例中,上下文相关的示例性自然语言请求可包括用于观看或继续观看媒体项中的一者的请求(例如,“从上次停止的地方开始继续播放。”、“继续观看Birdman。”或“从头开始播放。”)。

在一些示例中,所显示的内容可包括包含与特定主题对应的结果或信息的用户界面。具体地,结果可与先前的用户请求(例如,对数字助理的请求) 相关联,并且可包括与主题诸如天气、股市或体育对应的信息。在这些示例中,上下文相关的示例性自然语言请求可包括用于细化结果的请求或对有关特定主题的附加信息的请求。例如,在所显示的内容包括特定位置的天气信息的示例中,上下文相关的示例性自然语言请求可包括用于显示另一位置或不同的时间范围的附加天气信息的请求(例如,“在New York市如何?”、“下周是什么样?”、“Hawaii呢?”等)。在所显示的内容包括与运动队或运动员相关的信息的另一示例中,上下文相关的示例性自然语言请求可包括用于提供与运动队或运动员相关的附加信息的请求(例如,“Shaquille O’Neal 有多高?”、“Tom Brady是什么时候出生的?”、“49ers的下一场比赛什么时候开始?”、“Manchester United在最后一场比赛中的表现如何?”、“LA Lakers的控球后卫是谁?”等)。在所显示的内容包括与股市相关的信息的另一示例中,上下文相关的示例性自然语言请求可包括对附加的股市相关信息的请求(例如,“S&P 500的开盘价是多少?”、“Apple的股价走势如何?”、“昨天的道琼斯指数收盘价是多少?”等)。此外,在一些示例中,所显示的内容可包括包含与先前的用户请求相关联的媒体搜索结果的用户界面。在这些示例中,上下文相关的示例性自然语言请求可包括用于细化所显示的媒体搜索结果的请求(例如,“只查找自去年上映的那些”、“只查找那些评级为G的”、“只查找免费的”),或用于执行不同的媒体搜索的请求(例如,“查找好看的动作电影”、“为我显示一些成龙出演的电影”等)。

在一些示例中,所显示的内容可包括媒体设备的主菜单用户界面。主菜单用户界面可以是例如主屏幕或媒体设备的根目录。在这些示例中,上下文相关的示例性自然语言请求可包括表示数字助理的各种能力的请求。具体地,数字助理可具有与媒体设备相关联的一组核心竞争力,并且上下文相关的示例性自然语言请求可包括与数字助理的每个核心竞争力相关的请求(例如,“为我显示一些好看且免费的电影”、“天气怎么样”、“播放Breaking Bad的下一集”或“Apple的股价是多少?”)。

示例性自然语言请求可以是自然语言形式。这可用于告知用户数字助理能够理解自然语言请求。此外,在一些示例中,示例性自然语言请求可以是上下文模糊的,从而告知用户数字助理能够基于所显示的内容来推断与用户的请求相关联的正确的用户意图。具体地,如上述示例所示,示例性自然语言请求可包括上下文模糊的术语诸如“这个”或“一些”,或上下文模糊的短语诸如“只查找免费的。”或“在New York如何?”。这些示例性自然语言请求可告知用户数字助理能够基于所显示的内容来确定与此类请求相关联的正确的上下文。这将鼓励用户在与数字助理进行交互时依赖于所显示的内容的上下文,这样可促进与数字助理的更自然的交互式体验是可取的。

在一些示例中,框514可在框508至框512之后执行。具体地,在框 506处确定用户输入对应于第一输入类型之后可在预先确定量的时间在显示单元上显示示例性自然语言请求。应当认识到,在一些示例中,可按任何顺序来执行框508至框514,并且在一些示例中,可同时执行框508至框514 中的两个或更多个框。

在一些示例中,示例性自然语言请求按预先确定的顺序轮番显示。每个示例性自然语言请求可在不同的时间单独显示。具体地,可利用对后续示例性自然语言请求的显示来替换对当前示例性自然语言请求的显示。例如,如图6D中所示,可最先显示示例性自然语言请求610。在预先确定量的时间之后,可利用对示例性自然语言请求612(“播放下一集”)的显示来替换对示例性自然语言请求610(“向前跳30秒”)的显示,如图6E所示。因此,在该示例中,示例性自然语言请求610和示例性自然语言请求612一次显示一个,而不是同时显示。

在一些示例中,示例性自然语言请求可被分成多个列表,其中每个列表包括一个或多个示例性自然语言请求。在这些示例中,框514可包括在显示单元上显示示例性自然语言请求的列表。每个列表可按预先确定的顺序在不同的时间显示。此外,这些列表可轮番显示。

当执行框508至框514中的一个或多个框时,所显示的内容可继续在显示单元上显示。例如,如图6B至图6E所示,在执行框508至框512时,媒体内容602可继续在媒体设备上播放并在显示单元上显示。此外,在播放媒体内容时可由媒体设备输出与该媒体内容相关联的音频。在一些示例中,响应于检测到用户输入或根据确定用户输入对应于第一输入类型,不减小音频振幅。这样可减少对正在播放的媒体内容602的消费的干扰是可取的。因此,虽然元素604至元素612正在显示单元上显示,但用户仍然可经由音频输出来继续关注媒体内容602。

在一些示例中,如图6B至图6D中的媒体内容602的轮廓字体所表示的,响应于检测到用户输入或者根据确定用户输入对应于第一输入类型,可降低所显示的内容的亮度(例如,降低20%至40%)。在这些示例中,所显示的元素604至元素612可覆盖在所显示的媒体内容602上。降低亮度可用于突出显示所显示的元素604至元素612。与此同时,媒体内容602在显示单元上仍然是可辨别的,从而使得用户在元素604至元素612显示时能够继续消费媒体内容602。

在执行框508至框512中的一个框时,可(例如,通过在框504处检测第二输入类型的用户输入)调用数字助理,并且可(例如,在框518处)接收与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语。然后,数字助理可(例如,在框532处)响应于所收到的请求来执行任务。下文参考图5B至图5I提供了关于调用数字助理并与其进行交互的更多细节。此外,在执行框508至框512中的一个框时,可(例如,通过在框558处检测第五用户输入)调用虚拟键盘界面来执行键入搜索。下文参考图5G提供了关于调用虚拟键盘界面并执行键入搜索的更多细节。

再次参考框506,根据确定用户输入不对应于第一输入类型,可执行图 5B的框516至框530中的一个或多个框。在框516处,可确定用户输入是否对应于第二输入类型。第二输入类型可以是至媒体设备的不同于第一输入类型的预定义的输入。在一些示例中,第二输入类型可包括按压媒体设备的遥控器上的特定按钮,并按住该按钮超过预先确定的持续时间(例如,长按)。第二输入类型可与调用数字助理相关联。在一些示例中,可使用遥控器的相同按钮(例如,被配置为调用数字助理的按钮)来实现第一输入类型和第二输入类型。这样可将对数字助理的调用和提供用于调用数字助理并与其进行交互的指令直观地集成到单个按钮中是可取的。此外,缺乏经验的用户可直观地实现短按,而不是长按。因此,响应于检测到短按而提供指令可使得指令主要针对缺乏经验的用户,而不是有经验的用户。这可通过将指令轻松显示给最需要指导的缺乏经验的用户同时允许有经验的用户选择绕过指令的选项来改善用户体验。

根据确定框516处的用户输入对应于第二输入类型,可执行框518至框 530中的一个或多个框。在一些示例中,在执行框518至框530中的一个或多个框时,可在媒体设备上继续播放媒体内容602。具体地,在框518处对音频数据进行采样以及在框528处执行任务时,媒体内容602可在媒体设备上继续播放并且在显示单元上继续显示。

在过程500的框518处,可对音频数据进行采样。具体地,可激活媒体设备的第一麦克风(例如,麦克风272),以开始对音频数据进行采样。在一些示例中,经采样的音频数据可包括来自用户的用户话语。用户话语可表示针对数字助理的用户请求。此外,在一些示例中,用户请求可以是用于执行任务的请求。具体地,用户请求可以是媒体搜索请求。例如,参考图6F,经采样的音频数据可包括用户话语“查找由Reese Witherspoon主演的浪漫喜剧。”。在其他示例中,用户请求可以是用于播放媒体项或提供特定信息(例如,天气、股市、体育等)的请求。

经采样的音频数据中的用户话语可以是自然语言形式。在一些示例中,用户话语可表示部分指定的用户请求,其中通过该用户话语没有明确定义满足用户请求所需的所有信息。例如,用户话语可以是“播放下一集。”。在该示例中,用户请求没有明确定义要播放哪个媒体系列的下一集。此外,在一些示例中,用户话语可包括一个或多个模糊术语。

对音频数据进行采样的持续时间可基于对终点的检测。具体地,可在从最初检测到第二输入类型的用户输入的开始时间至检测到终点的结束时间对音频数据进行采样。在一些示例中,终点可基于用户输入。具体地,可在最初检测到第二输入类型的用户输入(例如,按压按钮超过预先确定的持续时间)时激活第一麦克风。在继续检测到第二输入类型的用户输入时,第一麦克风可保持激活状态以对音频数据进行采样。一旦检测不到第二输入类型的用户输入(例如,按钮被释放),便可去激活第一麦克风。因此,在这些示例中,在检测到用户输入的结束时检测到终点。因此,在检测第二输入类型的用户输入时对音频数据进行采样。

在其他示例中,检测终点可基于经采样的音频数据的一个或多个音频特征。具体地,可监测经采样的音频数据的一个或多个音频特征,并且可在确定一个或多个音频特征不满足一个或多个预先确定标准之后的预先确定时间检测到终点。在其他示例中,可基于固定的持续时间来检测终点。具体地,可在最初检测到第二输入类型的用户输入之后在预先确定的持续时间检测到终点。

在一些示例中,在执行框504或框516时,可(例如,使用扬声器268) 输出与所显示的内容相关联的音频。具体地,该音频可以是在媒体设备上播放并显示在显示单元上的媒体项的音频。可经由来自媒体设备的音频信号来输出音频。在这些示例中,在确定用户输入对应于第二输入类型并且在对音频数据进行采样时,可使与所显示的内容相关联的音频闪避(例如,减小音频的振幅)。例如,可通过减小与音频信号相关联的增益来使音频闪避。在其他示例中,在框518处对音频数据进行采样时,可停止与媒体内容相关联的音频的输出。例如,可通过阻止或干扰音频信号来停止音频输出。使音频输出闪避或停止可降低经采样的音频数据中的背景噪声,并增加与用户话语相关联的语音信号的相对强度。此外,音频的闪避或停止可用作提示用户开始向数字助理提供语音输入的音频提示。

在一些示例中,可在对音频数据进行采样时对背景音频数据进行采样,从而消除噪声。在这些示例中,遥控器或媒体设备可包括第二麦克风。第二麦克风可在不同于第一麦克风(例如,与第一麦克风相对)的方向上进行取向。可激活第二麦克风,以在对音频数据进行采样时对背景音频数据进行采样。在一些示例中,背景音频数据可用于消除音频数据中的背景噪声。在其他示例中,媒体设备可生成用于输出与所显示的内容相关联的音频的音频信号。所生成的音频信号可用于从音频数据中消除背景噪声。从音频信号中消除背景噪声可特别适合于媒体环境中的与数字助理的交互。这可能是由于消费媒体内容的公共性质,其中来自多个个体的话语可在音频数据中混合。通过消除音频数据中的背景噪声,可获取音频数据中更高的信噪比,这在处理用户请求的音频数据时是可取的。

在过程500的框520处并参考图6F,主动视觉指示符614可在显示单元上显示。主动视觉指示符614可向用户指示数字助理被调用且在主动收听。具体地,主动视觉指示符614可用作提示用户开始向数字助理提供语音输入的视觉提示。在一些示例中,主动视觉指示符614可包括颜色和/或视觉动画,以指示数字助理被调用。例如,如图6F所示,主动视觉指示符614可包括响应于由数字助理接收的音频数据的一个或多个特征(例如,振幅)的主动波形。例如,主动视觉指示符614响应于音频数据中较大声的部分而显示具有较大振幅的波形,并且响应于音频数据中较轻声的部分而显示具有较小振幅的波形。此外,在显示被动视觉指示符606(例如,图6E)时调用数字助理的示例中,可利用对主动视觉指示符614的显示来替换对视觉指示符606 的显示。这样可提供从图6B至图6E中所示的用于演示如何调用数字助理并与其进行交互的指导性用户界面到图6F中所示的用于主动地与数字助理进行交互的主动用户界面的自然转换。

在过程500的框522处,可确定经采样的音频数据中的用户话语的文本表示。例如,可通过对经采样的音频数据执行语音转文本(STT)处理来确定文本表示。具体地,可使用STT处理模块(例如,STT处理模块430)来处理经采样的音频数据,以将经采样的音频数据中的用户话语转换成文本表示。文本表示可以是表示对应的文本串的符号串。

在一些示例中,可使STT处理偏向于媒体相关的文本结果。可通过利用使用媒体相关的文本的语料库训练的语言模型来实现偏置。除此之外或作为另外一种选择,可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样,与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加媒体相关用户话语(例如,电影名称、电影演员等)的STT 处理的准确性,偏置可能是可取的。例如,在不偏向媒体相关文本结果的情况下,在典型的文本语料库中可能很少找到某些媒体相关的字词或短语,例如“Jurassic Park”、“Arnold Schwarzenegger”和“Shrek”,并因此可能无法在STT处理期间成功地识别这些字词或短语。

在一些示例中,可从独立设备(例如,DA服务器106)获取文本表示。具体地,可将经采样的音频数据从媒体设备传输至独立设备,以执行STT处理。在这些示例中,媒体设备可(例如,通过被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使STT处理偏向于媒体相关的文本结果。

在一些示例中,文本表示可基于在对音频数据采样之前由媒体设备接收的先前用户话语。具体地,与先前用户话语的一个或多个部分对应的经采样的音频数据的候选文本结果可被更重地加权。在一些示例中,先前的用户话语可用于生成语言模型,并且所生成的语言模型可用于确定经采样的音频数据中的当前用户话语的文本表示。在接收和处理附加用户话语时,可动态地更新语言模型。

此外,在一些示例中,文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。具体地,对与相对于经采样的音频数据更近期地接收的先前用户话语对应的候选文本结果的加权可重于对与相对于经采样的音频数据更早接收的先前用户话语对应的候选文本结果的加权。

在过程500的框524处,文本表示可在显示单元上显示。例如,图6F 示出了与经采样的音频数据中的用户话语对应的文本表示616。在一些示例中,在对音频数据进行采样时可执行框522和框524。具体地,可通过流方式显示用户话语的文本表示616,使得在对音频数据进行采样以及对经采样的音频数据执行STT处理时,实时显示文本表示616。显示文本表示616可向用户提供数字助理正在正确处理用户请求的确认。

在过程500的框526处,可确定与用户话语对应的用户意图。可通过对框522的文本表示执行自然语言处理来确定用户意图。具体地,可使用自然语言处理模块(例如,自然语言处理模块432)来处理文本表示,以得到用户意图。例如,参考图6F,从与“查找由Reese Witherspoon主演的浪漫喜剧”对应的文本表示616可确定用户意图是请求搜索分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项。在一些示例中,框526可还包括使用自然语言处理模块来生成用于表示所确定的用户意图的结构化查询。在“查找由Reese Witherspoon主演的浪漫喜剧”的本示例中,可生成表示对于分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项的媒体搜索查询的结构化查询。

在一些示例中,用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地,可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如,媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如,自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题,并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中,可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如,该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外,在一些示例中,相比于与媒体不相关的候选用户意图,可对与媒体相关的候选用户意图进行更重的加权来实现偏置。

在一些示例中,可从独立设备(例如,DA服务器106)获取用户意图。具体地,音频数据可被传输至独立设备以执行自然语言处理。在这些示例中,媒体设备可(例如,经由被传输至具有经采样的音频数据的独立设备的数据) 向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向于媒体相关的用户意图。

在过程500的框528处,可确定经采样的音频数据是否包含用户请求。可根据框526的已确定用户意图来作出该确定。如果用户意图包括用于执行任务的用户请求,则可确定经采样的音频数据包含用户请求。相反,如果用户意图不包括用于执行任务的用户请求,则可确定经采样的音频数据不包含用户请求。此外,在一些示例中,如果在框526处不能从文本表示确定用户意图或者在框522处不能从经采样的音频数据确定文本表示,则可确定经采样的音频数据不包含用户请求。根据确定音频数据不包含用户请求,可执行框530。

在过程500的框530处,可在显示单元上显示用于澄清用户意图的请求。在一个示例中,用于澄清的请求可以是要求用户重复用户请求的请求。在另一个示例中,用于澄清的请求可以是数字助理无法理解用户话语的陈述。在又一示例中,可显示错误消息来指示无法确定用户的意图。此外,在一些示例中,根据确定音频数据不包含用户请求,可不提供响应。

参考图5C,根据在框528处确定经采样的音频数据包含用户请求,可执行框532。在过程500的框532处,可执行至少部分地满足用户请求的任务。例如,在框526处执行任务可包括执行在框526的所生成的结构化查询中定义的一个或多个任务。可使用数字助理的任务流处理模块(例如,任务流处理模块436)来执行一个或多个任务。在一些示例中,任务可包括改变媒体设备上的应用程序的状态或设置。更具体地,任务可包括例如选择或播放所请求的媒体项、打开或关闭所请求的应用程序,或以所请求的方式在所显示的用户界面中进行导航。在一些示例中,可在框532处执行任务并且不从媒体设备输出与任务相关的语音。因此,虽然在这些示例中用户可通过语音的形式向数字助理提供请求,但是数字助理可不以语音形式向用户提供响应。相反,数字助理可通过在显示单元上显示结果而仅在视觉上作出响应。这样可保留消费媒体内容的公共体验是可取的。

在其他示例中,任务可包括检索和显示所请求的信息。具体地,在框 532处执行任务可包括执行框534至框536中的一个或多个框。在过程500 的框534处,可获取至少部分地满足用户请求的结果。可从外部服务(例如,外部服务120)获取结果。在一个示例中,用户请求可以是执行媒体搜索查询的请求,诸如“查找由Reese Witherspoon主演的浪漫喜剧。”。在该示例中,框534可包括执行所请求的媒体搜索(例如,使用外部服务的媒体相关数据库),以获取分类为浪漫喜剧并且具有演员Reese Witherspoon的媒体项。在其他示例中,用户请求可包括对其他类型的信息诸如天气、体育和股市的请求,并且可在框534处获取相应信息。

在过程500的框536处,可在显示单元上显示第二用户界面。第二用户界面可包括在框534处获取的结果的一部分。例如,如图6G所示,第二用户界面618可被显示在显示单元上。第二用户界面618可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧”的用户请求的媒体项622。在该示例中,媒体项622可包括一些媒体项,诸如“Legally Blonde”、“Legally Blonde 2”、“Hot Pursuit”和“This Means War”。第二用户界面618可还包括描述所获取的结果的文本标头620。文本标头620可改述用户请求的一部分,以传达用户的请求已被直接处理的印象。这提供了用户和数字助理之间更加人性化的交互式体验。在图6G中所示的本示例中,媒体项622跨第二用户界面618而被组织在单个行中。应当认识到,在其他示例中,媒体项622的组织和展示可变化。

第二用户界面618可还包括用于在第二用户界面618中导航和选择媒体项622的光标624。可通过相对于其他媒体项可视地突出显示光标所在的媒体项来指示光标的位置。例如,在本示例中,与第二用户界面618中显示的其他媒体项相比,光标624所在的媒体项623可更大且更粗。

在一些示例中,在显示第二用户界面时,可继续显示所显示的内容的至少一部分。例如,如图6G所示,第二用户界面618可以是在显示单元的基部显示的小窗格,而媒体内容602继续在媒体设备上播放并且在第二用户界面618上方的显示单元上显示。可将第二用户界面618覆盖在正在播放的媒体内容602上。在本示例中,显示单元上的第二用户界面618的显示区域可小于显示单元上的媒体内容602的显示区域。这样可减少在用户正在消费媒体内容时由数字助理显示的结果的干扰是可取的。应当认识到,在其他示例中,第二用户界面的显示区域相对于所显示的内容的显示区域可变化。此外,如图6G中的实心字体“MEDIA PLAYING”所示的,在显示第二用户界面 618时,媒体内容602的亮度可恢复到正常亮度(例如,在检测用户输入之前的图6A处的亮度)。这可用于向用户指示与数字助理的交互已完成。因此,用户可在观看所请求的结果(例如,媒体项622)时继续消费媒体内容 602。

在从媒体搜索获取的媒体项显示在第二用户界面上的示例中,可限制显示的媒体项的数量。这样可允许用户关注最相关的结果并且防止用户在进行选择时面对过多的选项是可取的。在这些示例中,框532可还包括确定所得结果中的媒体项的数量是否小于或等于预先确定数量(例如,30、28或25)。根据确定所得结果中的媒体项的数量小于或等于预先确定数量,所得结果中的所有媒体项可被包括在第二用户界面中。根据确定所得结果中的媒体项的数量大于预先确定数量,所得结果中只有预先确定数量的媒体项可被包括在第二用户界面中。

此外,在一些示例中,在第二用户界面中可仅显示所得结果中的与媒体搜索请求最相关的媒体项。具体地,所得结果中的媒体项中的每个媒体项可与相对于媒体搜索请求的相关性得分相关联。所显示的媒体项在所得结果中可具有最高的相关性得分。此外,可根据相关性得分来排列第二用户界面中的媒体项。例如,参考图6G,具有较高相关性得分的媒体项更可能接近第二用户界面618的一侧(例如,接近光标624的一侧),而具有较低相关性得分的媒体项更可能接近用户界面618的相对侧(例如,远离光标624的一侧)。此外,所得结果中的每个媒体项可与流行度评级相关联。流行度评级可基于电影评论家的评级(例如,烂番茄评级(rotten tomatoes ratings))或基于已选择回放媒体项的用户的数量。在一些示例中,媒体项622在第二用户界面618中的布置可基于流行度评级。例如,具有较高流行度评级的媒体项更可能被定位在第二用户界面618的一侧,而具有较低流行度评级的媒体项更可能接近被定位在第二用户界面618的相对侧。

如图5C中继框532之后的不同流(例如,D、E、F和G)所示的,可在框532之后执行图5D的框538、图5E的框542、图5F的框550或图5I 的框570中的一者。可在框536处显示第二用户界面时执行框538、框542、框550或框570。在一些示例中,过程500可另选地包括框536之后的确定步骤,以确定要执行的适当的流(例如,D、E、F或G)。具体地,可在框 536之后检测用户输入,并且可确定检测到的用户输入是否对应于第二用户输入(例如,框538)、第三用户输入(例如,框542)、第四用户输入(例如,框550)或第六用户输入(例如,框570)。例如,根据确定用户输入对应于框542的第三用户输入,可执行框544至框546中的一个或多个框。在框546之后,还可包括类似的确定步骤。

在过程500的框538处并且参考图5D,可检测到第二用户输入。如上所述,在第二用户界面显示在显示单元上时可检测第二用户输入。可在媒体设备的遥控器上检测到第二用户输入。例如,第二用户输入可包括遥控器的触敏表面上的第一预先确定的动作模式。在一个示例中,第一预先确定的动作模式可包括从触敏表面上的第一接触点到第二接触点的第一方向上的连续接触动作。当以预期的方式握持遥控器时,第一方向可以是向下的方向或是朝向用户的方向。应当认识到,对于第二用户输入可预期其他形式的输入。响应于检测到第二用户输入,可执行框540。

在过程500的框540处,可消除第二用户界面,使得该第二用户界面不再显示。例如,参考图6G,响应于检测到第二用户输入,第二用户界面618 可停止显示。在该示例中,在消除第二用户界面618时,可在显示单元上全屏显示媒体内容602。例如,在停止显示第二用户界面618时,可如图6A 所示来显示媒体内容602。

在过程500的框542处并且参考图5E,可检测到第三用户输入。可在显示单元上显示第二用户界面时检测到第三用户输入。可在媒体设备的遥控器上检测到第三用户输入。例如,第三用户输入可包括遥控器的触敏表面上的第二预先确定的动作模式。第二预先确定的动作模式可包括从触敏表面上的第三接触点到第四接触点的第二方向上的连续接触动作。第二方向可与第一方向相反。具体地,当以预期的方式握持遥控器时,第二方向可以是向上的方向或是远离用户的方向。响应于检测到第三用户输入,可执行框544至框546中的一个或多个框。在一些示例中,如图6G所示,第二用户界面618 可包括图形指示符621(例如,箭头),以向用户指示可通过提供第三用户输入来扩展第二用户界面618。此外,图形指示符621可向用户指示与用于第三用户输入的触敏表面上的第二预先确定的动作模式相关联的第二方向。

在过程500的框544处,可获取第二结果。所得第二结果可类似于但不同于在框534处获取的结果。在一些示例中,所得的第二结果可至少部分地满足用户请求。例如,所得的第二结果可共享在框534处获取的结果的一个或多个特性、参数或属性。在图6F至图6G所示的示例中,框544可包括执行与在框534处执行的媒体搜索查询相关的一个或多个附加媒体搜索查询。例如,一个或多个附加媒体搜索查询可包括搜索分类为浪漫喜剧的媒体项或搜索由Reese Witherspoon主演的媒体项。因此,所得的第二结果可包括作为浪漫喜剧的媒体项(例如,媒体项634)和/或由Reese Witherspoon主演的媒体项(例如,媒体项636)。

在一些示例中,所得的第二结果可基于在框504处检测用户输入之前所接收的先前用户请求。具体地,所得的第二结果可包括先前用户请求的一个或多个特性或参数。例如,先前的用户请求可以是“为我显示在过去5年中发行的电影。”。在该示例中,所得的第二结果可包括在过去5年中发行的由Reese Witherspoon主演的作为浪漫喜剧片的媒体项。

此外,在一些示例中,框544可包括在检测到第三用户输入时获取与第二用户界面所聚焦的项目上下文相关的第二结果。例如,参考图6G,在检测到第三用户输入时,光标624可被定位在第二用户界面618中的媒体项623 处。媒体项623可以是例如电影“Legally Blonde”。在该示例中,所得的第二结果可共享与媒体项“Legally Blonde”相关联的一个或多个特性、属性或参数。具体地,所得的第二结果可包括像“Legally Blonde”的媒体项,其涉及就读法学院或涉及担任领导角色的职业女性。

在过程500的框546处,可在显示单元上显示第三用户界面。具体地,可利用对框546处的第三用户界面的显示来替换对框536处的第二用户界面的显示。在一些示例中,响应于检测到第三用户输入,可将第二用户界面扩展为第三用户界面。第三用户界面可至少占据显示单元的大部分显示区域。第三用户界面可包括框534的所得结果的一部分。此外,第三用户界面可包括框544的所获取的第二结果的一部分。

在一个示例中,如图6H所示,第三用户界面626可基本占据显示单元的整个显示区域。在该示例中,可利用对第三用户界面626的显示来替换对媒体内容602和第二用户界面618的先前显示。响应于检测到第三用户输入,可在媒体设备上暂停播放媒体内容。这可防止用户在第三用户界面626中浏览媒体项时丢失媒体内容602的任何部分是可取的。

第三用户界面626可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧。”的用户请求的媒体项622。此外,第三用户界面626可包括至少部分地满足相同用户请求的媒体项632。媒体项632可包括各自对应于不同的特性、属性或参数的多个媒体项组。在该示例中,媒体项632可包括作为浪漫喜剧的媒体项634和由Reese Witherspoon主演的媒体项636。每个媒体项组可使用文本标头(例如,文本标头628,630)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取类似组的媒体项。例如,参考文本标头628,响应于从用户收到用户话语“浪漫喜剧”,数字助理可获取并显示作为浪漫喜剧的媒体项(例如,媒体项634)。

虽然在图6H所示的示例中,媒体项622基于初始用户请求“查找由 Reese Witherspoon主演的浪漫喜剧”,但是应当认识到,在其他示例中,媒体项632可基于其他因素,诸如媒体选择历史、媒体搜索历史、接收先前媒体搜索的顺序、媒体相关属性之间的关系、媒体项的流行度等。

在用户请求是媒体搜索请求的示例中,所得的第二结果可基于框534的所得结果中的媒体项的数量。具体地,响应于检测到第三用户输入,可确定所得结果中的媒体项的数量是否小于或等于预先确定的数量。根据确定所得结果中的媒体项的数量小于或等于预先确定的数量,所得的第二结果可包括与第二用户界面中的媒体项不同的媒体项。所得的第二结果可至少部分地满足在框534处执行的媒体搜索请求。同时,所得的第二结果的范围可比先前所得结果的范围更宽,并且可与在框534处执行的媒体搜索请求中定义的参数中的部分参数相关联。这样可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。

在一些示例中,根据确定框534的所得结果中的媒体项的数量小于或等于预先确定的数量,可确定媒体搜索请求是否包括多于一个搜索属性或参数。根据确定媒体搜索请求包括多于一个搜索属性或参数,所得的第二结果可包括与多于一个搜索属性或参数相关联的媒体项。此外,可根据多于一个搜索属性或参数来在第三用户界面中组织所获取的第二结果中的媒体项。

在图6F至图6H所示的示例中,媒体搜索请求“查找由Reese Witherspoon 主演的浪漫喜剧”可被确定为包括多于一个搜索属性或参数(例如,“浪漫喜剧”和“Reese Witherspoon”)。根据确定媒体搜索请求包括多于一个搜索属性或参数,所得的第二结果可包括与搜索参数“浪漫喜剧”相关联的媒体项634,以及与搜索参数“Reese Witherspoon出演的电影”相关联的媒体项636。如图6H所示,可将媒体项634按“浪漫喜剧”类别进行组织,并且可将媒体项636按“Reese Witherspoon”类别进行组织。

在一些示例中,根据确定框534的所得结果中的媒体项的数量大于预先确定的数量,第三用户界面可包括所得结果的第一部分和第二部分。所获取的结果的第一部分可包括预先确定数量的媒体项(例如,具有最高相关性得分)。所得结果的第二部分可不同于所得结果的第一部分,并且可包括比所得结果的第一部分更多的媒体项。此外,可确定所得结果中的媒体项是否包括多于一种媒体类型(例如,电影、电视节目、音乐、应用程序、游戏等)。响应于确定所得结果中的媒体项包括多于一种媒体类型,可根据媒体类型来组织所得结果的第二部分中的媒体项。

在图6I所示的示例中,在框534处获取的结果可包括由Reese Witherspoon主演的作为浪漫喜剧的媒体项。根据确定所得结果中的媒体项的数量大于预先确定的数量,可在第三用户界面626中显示所得结果的第一部分(媒体项622)和所得结果的第二部分(媒体项638)。响应于确定所得结果包括多于一种媒体类型(例如,电影和电视节目),可根据媒体类型来组织媒体项638。具体地,可将媒体项640按“电影”类别进行组织,并且可将媒体项642按“电视节目”类别进行组织。此外,在一些示例中,与相应媒体类型(例如,电影、电视节目)对应的每个媒体项组(例如,媒体项640、媒体项642)可根据相应媒体项组内的最流行的分类、演员/导演或发行日期来排序。应当认识到,在其他示例中,响应于确定所得结果中的媒体项与多于一个媒体属性或参数相关联,可根据媒体属性或参数(而不是媒体类型)来组织所得结果的第二部分中的媒体项。

在一些示例中,可检测表示滚动命令的用户输入(例如,下面在框550 处描述的第四用户输入)。响应于接收到表示滚动命令的用户输入,可使得经扩展的用户界面(或者更具体地,经扩展的用户界面中的项目)滚动。在滚动时,可确定经扩展的用户界面是否经滚动超出经扩展的用户界面中的预先确定的位置。响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置,可在经扩展的用户界面上显示所得结果的第三部分中的媒体项。第三部分中的媒体项可根据与第三部分中的媒体项相关联的一个或多个媒体内容提供方(例如,iTunes、Netflix、HuluPlus、HBO等)来组织。应当认识到,在其他示例中,响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置,可获取其他媒体项。例如,可获取流行媒体项或与所得结果相关的媒体项。

如从图5E中的框546开始的不同流(例如,B、F、G和H)所示的,可在框532之后执行图5F的框550、图5G的框558、图5H的框566或图 5I的570。具体地,在一些示例中,可在框546处显示第三用户界面时执行框550、框560、框564或框570。

在过程500的框550处并且参考图5F,可检测到第四用户输入。可在显示单元上显示第二用户界面(例如,第二用户界面618)或第三用户界面 (例如,第三用户界面626)时检测第四用户输入。在一些示例中,可在媒体设备的遥控器上检测第四用户输入。第四用户输入可指示显示单元上的方向(例如,向上、向下、向左、向右)。例如,第四用户输入可以是从遥控器触敏表面上的第一位置到触敏表面上的第一位置右侧的第二位置的接触动作。因此该接触动作可对应于显示单元上的向右的方向。响应于检测到第四用户输入,可执行框552。

在过程500的框552处,第二用户界面或第三用户界面的焦点可在第二用户界面或第三用户界面上从第一项目切换至第二项目。第二项目可被定位在相对于第一项目的方向(例如,与第四用户输入对应的相同方向)上。例如,在图6G中,第二用户界面618的焦点可在媒体项623上,其中光标624 被定位在媒体项623处。响应于检测到与显示单元上的向右方向对应的第四用户输入,可将第二用户界面618的焦点从图6G中的媒体项623切换至图6J中的被定位在媒体项623右侧的媒体项625。具体地,光标624的位置可从媒体项623改变至媒体项625。在另一个示例中,参考图6H,第三用户界面626的焦点可位于媒体项623上。响应于检测到与显示单元上的向下方向对应的第四用户输入,可将第三用户界面626的焦点从图6H中的媒体项623 切换至图6K中的相对于媒体项623被定位在其下方的媒体项627。具体地,光标624的位置可从媒体项623改变至媒体项627。

在过程500的框554处,可经由第二用户界面或第三用户界面来接收对一个或多个媒体项中的媒体项的选择。例如,参考图6J,可通过在光标624 被定位在媒体项625处时检测与用户选择对应的用户输入经由第二用户界面 618来接收对媒体项625的选择。类似地,参考图6K,可通过在光标624被定位在媒体项627处时检测与用户选择对应的用户输入经由第三用户界面 626来接收对媒体项627的选择。响应于接收到对一个或多个媒体项中的媒体项的选择,可执行框556。

在过程500的框556处,可在显示单元上显示与所选择的媒体项相关联的媒体内容。在一些示例中,媒体内容可以是正在媒体设备上播放或流式传输的电影、视频、电视节目、动画等。在一些示例中,媒体内容可以是视频游戏、电子书、应用程序或在媒体设备上运行的程序。此外,在一些示例中,媒体内容可以是与媒体项相关的信息。该信息可以是描述所选择的媒体项的各种特性(例如,剧情简介、演员、导演、作者、发行日期、评级、持续时间等)的产品信息。

在过程500的框558处并且参考图5G,可检测第五用户输入。在一些示例中,可在显示第三用户界面(例如,第三用户界面626)时检测第五用户输入。在这些示例中,在第三用户界面的焦点在第三用户界面顶行中的媒体项上时(例如,图6H的第三用户界面626中的媒体项622中的一个媒体项),可检测第五用户输入。在其他示例中,可在显示第一用户界面时检测第五用户输入。在这些示例中,可在执行框508至框514中的任一个框时检测第五用户输入。在一些示例中,可在媒体设备的遥控器上检测第五用户输入。第五用户输入可与第三用户输入相似或相同。例如,第五用户输入可包括触敏表面上的第二方向上的连续接触动作(例如,向上滑动接触动作)。在其他示例中,第五用户输入可以是对示能表示的激活。该示能表示可与虚拟键盘界面或键入搜索界面相关联。响应于检测到第五用户输入,可执行框 560至框564中的一个或多个框。

在过程500的框560处,可显示被配置为接收键入搜索输入的搜索字段。例如,如图6L所示,搜索字段644可被显示在所显示的单元上。在一些示例中,搜索字段可被配置为接收键入搜索查询。键入搜索查询可以是媒体相关的搜索查询,诸如搜索媒体项。在一些示例中,搜索字段可被配置为基于经由搜索字段644输入的文本和与媒体项相关联的所存储文本之间的文本串匹配来执行媒体相关搜索。此外,在一些示例中,数字助理可不被配置为经由搜索字段644来接收输入。这样可鼓励用户经由语音界面而不是打字界面与数字助理进行交互,以促进媒体设备和用户之间的更加人性化的界面。应当认识到,在一些示例中,搜索字段可能已被显示在第二用户界面(例如,第二用户界面618)或第三用户界面(例如,第三用户界面626)中。在这些示例中,可不必执行框566。

在过程500的框562处,可在显示单元上显示虚拟键盘界面。例如,如图6L所示,可显示虚拟键盘界面646。虚拟键盘界面646可被配置为使得经由虚拟键盘界面646所接收的用户输入导致搜索字段中的文本输入。在一些示例中,虚拟键盘界面不可用于与数字助理进行交互。

在过程500的框564处,可将用户界面的焦点切换至搜索字段。例如,参考图6L,可在框568处突出显示搜索字段644。此外,文本输入光标可被定位在搜索字段644。在一些示例中,可在搜索字段中显示用于提示用户输入键入搜索的文本。如图6L所示,文本648包括提示“输入搜索”。

在过程500的框566处并且参考图5H,可检测第七用户输入。在一些示例中,可在显示第三用户界面(例如,第三用户界面626)时检测第七用户输入。在一些示例中,第七用户输入可包括按压电子设备的遥控器的按钮。该按钮可以是例如用于导航至电子设备的主菜单用户界面的菜单按钮。应当认识到,在其他示例中,第七用户输入可包括其他形式的用户输入。响应于检测到第七用户输入,可执行框568。

在过程500的框568处,可在显示单元上显示第三用户界面。具体地,第七用户输入可使得第三用户界面被消除。在一些示例中,第七用户输入可使得主菜单用户界面菜单将被显示,从而代替第三用户界面。作为另外一种选择,在显示第三用户界面(例如,第三用户界面626)之前显示媒体内容 (例如,媒体内容602)并且在显示第三用户界面时暂停播放电子设备上的媒体内容(例如,响应于检测到第三用户输入而暂停)的示例中,可响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。因此,可响应于检测到第七用户输入来显示媒体内容。

在过程500的框570处并且参考图5I,可检测到第六用户输入。如图 6M所示,可在显示第三用户界面626时检测第六用户输入。然而,在其他示例中,可在显示第二用户界面(例如,第二用户界面618)时另选地检测第六用户输入。在检测到第六用户输入时,第二用户界面或第三用户界面可包括至少部分地满足用户请求的结果的一部分。第六用户输入可包括用于调用电子设备的数字助理的输入。具体地,第六用户输入可与上面参考框516 描述的第二输入类型的用户输入相似或相同。例如,第六用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如,长按)。响应于检测到第六用户输入,可执行框572至框592中的一个或多个框。

在过程500的框572处,可对第二音频数据进行采样。框572可与上述框518相似或相同。具体地,经采样的第二音频数据可包括来自第二用户的用户话语。第二用户话语可表示针对数字助理的第二用户请求。在一些示例中,第二用户请求可以是用于执行第二任务的请求。例如,参考图6M,经采样的第二音频数据可包括第二用户话语“仅需要Luke Wilson出演的那些电影。”。在该示例中,第二用户话语可表示第二用户请求以细化先前的媒体搜索,从而仅包括具有演员Luke Wilson的媒体项。在该示例中,第二用户话语是自然语言形式。此外,在第二用户话语没有明确指定定义用户请求所需的所有信息的情况下,可部分指定第二用户请求。例如,第二用户话语没有明确指定“那些”指的是什么。在其他示例中,第二用户请求可以是播放媒体项或提供特定信息(例如,天气、股市、体育等)的请求。

应当认识到,在一些示例中,可相对于第六用户输入类似地执行上述框 520至框526。具体地,如图6M所示,当检测到第六用户输入时,可在显示单元上显示活动的视觉指示符614。可(例如,使用STT处理模块430) 确定第二用户话语的第二文本表示650并将其显示在显示单元上。可基于第二文本表示(例如,使用自然语言处理模块432)来确定与第二用户话语对应的第二用户意图。在一些示例中,如图6M所示,响应于检测到第六用户输入,在检测到第六用户输入时被显示在显示单元上的内容可被淡化或降低亮度。这可用于突出显示活动的视觉指示符614和第二文本表示650。

在过程500的框574处,可确定经采样的第二音频数据是否包含第二用户请求。框574可与上述框528相似或相同。具体地,可基于从第二用户话语的第二文本表示确定的第二用户意图来作出框574处的确定。根据确定第二音频数据不包含用户请求,可执行框576。作为另外一种选择,根据确定第二音频数据包含第二用户请求,可执行框578至框592中的一个或多个框。

在过程500的框576处,可在显示单元上显示用于澄清用户意图的请求。框576可与上述框530相似或相同。

在过程500的框578处,可确定第二用户请求是否是用于细化用户请求的结果的请求。在一些示例中,可根据与第二用户话语对应的第二用户意图来作出确定。具体地,第二用户请求可被确定为是用于基于在第二用户话语中识别的所表达的指示来细化用户请求的结果的请求,以细化用户请求的结果。例如,参考图6M,可在自然语言处理期间解析第二文本表示650,以确定第二用户话语是否包括与细化媒体搜索结果的明确意图对应的预先确定的字词或短语。与细化媒体搜索结果的明确意图对应的字词或短语的示例可包括“仅”、“只”、“通过……筛选”等。因此,可基于第二文本表示 650中的字“仅”来确定第二用户请求是用于细化与用户请求“查找由Reese Witherspoon主演的浪漫喜剧”相关联的媒体搜索结果的请求。应当认识到,可实现其他技术来确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可执行框580 至框582中的一个或多个框。

在过程500的框580处,可获取至少部分地满足用户请求的结果的子组。在一些示例中,可通过根据第二用户请求中定义的附加参数筛选现有结果来获取结果的子组。例如,可筛选框534处的所获取的结果(例如,包括媒体项622),使得识别具有演员Luke Wilson的媒体项。在其他示例中,可执行组合用户请求和第二用户请求的要求的新的媒体搜索查询。例如,新的媒体搜索查询可以是针对分类为浪漫喜剧并且具有演员Reese Witherspoon和 Luke Wilson的媒体项的搜索查询。在该示例中,新的媒体搜索查询可得出媒体项,诸如“Legally Blonde”和“Legally Blonde 2”。

在显示第三用户界面时检测第六用户输入的示例中,可获取与用户请求和/或第二用户请求相关的附加结果。该附加结果可包括具有在用户请求和/ 或第二用户请求中描述的一个或多个属性或参数的媒体项。此外,附加结果可能不包括在用户请求和第二用户请求中描述的所有属性或参数。例如,参考图6H和图6M中描述的示例,附加结果可包括具有以下属性或参数中的至少一者(但不是全部)的媒体项:浪漫喜剧、Reese Witherspoon和Luke Wilson。附加结果可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。此外,附加结果可以是很可能使用户感兴趣的相关结果。

在框582处,可在显示单元上显示结果的子组。例如,如图6N所示,结果的子组可包括媒体项652,该媒体项可包括电影,诸如“Legally Blonde”和“Legally Blonde 2”。在该示例中,媒体项652在第三用户界面626的顶行中显示。文本标头656可描述与所显示的媒体项652相关联的属性或参数。具体地,文本标头656可包括与第二用户话语相关联的用户意图的改述。在显示第二用户界面(例如,图6G中所示的第二用户界面618)时检测第六用户输入的示例中,媒体项652可替代地被显示在第二用户界面中。在这些示例中,媒体项652可跨第二用户界面而被显示为单行。应当认识到,媒体项652在第二用户界面或第三用户界面中被显示的方式可变化。

在显示第三用户界面时检测第六用户输入的示例中,可在第三用户界面中显示与所述用户请求和/或第二用户请求相关的附加结果。例如,参考图 6N,附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个参数的媒体项654。具体地,媒体项654可包括由Luke Wilson主演的作为浪漫喜剧的媒体项658,以及由Luke Wilson主演且在过去10年中发行的媒体项660。每个媒体项组(例如,媒体项658、媒体项660)可使用文本标头(例如,文本标头662、文本标头664)来标记。该文本标头可描述与相应组的媒体项相关联的一个或多个参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取类似组的媒体项。例如,参考文本标头662,响应于收到来自用户的用户话语“由Luke Wilson主演的浪漫喜剧”,数字助理可获取并显示作为由Luke Wilson主演的浪漫喜剧的媒体项(例如,媒体项658)。

再次参考框578,可确定第二用户请求不是用于细化所述用户请求的结果的请求。可基于第二用户话语中没有任何明确指示要细化用户请求的结果来作出这样的确定。例如,在自然语言处理期间解析第二用户话语的第二文本表示时,可能识别不出与用于细化媒体搜索结果的明确意图对应的预先确定的字词或短语。这可能是因为第二用户请求是与先前用户请求无关的请求 (例如,新请求)。例如,第二用户请求可以是“查找恐怖电影”,该第二用户请求是与先前的用户请求“查找由Reese Witherspoon主演的浪漫喜剧”无关的请求。作为另外一种选择,第二用户请求可包括可被解译为用于细化先前用户请求的结果的请求或与先前用户请求无关的新请求的模糊语言。例如,参考图6P,第二用户话语可以是“Luke Wilson”,其可被解译为是用于细化先前用户请求的结果的请求(例如,细化以仅包括具有演员Luke Wilson的媒体项),或者可被解译为是与先前的用户请求无关的新请求(例如,对于具有演员Luke Wilson的媒体项的新媒体搜索)。在这些示例中,第二用户请求可被确定为不是用于细化所述用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求,可执行框584至框592 中的一个或多个框。

在过程500的框584处,可执行至少部分地满足第二用户请求的第二任务。框584可类似于上述框532,不同之处在于框584的第二任务可不同于框532的任务。框584可包括框586至框588中的一个或多个框。

在过程500的框586处,可获取至少部分地满足第二用户请求的第三结果。框586可类似于上述框534。参考图6P所示的示例,第二用户话语“Luke Wilson”可被解译为是执行新的媒体搜索查询以识别具有演员Luke Wilson 的媒体项的请求。因此,在该示例中,框586可包括执行所请求的媒体搜索,以获取具有演员Luke Wilson的媒体项。应当认识到,在其他示例中,用户请求可包括对其他类型的信息(例如,天气、体育、股市等)的请求,并且可在框586处获取相应类型的信息。

在过程500的框588处,可在显示单元上显示第三结果的一部分。例如,参考图6Q,可在第三用户界面626中显示包括具有演员Luke Wilson的媒体项670(例如,电影诸如“Playing It Cool”、“The Skeleton Twins”和“You Kill Me”的第三结果。在该示例中,媒体项670可在第三用户界面626的顶行中显示。文本标头678可描述与所显示的媒体项670相关联的属性。具体地,文本标头678可包括与第二用户话语相关联的所确定的用户意图的改述。在显示第二用户界面(例如,图6G中所示的第二用户界面618)时检测第六用户输入的示例中,媒体项670可被显示在第二用户界面中。在这些示例中,媒体项670可跨第二用户界面以单行而被显示。应当认识到,在其他示例中,第二用户界面或第三用户界面中的媒体项670的组织或配置可变化。

在过程500的框590处,可获取至少部分地满足用户请求和/或第二用户请求的第四结果。具体地,第四结果可包括具有在用户请求和/或第二用户请求中定义的一个或多个属性或参数的媒体项。参考图6P和图6Q中所示的示例,第四结果可包括具有以下属性或参数中的一个或多个的媒体项:浪漫喜剧、Reese Witherspoon和Luke Wilson。例如,第四结果可包括分类为浪漫喜剧并且由Luke Wilson主演的媒体项676。所得的第四结果可向用户提供范围更广的一组结果并且因此提供更多选项可供选择是可取的。此外,第四结果可与源于第二用户请求和一个或多个先前用户请求的另选预测用户意图相关联,以便提高满足用户实际意图的可能性。这可用于提高返回给用户的结果的准确性和相关性,从而改善用户体验。

在一些示例中,第四结果的至少一部分可包括具有在用户请求和第二用户请求中定义的所有参数的媒体项。例如,第四结果可包括分类为浪漫喜剧并且由Reese Witherspoon和Luke Wilson主演的媒体项674。媒体项674可与使用第二用户请求来细化先前用户请求的结果的另选意图相关联。在用户实际上希望第二请求是细化所得结果的请求的情况下获取媒体项674可提高满足用户实际意图的可能性是可取的。

在一些示例中,第四结果的一部分可基于检测到第六用户输入时的用户界面的焦点。具体地,当检测到第六用户输入时,用户界面的焦点可位于第三用户界面的一个或多个项目上。在该示例中,第四结果的一部分可与用户界面所聚焦的一个或多个项目上下文相关。例如,参考图6K,光标624可被定位在媒体项627上,并且因此第三用户界面626的焦点可位于媒体项627 上。在该示例中,可利用与媒体项627相关联的属性或参数来获取第四结果的一部分。例如,与媒体项627相关联的“Reese Witherspoon出演的电影”的类别可用于获取第四结果的一部分,其中所得部分可包括由Reese Witherspoon和Luke Wilson主演的媒体项。在另一示例中,媒体项627可以是冒险电影,并且因此第四结果的一部分可包括作为由Luke Wilson主演的冒险电影的媒体项。

在过程500的框592处,可显示第四结果的一部分。在显示第三用户界面时检测第六用户输入的示例中,第四结果的一部分可被显示在第三用户界面中。例如,如图6Q所示,第四结果的一部分可包括在媒体项670之后的行中显示的媒体项672。媒体项672可与在第二用户请求和/或所述用户请求中定义的一个或多个属性或参数(例如,浪漫喜剧、Reese Witherspoon和 Luke Wilson)相关联。例如,媒体项672可包括作为由Luke Wilson主演的浪漫喜剧的媒体项676,以及作为由Reese Witherspoon和Luke Wilson主演的浪漫喜剧的媒体项674。每个媒体项组(例如,媒体项674、媒体项676) 可使用文本标头(例如,文本标头680、文本标头682)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性用户话语,当其由用户提供至数字助理时,可使得数字助理获取具有类似属性的类似组的媒体项。

如上所述,第二用户话语“Luke Wilson”可与两个可能的用户意图相关联:执行新的媒体搜索的第一用户意图或细化先前用户请求的结果的第二用户意图。所显示的媒体项670可满足第一用户意图,并且所显示的媒体项674 可满足第二用户意图。在该示例中,媒体项670和媒体项674被显示在前两行中。这样,可在第三用户界面626中突出显示(例如,前两行)与第二用户请求(例如,新搜索或对先前搜索的细化)相关联的两个最可能的用户意图的结果。这样可尽量减少用户在找到所需媒体项进行消费之前在第三用户界面中的滚动或浏览。应当认识到,在第三用户界面626中突出显示媒体项 670和媒体项674以尽量减少滚动和浏览的方式可变化。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程700。可使用实现数字助理的一个或多个电子设备来执行过程700。例如,可使用上述的系统100、媒体系统128、媒体设备104、用户设备122\ 或数字助理系统400中的一者或多者来执行过程700。图8A至图8W示出了根据各种示例的在过程700的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图7A至图7C和图8A至图8W对过程700进行描述。应当理解,过程700中的一些操作可组合,一些操作的顺序可改变,而一些操作可省略。

在过程700的框702处,可在显示单元(例如,显示单元126)上显示内容。框702可与上述框502相似或相同。参考图8A,所显示的内容可包括在媒体设备(例如,媒体设备104)上播放的媒体内容802(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括其他内容,诸如与媒体设备上运行的应用程序相关联的内容,或用于与媒体设备的数字助理进行交互的用户界面。具体地,所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面。

在过程700的框704处,可检测用户输入。框704可与上述框504相似或相同。用户输入可用于调用媒体设备的数字助理。在一些示例中,可在显示框702的内容时检测用户输入。可在媒体设备的遥控器(例如,遥控器124) 上检测用户输入。例如,用户输入可对应于在过程500的框516中描述的第二输入类型。具体地,框704处的用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如,长按)。响应于检测到用户输入,可执行框706至框746中的一个或多个框。

在过程700的框706处,可对音频数据进行采样。框706可与上述框 518相似或相同。经采样的音频数据可包括用户话语。用户话语可表示针对媒体设备的数字助理的用户请求。例如,参考图8A中所示的示例,经采样的音频数据可包括用户话语“Paris现在是几点?”。用户话语可以是非结构化自然语言形式。在一些示例中,由用户话语表示的请求可以是部分指定的,其中执行请求所需的信息在用户话语中是缺失的或未被明确定义(例如,“播放这个”)。在其他示例中,用户话语可能不是显式请求,而是从其推断请求的间接问题或语句(例如,“他说了什么?”)。此外,如下面在框712 中更详细的描述,用户话语可包括一个或多个模糊术语。

在过程700的框708处,可确定经采样的音频数据中的用户话语的文本表示。框708可与上述框522相似或相同。具体地,可通过对经采样的音频数据中的用户话语执行STT处理来确定该文本表示。例如,参考图8A,可从经采样的音频数据中的用户话语确定文本表示804“Paris现在是几点?”,并将其显示在显示单元上。如图所示,文本表示804可覆盖在媒体内容802 上,而媒体内容802继续在媒体设备上播放。

在一些示例中,用于确定文本表示的STT处理可偏向于媒体相关的文本结果。除此之外或作为另外一种选择,文本表示可基于在对音频数据采样之前由媒体设备所接收的先前用户话语。此外,在一些示例中,文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。在从独立设备(例如,DA服务器106)获取文本表示的示例中,媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联,并且该指示可使独立设备上的 STT处理偏向与媒体相关的文本结果。

在过程700的框710处,可确定对与用户话语对应的用户意图。框710 可类似于上述框526。具体地,可使用自然语言处理(例如,利用自然语言处理模块432)来处理框708的文本表示以得到用户意图。例如,参考图8A,可从文本表示804“Paris现在是几点?”确定用户意图是在请求名为“Paris”的位置的时间。用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。在从独立设备(例如,DA服务器106)获取用户意图的示例中,媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联,并且该指示可使独立设备上的自然语言处理偏向于媒体相关的用户意图。

在一些示例中,可基于源于经采样的音频数据中的用户话语的韵律信息来确定用户意图。具体地,可从用户话语得出韵律信息(例如,音调、节奏、音量、压力、语调、速度等),从而确定用户的态度、心情、情感或情绪。然后可根据用户的态度、心情、情感或情绪来确定用户意图。例如,经采样的音频数据可包括用户话语“他说了什么?”。在该示例中,可基于在用户话语中检测到的高音量和压力来确定用户的不耐烦或沮丧。基于用户话语和所确定的用户情绪,可确定用户意图包括用于增加与正在媒体设备上播放的媒体内容相关联的音频的音量的请求。

如图7A所示,框710可包括框712至框718中的一个或多个框。具体地,当发现两个或更多个用户意图非常可能并且自然语言处理模块不能缩窄两个或更多个用户意图的范围使其成为单个用户意图时,可执行框712至框 718中的一个或多个框。例如,当用户话语包含不可基于可用的上下文信息而消歧的模糊术语时,可能出现这种情况。

在过程700的框712处,可确定用户话语(或用户话语的文本表示)是否包括模糊术语。可在自然语言处理(例如,使用自然语言处理模块432) 期间作出确定以确定用户意图。模糊术语可以是具有多于一个可能的解译的字词或短语。例如,参考图8A,用户话语“Paris现在是几点?”中的术语“Paris”可被解译为法国的“Paris”或是美国得克萨斯州的“Paris”。因此,用户话语中的术语“Paris”可被确定为是模糊术语。

在一些示例中,可(例如,由数字助理)检索上下文信息来对模糊术语潜在地消歧。如果成功消除歧义,则可确定用户话语不包括模糊术语。例如,可确定媒体内容802是将法国的“Paris”作为设置的电影(例如,“Ratatouille”),因此用户更可能指的是法国的“Paris”,而不是得克萨斯州的“Paris”。在该示例中,术语“Paris”可被成功地消歧以指示法国的“Paris”,并且因此可确定用户话语不包括模糊术语。

在另一个示例中,用户话语可以是“播放这个。”。在该示例中,用户话语没有明确定义要播放的特定媒体项,因此单独解译的术语“这个”可以是能够指代媒体设备可访问的任何媒体项的模糊术语。可使用由媒体设备在显示单元上显示的上下文信息来消除该术语的歧义。例如,数字助理可确定所显示的用户界面的焦点是否位于一个媒体项上。根据确定用户界面的焦点位于媒体项上,数字助理可对术语“这个”消歧,并确定该术语指的是所显示的用户界面所聚焦的媒体项。基于该确定,可在框712处确定用户话语不包括模糊术语。因此,可将用户意图确定为用于播放所显示的用户界面所聚焦的媒体项的请求。

在不能消除术语歧义的示例中,可在框712处确定用户话语包含模糊术语。响应于确定用户话语包括模糊术语,可执行框714至框718中的一个或多个框。在过程700的框714处,可基于模糊术语来获取两个或更多个候选用户意图。该两个或更多个候选用户意图可以是从不能消歧的用户话语确定的最可能的候选用户意图。参考图8A所示的示例,两个或更多个候选用户意图可包括请求法国“Paris”的时间的第一候选用户意图,以及请求得克萨斯州“Paris”的时间的第二候选用户意图。

在过程700的框716处,可在显示单元上显示两个或更多个候选用户意图以供用户选择。例如,参考图8B,可显示第一候选用户意图810和第二候选用户意图808。此外,可提供文本提示806以通过在第一候选用户意图 810和第二候选用户意图808之间进行选择,从而提示用户指示与用户话语对应的实际用户意图。文本提示806、第一候选用户意图810和第二候选用户意图808覆盖在媒体内容802上。

在过程700的框716处,可接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择。在一些示例中,可通过选择与候选用户意图中的一个候选用户意图对应的示能表示来接收用户选择。具体地,如图8B所示,两个或更多个候选用户意图810,808中的每个候选用户意图可在显示单元上被显示为可选择示能表示。媒体设备可(例如,经由媒体设备的遥控器)从用户接收输入,以将显示器的焦点改变至示能表示中的一个示能表示。然后可(例如,经由媒体设备的遥控器)接收对与该示能表示对应的候选用户意图的用户选择。例如,如图8B所示,媒体设备可接收用户输入,以在与第一候选用户意图810(例如,法国的“Paris”)对应的示能表示上方移动光标812。然后可接收对第一候选用户意图810的用户选择。

在其他示例中,可经由与数字助理的语音交互来接收用户选择。例如,在显示两个或更多个候选用户意图时,可检测第二用户输入。第二用户输入可与框704的用户输入相似或相同。具体地,第二用户输入可以是调用数字助理的输入(例如,按压媒体设备的遥控器上的特定按钮,并按住按钮超过预先确定的持续时间)。响应于检测到第二用户输入,可对第二音频数据进行采样。第二音频数据可包括表示对两个或更多个解译中的一个解译的用户选择的第二用户话语。例如,参考图8C,第二音频数据可包括第二用户话语“法国的‘Paris’”。如图所示,第二用户话语“法国的‘Paris’”的文本表示814可被显示在显示单元上。在该示例中,第二用户话语“法国的‘Paris’”可表示对第一候选用户意图810(例如,法国的“Paris”)的用户选择。基于第二用户话语“法国的‘Paris’”,可确定第一候选用户意图 810是与用户话语“Paris现在是几点?”对应的实际用户意图。因此,可在框710处确定用户意图是在请求法国的“Paris”的时间。在基于所接收的用户选择来确定用户意图时,可执行框720至框746中的一个或多个框。

在一些示例中,可在不输出来自媒体设备的语音的情况下执行框710至框718。具体地,在不输出与两个或更多个候选用户意图808,810相关联的语音的情况下,可显示文本提示806和候选用户意图808,810。因此,可通过语音的形式从用户接收输入,但是可在显示单元上向用户可视地(而不是以音频的形式)呈现来自数字助理的输出。这样可保持与消费媒体内容相关联的公共体验从而可改善媒体设备的用户体验是可取的。

再次参考框712,响应于确定用户话语不包括模糊术语,可执行框720 至框746中的一个或多个框。在过程700的框720处,可确定用户意图是否对应于与媒体设备相关联的多个核心竞争力中的一个预先确定的核心竞争力。例如,媒体设备可与若干个预先确定的核心竞争力相关联,诸如例如搜索媒体项、播放媒体项,以及提供与媒体项、天气、股市和体育相关的信息。如果用户意图涉及执行与若干个预先确定的核心竞争力中的一个预先确定的核心竞争力相关的任务,则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如,如果用户意图是对由Reese Witherspoon主演的媒体项的请求,则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力,可执行框724 至框746中的一个或多个框。

相反,如果用户意图涉及执行若干个预先确定的核心竞争力之外的任务,则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如,如果用户意图是对地图方向的请求,则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力,可执行框722。

在过程700的框722处,可使得第二电子设备(例如,设备122)至少部分地满足用户意图。具体地,可使得第二电子设备执行促成满足用户意图的任务。在一个示例中,可确定媒体设备未被配置为满足请求地图方向的用户意图,并且因此用户意图可被传输至第二电子设备以满足该用户意图。在该示例中,第二用户设备可执行用于显示所请求的地图方向的任务。在其他示例中,用户意图之外的信息可被传输至第二电子设备,以使得第二电子设备执行用于促成满足用户意图的任务。例如,媒体设备的数字助理可确定(例如,使用自然语言处理模块432或任务流处理模块436)满足用户意图的任务流或结构化查询,并且可将该任务流或结构化查询传输至第二电子设备。然后,第二电子设备可执行任务流或结构化查询,以促成满足用户意图。

如在下面提供的描述中将变得显而易见的,与满足用户意图相关联的干扰水平可基于用户意图的性质。在某些情况下,可执行与满足用户意图相关联的任务,而不在显示器上显示任何附加响应或输出(例如,框726)。在其他情况下,仅提供文本响应(例如,没有对应的视觉或音频输出)来满足用户意图(例如,框732)。在其他情况下,可显示包含相关结果的用户界面来满足用户意图(例如,框738,742或746)。用户界面可占据显示单元的大部分面积或一小部分面积。因此,过程700可根据用户意图的性质来智能地调整输出的干扰水平。这使得能够方便地访问数字助理的服务,同时减少消费媒体内容期间的不期望的干扰,从而改善整体用户体验。

在过程700的框724处,可确定用户意图是否包括用于调整媒体设备上的应用程序的状态或设置的请求。响应于确定用户意图包括用于调整媒体设备上的应用程序的状态或设置的请求,可执行框726。在过程700的框726 处,可调整应用程序的状态或设置来满足用户意图。

在一些示例中,状态或设置可与正在媒体设备上播放的所显示的媒体内容相关联。例如,用于调整应用程序的状态或设置的请求可包括用于控制媒体设备播放媒体内容的请求。具体地,其可包括用于使对媒体设备上的所显示的媒体内容的播放进行暂停、恢复、重新启动、停止、快退或快进的请求。其还可包括用于在媒体内容中向前或向后(例如,以指定的持续时间)跳过以便播放媒体内容的所需部分的请求。此外,用于调整应用程序的状态或设置的请求可包括用于打开/关闭与所显示的媒体内容相关联的(例如,指定语言的)字幕或隐藏式字幕的请求、用于增加/减少与所显示的媒体内容相关联的音频的音量的请求、用于使得与所显示的媒体内容相关联的音频静音/取消静音的请求,或者用于加快/减慢所显示的媒体内容播放的速率的请求。

图8E至图8F示出了包括用于控制媒体设备播放媒体内容的请求的用户意图的示例性示例。在该示例中,可在播放媒体内容802时调用数字助理(例如,在框704处)。可在最初不显示字幕的情况下显示媒体内容。经采样的音频数据(例如,在框706处)可包含用户话语“打开英文字幕。”。如图 8E所示,可在显示单元上显示用户话语的文本表示816。基于该用户话语,可在框710处确定用户意图包括用于打开媒体内容802的英文字幕的显示的请求。此外,在框724处,可确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定,可打开媒体内容802的英文字幕。如图8F中的标签817所示,可发起对与媒体内容802相关联的英文字幕的显示,以满足用户意图。

在图8G至图8H中示出的另一示例性示例中,经采样的音频数据中的用户话语可以是自然语言表达,从而指示用户未听到与媒体内容相关联的音频的一部分。具体地,如图8G中的文本表示820所示,该用户话语可以是“他说了什么?”。在该示例中,可(例如,在框710处)确定用户意图包括用于重放与用户未听到的音频的一部分对应的媒体内容的一部分的请求。还可确定用户意图包括用于打开隐藏式字幕以对难以听到与媒体内容相关联的音频起辅助作用的请求。此外,基于用户话语中的韵律信息,可确定用户是沮丧的或不耐烦的,并且因此可基于用户情绪来确定用户意图包括用于增加与媒体内容相关联的音频的音量的请求。在框724处,可确定这些用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定,可使媒体内容快退预先确定的持续时间(例如,15秒)到达媒体内容的先前部分,并且可从该先前部分(例如,图8H中的标签822所示)重新开始回放媒体内容。此外,在从先前部分重新开始回放媒体内容之前,可打开隐藏式字幕(例如,图8H中的标签824所示)。此外,在从先前部分重新开始回放媒体内容之前,可增加与媒体内容相关联的音频的音量。

应当理解,可从服务提供方(例如,有线提供方或媒体订阅服务)获取与媒体内容相关联的隐藏式字幕或字幕。然而,在无法从服务提供方获取隐藏式字幕或字幕的示例中,媒体设备可生成隐藏式字幕或字幕,以对难以听到与媒体内容相关联的音频起到辅助作用。例如,在接收经采样的音频数据中的用户话语之前以及在播放媒体内容时,可将与媒体内容相关联的音频中的语音(例如,使用STT处理模块730)连续地转换成文本并且与媒体内容相关联地存储。响应于用于重放用户未听到的媒体内容的先前部分的用户请求,可在重放媒体内容的先前部分时,检索并显示与正在重放的先前部分对应的文本。

在一些示例中,可调整与所显示的媒体内容相关联的状态或设置而不显示用于执行调整的附加用户界面,或者不提供用于表示确认正在调整状态或设置的任何文本或图形。例如,在图8E至图8H所示出的示例中,字幕(或隐藏式字幕)可简单地打开而不明确显示文本诸如“已打开字幕”,或不显示用于控制字幕显示的用户界面。此外,可调整状态或设置,而不输出与满足用户意图相关联的任何音频。例如,在图8E至图8H中,字幕(或隐藏式字幕)可打开,而无需输出用于确认字幕已打开的音频(例如,语音信号或非言语音频信号)。因此,可简单地执行所请求的动作,而不对媒体内容造成附加音频或视觉干扰。这样,过程700可使对用户对媒体内容的消费的干扰最小化,同时提供对数字助理服务的便捷访问,从而改善用户体验。

在其他示例中,用于调整媒体设备上的应用程序的状态或设置的请求可包括用于在媒体设备的用户界面(例如,第二用户界面818、第三用户界面 826或主菜单用户界面)中进行导航的请求。在一个示例中,在用户界面中进行导航的请求可包括用于将用户界面的焦点从第一对象(例如,第一媒体项)切换至用户界面中的第二对象(例如,第二媒体项)的请求。图8I至图 8K示出了此类请求的示例性示例。如图8I所示,所显示的内容可包括第三用户界面826,其具有按各种类别进行组织(例如,“浪漫喜剧”、“由Reese Witherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”)的多个媒体项。如光标828的位置所示,第三用户界面826的焦点可位于被归类为“浪漫喜剧”的第一媒体项830上。第二媒体项832的标题可为“Legally Blonde”,并且可被定位在“由Reese Witherspoon主演的浪漫喜剧”的类别中。如图 8J中的文本表示834所示,经采样的音频数据中的用户话语(例如,在框 706处)可以是“转到Legally Blonde。”。基于该用户话语,可(例如,在框710处)确定用户意图是用于将第三用户界面826的焦点从第一媒体项830 切换至标题为“Legally Blonde”的第二媒体项832的请求。响应于(例如,在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求,可将第三用户界面826的焦点从第一媒体项830切换至第二媒体项832。例如,如图8K所示,光标828的位置可从第一媒体项830改变至第二媒体项832。

在另一示例中,用于在用户界面中导航的请求可包括用于将用户界面的焦点改变为在用户界面中显示的特定类别的结果的请求。例如,图8I包括与“浪漫喜剧”、“由Reese Witherspoon主演的浪漫喜剧”和“Luke Wilson 出演的电影”等类别相关联的媒体项。取代“转到Legally Blonde”,经采样的音频数据中的用户话语可以是“跳转到由Reese Witherspoon主演的浪漫喜剧。”。基于该用户话语,可(例如,在框710处)确定“由Reese Witherspoon 主演的浪漫喜剧”定义了在第三用户界面826中显示的媒体项的类别,并且因此可确定用户意图是用于将用户界面的焦点改变为与该类别相关联的一个或多个媒体项的请求。响应于(例如,在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求,可将第三用户界面826的焦点转移至与类别相关联的一个或多个媒体项。例如,如图8K所示,光标 828的位置可转移至与“由Reese Witherspoon主演的浪漫喜剧”相关联的第二媒体项832。

在其他示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于在用户界面中选择对象的请求。对对象的选择可导致与将要执行的对象相关联的动作。例如,如图8K所示,光标828的位置位于标题为“Legally Blonde”的第二媒体项832上。如图8L所示,可(例如,在框704处)调用数字助理,并且经采样的音频数据中的用户话语(例如,在框706处)可以是“播放这个”(例如,显示为文本表示836)。基于该用户话语,可(例如,在框710处)确定用户意图是用于播放特定媒体项的请求。在该示例中,用户话语没有明确定义或识别要播放的特定媒体项。具体地,词语“这个”是模糊的。然而,数字助理可获取上下文信息以对用户意图消歧。例如,可确定在对音频数据进行采样时第三用户界面826的焦点位于第二媒体项832 上。基于该确定,可识别第二媒体项832是要播放的媒体项。响应于(例如,在框724处)确定播放第二媒体项832的用户意图是用于调整电子设备的应用程序的状态或设置的请求,可执行用于促成播放第二媒体项832的动作。例如,关于第二媒体项832的预览信息可被显示在显示单元上。预览信息可包括例如简要的剧情摘要、演员列表、发行日期、用户评级等。除此之外或作为另外一种选择,第二媒体项832可在媒体设备上播放,并且与第二媒体项832相关联的媒体内容可被显示在显示单元上(例如,图8M中的文本838 “正在播放Legally Blonde”所示)。应当认识到,在其他示例中,可明确识别要选择的媒体项。例如,除了“播放这个”之外,用户话语可具体声明“播放Legally Blonde”,并且可执行用于促成播放第二媒体项832的类似的动作。

在其他示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于观看媒体设备的特定用户界面或应用程序的请求。例如,经采样的音频数据中的用户话语可以是“转到演员页面”,其中用户意图包括y'y根据特定演员来显示与浏览媒体项相关联的用户界面的请求。在另一示例中,经采样的音频数据中的用户话语可以是“返回主页”,其中用户意图包括用于显示媒体设备的主菜单用户界面的请求。在又一个示例中,用于在媒体设备的用户界面中进行导航的请求可包括用于在电子设备上启动应用程序的请求。例如,经采样的音频数据中的用户话语可以是“转到iTunes Store”,其中用户意图包括用于启动iTunes Store应用程序的请求。应当认识到,可预期用于调整媒体设备上的应用程序的状态或设置的其他请求。

再次参考框724,可确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求。例如,用户意图可替代为用于呈现与一个或多个媒体项相关的信息的请求。响应于此类确定,可执行框728至框746中的一个或多个框。在过程700的框728处,可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。在一些示例中,多个预先确定的请求类型可以是与纯文本响应相关联的请求。更具体地,多个预先确定的请求类型可以是对被预先确定以要求纯文本响应的信息的请求。这与用于被预先确定以要求包括媒体对象(例如,图像、动画对象、视频等)的响应的请求形成对比。在一些示例中,多个预先确定的请求类型可包括对特定位置当前时间的请求(例如,“Paris现在是几点?”)、呈现笑话的请求(例如,“给我讲个有趣的笑话。”),或对关于当前在电子设备上播放的媒体内容的信息的请求(例如,“这部电影是什么时候发行的?”)。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可执行框730 至框732中的一个或多个框。

在过程700的框730处,可获取至少部分地满足用户意图的结果。例如,可通过执行任务流来从外部服务(例如,外部服务120)获取结果。在过程 700的框732处,在框730处获取的结果可以文本形式而被显示在显示单元上。此外,可通过文本形式来显示结果,而不显示与结果对应的任何对应的图形或媒体相关的项目。

图8M至图8P示出了框728至框732的示例性示例。如图8M所示,电影“Legally Blonde”最初可在媒体设备上播放并被显示在显示单元上。在播放“Legally Blonde”时,可(例如,在框704处)调用数字助理,并且经采样的音频数据中的用户话语可以是“女主演是谁?”。例如,如图8N所示,可在显示单元上显示用户话语的文本表示840。基于该用户话语,可(例如,在框710处)确定用户意图包括用于识别特定媒体项的女主演的请求。由于用户话语未指定任何特定媒体项,因此用户意图可能是模糊的。然而,基于在对音频数据进行采样时显示的电影“Legally Blonde”,可确定与用户意图相关联的媒体项是“Legally Blonde”。在该示例中,可(例如,在框728处) 确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型。具体地,可确定可提供纯文本响应来满足识别Legally Blonde中的女主演的用户意图。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型,可(例如,在框730处)在媒体相关数据库中执行搜索,以获取电影“Legally Blonde”中的女主演是“Reese Witherspoon”的结果。如图 8P所示,纯文本结果842“Reese Witherspoon”可被显示在显示单元上,以满足用户意图。纯文本结果842可覆盖在所显示的“Legally Blonde”的媒体内容上。此外,在显示纯文本结果842时,“Legally Blonde”的媒体内容可继续播放。通过显示纯文本结果842(例如,不显示图形结果或附加的用户界面来满足用户意图),可通过不惹眼的方式来满足用户意图,并且尽量减少干扰用户对媒体内容的消费。同时,向用户提供对数字助理服务的访问。这对于改善用户体验是可取的。

再次参考框728,可确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型。具体地,用户意图可以是被预先确定为要求多于文本结果来进行满足的请求类型。例如,用户意图可以是用于执行媒体搜索查询并显示与媒体搜索查询对应的媒体项的请求。在其他示例中,用户意图可以是对除媒体项之外的信息的请求。例如,用户意图可以是对与以下各项相关联的信息的请求,包括:运动队(例如,“L.A.Lakers在他们的最后一场比赛中表现如何?”)、运动员(例如,“LeBron James有多高?”)、股市 (例如,“昨天的道琼斯指数收盘价是多少?”),或天气(例如,“法国‘Paris’下周的天气预报如何?”)。响应于确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型,可执行框734至框746中的一个或多个框。

在过程700的框734处,可获取至少部分地满足用户意图的第二结果。框734可与上述框534相似或相同。在一个示例中,用户意图可包括用于执行媒体搜索查询的请求。在该示例中,可在框734处执行媒体搜索查询以获取第二结果。具体地,第二结果可包括与媒体搜索查询对应的媒体项。

在一些示例中,用户意图可以不是媒体搜索查询。例如,用户意图可以是用于提供法国“Paris”的天气预报的请求(例如,法国“Paris”的天气预报如何?)。在该示例中,在框734处获取的第二结果可包括法国“Paris”未来7天的天气预报。第二结果可包括至少部分地满足用户意图的非媒体数据。具体地,法国“Paris”未来7天的天气预报可包括文本数据(例如,日期、温度和天气状况的简要描述)和图形图像(例如,晴天、多云、有风或有雨的图像)。此外,在一些示例中,可在框710处扩展用户意图的范围,以包括对至少部分地满足用户意图的媒体项的请求。在这些示例中,在框734 处获取的第二结果可还包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。例如,在框734处可在相关时间段针对法国“Paris”的天气预报执行媒体搜索查询,并且可获取与法国“Paris”的天气预报相关的一个或多个媒体项。一个或多个媒体项可包括例如来自呈现法国“Paris”的天气预报的天气频道的视频剪辑。在这些示例中,非媒体数据和/或一个或多个媒体项可(例如,在下面描述的框738、框742或框746处)在所显示单元上的用户界面中显示。

在过程700的框736处,可确定所显示的内容是否包括在电子设备上播放的媒体内容。在一些示例中,可确定所显示的内容不包括在电子设备上播放的媒体内容。例如,所显示的内容可替代地包括用户界面,诸如主菜单用户界面或第三用户界面(例如,第三用户界面826)。第三用户界面可至少占据显示单元的大部分显示区域。此外,第三用户界面可包括与在框704处检测用户输入之前所接收的先前用户请求相关的先前结果。根据确定所显示的内容不包括媒体内容,可执行框738。

在过程700的框738处,可在显示单元上的第三用户界面中显示第二结果的一部分。在接收到框704处的用户输入时所显示的内容已包括第三用户界面的示例中,可利用对第三用户界面中的第二结果的一部分的显示来替换对与先前的用户请求相关的先前结果的显示。在接收到框704处的用户输入时所显示的内容不包括第三用户界面(例如,所显示的内容包括主菜单用户界面)的示例中,可显示第三用户界面并且第二结果可被包括在所显示的第三用户界面中。

在一些示例中,可确定第二结果是否包括预先确定类型的结果。预先确定类型的结果可与显示单元的一小部分显示区域相关联。预先确定类型的结果可包括例如与股市或天气相关的结果。应当认识到,在其他示例中,预先确定类型的结果可变化。响应于确定第二结果包括预先确定类型的结果,可在显示单元上的第二用户界面中显示第二结果的一部分。第二用户界面可占据显示单元的一小部分显示区域。在这些示例中,虽然在框736处确定所显示的内容不包括媒体内容,但在第二用户界面中可显示第二结果的一部分。

图8Q至图8S示出了框734至框738的示例性示例。在该示例中,如图8Q所示,所显示的内容最初可包括第三用户界面826。第三用户界面826 可包括来自先前用户请求的先前结果。具体地,第三用户界面826包括来自先前请求的媒体搜索查询的媒体项844。如图8R所示,在显示第三用户界面826时,可(例如,在框704处)调用数字助理。经采样的音频数据中的用户话语可包括“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。在该示例中,可(例如,在框710处)确定用户意图是对Luke Wilson主演的电影执行媒体搜索查询的请求。可(例如,在框734处)执行媒体搜索查询来获取第二结果。具体地,第二结果可包括与由Luke Wilson主演的电影对应的媒体项848。此外,可获取与用户意图或先前的用户意图有关的附加结果(例如,媒体项850)。可通过与框 544中描述的获取第二结果的方式类似的方式来获取这些附加结果。

在图8Q至图8S的本示例中,所显示的内容仅包括第三用户界面826,因此可(例如,在框736处)确定所显示的内容不包括在电子设备上播放的媒体内容。响应于该确定,第二结果可在第三用户界面826中显示。具体地,如图8S所示,可利用对第三用户界面826中的媒体项848的显示来替换对第三用户界面826中的媒体项844的显示。此外,媒体项850可在第三用户界面826中显示。

如该示例中所示,只有在确定媒体内容未在显示单元上显示之后,才可在第三用户界面中呈现第二结果。这允许在较大区域中显示范围较宽的结果,从而增加满足用户实际意图的概率。同时,通过确保在第三用户界面中呈现第二结果之前在显示单元上没有正在显示的媒体内容来避免干扰用户对媒体内容的消费。

再次参考框736,所显示的内容可包括正在媒体设备上播放的媒体内容。在这些示例中,可确定所显示的内容包括在媒体设备上播放的媒体内容。根据该确定,可执行框740至框746中的一个或多个框。

在过程700的框740处,可确定正在播放的媒体内容是否可被暂停。可被暂停的媒体内容的示例可包括点播的媒体项,诸如点播的电影和电视节目。不能被暂停的媒体内容的示例可包括广播或流服务的媒体节目和直播的媒体节目(例如,体育赛事、音乐会等)。因此,点播的媒体项可不包括广播或直播的节目。根据在框740处确定正在播放的媒体内容不能被暂停,可执行框742。在过程700的框742处,可在显示单元上显示具有第二结果的一部分的第二用户界面。框742可类似于上述框536。可在显示媒体内容时显示第二用户界面。第二用户界面在显示单元上占据的显示区域可小于媒体内容在显示单元上占据的显示区域。根据确定正在播放的媒体内容可被暂停,可执行框744至框746中的一个或多个框。在过程700的框744处,可在媒体设备上暂停正在播放的媒体内容。在过程700的框746处,可显示具有第二结果的一部分的第三用户界面。可在媒体内容暂停时显示第三用户界面。

图8T至图8W示出了框740至框746的示例性示例。如图8T所示,可在显示单元上显示在媒体设备上播放的媒体内容802。在显示媒体内容802 时,可(例如,在框704处)激活数字助理。经采样的音频数据中的用户话语可以是“为我显示由Luke Wilson主演的电影。”。用户话语的文本c表示846可在显示单元上显示。如上所述,可(例如,在框710处)确定用户意图是用于获取由Luke Wilson主演的电影的媒体项的请求。可(例如,在框734处)执行对应媒体搜索查询来获取第二结果。第二结果可包括作为由 Luke Wilson主演的电影的媒体项848。在(例如,在框744处)确定媒体内容802不能被暂停的示例中,可在第二用户界面818中显示媒体项848,同时在显示单元上继续显示媒体内容802(例如,图8U)。在第二用户界面 818中显示媒体项848是可取的,使得在显示媒体项848时媒体内容802能够持续用于用户消费,从而满足用户意图。这防止用户错过不能被暂停或重放的媒体内容802的任何部分。作为另外一种选择,在(例如,在框744处) 确定媒体内容802可被暂停的示例中,可暂停播放媒体设备上的媒体内容802,并且可在显示单元上的第三用户界面826中显示媒体项848(例如,图 8S)。显示第三用户界面826是可取的,使得与各种另选用户意图(例如,媒体项850)相关联的范围更广的媒体项能够与所请求的媒体项(例如,媒体项848)一起显示,从而增加满足用户实际意图的可能性。同时,媒体内容802被暂停,使得用户不会错过媒体内容802的任何部分。通过基于媒体内容802是否可被暂停来改变用于显示媒体项848的用户界面可完全实现与用户话语相关联的用户意图,同时减少干扰用户对媒体内容802的消费。这样可改善整体用户体验。

在一些示例中,如图8V所示,除了在媒体设备上播放的媒体内容802 之外,所显示的内容还可包括第二用户界面818。在这些示例中,第二用户界面818可包括与先前的用户请求(例如,对由Reese Witherspoon主演的浪漫喜剧的请求)相关的媒体项852。在显示媒体内容802和第二用户界面818 时,可(例如,在框704处)调用数字助理。如图8W所示,经采样的音频数据可包括用户话语“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。基于该用户话语,可(例如,在框710 处)确定用户意图是用于获取作为由Luke Wilson主演的电影的媒体项的请求。可(例如,在框734处)执行对应媒体搜索查询来获取第二结果(例如,媒体项848)。在这些示例中,第二用户界面818中的媒体项852的显示可被替换成媒体项848的显示(例如,图8U)。

图9示出了根据各种示例的用于与媒体系统的数字助理进行交互的过程900。可使用实现数字助理的一个或多个电子设备来执行过程900。例如,可使用上述系统100、媒体系统128、媒体设备104、用户设备122、或数字助理系统400中的一者或多者来执行过程900。应当理解,过程900中的一些操作可被组合、一些操作的顺序可被改变,并且一些操作可被省略。

在过程900的框902处,可在显示单元上显示内容。框902可与上述框 502相似或相同。在一些示例中,所显示的内容可包括媒体内容(例如,电影、视频、电视节目、视频游戏等)。除此之外或作为另外一种选择,所显示的内容可包括用户界面。例如,所显示的内容可包括具有一个或多个示例性自然语言请求(例如,如图6D至图6E所示)的第一用户界面。在其他示例中,所显示的内容可包括具有来自先前用户请求的结果(例如,先前请求的媒体项)的第三用户界面(例如,第三用户界面626)。第三用户界面可至少占据显示单元的大部分显示区域。

在过程900的框904处,在显示框902的内容时可检测用户输入。该用户输入可与框558处描述的第五用户输入类似或相同。具体地,可在媒体设备的遥控器上检测用户输入。例如,用户输入可包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中,可经由不同于媒体设备的第二电子设备(例如,设备122)来检测用户输入。该第二电子设备可被配置为以无线方式来控制媒体设备。响应于检测到用户输入,可执行框906至框914中的一个或多个框。

在过程900的框906处,可在显示单元上显示虚拟键盘界面(例如,虚拟键盘界面646)。框906可与上述框562相似或相同。虚拟键盘界面可覆盖在第一用户界面或第三用户界面的至少一部分上。此外,可在显示单元上显示搜索字段(例如,搜索字段644)。虚拟键盘界面可被配置为使得经由虚拟键盘界面接收的用户输入导致搜索字段中的文本输入。

在过程900的框908处,可使可选择示能表示是被显示在第二电子设备上(例如,被显示在设备122的触摸屏346上)。第二电子设备可以是与媒体设备的遥控器不同的设备。对示能表示的选择可使得能够由媒体设备经由第二电子设备的键盘来接收文本输入。例如,对示能表示的选择可使得虚拟键盘界面(例如,类似于虚拟键盘界面646)在第二电子设备上显示。向第二电子设备的虚拟键盘界面的输入可使得在搜索字段(例如,搜索字段644) 中输入对应文本。

在过程900的框910处,可经由第二电子设备的键盘(例如,虚拟键盘界面)来接收文本输入。具体地,用户可经由第二电子设备的键盘来输入文本,并且文本输入可被传输到媒体设备并由媒体设备接收。该文本输入可表示用户请求。例如,文本输入可以是可表示对与搜索字符串“Jurassic Park”相关联的媒体项执行搜索的请求的“Jurassic Park”。

在过程900的框912处,可获取至少部分地满足用户请求的结果。例如,可使用文本输入来执行媒体搜索,并且可获取对应媒体项。在文本输入是“Jurassic Park”的特定示例中,可获取标题为“Jurassic Park”或具有与电影“Jurassic Park”相同的演员或导演的媒体项。在文本输入是“Reese Witherspoon”的另一示例中,可获取其中具有女演员Reese Witherspoon的媒体项。

在过程900的框914处,可在显示单元上显示用户界面。用户界面可包括结果的至少一部分。例如,用户界面可包括作为框912处执行的媒体搜索的结果而获取的媒体项。

虽然上面将过程500、过程700和过程900的某些框描述为由设备或系统(例如,媒体设备104、用户设备122或数字助理系统400)执行,但是应当认识到,在一些示例中,可将多于一个设备用于执行框。例如,在作出确定的框中,第一设备(例如,媒体设备104)可从第二设备(例如,服务器系统108)获取确定。类似地,在显示内容、对象、文本或用户界面的框中,第一设备(例如,媒体设备104)可使得内容、对象、文本或用户界面显示在第二设备上(例如,显示单元126)。

5.电子设备

根据一些示例,图10示出了电子设备1000的功能框图,该电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图10 中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图10所示,电子设备1000可包括:被配置为接收用户输入诸如触觉输入、手势输入的输入单元1003(例如,遥控器124等);被配置为接收音频数据的音频输入单元1004(例如,麦克风272等);被配置为输出音频的扬声器单元106(例如,扬声器268等);以及被配置为经由网络来从外部设备发送和接收信息的通信单元1007(例如,通信子系统224等)。在一些示例中,电子设备1000可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1002(例如,显示单元126等)。电子设备1000还可包括耦接至输入单元1003、音频输入单元1004、扬声器单元1006、通信单元1007、以及可选的显示单元1002的处理单元1008。在一些示例中,该处理单元1008 可包括显示启用单元1010、检测单元1012、确定单元1014、采样单元1016、输出单元1018、执行单元1020、获取单元1022、和切换单元1024。

根据一些实施方案,该处理单元1008被配置为在显示单元(例如,显示单元1002或独立显示单元)上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为确定用户输入是否对应于第一输入类型(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型而在显示单元上显示多个示例性自然语言请求(例如,显示启用单元1010)。多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中,在电子设备的遥控器上检测用户输入。在一些示例中,第一输入类型包括按压遥控器的按钮,并在预先确定的持续时间内释放按钮。在一些示例中,多个示例性自然语言请求经由第一用户界面而被显示在显示单元上,并且第一用户界面覆盖在所显示的内容上。在一些示例中,所显示的内容包括媒体内容,并且在显示多个示例性自然语言请求时媒体内容继续播放。

在一些示例中,该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型,在显示单元上显示视觉指示符(例如,利用显示启用单元1010),从而指示数字助理并未正在处理音频输入。

在一些示例中,在确定用户输入对应于第一输入类型时,在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。在一些示例中,多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序在不同的时间单独显示。

在一些示例中,该处理单元1008被进一步配置为显示示例性自然语言请求的多个列(例如,利用显示启用单元1010)表,其中每个列表在不同的时间轮番显示。

在一些示例中,该处理单元1008被进一步配置为根据确定用户输入不对应于第一输入类型,确定用户输入是否对应于第二输入类型(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型,对音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为确定音频数据是否包含用户请求(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定音频数据包含用户请求而执行至少部分地满足用户请求的任务(例如,利用执行单元1020)。

在一些示例中,第二输入类型包括按压电子设备遥控器的按钮并按住按钮超过预先确定的持续时间。

在一些示例中,该处理单元1008被进一步配置为根据确定音频数据不包含用户请求而在显示单元上显示用于澄清用户意图的请求(例如,利用显示启用单元1010)。

在一些示例中,所显示的内容包括媒体内容,并且在对音频数据进行采样以及在执行任务时该媒体内容在电子设备上继续播放。

在一些示例中,该处理单元1008被进一步配置为输出(例如,利用输出单元1018)与媒体内容相关联的音频(例如,使用扬声器单元1006)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型而减小音频振幅(例如,利用输出单元1018)。

在一些示例中,执行任务而不从电子设备输出与任务相关的语音。在一些示例中,在检测用户输入时对音频数据进行采样。在一些示例中,在检测到用户输入之后,在预先确定的持续时间内对音频数据进行采样。

在一些示例中,经由电子设备遥控器上的第一麦克风来对音频数据进行采样(例如,音频输入单元1004)。该处理单元1008被进一步配置为在对音频数据进行采样时经由遥控器上的第二麦克风(例如,电子设备1000的第二音频输入单元)来对背景音频数据进行采样(例如,利用采样单元1016 和音频输入单元1004)。该处理单元1008被进一步配置为使用背景音频数据来消除音频数据中的背景噪声(例如,利用输出单元1018)。

在一些示例中,与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出。该处理单元1008被进一步配置为使用音频信号来消除音频数据中的背景噪声(例如,利用输出单元1018)。

在一些示例中,该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用于提示用户提供口头请求的视觉提示(例如,利用显示启用单元1010)。

在一些示例中,该处理单元1008被进一步配置为(例如,利用获取单元1022)获取至少部分地满足用户请求的结果。该处理单元1008被进一步配置为在显示单元上显示第二用户界面(例如,利用显示启用单元1010)。该第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。在一些示例中,第二用户界面覆盖在所显示的内容上。

在一些示例中,该结果的该一部分包括一个或多个媒体项。该处理单元 1008被进一步配置为经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择(例如,利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与所选择的媒体项相关联的媒体内容(例如,利用显示启用单元1010)。

在一些示例中,该处理单元1008被进一步配置为在显示第二用户界面时检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而停止显示第二用户界面(例如,利用显示启用单元1010)。

在一些示例中,在电子设备的遥控器上检测第二用户输入。该第二用户输入包括遥控器触敏表面上的第一预先确定的动作模式。

在一些示例中,该处理单元1008被进一步配置为在显示第二用户界面时检测第三用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而利用对第三用户界面的显示来替换对显示单元上的第二用户界面的显示(例如,利用显示启用单元1010)。第三用户界面包括结果的至少一部分,并且第三用户界面占据显示单元的至少大部分显示区域。

在一些示例中,在电子设备的遥控器上检测第三用户输入,并且第三用户输入包括遥控器触敏表面上的第二预先确定的动作模式。

在一些示例中,该处理单元1008被进一步配置为响应于检测到第三用户输入而获取与该结果不同的第二结果(例如,利用获取单元1022)。该第二结果至少部分地满足用户请求,并且第三用户界面包括第二结果的至少一部分。

在一些示例中,第二结果基于在检测用户输入之前所接收的用户请求。在一些示例中,在检测到第三用户输入时,第二用户界面的焦点在结果的一部分的项目上,并且第二结果与该项目上下文相关。

在一些示例中,所显示的内容包括媒体内容。该处理单元1008被进一步配置为响应于检测到第三用户输入而暂停播放电子设备上的媒体内容(例如,利用执行单元1020)。

在一些示例中,结果的至少一部分包括一个或多个媒体项。该处理单元 1008被进一步配置为经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择(例如,利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与媒体项相关联的媒体内容(例如,利用显示启用单元 1010)。

在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测与显示单元上的方向相关联的第四用户输入(例如,利用检测单元 1012)。该处理单元1008被进一步配置为响应于检测到第四用户输入而将第三用户界面的焦点从第一项目切换至第三用户界面上的第二项目(例如,利用切换单元1024)。该第二项目可被定位在相对于第一项目的方向上。

在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第五用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第五用户输入而显示搜索字段(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示单元显示虚拟键盘界面上(例如,利用显示启用单元1010),其中经由虚拟键盘界面接收的输入导致搜索字段中的文本输入。

在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第六用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第六用户输入而对第二音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。该第二音频数据包含第二用户请求。该处理单元1008被进一步配置为确定第二用户请求是否是有用于细化用户请求的结果的请求(例如,利用确定单元1014)。该处理单元1008 被进一步配置为根据确定第二用户请求是用于细化用户请求的结果的请求,经由第三用户界面来显示结果的子组(例如,利用显示启用单元1010)。

在一些示例中,结果的子组被显示在第三用户界面的顶行处。该处理单元1008被进一步配置为根据确定第二用户请求不是用于细化用户请求的结果的请求,取至少部分地满足第二用户请求的第三结果(例如,利用获取单元1018)获。该处理单元1008被进一步配置为经由第三用户界面来显示第三结果的一部分(例如,利用显示启用单元101)。在一些示例中,该第三结果的一部分被显示在第三用户界面的顶行处。

在一些示例中,该处理单元1008被进一步配置为获取至少部分地满足用户请求或第二用户请求的第四结果(例如,利用获取单元1022)。该处理单元1008被进一步配置为经由第三用户界面来显示第四结果的一部分(例如,利用显示启用单元1010)。

在一些示例中,该第四结果的一部分被显示在第三用户界面顶行之后的行处。

在一些示例中,在检测到第六用户输入时,该第三用户界面的焦点位于第三用户界面的一个或多个项目上,并且第四结果与一个或多个项目上下文相关。

在一些示例中,该处理单元1008被进一步配置为在显示第三用户界面时检测第七用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第七用户输入而停止显示第三用户界面(例如,利用显示启用单元1010)。

在一些示例中,所显示的内容是媒体内容,并且响应于检测到第三用户输入而暂停播放电子设备上的媒体内容。该处理单元1008被进一步配置为响应于检测到第七用户输入而恢复播放电子设备上的媒体内容(例如,利用执行单元1020)。在一些示例中,该第七用户输入包括按压电子设备的遥控器的菜单按钮。

根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1012)。该处理单元 1008被进一步配置为响应于检测到用户输入而在显示单元上显示用户界面 (例如,利用显示启用单元1010)。该用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中,所显示的内容包括媒体内容。在一些示例中,多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。在一些示例中,在显示用户界面时媒体内容继续播放。

在一些示例中,该处理单元1008被进一步配置为输出与媒体内容相关联的音频。响应于检测到用户输入(例如,利用输出单元1018),不减小音频的振幅。在一些示例中,所显示的内容包括主菜单用户界面。

在一些示例中,多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。在一些示例中,所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。在一些示例中,多个示例性自然语言请求包括用于细化结果的自然语言请求。在一些示例中,该用户界面包括用于调用数字助理并与其进行交互的文本指令。在一些示例中,该用户界面包括指示数字助理未在接收音频输入的视觉指示符。在一些示例中,该用户界面覆盖在所显示的内容上。

在一些示例中,该处理单元1008被进一步配置为响应于检测到用户输入而降低所显示的内容的亮度以突出显示用户界面(例如,利用显示启用单元1010)。

在一些示例中,在电子设备的遥控器上检测用户输入。在一些示例中,用户输入包括按压遥控设备的按钮并在按压按钮之后的预先确定的持续时间内释放按钮。在一些示例中,该按钮被配置为调用数字助理。在一些示例中,该用户界面包括用于显示虚拟键盘界面的文本指令。

在一些示例中,该处理单元1008被进一步配置为在显示用户界面之后检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而在显示单元上显示虚拟键盘界面(例如,利用显示单元1012)。

在一些示例中,该处理单元1008被进一步配置为将用户界面的焦点改变至用户界面上的搜索字段(例如,利用显示启用单元1010)。在一些示例中,该搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。在一些示例中,该虚拟键盘界面不可用于与数字助理进行交互。在一些示例中,该第二用户输入包括电子设备的遥控设备触敏表面上的预先确定的动作模式。

在一些示例中,多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。在一些示例中,该处理单元1008被进一步配置为以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求(例如,利用显示启用单元1010)。在一些示例中,该处理单元1008被进一步配置为利用多个示例性自然语言请求中的随后的示例性自然语言请求来替换对多个示例性自然语言请求中的先前显示的示例性自然语言请求的显示(例如,利用显示启用单元1010)。

在一些示例中,内容包括具有一个或多个项目的第二用户界面。当检测到用户输入时,该第二用户界面的焦点位于一个或多个项目中的项目上。多个示例性自然语言请求与一个或多个项目中的所述项目上下文相关。

根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而显示自然语言话语的一个或多个所建议的示例(例如,利用显示启用单元1010)。该一个或多个所建议的示例与所显示的内容上下文相关,并且当由用户说出时,使得数字助理执行对应动作。

在一些示例中,该处理单元1008被进一步配置为检测第二用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而对音频数据进行采样(例如,利用采样单元1016)。该处理单元1008被进一步配置为(例如,利用确定单元1014)来确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例。该处理单元1008被进一步配置为根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例而执行针对话语的对应动作(例如,利用执行单元1020)。

根据一些实施方案,该处理单元1008被进一步配置为在显示单元上显示内容(例如,利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1012)。该处理单元 1008被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如,利用采样单元1016)。该音频数据包括表示媒体搜索请求的用户话语。该处理单元1008被进一步配置为获取满足媒体搜索请求的多个媒体项(例如,利用获取单元1022)。该处理单元1008被进一步配置为经由用户界面在显示单元上来显示多个媒体项的至少一部分(例如,利用显示启用单元1010)。

在一些示例中,在显示多个媒体项的至少一部分时,内容继续显示在显示单元上。用户界面所占据的显示区域小于内容所占据的显示区域。

在一些示例中,该处理单元1008被进一步配置为确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如,利用确定单元1014)。根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量,多个媒体项的至少一部分包括多个媒体项。

在一些示例中,根据确定多个媒体项中的媒体项的数量大于预先确定的数量,多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

在一些示例中,多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联,并且多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

在一些示例中,多个媒体项的至少一部分中的每个媒体项与流行度评级相关联,并且多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

在一些示例中,该处理单元1008被进一步配置为在显示多个媒体项的至少一部分时检测第二用户输入(例如,利用检测单元1012)。处理单元 1008被进一步配置为响应于检测到第二用户输入而扩展用户界面(例如,利用显示启用单元1010),从而至少占据显示单元的大部分显示区域。

在一些示例中,该处理单元1008被进一步配置为响应于检测到第二用户输入而确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如,利用确定单元1014)。该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量而获取至少部分地满足媒体搜索请求的第二多个媒体项,该第二多个媒体项不同于媒体项的至少一部分。该处理单元1008被进一步配置为经由经扩展的用户界面来在显示单元上显示第二多个媒体项(例如,利用显示启用单元101)。

在一些示例中,该处理单元1008被进一步配置为确定媒体搜索请求是否包括多于一个搜索参数(例如,利用确定单元1014)。根据确定媒体搜索请求包括多于一个搜索参数,在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数来组织第二多个媒体项。

在一些示例中,该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量大于预先确定的数量,经由经扩展的用户界面来显示多个媒体项的至少第二部分(例如,利用显示启用单元1010)。多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

在一些示例中,多个媒体项的至少第二部分包括两个或更多个媒体类型,并且多个媒体项的至少第二部分根据两个或更多个媒体类型中的每个媒体类型而在经扩展的用户界面中进行组织。

在一些示例中,该处理单元1008被进一步配置为检测第三用户输入(例如,利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而使得经扩展的用户界面滚动(例如,利用显示启用单元 1010)。该处理单元1008被进一步配置为确定经扩展的用户界面是否已滚动超过扩展的用户界面上的预先确定的位置(例如,利用确定单元1014)。该处理单元1008被进一步配置为响应于确定经扩展的用户界面已滚动超过扩展的用户界面上的预先确定的位置而在经扩展的用户界面上显示多个媒体项的至少第三部分(例如,利用显示启用单元1010)。根据与第三多个媒体项相关联的一个或多个媒体内容提供方来将多个媒体项的至少第三部分组织在经扩展的用户界面上。

以上参考图5A至图5I所述的操作任选地由图1至图3和图4A至图4B 中所示的部件来实现。例如,显示操作 502,508-514,520,524,530,536,546,556,560,562,576,582,588,592、检测操作 504,538,542,550,558,566,570、确定操作506,516,522,526,528,574,578、采样操作518,572、执行操作532,584、获取操作534,544,580,586,590、暂停操作 540,568、接收操作554,以及切换操作552,564可由操作系统252、GUI模块256、应用程序模块262、数字助理模块426和一个或多个处理器204,404 中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些示例,图11示出了电子设备1100的功能框图,该电子设备根据所描述的各种示例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图11 中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图11所示,电子设备1100可包括:被配置为接收用户输入诸如触觉输入、手势输入的输入单元1103(例如,遥控器124等);被配置为接收音频数据的音频输入单元1104(例如,麦克风272等);被配置为输出音频的扬声器单元116(例如,扬声器268等);以及被配置为经由网络从外部设备发送和接收信息的通信单元1107(例如,通信子系统224等)。在一些示例中,电子设备1100可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1102(例如,显示单元126等)。电子设备1100还可包括耦接至输入单元1103、音频输入单元1104、扬声器单元1106、通信单元1107、以及可选的显示单元1102的处理单元1108。在一些示例中,处理单元1108 可包括显示启用单元1110、检测单元1112、确定单元1114、采样单元1116、输出单元1118、执行单元1120、获取单元1122、识别单元1124、和传输单元1126。

根据一些实施方案,该处理单元1108被配置为在显示单元(例如,显示单元1102或独立显示单元)上显示内容(例如,利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如,利用采样单元1016和音频输入单元1104)。该音频数据包括用户话语。该处理单元1108被进一步配置为获取对与用户话语对应的用户意图的确定(例如,利用获取单元1122)。该处理单元1108 被进一步配置为获取对用户意图是否包括调整电子设备上的应用程序的状态或设置的请求的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图包括调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图(例如,利用任务执行单元1120)。

在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求。调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

在一些示例中,所显示的内容包括具有媒体项的用户界面,并且用户话语没有明确定义要播放的特定媒体项。该处理单元1108被进一步配置为确定用户界面的焦点是否位于媒体项上(例如,利用确定单元1114)。该处理单元1108被进一步配置为根据确定用户界面的焦点位于媒体项上,将该媒体项识别为是要播放的特定媒体项(例如,利用识别单元1124)。

在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且状态或设置与在电子设备上播放的媒体内容有关。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容快进或快退的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容暂停的请求。在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

在一些示例中,所显示的内容包括具有第一媒体项和第二媒体项的用户界面。

在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求。调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

在一些示例中,所显示的内容包括正在媒体设备上播放的媒体内容。用户话语是指示用户未听到与媒体内容相关联的音频的一部分的自然语言表达。用于调整电子设备上的应用程序的状态或设置的请求包括用于重新播放媒体内容的一部分的请求,该媒体内容的一部分对应于用户未听到的音频的一部分。该处理单元1108被进一步配置为使媒体内容向媒体内容的先前部分快退预先确定的量(例如,利用任务执行单元1120);以及从先前部分重新开始播放媒体内容(例如,利用任务执行单元1120)。

在一些示例中,该处理单元1108被进一步配置为在从先前部分重新开始播放媒体内容之前打开隐藏式字幕(例如,利用任务执行单元1120)。

在一些示例中,用于调整电子设备上的应用程序的状态或设置的请求还包括用于增大与媒体内容相关联的音频的音量的请求。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容之前增加与媒体内容相关联的音频的音量。

在一些示例中,将与媒体内容相关联的音频中的语音转换成文本。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容时显示文本的一部分。

在一些示例中,该处理单元1108被进一步配置为获取对与用户话语相关联的用户情绪的确定(例如,利用获取单元1122)。基于所确定的用户情绪来确定用户意图。

在一些示例中,该处理单元1108被进一步配置为响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定而获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定而获取至少部分地满足用户意图的结果(例如,利用获取单元1122),并且将结果以文本形式显示在显示单元上(例如,利用显示启用单元1110)。

在一些示例中,多个预先确定的请求类型包括对特定位置处的当前时间的请求。在一些示例中,多个预先确定的请求类型包括用于呈现笑话的请求。在一些示例中,多个预先确定的请求类型包括对关于在电子设备上播放的媒体内容的信息的请求。在一些示例中,文本形式的结果覆盖在所显示的内容上。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且在显示文本形式的结果时媒体内容继续播放。

在一些示例中,该处理单元1108被进一步配置为响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定,获取至少部分地满足用户意图的媒体内容(例如,利用获取单元1122),并且确定所显示的内容是否包括在电子设备上播放的媒体内容(例如,利用确定单元 1114)。该处理单元1108被进一步配置为根据确定所显示的内容包括媒体内容而确定媒体内容是否可被暂停(例如,确定单元1114)。该处理单元 1108被进一步配置为根据确定媒体内容不可被暂停而在显示单元上显示包含第二结果的一部分的第二用户界面(例如,显示启用单元1110)。第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

在一些示例中,该用户意图包括对特定位置的天气预报的请求。该用户意图包括对与运动队或运动员相关联的信息的请求。在一些示例中,该用户意图不是媒体搜索查询,并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。在一些示例中,该第二结果还包括至少部分地满足用户意图的非媒体数据。在一些示例中,该用户意图是媒体搜索查询,并且第二结果包括与媒体搜索查询对应的多个媒体项。

在一些示例中,该处理单元1108被进一步配置为根据确定所显示的内容不包括在电子设备上播放的媒体内容而在显示单元上显示包含第二结果的一部分的第三用户界面(例如,利用显示启用单元1110),其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中,该显示内容包括主菜单用户界面。

在一些示例中,所显示的内容包括具有先前结果的第三用户界面,该先前结果与在检测用户输入之前所接收的先前用户请求相关。根据确定所显示的内容不包括在电子设备上播放的媒体内容,利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

在一些示例中,该处理单元1108被进一步配置为根据确定所显示的内容包括在电子设备上播放的媒体内容而确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面(例如,利用确定单元1114)。根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面,利用第二结果来替换先前结果。

在一些示例中,该处理单元1108被进一步配置为根据确定媒体内容可被暂停,暂停播放电子设备上的媒体内容(例如,利用任务执行单元1120),并且在显示单元上显示包含第二结果的一部分的第三用户界面(例如,利用显示启用单元1110),其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中,该处理单元1108被进一步配置为将音频数据传输至服务器以执行自然语言处理(例如,利用传输单元1126并使用通信单元1107),并且向服务器指示音频数据与媒体应用程序相关联(例如,利用传输单元 1126)。该指示使自然语言处理偏向与媒体相关的用户意图。

在一些示例中,该处理单元1108被进一步配置为将音频数据传输至服务器以执行语音转文本处理(例如,传输单元1126)。

在一些示例中,该处理单元1108被进一步配置为向服务器指示音频数据与媒体应用程序相关联(例如,利用传输单元1126)。该指示将语音转文本处理偏向于与媒体相关的文本结果。

在一些示例中,该处理单元1108被进一步配置为获取用户话语的文本表示(例如,利用获取单元1122),其中该文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

在一些示例中,文本表示基于在对音频数据进行采样之前接收到先前用户话语的时间。

在一些示例中,该处理单元1108被进一步配置为(例如,利用获取单元1122)获取用户意图不对应于与电子设备相关联的多个核心竞争力中一个核心竞争力的确定。该处理单元1108被进一步配置为使得第二电子设备执行促成满足用户意图的任务(例如,利用任务执行单元1120)。

在一些示例中,该处理单元1108被进一步配置为获取用户话语是否包括模糊术语的确定(例如,利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户话语包括模糊术语的确定而基于模糊术语获取两个或更多个候选用户意图(例如,利用获取单元1122)来;以及在显示单元上显示两个或更多个候选用户意图(例如,利用显示启用单元1110)。

在一些示例中,该处理单元1108被进一步配置为在显示两个或更多个候选用户意图时,接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择(例如,利用检测单元1112)。基于用户选择来确定用户意图。

在一些示例中,该处理单元1108被进一步配置为检测第二用户输入(例如,利用检测单元)。该处理单元1108被进一步配置为响应于检测到第二用户输入而对第二音频数据进行采样(例如,利用采样单元1116)。该第二音频数据包括表示用户选择的第二用户话语。

在一些示例中,显示两个或更多个解译,而无需输出与两个或更多个候选用户意图相关联的语音。

根据一些实施方案,该处理单元1108被进一步配置为在显示单元(例如,显示单元1102或独立显示单元)上显示内容(例如,利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如,利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而在显示单元上显示虚拟键盘界面(例如,利用显示启用单元 1110)。该处理单元1108被进一步配置为使得可选择示能表示出现在第二电子设备的显示器上(例如,利用任务执行单元1120)。对示能表示的选择使得电子设备经由第二电子设备的键盘来接收文本输入(例如,使用通信单元1107)。

在一些示例中,该处理单元1108被进一步配置为经由第二电子设备的键盘来接收文本输入(例如,利用检测单元1112),其中该文本输入表示用户请求。该处理单元1108被进一步配置为获取至少部分地满足用户请求的结果(例如,利用获取单元1122),并在显示单元上显示用户界面且(例如,利用显示启用单元1110),其中该用户界面包括该结果的至少一部分。

在一些示例中,所显示的内容包括具有多个示例性自然语言请求的第二用户界面。在一些示例中,所显示的内容包括媒体内容。在一些示例中,所显示的内容包括具有来自先前用户请求的结果的第三用户界面,其中第三用户界面占据显示单元的至少大部分显示区域。在一些示例中,该虚拟键盘界面覆盖在第三用户界面的至少一部分上。在一些示例中,经由电子设备的遥控器来检测用户输入,并且遥控器和第二电子设备是不同的设备。在一些示例中,该用户输入包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中,经由第二电子设备来检测用户输入。

以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A 中所示的部件来实现。以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A至图4B所示的部件来实现。例如,显示操作 702,716,732,736,738,742,746,902,906,914、检测操作704,718,904,910、确定操作708,710,712,714,720,724,728,736,740、采样操作706、执行操作 722,726,744,908、获取操作730,734,912,以及切换操作552,564可由操作系统252,352、GUI模块256,356、应用程序模块262,362、数字助理模块426 和一个或多个处理器204,304,404中的一者或多者来实现。本领域的技术人员将清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些具体实施,提供了一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述的任何方法的指令。

根据一些具体实施,提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如,便携式电子设备)。

根据一些具体实施,提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如,便携式电子设备)。

根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的任何方法的指令。

在以下项目中陈述了示例性方法、非暂态计算机可读存储介质、系统和电子设备:

1.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

检测用户输入;

确定用户输入是否对应于第一输入类型;以及

根据确定用户输入对应于第一输入类型:

在显示单元上显示多个示例性自然语言请求,多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

2.根据项目1所述的方法,其中在电子设备的遥控器上检测用户输入。

3.根据项目2所述的方法,其中第一输入类型包括按压遥控器的按钮并在预先确定的持续时间内释放按钮。

4.根据项目1至项目3中任一项所述的方法,其中多个示例性自然语言请求经由第一用户界面而被显示在显示单元上,并且其中第一用户界面覆盖在所显示的内容上。

5.根据项目1至项目4中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中在显示多个示例性自然语言请求时,媒体内容继续播放。

6.根据项目1至项目5中任一项所述的方法,还包括:

根据确定用户输入对应于第一输入类型,在显示单元上显示用于指示数字助理并未正在处理音频输入的视觉指示符。

7.根据项目1至项目6中任一项所述的方法,其中在确定用户输入对应于第一输入类型之后,在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。

8.根据项目1至项目7中任一项所述的方法,其中多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。

9.根据项目1至项目8中任一项所述的方法,其中显示多个示例性自然语言请求包括:

显示示例性自然语言请求的多个列表,其中每个列表在不同的时间并且轮番被显示。

10.根据项目1至项目9中任一项所述的方法,还包括:

根据确定用户输入不对应于第一输入类型:

确定用户输入是否对应于第二输入类型;以及

根据确定用户输入对应于第二输入类型:

对音频数据进行采样;

确定音频数据是否包含用户请求;以及

根据确定音频数据包含用户请求,执行至少部分地满足用户请求的任务。

11.根据项目10所述的方法,其中第二输入类型包括按压电子设备的遥控器的按钮并按住按钮超过预先确定的持续时间。

12.根据项目10至项目11中任一项所述的方法,还包括:

根据确定音频数据不包含用户请求,在显示单元上显示用于澄清用户意图的请求。

13.根据项目10至项目12中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中在对音频数据进行采样时以及在执行任务时,媒体内容在电子设备上继续播放。

14.根据项目13所述的方法,还包括:

输出与媒体内容相关联的音频;以及

根据确定用户输入对应于第二输入类型,减小音频的振幅。

15.根据项目10至项目14中任一项所述的方法,其中任务被执行,而无需从电子设备输出与任务相关的语音。

16.根据项目10至项目15中任一项所述的方法,其中在检测到用户输入时对音频数据进行采样。

17.根据项目10至项目15中任一项所述的方法,其中在检测到用户输入之后,在预先确定的持续时间内对音频数据进行采样。

18.根据项目10至项目17中任一项所述的方法,其中经由电子设备的遥控器上的第一麦克风来对音频数据进行采样,并且还包括:

在对音频数据进行采样时,经由遥控器上的第二麦克风来对背景音频数据进行采样;以及

使用背景音频数据来消除音频数据中的背景噪声。

19.根据项目10至项目18中任一项所述的方法,其中与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出,并且还包括:

使用音频信号来消除音频数据中的背景噪声。

20.根据项目10至项目19中任一项所述的方法,还包括:

响应于检测到用户输入,在显示单元上显示用于提示用户提供口头请求的视觉提示。

21.根据项目10至项目20中任一项所述的方法,其中所执行的任务包括:

获取至少部分地满足用户请求的结果;以及

在显示单元上显示第二用户界面,第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。

22.根据项目21所述的方法,其中第二用户界面覆盖在所显示的内容上。

23.根据项目21至项目22中任一项所述的方法,其中结果的一部分包括一个或多个媒体项,并且还包括:

经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择;以及

在显示单元上显示与所选择的媒体项相关联的媒体内容。

24.根据项目21至项目22中任一项所述的方法,还包括:

在显示第二用户界面时,检测第二用户输入;以及

响应于检测到第二用户输入,停止显示第二用户界面。

25.根据项目24所述的方法,其中在电子设备的遥控器上检测第二用户输入,并且其中第二用户输入包括遥控器的触敏表面上的第一预先确定的动作模式。

26.根据项目21至项目22中任一项所述的方法,还包括:

在显示第二用户界面时,检测第三用户输入;以及

响应于检测到第三用户输入,利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示,第三用户界面包括结果的至少一部分,其中第三用户界面占据显示单元的至少大部分显示区域。

27.根据项目26所述的方法,其中在电子设备的遥控器上检测第三用户输入,并且其中第三用户输入包括遥控器的触敏表面上的第二预先确定的动作模式。

28.根据项目26至项目27中任一项所述的方法,还包括:

响应于检测到第三用户输入:

获取与结果不同的第二结果,其中第二结果至少部分地满足用户请求,并且其中第三用户界面包括第二结果的至少一部分。

29.根据项目28所述的方法,其中第二结果基于在检测到用户输入之前所接收的用户请求。

30.根据项目28至项目29中任一项所述的方法,其中在检测到第三用户输入时,第二用户界面的焦点位于结果的一部分的项目上,并且其中第二结果与项目上下文相关。

31.根据项目26至项目30中任一项所述的方法,其中所显示的内容包括媒体内容,并且其中响应于检测到第三用户输入,暂停播放电子设备上的媒体内容。

32.根据项目26至项目31中任一项所述的方法,其中结果的至少一部分包括一个或多个媒体项,并且还包括:

经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择;以及

在显示单元上显示与媒体项相关联的媒体内容。

33.根据项目26至项目32中任一项所述的方法,还包括:

在显示第三用户界面时,检测与显示单元上的方向相关联的第四用户输入;

响应于检测到第四用户输入:

在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目,第二项目被定位在相对于第一项目的方向上。

34.根据项目26至项目33中任一项所述的方法,还包括:

在显示第三用户界面时,检测第五用户输入;以及

响应于检测到第五用户输入:

显示搜索字段;以及

在显示单元上显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。

35.根据项目26至项目34中任一项所述的方法,还包括:

在显示第三用户界面时,检测第六用户输入;以及

响应于检测到第六用户输入:

对第二音频数据进行采样,第二音频数据包含第二用户请求;

确定第二用户请求是否是用于细化用户请求的结果的请求;以及

根据确定第二用户请求是用于细化用户请求的结果的请求:

经由第三用户界面来显示结果的子组。

36.根据项目35所述的方法,其中结果的所述子组被显示在第三用户界面的顶行处。

37.根据项目35至项目36中任一项所述的方法,还包括:

根据确定第二用户请求不是用于细化用户请求的结果的请求:

获取至少部分地满足第二用户请求的第三结果;以及

经由第三用户界面来显示第三结果的一部分。

38.根据项目37所述的方法,其中第三结果的一部分被显示在第三用户界面的顶行处。

39.根据项目35至项目38中任一项所述的方法,还包括:

获取至少部分地满足用户请求或第二用户请求的第四结果;以及

经由第三用户界面来显示第四结果的一部分。

40.根据项目39所述的方法,其中第四结果的一部分被显示在第三用户界面的顶行之后的行处。

41.根据项目39至项目40中任一项所述的方法,其中在检测到第六用户输入时,第三用户界面的焦点位于第三用户界面的一个或多个项目上,并且其中第四结果与一个或多个项目上下文相关。

42.根据项目26至项目41中任一项所述的方法,还包括:

在显示第三用户界面时,检测第七用户输入;

响应于检测到第七用户输入,停止显示第三用户界面。

43.根据项目42所述的方法,其中所显示的内容是媒体内容,其中响应于检测到第三用户输入而暂停播放电子设备上的媒体内容,并且其中响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。

44.根据项目42至项目43中任一项所述的方法,其中第七用户输入包括按压电子设备的遥控器的菜单按钮。

45.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

在显示内容时,检测用户输入;

响应于检测到所述用户输入:

在显示单元上显示用户界面,用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求,其中接收与多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得数字助理执行相应动作。

46.根据项目45所述的方法,其中所显示的内容包括媒体内容。

47.根据项目46所述的方法,其中多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。

48.根据项目46至项目47中任一项所述的方法,其中在显示用户界面时,媒体内容继续播放。

49.根据项目46至项目41中任一项所述的方法,还包括:

输出与媒体内容相关联的音频,其中音频的振幅不响应于检测到用户输入而减小。

50.根据项目45所述的方法,其中所显示的内容包括主菜单用户界面。

51.根据项目50所述的方法,其中多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。

52.根据项目45所述的方法,其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。

53.根据项目52所述的方法,其中多个示例性自然语言请求包括用于细化结果的自然语言请求。

54.根据项目45至项目53中任一项所述的方法,其中用户界面包括用于调用数字助理并与其进行交互的文本指令。

55.根据项目45至项目54中任一项所述的方法,其中用户界面包括指示数字助理并未正在接收音频输入的视觉指示符。

56.根据项目45至项目55中任一项所述的方法,其中用户界面覆盖在所显示的内容上。

57.根据项目45至项目56中任一项所述的方法,还包括:

响应于检测到用户输入,减小所显示的内容的亮度以突出显示用户界面。

58.根据项目45至项目57中任一项所述的方法,其中在电子设备的遥控器上检测用户输入。

59.根据项目58所述的方法,其中用户输入包括按压遥控设备的按钮并且在按压按钮之后的预先确定的持续时间内释放按钮。

60.根据项目59所述的方法,其中按钮被配置为调用数字助理。

61.根据项目45至项目60中任一项所述的方法,其中用户界面包括用于显示虚拟键盘界面的文本指令。

62.根据项目45至项目61中任一项所述的方法,还包括:

在显示用户界面之后,检测第二用户输入;以及

响应于检测到第二用户输入,在显示单元上显示虚拟键盘界面。

63.根据项目62所述的方法,还包括:

将用户界面的焦点改变到用户界面上的搜索字段。

64.根据项目63所述的方法,其中搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。

65.根据项目45至项目64中任一项所述的方法,其述虚拟键盘界面不可用于与数字助理进行交互。

66.根据项目45至项目65中任一项所述的方法,其中第二用户输入包括电子设备的遥控设备的触敏表面上的预先确定的动作模式。

67.根据项目45至项目66中任一项所述的方法,其中多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。

68.根据项目45至项目67中任一项所述的方法,其中显示多个示例性自然语言请求进一步包括:

以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求。

69.根据项目68所述的方法,其中按顺序显示进一步包括:

利用多个示例性自然语言请求中的后续示例性自然语言请求来替换对多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。

70.根据项目45至项目69中任一项所述的方法,其中内容包括具有一个或多个项目的第二用户界面,其中在检测到用户输入时,第二用户界面的焦点位于一个或多个项目中的项目上,并且其中多个示例性自然语言请求与一个或多个项目中的项目上下文相关。

71.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

检测用户输入;以及

响应于检测到用户输入:

显示自然语言话语的一个或多个所建议的示例,一个或多个所建议的示例与所显示的内容上下文相关并且当由用户说出时使得数字助理执行对应动作。

72.根据项目71所述的方法,还包括:

检测第二用户输入;

响应于检测到第二用户输入:

对音频数据进行采样;

确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例;以及

根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例,对话语执行对应动作。

73.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

在显示内容时,检测用户输入;

响应于检测到用户输入,对音频数据进行采样,其中音频数据包括用户话语;

获取对与用户话语对应的用户意图的确定;

获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定;以及

响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图。

74.根据项目73所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求,并且其中调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

75.根据项目74所述的方法,其中所显示的内容包括具有媒体项的用户界面,其中用户话语未明确定义要播放的特定媒体项,并且还包括:

确定用户界面的焦点是否位于媒体项上;以及

根据确定用户界面的焦点位于媒体项上,将媒体项识别为要播放的特定媒体项。

76.根据项目73所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。

77.根据项目73所述的方法,其中所显示的内容包括正在电子设备上播放的媒体内容,并且其中状态或设置与正在电子设备上播放的媒体内容相关。

78.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于使正在电子设备上播放的媒体内容快进或快退的请求。

79.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。

80.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于暂停播放电子设备上的媒体内容的请求。

81.根据项目77所述的方法,其中用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

82.根据项目73所述的方法,其中:

所显示的内容包括具有第一媒体项和第二媒体项的用户界面;

用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求;并且

调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

83.根据项目73所述的方法,其中:

所显示的内容包括正在媒体设备上播放的媒体内容;

用户话语是指示用户未听到与=媒体内容相关联的音频的一部分的自然语言表达;

用于调整电子设备上的应用程序的状态或设置的请求包括用于重放与用户未听到的音频的所述一部分对应的媒体内容的一部分的请求;并且

调整应用程序的状态或设置包括:

使媒体内容向媒体内容的先前部分快退预先确定的量;以及

从先前部分重新开始播放媒体内容。

84.根据项目83所述的方法,其中调整应用程序的状态或设置进一步包括:

在从先前部分重新开始播放媒体内容之前打开隐藏式字幕。

85.根据项目83至项目84中任一项所述的方法,其中:

用于调整电子设备上的应用程序的状态或设置的请求进一步包括用于增大与媒体内容相关联的音频的音量的请求;并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容之前,增大与媒体内容相关联的音频的音量。

86.根据项目83至项目84中任一项所述的方法,其中:

与媒体内容相关联的音频中的语音被转换成文本;并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容时,显示文本的一部分。

87.根据项目73至项目85中任一项所述的方法,其中获取对与用户话语对应的用户意图的确定进一步包括:

获取对与用户话语相关联的用户情绪的确定,其中基于所确定的用户情绪来确定用户意图。

88.根据项目73至项目87中任一项所述的方法,还包括:

响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定,获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及

响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:

获取至少部分地满足用户意图的结果;以及

在显示单元上以文本形式显示结果。

89.根据项目88所述的方法,其中多个预先确定的请求类型包括对特定位置处的当前时间的请求。

90.根据项目88所述的方法,其中多个预先确定的请求类型包括用于呈现笑话的请求。

91.根据项目88所述的方法,其中所述多个预先确定的请求类型包括对关于正在电子设备上播放的媒体内容的信息的请求。

92.根据项目88至项目91中任一项所述的方法,其中文本形式的结果覆盖在所显示的内容上。

93.根据项目88至项目92中任一项所述的方法,其中所显示的内容包括正在电子设备上播放的媒体内容,并且其中在显示文本形式的结果时,媒体内容继续播放。

94.根据项目88至项目93中任一项所述的方法,还包括:

响应于获取用户意图不是多个预先确定的请求类型中的一种的确定:

获取至少部分地满足用户意图的第二结果;

确定所显示的内容是否包括正在电子设备上播放的媒体内容;以及

根据确定所显示的内容包括媒体内容:

确定媒体内容是否可被暂停;以及

根据确定媒体内容不可被暂停,在显示单元上显示具有第二结果的一部分的第二用户界面,其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

95.根据项目94所述的方法,其中用户意图包括对特定位置处的天气预报的请求。

96.根据项目94所述的方法,其中用户意图包括对与运动队或运动员相关联的信息的请求。

97.根据项目94至项目96中任一项所述的方法,其中用户意图不是媒体搜索查询,并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。

98.根据项目97中的任一项所述的方法,其中第二结果进一步包括至少部分地满足用户意图的非媒体数据。

99.根据项目94所述的方法,其中用户意图是媒体搜索查询,并且第二结果包括与媒体搜索查询对应的多个媒体项。

100.根据项目94至项目99中任一项所述的方法,还包括:

根据确定所显示的内容不包括正在电子设备上播放的媒体内容,在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。

101.根据项目100所述的方法,其中显示内容包括主菜单用户界面。

102.根据项目100所述的方法,其中:

所显示的内容包括具有先前结果的所述第三用户界面,先前结果与在检测到用户输入之前所接收的先前用户请求相关;并且

根据确定所显示的内容不包括正在电子设备上播放的媒体内容,利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

103.根据项目94至项目102中任一项所述的方法,还包括:

根据确定所显示的内容包括正在电子设备上播放的媒体内容:

确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面,其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面,利用第二结果来替换先前结果。

104.根据项目94至项目103中任一项所述的方法,还包括:

根据确定媒体内容可被暂停:

暂停播放电子设备上的媒体内容;

在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。

105.根据项目73至项目104中任一项所述的方法,还包括:

将音频数据传输至服务器,以执行自然语言处理;以及

向服务器指示音频数据与媒体应用程序相关联,其中指示使自然语言处理偏向于媒体相关的用户意图。

106.根据项目73至项目105中任一项所述的方法,还包括:

将音频数据传输至服务器,以执行语音转文本处理。

107.根据项目106所述的方法,还包括:

向服务器指示所述音频数据与媒体应用程序相关联,其中指示使语音转文本处理偏向于媒体相关的文本结果。

108.根据项目106至项目107中任一项所述的方法,还包括:

获取用户话语的文本表示,文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

109.根据项目108所述的方法,其中文本表示基于在对音频数据进行采样之前接收先前用户话语的时间。

110.根据项目73至项目109中任一项所述的方法,还包括:

获取用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力的确定;以及

使得第二电子设备执行促成满足用户意图的任务。

111.根据项目73至项目110中任一项所述的方法,其中获取对用户意图的确定进一步包括:

获取对用户话语是否包括模糊术语的确定;

响应于获取用户话语包括模糊术语的确定:

基于模糊术语来获取两个或更多个候选用户意图;以及

在显示单元上显示两个或更多个候选用户意图。

112.根据项目111所述的方法,还包括:

在显示两个或更多个候选用户意图时,接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择,并且其中基于所用户选择来确定用户意图。

113.根据项目112所述的方法,其中接收用户选择还包括:

检测第二用户输入;以及

响应于检测到第二用户输入,对第二音频数据进行采样,其中第二音频数据包括表示用户选择的第二用户话语。

114.根据项目111至项目113中任一项所述的方法,其中两个或更多个解译被显示,而无需输出与两个或更多个候选用户意图相关联的语音。

115.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

在显示内容时,检测用户输入;

响应于检测到用户输入,对音频数据进行采样,其中音频数据包括表示媒体搜索请求的用户话语;

获取满足媒体搜索请求的多个媒体项;以及

经由用户界面来在所述显示单元上显示所述多个媒体项的至少一部分。

116.根据项目115所述的方法,其中在显示多个媒体项的至少一部分时,内容继续被显示在显示单元上,并且其中用户界面所占据的显示区域小于内容所占据的显示区域。

117.根据项目115至项目116中任一项所述的方法,还包括:

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量,其中根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量,多个媒体项的至少一部分包括多个媒体项。

118.根据项目117所述的方法,其中根据确定多个媒体项中的媒体项的数量大于预先确定的数量,多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

119.根据项目115至项目118中任一项所述的方法,其中多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联,并且其中多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

120.根据项目115至项目119中任一项所述的方法,其中多个媒体项的至少一部分中的每个媒体项与流行度评级相关联,并且其中多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

121.根据项目115至项目120中任一项所述的方法,还包括:

在显示多个媒体项的至少一部分时,检测第二用户输入;以及

响应于检测到第二用户输入,扩展用户界面以占据显示单元的至少大部分显示区域。

122.根据项目121所述的方法,还包括:

响应于检测到第二用户输入:

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量;以及

根据确定多个媒体项中的媒体项的数量小于或等于预先确定数量:

获取至少部分地满足媒体搜索请求的第二多个媒体项,第二多个媒体项不同于媒体项的至少一部分;以及

经由经扩展的用户界面来在显示单元上显示第二多个媒体项。

123.根据项目122所述的方法,还包括:

确定媒体搜索请求是否包括多于一个搜索参数,其中根据确定媒体搜索请求包括多于一个搜索参数,第二多个媒体项在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数而被组织。

124.根据项目122至项目123中任一项所述的方法,还包括:

根据确定多个媒体项中的媒体项的数量大于预先确定的数量:

经由经扩展的用户界面来显示多个媒体项的至少第二部分,其中多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

125.根据项目124所述的方法,其中多个媒体项的至少第二部分包括两个或更多个媒体类型,并且其中多个媒体项的至少第二部分在经扩展的用户界面中根据两个或更多个媒体类型中的每个媒体类型而被组织。

126.根据项目122至项目125中任一项所述的方法,还包括:

检测第三用户输入;

响应于检测到第三用户输入,使得经扩展的用户界面滚动;

确定经扩展的用户界面是否已滚动超过经扩展的用户界面上的预先确定的位置;以及

响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置,在经扩展的用户界面上显示多个媒体项的至少第三部分,其中多个媒体项的至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。

127.一种用于操作媒体系统的数字助理的方法,所述方法包括:

在具有存储器和一个或多个处理器的电子设备处:

在显示单元上显示内容;

在显示内容时,检测用户输入;以及

响应于检测到用户输入:

在显示单元上显示虚拟键盘界面;以及

使得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。

128.根据项目127所述的方法,还包括:

经由所述第二电子设备的键盘来接收文本输入,文本输入表示用户请求;

获取至少部分地满足用户请求的结果;以及

在显示单元上显示用户界面,用户界面包括结果的至少一部分。

129.根据项目127至项目128中任一项所述的方法,其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。

130.根据项目129所述的方法,其中所显示的内容包括媒体内容。

131.根据项目127至项目128中任一项所述的方法,其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面,第三用户界面占据显示单元的至少大部分显示区域。

132.根据项目131所述的方法,其中虚拟键盘界面覆盖在第三用户界面的至少一部分上。

133.根据项目127至项目132中任一项所述的方法,其中经由电子设备的遥控器来检测用户输入,并且其中遥控器和第二电子设备是不同的设备。

134.根据项目133所述的方法,其中用户输入包括遥控设备的触敏表面上的预先确定的动作模式。

135.根据项目127至项目132中任一项所述的方法,其中经由第二电子设备来检测用户输入。

136.一种非暂态计算机可读存储介质,非暂态计算机可读存储介质包含用于执行根据项目1至项目135中任一项所述的方法的计算机可执行指令。

137.一种系统,包括:

根据项目136所述的非暂态计算机可读存储介质;以及

被配置为执行计算机可执行指令的处理器。

138.一种装置,装置包括用于执行根据项目1至项目135中任一项所述的方法的部件。

139.一种电子设备,包括:

被配置为接收用户输入的输入单元;

耦接至输入单元的处理单元,其中处理单元被配置为:

在显示单元上显示内容;

经由输入单元来检测用户输入;

确定用户输入是否对应于第一输入类型;以及

根据确定用户输入对应于第一输入类型:

在显示单元上显示多个示例性自然语言请求,多个示例性自然语言请求与所显示的内容上下文相关,其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

140.根据项目139所述的电子设备,还包括耦接至处理单元的音频输入单元,其中处理单元被进一步配置为:

根据确定用户输入不对应于第一输入类型:

确定用户输入是否对应于第二输入类型;以及

根据确定用户输入对应于第二输入类型:

使用音频输入单元来对音频数据进行采样;

确定音频数据是否包含用户请求;

根据确定音频数据包含用户请求,执行至少部分地满足用户请求的任务。

141.根据项目139至项目140中任一项所述的电子设备,其中处理单元被进一步配置为:

获取至少部分地满足用户请求的结果;以及

在显示单元上显示第二用户界面,第二用户界面包括结果的一部分,其中在显示第二用户界面时继续显示内容的至少一部分,并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。

142.根据项目141所述的电子设备,其中处理单元被进一步配置为:

在显示第二用户界面时,经由输入单元来检测第二用户输入;以及

响应于检测到第二用户输入,停止显示第二用户界面。

143.根据项目141至项目142中任一项所述的电子设备,其中处理单元被进一步配置为:

在显示第二用户界面时,经由输入单元来检测第三用户输入;以及

响应于检测到第三用户输入,利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示,第三用户界面包括结果的至少一部分,其中第三用户界面占据显示单元的至少大部分显示区域。

144.根据项目143所述的电子设备,其中处理单元被进一步配置为:

在显示第三用户界面时,经由输入单元来检测与显示单元上的方向相关联的第四用户输入;以及

响应于检测到第四用户输入:

在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目,第二项目被定位在相对于第一项目的方向上。

145.根据项目143至项目144中任一项所述的电子设备,其中处理单元被进一步配置为:

在显示第三用户界面时,经由输入单元来检测第五用户输入;以及

响应于检测到第五用户输入:

显示搜索字段;以及

在显示单元上显示虚拟键盘界面,其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。

146.根据项目143至项目145中任一项所述的电子设备,其中处理单元被进一步配置为:

在显示第三用户界面时,经由输入单元来检测第六用户输入;以及

响应于检测到第六用户输入:

对第二音频数据进行采样,该第二音频数据包含第二用户请求;

确定第二用户请求是否是用于细化用户请求的结果的请求;以及

根据确定第二用户请求是用于细化所述用户请求的结果的请求:

经由第三用户界面来显示结果的子组。

147.一种电子设备,包括:

被配置为接收用户输入的输入单元;

被配置为接收音频数据的音频输入单元;

耦接至输入单元和音频输入单元的处理单元,其中处理单元被配置为:

在显示单元上显示内容;

在显示内容时,经由输入单元来检测用户输入;

响应于检测到用户输入,使用音频输入单元来对音频数据进行采样,其中经采样的音频数据包括用户话语;

获取对与用户话语对应的用户意图的确定;

获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定;以及

响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定,调整应用程序的状态或设置以满足用户意图。

148.根据项目147所述的电子设备,其中处理单元被进一步配置为:

响应于获取用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求的确定,获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定;以及

响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定:

获取至少部分地满足用户意图的结果;以及

在显示单元上以文本形式显示结果。

149.根据项目148所述的电子设备,其中处理单元被进一步配置为:

响应于获取用户意图不是多个预先确定的请求类型中的一种的确定:

获取至少部分地满足用户意图的第二结果;

确定所显示的内容是否包括正在电子设备上播放的媒体内容;以及

根据确定所显示的内容包括媒体内容:

确定媒体内容是否可被暂停;以及

根据确定媒体内容不可被暂停,在显示单元上显示具有第二结果的一部分的第二用户界面,其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

150.根据项目149所述的电子设备,其中处理单元被进一步配置为:

根据确定所显示的内容不包括正在电子设备上播放的媒体内容,在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。

151.根据项目149所述的电子设备,其中处理单元被进一步配置为:

根据确定媒体内容可被暂停:

暂停播放电子设备上的媒体内容;

在显示单元上显示具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的大部分显示区域。

152.一种电子设备,包括:

被配置为接收用户输入的输入单元;

耦接至输入单元的处理单元,其中处理单元被配置为:

在显示单元上显示内容;

在显示内容时,经由输入单元来检测用户输入;以及

响应于检测到用户输入:

在显示单元上显示虚拟键盘界面;以及

使得可选择示能表示出现在第二电子设备的显示器上,其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。

153.根据项目152所述的电子设备,其中处理单元被进一步配置为:

经由第二电子设备的键盘来接收文本输入,文本输入表示用户请求;

获取至少部分地满足用户请求的结果;以及

在显示单元上显示用户界面,用户界面包括结果的至少一部分。

虽然以上描述使用“第一”、“第二”等术语来描述了各种元件,但是这些元件不应受到这些术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如,在不脱离各种所描述的实施方案的范围的情况下,第一用户输入可被命名为第二用户输入,并且类似地第二用户输入可被命名为第一用户输入。第一用户输入和第二用户输入都是用户输入,但它们不是相同的触摸。

在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的,而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样,单数形式“一个”(“a”、“an”) 和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括” (“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”) 或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定... 时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

此外,出于解释的目的,前面的描述是参考具体的实施方案来描述的。然而,上面的示例性讨论并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

此外,在本文所讨论的各种示例中的任何一个示例中,各个方面可针对特定用户可被个性化定制。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等以各种其他方式来修改本文所讨论的各种过程。此外,此类偏好和设置可基于用户交互(例如,频繁发出的命令、频繁选择的应用程序等)而随时间更新。可利用收集和使用可从各种源获取的用户数据来改进向用户递送邀请内容或者他们感兴趣的任何其他内容。本公开预期,在一些示例中,这些所收集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。

本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。

因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常呈现。例如,可通过基于非个人信息数据或绝对最低限度的个人信息(例如,由与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息、或公开可用信息)来推断偏好,从而选择内容并递送给用户。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1