用于媒体搜索和回放的智能自动化助理的制作方法

文档序号:15743229发布日期:2018-10-23 22:38阅读:143来源:国知局
本申请要求2015年9月8日提交的名称为“IntelligentAutomatedAssistantforMediaSearchandPlayback”的美国临时申请62/215,575和2015年12月8日提交的名称为“IntelligentAutomatedAssistantforMediaSearchandPlayback”的美国非临时申请14/963,089的优先权,这两个申请据此出于所有目的全文以引用方式并入本文。本申请涉及以下共同未决的申请:2015年12月8日提交的名称为“IntelligentAutomatedAssistantinaMediaEnvironment”的美国非临时专利申请14/963,094(代理档案号106842130800(P25817US1)),2014年9月26日提交的名称为“IntelligentAutomatedAssistantforTVUserInteractions”的美国非临时专利申请14/498,503(代理档案号106842065100(P18133US1)),以及2014年9月26日提交的名称为“Real-timeDigitalAssistantKnowledgeUpdates”的美国非临时专利申请14/498,391(代理档案号106842097900(P22498USP1)),这些申请据此出于所有目的全文以引用方式并入本文。
技术领域
:本发明整体涉及智能自动化助理,更具体地讲,涉及用于媒体搜索和回放的智能自动化助理。
背景技术
::智能自动化助理(或数字助理)可在用户与电子设备之间提供直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过向与电子设备相关联的虚拟助理提供自然语言形式的语音用户输入来访问电子设备的服务。虚拟助理能够对讲出的用户输入执行自然语言处理以推断用户的意图并将用户意图操作化为任务。随后可通过执行电子设备的一项或多项功能来执行这些任务,并且在一些示例中,可将相关输出以自然语言形式返回给用户。可能期望将数字助理集成到媒体环境(例如,电视、电视机顶盒、有线电视盒、游戏设备、流媒体设备、数字视频录像机等)中来辅助用户完成与媒体消费相关的任务。例如,可以利用数字助理辅助搜索期望的要消费的媒体内容。然而,用户常常不清楚他们希望消费的具体媒体项,可能会花费相当多时间浏览媒体项以发现新的感兴趣内容。此外,现有的搜索界面可能很复杂且并非用户友好的,这可能进一步增加用户在最终选择希望消费的项目之前浏览媒体项所花的时间。技术实现要素:本发明公开了用于操作数字助理进行媒体搜索和回放的系统与过程。在示例过程中,可以在显示单元上显示媒体项主要集合。响应于检测到用户输入,可以接收音频输入。该音频输入可以包含自然语言语音形式的媒体相关请求。可以确定对应于媒体相关请求的主要用户意图。该过程可以确定该主要用户意图是否包括缩小对应于该媒体项主要集合的主要媒体搜索查询范围的用户意图。根据确定主要用户意图包括缩小主要媒体搜索查询范围的用户意图,可以生成对应于主要用户意图的第二主要媒体搜索查询。第二主要媒体搜索查询可以基于该媒体相关请求和主要媒体搜索查询。可以执行该第二主要媒体搜索查询以获得第二媒体项主要集合。可以用该第二媒体项主要集合的显示替换该媒体项主要集合在显示单元上的显示。附图说明图1是示出了根据各种示例用于实现数字助理的系统和环境的框图。图2是示出了根据各种示例的媒体系统的框图。图3是示出了根据各种示例的用户设备的框图。图4A是示出了根据各种示例的数字助理系统或其服务器部分的框图。图4B示出了根据各种示例的图4A所示的数字助理的功能。图4C示出了根据各种示例的知识本体的一部分。图5A-图5E示出了根据各种示例用于操作媒体系统的数字助理的过程。图6A-图6K示出了根据各种示例在图5A-图5E所示过程的各个阶段由显示单元上的媒体设备显示的屏幕截图。图7示出了根据各种示例被配置为操作媒体系统的数字助理的电子设备的功能框图。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实践的特定示例。应当理解,在不脱离各种示例的范围的情况下,可使用其他示例并且可作出结构性变更。这涉及用于在媒体环境中操作数字助理的系统和过程。在示例过程中,可以接收自然语言语音形式的媒体搜索请求。可以确定对应于媒体搜索请求的主要用户意图。可以根据主要用户意图获得媒体项的主要集合。该过程能够确定是否存在一个或多个先前用户意图,其中一个或多个先前用户意图对应于在媒体搜索请求之前接收的一个或多个先前媒体搜索请求。响应于确定存在一个或多个先前用户意图,可以基于主要用户意图和一个或多个先前用户意图确定一个或多个辅助用户意图。一个或多个辅助用户意图可以基于各种其他因素,诸如媒体浏览历史、相关搜索属性和多个用户之间的常见媒体属性。可以获得媒体项的多个辅助集合,其中媒体项的每个辅助集合对应于一个或多个辅助用户意图中的相应辅助用户意图。可以在显示单元上经由用户界面显示所获得媒体项的主要集合和媒体项的多个辅助集合供用户选择。可以智能地确定主要和辅助用户意图以增大预测用户实际意图的概率。通过基于主要和辅助用户意图提供多种媒体项,用户更可能遇到激发用户兴趣的媒体项。这可能希望通过减少浏览媒体项所花的时间量并接下来增加欣赏媒体内容所花的时间量来改进用户体验。1.系统和环境图1示出了根据各种示例用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指解译语音形式和/或文本形式的自然语言输入以推断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了按照推断的用户意图行动,该系统能够执行如下一项或多项:识别具有被设计成完成推断的用户意图的步骤和参数的任务流,向任务流中输入来自推断的用户意图的特定要求;通过调用程序、方法、服务、应用编程接口(API)等来执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。具体地,数字助理可能够接受至少部分地为自然语言命令、请求、声明、叙述和/或询问的形式的用户请求。通常,用户请求可寻求数字助理作出信息性回答,或寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务,或这两者的组合。例如,用户可向数字助理提出问题,诸如“巴黎现在几点?”该数字助理能够检索请求的信息和响应“现在是巴黎时间下午4:00。”用户还可以请求执行任务,例如,“查找ReeseWitherspoon主演的电影。”作为响应,数字助理可以执行请求的搜索查询并显示相关的电影标题供用户选择。在执行所请求的任务期间,数字助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应并采取编程动作之外,该数字助理还可以其他可视或音频形式提供响应,例如,言语、提示、音乐、图像、视频、动画等。此外,如本文所述,示例性数字助理可以控制媒体内容的回放(例如,在电视机顶盒上),并导致在显示单元(例如,电视)上显示媒体内容或其他信息。如图1中所示,在一些示例中,数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(下文称为“DA客户端102”),以及在服务器系统108上执行的服务器侧部分106(下文称为“DA服务器106”)。此外,在一些示例中,还可以在用户设备122上执行客户端侧部分。DA客户端102可通过一个或多个网络110来与DA服务器106进行通信。DA客户端102可提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106进行通信。DA服务器106可为任意数量的DA客户端102提供服务器侧功能,该任意数量的DA客户端102各自位于相应的设备(例如,媒体设备104和用户设备122)上。媒体设备104可以是被配置为管理和控制媒体内容的任何适当的电子设备。例如,媒体设备104可以包括电视机顶盒,诸如有线电视盒设备、卫星盒设备、视频播放器设备、视频流传输设备、数字视频录像机、游戏系统、DVD播放器、蓝光光盘TM播放器、此类设备的组合等。如图1所示,媒体设备104可以是媒体系统128的部分。除媒体设备104之外,媒体系统128可以包括遥控器124和显示单元126。媒体设备104可以在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,媒体设备104可以连接到可以与显示单元126集成或分开的音频系统(例如,音频接收机)和扬声器(未示出)。在其他示例中,显示单元126和媒体设备104可以在单个设备中结合在一起,单个设备诸如是具有高级处理和网络连接能力的智能电视。在此类示例中,可以将媒体设备104的功能作为应用在组合设备上执行。在一些示例中,媒体设备104可以充当针对媒体内容的多种类型和源的媒体控制中心。例如,媒体设备104可以方便用户访问实况电视(例如,空中传输、卫星或有线电视)。这样一来,媒体设备104可以包括电缆调谐器、卫星调谐器等。在一些示例中,媒体设备104还可以记录用于稍晚时移观看的电视节目。在其他示例中,媒体设备104能够提供对一个或多个流传输媒体服务的访问,诸如电缆传送的点播电视秀、视频和音乐以及互联网传送的电视秀、视频和音乐(例如,来自各种免费、付费和基于订阅的流传输服务)。在其他示例中,媒体设备104能够促进从任何其他源回放或显示媒体内容,诸如显示来自移动用户设备的照片,播放来自耦合的存储设备的视频,播放来自耦合的音乐播放器的音乐等。如果需要,媒体设备104还可以包括本文论述的媒体控制特征的各种其他组合。下文参考图2提供了对媒体设备104的详细描述。用户设备122可以是任何个人电子设备,诸如移动电话(例如,智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、腕表、胸针、臂带等)等。下文参考图3提供了对用户设备122的详细描述。在一些示例中,用户可以通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如,按钮、麦克风、相机、操纵杆等)与媒体设备104交互。例如,可以在用户设备122和/或遥控器124处接收针对数字助理的包括媒体相关查询或命令的语音输入,该语音输入可以用于使得在媒体设备104上执行媒体相关的任务。同样,可以在用户设备122和/或遥控器124处(以及从未示出的其他设备)接收用于控制媒体设备104上的媒体的触觉命令。因此可以通过各种方式控制媒体设备104的各种功能,给用户用于从多个设备控制媒体内容的多种选项。通信网络110的示例可包括局域网(LAN)和广域网(WAN),例如互联网。通信网络110可使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX、或任何其他合适的通信协议。DA服务器106可包括面向客户端的输入/输出(I/O)接口112、一个或多个处理模块114、数据和模型116,以及至外部服务的I/O接口118。面向客户端的I/O接口112可促进针对DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据和模型116来处理语音输入,并基于自然语言输入来确定用户的意图。此外,一个或多个处理模块114可基于推断出的用户意图来进行任务执行。在一些示例中,DA服务器106可以通过用于任务完成或信息采集的网络110与外部服务120通信,诸如电话服务、日历服务、信息服务、消息服务、导航服务、电视节目服务、流媒体服务、媒体搜索服务等。至外部服务的I/O接口118可促进此类通信。服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实施。在一些示例中,服务器系统108还可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。虽然图1中所示的数字助理可包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并将数字助理的所有其他功能委派给后端服务器的瘦客户端。2.媒体系统图2示出了根据各种示例的媒体系统128的框图。媒体系统128可以包括通信地耦接到显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可以经由遥控器124接收用户输入。可以在显示单元126上显示来自媒体设备104的媒体内容。在本示例中,如图2所示,媒体设备104可以包括存储器接口202、一个或多个处理器204,以及外围设备接口206。媒体设备104中的各种部件可由一条或多条通信总线或信号线耦接在一起。媒体设备104还可包括各种子系统,以及耦接至外围设备接口206的外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。例如,媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(例如红外)接收器与发射器。在一些示例中,媒体设备104还可以包括耦接到外围设备接口206的I/O子系统240。I/O子系统240可以包括音频/视频输出控制器270。音频/视频输出控制器270可以耦接到显示单元126和扬声器268或可以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统240还可以包括远程控制器242。远程控制器242可以通信地耦接到遥控器124(例如,经由有线连接、蓝牙、Wi-Fi等)。遥控器124可以包括用于捕获音频数据(例如,来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274以及用于方便经由远程控制器242与媒体设备104通信的收发器276。此外,遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可以检测触敏表面278上的接触(和接触的任何移动或中断)并将检测到的接触(例如,手势、接触运动等)转换成与显示单元126上显示的用户界面对象(例如,一个或多个软按键、图标、网页或图像)的交互。在一些示例中,遥控器124还可以包括诸如键盘、操纵杆等的其他输入机构。在一些示例中,遥控器124还可以包括诸如灯、显示器、扬声器等输出机构。在遥控器124处接收的输入(例如,用户语音、按钮按压、接触运动等)可以经由遥控器124传送到媒体设备104。I/O子系统240还可以包括其他输入控制器244。可将其他输入控制器244耦接到其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,媒体设备104还可以包括耦接到存储器250的存储器接口202。存储器250可以包括任何电子、磁、光学、电磁、红外的或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分和所有)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其相关联的任何介质。在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备上媒体模块258、设备外媒体模块260和应用模块262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理;设备上媒体模块258可以促进媒体设备104上本地存储的媒体内容的存储和回放。设备外媒体模块260可以促进从外部源(例如,在远程服务器上,在用户设备122上等)获得的媒体内容的流传输回放或下载。此外,设备外媒体模块260可以促进接收广播和有线内容(例如,频道调谐)。应用模块262可以促进媒体相关应用的各种功能,诸如网络浏览、媒体处理、游戏和/或其他过程与功能。如本文所述,例如,存储器250还可存储客户端侧数字助理指令(例如,在数字助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的媒体搜索历史、媒体观看列表,最近观看的列表,最喜欢的媒体项等)以提供数字助理的客户端侧功能。也可以在执行语音识别时使用用户数据266,以支持数字助理或用于任何其他应用。在各种示例中,数字助理客户端模块264能够通过媒体设备104的各种用户界面(例如,I/O子系统240等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如,DA服务器106)通信。在一些示例中,数字助理客户端模块264可利用各种子系统和外围设备来收集与媒体设备104有关和来自媒体设备104的周围环境的附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自用户设备122的信息。在一些示例中,数字助理客户端模块264可将上下文信息或其子集与用户输入一起提供至数字助理服务器,以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。可进一步由媒体设备104或服务器系统108使用上下文信息以支持精确的语音识别。在一些示例中,伴随用户输入的上下文信息可以包括传感器信息,诸如照明、环境噪音、环境温度、与另一物体的距离等。上下文信息还可以包括与媒体设备104的物理状态(例如,设备位置、设备温度、功率水平等)或媒体设备104的软件状态(例如,运行过程、安装的应用、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括从用户接收的信息(例如,语音输入)、用户请求的信息和向用户呈现的信息(例如,媒体设备当前或先前显示的信息)。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,用户设备122上显示的内容、用户设备122上的可回放内容等)。可以将这些类型的上下文信息的任何信息提供给DA服务器106(或用在媒体设备104自身上)作为与用户输入相关联的上下文信息。在一些示例中,数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如,用户数据266)。除此之外或另选地,可以在媒体设备104自身上在执行语音识别和/或数字助理功能时使用该信息。数字助理客户端模块264还可在DA服务器106请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。数字助理客户端模块264可将该附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。在各种示例中,存储器250可包括附加的指令或更少的指令。此外,可在包括在一个或多个信号处理和/或专用集成电路中的硬件和/或固件中实现用户设备104的各种功能。3.用户设备图3示出了根据各种示例的示例性用户设备122的框图。如图所示,用户设备122可包括存储器接口302、一个或多个处理器304,以及外围设备接口306。用户设备122中的各种部件可由一条或多条通信总线或信号线耦接在一起。用户设备122还可包括各种传感器、子系统,以及耦接至外围设备接口306的外围设备。传感器、子系统和外围设备可收集信息和/或促进用户设备122的各种功能。例如,用户设备122可包括运动传感器310、光传感器312和接近传感器314,它们耦接到外围设备接口306以促进取向、照明和接近感测功能。一个或多个其他传感器316,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、指南针、加速度计等,也可被连接至外围设备接口306,以促进相关功能。在一些示例中,相机子系统320和光学传感器322可用于促进相机功能,诸如拍摄照片和录制视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。可将音频子系统326耦接到扬声器328和麦克风330以促进启用语音的功能,诸如语音识别、语音复制、数字记录和电话功能。在一些示例中,用户设备122还可以包括耦接到外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或其他输入控制器344。触摸屏控制器342可以耦接到触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断,该多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术和表面声波技术;接近传感器阵列;等等。可将其他输入控制器344耦接到其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,用户设备122还可以包括耦接到存储器350的存储器接口302。存储器350可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其相关联的任何介质。在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用模块362。操作系统352可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面的处理;传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用模块362可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、导航、成像和/或其他过程和功能。如本文所述,例如,存储器350还可存储客户端侧数字助理指令(例如,在数字助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供数字助理的客户端侧功能。也可以在执行语音识别时使用用户数据366,以支持数字助理或用于任何其他应用。数字助理客户端模块364和用户数据366可以分别与数字助理客户端模块264和用户数据266类似或相同,如上文参考图2所述。在各种示例中,存储器350可包括附加的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中实施用户设备122的各种功能。在一些示例中,用户设备122可以被配置为控制媒体设备104的各方面。例如,用户设备122可以充当遥控器(例如,遥控器124)。可以将经由用户设备122接收的用户输入(例如,使用通信子系统)传输到媒体设备104,以使得由媒体设备104执行对应动作。此外,用户设备122可以被配置为从媒体设备104接收指令。例如,媒体设备104可以将任务传递给用户设备122以执行并使得在用户设备122上显示对象(例如,可选择示能表示)。应当理解,系统100和媒体系统128不限于图1和图2中所示的部件和配置,用户设备122、媒体设备104和遥控器124同样不限于图2和图3所示的部件和配置。根据各种示例,系统100、媒体系统128、用户设备122、媒体设备104和遥控器124都可以包括多种配置中的更少或其他部件。4.数字助理系统图4A示出了根据各种示例的数字助理系统400的框图。在一些示例中,数字助理系统400可在独立式计算机系统上实现。在一些示例中,数字助理系统400可跨多个计算机分布。在一些示例中,数字助理的模块和功能中的一些模块和功能可被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104或设备122)上并通过一个或多个网络来与服务器部分(例如,服务器系统108)进行通信,例如,如图1所示。在一些示例中,数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出的是,数字助理系统400仅为数字助理系统的一个示例,并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件,或者可具有部件的不同配置或布置。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路),或它们的组合中实现。数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406,以及网络通信接口408。这些部件可通过一个或多个通信总线或信号线410彼此进行通信。在一些示例中,存储器402可包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备,或其他非易失性固态存储器设备)。在一些示例中,I/O接口406可将数字助理系统400的I/O设备416(诸如显示器、键盘、触摸屏和麦克风)耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如,当数字助理在独立式用户设备上实施时,数字助理系统400可包括分别相对于图2或图3中的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统400可表示数字助理具体实施的服务器部分,并且可通过位于客户端设备(例如,设备104或设备122)上的客户端侧部分来与用户进行交互。在一些示例中,网络通信接口408可包括一个或多个有线通信端口412和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络和其他通信设备接收RF信号和/或光学信号,并且将RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使得数字助理系统400通过网络诸如互联网、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))与其他设备之间的通信成为可能。在一些示例中,存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统418、通信模块420、用户界面模块422、一个或多个应用424和数字助理模块426。具体地讲,存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令,并可从数据结构读取数据或将数据写到数据结构。操作系统418(例如,Darwin、RTXC、LINUX、UNIX、OSX、WINDOWS,或嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件部件和/或驱动器,并且促进各种硬件、固件和软件部件之间的通信。通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如,通信模块420可以与电子设备(例如,104,122)的通信子系统(例如,224,324)通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。用户界面模块422可经由I/O接口406来接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将输出经由I/O接口406(例如,通过显示器、音频通道、扬声器、触摸板等)递送给用户。应用424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如,如果数字助理系统400在独立式用户设备上实现,则应用424可包括用户应用,诸如游戏、日历应用、导航应用或电子邮件应用。如果数字助理系统400在服务器上实现,则应用424可包括例如资源管理应用、诊断应用或调度应用。存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中,数字助理模块426可包括以下子模块或者其子集或超集:I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438和语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456和自动语音识别(ASR)系统431。在一些示例中,使用数字助理模块426中实现的处理模块、数据和模型,数字助理能够执行至少一些如下功能:将语音输入转换成文本;识别在从用户接收的自然语言输入中表达的用户意图;主动引出并获得完整推断用户意图所需的信息(例如,通过消除字词、游戏、意图的歧义等);确定用于满足推断出的意图的任务流;并执行该任务流以满足推断出的意图。在一些示例中,如图4B中所示,I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与用户设备(例如,设备104或设备122)进行交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块428可随同接收到用户输入一起或在接收到用户输入之后不久任选地获得与来自用户设备的用户输入相关联的上下文信息。上下文信息可包括特定于用户的数据、词汇,和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的电子设备的软件状态和硬件状态,和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中,I/O处理模块428还可将与用户请求有关的跟进问题发送至用户,并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时,I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器),以用于语音文本转换。STT处理模块430可包括一个或多个ASR系统(例如,ASR系统431)。该一个或多个ASR系统可处理通过I/O处理模块428接收到的语音输入,以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入提取代表性特征。例如,前端语音预处理器可对语音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外,每个ASR系统可包括一个或多个语音识别模型(例如,声音模型和/或语言模型),并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型、以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态换能器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征,以产生中间识别结果(例如,音素、音素字符串和子字),并且最终产生文本识别结果(例如,字词、字词字符串或符号的序列)。在一些示例中,语音输入可至少部分地由第三方服务处理或在电子设备(例如,设备104或设备122)上处理,以产生识别结果。一旦STT处理模块430产生包含文本字符串(例如,字词、字词的序列或符号的序列)的识别结果,识别结果便可被传送至自然语言处理模块432以用于意图推断。在一些示例中,一个或多个ASR系统的一种或多种语言模型可以被配置为向媒体相关结果偏置。在一个示例中,可以使用媒体相关文本的语料库训练一种或多种语言模型。在另一个示例中,ASR系统可以被配置为有利于媒体相关的识别结果。在一些示例中,一个或多个ASR系统可以包括静态和动态语言模型。可以使用一般文本语料库训练静态语言模型,而可以使用特定于用户的文本训练动态语言模型。例如,可以使用对应于从用户接收的先前语音输入的文本生成动态语言模型。在一些示例中,一个或多个ASR系统可以被配置为生成基于静态语言模型和/或动态语言模型的识别结果。此外,在一些示例中,一个或多个ASR系统可以被配置为有利于对应于更近接收的先前语音输入的识别结果。有关语音转文本处理的更多细节在2011年9月20日提交的名称为“ConsolidatingSpeechRecognitionResults”的美国实用新型专利申请13/236,942中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,STT处理模块430可包括可识别字词的词汇,和/或可经由语音字母表转换模块431来访问该词汇。每个词汇字词可与以语音识别语音字母表来表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇可包括与多个候选发音相关联的字词。例如,该词汇可包括与和的候选发音相关联的字词“tomato”。此外,词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中,并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中,字词的候选发音可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定。在一些示例中,候选发音可手动生成,例如基于已知的标准发音而手动生成。在一些示例中,可基于候选发音的共同性来对候选发音进行排序。例如,候选发音的排序可高于因为前者是更常用的发音(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排序。例如,自定义候选发音的排序可高于规范候选发音。这可用于识别具有偏离规范发音的独特发音的专有名词。在一些示例中,候选发音可与一个或多个语音特征(诸如地理起源、国籍、或种族)相关联。例如,候选发音可能与美国相关联,而候选发音可能与英国相关联。此外,候选发音的排序可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国籍、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国相关联,可将候选发音(与美国相关联)排得比候选发音(与英国相关联)更高。在一些示例中,排序的候选发音中的一个候选发音可被选择作为预测发音(例如,最可能的发音)。当接收到语音输入时,STT处理模块430可用于(例如,使用声音模型)确定对应于该语音输入的音素,并且然后可尝试(例如,使用语言模型)确定匹配该音素的字词。例如,如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。在一些示例中,STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块430可确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。数字助理的自然语言处理模块432(“自然语言处理器”)可获取由STT处理模块430生成的字词或符号的序列(“符号序列”),并尝试将该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联任务流的任务。相关联任务流可以是数字助理为了执行任务而采取的一系列可编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实施并存储的任务流的数量和种类,或换句话讲,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。在一些示例中,除从STT处理模块430获取的字词或符号的序列之外,自然语言处理模块432还可(例如,从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可任选地使用上下文信息来明确、补充和/或进一步限定包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如:用户偏好、用户设备的硬件和/或软件状态、在用户请求之前、期间或之后不久收集的传感器信息、数字助理与用户之间的先前交互(例如,对话)等。如本文所述,上下文信息可以是动态的,并且可随对话的时间、位置、内容以及其他因素而变化。在一些示例中,自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”可表示数字助理能够执行的任务,即该任务为“可执行的”或可被执行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的链接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。在一些示例中,知识本体460可由可执行意图节点和属性节点组成。在知识本体460内,每个可执行意图节点可直接链接至或通过一个或多个中间属性节点链接至一个或多个属性节点。类似地,每个属性节点可直接链接至或通过一个或多个中间属性节点链接至一个或多个可执行意图节点。例如,如图4C所示,知识本体460可包括“媒体”节点(即,可执行意图节点)。属性节点“演员”、“媒体流派”和“媒体标题”均可以直接链接到可执行意图节点(即,“媒体搜索”节点)。此外,属性节点“姓名”、“年龄”、“Ulmer标度排序”和“国籍”可以是属性节点“演员”的子节点。在另一个示例中,如图4C所示,知识本体460还可包括“天气”节点(即,另一可执行意图节点)。属性节点“日期/时间”和“位置”均可以链接到“天气搜索”节点。在一些示例中应当发现,一个或多个属性节点可以与两个或更多可执行意图相关。在这些示例中,一个或多个属性节点可以链接到对应于知识本体460中两个或多个可执行意图的相应节点。可执行意图节点连同其链接的概念节点一起可被描述为“域”。在本论述中,每个域可与相应的可执行意图相关联,并可以指与特定可执行意图相关联的一组节点(以及这些节点之间的关系)。例如,图4C中示出的知识本体460可包括知识本体460内的媒体域462的示例以及天气域464的示例。媒体域462可以包括可执行意图节点“媒体搜索”和属性节点“演员”、“媒体流派”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”以及属性节点“位置”和“日期/时间”。在一些示例中,知识本体460可由许多域组成。每个域可与一个或多个其他域共享一个或多个属性节点。尽管图4C示出了知识本体460之内的两个示例域,但其他域可以包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”和“时间”、“讲笑话”等。“运动员”域可与“搜索运动员信息”可执行意图节点相关联,并且还可包括诸如“运动员姓名”、“运动队”和“运动员统计信息”的属性节点。在一些示例中,知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中,知识本体460可诸如通过添加或移除整个域或节点,或者通过修改知识本体460内的节点之间的关系来进行修改。在一些示例中,知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是所谓的与节点相关联的“词汇”。可将与每个节点相关联的相应组的字词和/或短语存储在与由节点所表示的属性或可执行意图相关联的词汇索引444中。例如,返回图4C,与“演员”属性的节点相关联的词汇可包括诸如“一线明星”、“ReeseWitherspoon”、“ArnoldSchwarzenegger”、“BradPitt”等字词。又如,与“天气搜索”可执行意图的节点相关联的词汇可包括诸如“天气”、“天气怎么样”、“预报”等字词和短语。词汇索引444可任选地包括不同语言的字词和短语。自然语言处理模块432可从STT处理模块430接收符号序列(例如,文本字符串),并确定符号序列中的字词牵涉哪些节点。在一些示例中,如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联,则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,可选择具有最多“已触发”节点的域。在一些示例中,可选择具有最高置信度值(例如,基于其各个已触发节点的相对重要性)的域。在一些示例中,可基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。用户数据448可包括特定于用户的信息,诸如特定于用户的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块432可使用特定于用户的信息来补充用户输入中所包含的信息,以进一步限定用户意图。例如,对于用户请求“这星期天气如何”,自然语言处理模块432可以访问用户数据448以确定用户在哪里,而不是要求用户在其请求中明确提供此类信息。基于符号字符串搜索知识本体的其他细节在2008年12月22日提交的名称为“MethodandApparatusforSearchingUsingAnActiveOntology”的美国实用新型专利申请12/341,743中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,一旦自然语言处理模块432基于用户请求而识别出可执行意图(或域),自然语言处理模块432便可生成结构化查询,以表示所识别的可执行意图。在一些示例中,结构化查询可包括针对可执行意图的域内的一个或多个节点的参数,并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户可以说“为我查找这部电视连续剧的其他季。”在这种情况下,自然语言处理模块432可基于用户输入将可执行意图正确地识别为“媒体搜索”。根据知识本体,“媒体”域的结构化查询可包括参数诸如{媒体演员}、{媒体流派}和{媒体标题}等。在一些示例中,基于语音输入和使用STT处理模块430从语音输入得出的文本,自然语言处理模块432可针对餐厅预订域生成部分结构化查询,其中部分结构化查询包括参数{媒体流派=“电视剧”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用的信息,在结构化查询中可能未指定其他必要的参数,诸如{媒体标题}。在一些示例中,自然语言处理模块432可利用所接收的上下文信息来填充结构化查询的一些参数。例如,媒体设备上可能当前正在播放电视剧“MadMen”。基于这一上下文信息,自然语言处理模块432可以在带有“MadMen”的结构化查询中填充{媒体标题}参数。在一些示例中,自然语言处理模块432可将所生成的结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为接收来自自然语言处理模块432的结构化查询,(必要时)完成结构化查询,并且执行“完成”用户最终请求所需的动作。在一些示例中,完成这些任务所必需的各种过程可在任务流模型454中提供。在一些示例中,任务流模型454可包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。如上所述,为了完成结构化查询,任务流处理模块436可能需要发起与用户的附加对话,以便获得附加信息和/或弄清可能有歧义的话语。当有必要进行此类交互时,任务流处理模块436可调用对话流处理模块434以参与同用户的对话。在一些示例中,对话流处理模块434可确定如何(和/或何时)向用户请求附加信息,并且可接收和处理用户响应。该问题可通过I/O处理模块428提供至用户并可通过I/O处理模块428从用户接收回答。在一些示例中,对话处理模块434可经由音频和/或视觉输出来向用户呈现对话输出,并可接收经由口头或物理(例如,点击)响应的来自用户的输入。例如,用户可以问道“巴黎天气怎么样?”当任务流处理模块436调用对话流处理模块434来确定针对与域“天气搜索”相关联的结构化查询的“位置”信息时,对话流处理模块434可生成诸如“哪个巴黎?”的问题以传递给用户。此外,对话流处理模块434可以导致呈现与“德克萨斯巴黎”和“法国巴黎”相关联的示能表示供用户选择。一旦从用户接收到回答,对话流处理模块434便可利用缺失信息填充结构化查询,或将信息传递给任务流处理模块436以根据结构化查询来完成缺失信息。一旦任务流处理模块436已针对可执行意图完成结构化查询,任务流处理模块436便可着手执行与可执行意图相关联的最终任务。因此,任务流处理模块436可根据包含在结构化查询中的特定参数来执行任务流模型454中的步骤和指令。例如,用于可执行意图“媒体搜索”的任务流模型可以包括用于执行媒体搜索查询以获得相关媒体项的步骤和指令。例如,使用结构化查询,诸如:{mediasearch,mediagenre=TVseries,mediatitle=MadMen},任务流处理模块436可以执行如下步骤:(1)使用媒体数据库执行媒体搜索查询以获得相关媒体项,(2)根据相关度和/或流行度对所获得的媒体项排序,以及(3)显示根据相关度和/或流行度排序的媒体项。在一些示例中,任务流处理模块436可在服务处理模块438(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处理模块438可代表任务流处理模块436来行动以执行媒体搜索、检索天气信息、调用其他用户设备上安装的应用或与该其他应用进行交互、以及调用第三方服务(例如,社交网站、媒体查看网站、媒体订阅服务等)或与第三方服务进行交互。在一些示例中,可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型,并依据服务模型根据该服务所需的协议和API来生成针对该服务的请求。例如,第三方媒体搜索服务可提交服务模型,该服务模型指定进行媒体搜索的必要参数和用于将必要参数的值传送至媒体服务的API。在被任务流处理模块436请求时,服务处理模块438可以与媒体搜索服务建立网络连接并以根据媒体搜索服务的API的格式向在线预订界面发送必要的媒体搜索参数(例如,媒体演员、媒体流派、媒体标题)。在一些示例中,自然语言处理模块432、对话处理模块434以及任务流处理模块436可被共同且反复地使用,以推断并限定用户的意图、获得信息,以进一步明确并细化用户意图并最终生成响应(即,输出至用户或完成任务)以满足用户的意图。所生成的响应可以是对语音输入的至少部分地满足用户的意图的对话响应。此外,在一些示例中,所生成的响应可被输出为语音输出。在这些示例中,所生成的响应可被发送到语音合成模块440(例如,语音合成器),在语音合成模块中,可处理所生成的响应以将对话响应以语音形式合成。在其他示例中,所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。语音合成模块440可被配置为合成语音输出以呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应可为文本字符串的形式。语音合成模块440可将文本字符串转换成可听语音输出。语音合成模块440可使用任何合适的语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单位选择合成、双音素合成、特定于域的合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成,以及正弦波合成。在一些示例中,语音合成模块440可被配置为基于与这些字词对应的音素字符串来合成各个字词。例如,音素字符串可与所生成的对话响应中的字词相关联。音素字符串可被存储在与字词相关联的元数据中。语音合成模型440可被配置为直接处理元数据中的音素字符串,以合成语音形式的字词。在一些示例中,替代使用语音合成模块440(或除此之外),可在远程设备(例如,服务器系统108)上执行语音合成,并且可将合成的语音发送至用户设备以输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,有可能获得比客户端侧合成将实现的质量更高的语音输出。有关数字助理的附加细节可在2011年1月10日提交的名称为“IntelligentAutomatedAssistant”的美国实用新型专利申请12/987,982和2011年9月30日提交的名称为“GeneratingandProcessingTaskItemsThatRepresentTaskstoPerform”的美国实用新型专利申请13/251,088中找到,其全部公开内容以引用方式并入本文。4.用于在媒体环境中操作数字助理的过程图5A-图5E示出了根据各种示例用于操作媒体系统的数字助理的过程500。可使用实施数字助理的一个或多个电子设备来执行过程500。例如,可以使用上文描述的系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一个或多个来执行过程500。图6A-图6K示出了根据各种示例在过程500的各个阶段在显示单元上由媒体设备显示的屏幕截图。下文同时参考图5A-图5E和图6A-图6K描述过程500。应当理解,过程500中的一些操作可以被组合,一些操作的次序可以被改变,并且一些操作可以被省略。在过程500的框502处,参考图6A,可以在显示单元上显示媒体项的主要集合604。每个媒体项可以对应于特定媒体内容(例如,电影、视频、电视节目/连续剧、视频游戏等)。可以响应于先前接收的媒体搜索请求显示媒体项的主要集合604。在一些示例中,先前接收的媒体搜索请求可以是与数字助理进行的口头交互。在其他示例中,先前接收的媒体搜索请求可以是经由媒体设备的键盘接口接收的与数字助理的文本交互。可以通过根据先前接收的媒体搜索请求执行主要媒体搜索查询来获得媒体项的主要集合604。在一些示例中,主要媒体搜索查询可以是基于先前接收的媒体搜索请求中定义的一个或多个参数值的结构化搜索。在这些示例中,媒体项主要集合604的每个媒体项可以包括匹配先前接收的媒体搜索请求中定义的一个或多个参数值的一个或多个参数值。在其他示例中,主要媒体搜索查询可以是基于先前接收的媒体搜索请求的文本输入字符串的字符串搜索。在这些示例中,媒体项主要集合604的每个媒体项可以与匹配先前接收的媒体搜索请求的文本输入字符串的文本相关联。媒体项604可以共享对应于先前接收的媒体搜索请求的公共属性或参数值。在图6A所示的本示例中,先前接收的媒体搜索请求可以是对最近10年来动作电影的请求。可以获得媒体项的主要集合604以满足先前接收的媒体搜索请求。在该示例中,媒体项的主要集合604可以包括最近10年发行的动作电影,诸如“TheAmazingSpiderMan2”、“Furious7”和“IronMan3”。可以与媒体项主要集合612相关联地显示描述对应于先前接收的媒体搜索请求的属性或参数值的文本612。如图6A所示,可以经由用户界面602显示媒体项的主要集合604。用户界面602可以被配置为使得用户能够在用户界面602中通过媒体项导航,并选择特定媒体项消费。在一些示例中,可以在用户界面602中与媒体项主要集合604一起显示媒体项的一个或多个辅助集合606。应当认识到,可以不始终显示媒体项的辅助集合。在一些示例中,用户界面602可以占据显示单元显示区域的至少大部分。在其他示例中,显示单元可以在显示用户界面602时显示正在媒体设备上播放的媒体内容(未示出)。在这些示例中,显示单元上由用户界面602占据的显示区域可以比显示单元上由媒体内容占据的显示区域小。此外,在这些示例中,用户界面602可以不包括媒体项的辅助集合606。具体地讲,仅有经由用户界面602显示的媒体项可以是媒体项主要集合604。媒体项主要集合604和媒体项辅助集合606的每个显示的媒体项都可以与诸如媒体类型、媒体标题、演员、媒体角色、导演、媒体发布日期、媒体档期、媒体质量评级、媒体流行度评级等参数的参数值相关联。在一些示例中,可以经由用户界面602将每个媒体项的一个或多个参数值显示为相应媒体项上的文本或与相应媒体项相邻的文本。在本示例中,媒体项的一个或多个辅助集合606可以基于媒体项的主要集合604。具体地讲,媒体项的一个或多个辅助集合606能够与媒体项的主要集合604共享共同的属性或参数值。如图6A所示,媒体项的辅助集合608可以是动作电影,媒体项的辅助集合610可以是国外动作电影。因此,在该示例中,媒体项主要集合604和媒体项辅助集合606都可以与动作电影媒体流派相关。应当认识到,在其他示例中,媒体项的辅助集合606能够基于从其他信息导出的参数值,其他信息诸如是先前的媒体搜索请求或流行趋势媒体项和类别。在过程500的框504处,可以检测用户输入。在框502处显示媒体项的主要集合604时,可以检测用户输入。在一些示例中,可以在媒体设备的遥控器(例如,遥控器124)上检测用户输入。具体地讲,用户输入可以是用户与遥控器的交互,诸如按压按钮(例如,按钮274)或接触遥控器的触敏表面(例如,触敏表面278)。在一些示例中,可以经由被配置为与媒体设备交互的第二电子设备(例如,设备122)来检测用户输入。用户输入可以与调用媒体设备的数字助理相关联。响应于检测到用户输入,可以执行框506-510中的一个或多个。在过程500的框506中,可以接收音频输入。该音频输入可以包含媒体相关的请求。例如,响应于在框504处检测到用户输入,可以经由媒体设备的麦克风(例如,麦克风272)对音频输入采样。采样的音频输入可以包括用户话语形式的媒体相关请求。在一些示例中,可以在显示媒体项主要集合604的至少一部分时接收包含媒体相关请求的音频输入。该媒体相关请求可以是自然语言形式。在一些示例中,该媒体相关请求可能指定不足,其中未明确定义满足请求所需的所有信息。例如,该媒体相关请求可以是:“JackRyan”。在该示例中,该请求未明确指定其是对拥有角色JackRyan的电影的新媒体搜索请求还是基于角色JackRyan过滤当前显示的媒体项的请求。在一些示例中,媒体相关的请求可包括一个或多个含糊的术语。例如,该媒体相关请求可以是:“有哪些好看的媒体项?”在该示例中,该媒体相关请求包括含糊术语“媒体项”,意在指代显示的媒体项(例如,媒体项主要集合604和/或媒体项辅助集合606)。此外,在该示例中,该媒体相关请求使用含糊术语(例如,“好看”)定义媒体项的参数值(例如,用户评级或评论评级)。该媒体相关请求可以定义与媒体项相关联的一个或多个参数值。可以在媒体相关请求中定义的参数值的示例包括媒体类型、媒体标题、演员、媒体角色、媒体导演、媒体发布日期、媒体档期、媒体质量评级、媒体流行度评级等。在一些示例中,媒体相关请求可以是媒体搜索请求。在一些示例中,媒体相关请求可以是校正主要媒体搜索查询的请求。在其他示例中,该媒体相关请求可以是通过用户界面602上显示的媒体项导航的请求。在其他示例中,该媒体相关请求可以是调节媒体设备应用的状态或设置的请求。尽管在本示例中,该媒体相关请求是以音频输入的形式接收的,但应当理解,在其他示例中,该媒体相关请求可以被接收为文本输入。具体地讲,替代音频输入,可以经由键盘接口在框506处接收包含媒体相关请求的文本输入。应当认识到,在媒体相关请求被接收为文本输入的示例中不需要执行框508。相反,可以在框510处直接从文本输入确定主要用户意图。在过程500的框508处,可以确定媒体相关请求的文本表示。例如,可以通过对在框506处接收的音频输入执行语音转文本(STT)处理来确定文本表示。具体地讲,可以使用STT处理模块(例如,STT处理模块430)处理音频输入以将音频输入形式的媒体相关请求转换成文本表示。该文本表示可以是表示对应文本字符串的符号字符串。在一些示例中,可以在显示单元上显示文本表示。具体地讲,可以在框506处接收音频输入时,实时地显示文本表示。在STT处理期间可以使用一个或多个语言模型以确定该文本表示。在一些示例中,STT处理可能偏向媒体相关的文本结果。具体地讲,用于确定文本表示的一个或多个语言模型可以偏向媒体相关的文本结果。例如,可以使用媒体相关文本的语料库训练一种或多种语言模型。除此之外或另选地,该偏置可以通过对与媒体相关的候选文本结果施以更重加权来实现。通过这种方式,与媒体相关的候选文本结果在带偏置的情况下可以比没有偏置的情况排序更高。该偏置可能对于提高媒体相关请求中媒体相关字词或短语(例如,电影名、电影演员等)的STT处理精确度是需要的。例如,在典型的文本语料库中可能不常发现特定媒体相关字词或短语,诸如“JurassicPark”、“ArnoldSchwarzenegger”和“Shrek”,从而在未偏向媒体相关文本结果的STT处理期间可能不会得到成功识别。如上所述,可以经由用户界面602显示与在框502显示的媒体项(例如,媒体项主要集合604和媒体项辅助集合606)相关联的文本。该文本描述用户界面602中每个媒体项的一个或多个属性或参数值。例如,媒体项主要集合604可以包括对应于电影“IronMan3”的媒体项。在该示例中,显示的文本可以包括标题“IronMan3”、演员“RobertDowneyJr”和“GwynethPaltrow”,以及导演“ShaneBlack”。在一些示例中,可以使用与所显示媒体项相关联的所显示文本生成定制语言模型。然后可以使用定制语言模型执行STT处理以确定文本表示。具体地讲,在确定文本表示时,与来自其他语言模型的候选文本结果相比,可以为来自定制语言模型的候选文本结果赋予更大权重。应当认识到,在一些示例中,并非在显示单元上将与媒体项主要集合604和媒体项辅助集合606相关联的所有属性或参数值显示为文本。在这些示例中,显示单元上未显示的媒体项主要集合604和媒体项辅助集合606的属性或参数值的文本也可以用于生成定制语言模型。在一些示例中,可以使用文本表示确定预测的文本。例如,可以使用语言模型基于文本表示中字词的顺序预测一个或多个后续字词。可以在接收音频输入时确定预测文本。此外,可以在显示单元上与文本表示一起显示预测文本。具体地讲,可以在框506处接收音频输入时,实时地显示预测文本。用户可以基于检测音频输入的结束点而接受预测文本。在一些示例中,一旦不再检测到框504处的用户输入,就可以检测到结束点。在其他示例中,可以在音频输入的一个或多个音频特性不再满足预先确定的标准之后预先确定的持续时间,检测结束点。在显示预测文本之后可以确定是否检测到音频输入的结束点。根据确定在显示预测文本之后检测到音频输入结束点,可以确定由用户接受预测文本。具体地讲,可以使用该文本表示和接受的预测文本在框510处确定主要用户意图。在一些示例中,用于确定文本表示的一个或多个语言模型可以被配置为识别多种语言中的媒体相关术语。具体地讲,媒体相关术语(例如,媒体标题、演员姓名等)可以在不同语言间具有唯一的翻译。例如,演员“ArnoldSchwarzenegger”对应于中文的“阿诺德施瓦辛格”和印度文的。可以使用各种语言中与媒体相关文本的语料库训练用于确定文本表示的一个或多个语言模型。因此,该一个或多个语言模型可以被配置为识别各种语言中媒体相关术语的对应翻译。在过程500的框510处,可以确定对应于媒体相关请求的主要用户意图。可以通过对本文表示执行自然语言处理来确定主要用户意图。具体地讲,可以使用自然语言处理模块(例如,自然语言处理模块432)对文本表示进行语法分析和处理,以确定对应于媒体相关请求的多个候选用户意图。可以根据概率对候选用户意图进行排序,可以确定具有最高概率的候选用户意图为主要用户意图。确定主要用户意图可以包括确定与文本表示相关联的相关域或可执行意图。在一些示例中,可以在框510处确定与媒体相关请求相关联的媒体类型,并且可以基于与媒体相关请求相关联的所确定媒体类型确定相关域或可执行意图。例如,基于媒体相关请求“JamesBond”,可以确定媒体类型为“电影/电视节目”,并可以确定对应的可执行意图或域为“查找电影/电视节目”。在该示例中,可以通过根据媒体类型“电影/电视节目”针对“JamesBond”进行媒体搜索,来满足媒体相关请求。具体地讲,可以在电影和电视节目数据库中搜索媒体角色“JamesBond”以满足媒体相关请求。在另一个示例中,基于媒体相关请求“TaylorSwift”,可以确定媒体类型为“音乐”,并可以确定对应的可执行意图或域为“查找音乐”。在该示例中,可以通过在音乐数据库中搜索歌手“TaylorSwift”(例如,对iTunes音乐服务进行搜索)来满足媒体相关请求。在一些示例中,用于确定主要用户意图的自然语言处理可以偏向媒体相关的用户意图。具体地讲,可以训练自然语言处理模块以在知识本体中识别触发媒体相关节点的媒体相关字词和短语(例如,媒体标题、媒体流派、演员、MPAA电影评级标签等)。例如,自然语言处理模块可以将文本表示中的短语“JurassicPark”识别为电影标题,结果,触发知识本体中与搜索媒体项的可执行意图相关联的“媒体搜索”节点。在一些示例中,可以通过将知识本体中的节点约束到媒体相关节点的预先确定集合来实现偏置。例如,媒体相关节点的集合可以是与媒体设备的应用相关联的节点。此外,在一些示例中,可以通过对媒体相关的候选用户意图比并非媒体相关的候选用户意图进行更重的加权来实现偏置。在一些示例中,可以从独立设备(例如,DA服务器106)获得主要用户意图。具体地讲,可以向独立设备传输音频数据以执行自然语言处理。在这些示例中,媒体设备可以向独立设备指示(例如,经由与采样的音频数据一起向独立设备传输的数据)采样的音频数据与媒体应用相关联。该指示可以向媒体相关用户意图偏置自然语言处理。可以进一步训练自然语言处理模块以在各种语言和地区中识别媒体相关术语的语意。例如,自然语言处理模块可以识别出“ArnoldSchwarzenegger”、“阿诺德施瓦辛格”和全部是指同一位演员。此外,电影标题可能在不同语言和地区之间变化。例如,美国的电影“LiveFreeorDieHard”在英国标题为“DieHard4.0”。在另一个示例中,美国的电影“TopGun”在以色列标题为“LoveintheSkies”。因此,自然语言处理模块可以被配置为识别出英语中的“TopGun”和希伯来语中的“LoveintheSkies”都指同一部电影。在一些示例中,自然语言处理模块可以被配置为基于媒体相关请求中的含糊术语识别预期的参数值。具体地讲,该自然语言处理模块可以确定含糊术语和一个或多个参数值之间的连接强度(例如,相关性、特色、语意相似性等)。可以确定与含糊术语具有最强连接的参数值为预期参数值。例如,该媒体相关请求可以是:“为我展示好看的那些。”术语“好看”可能是含糊的,因为其未明确定义特定参数值。在该示例中,基于和术语“好看”的连接强度,该自然语言处理模块可以确定“好看”是指大于预先确定值的平均用户评级的参数值。在一些示例中,可以在确定主要用户意图之前确定初步用户意图。初步用户意图可以包括使用在框506处接收的音频输入的一部分(但不是整个音频输入)确定可执行意图或域。用于确定初步用户意图的过程可能不那么强健,从而比确定主要用户意图更快。这样能够在仍在接收音频输入时确定初步用户意图。确定初步用户意图能够预先获取满足媒体相关请求所需的数据,由此减少数字助理的响应时间。例如,该媒体相关请求可以是:“下午7点演什么?”。基于这一请求的第一部分,“演什么”,可以确定初步用户意图是“搜索频道节目。”基于这一初步用户意图,可以识别满足这一初步用户意图所需的数据。具体地讲,可以确定会需要用户的订阅信息来确定用户可用的频道。然后可以确定对应于那些频道的节目安排。数字助理一开始可以确定所需数据是否已经存储于媒体系统或数字助理服务器上。根据确定在确定初步用户意图时该数据存储于媒体系统或数字助理服务器上,可以在确定主要用户意图时检索该数据。根据确定在确定初步用户意图时该数据未存储于媒体系统或数字助理上,可以在确定主要用户意图时获得所需数据。例如,该数字助理可以无需用户干预,自动与用户的订阅服务提供方通信并检索用户可用的频道。如图5A所示,过程500的框510可以包括框512-518中的一个或多个。在过程500的框512处,可以确定主要用户意图是否包括缩小对应于媒体项主要集合604的主要媒体搜索查询范围的用户意图。换句话讲,可以在框510处确定框506的媒体相关请求是否是缩小先前接收的媒体搜索请求范围的请求。在一些示例中,确定主要用户意图是否包括缩小主要媒体搜索查询范围的用户意图可以包括确定媒体相关请求是否包括对应于缩小主要媒体搜索查询范围的用户意图的预先确定的字词或短语。该预先确定的字词或短语可以包括多个细化术语中的一个。例如,该预先确定的字词或短语可以指示明确的请求,以缩小在媒体搜索请求之前接收的先前媒体搜索请求的范围。此外,在一些示例中,可以基于预先确定的字词或短语在媒体相关请求中的位置(例如,在媒体相关请求的开头、中间或结尾)做出该确定。在图6B-图6C所示的示例中,该媒体相关请求可以是:“仅JackRyan出演的那些。”可以在自然语言处理期间对对应于这一媒体相关请求的文本表示612进行语法分析,以确定该媒体相关请求是否包括对应于用户意图的预先确定的字词或短语,以缩小主要媒体搜索查询范围。对应于缩小主要媒体搜索查询范围的用户意图的预先确定的字词或短语的示例可以包括“仅有”、“仅仅”、“由……过滤”、“哪些”等。在该示例中,基于位于媒体相关请求开头的预先确定的字词“仅有”,可以确定主要用户意图包括缩小对应于媒体项主要集合604的主要媒体搜索查询范围的用户意图。具体地讲,可以确定主要用户意图是缩小对最近10年发布的动作电影的搜索范围,以仅包括有JackRyan角色的媒体项。应当认识到,可以实施其他技术以确定主要用户意图是否包括缩小对应于媒体项主要集合604的主要媒体搜索查询范围的用户意图。此外,应当认识到,主要用户意图可以基于对应于在框506的媒体搜索请求之前接收的一个或多个先前媒体搜索请求的一个或多个先前用户意图。根据确定主要用户意图包括缩小对应于媒体项主要集合604的主要媒体搜索查询范围的用户意图,可以执行框520-534中的一个或多个。在过程500的框520处,可以获得第二媒体项主要集合612以满足主要用户意图。框520可以包括生成对应于主要用户意图的第二主要媒体搜索查询。第二主要媒体搜索查询可以基于媒体相关请求(例如,“仅JackRyan出演的那些”)和主要媒体搜索查询(例如,“近10年的动作电影”)。具体地讲,第二主要媒体搜索查询可以包括一组参数值。该组参数值可以包括在媒体相关请求中定义的一个或多个参数值以及主要媒体搜索查询的一个或多个参数值。例如,第二主要媒体搜索查询可以是搜索具有媒体类型“电影”、媒体流派“动作”、发布日期“最近10年”和媒体角色“JackRyan”的媒体项的查询。另选地,第二主要媒体搜索查询可以是过滤媒体项主要集合604并仅识别具有媒体角色“JackRyan”的媒体项集合604内的媒体项的查询。可以由自然语言处理模块(例如,自然语言处理模块432)基于主要用户意图生成第二主要媒体搜索查询。框520还可以包括执行第二主要媒体搜索查询以获得第二媒体项主要集合612。可以通过在一个或多个媒体数据库中搜索满足第二主要媒体搜索查询的参数值要求的媒体项来执行第二主要媒体搜索查询。第二媒体项主要集合中的每个媒体项可以与一组参数值相关联。该组参数值可以包括主要媒体搜索查询中的一个或多个参数值以及在框506的媒体相关请求中定义的一个或多个参数值。此外,第二媒体项主要集合612中的每个媒体项可以与相关度分数相关联。相关度分数可以指示媒体项满足主要用户意图的可能性。例如,更高的相关度分数可以指示媒体项满足主要用户意图的更高可能性。第二主要媒体搜索查询可以由任务流处理模块(例如,任务流处理模块436)执行。在通过基于先前接收的媒体搜索请求(例如,经由键盘接口接收)执行字符串搜索获得媒体项主要集合604的示例中,可以通过在媒体项主要集合604中搜索满足媒体相关请求中定义的参数值要求(例如,“JackRyan”)的媒体项来执行第二主要媒体搜索查询。具体地讲,可以首先获得与媒体项主要集合604相关联的参数值。然后可以通过使用所获得的参数值执行结构化搜索并基于媒体相关请求中定义的参数值来获得第二媒体项主要集合612。在过程500的框522处,可以经由用户界面602在显示单元上显示第二媒体项主要集合612。具体地讲,如图6C所示,可以用第二媒体项主要集合612的显示替换显示单元上媒体项主要集合604的显示。可以根据与每个媒体项相关联的相关度分数显示第二媒体项主要集合612。例如,参考图6C,可以按照相关度分数降序在用户界面602上从左到右布置第二媒体项主要集合612。在过程500的框524处,可以获得媒体项的附加集合。可以获得媒体项的附加集合以提供可能与主要用户意图相关的用户另选的选项。如图5B所示,框524可以包括框526-532。在过程500的框526处,可以识别与第二媒体项主要集合612相关联的参数值的核心集合。可以从第二主要媒体搜索查询中的参数值集合识别参数值的核心集合。具体地讲,可以识别并忽视参数值集合中的不突出参数值。可以将忽视不突出参数值之后参数值集合中的剩余参数值识别为参数值的核心集合。不突出参数值可以是预先确定的参数值,例如,媒体发布日期范围、媒体类型、媒体提供方、媒体质量评级、免费或付费媒体、实况或点播媒体等。参数值的核心集合可以比参数值集合具有更少的参数值。在图6C的示例中,第二主要媒体搜索查询中的参数值集合包括参数值“动作电影”、“最近10年”和“JackRyan”。在该示例中,可以将参数值“最近10年”识别为不突出参数值(例如,媒体发布日期范围)并移除。因此,可以将剩余参数值“动作电影”和“JackRyan”识别为参数值的核心集合。在过程500的框528处,可以识别一个或多个附加的参数值。可以基于可能反映用户媒体消费兴趣的信息识别一个或多个附加参数值。例如,可以基于用户的媒体选择历史、用户的媒体搜索历史或用户观看列表中的媒体项识别一个或多个附加的参数值。除此之外或另选地,可以基于多个用户的媒体选择历史识别一个或多个附加的参数值,媒体选择历史可以指示媒体设备用户中当前最流行的媒体项的参数值。在一些示例中,识别一个或多个附加的参数值的方法可以类似于框560处描述的确定其他相关参数值的方法。返回到图6C的示例,可确定BenAffleck主演的动作电影在媒体设备用户中流行。此外,可以确定用户最近搜索或选择过BenAffleck主演的电影。因此,在该示例中,可以将“BenAffleck”识别为一个或多个附加参数值的参数值。在过程500的框530处,可以生成一个或多个附加的媒体搜索查询。附加的媒体搜索查询可以基于在框526处识别的参数值核心集合。此外,附加的媒体搜索查询可以基于在框528处识别的一个或多个附加的参数值。例如,在图6C中,一个或多个附加的媒体搜索查询可以包括对JackRyan出演的动作电影的搜索(参数值的核心集合)以及对BenAffleck主演的动作电影的搜索(在框528识别的附加参数值)。可以由自然语言处理模块(例如,自然语言处理模块432)执行框526-530。具体地讲,自然语言处理模块可以(在框526处)识别参数值的核心集合和(在框528处)一个或多个附加的媒体搜索查询,以确定一个或多个附加用户意图。自然语言处理模块然后可以基于一个或多个附加的用户意图生成一个或多个附加的媒体搜索查询(例如,上文参考图4B所述的结构化查询)。在过程500的框532处,可以执行框530的一个或多个附加的媒体搜索查询。例如,可以通过在一个或多个媒体数据库中搜索满足附加媒体搜索查询的媒体项来执行一个或多个附加的媒体搜索查询。使用的媒体数据库可以基于搜索的媒体类型。例如,可以将音乐数据库用于涉及音乐的媒体搜索查询并可以将电影/电视节目数据库用于涉及音乐/电视节目的媒体搜索查询。因此可以从执行框530的一个或多个附加媒体搜索查询而获得一个或多个媒体项附加集合614。具体地讲,在图6C中,可以从搜索JackRyan出演的动作电影获得媒体项附加集合616(例如,电影“PatriotGames”、“ClearandPresentDanger”等)并可以从搜索BenAffleck主演的动作电影获得媒体项附加集合618(例如,电影“TheSumofAllFears”、“Daredevil”等)。可以由任务流处理模块(例如,任务流处理模块436)执行框532。应当认识到,上述框524的特定方面可以类似适用于框546或562。在过程500的框534处,可以在显示单元上显示一个或多个媒体项附加集合。例如,如图6C所示,可以经由用户界面602显示媒体项附加集合616和618。媒体项附加集合616和618能够用于为用户提供用户可能感兴趣的附加选项。这可能是提高用户将查找并选择媒体项进行消费而无需请求另一搜索可能性所希望的,这可以减少浏览时间并改善用户体验。显示媒体项集合的方式可以反映相应用户意图对应于用户实际意图的可能性。例如,如图6C所示,第二媒体项主要集合与主要用户意图相关联(最可能反映实际用户意图的用户意图)并显示于用户界面602的顶行。一个或多个媒体项附加集合616和618与附加用户意图相关联(较不可能反映实际用户意图的用户意图)并显示于用户界面602中顶行下方一个或多个后续行中。此外,与媒体项附加集合616相关联的附加用户意图可能比与媒体项附加集合618相关联的附加用户意图更可能反映实际用户意图。因此,在该示例中,可以在媒体项附加集合616下方的行中显示媒体项附加集合618。尽管在本示例中,成行显示媒体项的集合,但应当认识到在其他示例中,可以实施其他显示配置。向回参考框512,根据确定主要用户意图不包括缩小主要媒体搜索查询范围的用户意图,可以执行框514-518或536-548中的一个或多个。在过程500的框514处,可以确定主要用户意图是否包括执行新媒体搜索查询的用户意图。在一些示例中,可以基于媒体相关请求中的明确字词或短语做出该确定。具体地讲,可以确定该媒体相关请求是否包括对应于执行新媒体搜索查询的用户意图的字词或短语。该字词或短语可以是预先确定的字词,诸如“为我展示”、“查找”、“搜索”、“其他有……的电影”等。此外,在一些示例中,可以基于该字词或短语在媒体相关请求中的位置(例如,媒体相关请求的开头、中间或结尾)做出该确定。在具体示例中,该媒体相关请求可以是:“为我展示一些JackRyan的电影。”基于这一媒体相关请求的开头处的字词“为我展示”,可以确定主要用户意图是针对JackRyan出演的电影执行新媒体搜索查询。在没有指示用户意图的明示字词或短语(例如,“为我展示”、“查找”、“搜索”等)时,框514处的确定可以基于对应于一个或多个媒体项的参数值的字词或短语。例如,如图6D所示,该媒体相关请求可以是:“JackRyan”。在该示例中,媒体相关请求不包括用户意图是否是缩小主要媒体搜索查询范围或执行新搜索的任何明示指示。然而,该数字助理可以识别出“JackRyan”对应于一个或多个媒体项的参数值。具体地讲,它可以确定“JackRyan”是与若干电子书和电影相关联的媒体角色。基于这些参数值,可以确定主要用户意图是执行针对拥有角色JackRyan的电子书和电影的新媒体搜索查询。对应于一个或多个媒体项的参数值的字词或短语的其他示例可以包括“TomCruise”、“JurassicPark”、“Spymovies”、“SeanConnery”、“Cartoons”、“Frozen”等。根据确定主要用户意图包括执行新媒体搜索查询的用户意图,可以执行框536-548中的一个或多个。在过程500的框536处,可以根据主要用户意图获得第三媒体项主要集合。框536可以类似于框520。具体地讲,框536可以包括基于媒体相关请求生成第三主要媒体搜索查询。第三主要媒体搜索查询可以对应于执行新媒体搜索查询的主要用户意图。具体地讲,第二主要媒体搜索查询可以包括媒体相关请求中定义的一个或多个参数值。例如,参考图6D,生成的第三主要媒体搜索查询可以是搜索具有媒体角色“JackRyan”的媒体项的查询。框536还可以包括执行第三主要媒体搜索查询以获得第三媒体项主要集合620。可以通过在一个或多个媒体数据库中搜索满足第三主要媒体搜索查询的参数值要求的媒体项来执行第三主要媒体搜索查询。第三媒体项主要集合620中的每个媒体项可以包括媒体相关请求中定义的一个或多个参数值。具体地讲,在本示例中,第三媒体项主要集合620中的每个媒体项可以包括“JackRyan”作为媒体角色。在一些示例中,可以根据与媒体相关请求相关联的媒体类型执行第三主要媒体搜索查询。如上所述,可以在确定主要用户意图时,在框510处确定与媒体相关请求相关联的媒体类型。用于执行第三主要媒体搜索查询的应用或数据库可以是所确定的媒体类型特有的。在一个示例中,如果确定该媒体类型为音乐,可以使用音乐搜索应用和/或音乐数据库(例如,iTunes商店应用)执行第三主要媒体搜索查询,如果不是音乐,例如,则使用电影数据库。在一些示例中,该媒体相关请求可以与多于一种媒体类型相关联。例如,媒体相关请求“Frozen”可以与几种媒体类型相关联,诸如电影/电视节目、音乐(例如,音轨)和电子书。在执行第三主要媒体搜索查询时,可以从一个或多个媒体数据库获得与各种媒体类型相关联的多个媒体项。每个媒体项可以与相关度分数相关联。相关度分数可以指示相应媒体项相对于第三主要媒体搜索查询有多相关。此外,相关度分数可以是获得候选媒体项所自的媒体数据库特有的。在一些示例中,为了基于相同标准对比来自不同数据库的媒体项,可以对多个候选媒体项进行归一化排序。具体地讲,可以在一个或多个媒体数据库间对相关度分数进行归一化,并可以使用归一化的相关度分数对候选媒体项进行归一化排序。例如,可以使用通用媒体搜索应用或数据库(例如,AppleOSX或iOS的spotlight)执行第三主要媒体搜索查询。通用媒体搜索应用或数据库可以是数字助理外部的服务。使用通用媒体搜索应用或数据库,可以从各种源或数据库(例如,iTunes商店、App商店、iBooks、存储于用户设备上的媒体项等)获得相关媒体项,并可以基于归一化相关度分数对相关媒体项排序。可以根据框540处的归一化排序对媒体项进行排序并显示以供用户选择。用于获得第三媒体项主要集合的一个或多个数据库可以包括从各种源导出的信息。在一些示例中,一个或多个数据库可以包括来自一个或多个媒体评论的信息。媒体评论可以由例如专业媒体评论、记者、博客作者、社交媒体服务用户等创作。在例示性示例中,一个或多个媒体评论可以包括诸如“追车”的短语,以描述诸如“Bullitt”、“TheBourneIdentity”或“FastFive”的电影。可以从一个或多个媒体评论提取短语“追车”作为参数值,这个参数值可以与媒体数据库中这些电影中的一个或多个相关联。因此,对于媒体相关请求“为我展示追车好看的电影”,生成的对应第三主要媒体搜索查询可以是针对具有参数值“追车”的电影的搜索。在搜索一个或多个数据库时,可以因此获得候选媒体项,诸如“Bullitt”、“TheBourneIdentity”或“FastFive”。在其他示例中,一个或多个数据库可以包括从各种电影、视频或电视节目的隐藏字幕导出的信息。具体地讲,可以基于隐藏字幕提取一个或多个参数值。例如,诸如“Bullitt”、“TheBourneIdentity”或“FastFive”的电影的隐藏字幕可以包括说明文字“[轮胎锐响]”的几个实例以指示与追车相关联的声音。基于这一文字说明,这些电影的一个或多个可以与媒体数据库中的参数值“追车”相关联。因此,在执行第三主要媒体搜索查询时,可以识别与这一参数值相关联的候选媒体项(例如,“Bullitt”、“TheBourneIdentity”、“FastFive”等)。在一些示例中,媒体相关请求可以是基于用户界面602所聚焦的媒体项的媒体搜索请求。例如,在框506处接收该媒体相关请求时,用户界面602的光标609可以位于媒体项611上。可以确定媒体相关请求是否是获得类似于媒体项611的媒体项另选的集合的请求。在一个示例中,该媒体相关请求可以是:“更像这个。”在该示例中,可以基于光标609位置的上下文确定“这个”是指媒体项611。因此,可以确定该媒体相关请求是获得类似于媒体项611的媒体项另选的集合的请求。响应于确定该媒体相关请求是获得类似于媒体项611的媒体项另选的集合的请求,可以在框536处获得第三媒体项主要集合,其中第三媒体项主要集合中的每个媒体项包括媒体项611的一个或多个参数值。例如,在一个示例中,媒体项611可以是外国动作电影“CrouchingTiger,HiddenDragon”。在该示例中,所获得的第三媒体项主要集合可以包括共享这部电影的一个或多个参数值的媒体项。具体地讲,所获得的第三媒体项主要集合例如可以包括由李安导演,包括武打场面或影星周润发、杨紫琼或章子怡的电影。应当认识到,框536的某些方面可以类似适用于框520,524,546,562或566。在过程500的框538处,可以确定是否可以获得对应于第三主要媒体搜索查询的至少一个媒体项。在框536执行第三主要媒体搜索查询时,可以确定从搜索查询获得(或可以获得)的媒体项数量。如果获得的媒体项数量是一个或多个,那么可以确定可以获得至少一个对应于第三主要媒体搜索查询的媒体项。例如,针对媒体相关请求“JackRyan”的第三主要媒体搜索查询可以返回至少电影“PatriotGames”和“ClearandPresentDanger”。因此,在该示例中,可以确定可以获得至少一个对应于第三主要媒体搜索查询的媒体项。根据确定可以获得对应于第三主要媒体搜索查询的至少一个媒体项,可以执行框540。在以下描述中将要显而易见,框538处的确定可能适宜确保针对在框536执行的第三主要媒体搜索查询获得至少一个媒体项。这可以防止这样的情况:未显示针对媒体搜索请求的媒体项,并能够使用户免去必须提供另一媒体搜索请求的麻烦,这改善了用户体验。在过程500的框540处,可以经由用户界面602在显示单元上显示第三媒体项主要集合620。具体地讲,如图6E所示,可以用第三媒体项主要集合620的显示替换显示单元上媒体项主要集合604的显示。框540可以类似于框522。可以根据与每个媒体项相关联的相关度分数显示第三媒体项主要集合620。例如,参考图6E,可以按照相关度分数降序在用户界面602上从左到右布置第三媒体项主要集合612。向回参考框538,在一些示例中,可以确定不能获得至少一个对应于第三主要媒体搜索查询的媒体项。例如,媒体相关请求或来自STT处理的对应文本表示可能定义不正确的参数值或与用户实际期望的那些不同的参数值。在一个这样的示例中,如图6F所示,该媒体相关请求可以是“JackieChan和ChrisRucker”。在该示例中,从执行对应于这一媒体相关请求的第三主要媒体搜索查询不能获得媒体项,从而可以确定不能获得对应于第三主要媒体搜索查询的至少一个媒体项。在其他示例中,该媒体相关请求可能定义不兼容参数,诸如“JackieChan”和“Spiderman”或“写实暴力”和“适合青少年”。根据确定不能获得对应于第三主要媒体搜索查询的至少一个媒体项,可以执行框542-548以为用户呈现可能满足用户实际意图的另选的结果。在过程500的框542处,可以识别第三主要媒体搜索查询的最不相关的参数值。具体地讲,可以基于诸如具有该参数值的媒体项的流行度、先前媒体搜索请求中该参数值出现的频率或媒体项群体中该参数值出现的频率的因素,确定第三主要媒体搜索查询中每个参数值的显著度分数。可以将最不相关参数值识别为具有最低显著度分数的参数值。例如,在参数值“JackieChan”和“ChrisRucker”之间,参数值“ChrisRucker”可能具有更低的显著度分数,因为ChrisRucker是足球运动员而JackieChan是大众演员。因此,与ChrisRucker相比,JackieChan与更大数量的媒体项和先前媒体搜索查询相关联。因此,在该示例中,可以确定参数值“ChrisRucker”是最不相关参数值。在过程500的框544处,可以确定一个或多个另选的参数值。可以基于所识别的最不相关参数值确定该一个或多个另选的参数值。例如,可以在所识别的最不相关参数值和数据结构中多个媒体相关参数值之间进行模糊字符串匹配。具体地讲,可以将数据结构中在预先确定阈值内具有最短编辑距离的参数值确定为另选的参数值。例如,基于参数值“ChrisRucker”的模糊字符串匹配,可以确定参数值“ChrisTucker”在数据结构中的多个媒体相关参数值中具有最短编辑距离。因此,在该示例中,可以确定“ChrisTucker”是另选的参数值。除此之外或另选地,可以基于第三主要媒体搜索查询中的其他参数值(例如,最不相关参数值之外的参数值)确定一个或多个另选的参数值。具体地讲,可以确定与第三主要媒体搜索查询中的其他参数值密切相关的参数值。例如,可以基于存在多个“JackieChan”主演且也具有参数值“动作电影”和“武打”的媒体项,确定诸如“动作电影”和“武打”的参数值与参数值“JackieChan”密切相关。在过程500的框546处,可以获得第四媒体项主要集合以满足主要用户意图。框546可以类似于框520。具体地讲,可以生成一个或多个另选的主要媒体搜索查询。可以使用在框544确定的一个或多个另选的参数值生成该一个或多个另选的主要搜索查询。例如,在图6F-图6G中,媒体相关请求为“JackieChan和ChrisRucker”,确定另选的参数值为“ChrisTucker”,另选的主要搜索查询可以是搜索具有参数值“JackieChan”和“ChrisTucker”的媒体项。因此,在该示例中,可以由更可能反映用户实际意图的另选的参数值替换该最不相关参数值。然后可以执行该一个或多个另选的主要媒体搜索查询以获得第四媒体项主要集合628。在搜索具有参数值“JackieChan”和“ChrisTucker”的媒体项的本示例中,第四媒体项主要集合628可以包括诸如“RushHour”、“RushHour2”或“RushHour3”的电影。在过程500的框548处,可以经由用户界面602在显示单元上显示第四媒体项主要集合628。框548可以类似于框522。具体地讲,如图6G所示,可以用第四媒体项主要集合628的显示替换显示单元上媒体项主要集合604的显示。在过程500的框550处,可以确定是否存在一个或多个先前的用户意图。该一个或多个先前的用户意图可以对应于在框506的媒体相关请求之前接收的一个或多个先前的媒体相关请求。先前的媒体相关请求的示例可以包括对应于框502的主要媒体搜索查询和媒体项主要集合604的先前接收的媒体相关请求。可以基于分析媒体设备(例如,媒体设备104)或服务器(例如,DA服务器106)上存储的先前用户意图的历史做出确定。在一些示例中,在确定是否存在一个或多个先前的用户意图时,仅考虑相关时段之内的先前用户意图。相关时段可以指接收框506的媒体相关请求时之前的预先确定的时段。在其他示例中,相关时段可以基于与数字助理的交互会话。具体地讲,框506的媒体相关请求可以是与数字助理的交互会话的部分,包括媒体相关请求的序列。在这些示例中,相关时段可以从发起交互会话的时间到终止交互会话的时间。可以确定该交互会话是否包含在框506的媒体相关请求之前接收的一个或多个先前的媒体相关请求。如果该交互会话包含一个或多个先前的媒体相关请求,那么可以确定存在一个或多个先前的用户意图。因此,一个或多个先前的用户意图和主要用户意图可以与和数字助理进行的同一交互会话相关联。相反,如果该交互会话不包含一个或多个先前的媒体相关请求,那么可以确定不存在一个或多个先前的用户意图。响应于确定存在一个或多个先前的用户意图,可以执行框552。另选地,响应于确定不存在一个或多个先前的用户意图,可以执行框560。在过程500的框552处,可以确定一个或多个辅助用户意图。可以基于框510的主要用户意图以及在框550确定存在的一个或多个先前用户意图确定该一个或多个辅助用户意图。具体地讲,该一个或多个辅助用户意图可以包括主要用户意图和一个或多个先前用户意图的组合。在一些示例中,可以基于用户在媒体设备上的媒体相关请求历史确定一个或多个先前用户意图。返回到图6D-图6E的示例,主要用户意图可以是搜索具有角色“JackRyan”的媒体项的意图。在一个示例中,第一先前用户意图可以是搜索过去10年的动作电影的意图。此外,第二先前用户意图可以是搜索BenAffleck主演的媒体项的意图。辅助用户意图因此可以是这些用户意图中两个或更多的组合。具体地讲,一个辅助用户意图可以是主要用户意图和第一先前用户意图(例如,搜索最近10年JackRyan出演的动作电影的用户意图)的组合。另一个辅助用户意图可以是第一先前用户意图和第二先前用户意图(例如,搜索最近10年BenAffleck主演的动作电影的用户意图)的组合。可以使用媒体设备的自然语言处理模块(自然语言处理模块432)执行框552。如图5D所示,框552可以包括框554-560。在过程500的框554处,可以识别一个或多个先前用户意图中的不正确用户意图。具体地讲,可以分析该一个或多个先前用户意图以确定是否包括任何不正确的用户意图。如果被后续先前的用户意图明确或暗示指示为不正确,则可以确定先前的用户意图是不正确的。例如,该一个或多个先前的用户意图可以包括对应于先前媒体相关请求的以下序列的用户意图:[A]“为我展示一些JamesBond的电影。”[B]“仅展示DanielSmith出演的那些。”[C]“不,我的意思是DanielCraig。”在该示例中,基于明确的短语“不,我的意思是……”,可以确定与请求[C]相关联的先前用户意图是校正与请求[B]相关联的先前用户意图的意图。因此,在该示例中,可以确定与请求[C]之前的请求[B]相关联的先前用户意图是不正确的。应当理解,在其他示例中,请求[C]可以隐含地指示请求[B]不正确。例如,请求[C]可以另选地仅为“DanielCraig”。基于字符串“DanielCraig”与“DanielSmith”的相似性以及与“DanielSmith”相比与参数值“DanielCraig”相关联的改进相关性,可以确定与请求[C]相关联的先前用户意图是校正与请求[B]相关联的先前用户意图的意图。在其他示例中,可以基于用户选择与先前用户意图不一致的媒体项而确定先前用户意图是不正确的。例如,先前请求可以是:“为我展示由RussellSimmons出品的视频”。响应于这一先前请求,已经显示了包括由RussellSimmons出品的视频的媒体项主要集合供用户选择。此外,可能已经与媒体项主要集合一起显示了与先前请求相关的媒体项附加集合。在该示例中,可以确定用户在媒体项附加集合中选择了由“RichardSimmons”而非“RussellSimmons”出品的媒体项。基于与搜索RussellSimmons出品的视频的先前用户意图一致的媒体项的这一用户选择,可以确定用户先前意图不正确。换句话讲,可以确定正确的用户意图应当是搜索由“RichardSimmons”而非“RussellSimmons”出品的视频。根据确定一个或多个先前用户意图包括不正确先前用户意图,可以不使用不正确先前用户意图确定一个或多个辅助用户意图。具体地讲,不正确的先前用户意图可以被排除并从而可以不用于在框556处生成用于确定一个或多个辅助用户意图的用户意图组合。然而,在一些示例中,可以使用校正的用户意图生成用户意图的组合并确定一个或多个辅助用户意图。例如,在上述相应示例中,可以使用与“DanielCraig”相关联的校正先前用户意图(例如,搜索DanielCraig出演的JamesBond电影)和与“RichardSimmons”相关联的校正先前用户意图(例如,搜索由RichardSimmons出品的视频)确定一个或多个辅助用户意图。在过程500的框556处,可以基于主要用户意图和一个或多个先前用户意图生成多个用户意图组合。在例示性示例中,该媒体设备可能已经接收了媒体相关请求的以下序列,其中主要用户意图与请求[G]相关联,并且一个或多个先前用户意图与请求[D]-[F]相关联。[D]“KeanuReeves主演的电影。”[E]“包含现实暴力的节目。”[F]“适合青少年的电影。”[G]“卡通。”在该示例中,多个用户意图组合可以包括与请求[D]到[G]相关联的主要用户意图和一个或多个先前用户意图的任意组合。一个示例性用户意图组合可以是搜索具有现实暴力的KeanuReeves主演的电影(例如,基于请求[D]和[E]的组合)。另一个示例性用户意图组合可以是搜索适合青少年的卡通电影(例如,基于请求[F]和[G]的组合)。在过程500的框558处,可以排除不兼容的用户意图组合。具体地讲,可以识别不兼容用户意图组合并可以不基于所识别的不兼容用户意图组合来确定一个或多个辅助用户意图。在一些示例中,不兼容的用户意图组合可以是不对应于任何媒体项的用户意图组合。具体地讲,对于每种用户意图组合,可以执行对应的媒体搜索。如果针对特定媒体搜索未获得媒体项,可以确定对应的用户意图组合是不兼容的用户意图组合。例如,用户意图组合可以基于上文描述的请求[E]和[F]。在该示例中,可以执行针对适合儿童包含现实暴力的电影的对应媒体搜索。然而,此类媒体搜索可能不会产生任何媒体项。因此,在该示例中,可以确定基于请求[E]和[F]的用户意图组合是不兼容的用户意图组合。应当理解,在其他示例中,可以建立不同的预先确定的阈值以确定不兼容的用户意图组合。例如,可以确定不对应于大于预先确定数量的媒体项的用户意图组合是不兼容的。在其他示例中,可以基于与用户意图组合相关联的参数值确定不兼容的用户意图组合。具体地讲,可以预先确定特定参数值是不兼容的。例如,可以预先确定“现实暴力”的参数值与参数值“适合青少年”不兼容。因此,可以确定包含两个或更多预先确定为不兼容的参数值的用户意图组合是不兼容的用户意图组合。此外,可以预先确定特定参数需要奇异值。例如,参数“媒体标题”、“媒体类型”和“美国电影分级电影协会”均可以与用户意图组合中的不超过一个参数相关联。具体地讲,用于搜索电影的第一用户意图和用于搜索歌曲的第二用户意图的组合会是不兼容组合。因此,如果用户意图组合包含针对预先确定需要奇异值的参数的超过一个参数值,则可以确定其是不兼容的。可以排除不兼容的用户意图组合,从而不使用该组合在框552处确定一个或多个辅助用户意图。具体地讲,一个或多个辅助用户意图可以不包括任何不兼容用户意图组合。从考虑中去除不兼容用户意图组合可能适宜提高为供用户选择而显示的媒体项的相关性。可以基于未被确定为不兼容的剩余用户意图组合确定一个或多个辅助用户意图。具体地讲,可以合并每个剩余用户意图组合的用户意图以生成一个或多个辅助用户意图。此外,剩余用户意图组合中的每个可以与至少一个媒体项(或至少预先确定数量的媒体项)相关联。在一些示例中,一个或多个辅助意图可以包括一个或多个剩余用户意图组合。返回上述具有请求[D]-[G]的示例,一个或多个辅助用户意图中的辅助用户意图可以包括主要用户意图(例如,与请求[G]相关联的主要用户意图)和一个或多个先前用户意图(例如,与请求[F]相关联的先前用户意图)的先前用户意图的组合。例如,辅助用户意图可以是针对适合青少年的卡通电影的媒体搜索。此外,一个或多个辅助用户意图中的辅助用户意图可以包括一个或多个先前用户意图的两个或多个先前用户意图的组合(例如,与请求[D]和[E]相关联的先前用户意图)。例如,辅助用户意图可以是针对KeanuReeves主演的带有现实暴力的电影的媒体搜索。在过程500的框560处,可以基于其他相关参数值生成一个或多个辅助用户意图。在框560处确定的一个或多个辅助用户意图可以是在框552处确定的一个或多个辅助意图的补充或替代。其他相关参数值可以基于除媒体设备上用户的媒体搜索历史之外的信息。具体地讲,用于确定其他相关参数值的信息可以反映用户的媒体兴趣和习惯,从而能够合理地预测用户的实际意图。在一些示例中,其他相关参数值可以基于媒体设备上用户的媒体选择历史。具体地讲,其他相关参数值可以包括与用户先前选择消费的媒体项(例如,在框506处接收媒体相关请求之前选择)相关联的参数值。在一些示例中,其他相关参数值可以基于媒体设备上用户的媒体观看列表。媒体观看列表可以是用户感兴趣或希望不久的将来消费的媒体项的用户定义的列表。与用户选择历史或用户媒体观看列表相关联的参数值从而可以反映用户的媒体兴趣或习惯。在一些示例中,其他相关参数可以基于媒体设备之外的设备上用户的媒体搜索历史。具体地讲,可以从外部媒体设备获得在外部媒体设备(例如,用户设备122)上执行的媒体相关搜索的历史。这些媒体相关搜索可以是网络搜索、iTunes商店搜索、设备上的本地媒体文件搜索等。因此,其他相关参数值可以因而包括从外部媒体设备的媒体相关搜索历史导出的参数值。在一些示例中,其他相关参数值可以基于用户界面所聚焦的媒体项。例如,参考图6A,在框506处接收媒体相关请求时,光标609可以位于媒体项611上。因此,可以在框506处接收媒体相关请求时,确定用户界面602的焦点在媒体项611上。在该示例中,其他相关参数值可以在上下文上与媒体项611相关。具体地讲,其他相关参数值可以包括媒体项611的一个或多个参数值。在一些示例中,其他相关参数值可以基于在框506处接收媒体相关请求时与显示单元上显示的媒体项相关联的文本。例如,在图6A中,可以在框506处接收媒体相关请求时,在显示单元上显示与媒体项主要集合604和媒体项辅助集合606相关联的多个文本。该多个文本可以描述关联媒体项的参数值。其他相关参数值从而可以包括由多个文本描述的一个或多个参数值。应当认识到,可以使用媒体设备内部或外部的其他信息确定其他相关参数值。例如,在一些示例中,可以与框528处识别的附加参数值以类似方式确定其他相关参数值。可以针对框552和560的一个或多个辅助用户意图中的每个意图确定排序分数。该排序分数可以表示辅助用户意图对应于用户的实际用户意图的可能性。在一些示例中,更高排序分数可以表示相应辅助用户意图对应于实际用户意图的更高可能性。如下所述,可以基于用于导出一个或多个辅助用户意图的类似信息来确定该排序分数。在一些示例中,可以基于用户或多个用户的媒体相关请求历史(例如,媒体搜索历史)确定针对一个或多个辅助用户意图中的每个意图的排序分数。具体地讲,可以基于接收媒体相关请求和一个或多个先前媒体相关请求的每个的时间和次序确定排序分数。基于更近接收的媒体搜索请求的辅助用户意图可以更可能比基于更早接收的媒体相关请求的辅助用户意图具有更高排序分数。例如,在上述请求[D]-[G]的示例中,请求[G]可以是最近接收的媒体相关请求,而请求[D]可以是最早接收的媒体相关请求。在该示例中,基于请求[G]的辅助用户意图可以比基于请求[D]的辅助用户意图具有更高排序分数。此外,该排序分数可以基于用户或多个用户的媒体相关请求历史中参数值的出现频率。例如,如果在用户的媒体相关请求历史或多个用户的媒体相关请求历史中参数值“KeanuReeves”出现得比参数值“现实暴力”更频繁,那么包含参数值“KeanuReeves”的辅助用户意图可以比包含参数值“现实暴力”的辅助用户意图具有更高排序分数。在一些示例中,可以基于用户或多个用户的选择历史确定针对一个或多个辅助用户意图中的每个意图的排序分数。用户选择历史可以包括先前由用户或多个用户选择消费的媒体项列表。包括一个或多个先前选择的媒体项的参数值的辅助用户意图可以比不包括任何先前选择的媒体项的参数值的辅助用户意图具有更高排序分数。此外,包括更近选择的媒体项的参数值的辅助用户意图更可能比包括更早选择的媒体项的参数值的辅助用户意图具有更高排序分数。此外,具有在先前选择的媒体项之间更频繁出现的参数值的辅助用户意图更可能比具有在先前选择的媒体项间较少出现的参数值的辅助用户意图具有更高排序分数。在一些示例中,可以基于用户或多个用户的媒体观看列表确定针对一个或多个辅助用户意图中的每个意图的排序分数。例如,包括媒体观看列表上一个或多个媒体项的参数值的辅助用户意图更可能比不包括媒体观看列表上任何媒体项的参数值的辅助用户意图具有更高排序分数。在过程500的框562处,可以获得一个或多个媒体项辅助集合。框562可以类似于框520。具体地讲,可以生成对应于框552和/或560的一个或多个辅助用户意图的一个或多个辅助媒体搜索查询。可以执行一个或多个辅助媒体搜索查询以获得一个或多个媒体项辅助集合。例如,向回参考图6E,可以生成并执行针对最近10年JackRyan出演的动作电影的第一辅助媒体搜索查询以获得媒体项辅助集合624。此外,可以生成并执行针对最近10年BenAffleck主演的动作电影的第二辅助媒体搜索查询以获得媒体项辅助集合626。在过程500的框564处,可以在显示单元上显示一个或多个媒体项辅助集合。框564可以类似于框534。如图6E所示,可以在用户界面602顶行显示第三媒体项主要集合620。可以在用户界面602顶行之下的后续行中显示媒体项辅助集合624和626。后续行的每行都可以对应于框552和/或560的一个或多个辅助用户意图中的辅助用户意图。可以根据对应一个或多个辅助用户意图的排序分数显示一个或多个媒体项辅助集合。具体地讲,可以比对应于排序分数更低的辅助用户意图的媒体项辅助集合更突出地(例如,在更接近顶行的更高行中)显示对应于排序分数更高的辅助用户意图的媒体项辅助集合。向回参考框510,根据确定主要用户意图不包括执行新媒体搜索查询的用户意图,可以执行框516-518的一个或多个。在过程500的框516处,可以确定主要用户意图是否包括校正主要媒体搜索查询的一部分的用户意图。可以基于指示校正主要媒体搜索查询的一部分的用户意图的明示字词或短语做出该确定。具体地讲,可以确定该媒体相关请求是否包括指示校正主要媒体搜索查询的一部分的用户意图的预先确定字词或短语。例如,参考图6H-图6I,该媒体相关请求可以是“不,我的意思是探险电影。”在该示例中,基于在媒体相关请求开头出现的该明示短语“不,我的意思是……”,可以确定主要用户意图包括校正主要媒体搜索查询的一部分的用户意图。具体地讲,可以确定主要用户意图是将主要媒体搜索查询从搜索最近10年的动作电影校正为搜索最近10年的探险电影的用户意图。指示校正主要媒体搜索查询的一部分的用户意图的预先确定字词或短语的其他示例可以包括“不”、“不是”、“我的意思是”、“错误”等。在其他示例中,可以基于媒体相关请求中参数值和主要媒体搜索查询中参数值之间的相似性做出框516的确定。例如,在一个示例中,先前接收的与主要媒体搜索查询相关联的媒体相关请求可以是:“JackieChan和ChrisRucker”且媒体相关请求可以是:“ChrisTucker”。基于所确定的参数值“ChrisRucker”和“ChrisTucker”之间的编辑距离小于预先确定值,可以确定主要用户意图包括将主要媒体搜索查询中的参数值“ChrisRucker”校正为“ChrisTucker”的用户意图。除此之外或另选地,可以对比表示“ChrisRucker”和“ChrisTucker”的音素序列。基于表示“ChrisRucker”的音素序列基本上类似于表示“ChrisTucker”的音素序列,可以确定主要用户意图包括将主要媒体搜索查询中的“ChrisRucker”校正为“ChrisTucker”的用户意图。此外,可以相对于参数值“JackieChan”将参数值“ChrisRucker”的显著度与参数值“ChrisTucker”的显著度对比。具体地讲,可以使用参数值“JackieChan”进行媒体搜索以识别与JackieChan相关的一组媒体项。“ChrisRucker”和“ChrisTucker”相对于“JackieChan”的显著度可以基于该组媒体项中与JackieChan(与两个参数值的每个都相关联)相关的媒体项数量。例如,可以确定“ChrisTucker”与该组媒体项中与JackieChan相关的比“ChrisRucker”显著更多的媒体项相关联。因此,可以确定相对于“JackieChan”,“ChrisTucker”的显著度比“ChrisRucker”的显著度显著更大。基于这一对比的显著度,可以确定主要用户意图包括校正主要媒体搜索查询中的“ChrisRucker”的用户意图。根据确定主要用户意图包括校正主要媒体搜索查询的一部分的用户意图,在确定与媒体相关请求相关联的一个或多个辅助用户意图时(例如,框552)时,可以从考虑中去除与主要媒体搜索查询相关联的先前用户意图。例如,在确定一个或多个辅助用户意图时,可以从考虑去除与先前接收的媒体相关请求“JackieChan和ChrisRucker”相关联的先前用户意图。相反,在确定一个或多个辅助用户意图时,可以考虑与校正的媒体相关请求“JackieChan和ChrisTucker”相关联的用户意图。此外,根据确定主要用户意图包括校正主要体搜索查询一部分的用户意图,可以执行框566-568中的一个或多个。在过程500的框566处,可以获得第五媒体项主要集合。框566可以类似于框520。具体地讲,可以生成对应于主要用户意图的第五主要媒体搜索查询。第五主要媒体搜索查询可以基于该媒体相关请求和主要媒体搜索查询。具体地讲,可以根据媒体相关请求校正主要媒体搜索查询的该部分以生成第五主要媒体搜索查询。回到主要媒体搜索查询为搜索“JackieChan”和“ChrisRucker”主演的媒体项且媒体相关请求为“ChrisTucker”的示例,可以校正主要媒体搜索查询以生成搜索“JackieChan”和“ChrisTucker”主演的媒体项的第五主要媒体搜索查询。然后可以执行该第五主要媒体搜索查询以获得第五媒体项主要集合。在过程500的框568处,可以经由用户界面(例如,用户界面602)在显示单元上显示第五媒体项主要集合。具体地讲,可以利用第五媒体项主要集合的显示替换媒体项主要集合(例如,媒体项主要集合604)的显示。框540可以类似于框522。此外,在一些示例中,可以执行框550-564以获得并与第五媒体项主要集合一起显示一个或多个媒体项辅助集合,以为用户提供附加选项。向回参考510,根据确定主要用户意图不包括校正主要媒体搜索查询的一部分的用户意图,可以执行框518。在过程500的框518处,可以确定主要用户意图是否包括改变显示单元上显示的用户界面(例如,用户界面602)的焦点的用户意图。用户界面可以包括多个媒体项。在一些示例中,可以基于媒体相关请求中对应于改变用户界面的焦点的用户意图的明示字词或短语做出框518处的确定。在一个示例中,该媒体相关请求可以是:“前进到DarkKnight。”在该示例中,可以确定短语“前进到……”是对应于改变用户界面的焦点的用户意图的预先确定的短语。对应于改变用户界面的焦点的用户意图的预先确定的字词或短语的其他示例可以包括“选择”、“移动到”、“跳到”、“播放”、“购买”等。基于该预先确定的字词或短语,可以确定主要用户意图包括改变用户界面的焦点的用户意图。在其他示例中,可以基于对应于用户界面中显示的媒体项的文本隐含做出框518处的确定。例如,参考图6A,媒体项604和606可以与描述媒体项604和606的一个或多个参数值的文本相关联。具体地讲,该文本可以描述媒体项604和606的参数值,诸如媒体标题、演员、发布日期等。如上所述,可以与相应媒体项结合在用户界面602上显示这一文本的至少一部分。可以基于描述媒体项604和606的一个或多个参数值的这一文本做出框518的确定。在本示例中,媒体项613可以是电影“TheDarkKnight”,该文本可以包括与媒体项613相关联的媒体标题“TheDarkKnight”。基于确定媒体相关请求中定义的参数值“TheDarkKnight”匹配与媒体项613相关联的文本的媒体标题“TheDarkKnight”,可以确定主要用户意图包括将用户界面602的焦点从媒体项611改成媒体项613的用户意图。应当认识到,在一些示例中,显示的文本可以不包括经由用户界面602显示的媒体项的所有参数值。在这些示例中,框518处的确定也可以基于所显示文本中未描述的所显示媒体项的参数值。根据确定主要用户意图包括改变用户界面的焦点的用户意图,可以执行框570。在过程500的框570处,可以将用户界面的焦点从第一媒体项改变到第二媒体项。例如,参考图6K,可以将用户界面602的光标609的位置从媒体项611改变为媒体项613。在一些示例中,改变用户界面602的焦点可以包括选择媒体项。例如,可以在框570处选择媒体项613。选择媒体项613可以导致显示与媒体项613相关联的信息(例如,电影预览信息)。除此之外或另选地,选择媒体项613可以导致在媒体设备上播放与媒体项613相关联的媒体内容并在显示单元上显示该媒体内容。尽管上文将过程500的特定框描述为由设备或系统(例如,媒体设备104、用户设备122或数字助理系统400)执行,但应当认识到,在一些示例中,可以使用多于一个设备执行框。例如,在做出确定的框中,第一设备(例如,媒体设备104)可以从第二设备(例如,服务器系统108)获得确定。因此,在一些示例中,确定可以指获得确定。类似地,在显示内容、对象、文本或用户界面的框中,第一设备(例如,媒体设备104)可以导致在第二设备(例如,显示单元126)上显示内容、对象、文本或用户界面。因此,在一些示例中,显示可以指导致显示。此外,应当认识到,在一些示例中,在用户界面中显示的项目(例如,媒体项、文本、对象、图形等)也可以指用户界面中包括但用户不能立即看到的项目。例如,用户界面中显示的项目可以通过滚动到用户界面的适当区域而为用户可见。5.电子设备根据一些示例,图7示出了根据各种所述示例的原理配置的电子设备700的功能框图,例如,以提供媒体回放的语音控制和虚拟助理知识的实时更新。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图7中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图7所示,电子设备700可以包括被配置为接收诸如触觉输入、手势输入和文本输入的用户输入的输入单元703(例如,遥控器124等),被配置为接收音频数据的音频接收单元704(例如,麦克风272等),被配置为输出音频的扬声器单元706(例如,扬声器268等),以及被配置为经由网络从外部设备发送和接收信息的通信单元707(例如,通信子系统224等)。在一些示例中,电子设备700可以任选地包括被配置为显示媒体、用户界面和其他内容的显示单元702(例如,显示单元126等)。在一些示例中,显示单元702可以在电子设备700外部。电子设备700还可以包括耦接到输入单元703、音频接收单元704、扬声器单元706、通信单元707和任选的显示单元702的处理单元708。在一些示例中,处理单元708可包括显示使能单元710、检测单元712、确定单元714、音频接收使能单元716、获取单元718、识别单元720、接收单元722、排除单元724和生成单元726。根据一些实施方案,处理单元708被配置为在显示单元(例如,具有显示单元702或独立的显示单元)上显示(例如,利用显示使能单元710)媒体项主要集合。处理单元708被进一步配置为(例如,利用检测单元712)检测用户输入。处理单元708被进一步配置为,响应于检测到用户输入,在音频接收单元704处(例如,利用音频接收使能单元716)接收音频输入。音频输入包含自然语言语音形式的媒体相关请求。处理单元708被进一步配置为(例如,利用确定单元714)确定对应于媒体相关请求的主要用户意图。处理单元708被进一步配置为(例如,利用确定单元714)确定主要用户意图是否包括缩小对应于媒体项主要集合的主要媒体搜索查询范围的用户意图。处理单元708被进一步配置为,根据确定主要用户意图包括缩小主要媒体搜索查询范围,(例如,利用获得单元718)基于该媒体相关请求和主要媒体搜索查询,生成对应于主要用户意图的第二主要媒体搜索查询,(例如,利用获得单元720)执行第二主要媒体搜索查询以获得第二媒体项主要集合。处理单元708被进一步配置为(例如,利用显示使能单元710)利用第二媒体项主要集合的显示替换显示单元上媒体项主要集合的显示。在一些示例中,确定主要用户意图是否包括缩小主要媒体搜索查询范围的用户意图包括确定媒体相关请求是否包括对应于缩小主要媒体搜索查询范围的用户意图的字词或短语。在一些示例中,该第二主要媒体搜索查询包括在媒体相关请求中定义的一个或多个参数值以及主要媒体搜索查询的一个或多个参数值。在一些示例中,基于媒体项主要集合获得该第二媒体项主要集合。在一些示例中,该第二主要媒体搜索查询包括一组参数值。处理单元708被进一步配置为(例如,利用识别单元720)从该组参数值识别参数值的核心集合,该参数值的核心集合比该组参数值具有更少参数值。处理单元708被进一步配置为(例如,利用获得单元718)基于参数值的核心集合生成一个或多个附加的媒体搜索查询。处理单元708被进一步配置为(例如,利用获得单元718)执行该一个或多个附加的媒体搜索查询以获得一个或多个媒体项的附加集合。处理单元708被进一步配置为(例如,利用显示使能单元710)在显示单元上显示一个或多个媒体项的附加集合。在一些示例中,处理单元708被进一步配置为(例如,利用识别单元720)基于多个用户的媒体选择历史识别一个或多个附加的参数值。该一个或多个附加媒体搜索查询是使用一个或多个附加参数值生成的。在一些示例中,在显示单元上的用户界面的顶行显示第二媒体项主要集合,并在显示单元上用户界面的一个或多个后续行显示一个或多个媒体项附加的集合。在一些示例中,处理单元708被进一步配置为根据确定主要用户意图不包括缩小主要媒体搜索查询范围的用户意图,(例如,利用确定单元714)确定主要用户意图是否包括执行新媒体搜索查询的用户意图。处理单元708被进一步配置为,根据确定主要用户意图包括执行新媒体搜索查询的用户意图,(例如,利用获得单元718)基于该媒体相关请求生成对应于主要用户意图的第三主要媒体搜索查询,(例如,利用确定单元714)确定是否可以获得对应于第三主要媒体搜索查询的至少一个媒体项。处理单元708被进一步配置为根据确定可以获得对应于第三主要媒体搜索查询的至少一个媒体项,(例如,利用获得单元718)执行第三主要媒体搜索查询以获得第三媒体项主要集合并(例如,利用显示使能单元710)用第三媒体项主要集合的显示替换显示单元上媒体项主要集合的显示。在一些示例中,确定主要用户意图是否包括执行新媒体搜索查询的用户意图还包括确定媒体相关请求是否包括对应于执行新媒体搜索查询的用户意图的字词或短语。在一些示例中,确定主要用户意图是否包括执行新媒体搜索查询的用户意图还包括确定媒体相关请求是否包括对应于一个或多个媒体项的参数值的字词或短语。在一些示例中,处理单元708被进一步配置为(例如,利用获得单元718)执行第三主要媒体搜索查询包括执行多个候选媒体项的归一化排序,其中多个候选媒体项包括多个媒体类型。在一些示例中,确定主要用户意图包括确定与媒体相关请求相关联的媒体类型,其中第三主要媒体搜索查询是根据所确定的媒体类型执行的。在一些示例中,执行第三主要媒体搜索查询包括识别与所识别候选媒体项的一个或多个媒体评论中包括的参数值相关联的候选媒体项。在一些示例中,执行第三主要媒体搜索查询包括识别与从所识别候选媒体项的隐藏字幕信息导出的参数值相关联的候选媒体项。在一些示例中,处理单元708被进一步配置为根据确定没有媒体项对应于第三主要媒体搜索查询,(例如,利用识别单元720)识别第三主要媒体搜索查询的最不相关参数值。处理单元708被进一步配置为(例如,利用确定单元714)基于所识别的最不相关参数值确定一个或多个另选的参数值。处理单元708被进一步配置为(例如,利用获得单元718)使用一个或多个另选的参数值执行一个或多个另选的主要媒体搜索查询以获得第四媒体项主要集合。处理单元708被进一步配置为(例如,利用显示使能单元710)用第四媒体项主要集合的显示替换显示单元上媒体项主要集合的显示。在一些示例中,处理单元708被进一步配置为根据确定主要用户意图不包括缩小主要媒体搜索查询范围的用户意图,(例如,利用确定单元714)基于主要用户意图和一个或多个先前用户意图确定一个或多个辅助用户意图,该一个或多个先前用户意图对应于在媒体相关请求之前接收的一个或多个先前媒体相关请求。处理单元708被进一步配置为(例如,利用获得单元718)生成对应于一个或多个辅助用户意图的一个或多个辅助媒体搜索查询。处理单元708被进一步配置为(例如,利用获得单元718)执行该一个或多个辅助媒体搜索查询以获得一个或多个媒体项辅助集合。处理单元708被进一步配置为(例如,利用显示使能单元710)在显示单元上显示一个或多个媒体项辅助集合。在一些示例中,一个或多个先前媒体相关请求包括对应于媒体项主要集合的先前媒体相关请求。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定主要用户意图和一个或多个先前用户意图的一个或多个组合,其中一个或多个组合中的每个与至少一个媒体项相关联,并且其中一个或多个辅助意图包括该一个或多个组合。在一些示例中,一个或多个先前用户意图和主要用户意图与和数字助理进行的同一交互会话相关联。在一些示例中,基于用户在一个或多个电子设备上的媒体搜索历史生成该一个或多个辅助用户意图。在一些示例中,基于用户在一个或多个电子设备上的媒体选择历史生成该一个或多个辅助用户意图。在一些示例中,处理单元708被进一步配置为(例如,利用接收单元722)从第二电子设备(例如,经由通信单元)接收媒体搜索历史。基于从第二电子设备接收的媒体搜索历史生成一个或多个辅助用户意图。在一些示例中,基于用户在一个或多个电子设备上的媒体观看列表生成该一个或多个辅助用户意图。在一些示例中,在接收音频输入时在显示单元上显示多个文本,该多个文本与接收音频输入时在显示单元上显示的多个媒体项相关联,并且一个或多个辅助用户意图是基于所显示的多个文本生成的。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定针对一个或多个辅助用户意图中的每个意图的排序分数,其中根据针对一个或多个辅助用户意图中的每个意图的排序分数显示一个或多个媒体项辅助集合。在一些示例中,针对一个或多个辅助用户意图中的每个意图的排序分数基于接收媒体相关请求和一个或多个先前媒体相关请求的每个的时间。在一些示例中,针对该一个或多个辅助用户意图中的每个意图的排序分数基于用户在一个或多个电子设备上的媒体搜索历史。在一些示例中,针对该一个或多个辅助用户意图中的每个意图的排序分数基于用户在一个或多个电子设备上的媒体选择历史。在一些示例中,针对该一个或多个辅助用户意图中的每个意图的排序分数基于用户在一个或多个电子设备上的媒体观看列表。在一些示例中,处理单元708被进一步配置为根据确定主要用户意图不包括执行新媒体搜索查询的用户意图,(例如,利用确定单元714)确定主要用户意图是否包括校正主要媒体搜索查询的一部分的用户意图。处理单元708被进一步配置为,根据确定主要用户意图包括校正主要媒体搜索查询的一部分的用户意图,(例如,利用获得单元718)基于该媒体相关请求和主要媒体搜索查询,生成对应于主要用户意图的第五主要媒体搜索查询。处理单元708被进一步配置为(例如,利用获得单元718)执行第五主要媒体搜索查询以获得第五媒体项主要集合。处理单元708被进一步配置为(例如,利用显示使能单元710)利用第五媒体项主要集合的显示替换显示单元上媒体项主要集合的显示。在一些示例中,确定主要用户意图是否包括校正主要媒体搜索查询的一部分的用户意图包括确定媒体相关请求是否包括对应于校正主要媒体搜索查询的一部分的用户意图的字词或短语。在一些示例中,确定主要用户意图是否包括校正主要媒体搜索查询的一部分的用户意图包括确定表示媒体相关请求的一部分的音素序列是否基本上类似于表示对应于主要媒体搜索查询的先前媒体相关请求的一部分的音素序列。在一些示例中,生成第五主要媒体搜索查询包括识别与不被校正的主要媒体搜索查询的一部分相关联的一组媒体项,其中基于与不被校正的主要媒体搜索查询的一部分相关联的该组媒体项的一个或多个参数值生成第五主要媒体搜索查询。在一些示例中,处理单元708被进一步配置为,根据确定主要用户意图包括校正主要媒体搜索查询的一部分的用户意图,(例如,利用排除单元724)在确定对应于媒体相关请求的辅助用户意图时从考虑中排除主要媒体搜索查询。在一些示例中,处理单元708被进一步配置为根据确定主要用户意图不包括校正主要媒体搜索查询的一部分的用户意图,(例如,利用确定单元714)确定主要用户意图是否包括改变显示单元上显示的用户界面的焦点的用户意图,其中用户界面包括多个媒体项。处理单元708被进一步配置为根据确定主要用户意图包括改变显示单元上显示的用户界面的焦点的用户意图,(例如,利用显示使能单元710)将用户界面的焦点从多个媒体项中的第一媒体项改变为多个媒体项中的第二媒体项。在一些示例中,确定主要用户意图是否包括改变显示单元上显示的用户界面的焦点的用户意图包括确定媒体相关请求是否包括对应于改变显示单元上显示的用户界面的焦点的用户意图的字词或短语。在一些示例中,该用户界面包括对应于用户界面中多个媒体项的多个文本,并且其中确定主要用户意图是否包括改变显示单元上显示的用户界面的焦点的用户意图基于该多个文本。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定媒体相关请求的文本表示并(例如,利用显示使能单元710)在显示单元上显示该文本表示。在一些示例中,使用一个或多个语言模型确定该文本表示。在一些示例中,该一个或多个语言模型偏向媒体相关文本结果。在一些示例中,该一个或多个语言模型被配置为识别多种语言中的媒体相关文本。在一些示例中,在显示单元上显示多个媒体项以及与多个媒体项相关联的文本。处理单元708被进一步配置为(例如,利用生成单元726)使用与多个媒体项相关联的文本生成第二语言模型,其中该文本表示是利用第二语言模型确定的。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)使用文本表示确定预测文本并(例如,利用显示使能单元710)在显示单元上与该文本表示一起显示预测文本。在一些示例中,基于接收音频输入的同时在显示单元上显示的文本确定预测文本。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定在显示预测文本之后是否检测到音频输入的结束点,其中根据确定在显示预测文本之后检测到音频输入结束点,使用该文本表示和预测文本确定主要用户意图。在一些示例中,处理单元708被进一步配置为在接收音频输入时(例如,利用确定单元714)基于音频输入的接收部分确定初步用户意图,(例如,利用识别单元720)识别满足初步用户意图所需的数据,(例如,利用确定单元714)确定在确定初步用户意图时该数据是否存储于一个或多个电子设备上,并根据确定在确定初步用户意图时该数据未存储于一个或多个电子设备上,(例如,利用获得单元718)获得该数据。根据一些实施方案,处理单元708被配置为(例如,在输入单元703或音频接收单元704处,利用接收单元722或音频接收使能单元716)从用户接收自然语言语音形式的媒体搜索请求。处理单元708被进一步配置为(例如,利用确定单元714)确定对应于媒体搜索请求的主要用户意图,根据主要用户意图获得媒体项主要集合。处理单元708被进一步配置为(例如,利用确定单元714)确定是否存在一个或多个先前的用户意图,其中一个或多个先前的用户意图对应于在媒体搜索请求之前接收的一个或多个先前的媒体搜索请求。处理单元708被进一步配置为响应于确定存在一个或多个先前的用户意图,(例如,利用确定单元714)基于主要用户意图和一个或多个先前的用户意图确定一个或多个辅助用户意图。处理单元708被进一步配置为(例如,利用获得单元718)获得多个媒体项辅助集合,其中每个媒体项辅助集合对应于一个或多个辅助用户意图的相应辅助用户意图。处理单元708被进一步配置为(例如,利用显示使能单元710)显示媒体项主要集合和多个媒体项辅助集合。在一些示例中,确定主要用户意图还包括确定媒体搜索请求是否包含缩小在媒体搜索请求之前接收的先前媒体搜索请求范围的明示请求,其中根据确定该媒体搜索请求包含缩小先前的媒体搜索请求范围的明示请求。从媒体搜索请求和一个或多个先前的用户意图的至少一个确定主要用户意图。在一些示例中,响应于确定该媒体搜索请求不包含缩小先前的媒体搜索请求范围的明示请求,从媒体搜索请求确定主要用户意图。在一些示例中,该媒体搜索请求是与数字助理的交互会话的部分。确定一个或多个先前的用户意图是否存在还包括确定该交互会话是否包括在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,其中该一个或多个先前媒体搜索请求对应于一个或多个先前用户意图。根据确定该交互会话包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定一个或多个先前用户意图。根据确定该交互会话不包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定不存在一个或多个先前用户意图。在一些示例中,处理单元708被进一步配置为响应于确定不存在一个或多个先前的媒体用户意图,(例如,利用显示使能单元710)显示媒体项主要集合。在一些示例中,该一个或多个辅助用户意图中的辅助用户意图包括主要用户意图和一个或多个先前用户意图的先前用户意图的组合。在一些示例中,该一个或多个辅助用户意图中的辅助用户意图包括一个或多个先前用户意图的第一先前用户意图和一个或多个先前用户意图的第二先前用户意图的组合。在一些示例中,确定一个或多个辅助用户意图还包括生成主要用户意图和一个或多个先前用户意图的多个组合。在一些示例中,确定一个或多个辅助用户意图还包括确定多个组合是否包括不能合并的组合。根据确定多个组合包括不能合并的用户意图组合,该一个或多个辅助用户意图不包括不能合并的组合。在一些示例中,不能合并的组合包括针对需要奇异值的参数的多于一个值。在一些示例中,确定一个或多个辅助用户意图还包括确定该一个或多个先前的用户意图是否包括不正确的用户意图。根据确定该一个或多个先前的用户意图包括不正确用户意图。该一个或多个辅助用户意图不基于不正确用户意图。在一些示例中,确定该一个或多个先前的用户意图是否包括不正确的用户意图包括确定一个或多个先前的用户意图是否包括校正一个或多个先前的用户意图的第四用户意图的第三用户意图。根据确定该一个或多个先前的用户意图包括校正一个或多个先前的用户意图的第四用户意图的第三用户意图,确定该一个或多个先前的用户意图包括不正确的用户意图。确定第四用户意图是不正确的用户意图。在一些示例中,确定该一个或多个先前的用户意图是否包括不正确用户意图包括确定一个或多个先前的用户意图是否包括与用户选择与第五用户意图不一致的媒体项相关联的第五用户意图。根据确定该一个或多个先前用户意图包括校正不正确用户意图的第三用户意图,确定该一个或多个先前用户意图包括不正确用户意图,其中确定第五用户意图为不正确用户意图。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定多个组合是否包括与少于预先确定数量的媒体项相关联的组合。根据确定多个组合包括与少于预先确定数量的媒体项相关联的组合,该一个或多个辅助用户意图不包括与少于预先确定数量的媒体项相关联的组合。在一些示例中,处理单元708被进一步配置为(例如,利用确定单元714)确定针对一个或多个辅助用户意图中的每个意图的排序分数,其中根据针对一个或多个辅助用户意图中的每个意图的排序分数显示多个媒体项辅助集合。在一些示例中,基于接收媒体搜索请求和一个或多个先前媒体搜索请求的次序,确定一个或多个辅助用户意图的排序分数。在一些示例中,基于用户的选择历史确定针对一个或多个辅助用户意图中的每个意图的排序分数,该选择历史包括用户先前选择的媒体项。在一些示例中,基于用户的媒体搜索历史确定针对一个或多个辅助用户意图中的每个意图的排序分数。在一些示例中,在用户界面的顶行显示媒体项主要集合,在用户界面的后续行中显示多个媒体项辅助集合,该后续行低于顶行,后续行的每行对应于一个或多个辅助用户意图的相应辅助用户意图。在一些示例中,根据一个或多个辅助用户意图中的每个意图的排序分数对后续行排序。根据一些实施方案,处理单元708被配置为(例如,在输入单元703或音频接收单元704处,利用接收单元722或音频接收使能单元716)接收第一媒体搜索请求。处理单元708被进一步配置为(例如,利用获得单元718)获得满足媒体搜索请求的第一组媒体项。处理单元708被进一步配置为(例如,利用显示使能单元)在显示单元上经由用户界面显示第一组媒体项。在显示第一组媒体项的至少一部分时,处理单元708被进一步配置为(例如,在输入单元703或音频接收单元704处,利用接收单元722或音频接收使能单元716)接收第二媒体搜索请求并(例如,利用获得单元718)获得第二媒体搜索请求是否是缩小第一媒体搜索请求范围的请求的确定。处理单元708被进一步配置为响应于获得第二媒体搜索请求是缩小第一媒体搜索请求范围的确定,(例如,利用获得单元718)获得满足第二媒体搜索请求的第二组媒体项,该第二组媒体项是多个媒体项的子集,并(例如,利用显示使能单元710)利用经由用户界面的第二组媒体项的至少一部分的显示替换显示单元上第一组媒体项的至少一部分的显示。在一些示例中,第二组媒体项中的每个媒体项都与第一媒体搜索请求的一个或多个参数值和第二媒体搜索请求的一个或多个参数值相关联。在一些示例中,处理单元708被进一步配置为(例如,利用显示使能单元710)在显示第一组媒体项时并在显示第二组媒体项的至少一部分时,在显示单元上显示媒体内容。在一些示例中,该用户界面占据显示单元显示区域的至少大部分。处理单元708被进一步配置为(例如,利用获得单元718)获得至少部分满足第二媒体搜索请求的第三组媒体项,其中第二组媒体项和第三组媒体项是不同的。处理单元708被进一步配置为(例如,利用显示使能单元710)在显示单元上经由用户界面显示第三组媒体项的至少一部分。在一些示例中,第三组媒体项中的每个媒体项与在第一媒体搜索请求或第二媒体搜索请求中定义的至少一个参数值相关联。在一些示例中,在用户界面的顶行显示第二组媒体项的至少一部分,并且其中在用户界面的一个或多个后续行显示第三组媒体项的至少一部分。在一些示例中,在接收第二媒体搜索请求时,用户界面的焦点在第一组媒体项的媒体项上,并且第三组媒体项在上下文上与第一组媒体项的媒体项相关。在一些示例中,获得该第二媒体搜索请求是否是缩小媒体搜索请求范围的请求的确定包括获得第二媒体搜索请求是否包含多个细化条款的之一的确定。在一些示例中,第二媒体搜索请求是自然语言形式的。在一些示例中,第二媒体搜索请求利用含糊术语定义参数值。在一些示例中,处理单元708被进一步配置为(例如,利用识别单元720)使用自然语言处理,基于含糊术语和参数值之间的连接强度识别参数值。在一些示例中,第一组媒体项中的每个媒体项与质量评级相关联,第二媒体搜索请求定义与质量评级相关联的参数值。在一些示例中,第一组媒体项中的每个媒体项都与持续时间相关联,并且其中第二媒体搜索请求定义与持续时间相关联的参数值。在一些示例中,第一组媒体项中的每个媒体项与流行度评级相关联,并且第二媒体搜索请求定义与流行度评级相关联的参数值。在一些示例中,第一组媒体项中的每个媒体项与发布日期相关联,并且第二媒体搜索请求定义与发布日期相关联的参数值。在一些示例中,处理单元708被进一步配置为响应于获得第二媒体搜索请求不是缩小第一媒体搜索请求范围的确定,(例如,利用获得单元718)获得满足第二媒体搜索请求的第四组媒体项,该第四组媒体项与第一组媒体项不同,并(例如,利用显示使能单元710)利用经由用户界面的第四组媒体项的至少一部分的显示替换显示单元上第一组媒体项的至少一部分的显示。在一些示例中,第四组媒体项中的每个媒体项与第二媒体搜索请求中定义的一个或多个参数相关联。在一些示例中,处理单元708被进一步配置为(例如,利用显示使能单元710)在显示第一组媒体项时并在显示第四组媒体项的至少一部分时,在显示单元上显示媒体内容。在一些示例中,该用户界面占据显示单元显示区域的至少大部分。处理单元708被进一步配置为(例如,利用获得单元718)获得第五组媒体项,其中第五组媒体项中的每个媒体项与第一媒体搜索请求中定义的一个或多个参数以及第二媒体搜索请求中定义的一个或多个参数相关联。处理单元708被进一步配置为(例如,利用显示使能单元710)经由用户界面在显示单元上显示第五组媒体项。在一些示例中,在接收第二媒体搜索请求时,用户界面的焦点在第一组媒体项的第二媒体项上,并且第五多个媒体项的一个或多个媒体项包括与第一组媒体项的第二媒体项相关联的参数值。在一些示例中,在检测到第二媒体搜索请求时,用户界面的焦点在第一组媒体项中的第三媒体项上。处理单元708被进一步配置为响应于获得第二媒体搜索请求不是缩小第一媒体搜索请求范围的请求的确定,(例如,利用获得单元718)获得第二媒体搜索请求是否是获得类似于第一组媒体项中的第三媒体项的另选组媒体项的请求的确定。处理单元708被进一步配置为响应于获得第二媒体搜索请求是获得类似于第一组媒体项中的第三媒体项的另选组媒体项的请求的确定,(例如,利用获得单元718)获得第六组媒体项,其中第六组媒体项中的每个媒体项都与第三媒体项的一个或多个参数值相关联,并(例如,利用显示使能单元710)在显示单元上经由用户界面显示第六组媒体项。在一些示例中,第一组媒体项是通过基于第一媒体搜索请求执行字符串搜索获得的,并且第二组媒体项是通过基于第二媒体搜索请求中定义的一个或多个参数值执行结构化搜索获得的。在一些示例中,第一媒体搜索请求是经由键盘界面接收的,并且第二媒体搜索请求是以自然语言语音的形式接收的。在一些示例中,使用第一组媒体项执行结构化搜索。任选地,由图1-图3和4A-图4B中所示的部件实施上文参考图5A-图5E所述的操作。例如,可以由操作系统252、GUI模块256、应用模块262、I/O处理模块428、STT处理模块430、自然语言处理模块432、任务流处理模块436、服务处理模块438或处理器204,404中的一个或多个实施显示操作502,522,534,540,548,564,568,检测操作504,确定操作508,510,538,544,550,552,560、获得操作520,524,536,546,562,566,识别操作526,528,542,554,排除操作558和生成操作530,556。本领域的普通技术人员会清楚地知道可如何基于图1-图3和图4A-图4B中描绘的部件来实施其他过程。根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述方法的任一种方法的指令。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括用于执行本文所述的方法中的任一种方法的装置。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法中的任一种方法。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的方法中的任一种方法的指令。在以下项目中阐述了示例性方法、非暂态计算机可读存储介质、系统和电子设备。1.一种用于操作媒体系统的数字助理的方法,所述方法包括:在包括一个或多个处理器和存储器的一个或多个电子设备处:在显示单元上显示媒体项主要集合;响应于检测到用户输入,接收包含自然语言语音形式的媒体相关请求的音频输入;确定对应于所述媒体相关请求的主要用户意图;确定所述主要用户意图是否包括缩小对应于所述媒体项主要集合的主要媒体搜索查询范围的用户意图;根据确定所述主要用户意图包括缩小所述主要媒体搜索查询范围的用户意图:基于所述媒体相关请求和所述主要媒体搜索查询生成对应于所述主要用户意图的第二主要媒体搜索查询;执行所述第二主要媒体搜索查询以获得第二媒体项主要集合;以及用所述第二媒体项主要集合的显示替换所述媒体项主要集合的显示。2.根据项目1所述的方法,其中确定所述主要用户意图是否包括缩小所述主要媒体搜索查询范围的用户意图包括:确定所述媒体相关请求是否包括对应于缩小所述主要媒体搜索查询范围的用户意图的字词或短语。3.根据项目1至2中任一项所述的方法,其中所述第二主要媒体搜索查询包括在所述媒体相关请求中定义的一个或多个参数值以及所述主要媒体搜索查询的一个或多个参数值。4.根据项目1至3中任一项所述的方法,其中基于所述媒体项主要集合获得所述第二媒体项主要集合。5.根据项目1至4中任一项所述的方法,其中所述第二主要媒体搜索查询包括一组参数值,并且所述方法还包括:从所述组参数值识别参数值的核心集合,所述参数值的核心集合比所述组参数值具有更少参数值;基于所述参数值的核心集合生成一个或多个附加媒体搜索查询;执行所述一个或多个附加媒体搜索查询以获得一个或多个媒体项附加集合;以及在所述显示单元上显示所述一个或多个媒体项附加集合。6.根据项目5所述的方法,还包括:基于多个用户的媒体选择历史识别一个或多个附加参数值,其中所述一个或多个附加媒体搜索查询是使用所述一个或多个附加参数值生成的。7.根据项目5至6中任一项所述的方法,其中在所述显示单元上的用户界面的顶行显示所述第二媒体项主要集合,并且其中在显示单元上所述用户界面的一个或多个后续行显示所述一个或多个媒体项附加集合。8.根据项目1至7中任一项所述的方法,还包括:根据确定所述主要用户意图不包括缩小所述主要媒体搜索查询范围的用户意图:确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图;根据确定所述主要用户意图包括执行新媒体搜索查询的用户意图:基于所述媒体相关请求生成对应于所述主要用户意图的第三主要媒体搜索查询;确定是否可以获得至少一个对应于所述第三主要媒体搜索查询的媒体项;根据确定可以获得对应于所述第三主要媒体搜索查询的至少一个媒体项:执行所述第三主要媒体搜索查询以获得第三媒体项主要集合;以及用所述第三媒体项主要集合的显示替换所述媒体项主要集合的显示。9.根据项目8所述的方法,其中确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图还包括:确定所述媒体相关请求是否包括对应于执行新媒体搜索查询的用户意图的字词或短语。10.根据项目8至9中任一项所述的方法,其中确定所述主要用户意图是否包括执行新媒体搜索查询的用户意图还包括:确定所述媒体相关请求是否包括对应于一个或多个媒体项的参数值的字词或短语。11.根据项目8至10中任一项所述的方法,其中执行所述第三主要媒体搜索查询包括执行多个候选媒体项的归一化排序,所述多个候选媒体项具有多个媒体类型。12.根据项目8至11中任一项所述的方法,其中确定所述主要用户意图包括确定与所述媒体相关请求相关联的媒体类型,并且其中所述第三主要媒体搜索查询是根据所述所确定的媒体类型执行的。13.根据项目8至12中任一项所述的方法,其中执行所述第三主要媒体搜索查询包括识别与所述所识别候选媒体项的一个或多个媒体评论中包括的参数值相关联的候选媒体项。14.根据项目8至13中任一项所述的方法,其中执行所述第三主要媒体搜索查询包括识别与从所述所识别的候选媒体项的隐藏字幕信息导出的参数值相关联的候选媒体项。15.根据项目8至14中任一项所述的方法,还包括:根据确定没有媒体项对应于所述第三主要媒体搜索查询:识别所述第三主要媒体搜索查询的最不相关参数值;基于所述所识别的最不相关参数值,确定一个或多个另选的参数值;使用所述一个或多个另选的参数值执行一个或多个另选的主要媒体搜索查询以获得第四媒体项主要集合;以及用所述第四媒体项主要集合的显示替换所述媒体项主要集合的显示。16.根据项目8至15中任一项所述的方法,还包括:根据确定所述主要用户意图不包括缩小所述主要媒体搜索查询范围的用户意图:基于所述主要用户意图和一个或多个先前用户意图确定一个或多个辅助用户意图,所述一个或多个先前用户意图对应于在所述媒体相关请求之前接收的一个或多个先前媒体相关请求;生成对应于所述一个或多个辅助用户意图的一个或多个辅助媒体搜索查询;执行所述一个或多个辅助媒体搜索查询以获得一个或多个媒体项辅助集合;以及在所述显示单元上显示所述一个或多个媒体项辅助集合。17.根据项目16所述的方法,其中所述一个或多个先前的媒体相关请求包括对应于所述媒体项主要集合的先前的媒体相关请求。18.根据项目16至17中任一项所述的方法,还包括:确定所述主要用户意图和所述一个或多个先前用户意图的一个或多个组合,其中所述一个或多个组合中的每个与至少一个媒体项相关联,并且其中所述一个或多个辅助意图包括所述一个或多个组合。19.根据项目16至18中任一项所述的方法,其中所述一个或多个先前的用户意图和所述主要用户意图与和所述数字助理进行的同一交互会话相关联。20.根据项目16至19中任一项所述的方法,其中基于用户在所述一个或多个电子设备上的媒体搜索历史生成所述一个或多个辅助用户意图。21.根据项目16至20中任一项所述的方法,其中基于用户在所述一个或多个电子设备上的媒体选择历史生成所述一个或多个辅助用户意图。22.根据项目16至21中任一项所述的方法,还包括:从第二电子设备接收媒体搜索历史,其中基于从所述第二电子设备接收的所述媒体搜索历史生成所述一个或多个辅助用户意图。23.根据项目16至22中任一项所述的方法,其中基于用户在所述一个或多个电子设备上的媒体观看列表生成所述一个或多个辅助用户意图。24.根据项目16至23中任一项所述的方法,其中:在接收所述音频输入时,在所述显示单元上显示多个文本;在接收所述音频输入时,在所述显示单元上显示与多个媒体项相关联的所述多个文本;以及基于所述所显示的多个文本生成所述一个或多个辅助用户意图。25.根据项目16至24中任一项所述的方法,还包括:确定针对所述一个或多个辅助用户意图中的每个意图的排序分数,其中根据针对所述一个或多个辅助用户意图中的每个意图的所述排序分数显示所述一个或多个媒体项辅助集合。26.根据项目25所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于接收所述媒体相关请求和所述一个或多个先前媒体相关请求的每个的时间。27.根据项目25至26中任一项所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体搜索历史。28.根据项目25至27中任一项所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体选择历史。29.根据项目25至28中任一项所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数基于用户在所述一个或多个电子设备上的媒体观看列表。30.根据项目8至29中任一项所述的方法,还包括:根据确定所述主要用户意图不包括执行新媒体搜索查询的用户意图:确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图;根据确定所述主要用户意图包括校正所述主要媒体搜索查询的一部分的用户意图;基于所述媒体相关请求和所述主要媒体搜索查询请求,生成对应于所述主要用户意图的第五主要媒体搜索查询;执行所述第五主要媒体搜索查询以获得第五媒体项主要集合;以及用所述第五媒体项主要集合的显示替换所述媒体项主要集合的显示。31.根据项目30所述的方法,其中确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图包括:确定所述媒体相关请求是否包括对应于校正所述主要媒体搜索查询的一部分的用户意图的字词或短语。32.根据项目30至31中任一项所述的方法,其中确定所述主要用户意图是否包括校正所述主要媒体搜索查询的一部分的用户意图包括:确定表示所述媒体相关请求的一部分的音素序列是否基本上类似于表示对应于所述主要媒体搜索查询的先前媒体相关请求的一部分的音素序列。33.根据项目30至32中任一项所述的方法,其中生成所述第五主要媒体搜索查询包括:识别与不被校正的所述主要媒体搜索查询的一部分相关联的一组媒体项,其中基于与不被校正的所述主要媒体搜索查询的所述部分相关联的所述组媒体项的一个或多个参数值生成所述第五主要媒体搜索查询。34.根据项目30至33中任一项所述的方法,还包括:根据确定所述主要用户意图包括校正所述主要媒体搜索查询的一部分的用户意图:在确定对应于所述媒体相关请求的辅助用户意图时,从考虑中排除所述主要媒体搜索查询。35.根据项目30至34中任一项所述的方法,还包括:根据确定所述主要用户意图不包括校正所述主要媒体搜索查询的一部分的用户意图:确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图,其中所述用户界面包括多个媒体项;以及根据确定所述主要用户意图包括改变显示在所述显示单元上的用户界面的焦点的用户意图,将所述用户界面的焦点从所述多个媒体项中的第一媒体项改变为所述多个媒体项中的第二媒体项。36.根据项目35所述的方法,其中确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图包括:确定所述媒体相关请求是否包括对应于改变显示在所述显示单元上的用户界面的焦点的用户意图的字词或短语。37.根据项目35至36中任一项所述的方法,其中所述用户界面包括对应于所述用户界面中所述多个媒体项的多个文本,并且其中所述确定所述主要用户意图是否包括改变显示在所述显示单元上的用户界面的焦点的用户意图基于所述多个文本。38.根据项目1至37中任一项所述的方法,还包括:确定所述媒体相关请求的文本表示;以及在所述显示单元上显示所述文本表示。39.根据项目38所述的方法,其中使用一个或多个语言模型确定该所述文本表示。40.根据项目39所述的方法,其中所述一个或多个语言模型偏向媒体相关文本结果。41.根据项目39至40中任一项所述的方法,其中所述一个或多个语言模型被配置为在多种语言中识别媒体相关文本。42.根据项目38至41中任一项所述的方法,其中在所述显示单元上显示多个媒体项以及与所述多个媒体项相关联的文本,并且还包括:使用与所述多个媒体项相关联的所述文本生成第二语言模型,其中所述文本表示是利用所述第二语言模型确定的。43.根据项目38至42中任一项所述的方法,还包括:利用所述文本表示确定预测文本;在所述显示单元上与所述文本表示一起显示所述预测文本。44.根据项目43所述的方法,其中基于接收所述音频输入的同时在所述显示单元上显示的文本确定所述预测文本。45.根据项目43至44中任一项所述的方法,还包括:确定在显示所述预测文本之后是否检测到所述音频输入的结束点,其中根据确定在显示所述预测文本之后检测到所述音频输入结束点,使用所述文本表示和所述预测文本确定所述主要用户意图。46.根据项目1至45中任一项所述的方法,还包括:在接收所述音频输入时:基于所述音频输入的接收部分确定初步用户意图;识别满足所述初步用户意图所需的数据;确定在确定所述初步用户意图时所述数据是否存储于所述一个或多个电子设备上;以及根据确定在确定所述初步用户意图时所述数据未存储于所述一个或多个电子设备上,获得所述数据。47.一种用于与媒体系统的数字助理交互的方法,所述方法包括:在包括一个或多个处理器和存储器的一个或多个电子设备处:从用户接收自然语言语音形式的媒体搜索请求;确定对应于所述媒体搜索请求的主要用户意图;根据所述主要用户意图获得媒体项主要集合;确定是否存在一个或多个先前用户意图,所述一个或多个先前用户意图对应于在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求;以及响应于确定存在一个或多个先前用户意图:基于所述主要用户意图和所述一个或多个先前用户意图确定一个或多个辅助用户意图;获得多个媒体项辅助集合,其中每个媒体项辅助集合对应于所述一个或多个辅助用户意图的相应辅助用户意图;以及显示所述媒体项主要集合和所述多个媒体项辅助集合。48.根据项目47所述的方法,其中确定所述主要用户意图还包括:确定所述媒体搜索请求是否包含在所述媒体搜索请求之前接收的缩小先前媒体搜索请求范围的明示请求,其中根据确定所述媒体搜索请求包含缩小所述先前媒体搜索请求范围的明示请求,从所述媒体搜索请求和所述一个或多个先前用户意图中的至少一个意图确定所述主要用户意图。49.根据项目48所述的方法,其中响应于确定所述媒体搜索请求不包含缩小所述先前媒体搜索请求范围的明示请求,从所述媒体搜索请求确定所述主要用户意图。50.根据项目47至49中任一项所述的方法,其中所述媒体搜索请求是与所述数字助理的交互会话的部分,并且其中确定是否存在一个或多个先前用户意图还包括:确定所述交互会话是否包括在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求,其中所述一个或多个先前媒体搜索请求对应于一个或多个先前用户意图,其中:根据确定所述交互会话包含在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定存在一个或多个先前用户意图;以及根据确定所述交互会话不包含在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求,确定不存在一个或多个先前用户意图。51.根据项目47至50中任一项所述的方法,还包括:响应于确定不存在一个或多个先前媒体用户意图,显示所述媒体项主要集合。52.根据项目47至51中任一项所述的方法,其中所述一个或多个辅助用户意图中的辅助用户意图包括所述主要用户意图和所述一个或多个先前用户意图的先前用户意图的组合。53.根据项目47至52中任一项所述的方法,其中所述一个或多个辅助用户意图中的辅助用户意图包括所述一个或多个先前用户意图的第一先前用户意图和所述一个或多个先前用户意图的第二先前用户意图的组合。54.根据项目47至53中任一项所述的方法,其中确定一个或多个辅助用户意图还包括:生成所述主要用户意图和所述一个或多个先前用户意图的多个组合。55.根据项目54所述的方法,其中确定一个或多个辅助用户意图还包括:确定所述多个组合是否包括不能合并的组合;其中根据确定所述多个组合包括不能合并的用户意图组合,所述一个或多个辅助用户意图不包括不能合并的所述组合。56.根据项目55所述的方法,其中不能合并的所述组合包括针对需要奇异值的参数的多于一个值。57.根据项目54至56中任一项所述的方法,其中确定一个或多个辅助用户意图还包括:确定所述一个或多个先前用户意图是否包括不正确用户意图;其中根据确定所述一个或多个先前用户意图包括不正确用户意图:所述一个或多个辅助用户意图不基于所述不正确用户意图。58.根据项目57所述的方法,其中确定所述一个或多个先前用户意图是否包括不正确用户意图包括:确定所述一个或多个先前用户意图是否包括校正所述一个或多个先前用户意图的第四用户意图的第三用户意图;其中根据确定所述一个或多个先前用户意图包括校正所述一个或多个先前用户意图的第四用户意图的第三用户意图,确定所述一个或多个先前用户意图包括不正确用户意图,并且其中确定所述第四用户意图为所述不正确用户意图。59.根据项目57所述的方法,其中确定所述一个或多个先前用户意图是否包括不正确用户意图包括:确定所述一个或多个先前用户意图是否包括与用户选择与所述第五用户意图不一致的媒体项相关联的第五用户意图;其中根据确定所述一个或多个先前用户意图包括校正所述不正确用户意图的第三用户意图,确定所述一个或多个先前用户意图包括不正确用户意图,其中确定所述第五用户意图为所述不正确用户意图。60.根据项目54至59中任一项所述的方法,还包括:确定所述多个组合是否包括与少于预先确定数量媒体项相关联的组合;其中根据确定所述多个组合包括与少于预先确定数量的媒体项相关联的组合,所述一个或多个辅助用户意图不包括与少于预先确定数量的媒体项相关联的所述组合。61.根据项目47至60中任一项所述的方法,还包括:确定针对所述一个或多个辅助用户意图中的每个意图的排序分数,其中根据针对所述一个或多个辅助用户意图中的每个意图的所述排序分数显示所述多个媒体项辅助集合。62.根据项目61所述的方法,其中基于接收所述媒体搜索请求和所述一个或多个先前媒体搜索请求的次序,确定针对所述一个或多个辅助用户意图中的每个意图的所述排序分数。63.根据项目61至62中任一项所述的方法,其中基于所述用户的选择历史确定针对所述一个或多个辅助用户意图中的每个意图的所述排序分数,所述选择历史包括所述用户先前选择的媒体项。64.根据项目61至63中任一项所述的方法,其中针对所述一个或多个辅助用户意图中的每个意图的所述排序分数是基于所述用户的媒体搜索历史确定的。65.根据项目47至64中任一项所述的方法,其中:在用户界面的顶行显示所述媒体项主要集合;在所述用户界面的后续行中显示所述多个媒体项辅助集合,所述后续行在所述顶行下方;以及所述后续行的每行都对应于所述一个或多个辅助用户意图的相应辅助用户意图。66.根据项目65所述的方法,其中:根据所述一个或多个辅助用户意图中的每个意图的所述排序分数对所述后续行排序。67.一种用于与媒体系统的数字助理交互的方法,所述方法包括:在包括一个或多个处理器和存储器的电子设备处:接收第一媒体搜索请求;获得满足所述第一媒体搜索请求的第一组媒体项;在显示单元上经由用户界面显示所述第一组媒体项;在显示所述第一组媒体项的至少一部分的同时,接收第二媒体搜索请求;获得所述第二媒体搜索请求是否是缩小所述第一媒体搜索请求范围的请求的确定;以及响应于获得所述第二媒体搜索请求是缩小所述第一媒体搜索请求范围的请求的确定:获得满足所述第二媒体搜索请求的第二组媒体项,所述第二组媒体项为所述多个媒体项的子集;以及用所述第二组媒体项的至少一部分经由所述用户界面的显示替换所述第一组媒体项的至少一部分的显示。68.根据项目67所述的方法,其中所述第二组媒体项中的每个媒体项都与所述第一媒体搜索请求的一个或多个参数值和所述第二媒体搜索请求的一个或多个参数值相关联。69.根据项目67至68中任一项所述的方法,还包括:在显示所述第一组媒体项时并在显示所述第二组媒体项的所述至少一部分时,在所述显示单元上显示媒体内容。70.根据项目67至68中任一项所述的方法,其中所述用户界面占据所述显示单元显示区域的至少大部分,并且所述方法还包括:获得至少部分地满足所述第二媒体搜索请求的第三组媒体项,其中所述第二组媒体项和所述第三组媒体项是不同的;以及在所述显示单元上经由所述用户界面显示所述第三组媒体项的至少一部分。71.根据项目70所述的方法,其中所述第三组媒体项中的每个媒体项与在所述第一媒体搜索请求或所述第二媒体搜索请求中定义的至少一个参数值相关联。72.根据项目70至71中任一项所述的方法,其中在所述用户界面的顶行显示所述第二组媒体项的所述至少一部分,并且其中在所述用户界面的一个或多个后续行显示所述第三组媒体项的所述至少一部分。73.根据项目70至72中任一项所述的方法,其中在接收所述第二媒体搜索请求时,所述用户界面的焦点在所述第一组媒体项的媒体项上,并且其中所述第三组媒体项在上下文上与所述第一组媒体项的所述媒体项相关。74.根据项目67至73中任一项所述的方法,其中获得所述第二媒体搜索请求是否是缩小所述第一媒体搜索请求范围的请求的确定包括获得所述第二媒体搜索请求是否包含多个细化条款之一的确定。75.根据项目67至74中任一项所述的方法,其中所述第二媒体搜索请求是自然语言形式的。76.根据项目67至75中任一项所述的方法,其中所述第二媒体搜索请求使用含糊术语定义参数值。77.根据项目76所述的方法,还包括:使用自然语言处理基于所述含糊术语和所述参数值之间的连接强度识别所述参数值。78.根据项目67至77中任一项所述的方法,其中所述第一组媒体项中的每个媒体项都与质量评级相关联,并且其中所述第二媒体搜索请求定义与所述质量评级相关联的参数值。79.根据项目67至78中任一项所述的方法,其中所述第一组媒体项中的每个媒体项都与持续时间相关联,并且其中所述第二媒体搜索请求定义与所述持续时间相关联的参数值。80.根据项目67至79中任一项所述的方法,其中所述第一组媒体项中的每个媒体项都与流行度评级相关联,并且其中所述第二媒体搜索请求定义与所述流行度评级相关联的参数值。81.根据项目67至80中任一项所述的方法,其中所述第一组媒体项中的每个媒体项都与发布日期相关联,并且其中所述第二媒体搜索请求定义与所述发布日期相关联的参数值。82.根据项目67至81中任一项所述的方法,还包括:响应于获得所述第二媒体搜索请求不是缩小所述第一媒体搜索请求范围的请求的确定:获得满足所述第二媒体搜索请求的第四组媒体项,所述第四组媒体项与所述第一组媒体项不同;以及用所述第四组媒体项的至少一部分经由所述用户界面的显示替换所述第一组媒体项的至少一部分的显示。83.根据项目82所述的方法,其中所述第四组媒体项中的每个媒体项与所述第二媒体搜索请求中定义的一个或多个参数相关联。84.根据项目82至83中任一项所述的方法,还包括:在显示所述第一组媒体项的同时并在显示所述第四组媒体项的所述至少一部分时,在所述显示单元上显示媒体内容。85.根据项目82至84中任一项所述的方法,其中所述用户界面占据所述显示单元显示区域的至少大部分,并且所述方法还包括:获得第五组媒体项,其中所述第五组媒体项中的每个媒体项都与所述第一媒体搜索请求中定义的一个或多个参数和所述第二媒体搜索请求中定义的一个或多个参数相关联;以及在所述显示单元上经由所述用户界面显示所述第五组媒体项。86.根据项目85所述的方法,其中在接收所述第二媒体搜索请求时,所述用户界面的焦点在所述第一组媒体项的第二媒体项上,并且其中所述第五多个媒体项的一个或多个媒体项包括与所述第一组媒体项的所述第二媒体项相关联的参数值。87.根据项目67至86中任一项所述的方法,其中在检测到所述第二媒体搜索请求时,所述用户界面的焦点在所述第一组媒体项中的第三媒体项上,并且所述方法还包括:响应于获得所述第二媒体搜索请求不是缩小所述第一媒体搜索请求范围的请求的确定:获得所述第二媒体搜索请求是否是获得与所述第一组媒体项的所述第三媒体项类似的另选组媒体项的请求的确定;响应于获得所述第二媒体搜索请求是获得与所述第一组媒体项的所述第三媒体项类似的另选组媒体项的请求的确定:获得第六组媒体项,其中所述第六组媒体项中的每个媒体项都与所述第三媒体项的一个或多个参数值相关联;以及在所述显示单元上经由所述用户界面显示所述第六组媒体项。88.根据项目67至87中任一项所述的方法,其中所述第一组媒体项是通过基于所述第一媒体搜索请求执行字符串搜索获得的,并且其中所述第二组媒体项是通过基于所述第二媒体搜索请求中定义的一个或多个参数值执行结构化搜索获得的。89.根据项目88所述的方法,其中所述第一媒体搜索请求是经由键盘接口接收的,并且其中所述第二媒体搜索请求是以自然语言语音的形式接收的。90.根据项目88至89中任一项所述的方法,其中使用所述第一组媒体项执行所述结构化搜索。91.一种非暂态计算机可读存储介质,包括用于执行项目1至90中任一项所述的方法的计算机可执行指令。92.一种系统,包括:根据项目91所述的非暂态计算机可读存储介质;以及处理器,所述处理器被配置为执行所述计算机可执行指令。93.一种设备,包括用于执行根据项目1至90中任一项所述的方法的装置。94.一种电子设备,包括:输入单元;音频接收单元;以及处理单元,所述处理单元耦接至所述输入单元和所述音频接收单元,其中所述处理单元被配置为:在显示单元上显示媒体项主要集合;响应于经由所述输入单元检测到用户输入,经由所述音频接收单元接收音频输入,所述音频输入包含自然语言语音形式的媒体相关请求;确定对应于所述媒体相关请求的主要用户意图;确定所述主要用户意图是否包括缩小对应于所述媒体项主要集合的主要媒体搜索查询范围的用户意图;根据确定所述主要用户意图包括缩小所述主要媒体搜索查询范围的用户意图:基于所述媒体相关请求和所述主要媒体搜索查询生成对应于所述主要用户意图的第二主要媒体搜索查询;执行所述第二主要媒体搜索查询以获得第二媒体项主要集合;以及用所述显示单元上所述第二媒体项主要集合的显示替换所述媒体项主要集合的显示。95.一种电子设备,包括:音频接收单元;以及处理单元,所述处理单元耦接至所述音频接收单元,其中所述处理单元被配置为:经由所述音频接收单元从用户接收媒体搜索请求,其中所述媒体搜索请求是自然语言语音形式的;确定对应于所述媒体搜索请求的主要用户意图;根据所述主要用户意图获得媒体项主要集合;确定是否存在一个或多个先前用户意图,所述一个或多个先前用户意图对应于在所述媒体搜索请求之前接收的一个或多个先前媒体搜索请求;以及响应于确定存在一个或多个先前用户意图:基于所述主要用户意图和所述一个或多个先前用户意图确定一个或多个辅助用户意图;获得多个媒体项辅助集合,其中每个媒体项辅助集合对应于所述一个或多个辅助用户意图的相应辅助用户意图;以及在显示单元上显示所述媒体项主要集合和所述多个媒体项辅助集合。96.一种电子设备,包括:输入单元;以及处理单元,所述处理单元耦接到所述输入单元,其中所述处理单元被配置为:经由所述输入单元接收第一媒体搜索请求;获得满足所述第一媒体搜索请求的第一组媒体项;在显示单元上经由用户界面显示所述第一组媒体项;在显示所述第一组媒体项的至少一部分的同时,接收第二媒体搜索请求;获得所述第二媒体搜索请求是否是缩小所述第一媒体搜索请求范围的请求的确定;以及响应于获得所述第二媒体搜索请求是缩小所述第一媒体搜索请求范围的请求的确定:获得满足所述第二媒体搜索请求的第二组媒体项,所述第二组媒体项为所述多个媒体项的子集;以及用所述第二组媒体项的至少一部分经由所述用户界面的显示替换所述第一组媒体项的至少一部分的显示。尽管上述描述使用术语“第一”、“第二”等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一个元素与另一个元素区分开。例如,在不脱离各种所述实施方案的范围的情况下,第一用户输入可被称为第二用户输入,并且类似地,第二用户输入可被称为第一用户输入。在本文中对各种所述实施方案的描述中所使用的术语只是为了描述特定实施方案的目的,而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样,单数形式“一个”、“该”和“所述”旨在也包括复数形式,除非上下文另外明确地指示。还应当理解,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。将进一步理解的是,术语“包括”(“includes”,“including”,“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。根据上下文,术语“如果”可被解释为意指“当......时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定......”或“如果检测到[所陈述的条件或事件]”可以被解释为意指“在确定......时”或“响应于确定......”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。此外,出于解释的目的,已经参考具体实施方案对上述描述进行了描述。然而,上面的例示性论述并非旨在为穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所设想的特定用途的各种修改的各种实施方案。虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。此类变化和修改被理解为包括在由权利要求书所限定的本公开和示例的范围内。此外,在本文论述的各种示例的任何示例中,各方面可以针对特定用户而被个性化。可以使用包括联系人、偏好、位置、收藏媒体等的用户数据解释语音命令并方便用户与本文论述的各种设备交互。本文论述的各种过程也可以根据用户偏好、联系人、文本、使用历史、配置文件数据、人口统计信息等通过各种其他方式修改。此外,可以基于用户交互(例如,频繁讲出的命令、频繁选择的应用等)随时间更新此类偏好和设置。可以利用可从各种源获得的用户数据的收集和使用来改进向用户传递他们可能感兴趣的邀请内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还设想个人信息数据有益于用户的其他用途。本公开进一步设想负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地讲,此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应仅在用户知情同意之后进行。此外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保有权访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的示例。即本公开设想可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中,用户可选择不为目标内容递送服务提供位置信息。在另一个示例中,用户可选择不提供精确的位置信息,但准许传输位置区域信息。因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还设想各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺乏此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。媒体环境中的智能自动化助理相关申请的交叉引用本专利申请要求提交于2015年9月8日的名称为“IntelligentAutomatedAssistantinaMediaEnvironment”的美国临时序列号62/215,676的优先权,该申请据此全文以引用方式并入本文,以用于所有目的。本申请涉及以下共同未决的申请:2015年12月8日提交的名称为“IntelligentAutomatedAssistantforMediaSearchandPlayback”的美国非临时专利申请序列号………………………(代理档案号106842137900(P27499US1)),2014年9月26日提交的名称为“IntelligentAutomatedAssistantforTVUserInteractions”的美国非临时专利申请序列号14/498,503(代理档案号106842065100(P18133US1)),以及2014年9月26日提交的名称为“Real-timeDigitalAssistantKnowledgeUpdates”的美国非临时专利申请序列号14/498,391(代理档案号106842097900(P22498US1)),这些申请据此全文以引用方式并入本文,以用于所有目的。
技术领域
:本发明整体涉及智能自动化助理,更具体地讲,涉及媒体环境中操作的智能自动化助理。
背景技术
:智能自动化助理(或数字助理)可在用户与电子设备之间提供直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过向与电子设备相关联的虚拟助理提供自然语言形式的语音用户输入来访问电子设备的服务。虚拟助理能够对讲出的用户输入执行自然语言处理以推断用户的意图并将用户意图操作化为任务。随后可通过执行电子设备的一项或多项功能来执行这些任务,并且在一些示例中,可将相关输出以自然语言形式返回给用户。可能期望将数字助理集成到媒体环境(例如,电视、电视机顶盒、有线电视盒、游戏设备、流媒体设备、数字视频录像机等)中来辅助用户完成与媒体消费相关的任务。例如,可以利用数字助理辅助寻找期望的要消费的媒体内容。然而,用户与数字助理的交互可包括音频和视觉输出,其可中断媒体内容的消费。因此将数字助理集成到媒体环境中,以使得在向用户提供足够帮助的同时最小化对媒体内容消费的中断可能具有一定挑战性。
发明内容本发明公开了用于在媒体环境中操作数字助理的系统和过程。在一些示例性过程中,可以在显示内容的同时检测用户输入。该过程可以确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可以显示多个示例性自然语言请求。所述多个示例性自然语言请求可以在上下文上与所显示的内容相关。在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可以确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可以对音频数据取样。该过程可以确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可以执行至少部分地满足用户请求的任务。在一些示例中,该任务可包括获得至少部分地满足用户请求的结果,并显示包括该结果的一部分的第二用户界面。可以在显示第二用户界面的同时继续显示所述内容的一部分,并且第二用户界面的显示区域可以小于所述内容部分的显示区域。在一些实施方案中,可以在显示第二用户界面的同时检测到第三用户输入。响应于检测到第三用户输入,可以将第二用户界面的显示替换为包括所述结果部分的第三用户界面的显示。第三用户界面可以占据显示单元的显示区域的至少大部分。此外,可以获得至少部分地满足用户请求的第二结果。第二结果可以与上述结果不同。第三用户界面可包括第二结果的至少一部分。在一些实施方案中,可以在显示第三用户界面的同时检测到第四用户输入。第四用户输入可指示方向。响应于检测到第四用户输入,第三用户界面的焦点可以从第三用户界面中的第一项目切换到第三用户界面中的第二项目。第二项目可相对于第一项目定位在所指示的方向上。在一些实施方案中,可以在显示第三用户界面的同时检测到第五用户输入。响应于检测到第五用户输入,可以显示搜索字段。另外,可以显示虚拟键盘接口,其中经由虚拟键盘界面接收的输入可导致搜索字段中的文本输入。此外,在一些实施方案中,可以导致可选择示能表示出现在第二电子设备的显示器上,其中选择示能表示使得文本输入能够通过第二电子设备的键盘被电子设备接收。在一些实施方案中,可以在显示第三用户界面的同时检测到第六用户输入。响应于检测到第六用户输入,可以对包含第二用户请求的第二音频数据取样。该过程可以确定第二用户请求是否是请求筛选用户请求的结果。根据确定第二用户请求是请求筛选用户请求的结果,这些结果的子集可经由第三用户界面显示。根据确定第二用户请求不是请求筛选用户请求的结果,可以获得至少部分地满足第二用户请求的第三结果。第三结果的一部分可以经由第三用户界面显示。在一些实施方案中,采样的音频数据可包括用户话语,并且可以确定对应于用户话语的用户意图。该过程可以确定用户意图是否包括对调整应用程序的状态或设置的请求。根据确定用户意图包括对调整应用程序的状态或设置的请求,可以调整应用程序的状态或设置以满足用户意图。在一些实施方案中,根据确定用户意图不包括对调整电子设备上应用程序的状态或设置的请求,该过程可确定用户意图是否是多个预定请求类型中的一者。根据确定用户意图是多个预定请求类型中的一者,可以显示至少部分地满足用户意图的仅文本结果。在一些实施方案中,根据确定用户意图不是多个预定请求类型中的一者,该过程可确定所显示的内容是否包括媒体内容。根据确定所显示的内容包括媒体内容,该过程可进一步确定是否可暂停媒体内容。根据确定可以暂停媒体内容,暂停媒体内容,并且至少部分地满足用户意图的结果可经由第三用户界面显示。第三用户界面可以占据显示单元的显示区域的至少大部分。根据确定不能暂停媒体内容,可以在显示媒体内容的同时经由第二用户界面显示这些结果。由第二用户界面占据的显示区域可小于由媒体内容占据的显示区域。此外,在一些实施方案中,根据确定所显示的内容不包括媒体内容,这些结果可经由第三用户界面显示。附图说明图1是示出根据各种示例的用于实现数字助理的系统和环境的框图。图2是示出了根据各种示例的媒体系统的框图。图3是示出了根据各种示例的用户设备的框图。图4A是示出根据各种示例的数字助理系统或其服务器部分的框图。图4B示出了根据各种示例的图4A所示的数字助理的功能。图4C示出了根据各种示例的知识本体的一部分。图5A至图5I示出了根据各种示例用于操作媒体系统的数字助理的过程。图6A至图6Q示出了根据各种示例在图5A至图5I所示过程的各个阶段由显示单元上的媒体设备显示的屏幕截图。图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程。图8A至图8W示出了根据各种示例在图7A-图7C所示过程的各个阶段由显示单元上的媒体设备显示的屏幕截图。图9示出了根据各种示例用于操作媒体系统的数字助理的过程。图10示出了根据各种示例被配置为操作媒体系统的数字助理的电子设备的功能框图。图11示出了根据各种示例被配置为操作媒体系统的数字助理的电子设备的功能框图。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。这涉及用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中,可以在显示内容的同时检测用户输入。该过程可以确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型,可以显示多个示例性自然语言请求。所述多个示例性自然语言请求可以在上下文上与所显示的内容相关。在上下文上相关的示例性自然语言请求可能是有利的,以方便地通知用户与媒体设备上用户的当前使用条件最相关的数字助理的能力。这样可以鼓励用户利用数字助理的服务,并且还可以改善用户与数字助理的交互体验。在一些实施方案中,根据确定用户输入不对应于第一输入类型,该过程可以确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型,可以对音频数据取样。该过程可以确定音频数据是否包含用户请求。根据确定音频数据包含用户请求,可以执行至少部分地满足用户请求的任务。在一些实施方案中,所执行的任务可以取决于用户请求的性质以及在检测到第二输入类型的用户输入时显示的内容。如果用户请求是请求调整电子设备上应用程序的状态或设置(例如,开启用于所显示媒体内容的字幕),则该任务可包括调整应用程序的状态或设置。如果用户请求是与仅文本输出相关的多个预定请求类型中的一者(例如,对当前时间的请求),则该任务可包括显示满足用户请求的文本。如果所显示内容包括媒体内容并且用户请求需要获得并显示结果,则该过程可以确定是否可以暂停媒体内容。如果确定可暂停媒体内容,则暂停媒体内容,并且在扩展的用户界面(例如,图6H中所示的第三用户界面626)上可以显示满足该用户请求的结果。如果确定不能暂停媒体内容,则可以在继续显示媒体内容的同时,在精简的用户界面(例如,图6G中示出的第二用户界面618)上显示满足该用户请求的结果。第二用户界面的显示区域可以小于媒体内容的显示区域。此外,如果所显示内容不包括媒体内容,则可以在扩展的用户界面上显示满足该用户请求的结果。通过根据所显示内容和用户请求的类型调整输出格式,数字助理可以智能平衡提供全面的帮助,同时最大限度地减少对用户媒体内容消费的中断。这样可以改善用户体验。1.系统和环境图1示出了根据各种示例用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指解译语音形式和/或文本形式的自然语言输入以推断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。例如,为遵照推断出的用户意图来执行动作,系统可执行以下操作中的一者或多者:标识具有被设计用于实现所推断的用户意图的步骤和参数的任务流,将来自所推断的用户意图的特定要求输入到任务流中;通过调用程序、方法、服务、应用编程接口(API)等来执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。具体地,数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求可寻求数字助理作出信息性回答,或寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务,或这两者的组合。例如,用户可向数字助理提出问题,诸如“巴黎现在几点?”该数字助理能够检索请求的信息和响应“现在是巴黎时间下午4:00。”用户还可以请求执行任务,例如,“查找ReeseWitherspoon主演的电影。”作为响应,数字助理可以执行请求的搜索查询并显示相关的电影标题供用户选择。在执行所请求的任务期间,数字助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应并采取编程动作之外,该数字助理还可以其他可视或音频形式提供响应,例如,言语、提示、音乐、图像、视频、动画等。此外,如本文所述,示例性数字助理可以控制媒体内容的回放(例如,在电视机顶盒上),并导致在显示单元(例如,电视)上显示媒体内容或其他信息。显示单元可被称为显示器。如图1中所示,在一些示例中,数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(下文称为“DA客户端102”),以及在服务器系统108上执行的服务器侧部分106(下文称为“DA服务器106”)。此外,在一些示例中,还可以在用户设备122上执行客户端侧部分。DA客户端102可通过一个或多个网络110来与DA服务器106进行通信。DA客户端102可提供客户端侧功能,诸如面向用户的输入和输出处理,以及与DA服务器106进行通信。DA服务器106可为任意数量的DA客户端102提供服务器侧功能,该任意数量的DA客户端102各自位于相应的设备(例如,媒体设备104和用户设备122)上。媒体设备104可以是被配置为管理和控制媒体内容的任何适当的电子设备。例如,媒体设备104可以包括电视机顶盒,诸如有线电视盒设备、卫星盒设备、视频播放器设备、视频流传输设备、数字视频录像机、游戏系统、DVD播放器、蓝光光盘TM播放器、此类设备的组合等。如图1所示,媒体设备104可以是媒体系统128的部分。除媒体设备104之外,媒体系统128可以包括遥控器124和显示单元126。媒体设备104可以在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,媒体设备104可以连接到可以与显示单元126集成或分开的音频系统(例如,音频接收机)和扬声器(未示出)。在其他示例中,显示单元126和媒体设备104可以在单个设备中结合在一起,单个设备诸如是具有高级处理和网络连接能力的智能电视。在此类示例中,可以将媒体设备104的功能作为应用在组合设备上执行。在一些示例中,媒体设备104可以充当针对媒体内容的多种类型和源的媒体控制中心。例如,媒体设备104可以方便用户访问实况电视(例如,空中传输、卫星或有线电视)。这样一来,媒体设备104可以包括电缆调谐器、卫星定时器等。在一些示例中,媒体设备104还可以记录用于稍晚时移观看的电视节目。在其他示例中,媒体设备104能够提供对一个或多个流传输媒体服务的访问,诸如电缆传送的点播电视秀、视频和音乐以及互联网传送的电视秀、视频和音乐(例如,来自各种免费、付费和基于订阅的流传输服务)。在其他示例中,媒体设备104能够促进从任何其他源回放或显示媒体内容,诸如显示来自移动用户设备的照片,播放来自耦合的存储设备的视频,播放来自耦合的音乐播放器的音乐等。如果需要,媒体设备104还可以包括本文论述的媒体控制特征的各种其他组合。下文参考图2提供了对媒体设备104的详细描述。用户设备122可以是任何个人电子设备,诸如移动电话(例如,智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、腕表、胸针、臂带等)等。下文参考图3提供了对用户设备122的详细描述。在一些示例中,用户可以通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如,按钮、麦克风、相机、操纵杆等)与媒体设备104交互。例如,可以在用户设备122和/或遥控器124处接收针对数字助理的包括媒体相关查询或命令的语音输入,该语音输入可以用于使得在媒体设备104上执行媒体相关的任务。同样,可以在用户设备122和/或遥控器124处(以及从未示出的其他设备)接收用于控制媒体设备104上的媒体的触觉命令。因此可以通过各种方式控制媒体设备104的各种功能,给用户用于从多个设备控制媒体内容的多种选项。一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN),例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议语音(VoIP)、Wi-MAX、或任何其他合适的通信协议。DA服务器106可包括面向客户端的输入/输出(I/O)接口112、一个或多个处理模块114、数据和模型116,以及至外部服务的I/O接口118。面向客户端的I/O接口112可促进针对DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据和模型116来处理语音输入,并基于自然语言输入来确定用户的意图。此外,一个或多个处理模块114可基于推断出的用户意图来进行任务执行。在一些示例中,DA服务器106可以通过用于任务完成或信息采集的网络110与外部服务120通信,诸如电话服务、日历服务、信息服务、消息服务、导航服务、电视节目服务、流媒体服务、媒体搜索服务等。至外部服务的I/O接口118可促进此类通信。服务器系统108可在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中,服务器系统108还可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。虽然图1中所示的数字助理可包括客户端侧部分(例如,DA客户端102)和服务器侧部分(例如,DA服务器106)两者,但在一些示例中,数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用。此外,数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并将数字助理的所有其他功能委派给后端服务器的瘦客户端。2.媒体系统图2示出了根据各种示例的媒体系统128的框图。媒体系统128可以包括通信地耦接到显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可以经由遥控器124接收用户输入。可以在显示单元126上显示来自媒体设备104的媒体内容。在本示例中,如图2所示,媒体设备104可以包括存储器接口202、一个或多个处理器204,以及外围设备接口206。媒体设备104中的各种部件可由一条或多条通信总线或信号线耦接在一起。媒体设备104还可包括各种子系统,以及耦接至外围设备接口206的外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。例如,媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。在一些示例中,媒体设备104还可以包括耦接到外围设备接口206的I/O子系统240。I/O子系统240可以包括音频/视频输出控制器270。音频/视频输出控制器270可以耦接到显示单元126和扬声器268或可以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统240还可以包括远程控制器242。远程控制器242可以通信地耦接到遥控器124(例如,经由有线连接、蓝牙、Wi-Fi等)。遥控器124可以包括用于捕获音频数据(例如,来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274以及用于方便经由远程控制器242与媒体设备104通信的收发器276。此外,遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可以检测触敏表面278上的接触(和接触的任何移动或中断)并将检测到的接触(例如,手势、接触运动等)转换成与显示单元126上显示的用户界面对象(例如,一个或多个软按键、图标、网页或图像)的交互。在一些示例中,遥控器124还可以包括诸如键盘、操纵杆等的其他输入机构。在一些示例中,遥控器124还可以包括诸如灯、显示器、扬声器等输出机构。在遥控器124处接收的输入(例如,用户语音、按钮按压、接触运动等)可以经由遥控器124传送到媒体设备104。I/O子系统240还可以包括其他输入控制器244。可将其他输入控制器244耦接到其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,媒体设备104还可以包括耦接到存储器250的存储器接口202。存储器250可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备上媒体模块258、设备外媒体模块260和应用模块262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面的处理;设备上媒体模块258可以促进媒体设备104上本地存储的媒体内容的存储和回放。设备外媒体模块260可以促进从外部源(例如,在远程服务器上,在用户设备122上等)获得的媒体内容的流传输回放或下载。此外,设备外媒体模块260可以促进接收广播和有线内容(例如,频道调谐)。应用模块262可以促进媒体相关应用的各种功能,诸如网络浏览、媒体处理、游戏和/或其他过程与功能。如本文所述,例如,存储器250还可存储客户端侧数字助理指令(例如,在数字助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的媒体搜索历史、媒体观看列表,最近观看的列表,最喜欢的媒体项等)以提供数字助理的客户端侧功能。也可以在执行语音识别时使用用户数据266,以支持数字助理或用于任何其他应用。在各种示例中,数字助理客户端模块264能够通过媒体设备104的各种用户界面(例如,I/O子系统240等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如,DA服务器106)通信。在一些示例中,数字助理客户端模块264可利用各种子系统和外围设备来收集与媒体设备104有关和来自媒体设备104的周围环境的附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自用户设备122的信息。在一些示例中,数字助理客户端模块264可将上下文信息或其子集与用户输入一起提供至数字助理服务器,以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。可进一步由媒体设备104或服务器系统108使用上下文信息以支持精确的语音识别。在一些示例中,伴随用户输入的上下文信息可以包括传感器信息,诸如照明、环境噪音、环境温度、与另一物体的距离等。上下文信息还可以包括与媒体设备104的物理状态(例如,设备位置、设备温度、功率水平等)或媒体设备104的软件状态(例如,运行过程、安装的应用、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括从用户接收的信息(例如,语音输入)、用户请求的信息和向用户呈现的信息(例如,媒体设备当前或先前显示的信息)。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,用户设备122上显示的内容、用户设备122上的可回放内容等)。可以将这些类型的上下文信息的任何信息提供给DA服务器106(或用在媒体设备104自身上)作为与用户输入相关联的上下文信息。在一些示例中,数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如,用户数据266)。除此之外或另选地,可以在媒体设备104自身上在执行语音识别和/或数字助理功能时使用该信息。数字助理客户端模块264还可在DA服务器106请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。数字助理客户端模块264可将该附加输入传送至DA服务器106,以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。在各种示例中,存储器250可包括附加的指令或更少的指令。此外,可在包括在一个或多个信号处理和/或专用集成电路中的硬件和/或固件中实现用户设备104的各种功能。3.用户设备图3示出了根据各种示例的示例性用户设备122的框图。如图所示,用户设备122可包括存储器接口302、一个或多个处理器304,以及外围设备接口306。用户设备122中的各种部件可由一条或多条通信总线或信号线耦接在一起。用户设备122还可包括各种传感器、子系统,以及耦接至外围设备接口306的外围设备。传感器、子系统和外围设备可收集信息和/或促进用户设备122的各种功能。例如,用户设备122可包括运动传感器310、光传感器312和接近传感器314,它们耦接到外围设备接口306以促进取向、照明和接近感测功能。一个或多个其他传感器316,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、指南针、加速度计等,也可被连接至外围设备接口306,以促进相关功能。在一些示例中,相机子系统320和光学传感器322可用于促进相机功能,诸如拍摄照片和录制视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。可将音频子系统326耦接到扬声器328和麦克风330以促进启用语音的功能,诸如语音识别、语音复制、数字记录和电话功能。在一些示例中,用户设备122还可以包括耦接到外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或其他输入控制器344。触摸屏控制器342可以耦接到触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断,该多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术和表面声波技术;接近传感器阵列;等等。可将其他输入控制器344耦接到其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,用户设备122还可以包括耦接到存储器350的存储器接口302。存储器350可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统108的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用模块362。操作系统352可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面的处理;传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用模块362可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、导航、成像和/或其他过程和功能。如本文所述,例如,存储器350还可存储客户端侧数字助理指令(例如,在数字助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供数字助理的客户端侧功能。也可以在执行语音识别时使用用户数据366,以支持数字助理或用于任何其他应用。数字助理客户端模块364和用户数据366可以分别与数字助理客户端模块264和用户数据266类似或相同,如上文参考图2所述。在各种示例中,存储器350可包括附加的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中实施用户设备122的各种功能。在一些示例中,用户设备122可以被配置为控制媒体设备104的各方面。例如,用户设备122可以充当遥控器(例如,遥控器124)。可以将经由用户设备122接收的用户输入(例如,使用通信子系统)传输到媒体设备104,以使得由媒体设备104执行对应动作。此外,用户设备122可以被配置为从媒体设备104接收指令。例如,媒体设备104可以将任务传递给用户设备122以执行并使得在用户设备122上显示对象(例如,可选择示能表示)。应当理解,系统100和媒体系统128不限于图1和图2中所示的部件和配置,用户设备122、媒体设备104和遥控器124同样不限于图2和图3所示的部件和配置。根据各种示例,系统100、媒体系统128、用户设备122、媒体设备104和遥控器124都可以包括多种配置中的更少或其他部件。4.数字助理系统图4A示出根据各种示例的数字助理系统400的框图。在一些示例中,数字助理系统400可在独立式计算机系统上实现。在一些示例中,数字助理系统400可跨多个计算机分布。在一些示例中,数字助理的模块和功能中的一些模块和功能可被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104或设备122)上并通过一个或多个网络来与服务器部分(例如,服务器系统108)进行通信,例如,如图1所示。在一些示例中,数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出的是,数字助理系统400仅为数字助理系统的一个示例,并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件,或者可具有部件的不同配置或布置。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路),或它们的组合中实现。数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406,以及网络通信接口408。这些部件可通过一个或多个通信总线或信号线410彼此进行通信。在一些示例中,存储器402可包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备)。在一些示例中,I/O接口406可将数字助理系统400的I/O设备416(诸如显示器、键盘、触摸屏和麦克风)耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如,当数字助理在独立式用户设备上实施时,数字助理系统400可包括分别相对于图2或图3中的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中,数字助理系统400可表示数字助理具体实施的服务器部分,并且可通过位于客户端设备(例如,设备104或设备122)上的客户端侧部分来与用户进行交互。在一些示例中,网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络以及其他通信设备接收RF信号和/或光学信号,并且将RF信号和/或光学信号发送至通信网络以及其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者,诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使得数字助理系统400通过网络诸如互联网、内联网和/或无线网络(诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN))与其他设备之间的通信成为可能。在一些示例中,存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统418、通信模块420、用户界面模块422、一个或多个应用424和数字助理模块426。具体地讲,存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令,并可从数据结构读取数据或将数据写到数据结构。操作系统418(例如,Darwin、RTXC、LINUX、UNIX、OSX、WINDOWS,或嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件部件和/或驱动器,并且促进各种硬件、固件和软件部件之间的通信。通信模块420可促进数字助理系统400与其他设备之间的通过网络通信接口408进行的通信。例如,通信模块420可以与电子设备(例如,104,122)的通信子系统(例如,224,324)通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。用户界面模块422可经由I/O接口406来接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如,语音、声音、动画、文本、图标、振动、触觉反馈、光照等)并将输出经由I/O接口406(例如,通过显示器、音频通道、扬声器、触摸板等)递送给用户。应用程序424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如,如果数字助理系统400在独立式用户设备上实现,则应用424可包括用户应用,诸如游戏、日历应用、导航应用或电子邮件应用。如果数字助理系统400在服务器上实现,则应用程序424可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中,数字助理模块426可包括以下子模块或者其子集或超集:I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438和语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456和自动语音识别(ASR)系统431。在一些示例中,使用在数字助理模块426中实现的处理模块、数据和模型,数字助理可执行以下中的至少一些:将语音输入转换成文本;识别在从用户接收的自然语言输入中表达的用户意图;主动引出并获得完全推断用户意图所需的信息(例如,通过消除字词、姓名、意图的歧义等);确定用于满足推断出的意图的任务流;以及执行该任务流以满足推断出的意图。在一些示例中,如图4B中所示,I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与用户设备(例如,设备104或设备122)进行交互,以获取用户输入(例如,语音输入)并提供对用户输入的响应(例如,作为语音输出)。I/O处理模块428可随同接收到用户输入一起或在接收到用户输入之后不久任选地获得与来自用户设备的用户输入相关联的上下文信息。上下文信息可包括特定于用户的数据、词汇,和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的电子设备的软件状态和硬件状态,和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中,I/O处理模块428还可将与用户请求有关的跟进问题发送至用户,并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时,I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器),以用于语音文本转换。STT处理模块430可包括一个或多个ASR系统(例如,ASR系统431)。该一个或多个ASR系统可处理通过I/O处理模块428接收到的语音输入,以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入提取代表性特征。例如,前端语音预处理器可对语音输入执行傅里叶变换,以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外,每个ASR系统可包括一个或多个语音识别模型(例如,声音模型和/或语言模型),并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型、以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态换能器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征,以产生中间识别结果(例如,音素、音素串和子字),并且最终产生文本识别结果(例如,字词、字词串或符号的序列)。在一些示例中,语音输入可至少部分地由第三方服务处理或在电子设备(例如,设备104或设备122)上处理,以产生识别结果。一旦STT处理模块430产生包含文本字符串(例如,字词、字词的序列或符号的序列)的识别结果,识别结果便可被传送至自然语言处理模块432以用于意图推断。在一些示例中,一个或多个ASR系统的一种或多种语言模型可以被配置为向媒体相关结果偏置。在一个示例中,可以使用媒体相关文本的语料库训练一种或多种语言模型。在另一个示例中,ASR系统可以被配置为有利于媒体相关的识别结果。在一些示例中,一个或多个ASR系统可以包括静态和动态语言模型。可以使用一般文本语料库训练静态语言模型,而可以使用特定于用户的文本训练动态语言模型。例如,可以使用对应于从用户接收的先前语音输入的文本生成动态语言模型。在一些示例中,一个或多个ASR系统可以被配置为生成基于静态语言模型和/或动态语言模型的识别结果。此外,在一些示例中,一个或多个ASR系统可以被配置为有利于对应于更近接收的先前语音输入的识别结果。有关语音转文本处理的更多细节在2011年9月20日提交的名称为“ConsolidatingSpeechRecognitionResults”的美国实用新型专利申请13/236,942中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,STT处理模块430可包括可识别字词的词汇,和/或可经由语音字母转换模块431来访问该词汇。每个词汇字词可与以语音识别语音字母表来表示的字词的一个或多个候选发音相关联。具体地,可识别字词的词汇可包括与多个候选发音相关联的字词。例如,该词汇可包括与/t和的候选发音相关联的字词“tomato”。此外,词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中,并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中,字词的候选发音可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定。在一些示例中,候选发音可手动生成,例如基于已知的标准发音而手动生成。在一些示例中,可基于候选发音的普遍性来对候选发音进行排名。例如,候选语音的排名可高于因为前者是更常用的发音(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如,自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名词。在一些示例中,候选发音可与一个或多个语音特征(诸如地理起源、国家、或种族)相关联。例如,候选发音可能与美国相关联,而候选发音可能与英国相关联。此外,候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国相关联,可将候选发音(与美国相关联)排得比候选发音(与英国相关联)更高。在一些示例中,经排名的候选发音中的一个候选发音可被选作预测发音(例如,最可能的发音)。当接收到语音输入时,STF处理模块430可用于(例如,使用声音模型)确定对应于该语音输入的音素,并且然后可尝试(例如,使用语言模型)确定匹配该音素的字词。例如,如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。在一些示例中,STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此,例如,STT处理模块430可确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。数字助理的自然语言处理模块432(“自然语言处理器”)可获取由STT处理模块430生成的字词或符号的序列(“符号序列”),并尝试将该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实施并存储的任务流的数量和种类,或换句话讲,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。在一些示例中,除从STT处理模块430获取的字词或符号的序列之外,自然语言处理模块432还可(例如,从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可任选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如:用户偏好、用户设备的硬件和/或软件状态、在用户请求之前、期间或之后不久收集的传感器信息、数字助理与用户之间的先前交互(例如,对话)等。如本文所述,上下文信息可以是动态的,并且可随对话的时间、位置、内容以及其他因素而变化。在一些示例中,自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”可表示数字助理能够执行的任务,即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的链接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。在一些示例中,知识本体460可由可执行意图节点和属性节点组成。在知识本体460内,每个可执行意图节点可直接链接至或通过一个或多个中间属性节点链接至一个或多个属性节点。类似地,每个属性节点可直接链接至或通过一个或多个中间属性节点链接至一个或多个可执行意图节点。例如,如图4C所示,知识本体460可包括“媒体”节点(即,可执行意图节点)。属性节点“演员”、“媒体流派”和“媒体标题”均可以直接链接到可执行意图节点(即,“媒体搜索”节点)。此外,属性节点“姓名”、“年龄”、“Ulmer标度排序”和“国籍”可以是属性节点“演员”的子节点。在另一个示例中,如图4C所示,知识本体460还可包括“天气”节点(即,另一可执行意图节点)。属性节点“日期/时间”和“位置”均可以链接到“天气搜索”节点。在一些示例中应当发现,一个或多个属性节点可以与两个或更多可执行意图相关。在这些示例中,一个或多个属性节点可以链接到对应于知识本体460中两个或多个可执行意图的相应节点。可执行意图节点连同其链接的概念节点一起可被描述为“域”。在本论述中,每个域可与相应的可执行意图相关联,并可以指与特定可执行意图相关联的一组节点(以及这些节点之间的关系)。例如,图4C中示出的知识本体460可包括知识本体460内的媒体域462的示例以及天气域464的示例。媒体域462可以包括可执行意图节点“媒体搜索”和属性节点“演员”、“媒体流派”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”以及属性节点“位置”和“日期/时间”。在一些示例中,知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。尽管图4C示出了知识本体460之内的两个示例域,但其他域可以包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”和“时间”、“讲笑话”等。“运动员”域可与“搜索运动员信息”可执行意图节点相关联,并且还可包括诸如“运动员姓名”、“运动队”和“运动员统计信息”的属性节点。在一些示例中,知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中,知识本体460可诸如通过添加或移除整个域或节点,或者通过修改知识本体460内的节点之间的关系来进行修改。在一些示例中,知识本体460中的每个节点可与和由节点代表的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可是所谓的与节点相关联的“词汇”。可将与每个节点相关联的相应组的字词和/或短语存储在与由节点所表示的属性或可执行意图相关联的词汇索引444中。例如,返回图4C,与“演员”属性的节点相关联的词汇可包括诸如“一线明星”、“ReeseWitherspoon”、“ArnoldSchwarzenegger”、“BradPitt”等字词。又如,与“天气搜索”可执行意图的节点相关联的词汇可包括诸如“天气”、“天气怎么样”、“预报”等字词和短语。词汇索引444可任选地包括不同语言的字词和短语。自然语言处理模块432可从STT处理模块430接收符号序列(例如,文本串),并确定符号序列中的字词牵涉哪些节点。在一些示例中,如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联,则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,可选择具有最多“已触发”节点的域。在一些示例中,可选择具有最高置信度(例如,基于其各个已触发节点的相对重要性)的域。在一些示例中,可基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。用户数据448可包括特定于用户的信息,诸如特定于用户的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块432可使用特定于用户的信息来补充用户输入中所包含的信息,以进一步限定用户意图。例如,对于用户请求“这星期天气如何”,自然语言处理模块432可以访问用户数据448以确定用户在哪里,而不是要求用户在其请求中明确提供此类信息。基于符号串搜索知识本体的其他细节在于2008年12月22日提交的标题为“MethodandApparatusforSearchingUsingAnActiveOntology”的美国实用新型专利申请序列号12/341,743中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,一旦自然语言处理模块432基于用户请求而识别出可执行意图(或域),自然语言处理模块432便可生成结构化查询,以表示所识别的可执行意图。在一些示例中,结构化查询可包括针对可执行意图的域内的一个或多个节点的参数,并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如,用户可以说“为我查找这部电视连续剧的其他季。”在这种情况下,自然语言处理模块432可基于用户输入将可执行意图正确地识别为“媒体搜索”。根据知识本体,“媒体”域的结构化查询可包括参数诸如{媒体演员}、{媒体流派}和{媒体标题}等。在一些示例中,基于语音输入和使用STT处理模块430从语音输入得出的文本,自然语言处理模块432可针对餐厅预订域生成部分结构化查询,其中部分结构化查询包括参数{媒体流派=“电视剧”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用的信息,在结构化查询中可能未指定其他必要的参数,诸如{媒体标题}。在一些示例中,自然语言处理模块432可利用所接收的上下文信息来填充结构化查询的一些参数。例如,媒体设备上可能当前正在播放电视剧“MadMen”。基于这一上下文信息,自然语言处理模块432可以在带有“MadMen”的结构化查询中填充{媒体标题}参数。在一些示例中,自然语言处理模块432可将所生成的结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为接收来自自然语言处理模块432的结构化查询,(必要时)完成结构化查询,并且执行“完成”用户最终请求所需的动作。在一些示例中,完成这些任务所必需的各种过程可在任务流模型454中提供。在一些示例中,任务流模型454可包括用于获取来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。如上所述,为了完成结构化查询,任务流处理模块436可能需要发起与用户的附加对话,以便获得附加信息和/或弄清可能有歧义的话语。当有必要进行此类交互时,任务流处理模块436可调用对话流处理模块434以参与同用户的对话。在一些示例中,对话流处理模块434可确定如何(和/或何时)向用户请求附加信息,并且可接收和处理用户响应。该问题可通过I/O处理模块428而被提供至用户并可从用户接收回答。在一些示例中,对话处理模块434可经由音频和/或视觉输出来向用户呈现对话输出,并可接收经由口头或物理(例如,点击)响应的来自用户的输入。例如,用户可以问道“巴黎天气怎么样?”当任务流处理模块436调用对话流处理模块434来确定针对与域“天气搜索”相关联的结构化查询的“位置”信息时,对话流处理模块434可生成诸如“哪个巴黎?”的问题以传递给用户。此外,对话流处理模块434可以导致呈现与“德克萨斯巴黎”和“法国巴黎”相关联的示能表示供用户选择。一旦从用户接收到回答,对话流处理模块434便可利用缺失信息填充结构化查询,或将信息传递给任务流处理模块436以根据结构化查询来完成缺失信息。一旦任务流处理模块436已针对可执行意图完成结构化查询,任务流处理模块436便可着手执行与可执行意图相关联的最终任务。因此,任务流处理模块436可根据包含在结构化查询中的特定参数来执行任务流模型454中的步骤和指令。例如,用于可执行意图“媒体搜索”的任务流模型可以包括用于执行媒体搜索查询以获得相关媒体项的步骤和指令。例如,使用结构化查询,诸如:{mediasearch,mediagenre=TVseries,mediatitle=MadMen},任务流处理模块436可以执行如下步骤:(1)使用媒体数据库执行媒体搜索查询以获得相关媒体项,(2)根据相关度和/或流行度对所获得的媒体项排序,以及(3)显示根据相关度和/或流行度排序的媒体项。在一些示例中,任务流处理模块436可在服务处理模块438(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处理模块438可代表任务流处理模块436来行动以执行媒体搜索、检索天气信息、调用其他用户设备上安装的应用或与该其他应用进行交互、以及调用第三方服务(例如,社交网站、媒体查看网站、媒体订阅服务等)或与第三方服务进行交互。在一些示例中,可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型,并依据服务模型根据该服务所需的协议和API来生成针对该服务的请求。例如,第三方媒体搜索服务可提交服务模型,该服务模型指定进行媒体搜索的必要参数和用于将必要参数的值传送至媒体服务的API。在被任务流处理模块436请求时,服务处理模块438可以与媒体搜索服务建立网络连接并以根据媒体搜索服务的API的格式向在线预订界面发送必要的媒体搜索参数(例如,媒体演员、媒体流派、媒体标题)。在一些示例中,自然语言处理模块432、对话处理模块434以及任务流处理模块436可被共同且反复地使用,以推断并限定用户的意图、获得信息,以进一步明确并细化用户意图并最终生成响应(即,输出至用户或完成任务)以满足用户的意图。所生成的响应可以是对语音输入的至少部分地满足用户的意图的对话响应。此外,在一些示例中,所生成的响应可被输出为语音输出。在这些示例中,所生成的响应可被发送到语音合成模块440(例如,语音合成器),在语音合成模块中,可处理所生成的响应以将对话响应以语音形式合成。在其他示例中,所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。语音合成模块440可被配置为合成语音输出以呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应可为文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何合适的语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单位选择合成、双音素合成、特定于域的合成、共振峰合成、发音合成、基于隐马尔可夫模型(HMM)的合成、以及正弦波合成。在一些示例中,语音合成模块440可被配置为基于与这些字词对应的音素串来合成各个字词。例如,音素串可与所生成的对话响应中的字词相关联。音素串可被存储在与字词相关联的元数据中。语音合成模型440可被配置为直接处理元数据中的音素字符串,以合成语音形式的字词。在一些示例中,替代使用语音合成模块440(或除此之外),可在远程设备(例如,服务器系统108)上执行语音合成,并且可将合成的语音发送至用户设备以输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,有可能获得比客户端侧合成将实现的质量更高的语音输出。有关数字助理的附加细节可在于2011年1月10日提交的标题为“IntelligentAutomatedAssistant”的美国实用新型专利申请号12/987,982和于2011年9月30日提交的标题为“GeneratingandProcessingTaskItemsThatRepresentTaskstoPerform”的美国实用新型专利申请号13/251,088中找到,其全部公开内容以引用方式并入本文。4.用于在媒体环境中与数字助理交互的过程图5A至图5I示出了根据各种示例用于操作媒体系统的数字助理的过程500。可使用实施数字助理的一个或多个电子设备来执行过程500。例如,可以使用上文描述的系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一个或多个来执行过程500。图6A至图6Q示出了根据各种示例在过程500的各个阶段在显示单元上由媒体设备显示的屏幕截图。下文同时参考图5A至图5I和图6A至图6Q描述过程500。应当理解,过程500中的一些操作可以被组合,一些操作的次序可以被改变,并且一些操作可以被省略。在过程500的框502处,可以在显示单元(例如,显示单元126)上显示内容。在图6A所示的本示例中,所显示的内容可包括正在媒体设备(例如,媒体设备104)上播放的媒体内容602(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括与媒体设备相关联的其他内容,诸如与在媒体设备上运行的应用程序相关联的内容或用于与媒体设备的数字助理交互的用户界面。具体地讲,所显示的内容可包括主菜单用户界面或具有用户先前请求的对象或结果的用户界面(例如,第二用户界面618或第三用户界面626)。在过程500的框504处,可以检测用户输入。可以在显示框502的内容的同时检测到用户输入。在一些示例中,可以在媒体设备的遥控器(例如,遥控器124)上检测用户输入。具体地讲,用户输入可以是用户与遥控器的交互,诸如按压按钮(例如,按钮274)或接触遥控器的触敏表面(例如,触敏表面278)。在一些示例中,可以经由被配置为与媒体设备交互的第二电子设备(例如,设备122)来检测用户输入。响应于检测到用户输入,可以执行框506-592中的一者或多者。在过程500的框506处,可以确定用户输入是否对应于第一输入类型。第一输入类型可以是媒体设备的预定义输入。在一个示例中,第一输入类型可包括按下遥控器的特定按钮并且在按下按钮的预定持续时间(例如短按)内释放按钮。媒体设备可以确定用户输入是否匹配第一输入类型。根据确定用户输入对应于第一输入类型,可以执行框508至514中的一者或多者。在过程500的框508处,参考图6B,可以显示用于调用数字助理并与数字助理交互的文本指令604。具体地讲,指令604可以描述调用数字助理并与数字助理交互所需的用户输入。举例来说,指令604可以解释如何执行下面在框516处描述的第二输入类型。在过程500的框510处,如图6B中所示,可以在显示单元上显示被动视觉指示符606。被动视觉指示符606可以指示数字助理尚未被调用。具体地讲,媒体设备的麦克风(例如,麦克风272)可能不会响应于检测到用户输入而被激活。被动视觉指示符606因此可以用作视觉信号,指示数字助理未处理音频输入。在本示例中,视觉指示符606可以是不对用户语音作出响应的被动平坦波形。此外,被动视觉指示符606可包括中性色(例如,黑色、灰色等)以指示其被动状态。应当认识到,对于被动视觉指示符可以考虑其他视觉图案或图像。被动视觉指示符606可以与指令604同时显示。此外,在执行框512至514中的一者或多者时,可以连续显示被动视觉指示符606。在过程500的框512处,参考图6C,可以在显示单元上显示用于执行类型化搜索的指令608。具体地讲,指令608可以描述显示虚拟键盘接口所需的用户输入,可用于执行类型化搜索。在一些示例中,用于调用数字助理并与数字助理交互的指令604和用于执行类型化搜索的指令608可以按顺序并在不同的时间显示。例如,指令608的显示可以代替指令604的显示,反之,指令604的显示可以代替指令608的显示。在本示例中,指令604、608是文本形式。应当认识到,在其他示例中,指令604、608可以是图形形式(例如,图片、符号、动画等)。在过程500的框514处,可以在显示单元上显示一个或多个示例性自然语言请求。例如,图6D至6E示出了在显示单元上显示的两个不同的示例性自然语言请求610、612。在一些示例中,示例性自然语言请求可以经由显示单元上的第一用户界面显示。第一用户界面可以叠加在所显示的内容上。示例性自然语言请求可以向用户提供用于与数字助理交互的指导。此外,示例性自然语言请求可以通知用户数字助理的各种能力。响应于接收到与示例性自然语言请求中的一者相对应的用户话语,数字助理可以导致执行相应的动作。举例来说,响应于调用媒体设备的数字助理(例如,通过在框504处的第二输入类型的用户输入)并提供有用户话语“前进30秒”(例如,在框518处),数字助理可以使媒体设备上正播放的媒体内容前进30秒。所显示的示例性自然语言请求可以与正在显示的内容(例如,媒体内容602)在上下文上相关。例如,一组示例性的自然语言请求可以存储在媒体设备上或独立的服务器上。示例性自然语言请求组中的每个示例性自然语言请求可以与一个或多个上下文特性(例如,正在播放的媒体内容、主页、iTunes媒体商店、演员、电影、天气、体育、股票等)相关联。在一些示例中,框514可包括从具有上下文特性的示例性自然语言请求组中标识示例性自然语言请求,这些上下文特性与在显示单元上所显示的内容相对应。然后可以在显示单元上显示所标识的示例性自然语言请求。因此,可以在显示单元上显示针对不同显示内容的不同示例性自然语言请求。显示在上下文上相关的示例性自然语言请求可以用来方便地通知用户与媒体设备上的用户当前使用条件最相关的数字助理的能力。这可以改善整体用户体验。在图6D至图6E所示的本示例中,示例性自然语言请求610、612可以各自与显示单元上的媒体内容602在上下文上相关。具体地讲,示例性自然语言请求610、612可以是请求修改或控制与正在媒体设备上播放的媒体内容相关联的一个或多个设置。此类示例性自然语言请求可包括请求开启/关闭隐藏字幕,请求开启特定语言的字幕,请求倒回/前进,请求暂停播放媒体内容,请求重新开始播放媒体内容,请求减慢或加速播放媒体内容,请求增加/减小媒体内容的音量(例如音频增益)等。此外,与媒体内容602在上下文上相关的其他示例性自然语言请求可包括请求将与媒体内容602相对应的媒体项目添加到用户的观看列表中,请求显示与媒体内容602相关的信息(例如,演员信息、剧情简介、发布日期等),请求显示与媒体内容602相关的其他媒体项目或内容(例如,相同的系列、相同的季节、相同的演员/导演、相同的类型等)等。在其中所显示的内容包括与媒体设备的应用程序相关联的内容的示例中,在上下文上相关的示例性自然语言请求可包括请求修改应用程序的一个或多个设置或状态。具体地讲,示例性自然语言请求可包括请求打开或关闭应用程序或者请求操作应用程序的一个或多个特征部。在一些示例中,所显示的内容可包括用于搜索、浏览或选择项目的用户界面(例如,第二用户界面618或第三用户界面626)。具体地讲,所显示的用户界面可包括一个或多个媒体项目。此外,用户界面的焦点可以在所述一个或多个媒体项目的媒体项目上(例如,图6G中的由光标624加亮的媒体项目623)。在这些示例中,在上下文上相关的示例性自然语言请求可包括对信息的请求或者对与所显示的用户界面中的一个或多个媒体项目有关的其他媒体项目的请求。具体地讲,示例性自然语言请求可包括与作为用户界面焦点的媒体项目相关的请求。在这些示例中,示例性的自然语言请求可包括像“这是怎么回事?”、“这是什么评价?”、“这是谁?”、“下一集什么时候出来?”、“给我看更多这一类的电影”和“给我看同一个演员主演的电影”之类的请求。在具体示例中,可以经由用户界面显示与媒体项目或一系列媒体项目(例如电视系列MadMen)相关的信息。在该示例中,在上下文上相关的示例性自然语言请求可包括基于媒体项目或一系列媒体项目的一个或者多个特性(例如,演员表、情节、收视率、发布日期、导演、提供商等等)的请求(例如“JanuaryJones的其他节目”)。另外,在上下文上相关的示例性自然语言请求可包括请求播放、选择或获取在用户界面中显示的所关注媒体项目或另一媒体项目(例如,“出租该项目”、“播放该项目”、“购买该项目”或“播放HowtoTrainYourDragon2”),或者请求浏览用户界面中的媒体项目(例如,“转到喜剧”或“跳转到恐怖片”)。此外,在这些示例中,在上下文上相关的示例性自然语言请求可包括请求搜索其他媒体项目(例如,“查找新喜剧”、“显示免费的精品电影”或者“由NicoleKidman主演的一些节目”)。在一些示例中,所显示的内容可包括根据特定类别或主题组织的媒体项目。在这些示例中,在上下文上相关的示例性自然语言请求可包括与该特定类别或主题相关的请求。例如,在其中所显示的内容包括根据各位演员组织的媒体项目的示例中,在上下文上相关的示例性自然语言请求可包括对与演员相关的信息或媒体项目的请求(例如,“JenniferLawrence主演的电影有哪些?”、“ScarlettJohansson多大?”或“BradPitt最新的电影是什么?”)。在其中所显示的内容包括根据节目频道或内容提供商组织的媒体项目(例如频道页面或TV指南页面)的另一示例中,在上下文上相关的示例性自然语言请求可包括对与节目频道或内容提供商相关的信息或媒体项目的请求(例如,“一小时后播放什么内容?”、“黄金时段内HBO上播放什么内容?”、“收听ABC”或“哪些频道正在播放篮球?”)。在其中所显示的内容包括用户最近选择的媒体项目(例如,“最近播放”列表)或被标识为用户感兴趣(例如,“观看列表”)的又一示例中,在上下文上相关的示例性自然语言请求可包括请求观看或继续观看媒体项目中的一者(例如,“从上次播放记录处开始观看”、“继续观看Birdman”或“从头再次播放该项目”)。在一些示例中,所显示的内容可包括具有与特定主题相对应的结果或信息的用户界面。具体地讲,结果可以与先前的用户请求(例如,对数字助理的请求)相关联,并且可包括与诸如天气、股票或运动主题相对应的信息。在这些示例中,在上下文上相关的示例性自然语言请求可包括请求筛选结果或者对有关特定主题的附加信息的请求。例如,在其中所显示的内容包括特定位置的天气信息的示例中,在上下文上相关的示例性自然语言请求可包括请求显示另一位置或不同时间范围的附加天气信息(例如,“NewYork市的天气如何?”、“下周天气如何?”和“Hawaii天气如何?”等)。在其中所显示的内容包括与体育队或运动员有关的信息的另一示例中,在上下文上相关的示例性自然语言请求可包括请求提供与体育队或运动员相关的附加信息(例如,“ShaquilleO’Neal多高?”、“TomBrady何时出生?”、“49ers下一场比赛是何时?”、“ManchesterUnited在上一场比赛中表现如何?”、“谁是LALakers的控球后卫?”等)。在其中所显示的内容包括与股票相关的信息的又一个示例中,在上下文上相关的示例性自然语言请求可包括对额外股票相关信息的请求(例如,“S&P500的开盘价是多少?”、“Apple公司的股票行情如何?”、“DowJones昨天的收盘价是多少?”等)。此外,在一些示例中,所显示的内容可包括具有与之前的用户请求相关联的媒体搜索结果的用户界面。在这些示例中,在上下文上相关的示例性自然语言请求可包括请求筛选所显示的媒体搜索结果(例如,“仅去年的那些”、“仅评分G的那些”,“仅免费的那些”等)或请求执行不同的媒体搜索(例如,“查找好动作片”、“显示一些成龙电影”等)。在一些示例中,所显示的内容可包括媒体设备的主菜单用户界面。主菜单用户界面可以是例如媒体设备的home屏幕或根目录。在这些示例中,在上下文上相关的示例性自然语言请求可包括表示数字助理的各种能力的请求。具体地讲,数字助理可以具有与媒体设备相关联的一组核心能力,并且在上下文上相关的示例性自然语言请求可包括与数字助理的每个核心能力相关的请求(例如,“显示免费的好电影”、“天气如何”、“播放下一集《绝命毒师》”或者“苹果公司的股票价格是多少?”)示例性的自然语言请求可以是自然语言形式。这可以用来通知用户数字助理能够理解自然语言请求。此外,在一些示例中,示例性自然语言请求可能在上下文上含糊,以通知用户数字助理能够基于所显示的内容推断出与用户的请求相关联的正确的用户意图。具体地讲,如上述示例中所示,示例性自然语言请求可包括诸如“这”或“那些”之类的在上下文上含糊的术语或诸如“仅免费的那些”或“纽约的天气如何”之类的在上下文上含糊的短语。这些示例性的自然语言请求可以通知用户数字助理能够基于所显示的内容确定与此类请求相关联的合适上下文。这鼓励用户在与数字助理交互时依赖所显示内容的上下文,这可有利于促进与数字助理的更自然的交互体验。在一些示例中,框514可以在框508至512之后执行。具体地讲,在框506处确定用户输入对应于第一输入类型之后,示例性自然语言请求可以在预定时间量时显示在显示单元上。应当认识到,在一些示例中,框508至514可以按任何顺序执行,并且在一些示例中,框508至514中的两者或多者可以同时执行。在一些示例中,示例性自然语言请求以预定顺序并且按轮换的方式显示。每个示例性的自然语言请求可以在不同的时间单独显示。具体地讲,可以用随后的示例性自然语言请求的显示来替换当前示例性自然语言请求的显示。举例来说,如图6D所示,首先可以显示示例性自然语言请求610。在预定的时间量之后,示例性自然语言请求610(“前进30秒”)的显示可以用示例性自然语言请求612(“播放下一集”)的显示替换,如图6E所示。因此,在该示例中,示例性自然语言请求610和示例性自然语言请求612每次显示一个而不是同时显示。在一些示例中,示例性自然语言请求可以被分组成多个列表,其中每个列表包括一个或多个示例性自然语言请求。在这些示例中,框514可包括在显示单元上显示示例性自然语言请求的列表。每个列表可以按预定的顺序在不同的时间显示。此外,列表可以按轮换的方式显示。在执行框508至514中的一者或多者时,所显示的内容可以继续在显示单元上显示。举例来说,如图6B至图6E所示,在执行框508至512的同时媒体内容602可以继续在媒体设备上播放并在显示单元上显示。此外,媒体设备在播放媒体内容的同时可以输出与媒体内容相关联的音频。在一些示例中,音频的幅值不会响应于检测到用户输入或者根据确定用户输入对应于第一输入类型而减小。这对于减小对正在播放媒体内容602的消费的中断可能是有利的。因此,尽管元素604至612显示在显示单元上,用户仍然可以经由音频输出继续跟进媒体内容602。在一些示例中,如图6B至图6D中媒体内容602的轮廓字型所表示。所显示内容的亮度可以响应于检测到用户输入或者根据确定用户输入对应于第一输入类型而有所降低(例如,降低20%至40%)。在这些示例中,所显示的元素604至612可以叠加在所显示的媒体内容602上。降低亮度可起到突出所显示的元素604至612的作用。同时,媒体内容602在显示单元上仍然可以辨别,由此使得在显示元素604-612的同时用户能够继续消费媒体内容602。在执行框508至512中的一者时,可以调用数字助理(例如,通过在框504处检测到第二输入类型的用户输入),并且可以接收与示例性自然语言请求中的一者相对应的用户话语(例如在框518处)。然后数字助理可以执行任务以响应于接收到的请求(例如,在框532处)。下面参考图5B至5I提供关于调用数字助理和与数字助理交互的附加细节。此外,在执行框508至512中的一者时,可以调用虚拟键盘接口(例如,通过在框558处检测到第五用户输入)以执行类型化搜索。下面参考图5G提供关于调用虚拟键盘接口和执行类型化搜索的附加细节。再次参考框506,根据确定用户输入不对应于第一输入类型,可以执行图5B的框516至530中的一者或多者。在框516处,可以确定用户输入是否对应于第二输入类型。第二输入类型可以是向媒体设备的预定义输入,其与第一输入类型不同。在一些示例中,第二输入类型可包括按下媒体设备的遥控器上的特定按钮,并按住该按钮,保持预定持续时间以上(例如,长按)。第二输入类型可以与调用数字助理相关联。在一些示例中,可以使用遥控器上的同一按钮(例如,被配置为调用数字助理的按钮)来实现第一输入类型和第二输入类型。这可有利于将调用数字助理以及提供用于调用数字助理并与数字助理交互的指令直观地集成到单个按钮中。此外,没有经验的用户可以直观地实现短按而不是长按。因此,响应于检测到短按而提供指令可以使指令主要针对没有经验的用户而不是有经验的用户。这可以通过使指令容易地显示给最需要指导的没有经验的用户,同时允许有经验的用户可以选择绕过指令来改善用户体验。根据在框516处确定用户输入对应于第二输入类型,可以执行框518至530中的一者或多者。在一些示例中,在执行框518至530中的一者或多者的同时,媒体内容602可以继续在媒体设备上播放。具体地讲,在框518处对音频数据取样以及在框528处执行任务的同时,媒体内容602可以继续在媒体设备上播放并且在显示单元上显示。在过程500的框518处,可以对音频数据取样。具体地讲,可以激活媒体设备的第一麦克风(例如,麦克风272)以开始采集音频数据。在一些示例中,采样的音频数据可包括来自用户的用户话语。用户话语可以表示针对数字助理的用户请求。此外,在一些示例中,用户请求可以是请求执行任务。具体地讲,用户请求可以是媒体搜索请求。举例来说,参考图6F,采样的音频数据可包括“查找由ReeseWitherspoon主演的浪漫喜剧”的用户话语。在其他示例中,用户请求可以是请求播放媒体项目或请求提供特定信息(例如,天气、股票、体育等)。采样的音频数据中的用户话语可以是自然语言形式。在一些示例中,用户话语可以表示部分指定的用户请求,其中用户话语不明确地限定满足用户请求所需的所有信息。举例来说,用户话语可以是“播放下一集”。在该示例中,用户请求未明确限定要播放下一集的媒体系列。另外,在一些示例中,用户话语可包括一个或多个含糊的术语。对音频数据取样的持续时间可以基于对结束点的检测。具体地讲,可以从最初检测到第二输入类型的用户输入的开始时间到检测到结束点的结束时间对音频数据取样。在一些示例中,结束点可以基于用户输入。具体地讲,可以在最初检测到第二输入类型的用户输入时激活第一麦克风(例如,按下按钮,保持预定持续时间以上)。当继续检测到第二输入类型的用户输入时,第一麦克风可以保持激活以对音频数据取样。在停止检测到第二输入类型的用户输入(例如,按钮被释放)时,可以停用第一麦克风。因此,在这些示例中,结束点在检测到用户输入结束时才检测到。因此,在检测到第二输入类型的用户输入时对音频数据取样。在其他示例中,可以基于所取样音频数据的一个或多个音频特性检测结束点。具体地讲,可以监测所取样音频数据的一个或多个音频特性,并且可以在确定一个或多个音频特性不再满足一个或多个预先确定的标准之后预先确定的时间时检测结束点。在其他示例中,可以基于固定的持续时间来检测结束点。具体地讲,可以在最初检测到第二输入类型的用户输入之后的预定持续时间时检测结束点。在一些示例中,在执行框504或516时,可以输出与所显示的内容相关联的音频(例如,使用扬声器268)。具体地讲,音频可以是正在媒体设备上播放并在显示单元上显示的媒体项目的音频。音频可以经由来自媒体设备的音频信号输出。在这些示例中,在确定用户输入对应于第二输入类型并在对音频数据取样时,与所显示的内容相关联的音频可有所减小(例如,音频的幅值降低)。例如,音频可以通过降低与音频信号相关的增益来减小。在其他示例中,可以在框518处对音频数据取样的同时停止与媒体内容相关联的音频的输出。举例来说,可以通过阻断或中断音频信号来停止音频。为了降低采样的音频数据中的背景噪声并增加与用户话语相关联的语音信号的相对强度,可能希望减小或停止音频的输出。此外,音频的减小或停止可用作用户开始向数字助理提供语音输入的音频提示。在一些示例中,可以在对音频数据取样的同时对背景音频数据取样以执行噪声消除。在这些示例中,遥控器或媒体设备可包括第二麦克风。第二麦克风可以在与第一麦克风不同的方向上取向(例如,与第一麦克风相对)。在对音频数据取样的同时,可以激活第二麦克风以对背景音频数据取样。在一些示例中,可以使用背景音频数据去除音频数据中的背景噪声。在其他示例中,媒体设备可以生成音频信号,用于输出与所显示的内容相关联的音频。所生成的音频信号可用于从音频数据中去除背景噪音。从音频信号中执行背景噪声的噪声消除可能特别适合与媒体环境中的数字助理交互。这可能是由于消费媒体内容的共同性质,其中来自多个个体的话语可能混合在音频数据中。通过去除音频数据中的背景噪声,可以获得音频数据中较高的信噪比,这在处理用于用户请求的音频数据时可能是有利的。在过程500的框520处,参考图6F,可以在显示单元上显示主动视觉指示符614。主动视觉指示符614可以向用户指示数字助理已调用并在主动收听。具体地讲,主动视觉指示符614可以用作视觉提示,提示用户开始向数字助理提供语音输入。在一些示例中,主动视觉指示符614可包括颜色和/或视觉动画以指示数字助理已调用。举例来说,如图6F所示,主动视觉指示符614可包括响应于由数字助理接收的音频数据的一个或多个特征(例如,幅值)的主动波形。例如,主动视觉指示符614可以响应于音频数据的一部分声音较大而显示具有较大幅值的波形,并响应于音频数据的一部分较软而显示具有较小幅值的波形。此外,在其中在显示被动视觉指示符606的同时调用数字助理的示例(例如,图6E)中,视觉指示符606的显示可以用主动视觉指示符614的显示替换。这样可以提供从图6B至图6E所示的用于演示如何调用数字助理并与数字助理交互的指导性用户界面到图6F所示的用于与数字助理主动交互的主动用户界面的自然转换。在过程500的框522处,可以确定采样的语音数据中用户话语的文本表示。例如,可以通过对采样的语音数据执行语音转文本(STT)处理来确定文本表示。具体地讲,可以使用STT处理模块(例如,STT处理模块430)处理采样的音频数据以将采样的音频数据中的用户话语转换成文本表示。该文本表示可以是表示对应文本字符串的符号字符串。在一些示例中,STT处理可能偏向媒体相关的文本结果。该偏置可以通过利用使用媒体相关文本的语料库训练的语言模型来实现。除此之外或另选地,该偏置可以通过对与媒体相关的候选文本结果施以更重加权来实现。通过这种方式,与媒体相关的候选文本结果在带偏置的情况下可以比没有偏置的情况排序更高。该偏置可能对于提高媒体相关用户话语(例如,电影名、电影演员等)的STT处理精确度是需要的。例如,在典型的文本语料库中可能不常发现特定媒体相关字词或短语,诸如“JurassicPark”、“ArnoldSchwarzenegger”和“Shrek”,从而在未偏向媒体相关文本结果的STT处理期间可能不会得到成功识别。在一些示例中,可以从独立设备(例如,DA服务器106)获得文本表示。具体地讲,可以将采样的音频数据从媒体设备传输到独立的设备以执行STT处理。在这些示例中,媒体设备可以向独立设备指示(例如,经由与采样的音频数据一起向独立设备传输的数据)采样的音频数据与媒体应用相关联。该指示可以向媒体相关文本结果偏置SST处理。在一些示例中,文本表示可以基于先前在对音频数据取样之前由媒体设备接收的用户话语。具体地讲,与先前用户话语的一个或多个部分相对应的采样的音频数据的候选文本结果可以赋予较重权重。在一些示例中,先前的用户话语可用于生成语言模型,并且所生成的语言模型可用于确定采样的音频数据中当前用户话语的文本表示。该语言模型可以随着另外的用户话语被接收和处理而动态更新。此外,在一些示例中,文本表示可以基于在对音频数据取样之前接收先前用户话语的时间。具体地讲,相比于与相对于采样的音频数据早前接收的先前用户话语相对应的候选文本结果,与相对于采样的音频数据最近接收的先前用户话语相对应的候选文本结果可以赋予较重权重。在过程500的框524处,可以在显示单元上显示该文本表示。例如,图6F示出了文本表示616,其对应于采样的音频数据中的用户话语。在一些示例中,可以在对音频数据取样的同时执行框522和524。具体地讲,用户话语的文本表示616可以以串流方式显示,以使得随着对音频数据取样并随着对采样的音频数据执行STT处理而实时显示文本表示616。显示文本表示616可以向用户提供数字助理正在正确处理用户请求的确认。在过程500的框526处,可以确定对应于用户话语的用户意图。可以通过对框522的本文表示执行自然语言处理来确定用户意图。具体地讲,可以使用自然语言处理模块(例如,自然语言处理模块432)来处理文本表示,以得出用户意图。例如,参考图6F,从对应于“查找由ReeseWitherspoon主演的浪漫喜剧”的文本表示616可以确定用户意图是请求搜索具有浪漫喜剧流派和ReeseWitherspoon演员的媒体项目。在一些示例中,框526还可包括使用自然语言处理模块生成表示所确定的用户意图的结构化查询。在“查找由ReeseWitherspoon主演的浪漫喜剧”的本示例中,可以生成结构化查询,该结构化查询表示对具有浪漫喜剧流派和演员ReeseWitherspoon的媒体项目的媒体搜索查询。在一些示例中,用于确定用户意图的自然语言处理可以偏向媒体相关的用户意图。具体地讲,可以训练自然语言处理模块以在知识本体中识别触发媒体相关节点的媒体相关字词和短语(例如,媒体标题、媒体流派、演员、MPAA电影评级标签等)。例如,自然语言处理模块可以将文本表示中的短语“JurassicPark”识别为电影标题,结果,触发知识本体中与搜索媒体项的可执行意图相关联的“媒体搜索”节点。在一些示例中,可以通过将知识本体中的节点约束到媒体相关节点的预先确定集合来实现偏置。例如,媒体相关节点的集合可以是与媒体设备的应用相关联的节点。此外,在一些示例中,可以通过对媒体相关的候选用户意图比并非媒体相关的候选用户意图进行更重的加权来实现偏置。在一些示例中,可以从独立设备(例如,DA服务器106)获得用户意图。具体地讲,可以向独立设备传输音频数据以执行自然语言处理。在这些示例中,媒体设备可以向独立设备指示(例如,经由与采样的音频数据一起向独立设备传输的数据)采样的音频数据与媒体应用相关联。该指示可以向媒体相关用户意图偏置自然语言处理。在过程500的框528处,可以确定采样的音频数据是否包含用户请求。可以根据框526的所确定用户意图作出这种确定。如果该用户意图包括执行任务的用户请求,则可以确定采样的音频数据包含用户请求。相反,如果该用户意图不包括执行任务的用户请求,则可以确定采样的音频数据不包含用户请求。此外,在一些示例中,如果在框526处不能从文本表示中确定用户意图或者在框522处不能从采样音频数据中确定文本表示,则可以确定采样的音频数据不包含用户请求。根据确定音频数据不包含用户请求,可以执行框530。在过程500的框530处,可以在显示单元上显示说明用户意图的请求。在一个示例中,说明用户意图的请求可以是请求让用户重复用户请求。在另一个示例中,说明用户意图的请求可以是数字助理无法理解用户话语的陈述。在又一个示例中,可以显示错误消息以指示不能确定用户的意图。此外,在一些示例中,根据确定音频数据不包含用户请求,可能不提供响应。参考图5C,根据在框528处确定采样的音频数据包含用户请求,可以执行框532。在过程500的框532处,可以执行至少部分满足用户请求的任务。例如,执行框526处的任务可包括执行在框526的所生成的结构化查询中限定的一个或多个任务。可以使用数字助理的任务流处理模块(例如,任务流处理模块436)来执行一个或多个任务。在一些示例中,该任务可包括改变媒体设备上应用程序的状态或设置。更具体地讲,该任务可包括例如选择或播放所请求的媒体项目,开启或关闭所请求的应用程序,或者以所请求的方式在所显示的用户界面中进行导航。在一些示例中,可以在框532处执行该任务,而不从媒体设备输出与该任务相关的语音。因此,虽然在这些示例中,用户可以以语音的形式向数字助理提供请求,但数字助理可能不以语音形式向用户提供响应。相反,数字助理可能仅通过在显示单元上显示结果而在视觉上响应。这可有利于保持消费媒体内容的共同体验。在其他示例中,该任务可包括检索和显示所请求的信息。具体地讲,在框532处执行任务可包括执行框534至536中的一者或多者。在过程500的框534处,可以获得至少部分满足用户请求的结果。可以从外部服务(例如,外部服务120)获得该结果。在一个示例中,用户请求可以是请求执行媒体搜索查询,诸如“查找由ReeseWitherspoon主演的浪漫喜剧”。在该示例中,框534可包括执行所请求的媒体搜索(例如,使用外部服务的媒体相关数据库)以获得具有浪漫喜剧流派和演员ReeseWitherspoon的媒体项目。在其他示例中,用户请求可包括对其他类型信息(诸如天气、体育和股票)的请求,并且可以在框534处获得相应的信息。在过程500的框536处,可以在显示单元上显示第二用户界面。第二用户界面可包括在框534处获得的结果的一部分。举例来说,如图6G所示,第二用户界面618可以显示在显示单元上。第二用户界面618可包括媒体项目622,这些媒体项目满足用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”。在该示例中,媒体项目622可包括诸如“LegallyBlonde”、“LegallyBlonde2”、“HotPursuit”和“ThisMeansWar”的媒体项目。第二用户界面618还可包括描述所获得结果的文本标头620。文本标头620可以解释用户请求的一部分以传达已直接处理用户请求的印象。这在用户和数字助理之间提供了更加亲切和互动的体验。在图6G所示的本示例中,媒体项目622在第二用户界面618上被组织成单行。应当认识到,在其他示例中,媒体项目622的组织和呈现可以变化。第二用户界面618还可包括用于在第二用户界面618中导航和选择媒体项目622的光标624。可以通过相对于其他媒体项目在视觉上突出光标所位于的媒体项目来指示光标的位置。举例来说,在本示例中,与在第二用户界面618中显示的其他媒体项目相比,光标624所位于的媒体项目623的轮廓可以更大且更粗。在一些示例中,可以在显示第二用户界面的同时继续显示所显示内容的至少一部分。举例来说,如图6G中所示,第二用户界面618可以是在显示单元的底部处显示的小窗格,同时媒体内容602继续在媒体设备上播放并且在第二用户界面618上方的显示单元上显示。第二用户界面618可以叠加在正在播放的媒体内容602上。在本示例中,显示单元上第二用户界面618的显示区域可以比显示单元上媒体内容602的显示区域小。这可有利于减少当用户正在消费媒体内容时由数字助理显示的结果的侵入性。应当认识到,在其他示例中,第二用户界面的显示区域相对于所显示内容的显示区域可以变化。此外,如图6G中“媒体播放”的实体字体所示,在显示第二用户界面618时,媒体内容602的亮度可以恢复到正常(例如,在检测到用户输入之前图6A中的亮度)。这可用于向用户指示与数字助理的交互已经完成。因此用户可以在查看所请求的结果(例如,媒体项目622)的同时继续消费媒体内容602。在其中从媒体搜索中获得的媒体项目在第二用户界面上显示的示例中,所显示媒体项目的数量可能受限。这可有利于使用户专注于最相关的结果,并防止用户在选择时由于结果数量众多而不知所措。在这些示例中,框532还可包括确定所获得的结果中媒体项目的数量是小于还是等于预先确定的数量(例如30、28或25)。根据确定所获得的结果中的媒体项目的数量小于或等于预先确定的数量,所获得的结果中的全部媒体项目都可以包括在第二用户界面中。根据确定所获得的结果中媒体项目的数量大于预先确定的数量,所获得的结果中仅预先确定数量的媒体项目可以包括在第二用户界面中。此外,在一些示例中,所获得的结果中只有与媒体搜索请求最相关的媒体项目可以在第二用户界面中显示。具体地讲,所获得的结果中的每个媒体项目可以与相对于媒体搜索请求的相关性分数相关联。显示的媒体项目在所获得的结果中可以具有最高的相关性分数。此外,第二用户界面中的媒体项目可以根据相关性分数排列。举例来说,参考图6G,具有较高相关性分数的媒体项目更可能紧邻第二用户接口618的一侧(例如,邻近光标624的一侧),而具有较低相关性分数的媒体项目更可能紧邻第二用户界面618的相对侧(例如,远离光标624的一侧)。此外,所获得的结果中的每个媒体项目可以与流行度评级相关联。流行度评级可以基于电影评论家的评级(例如,烂番茄网评级)或基于已经选择媒体项目进行回放的用户数量。在一些示例中,媒体项目622可以基于流行度评级布置在第二用户界面618中。举例来说,具有较高流行度评级的媒体项目更可能定位在第二用户接口618的一侧,而具有较低流行度评级的媒体项目更可能紧邻第二用户界面618的相对侧。如图5C中框532之后的不同流程(例如,D、E、F和G)所示,图5D、5E、5F或5I的框538、542、550或570中的一者分别可以在框532之后执行。可以在框536处显示第二用户界面的同时执行框538、542、550或570。在一些示例中,过程500可另选地在框536之后包括确定步骤以确定要执行的合适流程(例如,D、E、F或G)。具体地讲,可以在框536之后检测到用户输入,并且可以确定所检测到的用户输入是对应于第二用户输入(例如框538)、第三用户输入(例如框542)、第四用户输入(例如框550)还是第六用户输入(例如框570)。例如,根据确定用户输入对应于框542的第三用户输入,可以执行框544至546中的一者或多者。在框546之后也可以包括相似的确定步骤。在过程500的框538处,参考图5D,可以检测第二用户输入。如上所述,当在显示单元上显示第二用户界面时,可以检测第二用户输入。可以在媒体设备的遥控器上检测第二用户输入。举例来说,第二用户输入可包括在遥控器的触敏表面上的第一预先确定的运动模式。在一个示例中,第一预先确定的运动模式可包括沿第一方向从触敏表面上的第一接触点到第二接触点的连续接触运动。当以预期的方式握持遥控器时,第一方向可以是向下的方向或朝向用户的方向。应当认识到,对于第二用户输入可以考虑其他形式的输入。响应于检测到第二用户输入,可以执行框540。在过程500的框540处,可以删除第二用户界面,以使得第二用户界面不再显示。举例来说,参考图6G,响应于检测到第二用户输入,第二用户界面618可以停止显示。在该示例中,在删除第二用户界面618之后,可以在显示单元的全屏上显示媒体内容602。举例来说,在停止显示第二用户界面618之后,可以显示媒体内容602,如图6A所示。在过程500的框542处,参考图5E,可以检测第三用户输入。当在显示单元上显示第二用户界面时,可以检测第三用户输入。可以在媒体设备的遥控器上检测第三用户输入。举例来说,第三用户输入可包括在遥控器的触敏表面上的第二预先确定的运动模式。第二预先确定的运动模式可包括在触敏表面上沿第二方向从第三接触点到第四接触点的连续接触运动。第二方向可以与第一方向相对。具体地讲,当以预期的方式握持遥控器时,第二方向可以是向上的方向或远离用户的方向。响应于检测到第三用户输入,可以执行框544至546中的一者或多者。在一些示例中,如图6G所示,第二用户界面618可包括图形指示符621(例如箭头)以向用户指示第二用户界面618可以通过提供第三用户输入来扩展。此外,图形指示符621可以向用户指示与用于第三用户输入的触敏表面上的第二预先确定的运动模式相关联的第二方向。在过程500的框544处,可以获得第二结果。所获得的第二结果与在框534处获得的结果可以相似,但不相同。在一些示例中,所获得的第二结果可以至少部分地满足用户请求。举例来说,所获得的第二结果可以共享在框534处获得的结果的一个或多个属性、参数或特性。在图6F至图6G所示的示例中,框544可包括执行与在框534处执行的媒体搜索查询相关的一个或多个附加媒体搜索查询。例如,一个或多个附加媒体搜索查询可包括搜索具有浪漫喜剧流派的媒体项目或搜索由ReeseWitherspoon主演的媒体项目。所获得的第二结果因此可包括浪漫喜剧媒体项目(例如,媒体项目634)和/或由ReeseWitherspoon主演的媒体项目(例如,媒体项目636)。在一些示例中,所获得的第二结果可以基于先前在框504处检测到用户输入之前接收到的用户请求。具体地讲,所获得的第二结果可包括先前用户请求的一个或多个特征或参数。例如,先前的用户请求可以是“显示过去5年内发布的电影”。在该示例中,所获得的第二结果可包括由ReeseWitherspoon主演并在过去5年内发布的浪漫喜剧电影媒体项目。此外,在一些示例中,框544可包括获得第二结果,该第二结果在上下文上与在检测到第三用户输入时第二用户界面所关注的项目相关。例如,参考图6G,在检测到第三用户输入时,光标624可以位于第二用户界面618中的媒体项目623处。媒体项目623可以是例如电影“LegallyBlonde”。在该示例中,所获得的第二结果可以共享与媒体项目“LegallyBlonde”相关联的一个或多个特征、属性或参数。具体地讲,所获得的第二结果可包括与进入法学院或与职业女性主角相关的媒体项目,如“LegallyBlonde”。在过程500的框546处,可以在显示单元上显示第三用户界面。具体地讲,框536处第二用户界面的显示可以用框546处第三用户界面的显示替换。在一些示例中,响应于检测到第三用户输入,可以将第二用户界面扩展成为第三用户界面。第三用户界面可以占据显示单元的显示区域的至少大部分。第三用户界面可包括框534的所获得结果的一部分。此外,第三用户界面可包括框544的所获得第二结果的一部分。在一个示例中,如图6H所示,第三用户界面626可以基本上占据显示单元的整个显示区域。在该示例中,先前媒体内容602和第二用户界面618的显示可以用第三用户界面626的显示替换。响应于检测到第三用户输入,可以暂停媒体设备上媒体内容的播放。这可有利于防止用户在浏览第三用户界面626中的媒体项目时错过媒体内容602的任何部分。第三用户界面626可包括媒体项目622,这些媒体项目满足用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”。此外,第三用户界面626可包括至少部分地满足同一用户请求的媒体项目632。媒体项目632可包括多组媒体项目,每组媒体项目对应于不同的特征、属性或参数。在该示例中,媒体项目632可包括浪漫喜剧媒体项目634和由ReeseWitherspoon主演的媒体项目636。每组媒体项目可以用文本标头(例如文本标头628、630)标记。文本标头可以描述与相应组媒体项目相关联的一个或多个属性或参数。此外,文本标头可各自为示例性的用户话语,当用户向数字助理提供该话语时,可以使数字助理获得相似的媒体项目组。举例来说,参考文本标头628,响应于从用户接收用户话语“浪漫喜剧”,数字助理可以获得并显示浪漫喜剧媒体项目(例如,媒体项目634)。虽然在图6H所示的示例中,媒体项目622基于初始用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”,但应当认识到,在其他示例中,媒体项目632可以基于其他因素,例如媒体选择历史、媒体搜索历史、先前媒体搜索的接收顺序、媒体相关属性之间的关系、媒体项目的流行度等。在其中用户请求是媒体搜索请求的示例中,所获得的第二结果可以基于框534的所获得结果中媒体项目的数量。具体地讲,响应于检测到第三用户输入,可以确定所获得的结果中媒体项目的数量是小于还是等于预先确定的数量。根据确定所获得的结果中媒体项目的数量小于或等于预先确定的数量,所获得的第二结果可以包括与第二用户界面中的媒体项目不同的媒体项目。所获得的第二结果可以至少部分地满足在框534处执行的媒体搜索请求。同时,所获得的第二结果可以比所获得的结果更宽范,并且可以与比在框534处执行的媒体搜索请求中限定的全部参数更少的参数相关联。这可有利于向用户提供更宽泛的一组结果和更多可供选择的选项。在一些示例中,根据确定框534的所获得的结果中媒体项目的数量小于或等于预先确定的数量,可以确定媒体搜索请求是否包括一个以上搜索属性或参数。根据确定媒体搜索请求包括一个以上搜索属性或参数,所获得的第二结果可包括与一个以上搜索属性或参数相关联的媒体项目。另外,所获得的第二结果中的媒体项目可以根据所述一个以上搜索属性或参数组织到第三用户界面中。在图6F至图6H所示的示例中,可以确定媒体搜索请求“查找由ReeseWitherspoon主演的浪漫喜剧”包括一个以上搜索属性或参数(例如“浪漫喜剧”和“ReeseWitherspoon”)。根据确定媒体搜索请求包括一个以上搜索属性或参数,所获得的第二结果可包括与搜索参数“浪漫喜剧”相关联的媒体项目634以及与搜索参数“ReeseWitherspoon电影”相关联的媒体项目636。如图6H所示,媒体项目634可以组织在“浪漫喜剧”类别下,并且媒体项目636可以组织在“ReeseWitherspoon”类别下。在一些示例中,根据确定框534的所获得结果中媒体项目的数量大于预先确定的数量,第三用户界面可包括所获得结果的第一部分和第二部分。所获得结果的第一部分可包括预先确定数量的媒体项目(例如,具有最高相关性分数)。所获得结果的第二部分可以与所获得结果的第一部分不同,并且可包括比所获得结果的第一部分更多数量的媒体项目。此外,可以确定所获得的结果中的媒体项目是否包括一种以上媒体类型(例如电影、电视节目、音乐、应用程序、游戏等)。响应于确定所获得的结果中的媒体项目包括一种以上媒体类型,可以根据媒体类型来组织所获得的结果的第二部分中的媒体项目。在图6I所示的示例中,在框534处获得的结果可包括由ReeseWitherspoon主演的浪漫喜剧媒体项目。根据确定所获得的结果中媒体项目的数量大于预先确定的数量,所获得的结果的第一部分(媒体项目622)和所获得的结果的第二部分(媒体项目638)可以显示在第三用户界面626中。响应于确定所获得的结果包括一种以上媒体类型(例如,电影和电视节目),媒体项目638可以根据媒体类型来组织。具体地讲,媒体项目640可以组织在“电影”类别下,并且媒体项目642可以组织在“电视节目”类别下。此外,在一些示例中,与相应媒体类型(例如,电影、电视节目)相对应的每组媒体项目(例如,媒体项目640、642)可以根据相应组媒体项目内最流行的流派、演员/导演或者发布日期来排序。应当认识到,在其他示例中,响应于确定所获得的结果中的媒体项目与一种以上媒体属性或参数相关联,所获得结果的第二部分中的媒体项目可以根据媒体属性或参数(而不是媒体类型)来组织。在一些示例中,可以检测到表示滚动命令的用户输入(例如,下面在框550处描述的第四用户输入)。响应于接收到代表滚动命令的用户输入,可以使得扩展的用户界面(或者更具体地讲,扩展的用户界面中的项目)滚动。在滚动时,可以确定扩展的用户界面是否已经滚动到扩展的用户界面中的预先确定的位置之外。响应于确定扩展的用户界面已经滚动到扩展的用户界面中的预先确定的位置之外,可以在扩展的用户界面上显示所获得结果的第三部分中的媒体项目。第三部分中的媒体项目可以根据与第三部分中的媒体项目相关联的一个或多个媒体内容提供商(例如,iTunes、Netflix、HuluPlus、HBO等)来组织。应当认识到,在其他示例中,响应于确定扩展的用户界面已经滚动到扩展的用户界面中的预先确定的位置之外,可以获得其他媒体项目。举例来说,可以获得流行媒体项目或与所获得的结果相关的媒体项目。如图5E中框546之后的不同流程(例如,B、F、G和H)所示,图5F、5G、5H或5I的框550、558、566或570分别可以在框532之后执行。具体地讲,在一些示例中,可以在框546处显示第三用户界面的同时执行框550、560、564或570。在过程500的框550处,参考图5F,可以检测第四用户输入。当第二用户界面(例如,第二用户界面618)或第三用户界面(例如,第三用户界面626)在显示单元上显示时,可以检测第四用户输入。在一些示例中,可以在媒体设备的遥控器上检测第四用户输入。第四用户输入可以指示显示单元上的方向(例如,向上、向下、向左、向右)。举例来说,第四用户输入可以是从遥控器的触敏表面上的第一位置到位于第一位置右侧的触敏表面上的第二位置的接触运动。接触运动因此可对应于显示单元上的向右方向。响应于检测到第四用户输入,可以执行框552。在过程500的框552处,第二用户界面或第三用户界面的焦点可以从第二用户界面或第三用户界面上的第一项目切换到第二项目。第二项目可以定位在相对于第一项目的方向(例如,对应于第四用户输入的同一方向)上。例如,在图6G中,第二用户界面618的焦点可以在媒体项目623上,其中光标624定位在媒体项目623处。响应于检测到对应于显示单元上向右方向的第四用户输入,第二用户界面618的焦点可以从图6G中的媒体项目623切换到图6J中定位在媒体项目623右侧的媒体项目625。具体地讲,光标624的位置可以从媒体项目623改变到媒体项目625。又如,参考图6H,第三用户界面626的焦点可以在媒体项目623上。响应于检测到对应于显示单元上向下方向的第四用户输入,第三用户界面626的焦点可以从图6H中的媒体项目623切换到图6K中定位在相对于媒体项目623向下方向的媒体项目627。具体地讲,光标624的位置可以从媒体项目623改变到媒体项目627。在过程500的框554处,可以经由第二用户界面或第三用户界面接收对一个或多个媒体项目中的媒体项目的选择。例如,参考图6J,当光标624定位在媒体项目625处时,可以通过检测到对应于用户选择的用户输入,经由第二用户界面618接收对媒体项目625的选择。相似地,参考图6K,当光标624定位在媒体项目627处时,可以通过检测到对应于用户选择的用户输入,经由第三用户界面626接收对媒体项目627的选择。响应于接收到对一个或多个媒体项目中的媒体项目的选择,可以执行框556。在过程500的框556处,可以在显示单元上显示与所选择的媒体项目相关联的媒体内容。在一些示例中,媒体内容可以是正在媒体设备上播放或正流经媒体设备的电影、视频、电视节目、动画等。在一些示例中,媒体内容可以是正在媒体设备上运行的视频游戏、电子书、应用程序或程序。此外,在一些示例中,媒体内容可以是与媒体项目相关的信息。该信息可以是描述所选择的媒体项目的各种特征(例如,剧情摘要、演员表、导演、作者、公布日期、评级、持续时间等)的产品信息。在过程500的框558处,参考图5G,可以检测第五用户输入。在一些示例中,可以在显示第三用户界面(例如,第三用户界面626)的同时检测第五用户输入。在这些示例中,可以在第三用户界面的焦点在第三用户界面的顶行中的媒体项目(例如,图6H的第三用户界面626中的媒体项目622中的一者)上时检测到第五用户输入。在其他示例中,可以在显示第一用户界面的同时检测第五用户输入。在这些示例中,可以在执行框508至514中的任一者的同时检测第五用户输入。在一些示例中,可以在媒体设备的遥控器上检测第五用户输入。第五用户输入可以与第三用户输入相似或相同。例如,第五用户输入可包括沿第二方向在触敏表面上的连续接触运动(例如,向上滑动接触运动)。在其他示例中,第五用户输入可以是示能表示的激活。该示能表示可以与虚拟键盘接口或类型化搜索界面相关联。响应于检测到第五用户输入,可以执行框560至564中的一者或多者。在过程500的框560处,可以显示被配置为接收类型化搜索输入的搜索字段。举例来说,如图6L所示,搜索字段644可以显示在显示单元上。在一些示例中,搜索字段可以被配置为接收类型化搜索查询。类型化搜索查询可以是媒体相关的搜索查询,例如搜索媒体项目。在一些示例中,搜索字段可以被配置为基于经由搜索字段644输入的文本和与媒体项目相关联的存储的文本之间的文本串匹配来执行媒体相关的搜索。此外,在一些示例中,数字助理可以被配置为不经由搜索字段644接收输入。这可以鼓励用户经由语音界面而不是类型化界面与数字助理交互,以促进媒体设备和用户之间更人性化的界面。应当认识到,在一些示例中,搜索字段可能已经显示在第二用户界面(例如,第二用户界面618)或第三用户界面(例如,第三用户界面626)中。在这些示例中,可能不需要执行框566。在过程500的框562处,可以在显示单元上显示虚拟键盘接口。举例来说,如图6L所示,可以显示虚拟键盘接口646。虚拟键盘接口646可以被配置为使得经由虚拟键盘接口646接收的用户输入导致在搜索字段中输入文本。在一些示例中,虚拟键盘接口不能用于与数字助理交互。在过程500的框564处,用户界面的焦点可以切换到搜索字段。例如,参考图6L,搜索栏644可以在框568处突出显示。此外,文本输入光标可以定位在搜索字段644中。在一些示例中,在搜索字段中可以显示提示用户输入类型化搜索的文本。如图6L所示,文本648包括提示“键入搜索”。在过程500的框566处,参考图5H,可以检测第七用户输入。在一些示例中,可以在显示第三用户界面(例如,第三用户界面626)的同时检测第七用户输入。在一些示例中,第七用户输入可包括按下电子设备的遥控器的按钮。该按钮可以是例如用于导航到电子设备的主菜单用户界面的菜单按钮。应当认识到,在其他示例中,第七用户输入可包括其他形式的用户输入。响应于检测到第七用户输入,可以执行框568。在过程500的框568处,第三用户界面可以停止在显示单元上显示。具体地讲,第七用户输入可以导致第三用户界面被删除。在一些示例中,第七用户输入可以导致显示主菜单用户界面菜单以代替第三用户界面。或者,在其中在显示第三用户界面(例如,第三用户界面626)之前显示媒体内容(例如,媒体内容602)并且在显示第三用户界面(例如,第三用户界面626)时暂停播放电子设备上的媒体内容的示例(例如,响应于检测到第三用户输入而暂停)中,媒体内容在电子设备上的播放可以恢复以响应于检测到第七用户输入。因此,可以显示媒体内容以响应于检测到第七用户输入。在过程500的框570处,参考图5I,可以检测第六用户输入。如图6M所示,可以在显示第三用户界面626的同时检测第六用户输入。然而,在其他示例中,可以在显示第二用户界面(例如,第二用户界面618)的同时另选地检测第六用户输入。在检测到第六用户输入时,第二用户界面或第三用户界面可包括至少部分地满足用户请求的结果的一部分。第六用户输入可包括用于调用电子设备的数字助理的输入。具体地讲,第六用户输入可以与上文参考框516描述的第二输入类型的用户输入相似或相同。举例来说,第六用户输入可包括按下媒体设备的遥控器上的特定按钮,并按住该按钮,保持预定持续时间以上(例如,长按)。响应于检测到第六用户输入,可以执行框572至592中的一者或多者。在过程500的框572处,可以对第二音频数据取样。框572可以与上述框518相似或完全相同。具体地讲,采样的第二音频数据可包括来自用户的第二用户话语。第二用户话语可以表示针对数字助理的第二用户请求。在一些示例中,第二用户请求可以是请求执行第二任务。举例来说,参考图6M,采样的第二音频数据可包括第二用户话语“仅LukeWilson出演的那些。”在该示例中,第二用户话语可以表示第二用户请求,以筛选先前的媒体搜索,仅包括LukeWilson出演的媒体项目。在该示例中,第二用户话语是自然语言形式。此外,可以部分指定第二用户请求,在这种情况下第二用户话语不明确指定限定用户请求所需的全部信息。举例来说,第二用户话语不明确指定“那些”指的是什么。在其他示例中,第二用户请求可以是请求播放媒体项目或请求提供特定信息(例如,天气、股票、体育等)。应当认识到,在一些示例中,上述框520至526可以相对于第六用户输入以相似的方式执行。具体地讲,如图6M所示,当检测到第六用户输入时,可以在显示单元上显示主动视觉指示符614。第二用户话语的第二文本表示650可以(例如,使用STT处理模块430)确定并显示在显示单元上。可以基于该第二文本表示(例如,使用自然语言处理模块432)来确定对应于第二用户话语的第二用户意图。在一些示例中,如图6M所示,响应于检测到第六用户输入,在显示单元上显示的内容的亮度在检测到第六用户输入时可以被淡化或降低。这可以起到突出主动视觉指示符614和第二文本表示650的作用。在过程500的框574处,可以确定采样的第二音频数据是否包含第二用户请求。框574可以与上述框528相似或相同。具体地讲,可以基于从第二用户话语的第二文本表示确定的第二用户意图作出框574处的确定。根据确定第二音频数据不包含用户请求,可以执行框576。或者,根据确定第二音频数据包含第二用户请求,可以执行框578至592中的一者或多者。在过程500的框576处,可以在显示单元上显示说明用户意图的请求。框576可以与上述框530相似或相同。在过程500的框578处,可以确定第二用户请求是否是请求筛选用户请求的结果。在一些示例中,可以根据与第二用户话语相对应的第二用户意图作出确定。具体地讲,可以确定第二用户请求为请求基于在第二用户话语中标识的所表达指示来筛选用户请求的结果以筛选用户请求的结果。例如,参考图6M,可以在自然语言处理期间对第二文本表示650进行语法分析,确定第二用户话语是否包括对应于明示意图的预先确定的字词或短语,以筛选媒体搜索结果。对应于筛选媒体搜索结果明示意图的字词或短语的示例可以包括“仅有”、“仅仅”、“由……过滤”等。因此,可以基于第二文本表示650中的字词“仅有”确定第二用户请求是请求筛选与用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”相关联的媒体搜索结果。应当认识到,可以实施其他技术来确定第二用户请求是否是请求筛选用户请求的结果。根据确定第二用户请求是请求筛选用户请求的结果,可以执行框580至582中的一者或多者。在过程500的框580处,可以获得至少部分满足用户请求的结果的子集。在一些示例中,可以通过根据第二用户请求中限定的附加参数对现有结果进行过滤来获得结果的子集。举例来说,可以对在框534处获得的结果进行过滤(例如,包括媒体项目622),从而标识由LukeWilson出演的媒体项目。在其他示例中,可以执行结合用户请求和第二用户请求的要求的新媒体搜索查询。例如,新媒体搜索查询可以是对具有浪漫喜剧流派以及ReeseWitherspoon和LukeWilson演员的媒体项目的搜索查询。在该示例中,新媒体搜索查询可以产生诸如“LegallyBlonde”和“LegallyBlonde2”之类的媒体项目。在其中当显示第三用户界面时检测到第六用户输入的示例中,可以获得与用户请求和/或第二用户请求相关的附加结果。附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个属性或参数的媒体项目。此外,附加结果可能不包括用户请求和第二用户请求中描述的全部属性或参数。举例来说,参考图6H和6M中描绘的示例,附加结果可包括具有以下属性或参数中的至少一者(但不是全部)的媒体项目:浪漫喜剧、ReeseWitherspoon和LukeWilson。附加结果可有利于向用户提供更宽泛的一组结果和更多可供选择的选项。此外,附加结果可以是可能引起用户关注的相关结果。在框582处,可以在显示单元上显示结果的子集。例如,如图6N所示,结果的子集可包括媒体项目652,其可包括电影诸如“LegallyBlonde”和“LegallyBlonde2。”在该示例中,媒体项目652显示在第三用户界面626的顶行中。文本标头656可以描述与所显示的媒体项目652相关联的属性或参数。具体地讲,文本标头656可包括与第二用户话语相关联的用户意图的释义。在其中当显示第二用户界面(例如,图6G所示的第二用户界面618)时检测第六用户输入的示例中,媒体项目652可以转而显示在第二用户界面中。在这些示例中,媒体项目652在第二用户界面上可以显示为单行。应当认识到,媒体项目652在第二用户界面或第三用户界面中显示的方式可以变化。在其中当显示第三用户界面时检测到第六用户输入的示例中,可以在第三用户界面中显示与用户请求和/或第二用户请求相关的附加结果。例如,参考图6N,附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个参数的媒体项目654。具体地讲,媒体项目654可包括由LukeWilson主演的浪漫喜剧媒体项目658和由LukeWilson主演并在过去的10年内发布的媒体项目660。每组媒体项目(例如媒体项目658、660)可以用文本标头(例如文本标头662、664)标记。文本标头可以描述与相应组媒体项目相关联的一个或多个参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性的用户话语,当用户向数字助理提供该话语时,可以使数字助理获得相似的媒体项目组。举例来说,参考文本标头662,响应于从用户接收用户话语“由LukeWilson主演的浪漫喜剧”,数字助理可以获得并显示由LukeWilson主演的浪漫喜剧媒体项目(例如,媒体项目658)。再次参考框578,可以确定第二用户请求不是请求筛选用户请求的结果。此类确定可以基于第二用户话语中不存在任何明确的指示而作出,以筛选用户请求的结果。例如,当在自然语言处理期间解析第二用户话语的第二文本表示时,不可以标识与筛选媒体搜索结果的明确意图相对应的预先确定的字词或短语。这可能是由于第二用户请求是与先前用户请求不相关的请求(例如,新请求)。举例来说,第二用户请求可以是“查找恐怖电影”,这是与先前用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”不相关的请求。或者,第二用户请求可包括含糊语言,该语言可以解释为请求筛选先前用户请求的结果或与先前用户请求不相关的新请求。举例来说,参考图6P,第二用户话语可以是“LukeWilson”,其可以解释为请求筛选先前用户请求的结果(例如,筛选仅包括由LukeWilson出演的媒体项目)或者与先前用户请求不相关的新请求(例如,对由LukeWilson出演的媒体项目的新媒体搜索)。在这些示例中,可以确定第二用户请求不是请求筛选用户请求的结果。根据确定第二用户请求是请求筛选用户请求的结果,可以执行框584至592中的一者或多者。在过程500的框584处,可以执行至少部分满足第二用户请求的第二任务。框584可以与上面描述的框532相似,不同之处在于框584的第二任务可能与框532的任务不同。框584可包括框586至588中的一者或多者。在过程500的框586处,可以获得至少部分地满足第二用户请求的第三结果。框586可以与上述框534相似。参考图6P中描绘的示例,第二用户话语“LukeWilson”可以解释为请求执行新的媒体搜索查询以标识由LukeWilson出演的媒体项目。因此,在该示例中,框586可包括执行所请求的媒体搜索以获得由LukeWilson出演的媒体项目。应当认识到,在其他示例中,用户请求可包括对其他类型信息(诸如天气、体育和股票等)的请求,并且在框586处可以获得相应类型的信息。在过程500的框588处,可以在显示单元上显示第三结果的一部分。例如,参考图6Q,可以在第三用户界面626中显示第三结果,该第三结果包括由LukeWilson出演的媒体项目670(例如,诸如“PlayingItCool”、“TheSkeletonTwins”和“YouKillMe”之类的电影)。在该示例中,媒体项目670可以显示在第三用户界面626的顶行中。文本标头678可以描述与所显示的媒体项目670相关联的属性。具体地讲,文本标头678可包括与第二用户话语相关联的所确定用户意图的释义。在其中当显示第二用户界面(例如,图6G所示的第二用户界面618)时检测到第六用户输入的示例中,媒体项目670可以显示在第二用户界面中。在这些示例中,媒体项目670可以在第二用户界面上成单行显示。应当认识到,在其他示例中,第二用户界面或第三用户界面中媒体项目670的组织或配置可以变化。在过程500的框590处,可以获得至少部分满足用户请求和/或第二用户请求的第四结果。具体地讲,第四结果可包括具有在用户请求和/或第二用户请求中限定的一个或多个属性或参数的媒体项目。参考图6P和6Q中描绘的示例,第四结果可包括具有以下属性或参数中的一者或多者的媒体项目:浪漫喜剧、ReeseWitherspoon和LukeWilson。例如,第四结果可包括具有浪漫喜剧流派并由LukeWilson主演的媒体项目676。获得第四结果可有利于向用户提供更宽泛的一组结果和因此更多可供选择的选项。此外,第四结果可以与从第二用户请求和一个或多个先前用户请求得出的另选预测用户意图相关联,以增大满足用户的实际意图的可能性。这可用于增大返回给用户的结果的准确性和相关性,从而改善用户体验。在一些示例中,第四结果的至少一部分可包括具有在用户请求和第二用户请求中限定的所有参数的媒体项目。例如,第四结果可以包括具有浪漫喜剧流派并且由瑞茜·威瑟斯彭和卢克·威尔逊主演的媒体项目674。媒体项目674可以与使用第二用户请求来筛选先前用户请求的结果的另选意图相关联。在其中用户实际上希望第二请求是请求筛选所获得结果的情况中,获得媒体项目674可有利于增大满足用户的实际意图的可能性。在一些示例中,第四结果的一部分可以基于当检测到第六用户输入时用户界面的焦点。具体地讲,当检测到第六用户输入时,用户界面的焦点可以在第三用户界面的一个或多个项目上。在该示例中,第四结果的一部分可以在上下文上与用户界面所关注的一个或多个项目相关。举例来说,参考图6K,光标624可以定位在媒体项目627处,因此第三用户界面626的焦点可以在媒体项目627上。在该示例中,可以利用与媒体项目627相关联的属性或参数来获得第四结果的一部分。例如,可以利用与媒体项目627相关联的“ReeseWitherspoon电影”类别来获得第四结果的一部分,其中所获得的部分可包括由ReeseWitherspoon和LukeWilson两人主演的媒体项目。在另一个示例中,媒体项目627可以是冒险电影,因此第四结果的一部分可包括由LukeWilson主演的冒险电影媒体项目。在过程500的框592处,可以显示第四结果的一部分。在其中当显示第三用户界面时检测到第六用户输入的示例中,可以在第三用户界面中显示所述第四结果的一部分。例如,如图6Q所示,所述第四结果的一部分可包括在媒体项目670之后的行中显示的媒体项目672。媒体项目672可以与第二用户请求和/或用户请求中限定的一个或多个属性或参数(例如,浪漫喜剧、ReeseWitherspoon和LukeWilson)相关联。例如,媒体项目672可包括由LukeWilson主演的浪漫喜剧媒体项目676以及由ReeseWitherspoon和LukeWilson主演的浪漫喜剧媒体项目674。每组媒体项目(例如媒体项目674、676)可以用文本标头(例如文本标头680、682)标记。文本标头可以描述与相应组媒体项目相关联的一个或多个属性或参数。文本标头可以是自然语言形式。此外,每个文本标头可以是示例性的用户话语,当用户向数字助理提供该话语时,可以使数字助理获得具有相似属性的相似媒体项目组。如上所述,“LukeWilson”第二用户话语可以与两个可能的用户意图相关联:执行新媒体搜索的第一用户意图或者筛选先前用户请求的结果的第二用户意图。所显示的媒体项目670可以满足第一用户意图,并且所显示的媒体项目674可以满足第二用户意图。在该示例中,媒体项目670和674显示在前两行中。通过这种方式,可以在第三用户界面626中突出(例如,前两行)显示与第二用户请求相关联的两个最可能的用户意图的结果(例如,新搜索或筛选先前搜索)。这可有利于在找到期望的媒体项目消耗之前最小化用户在第三用户界面中的滚动或浏览。应当认识到,在第三用户界面626中突出显示媒体项目670和674以最小化滚动和浏览的方式可以变化。图7A至图7C示出了根据各种示例用于操作媒体系统的数字助理的过程700。可使用实施数字助理的一个或多个电子设备来执行过程700。例如,可以使用上文描述的系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程700。图8A至图8W示出了根据各种示例在过程700的各个阶段在显示单元上由媒体设备显示的屏幕截图。下文同时参考图7A至图7C和图6A至图6W描述过程700。应当理解,过程700中的一些操作可以被组合,一些操作的次序可以被改变,并且一些操作可以被省略。在过程700的框702处,可以在显示单元(例如,显示单元126)上显示内容。框702可以与上述框502相似或相同。参考图8A,所显示的内容可包括正在媒体设备(例如,媒体设备104)上播放的媒体内容802(例如,电影、视频、电视节目、视频游戏等)。在其他示例中,所显示的内容可包括其他内容,诸如与在媒体设备上运行的应用程序相关联的内容或用于与媒体设备的数字助理交互的用户界面。具体地讲,所显示的内容可包括主菜单用户界面或具有用户先前请求的对象或结果的用户界面。在过程700的框704处,可以检测用户输入。框704可以与上述框504相似或相同。用户输入可用于调用媒体设备的数字助理。在一些示例中,可以在显示框702的内容的同时检测到用户输入。可以在媒体设备的遥控器(例如,遥控器124)上检测用户输入。例如,用户输入可以对应于过程500的框516中描述的第二输入类型。具体地讲,框704的用户输入可包括按下媒体设备的遥控器上的特定按钮,并按住该按钮,保持预定持续时间以上(例如,长按)。响应于检测到用户输入,可以执行框706至746中的一者或多者。在过程700的框706处,可以对音频数据取样。框706可以与上述框518相似或相同。采样的音频数据可包括用户话语。用户话语可以表示针对媒体设备的数字助理的用户请求。举例来说,参考图8A所示的示例,采样的音频数据可包括“巴黎现在几点?”的用户话语。用户话语可以是非结构化自然语言的形式。在一些示例中,可以部分指定由用户话语表示的请求,其中执行该请求所需的信息在用户话语中缺失或者未明确限定(例如,“播放该项目”)。在其他示例中,用户话语可能不是明确的请求,而是推断该请求的间接问题或陈述(例如,“他说了什么?”)。此外,如下文在框712中更详细地描述,用户话语可包括一个或多个含糊术语。在过程700的框708处,可以确定采样的音频数据中用户话语的文本表示。框708可以与上述框522相似或相同。具体地讲,可以通过对采样音频数据中的用户话语执行STT处理来确定文本表示。例如,参考图8A,可以从采样的音频数据中的用户话语确定并在显示单元上显示文本表示804“巴黎现在几点?”。如图所示,当媒体内容802继续在媒体设备上播放时,文本表示804可以叠加在媒体内容802上。在一些示例中,用于确定文本表示的STT处理可能偏向媒体相关的文本结果。除此之外或另选地,文本表示可以基于先前在对音频数据取样之前由媒体设备接收的用户话语。此外,在一些示例中,文本表示可以基于在对音频数据取样之前接收先前用户话语的时间。在其中从单独的设备(例如,DA服务器106)获得文本表示的示例中,媒体设备可以向单独的设备指示采样的音频数据与媒体应用程序相关联,并且这种指示可以使单独设备上的STT处理偏向媒体相关的文本结果。在过程700的框710处,可以确定对应于用户话语的用户意图。框710可以与上述框526相似。具体地讲,可以使用自然语言处理(例如,用自然语言处理模块432)来处理框708的文本表示,以得出用户意图。例如,参考图8A,可以从文本表示804“巴黎现在几点?”确定用户意图是对名为“巴黎”的位置中的时间的请求。用于确定用户意图的自然语言处理可以偏向媒体相关的用户意图。在其中从单独的设备(例如,DA服务器106)获得用户意图的示例中,媒体设备可以向单独的设备指示采样的音频数据与媒体应用程序相关联,并且这种指示可以使单独设备上的自然语言处理处理偏向媒体相关的用户意图。在一些示例中,可以基于从采样音频数据中的用户话语得出的韵律信息来确定用户意图。具体地讲,可以从用户话语得出韵律信息(例如,音调、节奏、音量、压力、语调、语速等)以确定用户的态度、心情、情绪或感情。然后可以从用户的态度、心情、情绪或情感中确定用户意图。例如,采样的音频数据可包括用户话语“他说了什么?”在该示例中,基于在用户话语中检测到的高音量和压力,可以确定用户不耐烦或沮丧。基于用户话语和所确定的用户情感,可以确定用户意图包括请求增大与正在媒体设备上播放的媒体内容相关联的音频的音量。如图7A所示,框710可包括框712至718中的一者或多者。具体地讲,当发现两个或更多个用户意图是高度可能的并且自然语言处理模块不能将两个或更多个用户意图缩小为单个用户意图时,可以执行框712至718中的一者或多者。例如,当用户话语包括无法基于可用上下文信息弄清的含糊术语时,可能出现此类情况。在过程700的框712处,可以确定用户话语(或用户话语的文本表示)是否包括含糊术语。可以在自然语言处理期间作出这种确定(例如,使用自然语言处理模块432)以确定用户意图。含糊术语可以是具有一种以上可能解释的字词或短语。例如,参考图8A,用户话语“巴黎现在几点?”中的术语“巴黎”可以解释为在法国的巴黎市或在美国得克萨斯州的巴黎市。因此,可以确定用户话语中的术语“巴黎”为含糊术语。在一些示例中,可以检索上下文信息(例如,通过数字助理)以弄清潜在含糊术语。如果成功弄清含糊术语,则可以确定用户话语不包括含糊术语。例如,可以确定媒体内容802是以法国巴黎作为背景的电影(例如“Ratatouille”),因此用户更可能指的是法国巴黎,而不是德克萨斯州的巴黎。在该示例中,可以成功弄清术语“巴黎”指的是法国巴黎,因此可以确定用户话语不包括含糊术语。在另一个示例中,用户话语可以是“播放该项目”。在该示例中,用户话语不明确限定要播放的特定媒体项目,因此术语“该项目”可单独解释为可以指媒体设备能够访问的任何媒体项目的含糊术语。该术语可以使用通过显示单元上的媒体设备显示的上下文信息来弄清。例如,数字助理可以确定所显示用户界面的焦点是否在媒体项目上。根据确定用户界面的焦点在媒体项目上,数字助理可以弄清术语“该项目”,并确定该术语是指所显示用户界面关注的媒体项目。基于该确定,在框712处可以确定用户话语不包括含糊术语。因此可以确定用户意图为请求播放所显示的用户界面关注的媒体项目。在其中无法弄清术语的示例中,在框712处可以确定用户话语包括含糊术语。响应于确定用户话语包括含糊术语,可以执行框714至718中的一者或多者。在过程700的框714处,可以基于含糊术语获得一个或多个候选用户意图。两个或多个候选用户意图可以是从用户话语确定的无法弄清的最可能的候选用户意图。参考图8A中描绘的示例,两个或多个候选用户意图可包括对法国巴黎时间的请求的第一候选用户意图以及对德克萨斯州巴黎时间的请求的第二候选用户意图。在过程700的框716处,可以在显示单元上显示两个或多个候选用户意图以供用户选择。例如,参考图8B,可以显示第一候选用户意图810和第二候选用户意图808。此外,可以提供文本提示806以通过在第一候选用户意图810和第二候选用户意图808之间选择来提示用户指示与用户话语相对应的实际用户意图。文本提示806、第一候选用户意图810和第二候选用户意图808可以叠加在媒体内容802上。在过程700的框716处,可以接受用户对两个或多个候选用户意图中一者的选择。在一些示例中,可以通过选择与候选用户意图中的一者相对应的示能表示来接收用户选择。具体地讲,如图8B所示,两个或多个候选用户意图(810,808)中的每一者可以显示为显示单元上的可选示能表示。媒体设备可以(例如,经由媒体设备的遥控器)接收来自用户的输入以将显示器的焦点改变为示能表示中的一者。然后可以接收用户对对应于该示能表示的候选用户意图的选择(例如,经由媒体设备的遥控器)。例如,如图8B所示,媒体设备可以接收用户输入以在对应于第一候选用户意图810(例如,法国巴黎)的示能表示上移动光标812。然后可以接收用户对第一候选用户意图810的选择。在其他示例中,可以经由与数字助理的语音交互来接收用户选择。例如,在显示两个或多个候选用户意图的同时,可以检测第二用户输入。第二用户输入可以与框704的用户输入相似或相同。具体地讲,第二用户输入可以是调用数字助理的输入(例如,按下媒体设备的遥控器上的特定按钮,并按住该按钮,保持预定持续时间以上)。响应于检测到第二用户输入,可以对第二音频数据取样。第二音频数据可包括表示用户对两个或多个解释中一者的选择的第二用户话语。例如,参考图8C,第二音频数据可包括第二用户话语“法国巴黎”。如图所示,可以在显示单元上显示第二用户话语“法国巴黎”的文本表示814。在该示例中,第二用户话语“法国巴黎”可以表示用户对第一候选用户意图810(例如,法国巴黎)的选择。基于第二用户话语“法国巴黎”,可以确定第一候选用户意图810是与用户话语“巴黎现在几点?”相对应的实际用户意图。这样一来,在框710处可以确定用户意图是对法国巴黎时间的请求。在基于接收到的用户选择确定用户意图之后,可以执行框720至746中的一者或多者。在一些示例中,可以在不从媒体设备输出语音的情况下执行框710至718。具体地讲,可以在不输出与两个或多个候选用户意图808、810相关联的语音的情况下显示文本提示806和候选用户意图808、810。因此,可以以语音的形式接收来自用户的输入,但是从数字助理的输出却以可视方式(而不是以音频的形式)在显示单元上呈现给用户。这可有利于保持与消费媒体内容相关联的共同体验,从而可以改善媒体设备的用户体验。再次参考框712,响应于确定用户话语不包括含糊术语,可以执行框720至718中的一者或多者。在过程700的框720处,可以确定用户意图是否对应于与媒体设备相关联的多个核心能力中的一者。例如,媒体设备可以与若干预先确定的核心能力相关联,诸如例如搜索媒体项目、播放媒体项目以及提供与媒体项目、天气、股票和体育相关的信息。如果用户意图涉及执行与若干预先确定的核心能力中的一者相关的任务,则可以确定用户意图对应于若干预先确定的核心能力中的一者。举例来说,如果用户意图是对由ReeseWitherspoon主演的媒体项目的请求,则可以确定用户意图对应于若干预先确定的核心能力中的一者。响应于确定用户意图对应于与电子设备相关联的多个核心能力中的一者,可以执行框724至746中的一者或多者。反之,如果用户意图涉及执行若干预先确定的核心能力之外的任务,则可以确定用户意图不对应于若干预先确定的核心能力中的一者。举例来说,如果用户意图是对地图方向的请求,则可以确定用户意图不对应于若干预先确定的核心能力中的一者。响应于确定用户意图不对应于与电子设备相关联的多个核心能力中的一者,可以执行框722。在过程700的框722处,可以使第二电子设备(例如设备122)至少部分地满足用户意图。具体地讲,可以使第二电子设备执行促进满足用户意图的任务。在一个示例中,可以确定媒体设备被配置为不满足对地图方向的请求的用户意图,因此用户意图可以传输到第二电子设备以满足用户意图。在该示例中,第二用户设备可以执行显示所请求的地图方向的任务。在其他示例中,除用户意图之外的信息可以传输到第二电子设备以使得第二电子设备执行促进满足用户意图的任务。例如,媒体设备的数字助理可以确定用于满足用户意图的任务流或结构化查询(例如,使用自然语言处理模块432或任务流处理模块436),并且该任务流或结构化查询可以传输到第二电子设备。然后第二电子设备可以执行任务流或结构化查询以促进满足用户意图。如在下面提供的描述中将变得显而易见,与满足用户意图相关联的侵入性水平可以基于用户意图的性质。在一些情况下,可以执行与满足用户意图相关联的任务,而不在显示器上显示任何附加的响应或输出(例如框726)。在其他情况下,仅提供文本响应(例如,无对应的视觉或音频输出)以满足用户意图(例如框732)。在其他情况下,可以显示具有相关结果的用户界面以满足用户意图(例如框738、742或746)。用户界面可以占据显示单元的大部分或少于大部分。因此,过程700可以根据用户意图的性质智能调整输出的侵入性水平。这使得能够方便地访问数字助理的服务,同时减少在媒体内容的消费期间不期望的中断,从而改善整体用户体验。在过程700的框724处,可以确定用户意图是否包括请求调整媒体设备上的应用程序的状态或设置。响应于确定用户意图包括请求调整媒体设备上的应用程序的状态或设置,可以执行框726。在过程700的框726处,可以调整应用程序的状态或设置以满足用户意图。在一些示例中,该状态或设置可以与正在媒体设备上播放的所显示媒体内容相关联。举例来说,请求调整应用程序的状态或设置可包括请求由媒体设备控制媒体内容的播放。具体地讲,其可包括请求在媒体设备上暂停、恢复、重新开始、停止、倒回或快进所显示媒体内容的播放。其还可包括请求媒体内容向前或向后跳转(例如,指定的持续时间)以便播放媒体内容的期望部分。此外,请求调整应用程序的状态或设置可包括请求开启/关闭与所显示媒体内容相关联的字幕或隐藏字幕(例如,以指定语言),请求增大/减小与所显示媒体内容相关联的音频的音量,请求使与所显示媒体内容相关联的音频静音/取消静音,或者请求加快/减慢所显示媒体内容的播放速率。图8E至图8F描绘了用户意图的例示性示例,该用户意图包括请求由媒体设备控制媒体内容的播放。在该示例中,可以在播放媒体内容802的同时调用数字助理(例如,在框704处)。起初可以播放媒体内容,而不显示字幕。(例如,在框706处)采样的音频数据可包括用户话语“开启英文字幕”。如图8E所示,用户话语的文本表示816可以显示在显示单元上。基于该用户话语,在框710处可以确定用户意图包括请求开启用于媒体内容802的英文字幕的显示。此外,在框724处,可以确定该用户意图是请求调整电子设备的应用程序的状态或设置。响应于该确定,可以开启用于媒体内容802的英文字幕。如图8F中的标签817所表示,可以发起与媒体内容802相关联的英文字幕的显示以满足用户意图。在图8G至图8H中描绘的另一个例示性示例中,采样的音频数据中的用户话语可以是指示用户未听到与媒体内容相关联的音频的一部分的自然语言表达。具体地讲,如图8G中的文本表示820所示,用户话语可以是“他说了什么?”。在该示例中,(例如,在框710处)可以确定用户意图包括请求重新播放与用户未听到的音频部分相对应的媒体内容的一部分。还可以确定,用户意图包括请求开启隐藏字幕,以克服难以听到与媒体内容相关联的音频难题。此外,基于用户话语中的韵律信息,可以确定用户感到沮丧或不耐烦,因此可以基于用户情感确定用户意图包括请求增大与媒体内容相关联的音频的音量。在框724处,可以确定这些用户意图是请求调整电子设备的应用程序的状态或设置。响应于该确定,可以将媒体内容倒回预先确定的持续时间(例如,15秒),回到媒体内容的前一部分,并且可以从该前一部分重新开始回放媒体内容(例如,如由图8H中的标签822所表示)。另外,在重新开始回放来自前一部分的媒体内容之前,可以开启隐藏字幕(例如,如图8H中的标签824所表示)。此外,可以在重新开始播放来自前一部分的媒体内容之前增大与媒体内容相关联的音频的音量。应当理解,可以从服务提供方(例如,有线电视提供方或媒体订购服务)获得与媒体内容相关联的隐藏字幕或字幕。但是,在其中隐藏字幕或字幕不能从服务提供方获得的示例中,媒体设备可以生成隐藏字幕或字幕以克服难以听到与媒体内容相关联的音频难题。例如,在接收采样的音频数据中的用户话语之前并且在播放媒体内容时,与媒体内容相关联的音频中的语音可以被连续地转换为文本(例如,使用STT处理模块730)并且与媒体内容相关联存储。响应于重新播放用户未听到的媒体内容的前一部分的用户请求,可以在重新播放媒体内容的前一部分时检索和显示与正在重新播放的前一部分相对应的文本。在一些示例中,可以调整与所显示的媒体内容相关联的状态或设置,而不显示用于执行这种调整的附加用户界面或者不提供任何表示对正在调整状态或设置的确认的文本或图形。例如,在图8E至图8H的所描绘示例中,可以简单地开启字幕(或隐藏字幕),而未明确显示文本(诸如“开启字幕”)或未显示用于控制字幕显示的用户界面。此外,可以在不输出任何与满足用户意图相关联的音频的情况下调整状态或设置。举例来说,在图8E至8H中,可以在不输出确认已经开启字幕的音频(例如,语音或非语言音频信号)的情况下开启字幕(或隐藏字幕)。因此,可以简单地执行所请求的动作,而不对媒体内容造成附加音频或视觉中断。通过这种方式,过程700可以最小化对用户消费媒体内容的中断,同时提供对数字助理的服务的便利访问,从而改善用户体验。在其他示例中,请求调整媒体设备上的应用程序的状态或设置可包括请求在媒体设备的用户界面(例如,第二用户界面818、第三用户界面826或主菜单用户界面)中进行导航。在一个示例中,请求在用户界面中进行导航可包括请求将用户界面的焦点从第一对象(例如,第一媒体项目)切换到用户界面中的第二对象(例如,第二媒体项目)。图8I至图8K描绘了一个此类请求的例示性示例。如图8I所示,所显示的内容可包括第三用户界面826,其中多个媒体项目组织成不同类别(例如,“浪漫喜剧”、“由ReeseWitherspoon主演的浪漫喜剧”和“LukeWilson电影”)。如由光标828的位置所指示,第三用户界面826的焦点可以在处于“浪漫喜剧”类别下的第一媒体项目830上。第二媒体项目832的标题可以是“LegallyBlonde”,并且可以位于“由ReeseWitherspoon主演的浪漫喜剧”类别下。如图8J中的文本表示834所示,采样音频数据中的用户话语(例如,在框706处)可以是“转到LegallyBlonde”。基于该用户话语,(例如,在框710处)可以确定用户意图是请求将第三用户界面826的焦点从第一媒体项目830切换到标题为“LegallyBlonde”的第二媒体项目832。响应于(例如,在框724处)确定该用户意图是请求调整电子设备的应用程序的状态或设置,第三用户界面826的焦点可以从第一媒体项目830切换到第二媒体项目832。例如,如图8K所示,光标828的位置可以从第一媒体项目830改变到第二媒体项目832。在另一个示例中,请求在用户界面中进行导航可包括请求将用户界面的焦点改变为在用户界面中显示的特定类别的结果。例如,图8I包括与“浪漫喜剧”、“由ReeseWitherspoon主演的浪漫喜剧”和“LukeWilson电影”类别相关联的媒体项目。采样音频数据中的用户话语可以改为“跳转到由ReeseWitherspoon主演的浪漫喜剧”,而不是“转到LegallyBlonde”。基于该用户话语,(例如,在框710处)可以确定“由ReeseWitherspoon主演的浪漫喜剧”限定在第三用户界面826中显示的媒体项目的类别,因此可以确定用户意图是请求将用户界面的焦点改变为与该类别相关联的一个或多个媒体项目。响应于(例如,在框724处)确定该用户意图是请求调整电子设备的应用程序的状态或设置,第三用户界面826的焦点可以转移到与该类别相关联的一个或多个媒体项目。例如,如图8K所示,光标828的位置可以转移到与“由ReeseWitherspoon主演的浪漫喜剧”相关联的第二媒体项目832。在其他示例中,请求在媒体设备的用户界面中进行导航可包括请求在用户界面中选择对象。对对象的选择可以导致执行与该对象相关联的动作。例如,如图8K所示,光标828的位置在标题为“LegallyBlonde”的第二媒体项目832上。如图8L所示,(例如,在框704处)可以调用数字助理,并且(例如,在框706处)采样音频数据中的用户话语可以是“播放该项目”(例如,显示为文本表示836)。基于该用户话语,(例如,在框710处)可以确定用户意图是请求播放特定媒体项目。在该示例中,用户话语未明确限定或标识要播放的特定媒体项目。具体地讲,字词“该项目”是含糊的。然而,数字助理可以获得上下文信息以弄清用户意图。例如,可以确定在对音频数据取样时第三用户界面826的焦点在第二媒体项目832上。基于该确定,可以将第二媒体项目832标识为要播放的媒体项目。响应于(例如,在框724处)确定播放第二媒体项目832的用户意图是请求调整电子设备的应用程序的状态或设置,可以执行促进第二媒体项目832播放的动作。例如,可以在显示单元上显示关于第二媒体项目832的预览信息。预览信息可包括例如情节的简要概述、演员列表、发布数据、用户评级等。除此之外或另选地,可以在媒体设备上播放第二媒体项目832,并且可以在显示单元上显示与第二媒体项目832相关联的媒体内容(例如,由图8M中的文本838“播放LegallyBlonde”表示)。应当认识到,在其他示例中,可以明确标识要选择的媒体项目。例如,用户话语可以明确陈述“播放LegallyBlonde”,而不是“播放该项目”,并且可以执行促进第二媒体项目832播放的相似动作。在其他示例中,请求在媒体设备的用户界面中进行导航可包括请求查看媒体设备的特定用户界面或应用程序。例如,采样音频数据中的用户话语可以是“转到演员页面”,其中用户意图包括请求根据特定演员显示与浏览媒体项目相关联的用户界面。在另一个示例中,采样音频数据中的用户话语可以是“转到主页”,其中用户意图包括请求显示媒体设备的主菜单用户界面。在又一个示例中,请求在媒体设备的用户界面中进行导航可包括请求启动电子设备上的应用程序。例如,采样音频数据中的用户话语可以是“转到iTunes商店”,其中用户意图包括请求启动iTunes商店应用程序。应当认识到,还可以设想调整媒体设备上的应用程序的状态或设置的其他请求。再次参考框724,可以确定用户意图不包括请求调整电子设备上的应用程序的状态或设置。例如,用户意图转而可以是请求呈现与一个或多个媒体项目相关的信息。响应于此类确定,可以执行框728至746中的一者或多者。在过程700的框728处,可以确定用户意图是否是多个预先确定的请求类型中的一者。在一些示例中,多个预先确定的请求类型可以是与纯文本响应相关联的请求。更具体地讲,多个预先确定的请求类型可以是对预先确定需要纯文本响应的信息的请求。这与预先确定需要包括媒体对象(例如,图像、动画对象、视频等)的响应的请求不同。在一些示例中,多个预先确定的请求类型可包括对特定位置处当前时间的请求(例如,“巴黎现在几点?”),对呈现笑话的请求(例如,“讲个好笑话”),或对关于当前正在电子设备上播放的媒体内容的信息的请求(例如,“这部电影是何时发布的?”)。响应于确定用户意图是多个预先确定的请求类型中的一者,可以执行框730至732中的一者或多者。在过程700的框730处,可以获得至少部分满足用户请求的结果。例如,可以通过执行任务流从外部服务(例如,外部服务120)获得结果。在过程700的框732处,可以在显示单元上以文本形式显示在框730处获得的结果。此外,这些结果可以以文本形式显示,而不显示任何对应图形或与这些结果相对应的媒体相关项目。图8M至图8P描绘了框728至框732的例示性示例。如图8M所示,起初电影“LegallyBlonde”可以在媒体设备上播放并显示在显示单元上。当播放“LegallyBlonde”时,(例如,在框704处)可以调用数字助理,并且采样音频数据中的用户话语可以是“谁是主要女演员?”。例如,如图8N所示,用户话语的文本表示840可以显示在显示单元上。基于该用户话语,(例如,在框710处)可以确定用户意图包括请求标识特定媒体项目的主要女演员。因为用户话语未指定任何特定媒体项目,所以用户意图可能是含糊的。然而,基于在对音频数据取样时显示的电影“LegallyBlonde”,可以确定与用户意图相关联的媒体项目是“LegallyBlonde”。在该示例中,(例如,在框728处)可以确定用户意图是多个预先确定的请求类型中的一者。具体地讲,可以确定,可以提供纯文本响应以满足标识LegallyBlonde中的主要女演员的用户意图。响应于确定用户意图是多个预先确定的请求类型中的一者,(例如,在框730处)可以在媒体相关数据库中执行搜索以得到在电影“LegallyBlonde”中由“ReeseWitherspoon”作为主要女演员。如图8P所示,可以在显示单元上显示纯文本结果842“ReeseWitherspoon”,以满足用户意图。纯文本结果842可以叠加在所显示的媒体内容“LegallyBlonde”上。此外,当显示纯文本结果842时,可以继续播放媒体内容“LegallyBlonde”。通过显示纯文本结果842(例如,不显示图形结果或附加用户界面以满足用户意图),可以以不突出的方式满足用户意图,并且可以最小程度地中断用户对媒体内容的消费。同时,用户可以访问数字助理的服务。这可有利于改善用户体验。再次参考框728,可以确定用户意图不是多个预先确定的请求类型中的一者。具体地讲,用户意图可以是预先确定需要满足不止文本结果的请求类型。举例来说,用户意图可以是请求执行媒体搜索查询并显示与媒体搜索查询相对应的媒体项目。在其他示例中,用户意图可以是对媒体项目之外的信息的请求。举例来说,用户意图可以是对与运动队(例如,“L.A.Lakers在上一场比赛中表现如何”)、运动员(例如“LeBronJames有多高?”)、股票(例如,“DowJones昨天的收盘价是多少?”)或天气(例如“法国巴黎下一周的天气预报怎么样?”)相关联的信息的请求。响应于确定用户意图不是多个预先确定的请求类型中的一者,可以执行框734至746中的一者或多者。在过程700的框734处,可以获得至少部分满足用户请求的第二结果。框734可以与上述框534相似或相同。在一个示例中,用户意图可包括请求执行媒体搜索查询。在该示例中,可以在框734处执行媒体搜索查询以获得第二结果。具体地讲,第二结果可包括对应于媒体搜索查询的媒体项目。在一些示例中,用户意图可能不是媒体搜索查询。举例来说,用户意图可以是请求提供法国巴黎的天气预报(例如,法国巴黎的天气预报怎么样?)。在该示例中,在块734处获得的第二结果可包括法国巴黎的7天天气预报。第二结果可包括至少部分地满足用户意图的非媒体数据。具体地讲,法国巴黎的7天天气预报可包括文本数据(如日期、温度和天气状况的简要描述)和图形图像(如晴天、阴天、多风或有雨图像)。此外,在一些示例中,可以在框710处扩展用户意图的范围以包括对至少部分满足用户意图的媒体项目的请求。在这些示例中,在框734处获得的第二结果还可包括具有至少部分满足用户意图的媒体内容的一个或多个媒体项目。例如,可以在框734处在相关时间段期间对法国巴黎的天气预报执行媒体搜索查询,并且可以获得与法国巴黎的天气预报相关的一个或多个媒体项目。一个或多个媒体项目可包括例如呈现法国巴黎的天气预报的气象频道中的视频剪辑。在这些示例中,非媒体数据和/或一个或多个媒体项目可以显示在所显示单元上的用户界面中(例如,在下面描述的框738、742或746处)。在过程700的框736处,可以确定所显示的内容是否包括在电子设备上播放的媒体内容。在一些示例中,可以确定所显示的内容不包括在电子设备上播放的媒体内容。例如,所显示的内容可以转而包括用户界面,诸如主菜单用户界面或第三用户界面(例如,第三用户界面826)。第三用户界面可以占据显示单元的显示区域的至少大部分。此外,第三用户界面可包括与在框704处检测用户输入之前接收到的先前用户请求相关的先前结果。根据确定所显示的内容不包括媒体内容,可以执行框738。在过程700的框738处,第二结果的一部分可以显示在显示单元上的第三用户界面中。在其中当在框704处接收到用户输入时所显示的内容已经包括第三用户界面的示例中,与先前用户请求相关的先前结果的显示可以用第三用户界面中第二结果的一部分的显示替换。在其中当在框704处接收到用户输入时所显示的内容不包括第三用户界面(例如,所显示的内容包括主菜单用户界面)的示例中,可以显示第三用户界面并且第二结果可以包括在所显示的第三用户界面中。在一些示例中,可以确定第二结果是否包括预先确定类型的结果。预先确定类型的结果可以与显示区域相关联,该显示区域小于显示单元的大部分显示区域。预先确定类型的结果可包括例如与股票或天气相关的结果。应当认识到,在其他示例中,预先确定类型的结果可以变化。响应于确定第二结果包括预先确定类型的结果,第二结果的一部分可以显示在显示单元上的第二用户界面中。第二用户界面可以占据少于显示单元的显示区域的大部分。在这些示例中,即使在框736处确定所显示的内容不包括媒体内容,也可以在第二用户界面中显示第二结果的所述部分。图8Q至图8S描绘了框734至框738的例示性示例。在该示例中,如图8Q所示,所显示的内容最初可包括第三用户界面826。第三用户界面826可包括来自先前用户请求的先前结果。具体地讲,第三用户界面826包括来自先前请求的媒体搜索查询的媒体项目844。如图8R所示,可以在显示第三用户界面826的同时调用数字助理(例如在框704处)。采样音频数据中的用户话语可包括“显示由LukeWilson主演的电影。”用户话语的文本表示846可以显示在显示单元上。在该示例中,(例如,在框710处)可以确定用户意图是请求对由LukeWilson主演的电影执行媒体搜索查询。可以(例如,在框734处)执行媒体搜索查询以获得第二结果。具体地讲,第二结果可包括与由LukeWilson主演的电影相对应的媒体项目848。此外,可以获得与用户意图或与先前用户意图相关的附加结果(例如,媒体项目850)。这些附加结果可以以与框544中描述的第二结果相似的方式获得。在图8Q至图8S的本示例中,所显示的内容仅包括第三用户界面826,因此(例如,在框736处)可以确定所显示的内容不包括在电子设备上播放的媒体内容。响应于该确定,第二结果可以在第三用户界面826中显示。具体地讲,如图8S所示,第三用户界面826中媒体项目844的显示可以用第三用户界面826中媒体项目848的显示替换。此外,媒体项目850可以显示在第三用户界面826中。如该示例中所示,只有在确定媒体内容未在显示单元上显示之后才可以在第三用户界面中呈现第二结果。这允许在更大的区域中显示更宽范围的结果以增加用户的实际意图得到满足的可能性。同时,通过确保在第三用户界面中呈现第二结果之前显示单元上不显示媒体内容,用户对媒体内容的消费不会中断。再次参考框736,所显示的内容可包括正在媒体设备上播放的媒体内容。在这些示例中,可以确定所显示的内容包括在媒体设备上播放的媒体内容。根据该确定,可以执行框740至746中的一者或多者。在过程700的框740处,可以确定是否可以暂停正在播放的媒体内容。可以暂停的媒体内容的示例可包括点播媒体项目,例如点播电影和电视节目。不能暂停的媒体内容的示例可包括广播或流传输服务的媒体节目和直播媒体节目(例如体育赛事、音乐会等)。因此,点播媒体项目可能不包括广播节目或直播节目。根据在框740处确定不能暂停正在播放的媒体内容,可以执行框742。在过程700的框742处,可以在显示单元上显示具有第二结果的一部分的第二用户界面。框742可以与上述框536相似。可以在显示媒体内容的同时显示第二用户界面。显示单元上由第二用户界面占据的显示区域可以比显示单元上由媒体内容占据的显示区域小。根据确定可以暂停正在播放的媒体内容,可以执行框744至746中的一者或多者。在过程700的框744处,可以在媒体设备上暂停正在播放的媒体内容。在过程700的框746处,可以显示具有第二结果的一部分的第三用户界面。可以在暂停媒体内容的同时显示第三用户界面。图8T至图8W描绘了框740至746的例示性示例。如图8T所示,可以在显示单元上显示正在媒体设备上播放的媒体内容802。在显示媒体内容802时,可以激活数字助理(例如,在框704处)。采样音频数据中的用户话语可以是“显示由LukeWilson主演的电影。”用户话语的文本表示846可以显示在显示单元上。如上所述,(例如,在框710处)可以确定用户意图为请求获得由LukeWilson主演的电影的媒体项目。可以(例如,在框734处)执行对应媒体搜索查询以获得第二结果。第二结果可包括由LukeWilson主演的电影的媒体项目848。在其中(例如,在框744处)确定不能暂停媒体内容802的示例中,可以在第二用户界面818中显示媒体项目848,而媒体内容802继续显示在显示单元上(例如,图8U)。在第二用户界面818中显示媒体项目848可能有利于使媒体内容802能够连续地供用户消费,同时显示媒体项目848以满足用户意图。这防止用户错过媒体内容802的任何不能暂停或重新播放的部分。或者,在其中(例如,在框744处)确定可以暂停媒体内容802的示例中,媒体设备上的媒体内容802的播放可以暂停并且媒体项目848可以显示在显示单元上的第三用户界面中(例如,图8S)。显示第三用户界面826可有利于使与各种另选用户意图相关联的更宽范围的媒体项目(例如,媒体项目850)能够与所请求的媒体项目(例如,媒体项目848)一起显示,从而增加用户的实际意图得到满足的可能性。同时,暂停媒体内容802,以使得用户不会错过媒体内容802的任何部分。通过基于媒体内容802是否可以暂停来改变用于显示媒体项目848的用户界面,可以全面地满足与用户话语相关联的用户意图,同时减少对用户消费媒体内容802的中断。这可以提高整体用户体验。在一些示例中,如图8V所示,除了在媒体设备上播放的媒体内容802之外,所显示的内容还可包括第二用户界面818。在这些示例中,第二用户界面818可包括与先前用户请求相关的媒体项目852(例如,对由ReeseWitherspoon主演的浪漫喜剧的请求)。在显示媒体内容802和第二用户界面818时,可以调用数字助理(例如,在框704处)。如图8W所示,采样的音频数据可包括用户话语“显示由LukeWilson主演的电影。”该用户话语的文本表示846可以显示在显示单元上。基于该用户话语,(例如,在框710处)可以确定用户意图是请求获得由LukeWilson主演的电影的媒体项目。可以(例如,在框734处)执行对应媒体搜索查询以获得第二结果(例如,媒体项目848)。在这些示例中,第二用户界面818中的媒体项目852的显示可以用媒体项目848的显示替换(例如,图8U)。图9示出了根据各种示例用于与媒体系统的数字助理交互的过程900。可使用实施数字助理的一个或多个电子设备来执行过程900。例如,可以使用上文描述的系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程900。应当理解,过程900中的一些操作可被组合,一些操作的次序可被改变并且一些操作可被省略。在过程900的框902处,可以在显示单元上显示内容。框902可以与上述框502相似或相同。在一些示例中,所显示的内容可包括媒体内容(例如,电影、视频、电视节目、视频游戏等)。除此之外或另选地,所显示的内容可包括用户界面。举例来说,所显示的内容可包括具有一个或多个示例性自然语言请求的第一用户界面(例如,如图6D至图6E所示)。在其他示例中,所显示的内容可包括第三用户界面(例如,第三用户界面626),该用户界面具有来自先前用户请求(例如,先前请求的媒体项目)的结果。第三用户界面可以占据显示单元的显示区域的至少大部分。在过程900的框904处,当显示框902的内容时,可以检测用户输入。该用户输入可以与在框558处描述的第五用户输入相似或相同。具体地讲,可以在媒体设备的遥控器上检测该用户输入。举例来说,该用户输入可包括在遥控器设备的触敏表面上的预先确定的运动模式。在一些示例中,可以经由不同于媒体设备的第二电子设备(例如,设备122)来检测用户输入。第二电子设备可以被配置为以无线方式控制媒体设备。响应于检测到用户输入,可以执行框906至914中的一者或多者。在过程900的框906处,可以在显示单元上显示虚拟键盘接口(例如,虚拟键盘接口646)。框906可以与上述框562相似或相同。虚拟键盘接口可以叠加在第一用户界面或第三用户界面的至少一部分上。此外,可以在显示单元上显示搜索字段(例如,搜索字段644)。虚拟键盘接口可以被配置为使得经由虚拟键盘接口接收的用户输入导致搜索字段中的文本输入。在过程900的框908处,可以致使可选示能表示显示在第二电子设备上(例如,在设备122的触摸屏346上)。第二电子设备可以是与媒体设备的遥控器不同的设备。对该示能表示的选择可以使得文本输入能够经由第二电子设备的键盘被媒体设备接收。例如,对该示能表示的选择可以导致虚拟键盘接口(例如,与虚拟键盘界面646相似)在第二电子设备上显示。输入到第二电子设备的虚拟键盘接口可以致使对应文本录入搜索字段(例如,搜索字段644)中。在过程900的框910处,可以经由第二电子设备的键盘(例如,虚拟键盘接口)来接收文本输入。具体地讲,用户可以经由第二电子设备的键盘输入文本,并且该文本输入可以传输到媒体设备并且被媒体设备接收。该文本输入可以表示用户请求。例如,文本输入可以是“JurassicPark”,其可以表示请求执行对与搜索字符串“JurassicPark”相关联的媒体项目的搜索。在过程900的框912处,可以获得至少部分满足用户请求的结果。例如,可以使用文本输入来执行媒体搜索并且可以获得对应媒体项目。在其中文本输入是“JurassicPark”的具体示例中,可以获得具有标题“JurassicPark”的媒体项目或与电影“JurassicPark”具有共同演员或导演的媒体项目。在另一个其中文本输入是“ReeseWitherspoon”的示例中,可以获得其中ReeseWitherspoon是女演员的媒体项目。在过程900的框914处,可以在显示单元上显示用户界面。该用户界面可包括这些结果的至少一部分。举例来说,该用户界面可包括作为在框912处执行的媒体搜索的结果而获得的媒体项目。尽管上文将过程500、700和900的特定框描述为由设备或系统(例如,媒体设备104、用户设备122或数字助理系统400)执行,但应当认识到,在一些示例中,可以使用多于一个设备执行框。例如,在做出确定的框中,第一设备(例如,媒体设备104)可以从第二设备(例如,服务器系统108)获得确定。类似地,在显示内容、对象、文本或用户界面的框中,第一设备(例如,媒体设备104)可以导致在第二设备(例如,显示单元126)上显示内容、对象、文本或用户界面。5.电子设备根据一些示例,图10示出了根据各种所述示例的原理配置的电子设备1000的功能框图,例如,以提供媒体回放的语音控制和虚拟助理知识的实时更新。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图10中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图10所示,电子设备1000可以包括被配置为接收用户输入(诸如触觉输入、手势输入)的输入单元1003(例如,遥控器124等),被配置为接收音频数据的音频输入单元1004(例如,麦克风272等),被配置为输出音频的扬声器单元106(例如,扬声器268等),以及被配置为经由网络从外部设备发送和接收信息的通信单元1007(例如,通信子系统224等)。在一些示例中,电子设备1000可以任选地包括被配置为显示媒体、界面和其他内容的显示单元1002(例如,显示单元126等)。电子设备1000还可以包括耦接到输入单元1003、音频输入单元1004、扬声器单元1006、通信单元1007和任选的显示单元1002的处理单元1008。在一些示例中,处理单元1008可包括显示使能单元1010、检测单元1012、确定单元1014、取样单元1016、输出单元1018、执行单元1020、获取单元1022和切换单元1024。根据一些实施方案,处理单元1008被配置为在显示单元(例如,显示单元1002或独立的显示单元)上显示(例如,利用显示使能单元1010)内容。处理单元1008被进一步配置为(例如,利用检测单元1012)检测用户输入。处理单元1008被进一步配置为(例如,利用确定单元1014)确定用户输入是否对应于第一输入类型。处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型,在显示单元上显示(例如,利用显示使能单元1010)多个示例性自然语言请求。多个示例性自然语言请求与所显示的内容在上下文上相关,其中接收与多个示例性自然语言请求中的一者相对应的用户话语致使数字助理执行相应的动作。在一些示例中,可以在电子设备的遥控器上检测该用户输入。在一些示例中,第一输入类型包括按下遥控器的按钮并在预先确定的持续时间内释放该按钮。在一些示例中,多个示例性自然语言请求可以经由第一用户界面显示在显示单元上,并且第一用户界面可叠加在所显示的内容上。在一些示例中,所显示的内容包括媒体内容,并且该媒体内容在显示多个示例性自然语言请求的同时继续播放。在一些示例中,处理单元1008被进一步配置成根据确定用户输入对应于第一输入类型,在显示单元上显示(例如,利用显示启用单元1010)指示数字助理未处理音频输入的可视指示符。在一些示例中,在确定用户输入对应于第一输入类型时,在预定量的时间之后,在显示单元上显示多个示例性自然语言请求。在一些示例中,以预定顺序并在不同时间分别显示多个示例性自然语言请求中的每个请求。在一些示例中,处理单元1008被进一步配置成显示(例如,利用显示启用单元1010)多个示例性自然语言请求列表,其中在不同时间并在轮流基础上显示每个列表。在一些示例中,处理单元1008被进一步配置成根据确定用户输入不对应于第一输入类型,确定(例如,利用确定单元1014)用户输入是否对应于第二输入类型。处理单元1008被进一步配置成根据确定用户输入对应于第二输入类型,对音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。处理单元1008被进一步配置成确定(例如,利用确定单元1014)音频数据是否包含用户请求。处理单元1008被进一步配置成根据确定音频数据包含用户请求,执行(例如,利用执行单元1020)至少部分满足用户请求的任务。在一些示例中,第二输入类型包括按压电子设备的遥控器的按钮并且保持按下按钮持续超过预定持续时间。在一些示例中,处理单元1008被进一步配置成根据确定音频数据不包含用户请求,在显示单元上显示(例如,利用显示启用单元1010)对澄清用户意图的请求。在一些示例中,所显示的内容包括媒体内容,并且在对音频数据进行采样时以及执行任务时,继续在电子设备上播放媒体内容。在一些示例中,处理单元1008被进一步配置成输出(例如,利用输出单元1018)与媒体内容相关联的音频(例如,使用扬声器单元1006)。处理单元1008被进一步配置成根据确定用户输入对应于第二输入类型,减小(例如,利用输出单元1018)音频的振幅。在一些示例中,在不从电子设备输出与任务相关的语音的情况下执行任务。在一些示例中,在检测用户输入的同时对音频数据进行采样。在一些示例中,在检测到用户输入之后对音频数据进行采样并持续预定的持续时间。在一些示例中,通过电子设备遥控器上的第一麦克风(例如,音频输入单元1004)对音频数据进行采样。处理单元1008被进一步配置成在对音频数据进行采样时,通过遥控器上的第二麦克风(例如,电子设备1000的第二音频输入单元)对背景音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。处理单元1008被进一步配置成使用背景音频数据来移除(例如,利用输出单元1018)音频数据中的背景噪声。在一些示例中,通过来自电子设备的音频信号输出与所显示的内容相关联的音频。处理单元1008被进一步配置成使用音频信号来移除(例如,利用输出单元1018)音频数据中的背景噪声。在一些示例中,处理单元1008被进一步配置成响应于检测到用户输入,在显示单元上显示(例如,利用显示启用单元1010)提示用户提供口头请求的可视提示。在一些示例中,处理单元1008被进一步配置成获得(例如,利用获得单元1022)至少部分满足用户请求的结果。处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)第二用户界面。第二用户界面包括结果的一部分,其中在显示第二用户界面时,继续显示内容的至少一部分,并且其中第二用户界面在显示单元上的显示区域小于内容的至少一部分在显示单元上的显示区域。在一些示例中,第二用户界面覆盖在所显示的内容上。在一些示例中,结果的该部分包括一个或多个媒体项。处理单元1008被进一步配置成通过第二用户界面接收(例如,利用检测单元1012)对一个或多个媒体项中的媒体项的选择。处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)与所选择的媒体项相关联的媒体内容。在一些示例中,处理单元1008被进一步配置成在显示第二用户界面时检测(例如,利用检测单元1012)第二用户输入。处理单元1008被进一步配置成响应于检测到第二用户输入,停止(例如,利用显示启用单元1010)显示第二用户界面。在一些示例中,在电子设备的遥控器上检测到第二用户输入。第二用户输入包括遥控器的触敏表面上的第一预定运动模式。在一些示例中,处理单元1008被进一步配置成在显示第二用户界面时检测(例如,使用检测单元1012)第三用户输入。处理单元1008被进一步配置成响应于检测到第三用户输入,在显示单元上用第三用户界面的显示来替换(例如,利用显示启用单元1010)第二用户界面的显示。第三用户界面至少包括结果的一部分,并且第三用户界面至少占据显示单元的显示区域的大部分。在一些示例中,在电子设备的遥控器上检测到第三用户输入,并且第三用户输入包括遥控器的触敏表面上的第二预定运动模式。在一些示例中,处理单元1008被进一步配置成响应于检测到第三用户输入,获得(例如,利用获得单元1022)与所述结果不同的第二结果。第二结果至少部分地满足用户请求,并且第三用户界面包括第二结果的至少一部分。在一些示例中,第二结果基于在检测到用户输入之前接收的用户请求。在一些示例中,当检测到第三用户输入时,第二用户界面的焦点在结果部分的项目上,并且第二结果在上下文上与该项目相关。在一些示例中,所显示的内容包括媒体内容。处理单元1008被进一步配置成响应于检测到第三用户输入,暂停(例如,利用执行单元1020)在电子设备上播放媒体内容。在一些示例中,结果的至少一部分包括一个或多个媒体项。处理单元1008被进一步配置成通过第三用户界面接收(例如,利用检测单元1012)对一个或多个媒体项中的媒体项的选择。处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)与媒体项相关联的媒体内容。在一些示例中,处理单元1008被进一步配置成在显示第三用户界面时,在显示单元上检测(例如,利用检测单元1012)与方向相关联的第四用户输入。处理单元1008被进一步配置成响应于检测到第四用户输入,将第三用户界面的焦点从第三用户界面上的第一项目切换(例如,利用切换单元1024)到第二项目。第二项目在该方向上相对于第一项目定位。在一些示例中,处理单元1008被进一步配置成在显示第三用户界面时检测(例如,利用检测单元1012)第五用户输入。处理单元1008被进一步配置成响应于检测到第五用户输入,显示(例如,利用显示启用单元1010)搜索栏。处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)虚拟键盘界面,其中通过虚拟键盘界面接收的输入导致在搜索栏中输入文本。在一些示例中,处理单元1008被进一步配置成在显示第三用户界面时检测(例如,利用检测单元1012)第六用户输入。处理单元1008被进一步配置成响应于检测到第六用户输入,对第二音频数据进行采样(例如,利用采样单元1016和音频输入单元1004)。第二音频数据包含第二用户请求。处理单元1008被进一步配置成确定(例如,利用确定单元1014)第二用户请求是否是对优化用户请求结果的请求。处理单元1008被进一步配置成根据确定第二用户请求是对优化用户请求结果的请求,通过第三用户界面显示(例如,利用显示启用单元1010)结果的子集。在一些示例中,在第三用户界面的顶行处显示结果的子集。处理单元1008被进一步配置成根据确定第二用户请求不是对优化用户请求结果的请求,获得(例如,利用获得单元1018)至少部分满足第二用户请求的第三结果。处理单元1008被进一步配置成通过第三用户界面显示(例如,利用显示启用单元101)第三结果的一部分。在一些示例中,在第三用户界面的顶行处显示第三结果的该部分。在一些示例中,处理单元1008被进一步配置成获得(例如,利用获得单元1022)至少部分满足用户请求或第二用户请求的第四结果。处理单元1008被进一步配置成通过第三用户界面显示(例如,利用显示启用单元1010)第四结果的一部分。在一些示例中,在第三用户界面的顶行后续的行处显示第四结果的该部分。在一些示例中,当检测到第六用户输入时,第三用户界面的焦点在第三用户界面的一个或多个项目上,并且第四结果在上下文上与一个或多个项目相关。在一些示例中,处理单元1008被进一步配置成在显示第三用户界面时检测(例如,利用检测单元1012)第七用户输入。处理单元1008被进一步配置成响应于检测到第七用户输入,停止(例如,利用显示启用单元1010)显示第三用户界面。在一些示例中,所显示的内容是媒体内容,并且响应于检测到第三用户输入而暂停在电子设备上播放媒体内容。处理单元1008被进一步配置成响应于检测到第七用户输入而恢复(例如,利用执行单元1020)在电子设备上播放媒体内容。在一些示例中,第七用户输入包括按压电子设备遥控器的菜单按钮。根据一些实施方案,处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)内容。处理单元1008被进一步配置成在显示内容时检测(例如,利用检测单元1012)用户输入。处理单元1008被进一步配置成响应于检测到用户输入,在显示单元上显示(例如,利用显示启用单元1010)用户界面。用户界面包括在上下文上与所显示的内容相关的多个示例性自然语言请求,其中接收与多个示例性自然语言请求中的一个请求相对应的用户话语致使数字助理执行相应的动作。在一些示例中,所显示的内容包括媒体内容。在一些示例中,多个示例性自然语言请求包括对修改与媒体内容相关联的一个或多个设置的自然语言请求。在一些示例中,在显示用户界面时继续播放媒体内容。在一些示例中,处理单元1008被进一步配置成输出(例如,利用输出单元1018)与媒体内容相关联的音频。响应于检测到用户输入,不减小音频的振幅。在一些示例中,所显示的内容包括主菜单用户界面。在一些示例中,多个示例性自然语言请求包括与数字助理的多个核心素质中的每一个相关的示例性自然语言请求。在一些示例中,所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。在一些示例中,多个示例性自然语言请求包括对优化结果的自然语言请求。在一些示例中,用户界面包括用于调用数字助理并与其交互的文本指令。在一些示例中,用户界面包括指示数字助理未接收音频输入的可视指示符。在一些示例中,用户界面覆盖在所显示的内容上。在一些示例中,处理单元1008被进一步配置成响应于检测到用户输入,减小(例如,利用显示启用单元1010)所显示的内容的亮度以突出显示用户界面。在一些示例中,在电子设备的遥控器上检测到用户输入。在一些示例中,用户输入包括按压遥控设备的按钮,并且在按压该按钮之后在预定持续时间内释放该按钮。在一些示例中,按钮被配置成调用数字助理。在一些示例中,用户界面包括用于显示虚拟键盘界面的文本指令。在一些示例中,处理单元1008被进一步配置成在显示用户界面之后检测(例如,利用检测单元1012)第二用户输入。处理单元1008被进一步配置成响应于检测到第二用户输入,在显示单元上显示(例如,利用显示单元1012)虚拟键盘界面。在一些示例中,处理单元1008被进一步配置成将用户界面的焦点改变(例如,利用显示启用单元1010)为用户界面上的搜索栏。在一些示例中,搜索栏被配置成通过虚拟键盘界面接收文本搜索查询。在一些示例中,虚拟键盘界面不能用于与数字助理进行交互。在一些示例中,第二用户输入包括电子设备的遥控设备的触敏表面上的预定运动模式。在一些示例中,在检测到用户输入之后,在预定量的时间内显示多个示例性自然语言请求。在一些示例中,处理单元1008被进一步配置成以预定顺序一次一个地显示(例如,利用显示启用单元1010)多个示例性自然语言请求中的每一个。在一些示例中,处理单元1008被进一步配置成用多个示例性自然语言请求的后续示例性自然语言请求的显示替换(例如,利用显示启用单元1010)多个示例性自然语言请求的先前显示的示例性自然语言请求的显示。在一些示例中,内容包括具有一个或多个项目的第二用户界面。当检测到用户输入时,第二用户界面的焦点位于一个或多个项目中的项目上。多个示例性自然语言请求在上下文上与一个或多个项目中的项目相关。根据一些实施方案,处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)内容。处理单元1008被进一步配置成检测(例如,利用检测单元1012)用户输入。处理单元1008被进一步配置成响应于检测到用户输入,显示(例如,利用显示启用单元1010)自然语言话语的一个或多个建议示例。一个或多个建议示例在上下文上与所显示的内容相关,并且在由用户讲出时致使数字助理执行对应的动作。在一些示例中,处理单元1008被进一步配置成检测(例如,利用检测单元1012)第二用户输入。处理单元1008被进一步配置成响应于检测到第二用户输入,对音频数据进行采样(例如,利用采样单元1016)。处理单元1008被进一步配置成确定(例如,利用确定单元1014)所采样的音频数据是否包含自然语言话语的一个或多个建议示例中的一个示例。处理单元1008被进一步配置成根据确定所采样的音频数据包含自然语言话语的一个或多个建议示例中的一个示例,执行(例如,利用执行单元1020)与该话语相对应的动作。根据一些实施方案,处理单元1008被进一步配置成在显示单元上显示(例如,利用显示启用单元1010)内容。处理单元1008被进一步配置成在显示内容时检测(例如,利用检测单元1012)用户输入。处理单元1008被进一步配置成响应于检测到用户输入,对音频数据进行采样(例如,利用采样单元1016)。音频数据包括表示媒体搜索请求的用户话语。处理单元1008被进一步配置成获得(例如,利用获得单元1022)满足媒体搜索请求的多个媒体项。处理单元1008被进一步配置成在显示单元上通过用户界面显示(例如,利用显示启用单元1010)多个媒体项的至少一部分。在一些示例中,当显示多个媒体项的至少一部分时,在显示单元上继续显示内容。用户界面所占据的显示区域小于内容所占据的显示区域。在一些示例中,处理单元1008被进一步配置成确定(例如,利用确定单元1014)多个媒体项中的媒体项的数量是否小于或等于预定数量。根据确定多个媒体项中的媒体项的数量小于或等于预定数量,多个媒体项的至少一部分包括多个媒体项。在一些示例中,根据确定多个媒体项中的媒体项的数量大于预定数量,多个媒体项的至少一部分中的媒体项的数量等于预定数量。在一些示例中,多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性分数相关联,并且多个媒体项的至少一部分的相关性分数在多个媒体项中是最高的。在一些示例中,多个媒体项的至少一部分中的每一个与流行度评级相关联,并且基于流行度评级将多个媒体项的至少一部分布置在用户界面中。在一些示例中,处理单元1008被进一步配置成在显示多个媒体项的至少一部分时,检测(例如,利用检测单元1012)第二用户输入。处理单元1008被进一步配置成响应于检测到第二用户输入,扩展(例如,利用显示启用单元1010)用户界面以占据显示单元的显示区域的至少大部分。在一些示例中,处理单元1008被进一步配置成响应于检测到第二用户输入,确定(例如,利用确定单元1014)多个媒体项中的媒体项的数量是否小于或等于预定数量。处理单元1008被进一步配置成根据确定多个媒体项中的媒体项的数量小于或等于预定数量,获得至少部分满足媒体搜索请求的第二多个媒体项,该第二多个媒体项不同于媒体项的至少一部分。处理单元1008被进一步配置成通过扩展的用户界面在显示单元上显示(例如,利用显示启用单元101)第二多个媒体项。在一些示例中,处理单元1008被进一步配置成确定(例如,利用确定单元1014)媒体搜索请求是否包括多于一个搜索参数。根据确定媒体搜索请求包括多于一个搜索参数,根据媒体搜索请求的多于一个搜索参数将第二多个媒体项组织在扩展的用户界面中。在一些示例中,处理单元1008被进一步配置成根据确定多个媒体项中的媒体项的数量大于预定数量,通过扩展的用户界面显示(例如,利用显示启用单元1010)多个媒体项的至少第二部分。多个媒体项的至少第二部分不同于多个媒体项的至少一部分。在一些示例中,多个媒体项的至少第二部分包括两个或更多个媒体类型,并且根据两种或更多种媒体类型的每种媒体类型将多个媒体项的至少第二部分组织在扩展的用户界面中。在一些示例中,处理单元1008被进一步配置成检测(例如,利用检测单元1012)第三用户输入。处理单元1008被进一步配置成响应于检测到第三用户输入,致使(例如,利用显示启用单元1010)扩展的用户界面滚动。处理单元1008被进一步配置成确定(例如,利用确定单元1014)扩展的用户界面是否滚动到该扩展的用户界面上的预定位置之外。处理单元1008被进一步配置成响应于确定扩展的用户界面已经滚动到该扩展的用户界面上的预定位置之外,在该扩展的用户界面上显示(例如,利用显示启用单元1010)多个媒体项的至少第三部分。根据与第三多个媒体项相关联的一个或多个媒体内容提供商,将多个媒体项的至少第三部分组织在扩展的用户界面上。以上参考图5A-I描述的操作任选地由图1-图3和图4A-图4B描绘的部件来实现。例如,显示操作502、508-514、520、524、530、536、546、556、560、562、576、582、588、592,检测操作504、538、542、550、558、566、570,确定操作506、516、522、526、528、574、578,采样操作518、572,执行操作532、584,获得操作534、544、580、586、590,停止操作540、568,接收操作554,和切换操作552、564可以通过操作系统252、GUI模块256,应用程序模块262、数字助理模块426和(一个或多个)处理器204、404中的一个或多个来实现。本领域的普通技术人员会清楚地知道可如何基于图1-图3和图4A-图4B中描绘的部件来实施其他过程。根据一些示例,图11示出了根据各种所述示例的原理配置的电子设备1100的功能框图,例如,以提供媒体回放的语音控制和虚拟助理知识的实时更新。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图11中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图11所示,电子设备1100可以包括被配置成接收诸如触觉输入、手势输入的用户输入的输入单元1103(例如,遥控器124等),被配置成接收音频数据的音频输入单元1104(例如,麦克风272等),被配置成输出音频的扬声器单元116(例如,扬声器268等),以及被配置成经由网络从外部设备发送和接收信息的通信单元1107(例如,通信子系统224等)。在一些示例中,电子设备1100可以任选地包括被配置成显示媒体、界面和其他内容的显示单元1102(例如,显示单元126等)。电子设备1100还可以包括耦接到输入单元1103、音频输入单元1104、扬声器单元1106、通信单元1107和任选的显示单元1102的处理单元1108。在一些示例中,处理单元1108可以包括显示启用单元1110、检测单元1112、确定单元1114、采样单元1116、输出单元1118、执行单元1120、获得单元1122、识别单元1124和传输单元1126。根据一些实施方案,处理单元1108被配置成在显示单元(例如,显示单元1102或独立的显示单元)上显示(例如,利用显示启用单元1110)内容。处理单元1108被进一步配置成在显示内容时检测(例如,利用检测单元1112)用户输入。处理单元1108被进一步配置成响应于检测到用户输入,对音频数据进行采样(例如,利用采样单元1016和音频输入单元1104)。音频数据包括用户话语。处理单元1108被进一步配置成获得(例如,利用获得单元1122)与用户话语相对应的用户意图的确定。处理单元1108被进一步配置成获得(例如,利用获得单元1122)用户意图是否包括对调整电子设备上的应用程序的状态或设置的请求的确定。处理单元1108被进一步配置成响应于获得用户意图包括对调整电子设备上的应用程序的状态或设置的请求的确定,调整(例如,利用任务执行单元1120)应用程序的状态或设置以满足用户意图。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对播放特定媒体项的请求。调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。在一些示例中,所显示的内容包括具有媒体项的用户界面,并且用户话语没有明确限定要播放的特定媒体项。处理单元1108被进一步配置成确定(例如,利用确定单元1114)用户界面的焦点是否在媒体项上。处理单元1108被进一步配置成根据确定用户界面的焦点在媒体项上,识别(例如,利用识别单元1124)该媒体项作为要播放的特定媒体项。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对启动电子设备上的应用程序的请求。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且状态或设置涉及在电子设备上播放的媒体内容。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对快进或倒回电子设备上播放的媒体内容的请求。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对暂停在电子设备上播放媒体内容的请求。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对打开或关闭媒体内容的字幕的请求。在一些示例中,所显示的内容包括具有第一媒体项和第二媒体项的用户界面。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求包括对于将用户界面的焦点从第一媒体项切换到第二媒体项的请求。调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换到第二媒体项。在一些示例中,所显示的内容包括在媒体设备上播放的媒体内容。用户话语是指示用户没有听到与媒体内容相关联的音频的一部分的自然语言表达。对调整电子设备上的应用程序的状态或设置的请求包括对重新播放与用户没有听到的音频部分相对应的媒体内容的一部分的请求。处理单元1108被进一步配置成将媒体内容倒回(例如,利用任务执行单元1120)预定量以达到媒体内容的先前部分并且从先前部分重新开始(例如,利用任务执行单元1120)播放媒体内容。在一些示例中,处理单元1108被进一步配置成在从先前部分重新开始播放媒体内容之前开启(例如,利用任务执行单元1120)隐藏字幕。在一些示例中,对调整电子设备上的应用程序的状态或设置的请求还包括对增加与媒体内容相关联的音频的音量的请求。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容之前增加与媒体内容相关联的音频的音量。在一些示例中,与媒体内容相关联的音频中的语音被转换为文本。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容时显示文本的一部分。在一些示例中,处理单元1108被进一步配置成获得(例如,利用获得单元1122)与用户话语相关联的用户情绪的确定。基于所确定的用户情绪来确定用户意图。在一些示例中,处理单元1108被进一步配置成响应于获得用户意图不包括对调整电子设备上的应用程序的状态或设置的请求的确定,获得(例如,利用获得单元1122)用户意图是否是多个预定请求类型中的一个类型的确定。处理单元1108被进一步配置成响应于获得用户意图是多个预定请求类型中的一个类型的确定,获得(例如,利用获得单元1122)至少部分满足用户意图的结果并且在显示单元上以文本形式显示(例如,利用显示启用单元1110)结果。在一些示例中,多个预定请求类型包括对特定位置处的当前时间的请求。在一些示例中,多个预定请求类型包括对呈现笑话的请求。在一些示例中,多个预定请求类型包括对有关在电子设备上播放的媒体内容的信息的请求。在一些示例中,呈文本形式的结果覆盖在所显示的内容上。在一些示例中,所显示的内容包括在电子设备上播放的媒体内容,并且在显示呈文本形式的结果时继续播放媒体内容。在一些示例中,处理单元1108被进一步配置成响应于获得用户意图不是多个预定请求类型中的一个类型的确定,获得(例如,利用获得单元1122)至少部分满足用户意图的第二结果并且确定(例如,利用确定单元1114)所显示的内容是否包括在电子设备上播放的媒体内容。处理单元1108被进一步配置成根据确定所显示的内容包括媒体内容,确定(例如,确定单元1114)是否可以暂停媒体内容。处理单元1108被进一步配置成根据确定不能暂停媒体内容,在显示单元上显示(例如,显示启用单元1110)具有第二结果的一部分的第二用户界面。显示单元上的第二用户界面占据的显示区域小于显示单元上的由媒体内容占据的显示区域。在一些示例中,用户意图包括对特定位置的天气预报的请求。用户意图包括对于与运动队或运动员相关联的信息的请求。在一些示例中,用户意图不是媒体搜索查询,并且其中第二结果包括具有至少部分满足用户意图的媒体内容的一个或多个媒体项。在一些示例中,第二结果还包括至少部分满足用户意图的非媒体数据。在一些示例中,用户意图是媒体搜索查询并且第二结果包括对应于媒体搜索查询的多个媒体项。在一些示例中,处理单元1108被进一步配置成根据确定所显示的内容不包括在电子设备上播放的媒体内容,在显示单元上显示(例如,利用显示启用单元1110)具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的显示区域的大部分。在一些示例中,显示内容包括主菜单用户界面。在一些示例中,所显示的内容包括第三用户界面,该第三用户界面具有与检测到用户输入之前接收的先前用户请求相关的先前结果。根据确定所显示的内容不包括在电子设备上播放的媒体内容,用第二结果的显示替换第三用户界面中的先前结果的显示。在一些示例中,处理单元1108被进一步配置成根据确定所显示的内容包括在电子设备上播放的媒体内容,确定(例如,利用确定单元1114)所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面。根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面,用第二结果替换先前结果。在一些示例中,处理单元1108被进一步配置成根据确定可以暂停媒体内容,暂停(例如,利用任务执行单元1120)在电子设备上播放媒体内容,并且在显示单元上显示(例如,利用显示启用单元1110)具有第二结果的一部分的第三用户界面,其中第三用户界面占据显示单元的显示区域的大部分。在一些示例中,处理单元1108被进一步配置成将音频数据传输(例如,利用传输单元1126并使用通信单元1107)到服务器以执行自然语言处理,并且向服务器指示(例如,利用传输单元1126)音频数据与媒体应用程序相关联。该指示向媒体相关用户意图偏置自然语言处理。在一些示例中,处理单元1108被进一步配置成将音频数据传输(例如,传输单元1126)到服务器以执行语音转文本处理。在一些示例中,处理单元1108被进一步配置成向服务器指示(例如,利用传输单元1126)音频数据与媒体应用程序相关联。该指示向媒体相关的文本结果偏置语音转文本处理。在一些示例中,处理单元1108被进一步配置成获得(例如,利用获得单元1122)用户话语的文本表示,其中文本表示基于在对音频数据进行采样之前接收的先前用户话语。在一些示例中,文本表示基于在对音频数据进行采样之前接收先前用户话语的时间。在一些示例中,处理单元1108被进一步配置成获得(例如,利用获得单元1122)用户意图不对应于与电子设备相关联的多个核心素质中的一个核心素质的确定。处理单元1108被进一步配置成致使(例如,利用任务执行单元1120)第二电子设备执行任务以促进满足用户意图。在一些示例中,处理单元1108被进一步配置成获取(例如,利用获得单元1122)用户话语是否包括含糊术语的确定。处理单元1108被进一步配置成响应于获得用户话语包括含糊术语的确定,基于含糊术语获得(例如,利用获得单元1122)两个或更多个候选用户意图;并且在显示单元上显示(例如,利用显示启用单元1110)两个或更多个候选用户意图。在一些示例中,处理单元1108被进一步配置成在显示两个或更多个候选用户意图时,接收(例如,利用检测单元1112)对两个或更多个候选用户意图中的一个意图的用户选择。该用户意图是基于该用户选择的。在一些示例中,处理单元1108被进一步配置成检测(例如,利用检测单元)第二用户输入。处理单元1108被进一步配置成响应于检测到第二用户输入,对第二音频数据进行采样(例如,利用采样单元1116)。第二音频数据包括表示用户选择的第二用户话语。在一些示例中,显示两个或更多个解释,而不输出与两个或更多个候选用户意图相关联的语音。根据一些实施方案,处理单元1108被进一步配置成在显示单元(例如,显示单元1102或独立的显示单元)上显示(例如,利用显示启用单元1110)内容。处理单元1108被进一步配置成在显示内容时检测(例如,利用检测单元1112)用户输入。处理单元1108被进一步配置成响应于检测到用户输入,在显示单元上显示(例如,利用显示启用单元1110)虚拟键盘界面。处理单元1108被进一步配置成致使(例如,利用任务执行单元1120)可选择的示能表示出现在第二电子设备的显示器上。对示能表示的选择使得电子设备能够通过第二电子设备的键盘来接收文本输入(例如,使用通信单元1107)。在一些示例中,处理单元1108被进一步配置成通过第二电子设备的键盘接收(例如,利用检测单元1112)文本输入,其中该文本输入表示用户请求。处理单元1108被进一步配置成获得(例如,利用获得单元1122)至少部分满足用户请求的结果并且在显示单元上显示(例如,利用显示启用单元1110)用户界面,其中用户界面包括结果的至少一部分。在一些示例中,所显示的内容包括具有多个示例性自然语言请求的第二用户界面。在一些示例中,所显示的内容包括媒体内容。在一些示例中,所显示的内容包括具有来自先前用户请求的结果的第三用户界面,其中第三用户界面占据显示单元的显示区域的至少大部分。在一些示例中,虚拟键盘界面覆盖在第三用户界面的至少一部分上。在一些示例中,通过电子设备的遥控器来检测用户输入,并且遥控器和第二电子设备是不同的设备。在一些示例中,用户输入包括遥控设备的触敏表面上的预定运动模式。在一些示例中,通过第二电子设备来检测用户输入。以上参考图7A至图7C和图9描述的操作任选地由图1至图3和图4A描绘的部件来实现。以上参考图7A至图7C和图9描述的操作任选地由图1至图3和图4A至图4B描绘的部件来实现。例如,显示操作702、716、732、736、738、742、746、902、906、914,检测操作704、718、904、910,确定操作708、710、712、714、720、724、728、736、740,采样操作706,执行操作722、726、744、908,获得操作730、734、912,和切换操作552、564可以通过操作系统252、352,GUI模块256、356,应用程序模块262、362,数字助理模块426和处理器204、304、404中的一个或多个来实现。本领域的普通技术人员会清楚地知道可如何基于图1-图3和图4A-图4B中描绘的部件来实施其他过程。根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述方法的任一种方法的指令。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括用于执行本文所述的方法中的任一种方法的装置。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法中的任一种方法。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储用以由一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的方法中的任一种方法的指令。尽管上述描述使用术语“第一”、“第二”等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用来将一个元件与另一元件区分开。例如,在不脱离各种所述实施方案的范围的情况下,第一用户输入可被称为第二用户输入,并且类似地,第二用户输入可被称为第一用户输入。第一用户输入和第二用户输入两者均为用户输入,但是它们不是同一触摸。在本文中对各种所述实施方案的描述中所使用的术语只是为了描述特定实施方案的目的,而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样,单数形式“一个”(“a”、“an”)和“该”旨在也包括复数形式,除非上下文另外明确地指示。还将理解的是,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。根据上下文,术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可以、被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。此外,出于解释的目的,已经参考具体实施方案对上述描述进行了描述。然而,以上的例示性讨论并非旨在穷尽或将本发明限制于所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所设想的特定用途的各种修改的各种实施方案。虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。此类变化和修改被理解为包括在由权利要求书所限定的本公开和示例的范围内。此外,在本文论述的各种示例的任何示例中,各方面可以针对特定用户而被个性化。可以使用包括联系人、偏好、位置、收藏媒体等的用户数据解释语音命令并方便用户与本文论述的各种设备交互。本文论述的各种过程也可以根据用户偏好、联系人、文本、使用历史、配置文件数据、人口统计信息等通过各种其他方式修改。此外,可以基于用户交互(例如,频繁讲出的命令、频繁选择的应用等)随时间更新此类偏好和设置。可以利用可从各种源获得的用户数据的收集和使用来改进向用户传递他们可能感兴趣的邀请内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还设想个人信息数据有益于用户的其他用途。本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地讲,此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应仅在用户知情同意之后进行。此外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保有权访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的示例。即本公开设想可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。在另一个示例中,用户可选择不提供精确的位置信息,但准许传输位置区域信息。因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还设想各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺乏此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。用于电视用户交互的智能自动化助理相关申请的交叉引用本专利申请要求于2014年6月30日提交的名称为INTELLIGENTAUTOMATEDASSISTANTFORTVUSERINTERACTIONS的美国临时序列号62/019,312的优先权,该申请特此全文以引用方式并入以用于所有目的。本专利申请还涉及以下共同未决的临时专利申请:于2014年6月30日提交的名称为“Real-timeDigitalAssistantKnowledgeUpdates”的美国专利申请序号62/019,292(律师卷号106843097900(P22498USP1)),该申请特此全文以引用方式并入以用于所有目的。
技术领域
:本申请大体涉及控制电视用户交互,并且更具体地涉及为虚拟助理处理语音以控制电视用户交互。
背景技术
:智能自动化助理(或虚拟助理)在用户与电子设备之间提供直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过向与电子设备相关联的虚拟助理提供自然语言形式的语音用户输入来访问电子设备的服务。虚拟助理能够对讲出的用户输入执行自然语言处理以推断用户的意图并将用户意图操作化为任务。随后可通过执行电子设备的一项或多项功能来执行这些任务,并且在一些示例中,可将相关输出以自然语言形式返回给用户。虽然移动电话(例如,智能电话)、平板计算机等已从虚拟助理控制中受益,但许多其他用户设备缺乏此类方便的控制机制。例如,与媒体控制设备(例如,电视、电视机顶盒、有线电视盒、游戏设备、流式媒体设备、数字视频记录器等)的用户交互可能是复杂且难以学习的。此外,随着通过此类设备可用的媒体来源(例如,空中传输型电视、收费电视服务、流式视频服务、有线视频点播服务、基于web的视频服务等)的增加,对于一些用户来说,找到要消费的期望媒体内容可能是麻烦的或者甚至是应接不暇的。因此,许多媒体控制设备可能提供对于许多用户来说可能是令人沮丧的低级用户体验。
发明内容本发明公开了用于使用虚拟助理来控制电视交互的系统和过程。在一个示例中,可以从用户接收语音输入。可以基于语音输入来确定媒体内容。可以显示具有第一尺寸的第一用户界面,并且该第一用户界面可以包括指向媒体内容的可选链接。可以接收对可选链接中的链接的选择。响应于该选择,可以显示具有大于第一尺寸的第二尺寸的第二用户界面,并且该第二用户界面可以包括与该选择相关联的媒体内容。在另一个示例中,可以在具有第一显示器的第一设备处从用户接收语音输入。可以基于第一显示器上显示的内容来确定语音输入的用户意图。可以基于用户意图来确定媒体内容。可以在与第二显示器相关联的第二设备上播放媒体内容。在另一个示例中,可以从用户接收语音输入,并且该语音输入可以包括与电视显示器上所示的内容相关联的查询。可以基于电视显示器上所示的内容和/或媒体内容的观看历史来确定查询的用户意图。可以基于所确定的用户意图来显示查询结果。在另一个示例中,可以在显示器上显示媒体内容。可以从用户接收输入。可以基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。可以在显示器上显示虚拟助理查询。附图说明图1示出了用于使用虚拟助理来控制电视用户交互的示例性系统。图2示出了根据各种示例的示例性用户设备的框图。图3示出了用于控制电视用户交互的系统中的示例性媒体控制设备的框图。图4A至图4E示出了视频内容上的示例性语音输入界面。图5示出了视频内容上的示例性媒体内容界面。图6A至图6B示出了视频内容上的示例性媒体细节界面。图7A至图7B示出了示例性媒体过渡界面。图8A至图8B示出了菜单内容上的示例性语音输入界面。图9示出了菜单内容上的示例性虚拟助理结果界面。图10示出了用于使用虚拟助理来控制电视交互以及使用不同界面来显示相关信息的示例性过程。图11示出了移动用户设备上的示例性电视媒体内容。图12示出了使用虚拟助理的示例性电视控制。图13示出了移动用户设备上的示例性图片和视频内容。图14示出了使用虚拟助理的示例性媒体显示控制。图15示出了结果在移动用户设备和媒体显示设备上的示例性虚拟助理交互。图16示出了媒体结果在媒体显示设备和移动用户设备上的示例性虚拟助理交互。图17示出了基于接近度的示例性媒体设备控制。图18示出了用于使用虚拟助理和多个用户设备来控制电视交互的示例性过程。图19示出了具有关于背景视频内容的虚拟助理查询的示例性语音输入界面。图20示出了视频内容上的示例性信息虚拟助理响应。图21示出了具有针对与背景视频内容相关联的媒体内容的虚拟助理查询的示例性语音输入界面。图22示出了具有可选媒体内容的示例性虚拟助理响应界面。图23A至图23B示出了程序菜单的示例性页面。图24示出了被分类的示例性媒体菜单。图25示出了用于使用显示器上所示的媒体内容和媒体内容的观看历史来控制电视交互的示例性过程。图26示出了具有基于背景视频内容的虚拟助理查询建议的示例性界面。图27示出了用于确认对建议查询的选择的示例性界面。图28A至28B示出了基于所选查询的示例性虚拟助理回答界面。图29示出了媒体内容通知以及具有基于该通知的虚拟助理查询建议的示例性界面。图30示出了具有可在媒体控制设备上播放的示例性图片和视频内容的移动用户设备。图31示出了具有基于可播放的用户设备内容以及基于独立显示器上所示的视频内容的虚拟助理查询建议的示例性移动用户设备界面。图32示出了具有基于来自独立用户设备的可播放内容的虚拟助理查询建议的示例性界面。图33示出了用于建议用来控制媒体内容的虚拟助理交互的示例性过程。图34示出了根据各种示例的电子设备的功能框图,该电子设备被配置成使用虚拟助理来控制电视交互并且使用不同界面来显示相关信息。图35示出了根据各种示例的电子设备的功能框图,该电子设备被配置成使用虚拟助理和多个用户设备来控制电视交互。图36示出了根据各种示例的电子设备的功能框图,该电子设备被配置成使用显示器上所示的媒体内容和媒体内容的观看历史来控制电视交互。图37示出了根据各种示例的电子设备的功能框图,该电子设备被配置成建议用于控制媒体内容的虚拟助理交互。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。这涉及用于控制使用虚拟助理来控制电视用户交互的系统和过程。在一个示例中,虚拟助理可以用于与媒体控制设备(诸如电视机顶盒)进行交互,从而控制电视显示器上所示的内容。可以使用具有麦克风的移动用户设备或遥控器来接收虚拟助理的语音输入。可以根据语音输入来确定用户的意图,并且虚拟助理可以根据用户的意图执行任务,包括致使在连接的电视上回放媒体以及控制电视机顶盒或类似设备的任何其他功能(例如,管理视频记录、搜索媒体内容、导航菜单等)。可以在连接的电视或其他显示器上示出虚拟助理交互。在一个示例中,可以基于从用户接收的语音输入来确定媒体内容。可以显示具有第一小尺寸的第一用户界面,包括与所确定的媒体内容的可选链接。在接收对媒体链接的选择之后,可以显示具有第二较大尺寸的第二用户界面,包括与该选择相关联的媒体内容。在其他示例中,用于传送虚拟助理交互的界面可以在传达所期望的信息时扩展或收缩以占据最少量的空间。在一些示例中,可以使用与多个显示器相关联的多个设备来根据语音输入确定用户意图以及以不同的方式向用户传达信息。例如,可以在具有第一显示器的第一设备处从用户接收语音输入。基于在第一显示器上显示的内容,可以根据语音输入来确定用户意图。可以基于用户意图来确定媒体内容,并且可在与第二显示器相关联的第二设备上播放该媒体内容。电视显示器内容也可以用作用于根据语音输入来确定用户意图的上下文输入。例如,可以从用户接收语音输入,包括与电视显示器上所示的内容相关联的查询。可以基于电视显示器上所示的内容以及电视显示器上的媒体内容的观看历史来确定查询的用户意图(例如,基于正在播放的电视节目中的角色来消除查询的含糊性)。然后,可以基于所确定的用户意图来显示查询结果。在一些实施方案中,可以向用户提供虚拟助理查询建议(例如,以使用户熟悉可用命令、建议有趣的内容等)。例如,可以在显示器上示出媒体内容,并且可以从请求虚拟助理查询建议的用户接收输入。可以基于显示器上所示的媒体内容和显示器上所示的媒体内容的观看历史来确定虚拟助理查询建议(例如,建议与正在播放的电视节目相关的查询)。然后,可以在显示器上示出所建议的虚拟助理查询。根据本文所讨论的各种实施方案使用虚拟助理来控制电视用户交互可以提供高效且愉悦的用户体验。在使用能够接收自然语言查询或命令的虚拟助理的情况下,与媒体控制设备的用户交互可以是直观和简单的。可以根据需要向用户建议可用功能,包括基于正在播放内容的有意义的查询建议,这可以帮助用户学习控制能力。此外,可以使用直观口头命令来方便地访问可用媒体。然而应当理解的是,可根据本文所讨论的各种示例来实现另外的许多其他优点。图1示出了用于使用虚拟助理来控制电视用户交互的示例性系统100。应当理解控制的是,如本文所讨论的电视用户交互仅是控制一种类型的显示技术上的媒体的一个示例并且仅用于参考,并且本文所讨论的概念可以用于控制任何媒体内容交互,通常包括各种设备和相关显示器(例如,监视器、膝上型计算机显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一种上的媒体内容交互。因此,术语“电视”可以是指与各种设备中的任一种相关联的任何类型的显示器。此外,术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可以指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了遵循所推断的用户意图,系统可执行以下中的一者或多者:标识具有被设计用于实现所推断的用户意图的步骤和参数的任务流;根据所推断的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以可听(例如,说出的)和/或可视形式来生成对用户的输出响应。虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求虚拟助理系统作出信息性回答,要么寻求虚拟助理系统执行任务(例如,致使显示特定媒体)。针对用户请求的令人满意的响应可以包括提供所请求的信息性回答、执行所请求的任务,或这两者的组合。例如,用户可向虚拟助理提出问题,诸如“我现在在哪里?”基于用户的当前位置,虚拟助理可回答“您在中央公园。”用户还可以请求任务性能,例如“请提醒我在今天下午4点给妈妈打电话”。作为响应,虚拟助理可以确认请求并随后在用户的电子计划表中创建适当的提醒项。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视觉形式或音频形式的响应(例如作为文本、警报、音乐、视频、动画等)。此外,如本文所讨论的,示例性虚拟助理可以控制媒体内容的回放(例如,在电视上播放视频)并致使在显示器上显示信息。虚拟助理的示例在提交于2011年1月10日的名为“IntelligentAutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述,其全部公开内容以引用方式并入本文。如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实现。虚拟助理可以包括在用户设备102上执行的客户端侧部分以及在服务器系统110上执行的服务器侧部分。客户端侧部分也可以与遥控器106一起在电视机顶盒104上执行。用户设备102可以包括任何电子设备,诸如移动电话(例如,智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、腕表、胸针、臂带等)等。电视机顶盒104可以包括任何媒体控制设备,诸如有线电视盒设备、卫星盒、视频播放器、视频流传输设备、数字视频录像机、游戏系统、DVD播放器、蓝光光盘TM播放器、此类设备的组合等。电视机顶盒104可以通过有线连接或无线连接来连接到显示器112和扬声器111。显示器112(具有或没有扬声器111)可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,电视机顶盒104可以连接到音频系统(例如,音频接收机),并且扬声器111可以与显示单元112分开。在其他示例中,显示器112、扬声器111和电视机顶盒104可以在单个设备中结合在一起,单个设备诸如是具有高级处理和网络连接能力的智能电视。在此类示例中,可以将电视机顶盒104的功能作为应用在组合设备上执行。在一些示例中,电视机顶盒104可以充当针对媒体内容的多种类型和源的媒体控制中心。例如,电视机顶盒104可以方便用户访问实况电视(例如,空中传输、卫星或有线电视)。这样一来,电视机顶盒104可以包括电缆调谐器、卫星调谐器等。在一些示例中,电视机顶盒104还可以记录用于稍晚时移观看的电视节目。在其他示例中,电视机顶盒104能够提供对一个或多个流传输媒体服务的访问,诸如电缆传送的点播电视节目、视频和音乐以及互联网传送的电视节目、视频和音乐(例如,来自各种免费、付费和基于订阅的流传输服务)。在其他示例中,电视机顶盒104能够促进从任何其他源回放或显示媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。如果需要,电视机顶盒104还可以包括本文论述的媒体控制特征的各种其他组合。用户设备102和电视机顶盒104可以通过一个或多个网络108与服务器系统110进行通信,该网络可以包括互联网、内部网、或任何其他有线或无线的公共网络或私有网络。此外,用户设备102可以通过网络108或直接通过任何其他有线或无线的通信机构(例如,蓝牙、Wi-Fi、射频、红外传输等)与电视机顶盒104进行通信。如图所示,遥控器106可以使用任何类型的通信(诸如有线连接)或任何类型的无线通信(例如,蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104进行通信,该通信包括通过网络108。在一些示例中,用户可以通过用户设备102、遥控器106、或集成在电视机顶盒104内的接口元件(例如,按钮、麦克风、相机、操纵杆等)与电视机顶盒104交互。例如,可以在用户设备102和/或遥控器106处接收针对虚拟助理的包括媒体相关查询或命令的语音输入,该语音输入可以用于使得在电视机顶盒104上执行媒体相关的任务。同样,可以在用户设备102和/或遥控器106处(以及从未示出的其他设备)接收用于控制电视机顶盒104上的媒体的触觉命令。因此可以通过各种方式控制电视机顶盒104的各种功能,给用户用于从多个设备控制媒体内容的多种选项。利用遥控器106在用户设备102和/或电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可以提供客户端侧功能,诸如面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可以为驻留在相应用户设备102或相应电视机顶盒104上的任意数量的客户端提供服务器侧功能。服务器系统110可以包括一个或多个虚拟助理服务器114,该虚拟助理服务器包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储装置120、以及到外部服务的I/O接口116。面向客户端的I/O接口122可促进针对虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可以利用数据与模型存储装置120基于自然语言输入来确定用户的意图,并基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可以通过用于任务完成或信息采集的网络108与外部服务124通信,诸如电话服务、日历服务、信息服务、消息服务、导航服务、电视节目服务、流媒体服务等。至外部服务的I/O接口116可促进此类通信。服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。尽管虚拟助理的功能在图1中被示为包括客户端侧部分和服务器侧部分两者,但在一些示例中,助理的功能(或一般是语音识别和媒体控制)可以被实现为安装在用户设备、电视机顶盒、智能电视等上的单独应用程序。此外,虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可变化。例如,在一些示例中,在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能并将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。图2示出了根据各种示例的示例性用户设备102的框图。如图所示,用户设备102可包括存储器接口202、一个或多个处理器204,以及外围设备接口206。用户设备102中的各种部件可由一条或多条通信总线或信号线耦接在一起。用户设备102还可包括各种传感器、子系统,以及耦接至外围设备接口206的外围设备。传感器、子系统和外围设备可收集信息和/或促进用户设备102的各种功能。例如,用户设备102可包括运动传感器210、光传感器212和接近传感器214,它们耦接到外围设备接口206以促进取向、照明和接近感测功能。一个或多个其他传感器216,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、指南针、加速度计等,也可被连接至外围设备接口206,以促进相关功能。在一些示例中,相机子系统220和光学传感器222可用于促进相机功能,诸如拍摄照片和录制视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。可将音频子系统226耦接到扬声器228和麦克风230以促进启用语音的功能,诸如语音识别、语音复制、数字记录和电话功能。在一些示例中,用户设备102还可以包括耦接到外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或其他输入控制器244。触摸屏控制器242可以耦接到触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断,该多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术和表面声波技术;接近传感器阵列;等等。可将其他输入控制器244耦接到其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,用户设备102还可以包括耦接到存储器250的存储器接口202。存储器250可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面的处理;传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用模块262可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、导航、成像和/或其他过程和功能。如本文所述,例如,存储器250还可存储客户端侧虚拟助理指令(例如,在虚拟助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供虚拟助理的客户端侧功能。也可以在执行语音识别时使用用户数据266,以支持虚拟助理或用于任何其他应用。在各种示例中,虚拟助理客户端模块264能够通过用户设备102的各种用户界面(例如,I/O子系统240、音频子系统226等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器通信。在一些示例中,虚拟助理客户端模块264可以利用各种传感器、子系统和外围设备来从用户设备102的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自电视机顶盒104的信息。在一些示例中,虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。可进一步由用户设备102或服务器系统110使用上下文信息以支持精确的语音识别。在一些示例中,伴随用户输入的上下文信息可以包括传感器信息,诸如照明、环境噪音、环境温度、周围环境的图像或视频、与另一物体的距离等。上下文信息还可以包括与用户设备102的物理状态(例如,设备定向、设备位置、设备温度、功率水平、速度、加速度、运动模式、蜂窝信号强度等)或用户设备102的软件状态(例如,运行过程、安装的程序、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。可以将这些类型的上下文信息的任何信息提供给虚拟助理服务器114(或用在用户设备102自身上)作为与用户输入相关联的上下文信息。在一些示例中,虚拟助理客户端模块264可以响应于来自虚拟助理服务器114的请求而选择性地提供存储在用户设备102上的信息(例如,用户数据266)(或其可以在用户设备102自身上使用以执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将该附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。在各种示例中,存储器250可包括附加的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中实施用户设备102的各种功能。图3示出了用于控制电视用户交互的系统300中的示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中,系统300可以单独执行某些功能并且可与系统100的其他元件一起运行以执行其他功能。例如,系统300的元件可以在不与服务器系统110交互的情况下处理某些媒体控制功能(例如,回放本地存储的媒体、记录功能、频道调谐等),并且系统300可以与服务器系统110和系统100的其他元件一起处理其他媒体控制功能(例如,回放远程存储的媒体、下载媒体内容、处理某些虚拟助理查询等)。在其他示例中,系统300的元件可以执行较大系统100的功能,包括通过网络访问外部服务124的功能。应当理解的是,可能以各种其他方式将功能在本地设备与远程服务器设备之间进行划分。如图3所示,在一个示例中,电视机顶盒104可以包括存储器接口302、一个或多个处理器304、以及外围设备接口306。电视机顶盒104中的各种部件可由一条或多条通信总线或信号线耦接在一起。电视机顶盒104还可包括各种子系统以及耦接至外围设备接口306的外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104的各种功能。例如,电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。在一些示例中,电视机顶盒104还可以包括耦接到外围设备接口306的I/O子系统340。I/O子系统340可以包括音频/视频输出控制器370。音频/视频输出控制器370可以耦接到显示器112和扬声器111或可以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统340还可以包括远程控制器342。远程控制器342可以通信地耦接到遥控器106(例如,经由有线连接、蓝牙、Wi-Fi等)。遥控器106可以包括用于捕获音频输入(例如,来自用户的语音输入)的麦克风372、用于捕获触觉输入的按钮374以及用于方便经由远程控制器342与电视机顶盒104通信的收发器376。遥控器106还可以包括诸如键盘、操纵杆、触摸垫等的其他输入机构。遥控器106还可以包括诸如灯、显示器、扬声器等输出机构。在遥控器106处接收的输入(例如,用户语音、按钮按压等)可以经由远程控制器342传送到电视机顶盒104。I/O子系统340还可以包括其他输入控制器344。可将其他输入控制器344耦接到其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,电视机顶盒104还可以包括耦接到存储器350的存储器接口302。存储器350可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备上媒体模块358、设备外媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面的处理;设备上媒体模块358可以有利于存储和回放本地存储在电视机顶盒104上的媒体内容以及本地可用的其他媒体内容(例如,电缆频道调谐)。设备外媒体模块360可以促进远程存储(例如,在远程服务器上,在用户设备102上等)的媒体内容的流传输回放或下载。应用模块362可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、游戏和/或其他过程和功能。如本文所述,例如,存储器350还可存储客户端侧虚拟助理指令(例如,在虚拟助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供虚拟助理的客户端侧功能。也可以在执行语音识别时使用用户数据366,以支持虚拟助理或用于任何其他应用。在各种示例中,虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如,I/O子系统340等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器通信。在一些示例中,虚拟助理客户端模块364可以利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自用户设备102的信息。在一些示例中,虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。可进一步由电视机顶盒104或服务器系统110使用上下文信息以支持精确的语音识别。在一些示例中,伴随用户输入的上下文信息可以包括传感器信息,诸如照明、环境噪音、环境温度、与另一物体的距离等。上下文信息还可以包括与电视机顶盒104的物理状态(例如,设备位置、设备温度、功率水平等)或电视机顶盒104的软件状态(例如,运行过程、安装的应用、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,用户设备102上显示的内容、用户设备102上的可回放内容等)。可以将这些类型的上下文信息的任何信息提供给虚拟助理服务器114(或用在电视机顶盒104自身上)作为与用户输入相关联的上下文信息。在一些实施例中,虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求,选择性地提供存储在电视机顶盒104上的信息(例如,用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。数字助理客户端模块364可将该附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。在各种实施例中,存储器350可包括另外的指令或更少的指令。此外,可在硬件和/或固件中,包括在一个或多个信号处理和/或专用集成电路中,执行电视机顶盒104的各种功能。应当理解,系统100和系统300不限于图1和图3中所示的部件和配置,用户设备102、电视机机顶盒104以及遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种实施例的多种配置中,系统100、系统300、用户设备102、电视机顶盒104和遥控器106全部可包括更少部件,或包括其他部件。通览本公开内容,对“系统”的标引可包括系统100、系统300,或系统100或系统300的一个或多个元件。例如,本文中提到的典型系统可至少包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。图4A至图4E示出了可在显示器(例如,显示器112)上示出以向用户传达语音输入信息的示例性语音输入界面484。在一个实施例中,语音输入界面484可在视频480上示出,该视频可包括任何活动图像或暂停视频。例如,视频480可包括电视直播、正在播放的视频、流电影、录制节目的回放等。语音输入界面484可被配置为占据最小量的空间,以免显著干扰用户观看视频480。在一个实施例中,可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理,或开始实时处理语音输入)。可以各种方式触发监听,包括指示,诸如:用户按压遥控器106上的物理按钮,用户按压用户设备102上的物理按钮,用户按压用户设备102上的虚拟按钮,用户说出可被始终监听的设备识别的触发短语(例如,说出“嘿,助理”以开始监听命令),用户执行可被传感器检测的手势(例如,在相机前面做动作)等。在另一实施例中,用户可按住遥控器106或用户设备102上的物理按钮以发起监听。在其他实施例中,用户可在说出查询或命令的同时按住遥控器106或用户设备102上的物理按钮,然后可在完成时释放该按钮。同样可接收各种其他指示,以开始接收来自用户的语音输入。响应于接收到监听语音输入的指示,可显示语音输入界面484。图4A示出了从显示器112的底部部分向上展开的通知区域482。在接收到监听语音输入的指示时,可在通知区域482中显示语音输入界面484,并且如图所示,界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。图4B示出了在向上滑入视图之后的语音输入界面484。语音输入界面484可被配置为在显示器112的底部占据最小量的空间,以避免显著干扰视频480。响应于接收到监听语音输入的指示,可显示准备就绪确认486。准备就绪确认486可包括如图所示的麦克风符号,或者可包括任何其他图像、图标、动画或符号以表达系统(例如,系统100的一个或多个元件)准备好捕获来自用户的语音输入。当用户开始说话时,可显示图4C所示的监听确认487以确认系统正在捕获语音输入。在一些实施例中,可响应于接收到语音输入(例如,捕获语音)来显示监听确认487。在其他实施例中,准备就绪确认486可显示预先确定量的时间(例如,500毫秒、1秒、3秒等),之后可显示监听确认487。监听确认487可包括如图所示的波形符号,或者可包括响应于用户语音而移动(例如,改变频率)的活动波形动画。在其他实施例中,监听确认487可包括任何其他图像、图标、动画或符号,以表达系统正在捕获来自用户的语音输入。在(例如,基于暂停、指示查询结束的语音解译或任何其他端点检测方法)检测到用户已经完成说话时,可显示图4D所示的处理确认488,以确认系统已完成捕获语音输入并且正在处理语音输入(例如,解译语音输入、确定用户意图和/或执行相关联的任务)。处理确认488可包括如图所示的沙漏符号,或者可包括任何其他图像、图标、动画或符号以表达系统正在处理捕获的语音输入。在另一实施例中,处理确认488可包括旋转圆圈或彩色/发光点围绕圆圈移动的动画。在捕获的语音输入被解译成文本之后(或响应于将语音输入成功地转换成文本),可显示图4E中所示的命令接收确认490和/或转录492,以确认系统已接收并解译语音输入。转录492可包括所接收的语音输入的转录(例如,“现在正进行的体育赛事有哪些?”)。在一些实施例中,转录492可以动画形式从显示器112的底部向上滑动,可在图4E所示的位置暂时显示(例如,几秒),然后可在从视图中消失之前向上滑动到语音输入界面484的顶部(例如,如同文本向上滚动并最终离开视图)。在其他实施例中,可不显示转录,而可处理用户的命令或查询并可在不显示转录的情况下执行相关联的任务(例如,可立即执行简单的频道改变而不显示用户语音的转录)。在其他实施例中,可在用户说话时实时地执行语音转录。转录出字词时,可将其显示在语音输入界面484中。例如,字词可显示在监听确认487旁边。在用户完成说话之后,可在执行与用户命令相关联的任务之前简要地显示命令接收确认490。此外,在其他实施例中,命令接收确认490可传达关于所接收和理解的命令的信息。例如,对于换成另一个频道的简单请求,当频道改变时,与频道相关联的标志或数字可短暂地显示为命令接收确认490(例如,几秒钟)。又如,对于暂停视频(例如,视频480)的请求,可显示暂停符号(例如,两个垂直平行条)作为命令接收确认490。暂停符号可保持在显示器上,直到例如用户执行另一动作(例如,发出播放命令以恢复回放)。对于任何其他命令,同样可显示符号、标志、动画等(例如,用于倒回、快进、停止、播放等的符号)。因此,命令接收确认490可用于传送命令特定信息。在一些实施例中,语音输入界面484可在接收到用户查询或命令之后隐藏。例如,语音输入界面484可被以动画方式显示为向下滑动,直到其从显示器112的底部离开视图。在不需要向用户显示进一步信息的情况下,可隐藏语音输入界面484。例如,对于通用或直接的命令(例如,换成频道十、换成体育频道、播放、暂停、快进、倒回等),语音输入界面484可在确认命令接收之后立即隐藏,并且可立即执行相关联的一个或多个任务。尽管本文的各种实施例示出和描述了显示器的底部或顶部边缘处的界面,但是应当理解,各种界面中的任何界面可位于显示器周围的其他位置。例如,语音输入界面484可出现自显示器112的侧边缘、在显示器112的中心、在显示器112的角落里等。类似地,本文描述的各种其他界面示例可在显示器上的多种不同位置中以多种不同的取向布置。此外,虽然本文所述的各种界面被示为不透明的,但是各种界面中的任何界面可以是透明的,或者允许透过界面观看图像(模糊或全部)(例如,将界面内容覆盖在媒体内容上而不完全遮蔽下面媒体内容)。在其他实施例中,查询的结果可显示在语音输入界面484内或不同的界面中。图5示出了视频480上的示例性媒体内容界面510,该界面包含图4E中转录的查询的示例性结果。在一些实施例中,虚拟助理查询的结果可包括媒体内容,作为文本内容的替代或补充。例如,虚拟助理查询的结果可包括电视节目、视频、音乐等。一些结果可包括可立即用于回放的媒体,而其他结果可包括可用于购买的媒体等。如图所示,媒体内容界面510的尺寸可比语音输入界面484的尺寸大。在一个实施例中,语音输入界面484可具有较小的第一大小以适应语音输入信息,而媒体内容界面510可具有较大的第二大小以适应查询结果,其可包括文本、静止图像和活动图像。这样,用于传达虚拟助理信息的界面可根据要传达的内容缩放大小,从而限制所占用的屏幕实际使用空间(例如,最低限度地阻挡其他内容,诸如视频480)。如图所示,媒体内容界面510可包括(作为虚拟助理查询的结果)可选视频链接512、可选文本链接514和附加内容链接513。在一些实施例中,可通过将焦点、光标等导航到特定元素并使用遥控器(例如,遥控器106)进行选择来选择链接。在其他实施例中,可使用对虚拟助理的语音命令来选择链接(例如,观看足球比赛,显示关于篮球比赛的详情等)。可选视频链接512可包括静止或活动图像,并且可以可选择以使得相关联的视频回放。在一个实施例中,可选视频链接512可包括相关联视频内容的正在播放的视频。在另一实施例中,可选视频链接512可包括电视频道的实况馈送。例如,作为对当前在电视上体育赛事的虚拟助理查询的结果,可选视频链接512可包括体育频道上足球比赛的实况馈送。可选视频链接512还可包括任何其他视频、动画、图像等(例如,三角形播放符号)。此外,链接512可链接到任何类型的媒体内容,诸如电影、电视节目、体育赛事、音乐等。可选文本链接514可包括与可选视频链接512相关联的文本内容,或者可包括虚拟助理查询的结果的文本表示。在一个实施例中,可选文本链接514可包括得自虚拟助理查询的媒体的描述。例如,可选文本链接514可包括电视节目的名称、电影的标题、体育赛事的描述、电视频道名称或号码等。在一个实施例中,对文本链接514的选择可使得相关联的媒体内容回放。在另一实施例中,对文本链接514的选择可提供关于媒体内容或其他虚拟助理查询结果的附加详细信息。附加内容链接513可链接到虚拟助理查询的附加结果并使其显示。虽然在图5中示出了某些媒体内容示例,但应当理解,可包括任何类型的媒体内容作为对媒体内容的虚拟助理查询的结果。例如,可作为虚拟助理的结果返回的媒体内容可包括视频、电视节目、音乐、电视频道等。另外,在一些实施例中,可在本文所述界面中的任一种界面中提供类别筛选器,以允许用户筛选搜索或查询结果或者显示的媒体选项。例如,可提供可选筛选器以按类型(例如,电影、音乐专辑、书籍、电视节目等)筛选结果。在其他实施例中,可选筛选器可包括分类或内容描述符(例如喜剧、访谈、特定节目等)。在其他实施例中,可选筛选器可包括时间(例如,本周、上周、去年等)。应当理解,可在本文所述的各种界面中的任一种界面中提供筛选器,以允许用户基于与所显示的内容相关的类别来筛选结果(例如,在媒体结果具有不同类型的情况下按类型筛选,在媒体结果具有不同分类的情况下按分类筛选,在媒体结果具有不同时间的情况下按时间筛选,等等)。在其他实施例中,除媒体内容结果之外,媒体内容界面510还可包括查询的改述。例如,可在媒体内容结果上方(可选视频链接512和可选文本链接514上方)显示用户查询的改述。在图5的实施例中,这种用户查询的改述可包括以下内容:“下面介绍现在正在进行的一些体育赛事”。同样可显示介绍媒体内容结果的其他文本。在一些实施例中,在显示任何界面(包括界面510)之后,用户可使用新的查询(与先前的查询可相关,也可不相关)发起对附加语音输入的捕获。用户查询可包括作用于界面元素的命令,诸如选择视频链接512的命令。在另一实施例中,用户语音可包括与所显示内容相关联的查询,诸如所显示的菜单信息、正在播放的视频(例如,视频480)等。可基于所示信息(例如,所显示的文本)和/或与所显示的内容相关联的元数据(例如,与正在播放的视频相关联的元数据)来确定对此类查询的应答。例如,用户可询问界面(例如,界面510)中所示媒体结果,并且可搜索与该媒体相关联的元数据以提供回答或结果。然后,可在另一界面中或在同一界面内(例如,在本文所讨论的界面中的任一界面中)提供这种回答或结果。如上所述,在一个实施例中,可响应于对文本链接514的选择来显示关于媒体内容的附加详细信息。图6A和图6B示出了选择文本链接514之后视频480上的示例性媒体详情界面618。在一个实施例中,在提供附加详细信息时,媒体内容界面510可扩展成媒体详情界面618,如图6A的界面扩展过渡616所示。具体地讲,如图6A所示,可扩展所选内容的大小,并且可通过在显示器112上向上展开界面以占据更多的屏幕实际使用空间来提供附加文本信息。界面可被展开以适应用户所需的附加详细信息。这样,界面的大小可与用户所需的内容量成比例,从而在仍然传达所需内容的同时使所占用的屏幕实际使用空间最小化。图6B示出了完全展开之后的详情界面618。如图所示,详情界面618可具有比媒体内容界面510或语音输入界面484更大的尺寸,以适应所需的详细信息。详情界面618可包括详细媒体信息622,其可包括与媒体内容或虚拟助理查询的另一结果相关联的各种详细信息。详细媒体信息622可包括节目标题、节目描述、节目开播时间、频道、剧集概要、电影描述、演员名称、人物名称、体育赛事参与者、制作人名称、导演名称或与虚拟助理查询结果相关联的任何其他详细信息。在一个实施例中,详情界面618可包括可选视频链接620(或用于播放媒体内容的另一链接),其可包括相应可选视频链接512的较大版本。因此,可选视频链接620可包括静止或活动图像,并且可以可选择以使得相关联的视频回放。可选视频链接620可包括相关联视频内容的正在播放的视频、电视频道的实况馈送(例如,体育频道上足球比赛的实况馈送)等。可选视频链接620还可包括任何其他视频、动画、图像等(例如,三角形播放符号)。如上所述,可响应于对视频链接(诸如视频链接620或视频链接512)的选择来播放视频。图7A和图7B示出了可响应于对视频链接的选择(或其他播放视频内容的命令)而显示的示例性媒体过渡界面。如图所示,可将视频480替换为视频726。在一个实施例中,可展开视频726来代替或覆盖视频480,如图7A中的界面扩展过渡724所示。过渡的结果可包括图7B的扩展媒体界面728。与其他界面一样,扩展媒体界面728的大小可足以向用户提供所需信息;在此,可包括扩展到填满显示器112。因此,扩展媒体界面728可大于任何其他界面,因为所需信息可包括跨整个显示器的正在播放的媒体内容。尽管未示出,但在一些实施例中,描述性信息可简略地(例如,沿着屏幕的底部)覆盖在视频726上。这种描述性信息可包括相关联的节目、视频、频道等的名称。然后可(例如,在几秒钟之后)从视图中隐藏描述性信息。图8A和图8B示出了可在显示器112上示出以向用户传达语音输入信息的示例性语音输入界面836。在一个实施例中,语音输入界面836可在菜单830上显示。菜单830可包括各种媒体选项832,并且语音输入界面836可类似地在任何其他类型的菜单(例如,内容菜单、类别菜单、控制菜单、设置菜单、程序菜单等)上显示。在一个实施例中,语音输入界面836可被配置为占据显示器112的相对较大量的屏幕实际使用空间。例如,语音输入界面836可大于上文所讨论的语音输入界面484。在一个实施例中,可基于背景内容来确定要使用的语音输入界面的大小(例如,较小界面484或较大界面836)。当背景内容包括活动图像时,例如,可显示小尺寸的语音输入界面(例如,界面484)。另一方面,当背景内容包括静止图像(例如,暂停的视频)或菜单时,例如,可显示大尺寸的语音输入界面(例如,界面836)。这样一来,如果用户正在观看视频内容,则可显示较小的语音输入界面,该语音输入界面仅最低限度地侵入屏幕实地面积。而如果用户正在导航菜单或查看暂停的视频或其他静态图像,则可显示较大的语音输入界面,该语音输入界面可通过占据附加实地面积而输送更多信息或达到更好的效果。同样可基于背景内容以不同方式确定本文中讨论的其他界面的大小。如上所述,可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理,或开始实时处理语音输入)。可以各种方式触发监听,包括指示,诸如:用户按压遥控器106上的物理按钮,用户按压用户设备102上的物理按钮,用户按压用户设备102上的虚拟按钮,用户说出可被始终监听的设备识别的触发短语(例如,说出“嘿,助理”以开始监听命令),用户执行可被传感器检测的手势(例如,在相机前面做动作)等。在另一实施例中,用户可按住遥控器106或用户设备102上的物理按钮以发起监听。在其他实施例中,用户可在说出查询或命令的同时按住遥控器106或用户设备102上的物理按钮,然后可在完成时释放该按钮。同样可接收各种其他指示,以开始接收来自用户的语音输入。响应于接收到监听语音输入的指示,可在菜单830上显示语音输入界面836。图8A示出了从显示器112的底部部分向上展开的大通知区域834。在接收到监听语音输入的指示时,可在大通知区域834中显示语音输入界面836,并且如图所示,界面可以动画方式从显示器112的观看区域的底部边缘向上滑动。在一些实施例中,当(例如,响应于接收到监听语音输入的指示)显示重叠界面时,背景菜单、暂停的视频、静止图像或其他背景内容可在z方向上收缩和/或向后移动(好像进一步进入显示器112)。背景界面收缩过渡831和相关联的向内指向的箭头示出背景内容(例如,菜单830)可如何收缩(缩小所显示的菜单、图像、文本等)。这可提供看起来像背景内容远离用户移动的视觉效果,使新的前景界面(例如,界面836)显露出来。图8B示出了收缩的背景界面833,包括收缩(缩小)版本的菜单830。如图所示,收缩的背景界面833(其可包括边框)可在将焦点转移到前景界面836的同时显得进一步远离用户。当显示重叠界面时,本文所讨论的其他实施例中任一个中的背景内容(包括背景视频内容)可类似地在z方向上收缩和/或向后移动。图8B示出了在向上滑入视图之后的语音输入界面836。如上所述,可在接收语音输入的同时显示各种确认。尽管在此未示出,但语音输入界面836可以与上面参考图4B、图4C和图4D所讨论的语音输入界面484相似的方式,类似地显示准备就绪确认486、监听确认487和/或处理确认488的较大版本。如图8B所示,可示出命令接收确认838(如上面讨论的较小尺寸的命令接收确认490),以确认系统接收和解译的语音输入。还可示出转录840,并且该转录可包括所接收的语音输入的转录(例如,“纽约的天气如何?”)。在一些实施例中,转录840可以动画形式从显示器112的底部向上滑动,可在图8B所示的位置暂时显示(例如,几秒),然后可在从视图中消失之前向上滑动到语音输入界面836的顶部(例如,如同文本向上滚动并最终离开视图)。在其他实施例中,可不显示转录,而可处理用户的命令或查询并可在不显示转录的情况下执行相关联的任务。在其他实施例中,可在用户说话时实时地执行语音转录。转录出字词时,可将其显示在语音输入界面836中。例如,字词可显示在上述较大版本的监听确认487旁边。在用户完成说话之后,可在执行与用户命令相关联的任务之前简要地显示命令接收确认838。此外,在其他实施例中,命令接收确认838可传达关于所接收和理解的命令的信息。例如,对于调谐到特定频道的简单请求,当对频道进行调谐时,与频道相关联的标志或数字可短暂地显示为命令接收确认838(例如,几秒钟)。又如,对于选择所显示菜单项(例如,媒体选项832中的一个)的请求,与所选菜单项相关联的图像可被显示为命令接收确认838。因此,命令接收确认838可用于传送命令特定信息。在一些实施例中,语音输入界面836可在接收到用户查询或命令之后隐藏。例如,语音输入界面836可被以动画方式显示为向下滑动,直到其从显示器112的底部离开视图。在不需要向用户显示进一步信息的情况下,可隐藏语音输入界面836。例如,对于通用或直接的命令(例如,换成频道十、换成体育频道、播放该电影等),语音输入界面836可在确认命令接收之后立即隐藏,并且可立即执行相关联的一个或多个任务。在其他实施例中,查询的结果可显示在语音输入界面836内或不同的界面中。图9示出了菜单830上(具体地讲,收缩的背景界面833上)的示例性虚拟助理结果界面942,该界面包含图8B中转录的查询的示例性结果。在一些实施例中,虚拟助理查询结果可包括文本回答,诸如文本回答944。虚拟助理查询的结果还可包括解决用户查询的媒体内容,诸如与可选视频链接946和购买链接948相关联的内容。具体地讲,在该实施例中,用户可请求纽约指定位置的天气信息。虚拟助理可提供直接回答944用户查询的文本回答(例如,表示天气看起来很好并提供温度信息)。作为文本回答944的替代或补充,虚拟助理可将可选视频链接946连同购买链接948和相关联的文本一起提供。与链接946和948相关联的媒体还可提供对用户查询的应答。在此,与链接946和948相关联的媒体可包括指定位置处天气信息的十分钟剪辑(具体地讲,来自被称为天气预报频道的电视频道的纽约未来五天天气预报)。在一个实施例中,解决用户查询的剪辑可包括先前所播内容(其可以从记录或从流服务获得)的时间提示部分。在一个实施例中,虚拟助理可基于与语音输入相关联的用户意图并通过搜索关于可用媒体内容的详细信息(例如,包括录制节目的元数据以及详细定时信息,或关于流内容的详细信息)来识别此类内容。在一些实施例中,用户对某些内容可不具有访问权或者可没有订阅。在这种情况下,可例如经由购买链接948来提供内容以供购买。在选择购买链接948或视频链接946时,内容的费用可从用户帐户中自动扣除或者记入用户帐户的账目。图10示出了使用虚拟助理控制电视交互并使用不同界面显示相关联信息的示例性过程1000。在框1002处,可接收来自用户的语音输入。例如,可在系统100的用户设备102或遥控器106处接收语音输入。在一些实施例中,语音输入(或者语音输入中的一些或全部的数据表示)可被传输到服务器系统110和/或电视机顶盒104并且由该服务器系统和/或电视机顶盒接收。响应于用户发起对语音输入的接收,可在显示器(诸如显示器112)上显示各种通知。例如,可如上文参考图4A至图4E所讨论的那样,显示准备就绪确认、监听确认、处理确认和/或命令接收确认。此外,可转录所接收的用户语音输入,然后可显示转录。再次参考图10的过程1000,在框1004处,可基于语音输入来确定媒体内容。例如,可(例如,通过搜索可用媒体内容等)确定解决针对虚拟助理的用户查询的媒体内容。例如,可确定与图4E的转录492相关的媒体内容(“现在正进行的体育赛事有哪些?”)。此类媒体内容可包括在可供用户观看的一个或多个电视频道上显示的直播体育赛事。在框1006处,可显示带有可选媒体链接的第一大小的第一用户界面。例如,带有可选视频链接512和可选文本链接514的媒体内容界面510可显示在显示器112上,如图5所示。如上所述,媒体内容界面510可具有较小尺寸以避免干扰背景视频内容。在框1008处,可接收对链接中的一个的选择。例如,可接收对链接512和/或链接514中的一个的选择。在框1010处,可显示具有与选择相关联的媒体内容的较大第二大小的第二用户界面。例如,可显示带有可选视频链接620和详细媒体信息622的详情界面618,如图6B所示。如上所述,详情界面618可具有较大尺寸,以传达所需附加详细媒体信息。类似地,在选择视频链接620时,扩展媒体界面728可与视频726一起显示,如图7B所示。如上所述,扩展媒体界面728可具有较大尺寸,以向用户提供所需媒体内容。这样,本文所讨论的各种界面可调节大小以适应所需内容(包括扩展成较大尺寸的界面或收缩成较小尺寸的界面),而另一方面占据有限的屏幕实际使用空间。因此,过程1000可用于使用虚拟助理控制电视交互,并使用不同界面显示相关联信息。又如,可在控制菜单上显示尺寸比背景视频内容上的界面尺寸更大的界面。例如,如图8B所示,语音输入界面836可显示在菜单830上,并且如图9所示,助理结果界面942可显示在菜单830上,而如图5所示,较小媒体内容界面510可显示在视频480上。这样,可至少部分地通过背景内容的类型来确定界面的大小(例如,由界面占据的屏幕实际使用空间量)。图11示出了用户设备102上的示例性电视媒体内容,其可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图11示出了包括具有多个电视节目1152的电视列表的界面1150。界面1150可例如对应于用户设备102上的特定应用程序,诸如电视控制应用程序、电视内容列表应用程序、互联网应用程序等。在一些实施例中,用户设备102上(例如,触摸屏246上)所示的内容可用于从与该内容相关的语音输入确定用户意图,并且用户意图可用于使内容在另一设备和显示器上(例如,在电视机顶盒104和显示器112和/或扬声器111上)播放或显示。例如,用户设备102上的界面1150中所示的内容可用于消除用户请求的歧义,并且从语音输入确定用户意图,然后可使用所确定的用户意图经由电视机顶盒104播放或显示媒体。图12示出了使用虚拟助理的示例性电视控制。图12示出了界面1254,其可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面。例如,界面1254可包括提示用户做出请求的助理问候1256。然后,可转录随后接收的用户语音,诸如转录的用户语音1258,从而显示来回会话。在一些实施例中,响应于触发开始接收语音输入(触发例如按钮按压、关键短语等),界面1254可出现在用户设备102上。在一个实施例中,经由电视机顶盒104(例如,在显示器112和扬声器111上)播放内容的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如,转录的用户语音1258包括对“那个”足球比赛的标引(“播放那个足球比赛。”)。单从语音输入来看,所期望的特定足球比赛可能并不清楚。然而,在一些实施例中,用户设备102上所示的内容可用于消除用户请求的歧义并确定用户意图。在一个实施例中,在用户发出请求之前(例如,在界面1254出现在触摸屏246上之前),用户设备102上所示的内容可用于确定用户意图(如可以是界面1254内出现的内容,诸如先前的查询和结果)。在例示的实施例中,图11的界面1150中所示的内容可用于从播放“那个”足球比赛的命令确定用户意图。电视节目1152的电视列表包括各种不同的节目,其中之一标题为“足球”,出现在第5频道上。足球列表的出现可用于根据说出“那个”足球比赛来确定用户的意图。具体地讲,用户对“那个”足球比赛的标引可被解析为出现在界面1150的电视列表中的足球节目。因此,虚拟助理可(例如,通过使电视机顶盒104调谐到适当的频道并显示比赛)使用户所期望的特定足球比赛回放。在其他实施例中,用户可以各种其他方式标引界面1150中所示的电视节目(例如,频道八上的节目、新闻、戏剧节目、广告、第一节目等),并且可类似地基于所显示的内容来确定用户意图。应当理解,与所显示内容相关联的元数据(例如,电视节目描述)、模糊匹配技术、同义词匹配等还可与所显示内容结合用于确定用户意图。例如,可(例如,使用同义词和/或模糊匹配技术)将术语“广告”与描述“付费节目”匹配,从显示“广告”的请求来确定用户意图。同样,可在确定用户意图时分析特定电视节目的描述。例如,可在法庭剧的详细描述中识别术语“法律”,并且可基于与界面1150中所示内容相关联的详细描述,从用户观看“法律”节目的请求来确定用户意图。因此,所显示的内容和与其相关联的数据可用于消除用户请求的歧义并确定用户意图。图13示出了用户设备102上的示例性图片和视频内容,其可包括具有触摸屏246(或另一显示器)的移动电话、平板电脑、遥控器等。图13示出了包括照片和视频列表的界面1360。界面1360可例如对应于用户设备102上的特定应用程序,诸如媒体内容应用程序、文件导航应用程序、存储应用程序、远程存储管理应用程序、相机应用程序等。如图所示,界面1360可包括视频1362、相册1364(例如,一组多张照片)和照片1366。如上面参考图11和图12所讨论的,用户设备102上所示的内容可用于从与该内容相关的语音输入确定用户意图。然后,可将用户意图用来使内容在另一设备和显示器上(例如,在电视机顶盒104和显示器112和/或扬声器111上)回放或显示。例如,用户设备102上的界面1360中所示的内容可用于消除用户请求的歧义,并且用于从语音输入确定用户意图,然后可使用所确定的用户意图经由电视机顶盒104播放或显示媒体。图14示出了使用虚拟助理的示例性媒体显示控制。图14示出了界面1254,其可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面。如图所示,界面1254可包括提示用户做出请求的助理问候1256。然后,可在对话内转录用户语音,如图14的实施例所示。在一些实施例中,响应于触发开始接收语音输入(触发例如按钮按压、关键短语等),界面1254可出现在用户设备102上。在一个实施例中,经由电视机顶盒104(例如,在显示器112和扬声器111上)播放媒体内容或显示媒体的用户请求可包括对用户设备102上所示的某些内容的模糊引用。例如,转录的用户语音1468包括对“那个”视频的标引(“显示那个视频。”)。单从语音输入来看,所标引的具体视频可能并不清楚。然而,在一些实施例中,用户设备102上所示的内容可用于消除用户请求的歧义并确定用户意图。在一个实施例中,在用户发出请求之前(例如,在界面1254出现在触摸屏246上之前),用户设备120上所示的内容可用于确定用户意图(如可以是界面1254内出现的内容,诸如先前的查询和结果)。在用户语音1468的实施例中,图13的界面1360中所示的内容可用于从显示“那个”视频的命令确定用户意图。界面1360中的照片和视频列表包括多种不同的照片和视频,包括视频1362、相册1354和照片1366。当界面1360中仅出现一个视频(例如,视频1362)时,界面1360中视频1362的出现可用于根据说出“那个”视频来确定用户的意图。具体地讲,用户对“那个”视频的标引可被解析为出现在界面1360中的视频1362(标题为“毕业视频”)。因此,虚拟助理可(例如,通过使视频1362从用户设备102或远程存储器传输到电视机顶盒104并且使重放开始)使视频1362回放。又如,转录的用户语音1470包括对“那个”相册的标引(“播放那个相册的幻灯片。”)。单从语音输入来看,所标引的具体相册可能并不清楚。用户设备102上所示的内容可再次用于消除用户请求的歧义。具体地讲,图13的界面1360中所示的内容可用于从播放“那个”相册的幻灯片的命令确定用户意图。界面1360中的照片和视频列表包括相册1354。界面1360中相册1364的出现可用于根据说出“那个”相册来确定用户的意图。具体地讲,用户对“那个”相册的标引可被解析为出现在界面1360中的相册1364(标题为“毕业相册”)。因此,响应于用户语音1470,虚拟助理可(例如,通过使相册1364的照片从用户设备102或远程存储器传输到电视机顶盒104并使照片的幻灯片放映开始)使包括相册1364中照片的幻灯片显示。在又一实施例中,转录的用户语音1472包括对“最后”一张照片的标引(“在厨房电视上显示最后一张照片”)。单从语音输入来看,所标引的具体照片可能并不清楚。用户设备102上所示的内容可再次用于消除用户请求的歧义。具体地讲,图13的界面1360中所示的内容可用于从显示“最后”一张照片的命令确定用户意图。界面1360中的照片和视频列表包括两张单独的照片1366。界面1360中照片1366的出现(特别是界面内照片1366的出现顺序)可用于根据说出“最后”一张照片确定用户的意图。具体地讲,用户对“最后”一张照片的标引可被解析为出现在界面1360底部的照片1366(日期为2014年6月21日)。因此,响应于用户语音1472,虚拟助理可(例如,通过使最后一张照片1366从用户设备102或远程存储器传输到电视机顶盒104并使照片显示)使界面1360中所示的最后一张照片1366显示。在其他实施例中,用户可以各种其他方式引用界面1360中所示的媒体内容(例如,最后一对照片、所有视频、所有照片、毕业专辑、毕业视频、从6月21日起的照片等),并且可类似地基于所显示的内容来确定用户意图。应当理解,与所显示内容相关联的元数据(例如,时间戳、位置信息、标题、描述等)、模糊匹配技术、同义词匹配等还可与所显示内容结合用于确定用户意图。因此,所显示的内容和与其相关联的数据可用于消除用户请求的歧义并确定用户意图。应当理解,任何应用程序的任何应用界面中的任何类型的显示内容都可用于确定用户意图。例如,可在语音输入中引用互联网浏览器应用程序中网页上显示的图像,并且可分析所显示的网页内容以识别所需图像。类似地,可按标题、流派、艺术家、乐队名等在语音输入中引用音乐应用程序中音乐列表中的音乐曲目,并且可将音乐应用中的显示内容(在一些实施例中,以及相关联的元数据)用于从语音输入确定用户意图。如上所述,然后可经由另一设备(例如,经由电视机顶盒104)将所确定的用户意图用来使媒体显示或回放。在一些实施例中,可采用用户标识、用户认证和/或设备认证来确定是否可允许媒体控制、确定可用于显示的媒体内容、确定访问许可等。例如,可确定特定用户设备(例如,用户设备102)是否被授权控制例如电视机顶盒104上的媒体。可基于注册、配对、信任确定、密码、安全问题、系统设置等来对用户设备授权。响应于确定特定用户设备已被授权,可允许尝试控制电视机顶盒104(例如,可响应于确定请求设备被授权控制媒体而播放媒体内容)。相反,可忽略来自未授权设备的媒体控制命令或请求,并且/或者可提示这些设备的用户注册其设备以用于控制特定电视机顶盒104。又如,可识别特定用户,并且可使用与该用户相关联的个人数据来确定请求的用户意图。例如,可基于语音输入来识别用户,诸如通过使用用户声纹的声音识别来识别用户。在一些实施例中,用户可说出被分析用于声音识别的特定短语。在其他实施例中,可使用声音识别来分析针对虚拟助理的语音输入请求,以识别说话者。还可基于语音输入样本的源(例如,在用户的个人设备102上)来识别用户。还可基于口令、密码、菜单选择等来识别用户。然后,可基于所识别用户的个人数据来解译从用户处接收的语音输入。例如,可基于来自用户的先前请求、用户拥有的媒体内容、存储在用户设备上的媒体内容、用户偏好、用户设置、用户人口统计学特征(例如,所用语言等)、用户个人资料信息、用户支付方法或者与特定识别用户相关联的各种其他个人信息来确定语音输入的用户意图。例如,可基于个人数据来消除引用收藏列表等语音输入的歧义,并且可识别用户的个人收藏列表。同样可基于用户标识来消除引用“我的”照片、“我的”视频、“我的”节目等语音输入的歧义,以正确地识别与所识别用户相关联的照片、视频和演出(例如,存储在个人用户设备上的照片等)。类似地,可将请求购买内容的语音输入消除歧义,以确定所识别用户的支付方法(而不是另一用户的支付方法)应当为购买付费。在一些实施例中,用户认证可用于确定是否允许用户访问媒体内容、购买媒体内容等。例如,声音识别可用于(例如,使用用户的声纹)验证特定用户的身份,以允许用户使用用户的支付方法进行购买。类似地,口令等可用于验证用户以允许购买。又如,声音识别可用于验证特定用户的身份,以确定是否允许用户观看特定节目(例如,具有特定家长指导评级的节目、具有特定年龄适合性评级的电影等)。例如,可基于指示请求者不是能够查看此类内容的授权用户(例如,父母)的声音识别来拒绝孩子对特定节目的请求。在其他实施例中,声音识别可用于确定用户是否能够访问特定订阅内容(例如,基于声音识别限制对优质频道内容的访问)。在一些实施例中,用户可说出被分析用于声音识别的特定短语。在其他实施例中,可使用声音识别来分析针对虚拟助理的语音输入请求,以识别说话者。因此,可响应于首先确定用户以多种方式中的任一种被授权来播放某些媒体内容。图15示出了示例性虚拟助理交互,其中结果在移动用户设备和媒体显示设备上。在一些实施例中,虚拟助理可在不止一个设备上提供信息和控制,诸如在用户设备102上以及在电视机顶盒104上提供信息和控制。此外,在一些实施例中,用于用户设备102上的控制和信息的虚拟助理界面同样可用于发出控制电视机顶盒104上的媒体的请求。因此,虚拟助理系统可确定是在用户设备102上还是在电视机顶盒104上显示结果或执行任务。在一些实施例中,当采用用户设备102来控制电视机顶盒104时,可通过在用户设备102(例如,在触摸屏246上)上显示信息来最小化虚拟助理界面在与电视机顶盒104相关联的显示器(例如,显示器112)上占用的空间。在其他实施例中,虚拟助理信息可单独显示在显示器112上,或者虚拟助理信息可显示在用户设备102和显示器112两者上。在一些实施例中,可确定虚拟助理查询的结果是应当直接显示在用户设备102上还是显示在与电视机顶盒104相关联的显示器112上。在一个实施例中,响应于确定查询的用户意图包括对信息的请求,可在用户设备102上显示信息性应答。在另一实施例中,响应于确定查询的用户意图包括播放媒体内容的请求,可经由电视机顶盒104播放响应于查询的媒体内容。图15示出了包含虚拟助理和用户之间的会话式对话实施例的虚拟助理界面1254。助理问候1256可提示用户做出请求。在第一查询中,转录的用户语音1574(其也可被键入或以其他方式输入)包括对与所显示媒体内容相关联的信息性回答的请求。具体地讲,转录的用户语音1574询问正在进行足球比赛的是谁,该足球比赛例如可能显示在用户设备102上的界面上(例如,在图11的界面1150中列出)或在显示器112上(例如,在图5的界面510中列出,或作为图7B中显示器112上的视频726播放)。可基于所显示的媒体内容来确定转录的用户语音1574的用户意图。例如,可基于用户设备102上或显示器112上所示的内容来识别所讨论的特定足球比赛。转录的用户语音1574的用户意图可包括获取详细说明正在进行足球比赛的球队的信息性回答,该正在进行足球比赛的球队是基于所显示的内容识别。响应于确定用户意图包括对信息性回答的请求,系统可确定在图15中的界面1254内(而不是在显示器112上)显示应答。在一些实施例中,可基于与所显示内容相关联的元数据(例如,基于电视列表中足球比赛的描述)来确定对查询的应答。如图所示,助理应答1576因此可显示在用户设备102的触摸屏246上于界面1254中,将Alpha队和Zeta队识别为正在进行比赛的球队。因此,在一些实施例中,可基于确定查询包括信息性请求而在用户设备102上的界面1254内显示信息性应答。然而,界面1254中的第二查询包括媒体请求。具体地讲,转录的用户语音1578请求将显示的媒体内容改为“比赛”。可基于所显示内容来确定转录的用户语音1578的用户意图(例如,以识别用户期望的是哪个比赛),诸如图5的界面510中列出的比赛、图11的界面1150中列出的比赛、先前查询中(例如,在转录的用户语音1574中)标引的比赛等。因此,转录的用户语音1578的用户意图可包括将显示的内容改为特定比赛(在此是有Alpha队和Zeta队参加的足球比赛)。在一个实施例中,比赛可显示在用户设备102上。然而,在其他实施例中,基于包括请求播放媒体内容的查询,比赛可经由电视机顶盒104示出。具体地讲,响应于确定用户意图包括播放媒体内容的请求,系统可确定经由电视机顶盒104在显示器112上(而不是在图15中的界面1254内)显示媒体内容结果。在一些实施例中,确认虚拟助理的预期动作的应答或改述可在界面1254中或在显示器112上示出(例如,“改为足球比赛。”)。图16示出了示例性虚拟助理交互,其中媒体结果在媒体显示设备和移动用户设备上。在一些实施例中,虚拟助理可提供对用户设备102和电视机顶盒104两者上媒体的访问。此外,在一些实施例中,用于用户设备102上的媒体的虚拟助理界面同样可用于发出对电视机顶盒104上的媒体的请求。因此,虚拟助理系统可确定是在用户设备102上还是经由电视机顶盒104在显示器112上显示媒体结果。在一些实施例中,可基于媒体结果格式、用户偏好、默认设置、请求本身中的表达命令等来确定是在设备102上还是在显示器112上显示媒体。例如,查询的媒体结果的格式可用于(例如,在没有具体指令的情况下)确定默认在哪个设备上显示媒体结果。电视节目可更适合于在电视上显示,大格式视频可更适合于在电视上显示,缩略图照片可更适合于在用户设备上显示,小格式网络视频可更适合于在用户设备上显示,而各种其他媒体格式可更适合于在相对较大的电视屏幕或相对较小的用户设备显示器上显示。因此,响应于(例如,基于媒体格式)确定媒体内容应当在特定显示器上显示,可默认在该特定显示器上显示媒体内容。241EIF180381P(补正)图16示出了虚拟助理界面1254,该界面包含与正在播放或正在显示的媒体内容相关的查询的实施例。助理问候1256可提示用户做出请求。在第一查询中,转录的用户语音1680包括显示足球比赛的请求。如在上文所讨论的实施例中,可基于所显示内容来确定转录的用户语音1680的用户意图(例如,以识别用户期望的是哪个比赛),诸如图5的界面510中列出的比赛、图11的界面1150中列出的比赛、先前查询中引用的比赛等。因此,转录的用户语音1680的用户意图可包括显示可例如在电视上播出的特定足球比赛。响应于确定用户意图包括显示被格式化以适于电视的媒体(例如,电视播放的足球比赛)的请求,系统可自动确定经由电视机顶盒104在显示器112上(而不是在用户设备102本身上)显示期望的媒体。然后,虚拟助理系统可(例如,通过执行必要的任务和/或发送适当的命令)使电视机顶盒104调谐到足球比赛并在显示器112上显示该足球比赛。然而,在第二查询中,转录的用户语音1682包括显示球队选手图片的请求(例如,“Alpha队”的图片)。如在上文所讨论的实施例中,可确定转录的用户语音1682的用户意图。转录的用户语音1682的用户意图可包括对与“Alpha队”相关联的图片执行搜索(例如,网络搜索)以及显示所得到的图片。响应于确定用户意图包括显示可以缩略图格式呈现的媒体或者与网络搜索相关联的媒体或者不具有特定格式的其他非特定媒体的请求,系统可自动确定在用户设备102的触摸屏246上于界面1254中显示期望的媒体结果(而不是经由电视机顶盒104在显示器112上显示所得到的图片)。例如,如图所示,可响应于用户查询而在用户设备102上的界面1254内显示缩略图照片1684。因此,虚拟助理系统可使得特定格式的媒体或者可以特定格式(例如,在一组缩略图中)呈现的媒体默认显示在用户设备102上。应当理解,在一些实施例中,用户语音1680中所引用的足球比赛可显示在用户设备102上,并且照片1684可经由电视机顶盒104显示在显示器112上。然而,可基于媒体格式自动确定用于显示的默认设备,从而简化用户的媒体命令。在其他实施例中,可基于用户偏好、默认设置、最近用于显示内容的设备、识别用户和与该用户相关联的设备的声音识别等,来确定用于显示所请求的媒体内容的默认设备。例如,用户可设置偏好,或者可设置默认配置,以经由电视机顶盒104在显示器112上显示某些类型的内容(例如,视频、幻灯片、电视节目等)并在用户设备102的触摸屏246上显示其他类型的内容(例如,缩略图、照片、网络视频等)。类似地,可设置偏好或默认配置,以通过在一个设备或另一设备上显示内容来应答某些查询。又如,所有内容可显示在用户设备102上,除非用户另有指示。在其他实施例中,用户查询可包括在特定显示器上显示内容的命令。例如,图14的用户语音1472包括在厨房电视上显示照片的命令。因此,系统可使照片在与用户厨房相关联的电视显示器上显示,而不是在用户设备102上显示照片。在其他实施例中,用户可以多种其他方式指示使用哪个显示设备(例如,在电视上、在大屏幕上、在客厅中、在卧室中、在我的平板电脑上、在我的电话上等)。因此,可以多种不同方式来确定用于显示虚拟助理查询的媒体内容结果的显示设备。图17示出了基于接近度的示例性媒体设备控制。在一些实施例中,用户在同一家庭内或在同一网络上可具有多个电视和电视机顶盒。例如,家庭可将电视和机顶盒设置在客厅中,另一个设置在卧室中,又一个设置在厨房中。在其他实施例中,多个机顶盒可连接到同一网络,诸如公寓或办公楼中的公共网络。尽管用户可针对特定机顶盒对遥控器106和用户设备102进行配对、连接或以其他方式授权以避免未经授权的访问,但在其他实施例中,遥控器和/或用户设备可用于控制不止一个机顶盒。用户可例如使用单个用户设备102来控制卧室、客厅和厨房中的机顶盒。用户还可例如使用单个用户设备102来控制其自己公寓中的自己的机顶盒,并且控制邻居公寓中邻居的机顶盒(例如,与邻居共享来自用户设备102的内容,诸如在邻居的电视上显示用户设备102上存储的照片的幻灯片)。因为用户可使用单个用户设备102来控制多个不同的机顶盒,所以系统可确定向多个机顶盒中的哪个机顶盒发送命令。同样,因为家庭可具有可操作多个机顶盒的多个遥控器106,所以系统可类似地确定向多个机顶盒中的哪个机顶盒发送命令。在一个实施例中,设备的接近度可用于确定向多个机顶盒中的哪个发送命令(或在哪个显示器上显示所请求的媒体内容)。可在用户设备102或遥控器106与多个机顶盒中的每一个之间确定接近度。然后,可将发出的命令发送到最近的机顶盒(或者可在最近的显示器上显示所请求的媒体内容)。可以多种方式中的任一种来确定(或至少估计)接近度,诸如飞行时间测量(例如,使用射频)、蓝牙LE、电子脉冲信号、接近传感器、声路测量等。然后,可比较测量的或估计的距离,并且可向距离最短的设备(例如,最近的机顶盒)发出命令。图17示出了多设备系统1790,其包括具有第一显示器1786的第一机顶盒1792和具有第二显示器1788的第二机顶盒1794。在一个示例中,用户可从用户设备102发出命令以显示媒体内容(例如,不必指定在哪里或哪个设备上)。随后可确定(或估计)到第一机顶盒1792的距离1795和到第二机顶盒1794的距离1796。如图所示,距离1796可大于距离1795。基于接近度,来自用户设备102的命令可被发送到第一机顶盒1792,该第一机顶盒为最近的设备并且最有可能匹配用户的意图。在一些示例中,单个遥控器106还可用于控制不止一个机顶盒。可基于接近度来确定用于在给定时间进行控制的所需设备。可确定(或估计)到第二机顶盒1794的距离1797和到第一机顶盒1792的距离1798。如图所示,距离1798可大于距离1797。基于接近度,来自遥控器106的命令可被发至第二机顶盒1794,该第二机顶盒为最近的设备并且最有可能匹配用户的意图。可定期地或用每个命令刷新距离测量结果,以适应例如用户移动到不同的房间以及期望控制不同的设备。应当理解,用户可对命令指定不同的设备,在一些情况下覆写接近度。例如,可在用户设备102上显示可用显示设备的列表(例如,通过设置名称、指定房间等列出第一显示器1786和第二显示器1788,或通过设置名称、指定房间等列出第一机顶盒1792和第二机顶盒1794)。用户可从列表中选择设备之一,然后可将命令发送到所选设备。然后,可通过在所选设备上显示期望的媒体来处理在用户设备102处发出的对媒体内容的请求。在其他实施例中,用户可讲出期望的设备作为口头命令的一部分(例如,在厨房电视上显示比赛,换到客厅中的卡通频道等)。在其他实施例中,可基于与特定设备相关联的状态信息来确定用于显示所请求的媒体内容的默认设备。例如,可确定耳机(或头戴式耳机)是否附接到用户设备102。响应于确定当接收到显示媒体内容的请求时耳机附接到用户设备102,可默认(例如,假设用户正在用户设备102上而不是在电视上消费内容)在用户设备102上显示所请求的内容。响应于在接收到显示媒体内容的请求时耳机没有附着到用户设备102,可根据本文所讨论的各种确定方法中的任一种将所请求的内容显示在用户设备102上或电视上。可类似地使用其他设备状态信息来确定所请求的媒体内容是应该在用户设备102上还是机顶盒104上显示,诸如用户设备102或机顶盒104周围的环境照明、其他设备到用户设备102或机顶盒104的接近度、用户设备102的取向(例如,横向取向更可能指示期望在用户设备102上观看)、机顶盒104的显示状态(例如,处于休眠模式)、自特定设备上最后一次交互以来的时间或者用于用户设备102和/或机顶盒104的各种其他状态指示符中的任一个。图18示出了使用虚拟助理和多个用户设备控制电视交互的示例性过程1800。在框1802处,可在具有第一显示器的第一设备处从用户接收语音输入。例如,可在系统100的用户设备102或遥控器106处接收来自用户的语音输入。在一些实施例中,第一显示器可包括用户设备102的触摸屏246或与遥控器106相关联的显示器。在框1804处,可基于第一显示器上所显示的内容,从语音输入确定用户意图。例如,可对内容(诸如图11的界面1150中的电视节目1152或者图13的界面1360中的照片和视频)进行分析,并将其用于确定用于语音输入的用户意图。在一些实施例中,用户可以模糊的方式引用第一显示器上所示的内容,并且可通过分析在第一显示器上显示的内容来消除引用的歧义,以解析引用(例如,确定“那个”视频、“那个”相册、“那个”比赛等的用户意图),如上面参考图12和图14所讨论的。再次参考图18的过程1800,在框1806处,可基于用户意图来确定媒体内容。例如,可基于用户意图来识别特定视频、照片、相册、电视节目、体育赛事、音乐曲目等。在上文所讨论的图11和图12的实施例中,例如,可基于用户意图是指图11的界面1150中所示的“那个”足球比赛,来识别频道五上所示的特定足球比赛。在上文所讨论的图13和图14的实施例中,可基于从图14的语音输入实施例确定的用户意图来识别标题为“毕业视频”的特定视频1362、标题为“毕业相册”的特定相册1364或特定照片1366。再次参考图18的过程1800,在框1808处,可在与第二显示器相关联的第二设备上播放媒体内容。例如,可经由电视机顶盒104在具有扬声器111的显示器112上播放所确定的媒体内容。播放媒体内容可包括在电视机顶盒104或另一装置上调谐到特定电视频道、播放特定视频、显示照片幻灯片、显示特定照片、播放特定音轨等。在一些实施例中,可确定对针对虚拟助理的语音输入的应答是应当显示在与第一设备(例如,用户设备102)相关联的第一显示器上还是与第二设备(例如,电视机顶盒104)相关联的第二显示器上。例如,如上面参考图15和图16所讨论的,适于在较小屏幕上显示的信息性回答或媒体内容可显示在用户设备102上,而适于在较大屏幕上显示的媒体应答或媒体内容可显示在与机顶盒104相关联的显示器上。如上面参考图17所讨论的,在一些实施例中,用户设备102和多个机顶盒之间的距离可用于确定在哪个机顶盒上播放媒体内容或者向哪个机顶盒发出命令。类似地,可做出各种其他确定,以提供可多个设备交互的方便且用户友好的体验。在一些实施例中,由于用户设备102上所示的内容可如上所述用于告知语音输入的解译,显示器112上所示的内容同样可用于告知语音输入的解译。具体地讲,与电视机顶盒104相关联的显示器上所示的内容可连同与该内容相关联的元数据一起用于从语音输入确定用户意图、消除用户查询歧义、应答内容相关查询等。图19示出了包含关于背景中所示视频480的虚拟助理查询的示例性语音输入界面484(如上所述)。在一些实施例中,用户查询可包括关于显示器112上所示媒体内容的问题。例如,转录1916包括请求识别女演员的查询(“那些女演员是谁?”)。显示器112上所示内容(连同关于内容的元数据或其他描述性信息)可用于从与该内容相关的语音输入确定用户意图,还可用于确定对查询的应答(应答包括信息性应答以及向用户提供媒体选择的媒体应答)。例如,可使用视频480、视频480的描述、视频480的人物和演员列表、视频480的评级信息、视频480的分类信息以及与视频480相关联的多种其他描述性信息来消除用户请求的歧义并确定对用户查询的应答。相关联的元数据可包括例如人物1910、人物1912和人物1914的识别信息(例如,人物名称以及扮演人物的女演员的名称)。任何其他内容的元数据可类似地包括与显示器上所示内容相关联的标题、描述、人物列表、演员列表、选手列表、分类、制作人名称、导演名称或显示时间表,或者显示器上的媒体内容的观看历史(例如,最近显示的媒体)。在一个实施例中,针对虚拟助理的用户查询可包括对显示器112上所示的某些内容的模糊引用。例如,转录1916包括对“那些”女演员的标引(“那些女演员是谁?”)。单从语音输入来看,用户正在询问的具体女演员可能并不清楚。然而,在一些实施例中,显示器112上所示的内容和相关联的元数据可用于消除用户请求的歧义并确定用户意图。在例示的实施例中,显示器112上所示的内容可用于从对“那些”女演员的标引来确定用户意图。在一个实施例中,电视机顶盒104可识别正在播放的内容以及与内容相关联的详情。在这种情况下,电视机顶盒104可识别视频480的标题以及多种描述性内容。在其他实施例中,可示出电视节目、体育赛事或其他内容,这些内容可与相关联的元数据结合用于确定用户意图。另外,在本文所讨论的各种实施例中的任一个中,相比于替代项,语音识别结果和意图确定可给予与所显示内容相关联的项更高的权重。例如,屏幕人物的演员名称在那些演员出现在屏幕上的同时(或者在有他们出现的节目正在播放的同时)可被加以更高的权重,这可提供以用于对与所显示内容相关联的可能的用户请求进行准确的语音识别和意图确定。在一个实施例中,与视频480相关联的人物和/或演员列表可用于识别视频480中出现的所有或最突出的女演员,其可包括女演员1910、1912和1914。可返回所识别的女演员作为可能的结果(如果元数据分辨率粗糙,则包括较少或更多的女演员)。然而,在另一实施例中,与视频480相关联的元数据可包括在给定时间内屏幕上出现哪些演员和女演员的识别,并且可从该元数据确定在查询的时间出现的女演员(例如,具体识别的女演员1910、1912和1914)。在又一实施例中,可将面部识别应用程序用于从显示器112上所示的图像中识别女演员1910、1912和1914。在其他实施例中,可将与视频480和各种其他识别方法相关联的各种其他元数据用于识别用户引用“那些”女演员的可能意图。在一些实施例中,显示器112上所示的内容可在提交查询和确定应答的过程中改变。如此,可将媒体内容的观看历史用于确定用户意图并确定对查询的响应。例如,如果视频480在生成对查询的应答之前移动到(例如,具有其他人物的)另一视图,则可基于用户在说出查询时的视图来确定查询的结果(例如,用户发起查询时屏幕上显示的人物)。在一些情况下,用户可暂停播放媒体以发出查询,并且暂停时示出的内容可与相关联的元数据一起用于确定用户意图和对查询的应答。给定确定的用户意图后,则可向用户提供查询的结果。图20示出了包括助理应答2020的示例性助理应答界面2018,该助理应答可包括从图19的转录1916的查询确定的应答。如图所示,助理应答2020可包括视频480中每个女演员的名称及其相关人物的列表(“女演员JenniferJones扮演人物Blanche;女演员ElizabethArnold扮演人物Julia;以及女演员WhitneyDavidson扮演人物Melissa。”)。应答2020中所列出的女演员和人物可对应于出现在显示器112上的人物1910、1912和1914。如上所述,在一些实施例中,显示器112上所示的内容可在提交查询和确定应答的过程中改变。因此,应答2020可包括关于可能不会再出现在显示器112上的内容或人物的信息。如显示在显示器112上的其他界面一样,助理应答界面2018可占据最小量的屏幕实际使用空间,同时提供足够的空间来传达所需信息。在一些实施例中,如在显示器112上的界面中显示的其他文本一样,助理应答2020可从显示器112的底部向上滚动到图20所示的位置,显示一定量的时间(例如,基于应答长度的延迟),然后向上滚动到视图外。在其他实施例中,界面2018可在延迟之后向下滑动到视图之外。图21和图22示出了基于显示器112上所显示的内容来确定用户意图和应答查询的另一实施例。图21示出了包含针对与视频480相关联的媒体内容的虚拟助理查询的示例性语音输入界面484。在一些实施例中,用户查询可包括对与显示器112上所示媒体相关联的媒体内容的请求。例如,用户可基于例如人物、演员、分类等来请求与特定媒体相关联的其他电影、电视节目、体育赛事等。例如,转录2122包括请求与视频480中女演员相关联的其他媒体的查询,其中通过该女演员在视频480中的人物名称来对其进行引用(“Blanche还出演过什么?”)。显示器112上所示内容(连同关于内容的元数据或其他描述性信息)可再次用于从与该内容相关的语音输入确定用户意图,还可用于确定对查询的应答(信息性的或导致媒体选择的应答)。在一些实施例中,针对虚拟助理的用户查询可包括使用人物名称、演员名称、节目名称、选手名称等的模糊引用。若没有显示器112上所示内容及其相关联元数据的上下文,这种引用可难以精确解析。例如,转录2122包括对来自视频480的名为“Blanche”的人物的标引。单从语音输入来看,用户正在询问的具体女演员或其他个体可能并不清楚。然而,在一些实施例中,显示器112上所示的内容和相关联的元数据可用于消除用户请求的歧义并确定用户意图。在例示的实施例中,显示器112上所示的内容和相关联的元数据可用于从人物名称“Blanche”确定用户意图。在这种情况下,与视频480相关联的人物列表可用于确定“Blanche”可能指代视频480中的人物“Blanche”。在另一实施例中,可将详细的元数据和/或面部识别用于确定具有名称“Blanche”的人物出现在屏幕上(或者在用户查询发起时在屏幕上出现过),使得与那个人物相关联的女演员为最可能的用户查询意图。例如,可确定人物1910、1912和1914出现在显示器112上(或者在用户查询发起时在显示器112上出现过),然后可引用其相关联的人物名称来确定标引人物Blanche的查询的用户意图。然后,可使用演员列表来识别扮演Blanche的女演员,并且可进行搜索以识别有所识别女演员出现的其他媒体。给定确定的用户意图(例如,对人物引用“Blanche”的解析)和查询结果确定(例如,与扮演“Blanche”的女演员相关联的其他媒体)后,可向用户提供应答。图22示出了包括助理文本应答2226和可选视频链接2228的示例性助理应答界面2224,其可响应于对图21的转录2122的查询。如图所示,助理文本应答2226可包括引入可选视频链接2228的用户请求的改述。助理文本应答2226还可包括消除用户查询歧义的指示(具体地讲,将女演员JenniferJones识别为扮演视频480中的人物Blanche)。这种改述可向用户确认虚拟助理正确地解译了用户查询并且正在提供期望的结果。助理应答界面2224还可包括可选视频链接2228。在一些实施例中,可将各种类型的媒体内容提供为虚拟助理查询的结果,包括电影(例如,界面2224的电影A和电影B)。作为查询的结果而显示的媒体内容可包括可供用户消费(免费、购买或作为订阅的一部分)的媒体。用户可选择所显示的媒体来观看或消费所得到的内容。例如,用户可(例如,使用遥控器、语音命令等)选择可选视频链接2228中的一个,来观看有演员JenniferJones出现的其他电影中的一个。响应于对可选视频链接2228中的一个的选择,可播放与该选择相关联的视频,从而替换显示器112上的视频480。因此,所显示的媒体内容和相关联的元数据可用于从语音输入确定用户意图,并且在一些实施例中,可提供可播放媒体作为结果。应当理解,用户可在形成查询时引用演员、选手、人物、位置、团队、体育赛事详情、电影主题或者与所显示内容相关联的各种其他信息,并且虚拟助理系统可类似地消除这些请求的歧义并基于所显示内容和相关联元数据确定用户意图。同样地,应当理解,在一些实施例中,结果可包括与查询相关联的媒体建议,诸如与作为查询主题的人相关联的电影、电视节目或体育赛事(无论用户是否特别地请求此类媒体内容)。此外,在一些实施例中,用户查询可包括对与媒体内容本身相关联信息的请求,诸如关于人物、剧集、电影剧情、先前场景等的查询。与上面所讨论的实施例一样,所显示的内容和相关联的元数据可用于从这种查询确定用户意图并确定应答。例如,用户可请求对人物的描述(例如,“Blanche在这部电影中是做什么的?”)。然后,虚拟助理系统可从与所显示内容相关联的元数据识别所请求的关于人物的信息,诸如人物描述或角色(例如,“Blanche是一群律师中的一个,被称为Hartford的麻烦制造者。”)。类似地,用户可请求剧集概要(例如,“在上一集中发生了什么?”),而虚拟助理系统可搜索并提供情节描述。在一些实施例,显示在显示器112上的内容可包括菜单内容,并且此类菜单内容可类似地用于确定语音输入的用户意图和对用户查询的响应。图23A至图23B示出了节目菜单830的示例性页面。图23A示出了媒体选项832的第一页面,并且图23B示出了媒体选项832的第二页面(其可包括延伸超出单个页面的内容列表中连续的下一页)。在一个实施例,对于播放内容的用户请求可包括对显示器112上所示的菜单830中的某些内容的模糊引用。例如,查看菜单830的用户可请求观看“那个”足球比赛、“那个”篮球比赛、真空吸尘器广告、法律节目等。单从语音输入上看,所需的特定节目可能并不清楚。然而,在一些实施例中,显示器112上所示的内容可用于消除用户请求的歧义并确定用户意图。在例示的实施例中,菜单830中的媒体选项(连同一些实施例中与媒体选项相关联的元数据)可用于从包括模糊引用的命令来确定用户意图。例如,可将“那个”足球比赛解析为体育频道的足球比赛。可将“那个”篮球比赛解析为大学体育频道的篮球比赛。可(例如,基于与描述真空吸尘器的节目相关联的元数据)将真空吸尘器广告解析为付费播出的节目。可基于与节目相关联的元数据和/或同义词匹配、模糊匹配或其他匹配技术将法律节目解析为法庭剧。因此显示器112上的菜单830中的各种媒体选项832的出现可用于消除用户请求的歧义。在一些实施例中,可用光标、操纵杆、箭头、按钮、手势等来导航所显示的菜单。在此类情况下,可针对所选择的项目示出焦点。例如,所选择的项目可通过以下方式示出:加粗、加下划线、用边框框出、尺寸大于其他菜单项、带阴影、带反光、带辉光和/或带有任何其他特征以强调哪个菜单项被选择并具有焦点。例如,图23A中所选择的媒体选项2330作为当前所选择的媒体选项可具有焦点,并且以大号、加下划线的字体和边框示出。在一些实施例,对于播放内容或选择菜单项的请求可包括对具有焦点的菜单项的模糊引用。例如,查看图23A的菜单830的用户可请求播放“那个”节目(例如,“播放那个节目。”)。类似地,用户可请求与具有焦点的菜单项相关联的各种其他命令,诸如播放、删除、隐藏、提醒我观看、记录等。单从语音输入上看,所需的特定菜单项或节目可能并不清楚。然而,显示器112上所示的内容可用于消除用户请求的歧义并确定用户意图。具体地讲,所选择的媒体选项2330在菜单830中具有焦点的事实可用于识别引用“那个”节目的命令、没有主题的命令(例如,播放、删除、隐藏等)或引用具有焦点的媒体内容的任何其他模糊命令中任一者的所需媒体主题。因此具有焦点的菜单项可用于从语音输入来确定用户意图。与可用于消除用户请求的歧义的媒体内容的观看历史(例如,在用户发起请求时显示但已经过了这段时间的内容)一样,先前显示的菜单或搜索结果内容可类似地用于在移动到例如稍后的菜单或搜索结果内容之后消除稍后的用户请求的歧义。例如,图23B示出了具有附加媒体选项832的菜单830的第二页面。用户可前进至图23B所示的第二页面,但返回参考图23A所示的第一页面中所示的内容(例如,图23A所示的媒体选项832)。例如,尽管已移动到菜单830的第二页面,但用户可请求观看“那个”足球比赛、“那个”篮球比赛或法律节目—所有这些都是最近在菜单830的前一页面上显示的媒体选项832。此类引用可以是模糊的,但来自菜单830的第一页面的最近显示的菜单内容可用于确定用户意图。具体地讲,可分析图23A的最近显示的媒体选项832,以识别在模糊示例性请求中引用的特定足球比赛、篮球比赛或法庭剧。在一些实施例中,可基于内容是多久显示的来使结果偏倚(例如,对最近查看的结果页面的加权超过较早查看的结果)。这样,显示器112上最近所示的内容的观看历史可用于确定用户意图。应当理解,可使用任何最近显示的内容,诸如先前所显示的搜索结果、先前所显示的节目、先前所显示的菜单等。这可允许用户返回参考他们早先看过的某些内容而无需查找并导航到他们曾看该内容的特定视图。在其他实施例中,显示器112上的菜单或结果列表中示出的各种显示提示可用于消除用户请求的歧义并确定用户意图。图24示出了分成类别的示例性媒体菜单,其中一个类别具有焦点(电影)。图24示出了类别界面2440,该类别界面可包括分类的媒体选项的转盘样式界面,这些分类的媒体选项包括电视选项2442、电影选项2444和音乐选项2446。如图所示,音乐类别仅被部分地显示,并且转盘界面可移位以将附加内容显示到右侧(例如如箭头所指示)就好像在转盘中旋转媒体一样。在例示的实施例中,电影类别具有焦点(如由加下划线的标题和边框所指示),但焦点可按多种其他方式中的任一种指示(例如,使该类别比其他类别更大以显得更靠近用户,添加辉光等)。在一些实施例,对于播放内容或选择菜单项的请求可包括对一组项目(诸如类别)中的菜单项的模糊引用。例如,查看类别界面2440的用户可请求播放足球节目(“播放足球节目。”)。单从语音输入上看,所需的特定菜单项或节目可能并不清楚。此外,查询可解析为显示器112上显示的不止一个节目。例如,对于足球节目的请求可能是指电视节目类别中列出的足球比赛或电影类别中列出的足球电影。显示器112上示出的内容(包括显示提示)可用于消除用户请求的歧义并确定用户意图。具体地讲,电影类别在类别界面2440中具有焦点的事实可用于识别所需的特定足球节目,考虑到该焦点在电影类别上,该节目很可能是足球电影。因此具有如显示器112上所示的焦点的媒体类别(或任何其他媒体分组)可用于从语音输入来确定用户意图。还应当理解,用户可提出与类别相关联的各种其他请求,诸如请求显示特定分类内容(例如为我显示喜剧电影、为我显示恐怖电影等)。在其他实施例中,用户可按多种其他方式引用显示器112上示出的菜单或媒体项,并且可类似地基于所显示的内容来确定用户意图。应当理解,与所显示的内容(例如,电视节目介绍、电影介绍等)相关联的元数据、模糊匹配技术、同义词匹配等还可与所显示的内容结合使用以从语音输入来确定用户意图。因此可适应多种形式的用户请求(包括自然语言请求),并且可根据本文所讨论的各种实施例来确定用户意图。应当理解,显示器112上显示的内容可单独使用或结合用户设备102上或与遥控器106相关联的显示器上显示的内容一起使用以确定用户意图。同样,应当理解,可在通信地耦接到电视机顶盒104的多种设备任一者处接收虚拟助理查询,并且显示器112上显示的内容可用于确定用户意图而不考虑哪个设备接收查询。查询结果同样可显示在显示器112上或另一个显示器上(例如用户设备102上)。另外,在本文所讨论的各种实施例任一者中,虚拟助理系统可导航菜单并选择菜单选项,而无需用户专门打开菜单并导航到菜单项。例如,在选择媒体内容或菜单按钮(诸如选择图24中的电影选项2444)后可能出现选项菜单。菜单选项可包括播放媒体以及仅播放媒体的替代选项,例如设置提醒以便稍后观看媒体,设置媒体的记录,将媒体添加到收藏夹列表,隐藏媒体以免再看到等。当用户正在查看菜单上方的内容或具有子菜单选项的内容时,用户可发出虚拟助理命令,否则就需要导航到菜单或子菜单才能选择。例如,查看图24的类别界面2440的用户可发出与电影选项2444相关联的任何菜单命令而无需手动打开相关联的菜单。例如,用户可能请求将足球电影添加到收藏夹列表,记录晚间新闻,并设置提醒以便观看电影B,而不再需要导航到与这些命令可能可用的那些媒体选项相关联的菜单或子菜单。因此虚拟助理系统可导航菜单和子菜单以便代表用户执行命令,无论这些菜单选项是否出现在显示器112上。这可简化用户请求并减少用户为实现所需菜单功能而必须进行的点击或选择的次数。图25示出了使用显示器上所示的媒体内容和媒体内容的观看历史来控制电视交互的示例性过程2500。在框2502处,可从用户接收语音输入,该语音输入包括与电视显示器上所示的内容相关联的查询。例如,语音输入可包括关于系统100的显示器112上出现的人物、演员、电影、电视节目、体育赛事、选手等(由电视机顶盒104示出)的查询。图19的转录1916例如包括与显示器112上的视频480中所示的女演员相关联的查询。类似地,图21的转录2122包括与显示器112上所示的视频480中的人物相关联的查询。语音输入还可包括与显示器112上出现的菜单或搜索内容相关联的查询,诸如用于选择特定菜单项或获取关于特定搜索结果的信息的查询。例如,所显示的菜单内容可包括图23A和图23B中的菜单830的媒体选项832。所显示的菜单内容同样可包括图24的类别界面2440中出现的电视选项2442、电影选项2444和/或音乐选项2446。再次参考图25的过程2500,在框2504处,可基于所示内容和媒体内容的观看历史来确定查询的用户意图。例如,可基于电视节目、体育赛事、电影等的所显示或最近所显示的场景来确定用户意图。还可基于所显示或最近所显示的菜单或搜索内容来确定用户意图。还可将所显示的内容连同与该内容相关联的元数据一起进行分析以确定用户意图。例如,参考图19、图21、图23A、图23B和图24所示和所述的内容可单独使用或结合与所显示的内容相关联的元数据一起使用以确定用户意图。在框2506处,可基于所确定的用户意图来显示查询结果。例如,可在显示器112上显示与图20的助理响应界面2018中的助理响应2020类似的结果。在另一个实施例中,可提供文本和可选媒体作为结果,诸如图22中所示的助理响应界面2224中的助理文本响应2226和可选视频链接2228。在又一个实施例,显示查询结果可包括显示或播放所选择的媒体内容(例如,经由电视机顶盒104在显示器112上播放所选择的视频)。因此,可使用所显示的内容和相关联的元数据作为上下文,以各种方式从语音输入确定用户意图。在一些实施例中,可向用户提供虚拟助理查询建议,以例如告知用户可用的查询、建议用户可能喜欢的内容、教授用户如何使用系统、鼓励用户查找附加媒体内容以供消费,等等。在一些实施例中,查询建议可包括可能命令的通用建议(例如,查找喜剧,为我显示电视指南,搜索动作电影,打开隐藏式字幕,等等)。在其他实施例中,查询建议可包括与所显示内容相关的目标建议(例如,将该节目添加到观看列表,通过社交媒体分享该节目,为我显示该电影的原声带,为我显示该嘉宾正在出售的书,为我显示那个嘉宾正在推荐的电影的预告片等)、用户偏好(例如,隐藏式字幕使用等)、用户拥有的内容、存储在用户设备上的内容、通知、警报、媒体内容的观看历史(例如,最近显示的菜单项、最近显示的演出场景、演员最近的出场等)等。可在任何设备上显示建议,包括经由电视机顶盒104在显示器112上、在用户设备102上或在与遥控器106相关联的显示器上显示建议。另外,可基于在特定时间哪些设备在附近并/或与电视机顶盒104通信来确定建议(例如,从在特定时间在房间中观看电视的用户的设备建议内容)。在其他实施例中,可基于各种其他上下文信息来确定建议,所述其他上下文信息包括一天中的时间、众包信息(例如,在给定时间观看的流行节目)、直播的节目(例如,直播体育赛事)、媒体内容的观看历史(例如,观看的最后几个节目、最近观看的搜索结果组、最近观看的媒体选项组等)或多种其他上下文信息中的任一个。图26示出了包括基于内容的虚拟助理查询建议2652的示例性建议界面2650。在一个实施例中,可在界面(诸如界面2650)中响应于从请求建议的用户处接收的输入来提供查询建议。可例如从用户设备102或遥控器106接收请求查询建议的输入。在一些实施例中,输入可包括在用户设备102或遥控器106处接收的按钮按压、按钮双击、菜单选择、语音命令(例如,为我显示一些建议,你能为我做什么,有些什么选项等)等。例如,用户可双击遥控器106上的物理按钮来请求查询建议,或者可在查看与电视机顶盒104相关联的界面时双击用户设备102上的物理或虚拟按钮来请求查询建议。建议界面2650可显示在活动图像诸如视频480上,也可显示在任何其他背景内容(例如,菜单、静止图像、暂停的视频等)上。如本文所讨论的其他界面一样,建议界面2650可以动画形式从显示器112的底部向上滑动,并且可在充分传达所需信息的同时占据最小量的空间,以便限制对背景中视频480的干扰。在其他实施例中,当背景内容静止时(例如,暂停的视频、菜单、图像等),可提供更大的建议界面。在一些实施例中,可基于所显示的媒体内容或媒体内容的观看历史(例如,电影、电视节目、体育赛事、最近观看的节目、最近查看的菜单、最近观看的电影场景、正在播放的电视剧的最近场景等)来确定虚拟助理查询建议。例如,图26示出了基于内容的建议2652,其可基于背景中示出的所显示视频480来确定,其中人物1910、1912和1914出现在显示器112上。与所显示内容相关联的元数据(例如,媒体内容的描述性详情)也可用于确定查询建议。元数据可包括与所显示内容相关联的各种信息,包括节目标题、人物列表、演员列表、剧集描述、团队名单、团队排名、节目概要、电影详情、剧情描述、导演名称、制作人名称、演员出场时间、体育比赛、体育比分、体裁、季集列表、相关媒体内容或各种其他相关联信息。例如,与视频480相关联的元数据可包括人物1910、1912和1914的人物名称以及扮演这些人物的女演员。元数据还可包括视频480的剧情描述、前一集或下一集的描述(其中视频480是电视连续剧中的一集)等。图26示出了可基于视频480和与视频480相关联的元数据在建议界面2650中示出的各种基于内容的建议2652。例如,视频480的人物1910可被命名为“Blanche”,并且人物名称可用于制定关于人物Blanche或扮演该人物的女演员的信息的查询建议(例如,“扮演Blanche的女演员是谁?”)。可根据与视频480相关联的元数据(例如,人物列表、演员列表、与演员出场相关联的时间等)识别人物1910。在其他实施例中,面部识别可用于识别在给定时间出现在显示器112上的女演员和/或人物。可提供与媒体本身中的人物相关联的各种其他查询建议,诸如与人物角色、个人资料信息、与其他人物的关系等相关的查询。在另一个实施例中,可(例如,基于元数据和/或面部识别)识别出现在显示器112上的演员或女演员,并且可提供与该演员或女演员相关联的查询建议。这种查询建议可包括所扮演的一个或多个角色、表演奖项、年龄、有其出现的其他媒体、历史、家庭成员、人际关系或者关于演员或女演员的各种其他详情中的任何一个。例如,人物1914可由名为WhitneyDavidson的女演员扮演,并且女演员的名称WhitneyDavidson可用于制定查询建议以识别有女演员WhitneyDavidson出现的其他电影、电视节目或其他媒体(例如,“WhitneyDavidson还出演过什么?”)。在其他实施例中,关于节目的详情可用于制定查询建议。可使用剧集概要、剧情简介、剧集列表、剧集标题、系列标题等制定查询建议。例如,可提供建议以描述在电视节目的上一集中发生的事件(例如,“上一集中发生了什么?”),虚拟助理系统可向其提供前一集的剧集概要作为响应,所述前一集是基于当前显示器112上显示的剧集(及其相关联的元数据)识别的。在另一个实施例中,可提供建议以设置记录下一集,这可通过系统基于显示器112上所示当前播放剧集识别下一集来实现。在又一个实施例中,可提供建议以获取关于出现在显示器112上的当前剧集或节目的信息,并且可使用从元数据获取的节目的标题来制定查询建议(例如,“这集‘TheirShow’的内容是什么?”或“‘TheirShow’的内容是什么?”)。在另一个实施例中,可使用与所显示内容相关联的类别、体裁、评级、奖项、描述等制定查询建议。例如,视频480可对应于被描述为具有女主角的喜剧的电视节目。可根据该信息制定查询建议,以识别具有类似特征的其他节目(例如,“为我查找有女主角的其他喜剧。”)。在其他实施例中,可基于用户订阅、可用于回放的内容(例如,电视机顶盒104上的内容、用户设备102上的内容、可用于流传输的内容等)等来确定建议。例如,可基于信息性或媒体结果是否可用,来筛选可能的查询建议。可排除可能不会得到可播放媒体内容或信息性回答的查询建议,并且/或者可提供具有易得信息性回答或可播放媒体内容的查询建议(或在确定要提供哪些建议时更重地加权)。因此,可以多种方式使用所显示的内容和相关联的元数据来确定查询建议。图27示出了用于确认对所建议查询的选择的示例性选择界面2754。在一些实施例中,用户可通过说出查询、用按钮选择查询、用光标导航到查询等来选择所显示的查询建议。响应于选择,可在确认界面(诸如选择界面2754)中简要地显示所选择的建议。在一个实施例中,所选择的建议2756可以动画形式从其在建议界面2650中出现的任何位置移动到图27所示的命令接收确认490旁边的位置(例如,如箭头所示),并且可从显示器中隐藏其他未选择的建议。图28A至图28B示出了基于所选择的查询的示例性虚拟助理回答界面2862。在一些实施例中,对所选择的查询的信息性回答可显示在回答界面中,例如回答界面2862。在从建议界面2650或选择界面2754切换时,可示出如图28A所示的过渡界面2858。具体地讲,当下一内容从显示器112的底部向上滚动时,界面内先前所显示的内容可向上滚动离开界面。例如,所选择的建议2756可向上滑动或向上滚动,直到其在虚拟助理界面的顶部边缘消失,并且助理结果2860可从显示器112的底部向上滑动或滚动,直到其到达如图28B所示的位置。回答界面2862可包括响应于所选择的查询建议(或响应于任何其他查询)的信息性回答和/或媒体结果。例如,响应于所选择的查询建议2756,可确定和提供助理结果2860。具体地讲,响应于对先前剧集概要的请求,可基于所显示的内容来识别先前剧集,并且可识别相关联的描述或概要并将其提供给用户。在例示的实施例中,助理结果2860可描述与显示器112上的视频480相对应的节目的上一集(例如,“在第203集‘TheirShow’中,Blanche被邀请到大学心理学课堂作嘉宾演讲者。Julia和Melissa突然露面,引起骚动。”)。信息性回答和媒体结果(例如,可选视频链接)也可以本文所讨论的任何其他方式呈现,或者结果可以各种其他方式呈现(例如,大声朗读回答、立即播放内容、显示动画、显示图像等)。在另一个实施例中,可使用通知或警报确定虚拟助理查询建议。图29示出了媒体内容通知2964(但在确定建议时可考虑任何通知)和建议界面2650,该建议界面中既有基于通知的建议2966,又有基于内容的建议2652(其可包括与上面参考图26所讨论的相同的一些概念)。在一些实施例中,可分析通知的内容以识别相关媒体的相关名称、标题、主题、动作等。在例示的实施例中,通知2964包括通知用户关于可用于显示的替代媒体内容的警报——特别是体育赛事正在直播,并且比赛的内容可能是用户感兴趣的(例如,“比赛还剩五分钟,Zeta队和Alpha队打成平局。”)。在一些实施例中,可在显示器112的顶部暂时显示通知。通知可从显示器112的顶部向下滑动(如箭头所示)到图29所示的位置,在显示器112的顶部显示一段时间,然后滑回到显示器112的顶部再次消失。通知或警报可向用户通知各种信息,诸如可用的替代媒体内容(例如,当前可在显示器112上示出的替代选项)、可用的直播电视节目、新下载的媒体内容、最近添加的订阅内容、从朋友处接收的建议、发送自另一设备的媒体的接收等。还可基于家庭或所识别的观看媒体的用户(例如,基于使用帐户选择的用户认证、声音识别、口令等来识别)来将通知个性化。在一个实施例中,系统可中断显示并基于可能期望的内容显示通知,诸如基于用户个人资料信息、喜爱的一个或多个团队、偏好的一种或多种体育运动、观看历史等为可能期望通知内容的用户显示通知2964。例如,可从体育数据馈送、新闻发布、社交媒体讨论等获取体育赛事得分、比赛状态、剩余时间等,并且可用于识别可能的替代媒体内容以通知用户。在其他实施例中,可经由警报或通知来提供(例如,在多名用户中)流行的媒体内容,以建议当前所观看内容的替代选项(例如,通知用户流行的节目或用户喜欢的体裁的节目刚刚开始或者可供观看)。在例示的实施例中,用户可追踪Zeta队和Alpha队中的一者或两者(或者可追踪足球或特定的运动、联盟等)。系统可确定可用的直播内容匹配用户的偏好(例如,另一频道上的比赛匹配用户的偏好,比赛几乎没有剩余时间,并且比分接近)。然后,系统可确定经由通知2964警告用户可能期望的内容。在一些实施例中,用户可(例如,使用遥控按钮、光标、语音请求等)选择通知2964(或通知2964内的链接)来切换到建议的内容。可通过分析通知内容来基于通知确定虚拟助理查询建议,以识别相关媒体的相关术语、名称、标题、主题、动作等。然后,可使用所识别的信息制定适当的虚拟助理查询建议,诸如基于通知2964的基于通知的建议2966。例如,可显示关于令人兴奋的直播体育赛事结尾的通知。然后,如果用户请求查询建议,则可显示建议界面2650,包括观看体育赛事、查询团队统计数据或者查找与通知相关的内容(例如,换到Zeta/Alpha比赛,Zeta队的统计数据如何,另外还有哪些足球比赛在进行,等等)的查询建议。基于在通知中识别的感兴趣的特定术语,同样可确定各种其他查询建议并将其提供给用户。还可从用户设备上的内容确定与媒体内容相关的虚拟助理查询建议(例如,用于经由电视机顶盒104消费),并且还可在用户设备上提供建议。在一些实施例中,可在连接到电视机顶盒104或与该电视机顶盒通信的用户设备上识别可播放设备内容。图30示出了界面1360中具有示例性图片和视频内容的用户设备102。可确定什么内容可用于在用户设备上回放,或者可能期望回放什么内容。例如,可基于活动应用程序(例如,照片和视频应用程序)来识别可播放媒体3068,或者可基于存储的内容来识别该可播放媒体是否显示在界面1360上(例如,在一些实施例中可根据活动应用程序识别内容,或者在其他实施例中在给定时间不显示)。可播放媒体3068可包括例如视频1362、相册1364和照片1366,其中每者可包括可被传输到电视机顶盒104以用于显示或回放的个人用户内容。在其他实施例中,存储或显示在用户设备102上的任何照片、视频、音乐、游戏界面、应用界面或其他媒体内容可被识别并用于确定查询建议。在识别出可播放媒体3068的情况下,可确定虚拟助理查询建议并将其提供给用户。图31示出了用户设备102上的示例性电视助理界面3170,其包含基于可播放用户设备内容并且基于独立显示器(例如,与电视机顶盒104相关联的显示器112)上所示视频内容的虚拟助理查询建议。电视助理界面3170可包括专门用于与媒体内容和/或电视机顶盒104交互的虚拟助理界面。用户可通过例如在查看界面3170时双击物理按钮来请求用户设备102上的查询建议。其他输入可类似地用于指示对查询建议的请求。如图所示,助理问候3172可介绍所提供的查询建议(例如,“这是一些对于控制您电视体验的建议。”)。用户设备102上所提供的虚拟助理查询建议可包括基于各种源设备的建议以及一般建议。例如,基于设备的建议3174可包括基于用户设备102上所存储内容(包括用户设备102上所显示内容)的查询建议。基于内容的建议2652可基于与电视机顶盒104相关联的显示器112上所显示的内容。一般建议3176可包括可不与特定媒体内容或带有媒体内容的特定设备相关联的一般建议。基于设备的建议3174可例如基于用户设备102上所识别的可播放内容(例如,视频、音乐、照片、游戏界面、应用界面等)来确定。在例示的实施例中,可基于图30所示的可播放媒体3068来确定基于设备的建议3174。例如,假定相册1364被识别为可播放媒体3068,则可使用相册1364的详情制定查询。系统可将内容识别为可在幻灯片中显示的多张照片的相册,然后可(在一些情况下)使用相册的标题来制定查询建议,以示出特定相册的幻灯片,(例如,“通过幻灯片放映显示您照片中的‘毕业相册’”。)。在一些实施例中,建议可包括内容来源的指示(例如,“您照片中的”,“Jennifer电话中的”,“Daniel平板电脑中的”等)。该建议还可使用其他详情来引用特定内容,例如查看特定日期以后的照片的建议(例如,显示您从6月21日起的照片)。在另一个实施例中,视频1362可被识别为可播放媒体3068,并且视频的标题(或其他识别信息)可用于制定播放视频的查询建议(例如,显示您视频中的“毕业视频”。)。在其他实施例中,可识别在其他连接的设备上可用的内容并将其用于制定虚拟助理查询建议。例如,可识别来自连接到公共电视机顶盒104的两个用户设备102中每一个的内容并将其用于制定虚拟助理查询建议。在一些实施例中,用户可选择使哪些内容对于系统可见以供共享,并且可从系统中隐藏其他内容,以便不将其包括在查询建议中或以其他方式使其可用于回放。在图31的界面3170中所示的基于内容的建议2652可例如基于在与电视机顶盒104相关联的显示器112上所显示的内容来确定。在一些实施例中,基于内容的建议2652可以与上面参考图26所描述的相同的方式来确定。在例示的实施例中,图31中所示的基于内容的建议2652可基于显示器112上所示的视频480(例如,如图26所示)。这样,可基于在任何数量的连接的设备上显示或可用的内容来导出虚拟助理查询建议。除了目标建议之外,可预先确定和提供一般建议3176(例如,为我显示指南,在进行的体育比赛有哪些,频道三在演什么,等等)。图32示出了具有在与电视机顶盒104相关联的显示器112上示出的基于所连接设备的建议3275和基于内容的建议2652的示例性建议界面2650。在一些实施例中,基于内容的建议2652可以与上文参考图26所述的相同的方式来确定。如上所述,可基于任何数量的所连接设备上的内容来制定虚拟助理查询建议,并且可在任何数量的所连接设备上提供建议。图32示出了可以从用户设备102上的内容导出的基于所连接设备的建议3275。例如,可在用户设备102上识别可播放内容,诸如图30中在界面1360中显示为可播放媒体3068的照片和视频内容。然后,可使用用户设备102上的所识别的可播放内容制定可在与电视机顶盒104相关联的显示器112上显示的建议。在一些实施例中,基于所连接设备的建议3275可以与上面参考图31所述的基于设备的建议3174相同的方式来确定。此外,如上所述,在一些实施例中,建议中可包括识别源信息,诸如在基于所连接设备的建议3275中所示的“Jake电话中的”。因此,可基于来自另一设备的内容(例如,所显示的内容、所存储的内容等)导出在一个设备上提供的虚拟助理查询建议。应当理解,所连接设备可包括电视机顶盒104和/或用户设备102能够访问的远程存储设备(例如,访问存储在云中的媒体内容以制定建议)。应当理解,响应于对建议的请求,可提供来自各种源的虚拟助理查询建议的任何组合。例如,可随机组合来自各种源的建议,或者可基于流行度、用户偏好、选择历史等来呈现。此外,可以各种其他方式确定查询并且基于各种其他因素(诸如查询历史、用户偏好、查询流行度等)来呈现查询。另外,在一些实施例中,可通过在延迟之后将所显示的建议替换为新的替代建议来自动地循环查询建议。还应当理解,用户可通过例如轻击触摸屏、说出查询、使用导航键选择查询、使用按钮选择查询、使用光标选择查询等来选择任何界面上所显示的建议,然后可提供相关联的响应(例如,信息和/或媒体响应)。在各种实施例中的任一个中,还可基于可用内容来筛选虚拟助理查询建议。例如,可取消会得到不可用媒体内容(例如,没有有线电视订阅)或可不具有相关联信息性回答的可能查询建议作为建议的资格并阻止显示。另一方面,可相对于其他可能的建议对会得到用户有权访问的可立即播放的媒体内容的可能查询建议进行加权或以其他方式进行偏置以用于显示。这样,还可使用媒体内容用于用户观看的可用性来确定用于显示的虚拟助理查询建议。另外,在各种实施例中的任一个中,可替代建议或者除建议之外(例如,在建议界面2650中)提供预加载的查询回答。可基于个人使用和/或当前上下文来选择和提供这种预加载的查询回答。例如,观看特定节目的用户可轻击按钮、双击按钮、长按按钮等以接收建议。作为查询建议的替代或补充,可自动提供基于上下文的信息,诸如识别正在播放的歌曲或原声带(例如,“这首歌是PerformancePiece”)、识别当前播放的剧集的演员成员(例如,“女演员JanetQuinn扮演Genevieve”)、识别类似媒体(例如,“节目Q与这个相似”)或提供本文所讨论的其他查询中任何查询的结果。此外,可在各种界面中的任一个中为用户提供对媒体内容进行评级的示能表示(例如,可选择的评级量表),以向虚拟助理告知用户偏好。在其他实施例中,用户可将评级信息作为自然语言命令讲出(例如,“我爱这个”、“我讨厌这个”、“我不喜欢这个节目”等)。在其他实施例中,在本文所示和所述的各种界面中的任一者中,可提供各种其他功能性和信息性元素。例如,界面还可包括到重要功能和位置的链接,诸如搜索链接、购买链接、媒体链接等。又如,界面还可包括基于当前播放内容对下一个要观看的其他内容的推荐(例如,选择类似内容)。再如,界面还可包括基于个性化品味和/或近期活动对下一个要观看的其他内容的推荐(例如,基于用户评级、用户输入的偏好、最近观看的节目等选择内容)。再如,界面还可包括用于用户交互的指令(例如,“按压和保持以与虚拟助理对话”、“单次轻击以获得建议”等)。在一些实施例中,提供预加载的回答、建议等可提供愉快的用户体验,同时使得内容对于各种各样的用户(例如,无论是语言或其他控制障碍的各种技能水平的用户)来说都是易得的。图33示出了建议用于控制媒体内容的虚拟助理交互(例如,虚拟助理查询)的示例性过程3300。在框3302处,可在显示器上显示媒体内容。例如,如图26所示,可经由电视机顶盒104在显示器112上显示视频480,或者可如图30所示在用户设备102的触摸屏246上显示界面1360。在框3304处,可接收来自用户的输入。输入可包括对虚拟助理查询建议的请求。输入可包括按钮按压、按钮双击、菜单选择、对于建议的口头查询等。在框3306处,可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。例如,可基于所显示的节目、菜单、应用程序、媒体内容列表、通知等来确定虚拟助理查询。在一个实施例中,基于内容的建议2652可基于视频480和相关联的元数据来确定,如参考图26所述。在另一实施例中,基于通知的建议2966可基于通知2964来确定,如参考图29所述。在又一实施例中,基于设备的建议3174可基于用户设备102上的可播放媒体3068来确定,如参考图30和图31所述。在其他实施例中,基于所连接设备的建议3275可基于用户设备102上的可播放媒体3068来确定,如参考图32所述。再次参考图33的过程3300,在框3308处,可在显示器上显示虚拟助理查询。例如,可如参考图26、图27、图29、图31和图32所示和所述来显示所确定的查询建议。如上所述,可基于各种其他信息来确定和显示查询建议。此外,可基于来自具有另一显示器的另一设备的内容来导出在一个显示器上提供的虚拟助理查询建议。因此,可向用户提供定向的虚拟助理查询建议,从而帮助用户了解可能的查询和提供所需内容建议以及其他益处。此外,在本文论述的各种示例的任何示例中,各方面可以针对特定用户而被个性化。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令,并促进用户与本文所讨论的各种设备的交互。本文论述的各种过程也可以根据用户偏好、联系人、文本、使用历史、配置文件数据、人口统计信息等通过各种其他方式修改。此外,可以基于用户交互(例如,频繁讲出的命令、频繁选择的应用等)随时间更新此类偏好和设置。可以利用可从各种源获得的用户数据的收集和使用来改进向用户传递他们可能感兴趣的邀请内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还设想个人信息数据有益于用户的其他用途。本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地讲,此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应仅在用户知情同意之后进行。此外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保有权访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的示例。即本公开设想可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。在另一个示例中,用户可选择不提供精确的位置信息,但准许传输位置区域信息。因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还设想各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺乏此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。根据一些实施例,图34示出了电子设备3400的功能框图,所述电子设备根据各种所述实施例的原理配置,以便例如使用虚拟助理控制电视交互并使用不同的界面显示相关联信息。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图34中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图34所示,电子设备3400可包括被配置为显示媒体、界面和其他内容的显示单元3402(例如,显示器112、触摸屏246等)。电子设备3400还可包括输入单元3404,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3400还可包括耦接至显示单元3402和输入单元3404的处理单元3406。在一些实施例中,处理单元3406可包括语音输入接收单元3408、媒体内容确定单元3410、第一用户界面显示单元3412、选择接收单元3414和第二用户界面显示单元3416。处理单元3406可被配置为(例如,经由输入单元3404)接收来自用户的语音输入。处理单元3406可被进一步配置为(例如,使用媒体内容确定单元3410)基于语音输入来确定媒体内容。处理单元3406可被进一步配置为(例如,使用第一用户界面显示单元3412在显示单元3402上)显示具有第一大小的第一用户界面,其中该第一用户界面包括媒体内容的一个或多个可选链接。处理单元3406可被进一步配置为(例如,使用选择接收单元3414从输入单元3404)接收对所述一个或多个可选链接中的一个的选择。处理单元3406可被进一步配置为响应于该选择,(例如,使用第二用户界面显示单元3416在显示单元3402上)显示具有大于所述第一大小的第二大小的第二用户界面,其中该第二用户界面包括与所述选择相关联的媒体内容。在一些实施例中,响应于(例如,选择接收单元3414的)选择,(例如,第一用户界面显示单元3412的)第一用户界面扩展成(例如,第二用户界面显示单元3416的)第二用户界面。在其他实施例中,第一用户界面覆盖在正在显示的内容上。在一个实施例中,第二用户界面覆盖在正在显示的内容上。在另一实施例中,(例如,来自输入单元3404的语音输入接收单元3408的)语音输入包括查询,并且(例如,媒体内容确定单元3410的)媒体内容包括查询的结果。在又一个实施例中,第一用户界面包括除了媒体内容的一个或多个可选链接之外的查询结果的链接。在其他实施例中,查询包括关于天气的查询,并且第一用户界面包括与关于天气的查询相关联的媒体内容的链接。在另一实施例中,查询包括位置,并且与关于天气的查询相关联的媒体内容的链接包括与该位置处的天气相关联的媒体内容的一部分的链接。在一些实施例中,响应于选择,处理单元3406可被配置为播放与该选择相关联的媒体内容。在一个实施例中,媒体内容包括电影。在另一实施例中,媒体内容包括电视节目。在另一实施例中,媒体内容包括体育赛事。在一些实施例中,(例如,第二用户界面显示单元3416的)第二用户界面包括与选择相关联的媒体内容的描述。在其他实施例中,第一用户界面包括购买媒体内容的链接。处理单元3406可被进一步配置为(例如,经由输入单元3404)接收来自用户的附加语音输入,其中该附加语音输入包括与所显示的内容相关联的查询。处理单元3406可被进一步配置为基于与所显示内容相关联的元数据来确定对与所显示内容相关联的查询的响应。处理单元3406可被进一步配置为响应于接收到附加语音输入,(例如,在显示单元3402上)显示第三用户界面,其中该第三用户界面包括所确定的对与所显示内容相关联的查询的响应。处理单元3406可被进一步配置为(例如,经由输入单元3404)接收发起语音输入接收的指示。处理单元3406可被进一步配置为响应于接收到指示,(例如,在显示单元3402上)显示准备就绪确认。处理单元3406可被进一步配置为响应于接收到语音输入,显示监听确认。处理单元3406可被进一步配置为检测语音输入的结束,并且响应于检测到语音输入的结束,显示处理确认。在一些实施例中,处理单元3406可被进一步配置为显示语音输入的转录。在一些实施例中,电子设备3400包括电视。在其他实施例中,电子设备3400包括电视机顶盒。在其他实施例中,电子设备3400包括遥控器。在其他实施例中,电子设备3400包括移动电话。在一个实施例中,(例如,第一用户界面显示单元3412的)第一用户界面中的一个或多个可选链接包括与媒体内容相关联的移动图像。在一些实施例中,与媒体内容相关联的移动图像包括媒体内容的实况馈送。在其他实施例中,第一用户界面中的一个或多个可选链接包括与媒体内容相关联的静止图像。在一些实施例中,处理单元3406可被进一步配置为确定当前所显示的内容是否包括移动图像或者控制菜单;响应于确定当前所显示的内容包括移动图像,选择小尺寸作为(例如,第一用户界面显示单元3412的)第一用户界面的第一大小;以及响应于确定当前所显示的内容包括控制菜单,选择大于所述小尺寸的大尺寸作为(例如,第一用户界面显示单元3412的)第一用户界面的第一大小。在其他实施例中,处理单元3406可被进一步配置为基于用户偏好、节目流行度和直播体育赛事状态中的一者或多者来确定用于显示的替代媒体内容,并且显示包括所确定的替代媒体内容的通知。根据一些实施例,图35示出了电子设备3500的功能框图,所述电子设备根据各种所述实施例的原理配置,以便例如使用虚拟助理和多个用户设备控制电视交互。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图35中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图35所示,电子设备3500可包括被配置为显示媒体、界面和其他内容的显示单元3502(例如,显示器112、触摸屏246等)。电子设备3500还可包括输入单元3504,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3500还可包括耦接至显示单元3502和输入单元3504的处理单元3506。在一些实施例中,处理单元3506可包括语音输入接收单元3508、用户意图确定单元3510、媒体内容确定单元3512和媒体内容播放单元3514。处理单元3506可被配置为在具有第一显示器(例如,在一些实施例中,显示单元3502)的第一设备(例如,设备3500)处(例如,利用语音输入接收单元3508从输入单元3504)接收来自用户的语音输入。处理单元3506可被进一步配置为(例如,使用用户意图确定单元3510)基于第一显示器上所显示的内容来确定语音输入的用户意图。处理单元3506可被进一步配置为(例如,使用媒体内容确定单元3512)基于用户意图来确定媒体内容。处理单元3506可被进一步配置为在与第二显示器(例如,在一些实施例中,显示单元3502)相关联的第二设备上(例如,使用媒体内容播放单元3514)播放媒体内容。在一个实施例中,第一设备包括遥控器。在另一实施例中,第一设备包括移动电话。在另一实施例中,第一设备包括平板电脑。在一些实施例中,第二设备包括电视机顶盒。在其他实施例中,第二显示器包括电视。在一些实施例中,显示在第一显示器上的内容包括应用界面。在一个实施例中,(例如,来自输入单元3504的语音输入接收单元3508的)语音输入包括显示与应用界面相关联的媒体的请求。在一个实施例中,媒体内容包括与应用界面相关联的媒体。在另一实施例中,应用界面包括相册,并且媒体包括相册中的一张或多张照片。在又一实施例中,应用界面包括一个或多个视频的列表,并且媒体包括该一个或多个视频中的一个。在其他实施例中,应用界面包括电视节目列表,并且媒体包括电视节目列表中的电视节目。在一些实施例中,处理单元3506可被进一步配置为确定第一设备是否被授权;其中响应于确定第一设备被授权,在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于语音输入来识别用户,并且基于与所识别的用户相关联的数据(例如,使用用户意图确定单元3510)来确定语音输入的用户意图。处理单元3506可被进一步配置为基于语音输入来确定用户是否被授权;其中响应于确定用户是授权用户,在第二设备上播放媒体内容。在一个实施例中,确定用户是否被授权包括使用声音识别来分析语音输入。在其他实施例中,处理单元3506可被进一步配置为响应于确定用户意图包括对信息的请求,在第一设备的第一显示器上显示与媒体内容相关联的信息。处理单元3506可被进一步配置为响应于确定用户意图包括对播放媒体内容的请求,在第二设备上播放媒体内容。在一些实施例中,语音输入包括在第二设备上播放内容的请求,并且响应于在第二设备上播放内容的请求,在第二设备上播放媒体内容。处理单元3506可被进一步配置为基于媒体格式、用户偏好或默认设置来确定所确定的媒体内容应当显示在第一显示器上还是第二显示器上。在一些实施例中,响应于确定所确定的媒体内容应当显示在第二显示器上,在第二显示器上显示媒体内容。在其他实施例中,响应于确定所确定的媒体内容应当显示在第一显示器上,在第一显示器上显示媒体内容。在其他实施例中,处理单元3506可被进一步配置为确定两个或更多个设备(包括第二设备和第三设备)中每一个的接近度。在一些实施例中,基于相对于第三设备接近度的第二设备接近度,在与第二显示器相关联的第二设备上播放媒体内容。在一些实施例中,确定两个或更多个设备中每一个的接近度包括基于蓝牙LE来确定接近度。在一些实施例中,处理单元3506可被进一步配置为显示包括与第二显示器相关联的第二设备的显示设备列表,并且接收对显示设备列表中的第二设备的选择。在一个实施例中,响应于接收到对第二设备的选择,在第二显示器上显示媒体内容。处理单元3506可被进一步配置为确定耳机是否附接到第一设备。处理单元3506可被进一步配置为响应于确定耳机附接到第一设备,在第一显示器上显示媒体内容。处理单元3506可被进一步配置为响应于确定耳机未附接到第一设备,在第二显示器上显示媒体内容。在其他实施例中,处理单元3506可被进一步配置为基于用户偏好、节目流行度和直播体育赛事状态中的一者或多者来确定用于显示的替代媒体内容,并且显示包括所确定的替代媒体内容的通知。根据一些实施例,图36示出了电子设备3600的功能框图,所述电子设备根据各种所述实施例的原理配置,以便例如使用显示器上所显示的媒体内容和媒体内容的观看历史来控制电视交互。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图36中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图36所示,电子设备3600可包括被配置为显示媒体、界面和其他内容的显示单元3602(例如,显示器112、触摸屏246等)。电子设备3600还可包括输入单元3604,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3600还可包括耦接至显示单元3602和输入单元3604的处理单元3606。在一些实施例中,处理单元3606可包括语音输入接收单元3608、用户意图确定单元3610和查询结果显示单元3612。处理单元3606可被配置为(例如,利用语音输入接收单元3608从输入单元3604)接收来自用户的语音输入,其中该语音输入包括与电视显示器(例如,在一些实施例中,显示单元3602)上所示的内容相关联的查询。处理单元3606可被进一步配置为基于电视显示器上所示的内容和媒体内容观看历史中的一者或多者(例如,使用用户意图确定单元3610)来确定查询的用户意图。处理单元3606可被进一步配置为基于所确定的用户意图(例如,使用查询结果显示单元3612)来显示查询的结果。在一个实施例中,在遥控器处接收语音输入。在另一实施例中,在移动电话处接收语音输入。在一些实施例中,在电视显示器上显示查询的结果。在另一实施例中,在电视显示器上示出的内容包括电影。在又一实施例中,在电视显示器上示出的内容包括电视节目。在又一示例中,在电视显示器上示出的内容包括体育赛事。在一些实施例中,查询包括对关于与电视显示器上所示内容相关联的人的信息的请求,并且查询的(例如,查询结果显示单元3612的)结果包括关于该人的信息。在一个实施例中,查询的结果包括与人相关联的媒体内容。在另一实施例中,媒体内容包括与人相关联的电影、电视节目或体育赛事中的一者或多者。在一些实施例中,查询包括对关于电视显示器上所示内容中人物的信息的请求,并且查询的结果包括关于该人物的信息或关于扮演该人物的演员的信息。在一个实施例中,查询的结果包括与扮演人物的演员相关联的媒体内容。在另一实施例中,媒体内容包括与扮演人物的演员相关联的电影、电视节目或体育赛事中的一者或多者。在一些实施例中,处理单元3606可被进一步配置为基于与电视显示器上所示内容或媒体内容观看历史相关联的元数据来确定查询的结果。在一个实施例中,元数据包括与电视显示器上所示内容或媒体内容观看历史相关联的标题、描述、人物列表、演员列表、选手列表、分类或显示时间表中的一者或多者。在另一实施例中,电视显示器上所示出的内容包括媒体内容的列表,并且查询包括显示列表中的项目之一的请求。在又一实施例中,电视显示器上所示出的内容还包括媒体内容列表中具有焦点的项目,并且(例如,使用用户意图确定单元3610)确定查询的用户意图包括识别具有焦点的项目。在一些实施例中,处理单元3606可被进一步配置为基于最近在电视显示器上显示的菜单或搜索内容(例如,使用用户意图确定单元3610)来确定查询的用户意图。在一个实施例中,电视显示器上所示出的内容包括列出的媒体的页面,并且最近所显示的菜单或搜索内容包括列出的媒体的前一页面。在另一实施例中,电视显示器上所示出的内容包括一个或多个类别的媒体,并且该一个或多个类别的媒体中的一个具有焦点。在一个实施例中,处理单元3606可被进一步配置为基于该一个或多个类别的媒体中具有焦点的一个(例如,使用用户意图确定单元3610)来确定查询的用户意图。在另一实施例中,媒体的类别包括电影、电视节目和音乐。在其他实施例中,处理单元3606可被进一步配置为基于用户偏好、节目流行度和直播体育赛事状态中的一者或多者来确定用于显示的替代媒体内容,并且显示包括所确定的替代媒体内容的通知。根据一些实施例,图37示出了电子设备3700的功能框图,所述电子设备根据各种所述实施例的原理配置,以便例如建议用于控制媒体内容的虚拟助理交互。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域的技术人员应当理解,图37中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图37所示,电子设备3700可包括被配置为显示媒体、界面和其他内容的显示单元3702(例如,显示器112、触摸屏246等)。电子设备3700还可包括输入单元3704,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入等(例如,麦克风、接收器、触摸屏、按钮等)。电子设备3700还可包括耦接至显示单元3702和输入单元3704的处理单元3706。在一些实施例中,处理单元3706可包括媒体内容显示单元3708、输入接收单元3710、查询确定单元3712和查询显示单元3714。处理单元3706可被配置为在显示器(例如,显示单元3702)上(例如,使用媒体内容显示单元3708)显示媒体内容。处理单元3706可被进一步配置为(例如,使用输入接收单元3710从输入单元3704)接收来自用户的输入。处理单元3706可被进一步配置为基于媒体内容和媒体内容观看历史中的一个或多个(例如,使用查询确定单元3712)来确定一个或多个虚拟助理查询。处理单元3706可被进一步配置为在显示器上(例如,使用查询显示单元3714)显示一个或多个虚拟助理查询。在一个实施例中,在遥控器上接收来自用户的输入。在一个实施例中,在移动电话上接收来自用户的输入。在一些实施例中,一个或多个虚拟助理查询覆盖在移动图像上。在另一实施例中,输入包括双击按钮。在一个实施例中,媒体内容包括电影。在另一实施例中,媒体内容包括电视节目。在又一实施例中,媒体内容包括体育赛事。在一些实施例中,一个或多个虚拟助理查询包括关于出现在媒体内容中的人的查询。在其他实施例中,一个或多个虚拟助理查询包括关于出现在媒体内容中的人物的查询。在另一实施例中,一个或多个虚拟助理查询包括对与出现在媒体内容中的人相关联的媒体内容的查询。在一些实施例中,媒体内容或媒体内容观看历史包括电视节目的一个剧集,并且一个或多个虚拟助理查询包括关于该电视节目的另一剧集的查询。在一些实施例中,媒体内容或媒体内容观看历史包括电视节目的一个剧集,并且一个或多个虚拟助理查询包括设置提醒以观看或记录媒体内容的后续剧集的请求。在又一实施例中,一个或多个虚拟助理查询包括对媒体内容的描述性详情的查询。在一个实施例中,描述性详情包括节目标题、人物列表、演员列表、剧集描述、团队名册、团队排名或者节目概要中的一者或多者。在一些实施例中,处理单元3706可被进一步配置为接收对该一个或多个虚拟助理查询中的一个的选择。处理单元3706可被进一步配置为显示该一个或多个虚拟助理查询中所选择的一个的结果。在一个实施例中,确定一个或多个虚拟助理查询包括基于查询历史、用户偏好或查询流行度中的一者或多者来确定一个或多个虚拟助理查询。在另一实施例中,确定一个或多个虚拟助理查询包括基于可供用户观看的媒体内容来确定一个或多个虚拟助理查询。在又一实施例中,确定一个或多个虚拟助理查询包括基于所接收的通知来确定一个或多个虚拟助理查询。在又一实施例中,确定一个或多个虚拟助理查询包括基于活动应用程序来确定一个或多个虚拟助理查询。在其他实施例中,处理单元3706可被进一步配置为基于用户偏好、节目流行度和直播体育赛事状态中的一者或多者来确定用于显示的替代媒体内容,并且显示包括所确定的替代媒体内容的通知。虽然已参考附图完整地描述了实施例,但是需注意,对于本领域技术人员来说,各种变化和修改将是显而易见的(例如,根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念,修改本文所讨论的任一系统或过程)。应当理解,此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。实时数字助理知识更新相关申请的交叉引用本申请要求2014年6月30日提交的名称为“REAL-TIMEDIGITALASSISTANTKNOWLEDGEUPDATES”的美国临时序列号62/019,292的优先权,该申请的全文据此出于所有目的以引用方式并入本文中。本专利申请还涉及以下共同未决的临时专利申请:于2014年6月30日提交的美国专利申请序列号62/019,312,“IntelligentAutomatedAssistantforTVUserInteractions”(代理人案卷号106843065100(P18133USP1)),其全文据此以引用方式并入本文中。
技术领域
:本发明整体涉及电视用户交互的语音控制,更具体地讲,涉及虚拟助理媒体知识的实时更新。
背景技术
:智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如,用户可通过向与电子设备相关联的虚拟助理提供自然语言形式的语音用户输入来访问电子设备的服务。虚拟助理能够对讲出的用户输入执行自然语言处理以推断用户的意图并将用户意图操作化为任务。随后可通过执行电子设备的一项或多项功能来执行这些任务,并且在一些示例中,可将相关输出以自然语言形式返回给用户。虽然移动电话(例如,智能电话)、平板计算机等已从虚拟助理控制中受益,但许多其他用户设备缺乏此类方便的控制机制。例如,与媒体控制设备(例如,电视、电视机顶盒、有线电视盒、游戏设备、流式媒体设备、数字视频记录器等)的用户交互可能是复杂且难以学习的。此外,随着通过此类设备可用的媒体来源(例如,空中传输型电视、收费电视服务、流式视频服务、有线视频点播服务、基于web的视频服务等)的増加,对于一些用户来说,找到要消费的期望媒体内容可能是麻烦的或者甚至是应接不暇的。此外,粗略的时移和提示控制可使用户很难获得所需内容,诸如电视节目中的特定时刻。获取与直播媒体内容相关联的适时信息也会具有一定难度。因此,许多媒体控制设备能够提供的用户体验较差,可能会令许多用户感到失望。
发明内容本发明公开了用于实时更新虚拟助理媒体知识的系统和过程。在一个示例中,可利用与正在播放媒体相关联的适时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于语音输入接收用户请求,并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求,可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。在另一示例中,可将适时信息整合到数字助理知识中,从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求,并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。附图说明图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统。图2示出了根据各种示例的示例性用户设备的框图。图3示出了用于提供媒体回放的语音控制的系统中示例性媒体控制设备的框图。图4示出了根据各种示例的对媒体回放进行语音控制的示例性过程。图5示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性数据馈送。图6示出了基于媒体流中的事件来提示视频回放的示例性虚拟助理查询响应。图7示出了在回放位置之前和之后出现的可用于解译用户查询的示例性事件。图8示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性颁奖典礼数据馈送。图9示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性电视节目数据馈送。图10示出了与视频中的特定时间相关联的示例性隐藏式字幕文本,其可用于响应用户查询。图11A示出了具有可用于解译用户查询的示例性视频内容的电视显示器。图11B示出了具有可用于解译用户查询的示例性图像和文本内容的移动用户设备。图12示出了用于将信息整合到数字助理知识中并响应用户请求的示例性过程。图13示出了根据各种示例的电子设备的功能框图,该电子设备被配置为提供对媒体回放的语音控制和虚拟助理知识的实时更新。图14示出了根据各种示例的电子设备的功能框图,该电子设备被配置为将信息整合到数字助理知识中并响应用户请求。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。本发明涉及用于实时更新虚拟助理媒体知识的系统和过程。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制,并适时地为媒体相关查询提供准确的虚拟助理响应。在一个示例中,虚拟助理可用于与媒体控制设备(诸如,控制电视显示器上所示内容的电视机顶盒)进行交互。可以使用具有麦克风的移动用户设备或遥控器来接收虚拟助理的语音输入。可从该语音输入确定用户意图,并且虚拟助理可根据用户意图执行任务,包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如,使得直播媒体内容回放、使得录制媒体内容回放、管理视频记录、搜索媒体内容、菜单导航等)。在一个示例中,可利用与正在播放的媒体(例如,体育赛事、电视节目等)相关联的适时信息甚至实时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。例如,该数据馈送可指示在电视播放的足球比赛中的某一时刻进球了。又如,该数据馈送可指示节目主持人在电视节目的某个时间进行了独白。可基于语音输入接收用户请求,并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求,可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。在另一个示例中,可将适时或实时信息整合到数字助理知识中,从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求,并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。根据本文所讨论的各种示例,利用适时的媒体信息更新虚拟助理知识可提供有效且令人愉快的用户体验。通过使用能够接收与媒体内容相关联的自然语言查询或命令的虚拟助理,用户可简单直观地与媒体控制设备进行交互。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制,并适时地为媒体相关查询提供准确的虚拟助理响应。另外,可使用与所显示的媒体相关的直观口头命令,从而轻松访问媒体的所需部分或场景。然而,应当理解,根据本文所讨论的各种示例,还可以实现许多其他优点。图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统100。应当理解,如本文所讨论在电视上对媒体回放进行语音控制仅仅是采用某种类型的显示技术来控制媒体的一个示例,并且仅用于参考,本文所讨论的概念通常可用于控制任何媒体内容交互,包括控制各种设备和相关联显示器(例如,监视器、膝上型电脑显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此,术语“电视”可指与各种设备中的任一者相关联的任何类型的显示器。此外,术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可以指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并且基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了遵循所推断的用户意图,系统可执行以下中的一者或多者:标识具有被设计用于实现所推断的用户意图的步骤和参数的任务流;根据所推断的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、API等执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常,用户请求要么寻求虚拟助理系统作出信息性回答,要么寻求虚拟助理系统执行任务(例如,致使显示特定媒体)。针对用户请求的令人满意的响应可以包括提供所请求的信息性回答、执行所请求的任务,或这两者的组合。例如,用户可向虚拟助理提出问题,诸如“我现在在哪里?”基于用户的当前位置,虚拟助理可回答“您在中央公园。”用户还可以请求任务性能,例如“请提醒我在今天下午4点给妈妈打电话”。作为响应,虚拟助理可以确认请求并随后在用户的电子计划表中创建适当的提醒项。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视觉形式或音频形式的响应(例如作为文本、警报、音乐、视频、动画等)。此外,如本文所讨论的,示例性虚拟助理可以控制媒体内容的回放(例如,在电视上播放视频)并致使在显示器上显示信息。虚拟助理的示例在提交于2011年1月10日的名为“IntelligentAutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述,其全部公开内容以引用方式并入本文。如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实现。虚拟助理可以包括在用户设备102上执行的客户端侧部分以及在服务器系统110上执行的服务器侧部分。客户端侧部分也可以与遥控器106一起在电视机顶盒104上执行。用户设备102可以包括任何电子设备,诸如移动电话(例如,智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、腕表、胸针、臂带等)等。电视机顶盒104可以包括任何媒体控制设备,诸如有线电视盒设备、卫星盒、视频播放器、视频流传输设备、数字视频录像机、游戏系统、DVD播放器、蓝光光盘TM播放器、此类设备的组合等。电视机顶盒104可以通过有线连接或无线连接来连接到显示器112和扬声器111。显示器112(具有或没有扬声器111)可以是任何类型的显示器,诸如电视显示器、监视器、投影仪等。在一些示例中,电视机顶盒104可以连接到音频系统(例如,音频接收机),并且扬声器111可以与显示单元112分开。在其他示例中,显示器112、扬声器111和电视机顶盒104可以在单个设备中结合在一起,单个设备诸如是具有高级处理和网络连接能力的智能电视。在此类示例中,可以将电视机顶盒104的功能作为应用在组合设备上执行。在一些示例中,电视机顶盒104可以充当针对媒体内容的多种类型和源的媒体控制中心。例如,电视机顶盒104可以方便用户访问实况电视(例如,空中传输、卫星或有线电视)。这样一来,电视机顶盒104可以包括电缆调谐器、卫星调谐器等。在一些示例中,电视机顶盒104还可以记录用于稍晚时移观看的电视节目。在其他示例中,电视机顶盒104可提供对一个或多个流媒体服务的访问,诸如访问有线递送的点播电视节目、视频和音乐,以及互联网递送的电视节目、视频和音乐(例如,来自各种免费、付费和订阅式流服务)。在其他示例中,电视机顶盒104可方便回放或显示来自任何其他源的媒体内容,诸如显示来自移动用户设备的照片,播放来自耦接的存储设备的视频,播放来自耦接的音乐播放器的音乐等。如果需要,电视机顶盒104还可以包括本文论述的媒体控制特征的各种其他组合。用户设备102和电视机顶盒104可以通过一个或多个网络108与服务器系统110进行通信,该网络可以包括互联网、内部网、或任何其他有线或无线的公共网络或私有网络。此外,用户设备102可以通过网络108或直接通过任何其他有线或无线的通信机构(例如,蓝牙、Wi-Fi、射频、红外传输等)与电视机顶盒104进行通信。如图所示,遥控器106可以使用任何类型的通信(诸如有线连接)或任何类型的无线通信(例如,蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104进行通信,该通信包括通过网络108。在一些示例中,用户可以通过用户设备102、遥控器106、或集成在电视机顶盒104内的接口元件(例如,按钮、麦克风、相机、操纵杆等)与电视机顶盒104交互。例如,可以在用户设备102和/或遥控器106处接收针对虚拟助理的包括媒体相关查询或命令的语音输入,该语音输入可以用于使得在电视机顶盒104上执行媒体相关的任务。同样,可以在用户设备102和/或遥控器106处(以及从未示出的其他设备)接收用于控制电视机顶盒104上的媒体的触觉命令。因此可以通过各种方式控制电视机顶盒104的各种功能,给用户用于从多个设备控制媒体内容的多种选项。利用遥控器106在用户设备102和/或电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可以提供客户端侧功能,诸如面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可以为驻留在相应用户设备102或相应电视机顶盒104上的任意数量的客户端提供服务器侧功能。服务器系统110可以包括一个或多个虚拟助理服务器114,该虚拟助理服务器包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型存储装置120、以及到外部服务的I/O接口116。面向客户端的I/O接口122可促进针对虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可以利用数据与模型存储装置120基于自然语言输入来确定用户的意图,并基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可以通过用于任务完成或信息采集的网络108与外部服务124通信,诸如电话服务、日历服务、信息服务、消息服务、导航服务、电视节目服务、流媒体服务等。至外部服务的I/O接口116可促进此类通信。服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。尽管虚拟助理的功能在图1中被示为包括客户端侧部分和服务器侧部分两者,但在一些示例中,助理的功能(或一般是语音识别和媒体控制)可以被实现为安装在用户设备、电视机顶盒、智能电视等上的单独应用程序。此外,虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可变化。例如,在一些示例中,在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能并将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。图2示出了根据各种示例的示例性用户设备102的框图。如图所示,用户设备102可包括存储器接口202、一个或多个处理器204,以及外围设备接口206。用户设备102中的各种部件可由一条或多条通信总线或信号线耦接在一起。用户设备102还可包括各种传感器、子系统,以及耦接至外围设备接口206的外围设备。传感器、子系统和外围设备可收集信息和/或促进用户设备102的各种功能。例如,用户设备102可包括运动传感器210、光传感器212和接近传感器214,它们耦接到外围设备接口206以促进取向、照明和接近感测功能。一个或多个其他传感器216,诸如定位系统(例如,GPS接收器)、温度传感器、生物识别传感器、陀螺仪、指南针、加速度计等,也可被连接至外围设备接口206,以促进相关功能。在一些示例中,相机子系统220和光学传感器222可用于促进相机功能,诸如拍摄照片和录制视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。可将音频子系统226耦接到扬声器228和麦克风230以促进启用语音的功能,诸如语音识别、语音复制、数字记录和电话功能。在一些示例中,用户设备102还可以包括耦接到外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或其他输入控制器244。触摸屏控制器242可以耦接到触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断,该多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术和表面声波技术;接近传感器阵列;等等。可将其他输入控制器244耦接到其他输入/控制设备248,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,用户设备102还可以包括耦接到存储器250的存储器接口202。存储器250可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器250的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面的处理;传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用模块262可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、导航、成像和/或其他过程和功能。如本文所述,例如,存储器250还可存储客户端侧虚拟助理指令(例如,在虚拟助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供虚拟助理的客户端侧功能。也可以在执行语音识别时使用用户数据266,以支持虚拟助理或用于任何其他应用。在各种示例中,虚拟助理客户端模块264能够通过用户设备102的各种用户界面(例如,I/O子系统240、音频子系统226等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块264还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器通信。在一些示例中,虚拟助理客户端模块264可以利用各种传感器、子系统和外围设备来从用户设备102的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自电视机顶盒104的信息。在一些示例中,虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。上下文信息还可被用户设备102或服务器系统110用来支持准确的语音识别。在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。上下文信息还可以包括与用户设备102的物理状态(例如,设备定向、设备位置、设备温度、功率水平、速度、加速度、运动模式、蜂窝信号强度等)或用户设备102的软件状态(例如,运行过程、安装的程序、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。可以将这些类型的上下文信息的任何信息提供给虚拟助理服务器114(或用在用户设备102自身上)作为与用户输入相关联的上下文信息。在一些示例中,虚拟助理客户端模块264可以响应于来自虚拟助理服务器114的请求而选择性地提供存储在用户设备102上的信息(例如,用户数据266)(或其可以在用户设备102自身上使用以执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将该附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。在各种示例中,存储器250可包括附加的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中实施用户设备102的各种功能。图3示出了用于提供媒体回放的语音控制的系统300中示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中,系统300可以单独执行某些功能并且可与系统100的其他元件一起运行以执行其他功能。例如,系统300的元件可以在不与服务器系统110交互的情况下处理某些媒体控制功能(例如,回放本地存储的媒体、记录功能、频道调谐等),并且系统300可以与服务器系统110和系统100的其他元件一起处理其他媒体控制功能(例如,回放远程存储的媒体、下载媒体内容、处理某些虚拟助理查询等)。在其他示例中,系统300的元件可以执行较大系统100的功能,包括通过网络访问外部服务124的功能。应当理解的是,可能以各种其他方式将功能在本地设备与远程服务器设备之间进行划分。如图3所示,在一个示例中,电视机顶盒104可以包括存储器接口302、一个或多个处理器304、以及外围设备接口306。电视机顶盒104中的各种部件可由一条或多条通信总线或信号线耦接在一起。电视机顶盒104还可包括各种子系统以及耦接至外围设备接口306的外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104的各种功能。例如,电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该有线和/或无线通信子系统可包括各种通信端口、射频接收器与发射器和/或光学(如红外)接收器与发射器。在一些示例中,电视机顶盒104还可以包括耦接到外围设备接口306的I/O子系统340。I/O子系统340可以包括音频/视频输出控制器370。音频/视频输出控制器370可以耦接到显示器112和扬声器111或可以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统340还可以包括远程控制器342。远程控制器342可以通信地耦接到遥控器106(例如,经由有线连接、蓝牙、Wi-Fi等)。遥控器106可包括用于捕获音频输入(例如,来自用户的语音输入)的麦克风372、用于捕获触觉输入的一个或多个按钮374,以及用于促进经由远程控制器342与电视机顶盒104通信的收发器376。遥控器106还可以包括诸如键盘、操纵杆、触摸垫等的其他输入机构。遥控器106还可以包括诸如灯、显示器、扬声器等输出机构。在遥控器106处接收的输入(例如,用户语音、按钮按压等)可以经由远程控制器342传送到电视机顶盒104。I/O子系统340还可以包括其他输入控制器344。可将其他输入控制器344耦接到其他输入/控制设备348,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。在一些示例中,电视机顶盒104还可以包括耦接到存储器350的存储器接口302。存储器350可以包括任何电子、磁、光学、电磁、红外或半导体系统、装置或设备;便携式计算机软盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW的便携式光盘;或诸如紧致闪存卡、安全数字卡、USB存储器设备、存储器条等闪存存储器。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行本文描述的各过程的部分和所有)以供指令执行系统、装置或设备,诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其相关联。在其他示例中,指令(例如,用于执行本文描述的各过程的部分或所有)可被存储在服务器系统110的非暂态计算机可读存储介质上,或者可在存储器350的非暂态计算机可读存储介质与服务器系统110的非暂态计算机可读存储介质之间划分。在本文档的上下文中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备上媒体模块358、设备外媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面的处理;设备上媒体模块358可以有利于存储和回放本地存储在电视机顶盒104上的媒体内容以及本地可用的其他媒体内容(例如,电缆频道调谐)。设备外媒体模块360可以促进远程存储(例如,在远程服务器上,在用户设备102上等)的媒体内容的流传输回放或下载。应用模块362可促进用户应用的各种功能,诸如电子消息传递、网页浏览、媒体处理、游戏和/或其他过程和功能。如本文所述,例如,存储器350还可存储客户端侧虚拟助理指令(例如,在虚拟助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏夹等)以提供虚拟助理的客户端侧功能。也可以在执行语音识别时使用用户数据366,以支持虚拟助理或用于任何其他应用。在各种示例中,虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如,I/O子系统340等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364还能够提供音频(例如,语音输出)、视觉和/或触觉形式的输出。例如,可将输出提供为语音、声音、提示、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器通信。在一些示例中,虚拟助理客户端模块364可以利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。此类上下文还可以包括来自其他设备,诸如来自用户设备102的信息。在一些示例中,虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器,以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将输出递送给用户。可进一步由电视机顶盒104或服务器系统110使用上下文信息以支持精确的语音识别。在一些示例中,伴随用户输入的上下文信息可以包括传感器信息,诸如照明、环境噪音、环境温度、与另一物体的距离等。上下文信息还可以包括与电视机顶盒104的物理状态(例如,设备位置、设备温度、功率水平等)或电视机顶盒104的软件状态(例如,运行过程、安装的应用、过去和当前的网络活动、背景服务、错误日志、资源使用等)相关联的信息。上下文信息还可以包括与所连接设备或与用户相关联的其他设备的状态相关联的信息(例如,用户设备102上显示的内容、用户设备102上的可回放内容等)。可以将这些类型的上下文信息的任何信息提供给虚拟助理服务器114(或用在电视机顶盒104自身上)作为与用户输入相关联的上下文信息。在一些示例中,虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求,选择性地提供存储在电视机顶盒104上的信息(例如,用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。数字助理客户端模块364可将该附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。在各种实施例中,存储器350可包括另外的指令或更少的指令。此外,可在硬件和/或固件中,包括在一个或多个信号处理和/或专用集成电路中,执行电视机顶盒104的各种功能。应当理解,系统100和系统300不限于图1和图3中所示的部件和配置,用户设备102、电视机机顶盒104以及遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种实施例的多种配置中,系统100、系统300、用户设备102、电视机顶盒104和遥控器106全部可包括更少部件,或包括其他部件。通览本公开内容,对“系统”的标引可包括系统100、系统300,或系统100或系统300的一个或多个元件。例如,本文中提到的典型系统可包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。在一些示例中,虚拟助理查询可包括对于被提示跳转到特定时间的特定媒体的请求。例如,用户可能想看到比赛中的特定进程、演出期间的特定表演、电影中的特定场景等。为了处理这种查询,虚拟助理系统可确定与查询相关联的用户意图,识别响应于该查询的相关媒体,并根据用户请求(例如,提示在某人将要进球得分前开始回放比赛)在适当时间提示媒体进行回放。详细媒体信息可被并入虚拟助理知识库以支持各种媒体相关的查询。例如,可将详细媒体信息并入系统100的虚拟助理服务器114的数据和模型120中,以支持特定媒体查询。在一些示例中,也可从系统100的外部服务124获取详细媒体信息。然而,能够处理相关用户请求的响应系统可包括将实时或近实时的媒体数据并入虚拟助理知识中。例如,直播体育赛事可包括用户可能希望看到的各种兴趣点。另外,用户当前正在观看的视频可包括用户可在查询中引用的许多兴趣点。相似地,电视节目可包括用户可能想要提示回放或标识为与朋友共享的流行场景、特别嘉宾出场、广泛讨论的时刻等。各种其他媒体内容同样可包括用户的相关兴趣点(例如,音乐、基于网络的视频剪辑等)。因此,根据本文的各种示例,详细且适时的媒体数据可被并入虚拟助理知识中,以支持与媒体相关联的各种用户请求,甚至包括对内容和媒体相关信息的近实时请求。图4示出了根据各种示例的用于媒体回放的语音控制的示例性过程400,包括并入详细且/或适时的媒体数据。在框402处,可接收包括与媒体流中的时间相关联的事件的数据馈送。可以多种不同形式中的任一种,从各种不同的源接收数据馈送。例如,数据馈送可包括使特定媒体中的事件与时间关联的表、时间与事件在其中相关的数据库、使特定媒体中的事件与时间相关联的文本文件、响应于事件请求提供时间的信息服务器等。数据馈送可来自各种不同的源,诸如,系统100的外部服务124。在一些示例中,数据馈送可由与特定媒体相关联的组织提供,诸如提供详细体育赛事信息的体育联盟、提供详细视频和场景信息的视频提供方、从多个体育数据源提取的体育数据整合器等。在其他示例中,可通过分析媒体内容(诸如,分析演员外表、隐藏式字幕文本、场景变化等)来获取数据馈送。在其他示例中,可从社交媒体获取数据馈送,诸如节目中被普遍讨论的时刻、比赛中被频繁引用的事件等。因此,本文所使用的术语数据馈送可指各种形式的各种数据,包括可从媒体本身挖掘的数据。图5示出了将媒体流512中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送510。应当理解,提供图5是出于说明目的,并且数据馈送510可采用各种其他形式(例如,文本文件、表文件、信息服务器数据、数据库、消息、信息性馈送等)。媒体流512可包括任何类型的可播放媒体,诸如体育赛事、视频、电视节目、音乐等。在图5的实施例中,媒体流512可包括电视播放的冰球比赛。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送510中(例如,可包括在标头等中)。在例示的实施例中,在5:01(UTC)时在第一框中提供描述性概述信息,包括媒体标题(例如,“冰球比赛”)、媒体描述(“A队与B队在IceArena对战”)和媒体源(例如,电视“第7频道”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除图5中所示的信息外,还可获取各种其他媒体信息,诸如比赛队伍中的选手名单、出现在剧集中的演员列表、制作人、导演、艺术家等。各种概要和描述性信息都可并入虚拟助理知识中并用于支持相关查询。如图所示,数据馈送510可包括与媒体流时间514相关的媒体流事件516。可以各种不同的方式指定媒体流时间514,包括使用协调世界时间(缩写为“UTC”)、用户的本地时间、虚拟助理服务器处的时间、媒体服务器处的时间、媒体源处的时间(例如,体育场地)或各种其他时区。在其他实施例中,可提供媒体流时间514作为自媒体内容开始(例如,自电影、剧集、体育赛事、音轨等开始)的进度。在其他实施例中,媒体流时间514可被提供为比赛时钟时间等。在各种实施例中的任一个实施例中,应当理解,媒体流时间514可包括精确的时间指定,诸如秒、毫秒甚至更精细的分级。为了易于参考,本文中媒体流时间514的实施例提供有UTC小时和分钟指定,虽然通常可使用秒,但也可使用毫秒或更精细的分级。媒体流事件516可包括媒体流512中的各种事件或兴趣点。在体育赛事中,例如媒体流事件516可包括比赛、罚分、进球、赛段分段(例如,一周期、四分之一、一半等)、比赛阵容(击球手、冰上选手、四分卫、场上踢球手等)等。在电视节目(例如,情景喜剧、谈话节目等)中,媒体流事件516可包括片头、人物出场、演员出场(例如,屏幕上的时间指定)、节目情节内的事件(例如,特定场景)、嘉宾出场、嘉宾表演、独白、广告插播等。在颁奖典礼(例如,电影奖、戏剧奖等)中,媒体流事件516可包括独白、颁奖仪式、获奖者演讲、艺术家表演、广告插播等。在广播节目中,媒体流事件516可包括开场白、嘉宾演讲者、讨论主题等。因此应当理解,可在多种媒体类型中的任一种当中识别各种事件或兴趣点,并且那些事件可与媒体中的特定时间相关联。在其他实施例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,直播体育赛事)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源中识别数据馈送510中的媒体流事件516。在图5的实施例中,数据馈送510可包括与冰球比赛中的事件相关联的媒体流事件516。例如,第一局比赛开始时的掷球可发生在5:07(UTC),并且数据馈送510可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在5:18(UTC)时,可能判了选手X用杆击打选手Z犯规,罚其停赛两分钟。判罚详情(例如,判罚类型、涉及的选手、判罚时间等)可被包括在与特定媒体流时间514时的判罚相关联的媒体流事件516中。在5:19(UTC)时,A队可能已经开始以多打少,并且可包括媒体流事件516,该媒体流事件可使以多打少的开始与特定媒体流时间514关联起来。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。例如,进球的详情可包括进球选手和助攻选手。集中攻势结束的详情可包括识别失去以多打少状态的球队以及全力回击的球队的信息。屏幕上的选手的详情可包括选手在屏幕上的坐标位置。另外,媒体流事件516可包括比赛的时间段指定,诸如在5:31(UTC)时第一局结束。在其他实施例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送510中,并且/或者从媒体流512本身确定。例如,冰上选手可与媒体流时间514相关联,比分变化可与媒体流时间514相关联,比赛中止可与媒体流时间514相关联,冰上斗殴以及参与斗殴者可与媒体流时间514相关联,等等。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、选手信息、参与者信息(例如,裁判、教练等)、赛段指示符等。这样,数据馈送510便可包括在各个时间514时在媒体流512中发生的各种事件516的详细文本描述。应当理解,要将媒体流事件516和媒体流时间514的知识并入到虚拟助理知识库中,无需接收媒体流512。在一些实施例中,在没有媒体流512的情况下,数据馈送510的信息可由虚拟助理服务器114接收,以将信息并入虚拟助理知识(例如,并入数据和模型120中)。另一个方面,媒体流512可被直接提供给用户设备102、电视机顶盒104或另一用户设备。如下所述,在一些实施例中,媒体事件516的虚拟助理知识可用于提示媒体流512在用户设备上(例如,用户设备102、电视机顶盒104等上)的回放,以及响应于其他虚拟助理查询。在其他实施例中,媒体流512、媒体流512的部分和/或与媒体流512相关联的元数据,可由虚拟助理服务器114接收并被并入虚拟助理的知识库中。再次参考图4中的过程400,在框404处,可接收与媒体流中的事件相关联的口头用户请求。如上所述,可通过各种方式(诸如,经由用户设备102、遥控器106或系统100中的另一用户设备)接收来自用户的语音输入。针对虚拟助理的语音输入可包括各种用户请求,包括与特定媒体内的媒体和/或事件相关联的请求。例如,用户请求可包括对本文所讨论的媒体流事件516中任一个的引用,诸如与图5中所示冰球比赛事件相关联的查询。在一些实施例中,用户请求可包括向特定兴趣点提示媒体的请求。例如,用户可请求观看冰球比赛中的斗殴(例如,“为我显示选手Y和选手Q之间的斗殴”)、跳到一局的开始(例如,“跳到第一局的掷球”)、观看进球(例如,“为我显示选手M的进球”)、观看特定判罚导致的结果(例如,“为我显示对选手X用杆打人的判罚”)等。再次参考图4的过程400,在框406处,可从媒体流中与用户请求中的事件相关联的时间开始回放媒体流。例如,来自数据馈送510的并入到虚拟助理知识库中的知识可用于确定与用户对特定内容的请求相关联的媒体流中的特定时间。图6示出了基于媒体流中响应于查询的事件来提示视频回放的示例性虚拟助理查询响应。在例示的实施例中,用户可正在观看具有由电视机顶盒104控制的内容的显示器112。用户可正在观看视频620,该视频可包括与上述数据馈送510相关联的冰球比赛。如参考过程400的框404所讨论的,接着用户可请求观看与事件相关联的特定媒体内容。例如,用户可请求观看进球(例如,“再次为我显示那个进球”、“为我显示选手M的进球”、“为我显示A队的进球”、“为我显示第一局中的进球”、“为我显示A/B冰球比赛中的第一个进球”、“重放最近一次进球”等)。响应于用户请求,可确定响应于用户的请求的媒体流中(例如,视频620中)的特定时间。在该实施例中,使用来自图5中数据馈送510的被并入虚拟助理知识库中的知识,该系统可识别如图5所示的在5:21(UTC)时A队选手M在选手Q助攻下的进球。然后,系统可使视频620的时间进度移到正确的时间来显示所需内容。在该实施例中,系统可移动视频620的时间进度,在回放指示符622上指示的提示时间624开始回放。如图所示,提示时间624可不同于实况转播时间626(例如,与电视直播或以其他方式实况播出的内容流相关联的时间)。在一些实施例中,提示时间624可对应于与对应的媒体流事件516相关联的媒体流时间514。在其他实施例中,根据媒体流事件516与媒体流时间514的关联方式,可将提示时间624移动至早于或晚于媒体流时间514。例如,提示时间624可比相应的媒体流时间514早三十秒、一分钟、两分钟或另一个量,以使用户在即将进球得分之前看到比赛。在一些实施例中,数据馈送510可包括对于何时开始回放特定事件的精确时间指定(例如,指定冰球选手何时开始为最后一球猛攻、指定何时首次看到犯规行为等)。因此,可响应于用户虚拟助理请求,从提示时间624开始为用户播放视频620。在一些实施例中,视频620可替换显示器112上所示的另一视频,或者可响应于用户请求而被检索以用于回放。例如,观看其他内容的用户可发出请求以观看另一频道上冰球比赛中得分的最近一个进球(例如,“为我显示在频道七上冰球比赛中得分的最近一个进球”、“为我显示A/B冰球比赛的最近一个进球”、“为我显示IceArena比赛中的第一个进球”等)。如上所述,如果用户请求不能被解析到特定媒体,虚拟助理便可根据需要提示更多信息或确认(例如,“您是指第7频道正在播出的A队与B队在IceArena的冰球比赛吗?”)随着请求被解析到特定内容,电视机顶盒104可检索视频620以用于回放,并提示它转到提示时间624。应当理解,视频620可在用户设备102或任何其他设备上播放,并且虚拟助理可类似地(例如,基于特定的用户命令、基于用户正在观看视频620的设备、基于用户请求的来源等)提示用户设备102或另一设备上的视频620转到提示时间624。在一些实施例中,针对虚拟助理的用户请求可包括对由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某些内容的模糊引用。例如,与图6中的显示器112上所示出的视频620相关的请求可包括对屏幕上的选手628或屏幕上的选手630的模糊引用。单从语音输入上看,用户正在询问或引用的具体选手可能并不清楚。在另一实施例中,单从语音输入上看较为模糊的用户请求可包括其他引用。例如,在不知道用户正在观看的特定球队参加的特定比赛的情况下,查看团队名单的请求可能是模糊的;在不知道用户正在观看的特定比赛的情况下,观看下一个进球的请求可能是模糊的;诸如此类。因此,显示器112上所示的内容和(例如,来自数据馈送510或其他的)相关联的元数据可用于消除用户请求的歧义并确定用户意图。例如,屏幕上的演员、屏幕上的选手、参赛者列表、节目中的演员列表、团队名单等可用以解译用户请求。在例示的实施例中,在显示器112上所示的内容和相关联的元数据可用于从对“守门员”、“那个选手”、“八号”、“他”、“M”、昵称的引用或与特定比赛和/或屏幕上的特定选手相关的任何其他引用来确定用户意图。例如,如上所述,数据馈送510可包括对哪些选手在特定时间出现在屏幕上、哪些选手参与特定事件、哪些选手在特定时间在冰场上等的指示。在与图6相关联的时间处,例如,从数据馈送510并入虚拟助理知识库中的知识可指示选手M(例如,屏幕上的选手628)和守门员(例如,屏幕上的选手630)在该特定时间在屏幕上、在那段时间在冰场上、在进行那场比赛或者至少可能在屏幕上或与该特定时间相关。然后,可基于该信息消除引用“守门员”、“那个选手”、“八号”、“他”、“M”或昵称等的请求的歧义。例如,对于观看“守门员的”最近防守的请求(例如,“为我显示守门员的最近防守”)可被解析为该特定守门员对应于屏幕上的选手630(而不是替补队员或另一个队的守门员),并且他的名字或其他识别信息可被用来识别响应于用户查询的内容(例如,当前比赛中该特定守门员的最近防守,先前比赛中该特定守门员的最近防守,等等)。在另一实施例中,基于数据馈送510和相关联的元数据,观看“八号的”下一个进球的请求(例如,“为我显示八号的下一个进球”)可被解析为带有数字八或昵称为八的特定选手(例如,屏幕上的选手628)。然后,可基于对应于“八”的选手的识别信息来识别响应于查询的内容(例如,选手M在该比赛中的下一个进球、选手M在后续比赛中的下一个进球等)。在其他实施例中,可分析在显示器112上或在用户设备102上示出的内容,以便以其他方式解译用户请求。例如,可使用面部识别、图像识别(识别球衣号码)等来识别屏幕上的选手628和630,以解译相关联的用户请求。应当理解,对用户请求的响应可包括信息性响应和/或媒体内容响应,并且响应可显示在任何设备(例如,显示器112、触摸屏246等)上。虽然本文已提供了各种实施例,但应当理解,用户可通过各种不同方式来指示选手(以及演员、人物等),所有这些方式都可根据本文所讨论的实施例来消除歧义。例如,用户可引用名称(例如,名字、姓氏、全名、昵称等)、号码、位置、团队、场上位置(例如,“替补四分卫”)、比赛特定的标识符(例如,先发投手、替补队员、中继投手、救援投手等)、参赛经验(例如,新选手、第一年选手、第二年选手等)、队中头衔(例如,队长、副队长等)、比赛风格(例如,彪悍、快速等)、前团队、大学(例如,“来自Q大学的四分卫”)、统计信息(例如,“上演帽子戏法的选手的作战”、“球队最高得分手的罚球”等)、传记信息(例如,“名人堂成员O的儿子”、“在来自西弗吉尼亚的那个投球手之后下一个击球的选手”等)、外貌(例如,高、矮、肤色、着装等)、赞助商(例如,“五金店汽车的冲撞”),诸如此类。在其他实施例中,针对虚拟助理的用户请求可包括模糊引用,该模糊引用基于由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某些内容的当前回放位置。例如,用户可引用“下一个”进球、“前一个”判罚、“下一个”广告、“最近一个”表演、“下一个”演员出场等。单从语音输入上看,用户意图(例如,特定的所需内容)可能并不清楚。然而,在一些实施例中,媒体流中的当前回放位置可用于消除用户请求的歧义并确定用户意图。例如,指示当前回放位置的媒体流时间可被发送到虚拟助理系统,并由虚拟助理系统用于解译用户请求。图7示出了媒体流512,其中示例性媒体流事件516出现在当前回放位置732之前和之后,该媒体流可用于解译用户查询(例如,以消除用户请求的歧义并确定用户意图)。如图所示,实况转播时间626可晚于当前回放位置732,并且在一些实施例中,媒体流512可包括不再为实况的内容的记录。给定如图所示的当前回放位置732的情况下,可解译对媒体流事件516的各种引用,诸如“下一个”和“前一个”事件。例如,单基于语音输入而言,观看前一个或最近一个进球(例如,“为我显示最近一个进球”)的用户请求可能是模糊的,但是可使用当前回放位置732解译用户请求(例如,解析引用“最近一个”),并将前一个进球734识别为所需的媒体流事件516。又如,单基于语音输入而言,观看下一个判罚(例如,“为我显示下一个判罚”)的用户请求可能是模糊的,但是可使用当前回放位置732解译用户请求(例如,解析引用“下一个”),并将下一个判罚738识别为所需的媒体流事件516。当前回放位置732不但可用于以类似方式解译对前一个判罚736和下一个进球740的请求,还可用于解译各种其他位置引用(例如,接下来两个、最近三个等)。图8示出了将媒体流812中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送810。数据馈送810可包括与如上所述的数据馈送510相似的特征,并且数据馈送810可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处使媒体回放。在图8的实施例中,媒体流812可包括电视播放的颁奖典礼。在其他实施例中,类似的媒体流可包括基于互联网的颁奖典礼、广播节目表演、综艺节目等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送810中(例如,可包括在标头等中)。在例示的实施例中,在10:59(UTC)时在第一框中提供描述性概述信息,包括媒体标题(例如,“电影颁奖典礼”)、媒体描述(“由喜剧演员WhitneyDavidson主持的年度电影颁奖典礼”)和媒体源(例如,在电视“第31频道”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图8中所示的信息之外,还可获取各种其他媒体信息,诸如参与者名称、表演描述、所获奖项等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。如图所示,数据馈送810可包括与媒体流时间514相关的媒体流事件516,这可类似于上文参考图5所讨论的事件516和时间514。数据馈送810中的媒体流事件516可包括媒体流812中的各种事件或兴趣点。例如,在颁奖典礼(例如,电影奖、戏剧奖等)如媒体流812中,媒体流事件516可包括独白、颁奖仪式、获奖者演讲、参与者出场、表演描述、广告插播等。在其他实施例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,颁奖典礼直播)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源中识别数据馈送810中的媒体流事件516。在图8的实施例中,数据馈送810可包括与颁奖典礼中的事件相关联的媒体流事件516。例如,名为WhitneyDavidson的喜剧演员的开场独白可发生在11:00(UTC)时,并且数据馈送810可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在11:08(UTC)时,名为JaneDoe和JohnRichards的演员可向一位名为JenniferLane的获奖设计师颁发了最佳服装设计奖。颁奖仪式详情(例如,奖项名称、颁奖嘉宾、获奖者等)可被包括在与该特定媒体流时间514的颁奖仪式相关联的媒体流事件516中。在11:10(UTC)时,最佳服装设计奖获得者可发表了演讲,并且在该时间处可包括带有相关联详情(例如,奖项类型、获奖者、演讲者等)的媒体流事件516。在11:12(UTC)时,名为DavidHolmes的歌手献上了题为“Unforgettable”的音乐表演,并且在对应时间514处可包括带有相关联详情的媒体流事件516。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。在其他实施例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送810中,并且/或者从媒体流812本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所提供的数据或可通过(例如,使用面部识别等)分析媒体流812得出。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送810便可包括在各个时间514时在媒体流812中发生的各种事件516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如根据上面参考过程400的框406所讨论的用户请求来提示视频。图9示出了将媒体流912中的事件与该媒体流中的特定时间514关联起来的示例性数据馈送910。数据馈送910可包括与如上所述的数据馈送510和数据馈送810相似的特征,并且数据馈送910可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处使媒体回放。在图9的实施例中,媒体流912可包括电视节目,诸如情景喜剧。在其他实施例中,类似的媒体流可包括游戏节目、新闻节目、谈话节目、综艺节目、知识竞赛节目、虚拟现实节目、戏剧、肥皂剧等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联,它们都可包括在数据馈送910中(例如,可包括在标头等中)。在例示的实施例中,在14:00(UTC)时在第一框中提供了描述性概述信息,包括媒体标题(例如,“电视节目”)、媒体描述(有演员JaneHolmes(人物A)和DavidDoe(人物B)出演的情景喜剧)和媒体源(例如,流传输自网络源)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图9中所示的信息之外,还可获取各种其他媒体信息,诸如制片人、导演、主持人、参与者名称、参与者特征、演员、剧情描述、嘉宾等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。如图所示,数据馈送910可包括与媒体流时间514相关的媒体流事件516,这可类似于上文参考图5所讨论的事件516和时间514。数据馈送910中的媒体流事件516可包括媒体流912中的各种事件或兴趣点。例如,在电视节目(例如,电视剧、新闻节目、谈话节目等)如媒体流912中,媒体流事件516可包括表演描述(例如,场景描述、表演者出场等)、节目段指示符(例如,独白、欢送、片头、嘉宾出场、颁奖环节)、广告插播等。在其他实施例中,可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如,可使用与特定媒体(例如,流行情景喜剧的新一集、夜间谈话节目等)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如,可从与其他人共享媒体(诸如,共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此,可从媒体提供方、用户、社交网络讨论和各种其他源中识别数据馈送910中的媒体流事件516。在图9的实施例中,数据馈送810可包括与情景喜剧电视节目中的事件相关联的媒体流事件516。例如,片头部分可出现在14:01(UTC)时,并且数据馈送910可在该事件的特定媒体流时间514处包括相关联的媒体流事件516。在14:03(UTC)时,在节目的剧情中,两个人物可能为争夺停车位而打了一架。情节中场景或时刻的详情(例如,屏幕上的人物、屏幕上的演员、所发生的事情描述等)可包括在与特定媒体流时间514的颁奖仪式相关联的媒体流事件516中。在14:06(UTC)时,嘉宾可出现在节目中并演唱了歌曲,并且在对应时间514处可包括带有相关联详情的媒体流事件516。如图所示,各种其他媒体流事件516同样可被包括并与特定媒体流时间514关联起来。不同事件的详情可各异,并且部分或全部信息可被并入虚拟助理知识中。在其他实施例中,具有附加详细信息的各种其他媒体流事件516可被包括在数据馈送910中,并且/或者从媒体流912本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所提供的数据或可通过(例如,使用面部识别等)分析媒体流912得出。另外,各种其他详情可包括在特定事件中,或者可与媒体流相关联,诸如各种统计信息、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送910便可包括在各个时间514时在媒体流912中发生的各种事件516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如根据上面参考过程400的框406所讨论的用户请求来提示视频。在本文所讨论的各种实施例中的任一实施例中,附加虚拟助理知识可源于与特定媒体内容相关联的隐藏式字幕文本。例如,本文所讨论的任何数据馈送的信息可由隐藏式字幕文本补充或源于隐藏式字幕文本。可基于与媒体回放中的特定时间相关联的隐藏式字幕文本在媒体流时间514处添加附加媒体流事件516(例如,识别何时说出特定短语、识别特定人物何时说话等)。另外,根据本文所讨论的各种实施例(例如,基于说出的名字),可使用隐藏式字幕文本来消除用户请求的歧义并确定用户意图。图10示出了与视频1050中的特定时间相关联的示例性隐藏式字幕文本1054,其可用于响应虚拟助理查询。在例示的实施例中,隐藏式字幕界面1052可包括在显示器112上所示视频1050的当前回放位置1056处的隐藏式字幕文本1054。在当前回放位置1056处,屏幕上可出现人物1060、1062和1064,并且他们当中有些人可在说以隐藏式字幕文本1054示出的文本。在得出用于虚拟助理知识的信息时,可将隐藏式字幕文本1054与当前回放位置1056关联。在一些实施例中,时间偏移1058可被用作参考(例如,隐藏式字幕文本1054的文本可在视频1050中出现两分钟,或者类似地,相当的语音可在视频1050中讲两分钟)。可从隐藏式字幕文本1054得出各种信息,并且其中一些信息可作为特定媒体流事件516与时间偏移1058相关联。例如,说出的名称可用于推断特定时间屏幕上的人物出场。说出的词语“Blanche”可例如用于推断名为“Blanche”的人物可能在视频1050中的时间偏移1058处或附近出现在屏幕上。然后,得出的信息可用于响应与人物名称“Blanche”或从元数据识别的对应女演员相关联的用户请求(例如,“为我显示Blanche出场的一幕”)。又如,可识别说出的短语并将其与说出这些短语的特定时间相关联。说出的短语“背景显赫”可例如被识别为在视频1050中的时间偏移1058处或附近说出。然后,得出的信息可用于响应与说出的短语“背景显赫”相关联的用户请求(例如,“为我显示Blanche说了背景显赫的一幕”)。因此,可分析隐藏式字幕文本并将其与特定时间相关联,并且该组合可被并入虚拟助理知识以响应相关用户请求。应当理解,无论是否在界面(诸如,界面1052)中示出了隐藏式字幕文本1054,都可从该隐藏式字幕文本中得出信息。例如,可在不实际播放对应视频的情况下分析隐藏式字幕文本,并且可从与隐藏式字幕相关联的元数据得出时间。此外,虽然在图10中的显示器112上示出了隐藏式字幕,但应当理解,在实际播放或不实际播放相关联视频的情况下,可对隐藏式字幕进行分析,从而在服务器或另一设备处得出虚拟助理知识。如上所述,从用户处接收的语音输入可能是模糊的。除了可用于解译用户请求的上述信息(例如,屏幕上的选手、屏幕上的演员、回放位置等)之外,各种其他上下文信息也可用于解译用户请求。例如,关于用户的个人信息可用于解译用户请求。可基于语音识别、登录设备、输入口令、使用特定帐户、选择个人资料信息(例如,年龄和性别)等来识别用户。然后可使用所识别的用户(或特定家庭)的用户特定数据来解译用户请求。此类用户特定数据可包括用户喜爱的团队、用户喜爱的运动、用户喜爱的选手、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史、用户的订阅数据等。另外,用户特定数据(或家庭特定数据)可包括媒体内容观看历史,其反映了通常观看的节目、通常观看的体育比赛、偏好的分类等。此外,在一些实施例中,可从用户语音(例如,基于音高、用词等)推断出通用的年龄和性别数据,然后可使用该数据根据个人资料信息来偏置结果(例如,基于年龄和性别资料的可能偏好来偏置字词、表演、名称、查询结果等)。在一些实施例中,用户请求可特别地引用用户特定数据。例如,用户可引用“我的团队”(例如,“我的团队表现如何?”)。然后可使用用户特定数据将引用“我的团队”解析为被指定为用户喜爱的团队的特定运动队。在其他实施例中,用户特定数据可用于偏置语音识别和用户意图确定(例如,基于最近观看的电影推断特定用户可能询问特定演员,其中所述电影中出现了该演员)。例如,可在用户特定数据中识别用户喜欢的、观看的或以其他方式相关联的演员或选手的名称,并在语音识别和意图确定过程中使用这些名称,从而使结果偏向有利于那些演员或选手名称。这可有助于准确地识别唯一名称、听起来像其他字词或其他名称的名称等。除了本文所讨论的用于准确识别语音输入和解译用户请求的各种其他上下文源之外,来自与用户相关联的多个设备的信息可被用作准确语音识别和确定用户意图的上下文。例如,(例如,在显示器112上)观看电视的用户也可在另一设备上(例如,在用户设备102上)消费内容。然后可使用来自两个设备的内容来解译用户请求。图11A示出了显示有视频1150的电视显示器112。图11B示出了带有触摸屏246的用户设备102,该设备示出了显示的图像1170和显示的文本1172。可(例如,经由遥控器106或用户设备102)接收引用来自任一设备的内容的用户请求。例如,用户可请求示出“Jennifer的”最近一个进球。仅来自语音输入的对“Jennifer”的引用可能是模糊的。然而,显示的文本1172可用于消除请求的歧义,并将Jennifer识别为出现在用户设备102上所示内容中的选手。然后可基于特定选手来识别响应于请求的视频内容,并且可为用户播放该内容。显示器112或用户设备102上可(例如,基于特定命令、用户偏好等)提供响应内容。又如,可在语音识别过程中使用与图11A中视频1150相关联的名称以及与图11B中所显示的图像1170和所显示的文本1172相关联的名称,以使结果偏向可能的名称候选项或识别可能难以识别的名称。例如,用户请求可包括可能模糊的名称,但可使用与任一设备上所显示的内容相关联的名称来准确识别用户意图。在其他实施例中,可类似地使用与任一设备上所显示的内容相关联的演员、颁奖嘉宾、表演者、制片人、导演、参与者、处罚、体育术语等的列表,来提高语音识别准确度并确定用户意图。在一些实施例中,图11B中所显示的图像1170可包括活动图像或视频。例如,图11B中所示内容可包括次级屏幕体验数据(例如,旨在伴随另一节目的数据和视频)、次级相机视图数据(例如,针对特定节目的视频,该视频相比于主要显示的视频具有可选视图或有利位置)等。此类信息可用于提高语音识别准确度,并以与上文所述类似的方式确定用户意图。此外,无论是否在独立用户设备上示出,次级屏幕体验数据、次级相机视图数据等都可被接收并作为数据馈送的一部分用来识别媒体流中的相关兴趣点和相关联时间。例如,次级屏幕体验可包括对比赛精彩镜头的说明。那些说明可作为带有相关联媒体流时间的相关媒体流事件包括在虚拟助理知识中,并可用于响应用户请求。类似地,次级相机视图数据可作为识别特定媒体流时间的相关媒体流事件包括在虚拟助理知识中,在该特定媒体流时间内替代相机内容是可用的(这可例如用于响应某些用户请求)。如上所述,响应于某些用户请求,可从特定提示时间开始回放媒体。在一些实施例中,可响应于一些用户请求而连续回放一个或多个媒体流中的多个段。例如,用户可请求观看比赛精彩镜头、比赛中所有的进球、比赛中所有的斗殴、节目中特定演员的所有出场、节目中特定人物的所有场景、多个谈话节目中每一个的开场独白、多个比赛节目中每一个的颁奖环节、一个节目的最佳时刻或一个或多个节目的多种其他媒体片段。通过采用与上述相同的方式,可在一个或多个节目中识别出与所需事件相关联的特定时间,并且可开始回放,其中第一段后面连续跟着其他所识别的段。在一些实施例中,可基于书签流行度、社交媒体讨论、重放计数等来确定精彩镜头、最佳时刻等。可通过各种方式来识别每段的结束,诸如通过广告插播、相关媒体流中的另一媒体事件、默认播放时间、媒体事件详情中的特定端点条目等。这样,用户可请求例如他们想看的特定内容的精彩镜头集锦,并且系统可自动识别所需精彩镜头并连续回放(或以任何其他顺序等提供这些精彩镜头以用于可选的播放)。在一些实施例中,用户可能想要与朋友、家人等共享媒体流中特定段。在一个实施例中,用户可指示媒体流中与媒体流中特定回放位置相对应的书签位置。然后,该定制书签位置可被传送到服务器,并通过社交网络、消息、其他电视机顶盒104、其他用户设备102等与朋友共享。用户可使用物理按钮、虚拟按钮、语音输入或使用遥控器106和/或用户设备102的任何其他条目来指示书签。例如,用户可将请求导向到虚拟助理系统以对某个媒体片段添加书签,并将其发送给用户通讯录中的联系人(例如,对其添加书签并发送给Corey)。然后,系统可识别特定媒体片段(例如,媒体标识符以及UTC参考、偏移等),并将其传输给所需联系人。在一些实施例中,用户既可识别所需段的起始位置,也能识别所需段的结束位置。在其他实施例中,用户可引用并共享特定媒体流事件(例如,与Jordan共享此进球、向Susan发送此表演等)。在其他实施例中,书签和媒体流事件可通过社交网络等来共享。如上所述,响应于媒体相关的虚拟助理查询,系统可提示视频回放和/或用信息性回答进行响应(例如,通过在显示器112或用户设备102上显示文本响应、大声朗读响应等)。在一些实施例中,可通过类似的方式使用如本文所讨论的用于提示视频回放的各种数据馈送和其他信息,以确定对用户请求的信息性响应。图12示出了用于将信息整合到数字助理知识中,并响应用户请求的示例性过程1200。在框1202处,可接收包括与媒体流中的时间相关联的事件的数据馈送。数据馈送可包括本文所讨论的带有对应媒体流事件516任一个的数据馈送中的任一个,诸如参考图5讨论的数据馈送510、参考图8讨论的数据馈送810以及参考图9讨论的数据馈送910。再次参考图12中的过程1200,在框1204处,可接收到与数据馈送中的事件相关联的口头用户请求。用户可请求关于任何媒体流事件、当前播放的媒体、屏幕上的选手、屏幕上的演员等的信息。例如,用户可请求识别得分的选手(例如,“谁进球得了那分?”)、识别鸣哨判罚(例如,“为什么要判罚?”)、识别屏幕上的表演者(“那是谁?”)、识别歌名(例如,“她在唱什么?”)、识别屏幕上节目中的人物(例如,“这些人物叫什么名字?”)、识别节目中的人物(例如,“这个节目中都有谁?”)、剧情描述(例如,“这集的内容是什么?”)、系列描述(例如,“这个系列的内容是什么?”)或与媒体内容相关联的各种其他查询。在框1206处,可基于与事件相关的数据(例如,来自本文所讨论的数据馈送中任一个的数据)生成对用户请求的响应。可例如搜索本文所讨论的媒体流事件516中的任一个来获取对各种查询(例如,诸如上文参考框1204所提到的各种查询实施例)的信息性响应。在一些实施例中,可基于当前播放媒体(例如,正在播放的节目、暂停的节目、屏幕上所示出的节目等)生成响应。例如,单基于语音输入而言,引用当前播放媒体的用户请求可能是模糊的。当前播放的媒体可用于消除用户请求的歧义,并通过解析关于当前内容的引用来确定用户意图。例如,用户可请求“这个”节目的演员列表(例如,“这个节目中都有谁?”),但由于从语音输入来看所提及的节目并不明显,因此该请求可能并不清楚。然而,可使用当前播放的节目解析对“这个”的引用并识别用户意图。例如,如果正在播放图9的电视节目示例,则可使用在14:00(UTC)时列出的概述信息通过识别演员JaneHolmes和DavidDoe来响应用户查询。在其他实施例中,可基于当前播放媒体的当前回放位置和/或先前由用户消费的媒体内容来生成响应。例如,用户可请求识别刚被示出为进球的选手,并且可在请求中引用“那个”进球(例如,“谁进了那个球?”)。可使用当前播放媒体的当前回放位置来确定用户意图,并且不论稍后是否有其他进球出现在媒体流中,都会通过将“那个”进球解析为显示给用户的最近进球来生成响应。在图7的实施例中,当前回放位置732可用于将“那个”进球解析为前一个进球734,并且对应媒体流事件的内容可用于回答查询。具体地讲,选手M可被识别为获得了用户看到的最近的进球得分。如上文参考图7所讨论的,当前回放位置还可用于从各种其他模糊引用(例如,下一个、前一个等)确定用户意图,然后,所识别的媒体流事件信息可用于制定对查询的响应。另外,在一些实施例中,用户可能想要改变他们的观看体验并延迟了解直播或更新的信息。例如,用户可在体育赛事已经开始之后甚至在其已经结束之后开始观看。然而,用户可能想要像现场直播那样体验整个比赛。在这种情况下,可过滤可用的虚拟助理知识,以引用与当前回放位置同时可用的信息,并避免引用来自当前回放位置之后的点的信息。例如,再次参考图7的实施例,假设用户正在当前回放位置732处观看,则系统可避免在响应中包括下一个进球740。用户可请求例如当前回放位置732处的进球(例如,“到目前为止比分为多少?”)。作为响应,系统可基于先前观看的事件(例如,前一个进球734)提供比分,同时排除当前回放位置732之后的事件(例如,下一个进球740)。在一些实施例中,用户请求可(例如,通过说“到目前为止”、“直到现在”、“此刻比赛中”、“迄今为止”等)规定响应信息应当与当前回放位置同步,或者(例如,通过说“直播的”、“更新的”、“当前”等)规定响应信息应当是可用的最新更新的信息。在其他实施例中,设置、用户偏好等可确定响应是包括最新更新的信息还是替代地仅包括与回放位置同步的信息。此外,在一些实施例中,可(例如,基于术语、名称等)与特定比赛相关联的警报、通知、消息、社交媒体馈送条目等可根据需要被阻止发送给用户,并且仅在用户到达对应于各种消息的相关联内容中的回放位置之后递送。例如,来自朋友的评论直播体育赛事的消息(例如,用于在用户设备102或任何其他设备上递送)可被有意延迟,直到用户在延迟观看体育赛事时到达与发送消息的时间相对应的点,消息可在该点被递送给用户。这样,观看体育赛事(或消费任何其他媒体)的整个体验可根据需要进行时移(例如,以避免破坏结果)。在其他实施例中,可基于由电视机顶盒104在显示器112上示出的内容、在用户设备102的触摸屏246上示出的内容和/或与所显示内容中的任何内容相关联的元数据来生成响应。例如,可基于屏幕上的演员、屏幕上的选手、参赛者列表、节目中的演员列表、团队名单等来生成响应。如上文参考图6、图11A和图11B所讨论的那样,可从所显示的内容和相关联的元数据得出各种信息,并且该信息可用于消除用户请求的歧义,确定用户意图,并生成对用户请求的响应。例如,可基于当前回放位置附近的媒体流事件、面部识别、隐藏式字幕文本等来生成对识别屏幕上选手的用户请求(例如,“那位是谁?”)的响应。在图6的实施例中,例如,可使用提示时间624附近的媒体流事件(例如,附近的A队进球)将屏幕上的选手628识别为选手M。在另一实施例中,可使用图像处理来识别屏幕上选手628的球衣号码,以将其从名单中识别为选手M。再次参考图12中的过程1200,在框1208处,可使得在框1206处确定的响应被递送。在一些实施例中,递送该响应可包括使得响应经由电视机顶盒104在显示器112上、在用户设备102上或在另一设备上显示或播放。例如,文本响应和/或媒体响应可在设备上的虚拟助理界面中显示或播放。在另一实施例中,递送响应可包括(例如,从服务器)向电视机顶盒104、用户设备102或另一设备传输响应信息。在其他实施例中,用户可请求识别图像或视频内的信息(例如,“哪一个是Jennifer?”),并且响应可包括基于例如在相关联的媒体流事件中所识别的坐标,显示重叠在图像或视频上的指示符(例如,箭头、点、轮廓等)。因此,过程1200可用于通过采用并入虚拟助理知识库中的适时数据,以多种方式响应各种用户查询。此外,在本文论述的各种示例的任何示例中,各方面可以针对特定用户而被个性化。可以使用包括联系人、偏好、位置、收藏媒体等的用户数据解释语音命令并方便用户与本文论述的各种设备交互。本文论述的各种过程也可以根据用户偏好、联系人、文本、使用历史、配置文件数据、人口统计信息等通过各种其他方式修改。此外,可以基于用户交互(例如,频繁讲出的命令、频繁选择的应用等)随时间更新此类偏好和设置。可以利用可从各种源获得的用户数据的收集和使用来改进向用户传递他们可能感兴趣的邀请内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还设想个人信息数据有益于用户的其他用途。本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地讲,此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应仅在用户知情同意之后进行。此外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保有权访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的示例。即本公开设想可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。在另一个示例中,用户可选择不提供精确的位置信息,但准许传输位置区域信息。因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还设想各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺乏此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。根据一些实施例,图13示出了电子设备1300的功能框图,所述电子设备根据所描述的各种实施例的原理进行配置,以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域技术人员应当理解,图13中所述的功能框可以组合或分离为子框,以实现各种所述实施例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图13所示,电子设备1300可包括被配置为显示媒体、界面和其他内容的显示单元1302(例如,显示器112、触摸屏246等)。电子设备1300还可包括输入单元1304,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1300还可包括耦接至显示单元1302和输入单元1304的处理单元1306。在一些实施例中,处理单元1306可包括数据馈送接收单元1308、用户请求接收单元1310以及媒体回放单元1312。处理单元1306可被配置为(例如,使用数据馈送接收单元1308从输入单元1304)接收数据馈送,其中数据馈送包括与事件相关的数据,该事件与媒体流中的时间相关联。处理单元1306可被进一步配置为基于语音输入(例如,使用用户请求接收单元1310从输入单元1304)接收用户请求,其中所述用户请求与事件相关联。处理单元1306可被进一步配置为响应于接收到用户请求,(例如,使用媒体回放单元1312)使得媒体流在媒体流中与事件相关联的时间处(例如,在显示单元1302上)开始回放。在一些实施例中,处理单元1306可被进一步配置为基于当前播放的媒体来解译用户请求。在其他实施例中,处理单元1306可被进一步配置为基于当前播放媒体的当前回放位置来解译用户请求。在其他实施例中,处理单元1306可被进一步配置为基于屏幕上的演员、屏幕上的选手、参赛者列表、节目中的演员列表、节目中的人物列表或团队名单中的一者或多者来解译用户请求。在一些实施例中,媒体流包括体育赛事,并且与该事件相关的数据包括选手特征(例如,名称、昵称、号码、位置、团队、场上位置、经验、风格、传记信息等)、得分、判罚、统计信息或赛段指示符(例如,四分之一、一局、一半、一圈、警告标志、停车进站、落后、比赛等)中的一者或多者。在其他实施例中,媒体流包括颁奖典礼,并且与该事件相关的数据包括参与者特征(例如,名称、昵称、人物名称、传记信息等)、表演描述或颁奖仪式指示符中的一者或多者。在其他实施例中,媒体流包括电视节目,并且与该事件相关的数据包括表演描述或节目段指示符中的一者或多者。在一个实施例中,(例如,用户请求接收单元1310的)用户请求包括对媒体流中精彩镜头的请求。在一些实施例中,处理单元1306可被进一步配置为响应于接收到请求,使媒体流的多个段连续回放。在其他实施例中,使媒体流回放包括在除电子设备之外的回放设备上使媒体回放。在一些实施例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他实施例中,回放设备包括机顶盒、智能电话、平板电脑或电视。处理单元1306可被进一步配置为基于由电子设备显示的信息来解译用户请求。处理单元1306可被进一步配置为基于由回放设备显示的信息来解译用户请求。在一些实施例中,与事件相关的数据包括隐藏式字幕文本。处理单元1306可被进一步配置为基于隐藏式字幕文本来确定媒体流中与事件相关联的时间。在一个实施例中,与事件相关的数据包括次级屏幕体验数据、次级相机视图数据或社交网络馈送数据中的一者或多者。处理单元1306可被进一步配置为接收来自用户的书签指示,其中该书签对应于媒体流中的特定回放位置。处理单元1306可被进一步配置为接收共享书签的用户请求,并且响应于接收到共享书签的用户请求,使得与特定回放位置相关联的提示信息传输到服务器。处理单元1306可被进一步配置为基于用户喜爱的团队、用户喜爱的运动、用户喜爱的选手、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史或用户的订阅数据中的一者或多者来解译用户请求。根据一些实施例,图14示出了电子设备1300的功能框图,所述电子设备根据各种所述实施例的原理配置,以便例如使信息整合到数字助理知识中并响应用户请求。该设备的功能块可由执行各种所述示例的原理的硬件、软件或硬件和软件的组合来实现。本领域技术人员应当理解,图14中所述的功能框可以组合或分离为子框,以实现各种所述实施例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。如图14所示,电子设备1400可包括被配置为显示媒体、界面和其他内容的显示单元1402(例如,显示器112、触摸屏246等)。电子设备1400还可包括输入单元1404,该输入单元被配置为接收信息,诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1400还可包括耦接至显示单元1402和输入单元1404的处理单元1406。在一些实施例中,处理单元1306可包括数据馈送接收单元1408、用户请求接收单元1410、响应生成单元1412以及响应递送单元1414。处理单元1406可被配置为(例如,使用数据馈送接收单元1408从输入单元1404)接收数据馈送,其中数据馈送包括与事件相关的数据,该事件与媒体流中的时间相关联。处理单元1406可被进一步配置为基于来自用户的语音输入(例如,使用用户请求接收单元1410从输入单元1404)接收用户请求,其中所述用户请求与事件相关联。处理单元1406可被进一步配置为基于与事件相关的数据(例如,使用响应生成单元1412)生成对用户请求的响应。处理单元1408可被进一步配置为(例如,使用响应递送单元1414)使得响应被递送。在一些实施例中,(例如,使用响应生成单元1412)生成响应还包括基于当前播放的媒体生成响应。在其他实施例中,(例如,使用响应生成单元1412)生成响应还包括基于当前播放媒体的当前回放位置生成响应。在其他实施例中,(例如,使用响应生成单元1412)生成响应还包括基于用户先前消费的媒体内容生成响应。在一些实施例中,(例如,使用响应生成单元1412)生成响应还包括基于屏幕上的演员、屏幕上的选手、参赛者列表、节目中的演员列表或团队名单中的一者或多者来生成响应。在一些实施例中,处理单元1406可被进一步配置为响应于用户请求包括对与当前播放媒体的当前回放位置同步的信息的请求,基于与当前回放位置同步的数据来生成响应,其中与当前回放位置同步的数据不包括与当前回放位置之后的时间相关联的数据;并且,响应于用户请求包括对实况信息的请求,基于实况数据生成响应。在一些实施例中,(例如,使用响应递送单元1414)使得响应被递送包括使得响应在除电子设备之外的回放设备上显示或播放。在其他实施例中,(例如,使用响应递送单元1414)使得响应被递送包括使得响应被递送到除电子设备之外的回放设备。在一些实施例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他实施例中,回放设备包括机顶盒、智能电话、平板电脑或电视。在一些实施例中,处理单元1406可被进一步配置为基于由电子设备显示的信息来解译用户请求。在其他实施例中,处理单元1406可被进一步配置为基于由回放设备显示的信息来解译用户请求。虽然已参考附图完整地描述了实施例,但是需注意,对于本领域技术人员来说,各种变化和修改将是显而易见的(例如,根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念,修改本文所讨论的任一系统或过程)。应当理解,此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1