用于媒体探索的智能自动化助理的制作方法

文档序号:18516577发布日期:2019-08-24 09:29阅读:127来源:国知局
这通常涉及智能自动化助理,并且更具体地涉及提供数字助理的基于听觉的界面用于媒体探索。
背景技术
::智能自动化助理(或数字助理)可在人类用户和电子设备之间提供有利界面。此类助理可允许用户使用自然语言以口语形式和/或文本形式与设备或系统进行交互。例如,用户可向正在电子设备上运行的数字助理提供包含用户请求的言语输入。数字助理可从该言语输入解译用户意图并且将用户意图操作化成任务。随后可通过执行电子设备的一个或多个服务来执行这些任务,并且可将响应于用户请求的相关输出返回给用户。在大多数情况下,用户至少部分地依靠常规的图形用户界面来与电子设备进行交互。然而,在一些情况下,数字助理可在具有有限或没有显示能力的电子设备上实现。技术实现要素:本文公开了示例性方法。一种示例方法包括:在具有一个或多个处理器和存储器的电子设备处,接收指示对媒体的请求的第一自然语言语音输入,其中第一自然语言语音输入包括第一搜索参数;由所述数字助理提供第一媒体项目,其中所述第一媒体项目基于所述第一搜索参数来识别;在提供所述第一媒体项目时,接收第二自然语言语音输入;确定所述第二自然语言语音输入是否对应于改进对媒体的请求的用户意图。该方法还包括,根据确定第二自然语言语音输入对应于改进对媒体的请求的用户意图:基于第一参数和第二自然语言语音输入来识别不同于第一媒体项目的第二媒体项目;以及由数字助理提供第二媒体项目。一种示例方法包括:在具有一个或多个处理器和存储器的电子设备处,接收自然语言语音输入;由数字助理基于自然语言语音输入识别任务;由数字助理提供指示与所识别的任务相关联的言语响应的语音输出;并且在提供表示言语响应的语音输出的同时:由数字助理提供对应于言语响应的媒体项目的回放。一种示例方法包括:在具有一个或多个处理器和存储器的电子设备处,接收指示对媒体的请求的语音输入;响应于接收到所述语音输入,由所述数字助理提供指示第一媒体项目的建议的音频输出;由数字助理确定与对媒体的请求相对应的连续的非肯定响应的数量是否满足阈值。该方法还包括,根据连续的非肯定响应的数量不满足阈值的确定:由数字助理提供指示与第一媒体项目不同的第二媒体项目的建议的音频输出。该方法还包括,根据连续的非肯定响应的数量满足阈值的确定:放弃提供指示第二媒体项目的建议的音频输出;以及由数字助理提供指示对用户输入的请求的音频输出。一种示例方法包括:在具有一个或多个处理器和存储器的电子设备处,接收指示对媒体的请求的语音输入;由数字助理检测多个用户对于电子设备的物理存在;响应于检测到所述多个用户的物理存在,获得对应于所述多个用户的多个偏好简档;由数字助理基于多个偏好简档提供合并的偏好简档;由数字助理基于合并的偏好简档来识别媒体项目;以及由数字助理提供包括所识别的媒体项目的音频输出。本文公开了示例性非暂态计算机可读介质。公开了一种存储一个或多个程序的示例性非暂态计算机可读存储介质。该一个或多个程序包括指令,所述指令在由电子设备的一个或多个处理器执行时使电子设备接收指示对媒体的请求的第一自然语言语音输入,其中第一自然语言语音输入包括第一搜索参数;由数字助理提供第一媒体项目,其中基于第一搜索参数识别第一媒体项目;在提供所述第一媒体项目时,接收第二自然语言语音输入;确定第二自然语言语音输入是否对应于改进对媒体的请求的用户意图。所述指令还可使得电子设备根据第二自然语言语音输入对应于改进对媒体的请求的用户意图的确定:基于第一参数和第二自然语言语音输入识别与第一媒体项目不同的第二媒体项目;以及由数字助理提供第二媒体项目。公开了一种存储一个或多个程序的示例性非暂态计算机可读存储介质。所述一个或多个程序包括指令,所述指令在由电子设备的一个或多个处理器执行时使所述电子设备接收自然语言语音输入;由数字助理基于自然语言语音输入识别任务;由数字助理提供指示与所识别的任务相关联的言语响应的语音输出;在提供指示言语响应的语音输出时:由数字助理提供对应于言语响应的媒体项目的回放。公开了一种存储一个或多个程序的示例性非暂态计算机可读存储介质。所述一个或多个程序包括指令,所述指令在由电子设备的一个或多个处理器执行时使所述电子设备接收指示对媒体的请求的语音输入;响应于接收到语音输入,由数字助理提供指示第一媒体项目的建议的音频输出;由数字助理确定与对媒体的请求相对应的多个连续的非肯定响应是否满足阈值。所述指令还可使电子设备根据连续的非肯定响应的数量不满足阈值的确定:由数字助理提供指示不同于第一个媒体项目的第二媒体项目的建议的音频输出。所述指令还可使电子设备根据连续的非肯定响应的数量满足阈值的确定:放弃提供指示第二媒体项目的建议的音频输出;并且由数字助理提供指示对用户输入的请求的音频输出。公开了一种存储一个或多个程序的示例性非暂态计算机可读存储介质。所述一个或多个程序包括指令,所述指令在由电子设备的一个或多个处理器执行时使所述电子设备接收指示对媒体的请求的语音输入;由数字助理检测多个用户对于电子设备的物理存在;响应于检测到所述多个用户的物理存在,获得对应于所述多个用户的多个偏好简档;由所述数字助理基于所述多个偏好简档件来提供合并的偏好简档;由所述数字助理基于所述合并的偏好简档来识别媒体项目;以及由数字助理提供包括所识别的媒体项目的音频输出。本文公开了示例性电子设备。一种示例性电子设备包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于接收指示对媒体的请求的第一自然语言语音输入的指令,其中第一自然语言语音输入包括第一搜索参数;由数字助理提供第一媒体项目,其中基于第一搜索参数来识别第一媒体项目;在提供所述第一媒体项目时,接收第二自然语言语音输入;确定第二自然语言语音输入是否对应于改进对媒体的请求的用户意图。该一个或多个程序还包括用于根据确定第二自然语言语音输入对应于改进对媒体的请求的用户意图:基于第一参数和第二自然语言语音输入识别不同于第一媒体项目的第二媒体项目的指令;以及由数字助理提供第二媒体项目。一种示例性电子设备包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于接收自然语言语音输入的指令;由数字助理基于所述自然语言语音输入识别任务;由数字助理提供指示与所识别的任务相关联的言语响应的语音输出;在提供表示言语响应的语音输出时:由数字助理提供对应于言语响应的媒体项目的回放。一种示例性电子设备包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置成由所述一个或多个处理器执行,所述一个或多个程序包括用于接收指示对媒体的请求的语音输入的指令;响应于接收到语音输入,由数字助理提供指示第一媒体项目的建议的音频输出;由数字助理确定与对媒体的请求相对应的连续的非肯定响应的数量是否满足阈值。所述一个或多个程序还包括用于根据连续的非肯定响应的数量不满足阈值的确定:由数字助理提供指示不同于第一个媒体项目的第二媒体项目的建议的音频输出的指令。所述一个或多个程序还包括用于根据连续的非肯定响应的数量满足所述阈值的确定:放弃提供指示第二媒体项目的建议的音频输出的指令;以及由数字助理提供指示对用户输入的请求的音频输出。一种示例性电子设备包括一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并且被配置成由所述一个或多个处理器执行,所述一个或多个程序包括用于接收指示对媒体的请求的语音输入的指令;由数字助理检测多个用户对于所述电子设备的物理存在;响应于检测到所述多个用户的物理存在,获得对应于所述多个用户的多个偏好简档;由所述数字助理基于所述多个偏好简档来提供合并的偏好简档;由数字助理基于合并的偏好简档来识别媒体项目;以及由数字助理提供包括所识别的媒体项目的音频输出。一种示例电子设备包括:用于接收指示对媒体的请求的第一自然语言语音输入的装置,其中所述第一自然语言语音输入包括第一搜索参数;用于由数字助理提供第一媒体项目的装置,其中所述第一媒体项目基于所述第一搜索参数来识别;用于在提供所述第一媒体项目的同时接收第二自然语言语音输入的装置;用于确定所述第二自然语言语音输入是否对应于改进对媒体的所述请求的用户意图的装置;用于根据确定所述第二自然语言语音输入对应于改进对媒体的所述请求的用户意图:基于所述第一参数和所述第二自然语言语音输入来识别不同于第一媒体项目的第二媒体项目;以及由数字助理提供第二媒体项目的装置。一种示例电子设备包括用于接收自然语言语音输入的装置;用于由数字助理基于自然语言语音输入识别任务的装置;用于由所述数字助理提供指示与所识别的任务相关联的言语响应的语音输出的装置;用于在提供指示言语响应的语音输出的同时:由数字助理提供对应于言语响应的媒体项目的回放的装置。一种示例电子设备包括用于接收指示对媒体的请求的语音输入的装置;用于响应于接收到所述语音输入而由数字助理提供指示第一媒体项目的建议的音频输出的装置;用于由所述数字助理确定与对媒体的所述请求相对应的连续的非肯定响应的数量是否满足阈值的装置;用于根据确定连续的非肯定响应的数量不满足阈值:由数字助理提供指示与第一媒体项目不同的第二媒体项目的建议的音频输出的装置;用于根据确定连续的非肯定响应的数量满足所述阈值:放弃提供指示第二媒体项目的建议的音频输出;以及由数字助理提供指示对用户输入的请求的音频输出的装置。一种示例电子设备包括用于接收指示对媒体的请求的语音输入的装置;用于由数字助理检测多个用户对于所述电子设备的物理存在的装置;用于响应于检测到所述多个用户的物理存在,获得与所述多个用户对应的多个偏好简档的装置;用于由所述数字助理基于所述多个偏好简档提供合并的偏好简档的装置;用于由所述数字助理基于所述合并的偏好简档来识别媒体项目的装置;以及用于由所述数字助理提供包括所识别的媒体项目的音频输出的装置。在提供媒体项目的同时接收自然语言语音输入允许用户容易地操纵媒体搜索以获得期望的内容。数字助理允许用户随时改进媒体请求,而不必停止当前回放或不得不等待数字助理的提示。因此,数字助理为用户提供了对媒体搜索方法的全面和灵活的控制。此外,在提供媒体项目的同时接收自然语言语音输入提供了数字助理和用户之间的自然、直观和类似人的交互,因为数字助理允许用户随时插入对话并操纵对话。提供对媒体搜索方法的灵活和直观的控制增强了设备的可操作性并且使得与数字助理的交互更高效(例如,通过理解用户意图并给予用户完全控制),另外,这通过使用户更快速和更高效地使用设备降低了电力使用并改善了设备的电池寿命。确定自然语言语音输入是否对应于改进媒体请求的用户意图和据此识别媒体项目允许用户利用相对少量的输入快速获得期望的内容。该技术减少了用户输入的数量,因为例如,用户在改进媒体请求时不需要重复提供先前指定的参数。该技术还提供了数字助理和用户之间的自然和直观的交互,例如,因为用户能够接收越来越量身定制的建议,并且通过一系列决定缩小到期望的内容的范围。减少用户输入的数量并提供直观的用户界面增强了设备的可操作性并使用户-设备界面更加高效(例如,通过帮助用户提供适当的输入并减少在操作/与设备交互时的用户错误),此外,通过使用户能够更快速和更高效地使用设备,这减少了电力使用并且延长了设备的电池寿命。提供指示对用户请求的言语响应的语音输出同时还提供相关媒体项目的回放提供数字助理的丰富和直观的听觉界面。媒体项目的回放(例如,相关声音效果、内容的代表性样本)帮助用户快速理解正在呈现的内容并作出更明智的决定,而不会延长音频输出的持续时间。此外,使用户能够做出更明智的决定减少了用户输入的数量。提供丰富且直观的听觉界面增强了设备的可操作性并且使得用户-设备界面更高效(例如,通过帮助用户提供适当的输入并减少在操作/与设备交互时的用户错误),另外,通过使用户能够更快更高效地使用设备,这降低了电力使用并且改善了设备的电池寿命。确定对建议的连续的非肯定响应的数量是否满足阈值,如果不是,则提供另一个建议允许数字助理快速且直观地向用户呈现选项。该技术减少了用户输入的数量,因为用户不需要重复请求新的建议。减少用户输入的数量来获得建议增强了设备的可操作性并且使得用户-设备界面更高效(例如,通过帮助用户提供适当的输入并减少在操作/与设备交互时的用户错误),另外,通过使用户能够更快更高效地使用设备,这降低了电源使用并延长了设备的电池寿命。确定连续的非肯定响应的数量是否满足阈值,并且如果是,则请求用户输入允许数字助理快速识别用户需要的内容。该技术减少了用户输入的数量,因为用户不需要重复拒绝不需要的建议,使数字助理停止提供不希望的建议,和/或开始新的搜索。这种技术还在数字助理和用户之间提供自然且直观的交互,因为数字助理在没有用户命令的情况下适当时自动提示输入信息。减少用户输入的数量并提供自然的用户界面增强了设备的可操作性并使用户-设备界面更高效(例如,通过帮助用户提供适当的输入并减少在操作/与设备交互时的用户错误),此外,通过使用户能够更快速和更高效地使用设备,这减少了电力使用并且改善了设备的电池寿命。检测多个用户的物理存在并基于多个用户的偏好简档提供合并的偏好简档允许快速识别多个用户的期望内容。该技术减少了多个用户识别他们之间的共同偏好的认知负担,并减少了向数字助理指定共同偏好所需的输入数量和/或拒绝不需要的建议。减少用户输入和认知负担的数量增强了设备的可操作性并使得用户-设备界面更高效(例如,通过帮助用户提供适当的输入并减少在操作/与设备交互时的用户错误),另外,通过使用户能够更快更高效地使用设备,这降低了电力使用并延长了设备的电池寿命。附图说明图1为示出了根据各种示例的用于实现数字助理的系统和环境的框图。图2a是示出根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备的框图。图2b为示出了根据各种示例的用于事件处理的示例性部件的框图。图3示出了根据各种示例的实现数字助理的客户端侧部分的便携式多功能设备。图4为根据各种示例的具有显示器和触敏表面的示例性多功能设备的框图。图5a示出了根据各种示例的便携式多功能设备上的应用程序的菜单的示例性用户界面。图5b示出了根据各种示例的具有与显示器分开的触敏表面的多功能设备的示例性用户界面。图6a示出了根据各种示例的个人电子设备。图6b是示出根据各种示例的个人电子设备的框图。图7a为示出了根据各种示例的数字助理系统或其服务器部分的框图。图7b示出了根据各种示例的在图7a中所示的数字助理的功能。图7c示出了根据各种示例的知识本体的一部分。图8a-图8b示出了根据一些实施方案的电子设备的示例性用户界面。图9a-图9b示出了根据一些实施方案的电子设备的示例性用户界面。图10a-图10b示出了根据一些实施方案的电子设备的示例性用户界面。图11示出了根据一些实施方案的电子设备的示例性用户界面。图12示出了根据各种示例的用于提供数字助理的基于听觉的界面的方法。图13示出了根据各种示例的用于提供数字助理的基于听觉的界面的方法。图14示出了根据各种示例的用于提供数字助理的基于听觉的界面的方法。图15示出了根据各种示例的用于提供数字助理的基于听觉的界面的方法。具体实施方式在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各种示例的范围的情况下,可使用其他示例并且可作出结构性变更。如上所述,数字助理可在具有有限显示能力或没有显示能力的电子设备上实现。因此,需要主要提供基于听觉的界面的电子设备(或电子设备上的数字助理)。此外,需要此类基于听觉的界面在数字助理和用户之间提供自然、直观和丰富的交互。此类技术可增强设备的可操作性并且使得与数字助理的交互更高效(例如,通过帮助用户快速获得并理解正在呈现的内容),另外,这通过使用户更快速和更高效地使用设备降低了电力使用并且改善了设备的电池寿命。尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一个元素与另一个元素区分开。例如,在不脱离各种所述示例的范围的情况下,第一输入可被称为第二输入,并且类似地,第二输入可被称为第一输入。第一输入和第二输入均为输入,并且在一些情况下为独立且不同的输入。在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个”和“该”旨在也包括复数形式,除非上下文另外明确地指示。还应当理解,本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是,术语“包括”(“includes”“including”“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。根据上下文,术语“如果”可被解释为意指“当......时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定......”或“如果检测到[所陈述的条件或事件]”可以被解释为意指“在确定......时”或“响应于确定......”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。1.系统和环境图1示出了根据各种示例的系统100的框图。在一些示例中,系统100实现数字助理。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”是指解译口头形式和/或文本形式的自然语言输入来推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了作用于推断出的用户意图,系统执行下述步骤中的一个或多个:识别具有设计用于实现推断出的用户意图的步骤和参数的任务流,根据推断出的用户意图将特定要求输入到任务流中;通过调用程序、方法、服务、api等执行任务流;以及以可听(例如,语音)和/或可视形式来生成对用户的输出响应。具体地讲,数字助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求数字助理作出信息性回答,要么寻求数字助理执行任务。对用户请求的令人满意的响应包括提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如,用户向数字助理提出问题,诸如“我现在在哪里?”。基于用户的当前位置,数字助理回答“你在中央公园西门附近。”用户还请求执行任务,例如“请邀请我的朋友们下周来参加我女朋友的生日聚会。”作为响应,数字助理可通过讲出“好的,马上”来确认请求,并然后代表用户将合适的日历邀请发送至用户的电子地址簿中列出的用户朋友中的每个朋友。在执行所请求的任务期间,数字助理有时在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除提供口头响应并采取经编程的行动之外,数字助理还提供其他视频或音频形式的响应,例如作为文本、警报、音乐、视频、动画等。如图1所示,在一些示例中,数字助理根据客户端-服务器模型来实现。数字助理包括在用户设备104上执行的客户端侧部分102(后文称作“da客户端102”)以及在服务器系统108上执行的服务器侧部分106(后文称作“da服务器106”)。da客户端102通过一个或多个网络110与da服务器106通信。da客户端102提供客户端侧功能,诸如面向用户的输入和输出处理,以及与da服务器106通信。da服务器106为各自位于相应用户设备104上的任意数量的da客户端102提供服务器侧功能。在一些示例中,da服务器106包括面向客户端的i/o接口112、一个或多个处理模块114、数据与模型116,以及到外部服务的i/o接口118。面向客户端的i/o接口112有利于da服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型116来处理言语输入,并基于自然语言输入来确定用户意图。此外,一个或多个处理模块114基于推断出的用户意图来进行任务执行。在一些示例中,da服务器106通过一个或多个网络110与外部服务120通信以完成任务或采集信息。到外部服务的i/o接口118促成此类通信。用户设备104可以是任何合适的电子设备。在一些示例中,用户设备是便携式多功能设备(例如,下面参考图2a描述的设备200)、多功能设备(例如,下面参考图4描述的设备400)或个人电子设备(例如,下面参考图6a至图6b描述的设备600)。便携式多功能设备是例如还包含诸如pda和/或音乐播放器功能的其他功能的移动电话。便携式多功能设备的特定示例包括来自appleinc.(cupertino,california)的ipod和设备。便携式多功能设备的其他示例包括但不限于膝上型电脑或平板电脑。此外,在一些示例中,用户设备104是非便携式多功能设备。具体地讲,用户设备104是台式计算机、游戏机、电视或电视机顶盒。在一些示例中,用户设备104包括触敏表面(例如,触摸屏显示器和/或触控板)。此外,用户设备104任选地包括一个或多个其他物理用户接口设备,诸如物理键盘、鼠标和/或操纵杆。下文更详细地描述了电子设备诸如多功能设备的各种示例。一个或多个通信网络110的示例包括局域网(lan)和广域网(wan),例如互联网。一个或多个通信网络110使用任何已知的网络协议来实现,包括各种有线或无线协议,诸如以太网、通用串行总线(usb)、火线(firewire)、全球移动通信系统(gsm)、增强型数据gsm环境(edge)、码分多址(cdma)、时分多址(tdma)、蓝牙、wi-fi、互联网协议声音(voip)、wi-max或任何其他合适的通信协议。服务器系统108在一个或多个独立式数据处理设备或分布式计算机网络上实现。在一些示例中,服务器系统108还采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。在一些示例中,用户设备104经由第二用户设备122与da服务器106通信。第二用户设备122与用户设备104相似或相同。例如,第二用户设备122类似于下文参考图2a、图4和图6a-图6b描述的设备200、设备400或设备600。用户设备104被配置为经由直接通信连接诸如蓝牙、nfc、btle等或者经由有线或无线网络诸如局域wi-fi网络而通信耦接到第二用户设备122。在一些示例中,第二用户设备122被配置为充当用户设备104与da服务器106之间的代理。例如,用户设备104的da客户端102被配置为经由第二用户设备122向da服务器106传输信息(例如,在用户设备104处接收的用户请求)。da服务器106处理该信息,并经由第二用户设备122将相关数据(例如,响应于用户请求的数据内容)返回到用户设备104。在一些示例中,用户设备104可被配置为将针对数据的缩略请求发送到第二用户设备122,以减少从用户设备104传输的信息量。第二用户设备122被配置为确定添加到缩略请求的补充信息,以生成完整的请求来传输到da服务器106。该系统架构可有利地通过使用具有较强通信能力和/或电池电力的第二用户设备122(例如,移动电话、膝上型计算机、平板电脑等)作为至da服务器106的代理而允许具有有限通信能力和/或有限电池电力的用户设备104(例如,手表或类似的紧凑型电子设备)访问由da服务器106所提供的服务。虽然图1中仅示出两个用户设备104和122,但应当理解,在一些示例中,系统100可包括在此代理配置中被配置为与da服务器系统106通信的任意数量和类型的用户设备。虽然图1中所示的数字助理包括客户端侧部分(例如,da客户端102)和服务器侧部分(例如,da服务器106)两者,但在一些示例中,数字助理的功能被实现为被安装在用户设备上的独立式应用程序。此外,数字助理的客户端部分和服务器部分之间的功能划分在不同的具体实施中可变化。例如,在一些示例中,da客户端为仅提供面向用户的输入和输出处理功能,并将数字助理的所有其他功能委派给后端服务器的瘦客户端。2.电子设备现在将注意力转至用于实现数字助理的客户端侧部分的电子设备的实施方案。图2a是示出了根据一些实施方案具有触敏显示器系统212的便携式多功能设备200的框图。触敏显示器212有时为了方便被叫做“触摸屏”,并且有时被称为或被叫做“触敏显示器系统”。设备200包括存储器202(其任选地包括一个或多个计算机可读存储介质)、存储器控制器222、一个或多个处理单元(cpu)220、外围设备接口218、rf电路208、音频电路210、扬声器211、麦克风213、输入/输出(i/o)子系统206、其他输入控制设备216和外部端口224。设备200任选地包括一个或多个光学传感器264。设备200任选地包括一个或多个接触强度传感器265,该一个或多个接触强度传感器用于检测设备200(例如,触敏表面,诸如设备200的触敏显示器系统212)上的接触的强度。设备200任选地包括用于在设备200上生成触觉输出的一个或多个触觉输出发生器267(例如,在触敏表面诸如设备200的触敏显示器系统212或设备400的触摸板455上生成触觉输出)。这些部件任选地通过一个或多个通信总线或信号线203来进行通信。如在本说明书和权利要求书中所使用的那样,触敏表面上的接触的术语“强度”是指触敏表面上的接触(例如,手指接触)的力或压力(每单位面积的力),或是指触敏表面上的接触的力或压力的替代物(代用物)。接触的强度具有值范围,该值范围包括至少四个不同的值并且更典型地包括上百个不同的值(例如,至少256个)。接触的强度任选地使用各种方法和各种传感器或传感器的组合来确定(或测量)。例如,在触敏表面下方或相邻于触敏表面的一个或多个力传感器任选地用于测量触敏表面上的不同点处的力。在一些具体实施中,来自多个力传感器的力测量被合并(例如,加权平均数),以确定估计的接触力。类似地,触笔的压敏顶端任选地用于确定触笔在触敏表面上的压力。另选地,在触敏表面上检测到的接触面积的尺寸和/或其变化、邻近接触的触敏表面的电容和/或其变化、和/或邻近接触的触敏表面的电阻和/或其变化任选地被用作触敏表面上的接触的力或压力的替代物。在一些具体实施中,接触力或压力的替代测量直接用于确定是否已超过强度阈值(例如,强度阈值以与替代物测量对应的单位来描述)。在一些具体实施中,接触力或压力的替代测量被转换成估计的力或压力,并且估计的力或压力用于确定是否已超过强度阈值(例如,强度阈值为以压力的单位进行测量的压力阈值)。使用接触的强度作为用户输入的属性,从而允许用户访问用户在尺寸更小的设备上可能本来不能访问的附加设备功能,该尺寸更小的设备具有有限的实地面积以用于(例如,在触敏显示器上)显示示能表示和/或接收用户输入(例如,经由触敏显示器、触敏表面或物理控件/机械控件,诸如旋钮或按钮)。如本说明书和权利要求书中所使用的,术语“触觉输出”是指将由用户利用用户的触感检测到的设备相对于设备的先前位置的物理位移、设备的部件(例如,触敏表面)相对于设备的另一个部件(例如,外壳)的物理位移、或部件相对于设备的质心的位移。例如,在设备或设备的部件与用户对触摸敏感的表面(例如,手指、手掌或用户手部的其他部分)接触的情况下,通过物理位移生成的触觉输出将由用户解释为触感,该触感与设备或设备的部件的物理特征的所感知的变化对应。例如,触敏表面(例如,触敏显示器或触控板)任选地由用户解释为对物理致动按钮的“按下点击”或“松开点击”。在一些情况下,用户将感觉到触感,诸如“按下点击”或“松开点击”,即使在通过用户的移动而物理地被按压(例如,被移位)的与触敏表面相关联的物理致动按钮没有移动时。作为另一个示例,即使在触敏表面的光滑度无变化时,触敏表面的移动也会任选地由用户解释为或感测为触敏表面的“粗糙度”。虽然由用户对触摸的此类解释将受到用户的个体化感官知觉的限制,但是有许多触摸的感官知觉是大多数用户共有的。因此,当触觉输出被描述为与用户的特定感官知觉(例如,“松开点击”、“按下点击”、“粗糙度”)对应时,除非另外陈述,否则所生成的触觉输出与设备或其部件的物理位移对应,该物理位移将会生成典型(或普通)用户的所描述的感官知觉。应当理解,设备200仅是便携式多功能设备的一个示例,并且设备200任选地具有比所示出的更多或更少的部件,任选地组合两个或更多个部件,或者任选地具有这些部件的不同配置或布置。图2a中所示的各种部件以硬件、软件或硬件与软件两者的组合来实现,包括一个或多个信号处理电路和/或专用集成电路。存储器202包括一个或多个计算机可读存储介质。这些计算机可读存储介质例如为有形的和非暂态的。存储器202包括高速随机存取存储器,并且还包括非易失性存储器,诸如一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备。存储器控制器222控制设备200的其他部件访问存储器202。在一些示例中,存储器202的非暂态计算机可读存储介质用于存储指令(例如,用于执行下文描述的方法的各方面)以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备取出指令并执行指令的其他系统使用或与其结合使用。在其他示例中,指令(例如,用于执行下文描述的方法的各方面)存储在服务器系统108的非暂态计算机可读存储介质(未示出)上,或在存储器202的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间划分。外围设备接口218用于将该设备的输入和输出外围设备耦接到cpu220和存储器202。一个或多个处理器220运行或执行存储在存储器202中的各个软件程序和/或指令集,以执行设备200的各种功能以及处理数据。在一些实施方案中,外围设备接口218、cpu220和存储器控制器222在单个芯片诸如芯片204上实现。在一些其他实施方案中,它们在独立的芯片上实现。rf(射频)电路208接收和发送也被叫做电磁信号的rf信号。rf电路208将电信号转换为电磁信号/将电磁信号转换为电信号,并且经由电磁信号来与通信网络以及其他通信设备进行通信。rf电路208任选地包括用于执行这些功能的熟知的电路,包括但不限于天线系统、rf收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编解码芯片组、用户身份模块(sim)卡、存储器等等。rf电路208任选地通过无线通信来与网络以及其他设备进行通信,该网络为诸如互联网(也被称为万维网(www))、内联网、和/或无线网络,诸如蜂窝电话网络、无线局域网(lan)和/或城域网(man)。rf电路208任选地包括用于诸如通过近程通信无线电部件来检测近场通信(nfc)场的熟知的电路。无线通信任选地使用多种通信标准、协议和技术中的任一种,包括但不限于全球移动通信系统(gsm)、增强型数据gsm环境(edge)、高速下行链路分组接入(hsdpa)、高速上行链路分组接入(hsupa)、演进、纯数据(ev-do)、hspa、hspa+、双小区hspa(dc-hspda)、长期演进(lte)、近场通信(nfc)、宽带码分多址(w-cdma)、码分多址(cdma)、时分多址(tdma)、蓝牙、蓝牙低功耗(btle)、无线保真(wi-fi)(例如,ieee802.11a、ieee802.11b、ieee802.11g、ieee802.11n和/或ieee802.11ac)、互联网协议声音(voip)、wi-max、电子邮件协议(例如,互联网消息访问协议(imap)和/或邮局协议(pop))、即时消息(例如,可扩展消息处理和存在协议(xmpp)、用于即时消息和存在利用扩展的会话发起协议(simple)、即时消息和存在服务(imps))和/或短消息服务(sms),或者任何其他适当的通信协议,包括在本文档提交日期时尚未开发出的通信协议。音频电路210、扬声器211和麦克风213提供用户和设备200之间的音频接口。音频电路210从外围设备接口218接收音频数据,将音频数据转换为电信号,并将电信号传输到扬声器211。扬声器211将电信号转换为人类可听见的声波。音频电路210还接收由麦克风213从声波转换的电信号。音频电路210将电信号转换为音频数据并将音频数据传输到外围设备接口218,以用于处理。音频数据通过外围设备接口218检索自和/或传输至存储器202和/或rf电路208。在一些实施方案中,音频电路210还包括耳麦插孔(例如,图3中的312)。该耳麦插孔提供音频电路210与可移除的音频输入/输出外围设备之间的接口,该可移除的音频输入/输出外围设备诸如仅输出的耳机或者具有输出(例如,单耳耳机或双耳耳机)和输入(例如,麦克风)两者的耳麦。i/o子系统206将设备200上的输入/输出外围设备诸如触摸屏212和其他输入控制设备216耦接至外围设备接口218。i/o子系统206任选地包括显示控制器256、光学传感器控制器258、强度传感器控制器259、触觉反馈控制器261,以及用于其他输入或控制设备的一个或多个输入控制器260。该一个或多个输入控制器260从其他输入控制设备216接收电信号/将电信号发送到其他输入控制设备216。其他输入控制设备216任选地包括物理按钮(例如,下压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击轮等。在一些另选实施方案中,输入控制器260任选地耦接至以下各项中的任一者(或不耦接至以下各项中的任一者):键盘、红外线端口、usb端口以及指针设备诸如鼠标。该一个或多个按钮(例如,图3中的308)任选地包括用于扬声器211和/或麦克风213的音量控制的增大/减小按钮。该一个或多个按钮任选地包括下压按钮(例如,图3中的306)。快速按下下按按钮脱离触摸屏212的锁定或者开始使用触摸屏上的手势来对设备进行解锁的方法,如在于2005年12月23日提交的标题为“unlockingadevicebyperforminggesturesonanunlockimage”的美国专利申请no.7,657,849中所述的,该美国专利申请据此全文以引用方式并入本文。较长地按下下压按钮(例如,306)使设备200开机或关机。用户能够自定义一个或多个按钮的功能。触摸屏212用于实现虚拟按钮或软按钮以及一个或多个软键盘。触敏显示器212提供设备和用户之间的输入接口和输出接口。显示控制器256从触摸屏212接收电信号和/或将电信号发送至触摸屏212。触摸屏212向用户显示视觉输出。视觉输出包括图形、文本、图标、视频及其任何组合(统称为“图形”)。在一些实施方案中,一些视觉输出或全部视觉输出对应于用户界面对象。触摸屏212具有基于触觉和/或触感接触来接受来自用户的输入的触敏表面、传感器或传感器组。触摸屏212和显示控制器256(与存储器202中的任何相关联的模块和/或指令集一起)检测触摸屏212上的接触(和该接触的任何移动或中断),并且将所检测到的接触转换为与被显示在触摸屏212上的用户界面对象(例如,一个或多个软键、图标、网页或图像)的交互。在示例性实施方案中,触摸屏212和用户之间的接触点与用户的手指对应。触摸屏212使用lcd(液晶显示器)技术、lpd(发光聚合物显示器)技术或led(发光二极管)技术,但在其他实施方案中可使用其他显示技术。触摸屏212和显示控制器256使用目前已知或以后将开发的多种触摸感测技术中的任何技术,以及其他接近传感器阵列或用于确定与触摸屏212接触的一个或多个点的其他元件来检测接触及其任何移动或中断,所述多种触摸感测技术包括但不限于电容式、电阻式、红外和表面声波技术。在一个示例性实施方案中,使用投射式互电容感测技术,诸如在appleinc.(cupertino,california)的和ipod中发现的技术。在一些实施方案中,触摸屏212的触敏显示器类似于下文美国专利:6,323,846(westerman等人)、6,570,557(westerman等人)和/或6,677,932(westerman)和/或美国专利公告2002/0015024a1中所述的多触敏触摸板,这些专利申请均据此全文以引用方式并入本文。然而,触摸屏212显示来自设备200的视觉输出,而触敏触摸板不提供视觉输出。在一些实施方案中,触摸屏212的触敏显示器如以下专利申请所述:(1)提交于2006年5月2日的名称为“multipointtouchsurfacecontroller”的美国专利申请11/381,313;(2)2004年5月6日提交的名称为“multipointtouchscreen”的美国专利申请10/840,862;(3)2004年7月30日提交的名称为“gesturesfortouchsensitiveinputdevices”的美国专利申请10/903,964;(4)2005年1月31日提交的名称为“gesturesfortouchsensitiveinputdevices”的美国专利申请11/048,264;(5)2005年1月18日提交的名称为“mode-basedgraphicaluserinterfacesfortouchsensitiveinputdevices”的美国专利申请11/038,590;(6)2005年9月16日提交的名称为“virtualinputdeviceplacementonatouchscreenuserinterface”的美国专利申请11/228,758;(7)2005年9月16日提交的名称为“operationofacomputerwithatouchscreeninterface”的美国专利申请11/228,700;(8)2005年9月16日提交的名称为“activatingvirtualkeysofatouch-screenvirtualkeyboard”的美国专利申请11/228,737;以及(9)2006年3月3日提交的名称为“multi-functionalhand-helddevice”的美国专利申请11/367,749。所有这些专利申请全文以引用方式并入本文。触摸屏212例如具有超过100dpi的视频分辨率。在一些实施方案中,触摸屏具有约160dpi的视频分辨率。用户使用任何合适的对象或附加物诸如触笔、手指等与触摸屏212进行接触。在一些实施方案中,将用户界面设计用来主要与基于手指的接触和手势一起工作,由于手指在触摸屏上的接触面积较大,因此这可能不如基于触笔的输入那样精确。在一些实施方案中,设备将基于手指的粗略输入翻译为精确的指针/光标位置或命令,以用于执行用户所期望的动作。在一些实施方案中,除了触摸屏之外,设备200还包括用于激活或去激活特定功能的触控板(未示出)。在一些实施方案中,该触摸板为设备的触敏区域,该触敏区域与触摸屏不同,其不显示视觉输出。触控板是与触摸屏212分开的触敏表面,或者是由触摸屏形成的触敏表面的延伸。设备200还包括用于为各种部件供电的电力系统262。电力系统262包括电力管理系统、一个或多个电源(例如,电池、交流电(ac))、再充电系统、电力故障检测电路、功率转换器或逆变器、电力状态指示器(例如,发光二极管(led))和与便携式设备中电力的生成、管理和分配相关联的任何其他部件。设备200还包括一个或多个光学传感器264。图2a示出了耦接至i/o子系统206中的光学传感器控制器258的光学传感器。光学传感器264包括电荷耦合器件(ccd)或互补金属氧化物半导体(cmos)光电晶体管。光学传感器264从环境接收通过一个或多个透镜而投射的光,并且将光转换为表示图像的数据。结合成像模块243(也叫做相机模块),光学传感器264捕获静态图像或视频。在一些实施方案中,光学传感器位于设备200的后部,与设备前部的触摸屏显示器212相背对,使得触摸屏显示器被用作用于静态图像和/或视频图像采集的取景器。在一些实施方案中,光学传感器位于设备的前部,使得在用户在触摸屏显示器上查看其他视频会议参与者的同时获得该用户的图像以用于视频会议。在一些实施方案中,光学传感器264的位置可由用户改变(例如,通过旋转设备外壳中的透镜和传感器),使得单个光学传感器264与触摸屏显示器一起使用,以用于视频会议和静态图像和/或视频图像采集两者。设备200任选地还包括一个或多个接触强度传感器265。图2a示出了耦接至i/o子系统206中的强度传感器控制器259的接触强度传感器。接触强度传感器265任选地包括一个或多个压阻应变仪、电容式力传感器、电气力传感器、压电力传感器、光学力传感器、电容式触敏表面或其他强度传感器(例如,用于测量触敏表面上的接触的力(或压力)的传感器)。接触强度传感器265从环境接收接触强度信息(例如,压力信息或压力信息的代用物)。在一些实施方案中,至少一个接触强度传感器与触敏表面(例如,触敏显示器系统212)并置排列或邻近。在一些实施方案中,至少一个接触强度传感器位于设备200的后部上,与位于设备200的前部上的触摸屏显示器212相背对。设备200还包括一个或多个接近传感器266。图2a示出了耦接至外围设备接口218的接近传感器266。另选地,接近传感器266耦接到i/o子系统206中的输入控制器260。接近传感器266如名称为“proximitydetectorinhandhelddevice”的美国专利申请11/241,839;no.11/240,788,名称为“proximitydetectorinhandhelddevice”;no.11/620,702,名称为“usingambientlightsensortoaugmentproximitysensoroutput”;no.11/586,862,名称为“automatedresponsetoandsensingofuseractivityinportabledevices”;以及no.11/638,251,名称为“methodsandsystemsforautomaticconfigurationofperipherals”,这些美国专利申请据此全文以引用方式并入本文。在一些实施方案中,当多功能设备被置于用户的耳朵附近时(例如,当用户正在进行电话呼叫时),接近传感器关闭并且禁用触摸屏212。设备200任选地还包括一个或多个触觉输出发生器267。图2a示出了耦接到i/o子系统206中的触觉反馈控制器261的触觉输出发生器。触觉输出发生器267任选地包括一个或多个电声设备诸如扬声器或其他音频部件;和/或将能量转换成线性运动的机电设备诸如电机、螺线管、电活性聚合器、压电致动器、静电致动器或其他触觉输出生成部件(例如,用于将电信号转换成设备上的触觉输出的部件)。接触强度传感器265从触觉反馈模块233接收触觉反馈生成指令,并且在设备200上生成能够由设备200的用户感觉到的触觉输出。在一些实施方案中,至少一个触觉输出发生器与触敏表面(例如,触敏显示器系统212)并置排列或邻近,并且任选地通过竖直地(例如,向设备200的表面内/外)或侧向地(例如,在与设备200的表面相同的平面中向后和向前)移动触敏表面来生成触觉输出。在一些实施方案中,至少一个触觉输出发生器传感器位于设备200的后部上,与位于设备200的前部上的触摸屏显示器212相背对。设备200还包括一个或多个加速度计268。图2a示出了耦接至外围设备接口218的加速度计268。另选地,加速度计268耦接至i/o子系统206中的输入控制器260。加速度计268如以下美国专利公开中所述那样执行:美国专利公开20050190059,“acceleration-basedtheftdetectionsystemforportableelectronicdevices”和美国专利公开20060017692,“methodsandapparatusesforoperatingaportabledevicebasedonanaccelerometer”,这两个美国专利公开全文以引用方式并入本文。在一些实施方案中,信息基于对从一个或多个加速度计所接收的数据的分析而在触摸屏显示器上以纵向视图或横向视图被显示。设备200任选地除了加速度计268之外还包括磁力仪(未示出)和gps(或glonass或其他全球导航系统)接收器(未示出),以用于获取关于设备200的位置和取向(例如,纵向或横向)的信息。在一些实施方案中,存储于存储器202中的软件部件包括操作系统226、通信模块(或指令集)228、接触/运动模块(或指令集)230、图形模块(或指令集)232、文本输入模块(或指令集)234、全球定位系统(gps)模块(或指令集)235、数字助理客户端模块229以及应用(或指令集)236。此外,存储器202存储数据与模型,诸如用户数据与模型231。此外,在一些实施方案中,存储器202(图2a)或470(图4)存储设备/全局内部状态257,如图2a和图4中所示。设备/全局内部状态257包括以下中的一者或多者:活动应用状态,其指示哪些应用(如果有的话)当前是活动的;显示状态,其指示什么应用、视图或其他信息占据触摸屏显示器212的各个区域;传感器状态,包括从设备的各个传感器和输入控制设备216获取的信息;以及关于设备的位置和/或姿态的位置信息。操作系统226(例如,darwin、rtxc、linux、unix、osx、ios、windows、或嵌入式操作系统诸如vxworks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)的各种软件部件和/或驱动程序,并且促进各种硬件部件和软件部件之间的通信。通信模块228促进通过一个或多个外部端口224来与其他设备进行通信,并且还包括用于处理由rf电路208和/或外部端口224所接收的数据的各种软件部件。外部端口224(例如,通用串行总线(usb)、火线等)适于直接耦接到其他设备,或间接地通过网络(例如,互联网、无线lan等)进行耦接。在一些实施方案中,该外部端口为与(appleinc.的商标)设备上所使用的30针连接器相同的或类似的和/或与其兼容的多针(例如,30针)连接器。接触/运动模块230任选地检测与触摸屏212(结合显示控制器256)和其他触敏设备(例如,触摸板或物理点击轮)的接触。接触/运动模块230包括各种软件部件以用于执行与接触的检测相关的各种操作,诸如确定是否已发生接触(例如,检测手指按下事件)、确定接触的强度(例如,接触的力或压力,或者接触的力或压力的替代物)、确定是否存在接触的移动并跟踪在触敏表面上的移动(例如,检测一个或多个手指拖动事件)、以及确定接触是否已停止(例如,检测手指抬起事件或接触断开)。接触/运动模块230从触敏表面接收接触数据。确定接触点的移动任选地包括确定接触点的速率(量值)、速度(量值和方向)和/或加速度(量值和/或方向的改变),接触点的移动由一系列接触数据来表示。这些操作任选地被应用于单点接触(例如,单指接触)或者多点同时接触(例如,“多点触摸”/多个手指接触)。在一些实施方案中,接触/运动模块230和显示控制器256检测触摸板上的接触。在一些实施方案中,接触/运动模块230使用一组一个或多个强度阈值来确定操作是否已由用户执行(例如,确定用户是否已“点击”图标)。在一些实施方案中,根据软件参数来确定强度阈值的至少一个子集(例如,强度阈值不是由具体物理致动器的激活阈值来确定的,并且可在不改变设备200的物理硬件的情况下被调节)。例如,在不改变触控板或触摸屏显示器硬件的情况下,触控板或触摸屏显示器的鼠标“点击”阈值可被设置为预定义的阈值的大范围中的任一个阈值。另外,在一些具体实施中,向设备的用户提供用于调节一组强度阈值中的一个或多个强度阈值(例如,通过调节各个强度阈值和/或通过利用对“强度”参数的系统级点击来一次调节多个强度阈值)的软件设置。接触/运动模块230任选地检测用户的手势输入。触敏表面上的不同手势具有不同的接触图案(例如,所检测到的接触的不同运动、定时和/或强度)。因此,任选地通过检测特定的接触模式来检测手势。例如,检测手指轻击手势包括检测手指按下事件,然后在与手指按下事件相同的位置(或基本上相同的位置)处(例如,在图标的位置处)检测手指抬起(抬离)事件。作为另一个示例,在触敏表面上检测手指轻扫手势包括检测手指按下事件,然后检测一个或多个手指拖动事件,并且随后检测手指抬起(抬离)事件。图形模块232包括用于在触摸屏212或其他显示器上呈现和显示图形的各种已知的软件部件,包括用于改变所显示的图形的视觉冲击(例如,亮度、透明度、饱和度、对比度或其他视觉属性)的部件。如本文所用,术语“图形”包括可被显示给用户的任何对象,非限制性地包括文本、网页、图标(诸如,包括软键的用户界面对象)、数字图像、视频、动画等。在一些实施方案中,图形模块232存储待使用的表示图形的数据。每个图形任选地被分配有对应的代码。图形模块232从应用等接收用于指定待显示的图形的一个或多个代码,在必要的情况下还接收坐标数据和其他图形属性数据,并且然后生成屏幕图像数据,以输出至显示控制器256。触感反馈模块233包括用于生成指令的各种软件部件,该指令由一个或多个触觉输出发生器267使用,以响应于用户与设备200的交互而在设备200上的一个或多个位置处产生触觉输出。在一些示例中作为图形模块232的部件的文本输入模块234提供用于在各种应用程序(例如,联系人237、电子邮件240、im241、浏览器247和需要文本输入的任何其他应用程序)中输入文本的软键盘。gps模块235确定设备的位置,并提供该信息以供在各种应用中使用(例如提供给电话238以供在基于位置的拨号中使用;提供给相机243作为图片/视频元数据;以及提供给提供基于位置的服务的应用,诸如天气桌面小程序、本地黄页桌面小程序和地图/导航桌面小程序)。数字助理客户端模块229包括各种客户端侧数字助理指令,以提供数字助理的客户端侧功能。例如,数字助理客户端模块229能够通过便携式多功能设备200的各种用户接口(例如,麦克风213、加速度计268、触敏显示器系统212、光学传感器229、其他输入控制设备216等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块229还能够通过便携式多功能设备200的各种输出接口(例如,扬声器211、触敏显示器系统212、触觉输出生成器267等)提供音频形式的输出(例如,言语输出)、视觉形式的输出和/或触觉形式的输出。例如,将输出提供为声音(voice)、声音(sound)、警报、文本消息、菜单、图形、视频、动画、振动和/或以上两者或更多者的组合。在操作期间,数字助理客户端模块229使用rf电路208与da服务器106通信。用户数据与模型231包括与用户相关联的各种数据(例如,用户特定的词汇数据、用户偏好数据、用户指定的名称发音、来自用户电子通讯录的数据、待办事项、购物清单等)以提供数字助理的客户端侧功能。此外,用户数据与模型231包括用于处理用户输入并且确定用户意图的各种模型(例如,言语识别模型、统计语言模型、自然语言处理模型、知识本体、任务流模型、服务模型等)。在一些示例中,数字助理客户端模块229利用便携式多功能设备200的各种传感器、子系统和外围设备来从便携式多功能设备200的周围环境采集附加信息,以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。在一些示例中,数字助理客户端模块229将上下文信息或其子集与用户输入一起提供至da服务器106以帮助推断用户意图。在一些示例中,数字助理还使用上下文信息来确定如何准备输出并将其传送给用户。上下文信息被称为上下文数据。在一些示例中,伴随用户输入的上下文信息包括传感器信息,例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中,上下文信息还可包括设备的物理状态,例如设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等。在一些示例中,将与da服务器106的软件状态相关的信息,例如便携式多功能设备200的运行方法、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等,作为与用户输入相关联的上下文信息提供至da服务器106。在一些示例中,数字助理客户端模块229响应于来自da服务器106的请求而选择性地提供存储在便携式多功能设备200上的信息(例如,用户数据231)。在一些示例中,数字助理客户端模块229还在da服务器106请求时引出来自用户经由自然语言对话或其他用户接口的附加输入。数字助理客户端模块229将该附加输入传送至da服务器106,以帮助da服务器106进行意图推断和/或满足在用户请求中表达的用户意图。下面结合图7a-图7c对数字助理进行更详细的描述。应当认识到,数字助理客户端模块229可包括下文所述的数字助理模块726的任意数量的子模块。应用程序236包括以下模块(或指令集)或者其子集或超集:·联系人模块237(有时称为地址簿或联系人列表);·电话模块238;·视频会议模块239;·电子邮件客户端模块240;·即时消息(im)模块241;·健身支持模块242;·用于静态图像和/或视频图像的相机模块243;·图像管理模块244;·视频播放器模块;·音乐播放器模块;·浏览器模块247;·日历模块248;面小程序模块249,其在一些示例中包括以下各项中的一者或多者:天气桌面小程序249-1、股票桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4、词典桌面小程序249-5和用户获得的其他桌面小程序,以及用户创建的桌面小程序249-6;·用于形成用户创建的桌面小程序249-6的桌面小程序创建器模块250;·搜索模块251;·视频和音乐播放器模块252,其合并视频播放器模块和音乐播放器模块;·记事本模块253;·地图模块254;和/或·在线视频模块255。存储在存储器202中的其他应用程序236的示例包括其他文字处理应用程序、其他图像编辑应用程序、绘图应用程序、呈现应用程序、支持java的应用程序、加密、数字版权管理、声音识别和声音复制。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、和文本输入模块234,联系人模块237用于管理通讯录或联系人列表(例如,存储在存储器202或存储器470中的联系人模块237的应用程序内部状态292中),包括:将一个或多个姓名添加到通讯录;从地址簿删除姓名;将电话号码、电子邮件地址、物理地址或其他信息与姓名关联;将图像与姓名进行关联;对姓名进行归类和分类;提供电话号码或电子邮件地址来发起和/或促进通过电话238、视频会议模块239、电子邮件240或即时消息241的通信;等等。结合rf电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电话模块238用于输入对应于电话号码的字符序列、访问联系人模块237中的一个或多个电话号码、修改已经输入的电话号码、拨打相应的电话号码、进行会话以及当会话完成时断开或挂断。如上所述,无线通信使用多种通信标准、协议和技术中的任一种。结合rf电路208、音频电路210、扬声器211、麦克风213、触摸屏212、显示控制器256、光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232、文本输入模块234、联系人模块237和电话模块238,视频会议模块239包括根据用户指令来发起、进行和终止用户与一个或多个其他参与者之间的视频会议的可执行指令。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,电子邮件客户端模块240包括响应于用户指令来创建、发送、接收和管理电子邮件的可执行指令。结合图像管理模块244,电子邮件客户端模块240使得非常容易创建和发送具有由相机模块243拍摄的静态图像或视频图像的电子邮件。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,即时消息模块241包括用于以下操作的可执行指令:输入与即时消息对应的字符序列,修改先前输入的字符,传输相应即时消息(例如,使用短消息服务(sms)或多媒体消息服务(mms)协议以用于基于电话的即时消息,或者使用xmpp、simple或imps以用于基于互联网的即时消息),接收即时消息、以及查看所接收的即时消息。在一些实施方案中,所传输和/或接收的即时消息包括图形、照片、音频文件、视频文件和/或如mms和/或增强型消息服务(ems)中支持的其他附件。如本文所用,“即时消息”是指基于电话的消息(例如,使用sms或mms发送的消息)和基于互联网的消息(例如,使用xmpp、simple、或imps发送的消息)两者。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、gps模块235、地图模块254和音乐播放器模块,健身支持模块242包括用于以下各项的可执行指令:创建健身(例如,具有时间、距离和/或卡路里燃烧目标);与健身传感器(运动设备)进行通信;接收健身传感器数据;校准用于监视健身的传感器;为健身选择和播放音乐;以及显示、存储和传输健身数据。结合触摸屏212、显示控制器256、一个或多个光学传感器264、光学传感器控制器258、接触/运动模块230、图形模块232和图像管理模块244,相机模块243包括用于以下操作的可执行指令:捕获静态图像或视频(包括视频流)并且将它们存储到存储器202中、修改静态图像或视频的特征、或从存储器202删除静态图像或视频。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和相机模块243,图像管理模块244包括用于排列、修改(例如,编辑),或以其他方式操控、加标签、删除、演示(例如,在数字幻灯片或相册中)以及存储静态图像和/或视频图像的可执行指令。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,浏览器模块247包括根据用户指令来浏览互联网(包括搜索、链接至、接收和显示网页或其部分,以及链接至网页的附件和其他文件)的可执行指令。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、电子邮件客户端模块240和浏览器模块247,日历模块248包括根据用户指令来创建、显示、修改和存储日历以及与日历相关联的数据(例如,日历条目、待办事项等)的可执行指令。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序模块249是可由用户下载并使用的微型应用程序(例如,天气桌面小程序249-1、股市桌面小程序249-2、计算器桌面小程序249-3、闹钟桌面小程序249-4和词典桌面小程序249-5)或由用户创建的微型应用程序(例如,用户创建的桌面小程序249-6)。在一些实施方案中,桌面小程序包括html(超文本标记语言)文件、css(层叠样式表)文件和javascript文件。在一些实施方案中,桌面小程序包括xml(可扩展标记语言)文件和javascript文件(例如,yahoo!桌面小程序)。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234和浏览器模块247,桌面小程序创建器模块250被用户用于创建桌面小程序(例如,使网页的用户指定部分变成桌面小程序)。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,搜索模块251包括根据用户指令来搜索存储器202中的匹配一个或多个搜索条件(例如,一个或多个用户指定的搜索词)的文本、音乐、声音、图像、视频和/或其他文件的可执行指令。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路系统210、扬声器211、rf电路系统208和浏览器模块247,视频和音乐播放器模块252包括允许用户下载和回放以一种或多种文件格式(诸如mp3或aac文件)存储的所记录的音乐和其他声音文件的可执行指令,以及用于显示、演示或以其他方式回放视频(例如,在触摸屏212上或在经由外部端口224连接的外部显示器上)的可执行指令。在一些实施方案中,设备200任选地包括mp3播放器,诸如ipod(appleinc.的商标)的功能。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232和文本输入模块234,记事本模块253包括根据用户指令来创建和管理记事本、待办事项等的可执行指令。结合rf电路208、触摸屏212、显示控制器256、接触/运动模块230、图形模块232、文本输入模块234、gps模块235和浏览器模块247,地图模块254用于根据用户指令接收、显示、修改和存储地图以及与地图相关联的数据(例如,驾驶方向、与特定位置处或附近的商店及其他兴趣点有关的数据,以及其他基于位置的数据)。结合触摸屏212、显示控制器256、接触/运动模块230、图形模块232、音频电路210、扬声器211、rf电路208、文本输入模块234、电子邮件客户端模块240和浏览器模块247,在线视频模块255包括允许用户访问、浏览、接收(例如,通过流式传输和/或下载)、回放(例如,在触摸屏上或经由外部端口224在所连接的外部显示器上)、发送具有至特定在线视频的链接的电子邮件,以及以其他方式管理一种或多种文件格式(诸如,h.264)的在线视频的指令。在一些实施方案中,使用即时消息模块241而不是电子邮件客户端模块240来发送至特定在线视频的链接。在线视频应用的附加描述可在2007年6月20日提交的名称为“portablemultifunctiondevice,method,andgraphicaluserinterfaceforplayingonlinevideos”的美国临时专利申请60/936,562,以及2007年12月31日提交的名称为“portablemultifunctiondevice,method,andgraphicaluserinterfaceforplayingonlinevideos”的美国专利申请11/968,067中找到,这两个专利申请的内容据此全文以引用方式并入本文。上述模块和应用中的每个模块和应用对应于用于执行上述一种或多种功能以及在该专利申请中所述的方法(例如,本文所述的计算机实现的方法和其他信息处理方法)的一组可执行指令。这些模块(例如,指令集)不必被实现为独立的软件程序、过程或模块,并因此在各种实施方案中可组合或以其他方式重新布置这些模块的各种子集。例如,视频播放器模块可与音乐播放器模块组合成单个模块(例如,图2a中的视频和音乐播放器模块252)。在一些实施方案中,存储器202存储上述模块和数据结构的子集。此外,存储器202存储上文未描述的附加的模块和数据结构。在一些实施方案中,设备200是该设备上的一组预定义功能的操作唯一地通过触摸屏和/或触摸板来执行的设备。通过使用触摸屏和/或触控板作为用于设备200的操作的主要输入控制设备,减少设备200上的物理输入控制设备(诸如下压按钮、拨盘等)的数量。唯一地通过触摸屏和/或触摸板执行的该组预定义功能任选地包括在用户界面之间进行导航。在一些实施方案中,该触摸板在被用户触摸时将设备200从被显示在设备200上的任何用户界面导航到主菜单、home菜单或根菜单。在此类实施方案中,使用触摸板来实现“菜单按钮”。在一些其他实施方案中,该菜单按钮为物理下压按钮或者其他物理输入控制设备,而不是触摸板。图2b是示出了根据一些实施方案的用于事件处理的示例性部件的框图。在一些实施方案中,存储器202(图2a)或存储器470(图4)包括事件分类器270(例如,在操作系统226中)以及相应的应用236-1(例如,前述应用237至251、255、480至490中的任一个应用)。事件分类器270接收事件信息并确定要将事件信息递送到的应用236-1和应用236-1的应用视图291。事件分类器270包括事件监视器271和事件分配器模块274。在一些实施方案中,应用236-1包括应用内部状态292,该应用内部状态指示当应用为活动的或正在执行时被显示在触敏显示器212上的当前应用视图。在一些实施方案中,设备/全局内部状态257被事件分类器270用于确定哪个(哪些)应用程序当前为活动的,并且应用内部状态292被事件分类器270用于确定要将事件信息递送到的应用视图291。在一些实施方案中,应用内部状态292包括另外的信息,诸如以下各项中的一者或多者:当应用程序236-1恢复执行时将被使用的恢复信息、指示正被应用程序236-1显示的信息或准备好用于被该应用显示的信息的用户界面状态信息、用于使得用户能够返回到应用程序236-1的先前状态或视图的状态队列、以及用户采取的先前动作的重复/撤销队列。事件监视器271从外围设备接口218接收事件信息。事件信息包括关于子事件(例如,作为多点触摸手势部分的触敏显示器212上的用户触摸)的信息。外围设备接口218传输其从i/o子系统206或传感器诸如接近传感器266、加速度计268和/或麦克风213(通过音频电路210)接收的信息。外围设备接口218从i/o子系统206接收的信息包括来自触敏显示器212或触敏表面的信息。在一些实施方案中,事件监视器271以预先确定的间隔将请求发送至外围设备接口218。作为响应,外围设备接口218传输事件信息。在其他实施方案中,外围设备接口218仅当存在显著事件(例如,接收到高于预先确定的噪声阈值和/或接收到超过预先确定的持续时间的输入)时才传输事件信息。在一些实施方案中,事件分类器270还包括命中视图确定模块272和/或活动事件识别器确定模块273。当触敏显示器212显示多于一个视图时,命中视图确定模块272提供用于确定子事件已在一个或多个视图内的什么地方发生的软件过程。视图由用户可在显示器上看到的控件和其他元素构成。与应用相关联的用户界面的另一个方面是一组视图,在本文中有时也被称为应用视图或用户界面窗口,在其中显示信息并且发生基于触摸的手势。在其中检测到触摸的(相应应用程序的)应用程序视图对应于应用程序的程序化分级结构或视图分级结构内的程序化水平。例如,在其中检测到触摸的最低水平视图被称为命中视图,并且被认为是正确输入的事件集至少部分地基于初始触摸的命中视图来确定,该初始触摸开始基于触摸的手势。命中视图确定模块272接收与基于接触的手势的子事件相关的信息。当应用具有在分级结构中组织的多个视图时,命中视图确定模块272将命中视图识别为应对子事件进行处理的分级结构中的最低视图。在大多数情况下,命中视图是发起子事件(例如,形成事件或潜在事件的子事件序列中的第一子事件)在其中发生的最低水平视图。一旦命中视图被命中视图确定模块272识别,命中视图便通常接收与其被识别为命中视图所针对的同一触摸或输入源相关的所有子事件。活动事件识别器确定模块273确定视图分级结构内的哪个或哪些视图应接收特定子事件序列。在一些实施方案中,活动事件识别器确定模块273确定仅命中视图才应接收特定子事件序列。在其他实施方案中,活动事件识别器确定模块273确定包括子事件的物理位置的所有视图均为活跃参与的视图,因此确定所有活跃参与的视图都应接收特定子事件序列。在其他实施方案中,即使触摸子事件完全被局限到与一个特定视图相关联的区域,但在分级结构中较高的视图将仍然保持为活跃参与的视图。事件分配器模块274将事件信息分配到事件识别器(例如,事件识别器280)。在包括活动事件识别器确定模块273的实施方案中,事件分配器模块274将事件信息递送到由活动事件识别器确定模块273确定的事件识别器。在一些实施方案中,事件分配器模块274在事件队列中存储事件信息,该事件信息由相应事件接收器282进行检索。在一些实施方案中,操作系统226包括事件分类器270。另选地,应用236-1包括事件分类器270。在其他实施方案中,事件分类器270为独立模块,或者为被存储在存储器202中的另一个模块(诸如接触/运动模块230)的一部分。在一些实施方案中,应用236-1包括多个事件处理程序290和一个或多个应用视图291,其中每个应用视图包括用于处理发生在应用的用户界面的相应视图内的触摸事件的指令。应用236-1的每个应用视图291包括一个或多个事件识别器280。通常,相应应用视图291包括多个事件识别器280。在其他实施方案中,事件识别器280中的一个或多个事件识别器为独立模块的部分,该独立模块诸如用户界面工具包(未示出)或应用236-1从中继承方法和其他属性的更高水平的对象。在一些实施方案中,相应事件处理程序290包括以下各项中的一者或多者:数据更新器276、对象更新器277、gui更新器278、和/或从事件分类器270接收的事件数据279。事件处理程序290利用或调用数据更新器276、对象更新器277或gui更新器278来更新应用程序内部状态292。另选地,应用视图291中的一个或多个应用视图包括一个或多个相应事件处理程序290。另外,在一些实施方案中,数据更新器276、对象更新器277和gui更新器278中的一者或多者被包括在相应应用视图291中。相应的事件识别器280从事件分类器270接收事件信息(例如,事件数据279),并且从事件信息识别事件。事件识别器280包括事件接收器282和事件比较器284。在一些实施方案中,事件识别器280还包括元数据283和事件传递指令288(其包括子事件传递指令)的至少一个子集。事件接收器282接收来自事件分类器270的事件信息。该事件信息包括关于子事件例如触摸或触摸移动的信息。根据子事件,事件信息还包括附加信息,诸如子事件的位置。当子事件涉及触摸的运动时,事件信息还包括子事件的速率和方向。在一些实施方案中,事件包括设备从一个取向旋转到另一取向(例如,从纵向取向到横向取向,或反之亦然)的旋转,并且事件信息包括关于设备的当前取向(也被称为设备姿态)的对应信息。事件比较器284将事件信息与预定义的事件或子事件定义进行比较,并且基于该比较,确定事件或子事件,或者确定或更新事件或子事件的状态。在一些实施方案中,事件比较器284包括事件定义286。事件定义286包含事件的定义(例如,预定义的子事件序列),例如事件1(287-1)、事件2(287-2)、以及其他事件。在一些实施方案中,事件(287)中的子事件包括例如触摸开始、触摸结束、触摸移动、触摸取消和多点触摸。在一个示例中,针对事件1(287-1)的定义为被显示对象上的双击。例如,双击包括被显示对象上的预先确定时长的第一次触摸(触摸开始)、预先确定时长的第一次抬离(触摸结束)、被显示对象上的预先确定时长的第二次触摸(触摸开始)、以及预先确定时长的第二次抬离(触摸结束)。在另一个示例中,针对事件2(287-2)的定义为被显示对象上的拖动。例如,拖动包括所显示对象上的预先确定时长的触摸(或接触)、触摸跨触敏显示器212的移动,以及触摸的抬离(触摸结束)。在一些实施方案中,事件还包括用于一个或多个相关联的事件处理程序290的信息。在一些实施方案中,事件定义287包括对用于相应用户界面对象的事件的定义。在一些实施方案中,事件比较器284执行命中测试,以确定哪个用户界面对象与子事件相关联。例如,在触摸显示器212上显示三个用户界面对象的应用视图中,当在触敏显示器212上检测到触摸时,事件比较器284执行命中测试,以确定这三个用户界面对象中的哪一个用户界面对象与该触摸(子事件)相关联。如果每个所显示的对象与相应的事件处理程序290相关联,则事件比较器使用该命中测试的结果来确定哪个事件处理程序290应当被激活。例如,事件比较器284选择与子事件和触发该命中测试的对象相关联的事件处理程序。在一些实施方案中,用于相应事件287的定义还包括延迟动作,该延迟动作延迟事件信息的递送,直到已确定子事件序列是对应于还是不对应于事件识别器的事件类型。当相应事件识别器280确定子事件序列不与事件定义286中的任何事件匹配时,该相应事件识别器280进入事件不可能、事件失败或事件结束状态,在此之后忽略基于触摸的手势的后续子事件。在这种情况下,对于命中视图保持活动的其他事件识别器(如果有的话)继续跟踪和处理正在进行的基于触摸的手势的子事件。在一些实施方案中,相应事件识别器280包括具有指示事件递送系统应该如何执行将子事件递送到活跃参与的事件识别器的可配置属性、标记和/或列表的元数据283。在一些实施方案中,元数据283包括指示事件识别器彼此如何交互或如何能够交互的可配置属性、标记和/或列表。在一些实施方案中,元数据283包括指示子事件是否递送到视图或程序化分级结构中的不同层级的可配置属性、标志和/或列表。在一些实施方案中,当识别事件的一个或多个特定子事件时,相应事件识别器280激活与事件相关联的事件处理程序290。在一些实施方案中,相应事件识别器280将与事件相关联的事件信息递送到事件处理程序290。激活事件处理程序290不同于将子事件发送(和延期发送)到相应命中视图。在一些实施方案中,事件识别器280抛出与所识别的事件相关联的标志,并且与该标志相关联的事件处理程序290接获该标志并执行预定义的方法。在一些实施方案中,事件递送指令288包括递送关于子事件的事件信息而无需激活事件处理程序的子事件递送指令。相反,子事件递送指令将事件信息递送到与子事件系列相关联的事件处理程序或递送到活跃参与的视图。与子事件系列或与活跃参与的视图相关联的事件处理程序接收事件信息并执行预先确定的方法。在一些实施方案中,数据更新器276创建并更新在应用236-1中使用的数据。例如,数据更新器276对联系人模块237中所使用的电话号码进行更新,或者对视频播放器模块中所使用的视频文件进行存储。在一些实施方案中,对象更新器277创建和更新在应用236-1中使用的对象。例如,对象更新器277创建新用户界面对象或更新用户界面对象的位置。gui更新器278更新gui。例如,gui更新器278准备显示信息并且将显示信息发送到图形模块232,以用于显示在触敏显示器上。在一些实施方案中,事件处理程序290包括数据更新器276、对象更新器277和gui更新器278,或具有对该数据更新器、该对象更新器和该gui更新器的访问权限。在一些实施方案中,数据更新器276、对象更新器277和gui更新器278被包括在相应应用236-1或应用视图291的单个模块中。在其他实施方案中,它们被包括在两个或更多个软件模块中。应当理解,关于触敏显示器上的用户触摸的事件处理的上述论述还适用于利用输入设备来操作多功能设备200的其他形式的用户输入,并不是所有用户输入都是在触摸屏上发起的。例如,任选地与单次或多次键盘按下或按住协作的鼠标移动和鼠标按钮按下;触摸板上的接触移动,诸如轻击、拖动、滚动等;触笔输入;设备的移动;口头指令;检测到的眼睛移动;生物特征输入;和/或它们的任何组合任选地被用作对应于限定要识别的事件的子事件的输入。图3示出了根据一些实施方案具有触摸屏212的便携式多功能设备200。触摸屏任选地在用户界面(ui)300内显示一个或多个图形。在本实施方案中以及在下文中描述的其他实施方案中,用户能够通过例如利用一个或多个手指302(在附图中没有按比例绘制)或者利用一个或多个触笔303(在附图中没有按比例绘制)在图形上作出手势来选择这些图形中的一个或多个图形。在一些实施方案中,当用户中断与一个或多个图形的接触时,将发生对一个或多个图形的选择。在一些实施方案中,手势任选地包括一次或多次轻击、一次或多次轻扫(从左向右、从右向左、向上和/或向下)和/或已与设备200发生接触的手指的滚动(从右向左、从左向右、向上和/或向下)。在一些具体实施中或在一些情况下,不经意地与图形接触不会选择图形。例如,当与选择对应的手势为轻击时,在应用程序图标上方扫动的轻扫手势任选地不会选择对应应用。设备200还包括一个或多个物理按钮,诸如“主桌面”或菜单按钮304。如前所述,菜单按钮304用于导航到在设备200上执行的一组应用程序中的任何应用程序236。另选地,在一些实施方案中,菜单按钮被实现为显示在触摸屏212上的gui中的软键。在一个实施方案中,设备200包括触摸屏212、菜单按钮304、用于使设备通电/断电和用于锁定设备的下压按钮306、一个或多个音量调节按钮308、用户身份模块(sim)卡槽310、耳麦插孔312和对接/充电外部端口224。下压按钮306任选地用于通过压下该按钮并且将该按钮保持在压下状态持续预定义的时间间隔来对设备进行开/关机;通过压下该按钮并在该预定义的时间间隔过去之前释放该按钮来锁定设备;和/或对设备进行解锁或发起解锁方法。在另选的实施方案中,设备200还通过麦克风213来接受用于激活或去激活一些功能的言语输入。设备200还任选地包括用于检测触摸屏212上的接触的强度的一个或多个接触强度传感器265,和/或用于为设备200的用户生成触觉输出的一个或多个触觉输出发生器267。图4是根据一些实施方案具有显示器和触敏表面的示例性多功能设备的框图。设备400不必为便携式的。在一些实施方案中,设备400为膝上型计算机、台式计算机、平板电脑、多媒体播放器设备、导航设备、教育设备(诸如儿童学习玩具)、游戏系统或控制设备(例如,家用控制器或工业用控制器)。设备400通常包括一个或多个处理单元(cpu)410、一个或多个网络或其他通信接口460、存储器470和用于使这些部件互连的一个或多个通信总线420。通信总线420任选地包括使系统部件互连并且控制系统部件之间的通信的电路(有时被叫做芯片组)。设备400包括具有显示器440的输入/输出(i/o)接口430,该显示器通常是触摸屏显示器。i/o接口430还任选地包括键盘和/或鼠标(或其他指向设备)450和触摸板455、用于在设备400上生成触觉输出的触觉输出发生器457(例如,类似于以上参考图2a所述的触觉输出发生器267)、传感器459(例如,光学传感器、加速度传感器、接近传感器、触敏传感器和/或接触强度传感器(类似于以上参考图2a所述的接触强度传感器265))。存储器470包括高速随机存取存储器,诸如dram、sram、ddrram或其他随机存取固态存储器设备;并且任选地包括非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器470任选地包括远离cpu410定位的一个或多个存储设备。在一些实施方案中,存储器470存储与便携式多功能设备200(图2a)的存储器202中存储的程序、模块和数据结构类似的程序、模块和数据结构或它们的子集。此外,存储器470任选地存储在便携式多功能设备200的存储器202中不存在的附加程序、模块和数据结构。例如,设备400的存储器470任选地存储绘图模块480、呈现模块482、文字处理模块484、网站创建模块486、盘编辑模块488和/或电子表格模块490,而便携式多功能设备200(图2a)的存储器202任选地不存储这些模块。图4中的上述元件中的每一者在一些示例中存储在一个或多个先前提到的存储器设备中。上述所识别的模块中的每个模块对应于用于执行上述功能的指令集。上述模块或程序(例如,指令集)不必被实现为独立的软件程序、过程或模块,因此这些模块的各种子集在各种实施方案中组合或以其他方式重新布置。在一些实施方案中,存储器470存储上述模块和数据结构的子集。此外,存储器470存储上文未描述的附加的模块和数据结构。现在将注意力转到可在例如便携式多功能设备200上实现的用户界面的实施方案。图5a示出了根据一些实施方案用于便携式多功能设备200上的应用的菜单的示例性用户界面。类似的用户界面在设备400上实现。在一些实施方案中,用户界面500包括以下元素或者其子集或超集:用于一个或多个无线通信(诸如蜂窝信号和wi-fi信号)的一个或多个信号强度指示器502;·时间504;·蓝牙指示器505;·电池状态指示器506;·具有常用应用的图标的托盘508,常用应用程序图标诸如:○电话模块238的被标记为“电话”的图标516,该图标任选地包括未接来电或声音留言的数量的指示器514;○电子邮件客户端模块240的被标记为“邮件”的图标518,该图标任选地包括未读电子邮件的数量的指示器510;○浏览器模块247的被标记为“浏览器”的图标520;以及○视频和音乐播放器模块252(也称为ipod(appleinc.的商标)模块252)的被标记为“ipod”的图标522;以及·其他应用的图标,诸如:○im模块241的被标记为“消息”的图标524;○日历模块248的被标记为“日历”的图标526;○图像管理模块244的被标记为“照片”的图标528;○相机模块243的被标记为“相机”的图标530;○在线视频模块255的被标记为“在线视频”的图标532;○股市桌面小程序249-2的被标记为“股市”的图标534;○地图模块254的被标记为“地图”的图标536;○天气桌面小程序249-1的被标记为“天气”的图标538;○闹钟桌面小程序249-4的被标记为“时钟”的图标540;○健身支持模块242的被标记为“健身支持”的图标542;○记事本模块253的被标记为“记事本”的图标544;以及○用于设置应用或模块的被标记为“设置”的图标546,该图标提供对设备200及其各种应用236的设置的访问。需注意,图5a中示出的图标标签仅是示例性的。例如,视频和音乐播放器模块252的图标522任选地被标记为“音乐”或“音乐播放器”。其他标签任选地用于各种应用程序图标。在一些实施方案中,相应应用程序图标的标签包括与该相应应用程序图标对应的应用程序的名称。在一些实施方案中,特定应用程序图标的标签不同于与该特定应用程序图标对应的应用程序的名称。图5b示出了具有与显示器550(例如,触摸屏显示器212)分开的触敏表面551(例如,图4的平板电脑或触摸板455)的设备(例如,图4的设备400)上的示例性用户界面。设备400还任选地包括用于检测触敏表面551上的接触的强度的一个或多个接触强度传感器(例如,传感器457中的一个或多个传感器)和/或用于为设备400的用户生成触觉输出的一个或多个触觉输出发生器459。尽管将参考触摸屏显示器212(其中组合了触敏表面和显示器)上的输入给出随后的示例中的一些示例,但是在一些实施方案中,设备检测与显示器分开的触敏表面上的输入,如图5b所示。在一些实施方案中,触敏表面(例如,图5b中的551)具有与显示器(例如,550)上的主轴(例如,图5b中的553)对应的主轴(例如,图5b中的552)。根据这些实施方案,设备检测在与显示器上的相应位置对应的位置(例如,在图5b中,560对应于568并且562对应于570)处的与触敏表面551的接触(例如,图5b中的560和562)。这样,在触敏表面(例如,图5b中的551)与多功能设备的显示器(例如,图5b中的550)分开时,由设备在触敏表面上检测到的用户输入(例如,接触560和562以及它们的移动)被该设备用于操纵显示器上的用户界面。应当理解,类似的方法任选地用于本文所述的其他用户界面。另外,虽然主要是参考手指输入(例如,手指接触、单指轻击手势、手指轻扫手势)来给出下面的示例,但是应当理解,在一些实施方案中,这些手指输入中的一个或多个手指输入由来自另一输入设备的输入(例如,基于鼠标的输入或触笔输入)替代。例如,轻扫手势任选地由鼠标点击(例如,而不是接触),之后是光标沿轻扫的路径的移动(例如,而不是接触的移动)来替换。又如,轻击手势任选地由在光标位于轻击手势的位置上方时的鼠标点击(例如,而不是对接触的检测,以及之后的停止检测接触)来替换。类似地,当同时检测到多个用户输入时,应当理解的是,多个计算机鼠标任选地被同时使用,或鼠标和手指接触任选地被同时使用。图6a示出了示例性个人电子设备600。设备600包括主体602。在一些实施方案中,设备600包括相对于设备200和400(例如,图2a-图4b)所述的特征中的一些或全部特征。在一些实施方案中,设备600具有在下文中称为触摸屏604的触敏显示屏604。另选地或作为触摸屏604的补充,设备600具有显示器和触敏表面。与设备200和400的情况一样,在一些实施方案中,触摸屏604(或触敏表面)具有用于检测正在施加的接触(例如,触摸)的强度的一个或多个强度传感器。触摸屏604(或触敏表面)的一个或多个强度传感器提供表示触摸的强度的输出数据。设备600的用户界面基于触摸强度来对触摸作出响应,这意味着不同强度的触摸可调用设备600上的不同的用户界面操作。用于检测和处理触摸强度的技术存在于相关申请中:例如于2013年5月8日提交的标题为“device,method,andgraphicaluserinterfacefordisplayinguserinterfaceobjectscorrespondingtoanapplication”的国际专利申请序列pct/us2013/040061,以及于2013年11月11日提交的标题为“device,method,andgraphicaluserinterfacefortransitioningbetweentouchinputtodisplayoutputrelationships”的国际专利申请序列pct/us2013/069483,这两个专利申请中的每个专利申请据此全文以引用方式并入本文。在一些实施方案中,设备600具有一个或多个输入机构606和608。输入机构606和608(如果包括的话)是物理形式的。物理输入机构的示例包括下压按钮和可旋转机构。在一些实施方案中,设备600具有一个或多个附接机构。此类附接机构(如果包括的话)可允许将设备600与例如帽子、眼镜、耳环、项链、衬衣、夹克、手镯、表带、手链、裤子、皮带、鞋子、钱包、背包等附接。这些附接机构允许设备600被用户穿戴。图6b示出了示例性个人电子设备600。在一些实施方案中,设备600包括相对于图2a、图2b和图4所述的部件中的一些或全部部件。设备600具有将i/o部分614与一个或多个计算机处理器616和存储器618操作性地耦接的总线612。i/o部分614被连接到显示器604,该显示器可具有触敏部件622并且任选地还具有触摸强度敏感部件624。此外,i/o部分614与通信单元630连接,以用于使用wi-fi、蓝牙、近场通信(nfc)、蜂窝和/或其他无线通信技术来接收应用程序和操作系统数据。设备600包括输入机构606和/或608。例如,输入机构606是可旋转输入设备或者可按压输入设备以及可旋转输入设备。在一些示例中,输入机构608是按钮。在一些示例中,输入机构608是麦克风。个人电子设备600包括例如各种传感器,诸如gps传感器632、加速度计634、定向传感器640(例如,罗盘)、陀螺仪636、运动传感器638和/或其组合,所有这些设备均可操作性连接到i/o部分614。个人电子设备600的存储器618包括用于存储计算机可执行指令的一个或多个非暂态计算机可读存储介质,该指令当由一个或多个计算机处理器616执行时例如使得计算机处理器执行上述技术和方法。该计算机可执行指令也例如在任何非暂态计算机可读存储介质内进行存储和/或传送,以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。个人电子设备600不限于图6b的部件和配置,而是可包括多种配置的其他部件或附加部件。如本文所用,术语“示能表示”是指例如显示在设备200,400,600,800,900,1000和/或1100的显示屏上的用户交互式图形用户界面对象(图2a,图4,图6a-图6b,图8a-图8b,图9a-图9b,图10a-图10b和图11)。例如,图像(例如,图标)、按钮和文本(例如,超链接)各自构成示能表示。如本文所用,术语“焦点选择器”是指用于指示用户正与之进行交互的用户界面的当前部分的输入元素。在包括光标或其他位置标志的一些具体实施中,光标充当“焦点选择器”,使得当在光标停留在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)上方的同时在触敏表面(例如,图4中的触摸板455或图5b中的触敏表面551)上检测到输入(例如,按压输入)的情况下,根据检测到的输入调整特定用户界面元素。在包括能够实现与触摸屏显示器上的用户界面元素的直接交互的触摸屏显示器(例如,图2a中的触敏显示系统212或图5a中的触摸屏212)的一些具体实施中,触摸屏上所检测到的接触充当“焦点选择器”,使得当在触摸屏显示器上在特定用户界面元素(例如,按钮、窗口、滑块或其他用户界面元素)的位置处检测到输入(例如,由接触进行的按压输入)时,该特定用户界面元素根据所检测到的输入而被调节。在一些具体实施中,焦点从用户界面的一个区域移动到用户界面的另一个区域,而无需光标的对应移动或触摸屏显示器上的接触的移动(例如,通过使用制表键或箭头键将焦点从一个按钮移动到另一个按钮);在这些具体实施中,焦点选择器根据焦点在用户界面的不同区域之间的移动而移动。不考虑焦点选择器所采取的具体形式,焦点选择器通常是由用户控制的以便递送与用户界面的用户预期的交互(例如,通过向设备指示用户界面的用户期望与其进行交互的元素)的用户界面元素(或触摸屏显示器上的接触)。例如,在触敏表面(例如,触摸板或触摸屏)上检测到按压输入时,焦点选择器(例如,光标、接触或选择框)在相应按钮上方的位置将指示用户期望激活相应按钮(而不是设备的显示器上示出的其他用户界面元素)。如说明书和权利要求书中所使用的,接触的“特征强度”这一术语是指基于接触的一个或多个强度的接触的特征。在一些实施方案中,特征强度基于多个强度样本。特征强度任选地基于相对于预定义事件(例如,在检测到接触之后,在检测到接触抬起之前,在检测到接触开始移动之前或之后,在检测到接触结束之前,在检测到接触的强度增大之前或之后和/或在检测到接触的强度减小之前或之后)而言在预先确定的时间段(例如,0.05秒、0.1秒、0.2秒、0.5秒、1秒、2秒、5秒、10秒)期间采样的预定义数量的强度样本或一组强度样本。接触的特征强度任选地基于以下各项中的一者或多者:接触强度的最大值、接触强度的均值、接触强度的平均值、接触强度的前10%处的值、接触强度的半最大值、接触强度的90%最大值等。在一些实施方案中,在确定特征强度时使用接触的持续时间(例如,在特征强度为接触的强度在时间上的平均值时)。在一些实施方案中,将特征强度与一组一个或多个强度阈值进行比较,以确定用户是否已执行操作。例如,该组一个或多个强度阈值包括第一强度阈值和第二强度阈值。在该示例中,特征强度未超过第一阈值的接触导致第一操作,特征强度超过第一强度阈值但未超过第二强度阈值的接触导致第二操作,并且特征强度超过第二阈值的接触导致第三操作。在一些实施方案中,使用特征强度与一个或多个阈值之间的比较来确定是否要执行一个或多个操作(例如,是执行相应操作还是放弃执行相应操作),而不是用于确定执行第一操作还是第二操作。在一些实施方案中,识别手势的一部分以用于确定特征强度。例如,触敏表面接收连续的轻扫接触,该连续的轻扫接触从起始位置过渡并到达结束位置,在该结束位置处,接触的强度增加。在该示例中,接触在结束位置处的特征强度仅基于连续轻扫接触的一部分,而不是整个轻扫接触(例如,仅轻扫接触在结束位置处的部分)。在一些实施方案中,在确定接触的特征强度之前向轻扫手势的强度应用平滑化算法。例如,该平滑化算法任选地包括以下各项中的一者或多者:不加权滑动平均平滑化算法、三角平滑化算法、中值滤波器平滑化算法、和/或指数平滑化算法。在一些情况下,这些平滑化算法消除了轻扫接触的强度中的窄的尖峰或凹陷,以用于确定特征强度。相对于一个或多个强度阈值诸如接触检测强度阈值、轻按压强度阈值、深按压强度阈值和/或一个或多个其他强度阈值来表征触敏表面上的接触的强度。在一些实施方案中,轻按压强度阈值对应于这样的强度:在该强度下,设备将执行通常与点击物理鼠标或触控板的按钮相关联的操作。在一些实施方案中,深按压强度阈值对应于这样的强度:在该强度下设备将执行与通常与点击物理鼠标或触控板的按钮相关联的操作不同的操作。在一些实施方案中,当检测到特征强度低于轻按压强度阈值(例如,并且高于标称接触检测强度阈值,比该标称接触检测强度阈值低的接触不再被检测到)的接触时,设备将根据接触在触敏表面上的移动来移动焦点选择器,而不执行与轻按压强度阈值或深按压强度阈值相关联的操作。一般来讲,除非另有陈述,否则这些强度阈值在不同组的用户界面附图之间为一致的。接触的特征强度从低于轻按压强度阈值的强度增大到介于轻按压强度阈值与深按压强度阈值之间的强度有时被称为“轻按压”输入。接触特征强度从低于深按压强度阈值的强度增大到高于深按压强度阈值的强度有时被称为“深按压”输入。接触的特征强度从低于接触检测强度阈值的强度增大到介于接触检测强度阈值与轻按压强度阈值之间的强度有时被称为检测到触摸表面上的接触。接触的特征强度从高于接触检测强度阈值的强度减小到低于接触检测强度阈值的强度有时被称为检测到接触从触摸表面抬离。在一些实施方案中,接触检测强度阈值为零。在一些实施方案中,接触检测强度阈值大于零。在本文中所述的一些实施方案中,响应于检测到包括相应按压输入的手势或响应于检测到利用相应接触(或多个接触)执行的相应按压输入来执行一个或多个操作,其中至少部分地基于检测到该接触(或多个接触)的强度增大到高于按压输入强度阈值而检测到相应按压输入。在一些实施方案中,响应于检测到相应接触强度增大到高于按压输入强度阈值(例如,相应按压输入的“向下冲程”)而执行相应操作。在一些实施方案中,按压输入包括相应接触强度增大到高于按压输入强度阈值以及该接触强度随后减小到低于按压输入强度阈值,并且响应于检测到相应接触强度随后减小到低于按压输入阈值(例如,相应按压输入的“向上冲程”)而执行相应操作。在一些实施方案中,设备采用强度滞后以避免有时称为“抖动”的意外输入,其中该设备限定或选择与按压输入强度阈值具有预定义关系的滞后强度阈值(例如,滞后强度阈值比按压输入强度阈值小x个强度单位,或滞后强度阈值是按压输入强度阈值的75%、90%或某些合理的比例)。因此,在一些实施方案中,按压输入包括相应接触强度增大到高于按压输入强度阈值以及该接触强度随后减小到低于与按压输入强度阈值对应的滞后强度阈值,并且响应于检测到相应接触强度随后减小到低于滞后强度阈值(例如,相应按压输入的“向上冲程”)而执行相应操作。类似地,在一些实施方案中,仅在设备检测到接触的强度从等于或低于滞后强度阈值的强度增大到等于或高于按压输入强度阈值的强度并且任选地接触的强度随后减小到等于或低于滞后强度的强度时才检测到按压输入,并且响应于检测到按压输入(例如,根据环境,接触的强度增大或接触的强度减小)来执行相应操作。为了容易解释,任选地,响应于检测到以下各种情况中的任一种情况而触发对响应于与按压输入强度阈值相关联的按压输入或响应于包括按压输入的手势而执行的操作的描述:接触强度增大到高于按压输入强度阈值、接触强度从低于滞后强度阈值的强度增大到高于按压输入强度阈值的强度、接触强度减小到低于按压输入强度阈值、和/或接触强度减小到低于与按压输入强度阈值对应的滞后强度阈值。另外,在将操作描述为响应于检测到接触的强度减小到低于按压输入强度阈值而执行的示例中,任选地响应于检测到接触的强度减小到低于对应于并且小于按压输入强度阈值的滞后强度阈值来执行操作。3.数字助理系统图7a示出了根据各种示例的数字助理系统700的框图。在一些示例中,数字助理系统700在独立式计算机系统上实现。在一些示例中,数字助理系统700跨多个计算机分布。在一些示例中,数字助理的模块和功能中的一些被划分成服务器部分和客户端部分,其中客户端部分位于一个或多个用户设备(例如,设备104,122,200,400,600,800,900,1000,或1100)上并通过一个或多个网络与服务器部分(例如,服务器系统108)通信,例如,如图1中所示。在一些示例中,数字助理系统700是图1中所示的服务器系统108(和/或da服务器106)的具体实施。应当指出,数字助理系统700仅为数字助理系统的一个示例,且该数字助理系统700具有比所示更多或更少的部件、组合两个或更多个部件,或者可具有部件的不同配置或布局。图7a中所示的各种部件在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路),或其组合中实现。数字助理系统700包括存储器702、输入/输出(i/o)接口706、网络通信接口708,以及一个或多个处理器704。这些部件可通过一个或多个通信总线或信号线710彼此进行通信。在一些示例中,存储器702包括非暂态计算机可读介质,诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如,一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。在一些示例中,i/o接口706将数字助理系统700的输入/输出设备716诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块722。i/o接口706,与用户界面模块722结合,接收用户输入(例如,声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中,例如,当数字助理在独立式用户设备上实现时,数字助理系统700包括相对于图2a、图4、图6a-图6b、图8a-图8b、图9a-图9b、图10a-图10b和图11中各自的设备200,400,600,800,900,1000,或1100所描述的部件和i/o通信接口中的任一者。在一些示例中,数字助理系统700代表数字助理具体实施的服务器部分,并且可通过位于用户设备(例如,设备104,200,400,600,800,900,1000,或1100)上的客户端侧部分与用户进行交互。在一些示例中,网络通信接口708包括一个或多个有线通信端口712,以及/或者无线传输和接收电路714。一个或多个有线通信端口经由一个或多个有线接口例如以太网、通用串行总线(usb)、火线等接收和发送通信信号。无线电路714从通信网络及其他通信设备接收rf信号和/或光学信号以及将rf信号和/或光学信号发送至通信网络及其他通信设备。无线通信使用多种通信标准、协议和技术中的任一种,诸如gsm、edge、cdma、tdma、蓝牙、wi-fi、voip、wi-max、或任何其他合适的通信协议。网络通信接口708使数字助理系统700通过网络,诸如互联网、内联网和/或无线网络诸如蜂窝电话网络、无线局域网(lan)和/或城域网(man),与其他设备之间的通信成为可能。在一些示例中,存储器702或存储器702的计算机可读存储介质存储程序、模块、指令和数据结构,包括以下内容中的全部或其子集:操作系统718、通信模块720、用户界面模块722、一个或多个应用程序724和数字助理模块726。具体地讲,存储器702或存储器702的计算机可读存储介质存储用于执行上述方法的指令。一个或多个处理器704执行这些程序、模块和指令,并从数据结构读取数据或将数据写到数据结构。操作系统718(例如,darwin、rtxc、linux、unix、ios、osx、windows、或嵌入式操作系统诸如vxworks)包括用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、电源管理等)的各种软件组件和/或驱动器,并且有利于各种硬件、固件和软件组件之间的通信。通信模块720促成数字助理系统700与其他设备之间通过网络通信接口708进行的通信。例如,通信模块720与电子设备诸如分别在图2a、图4、图6a-图6b中所示的设备200,400和600的rf电路208通信。通信模块720还包括各种部件,用于处理由无线电路714和/或有线通信端口712所接收的数据。用户界面模块722经由i/o接口706接收来自用户(例如,来自键盘、触摸屏、指向设备、控制器和/或麦克风)的命令和/或输入,并在显示器上生成用户界面对象。用户界面模块722还准备输出(例如,言语、声音、动画、文本、图标、振动、触觉反馈、光照等)并将其经由i/o接口706(例如,通过显示器、音频通道、扬声器、触控板等)传送给用户。应用程序724包括被配置为由所述一个或多个处理器704执行的程序和/或模块。例如,如果数字助理系统在独立式用户设备上实施,则应用程序724包括用户应用程序,诸如游戏、日历应用程序、导航应用程序或邮件应用程序。如果数字助理系统700在服务器上实现,则应用程序724包括例如资源管理应用程序、诊断应用程序、或调度应用程序。存储器702还存储数字助理模块726(或数字助理的服务器部分)。在一些示例中,数字助理模块726包括以下子模块或者其子集或超集:输入/输出处理模块728、言语到文本(stt)处理模块730、自然语言处理模块732、对话流处理模块734、任务流处理模块736、服务处理模块738和言语合成模块740。这些模块中的每一者均具有对以下数字助理模块726的系统或数据与模型中的一者或多者或者其子集或超集的访问权限:知识本体760、词汇索引744、用户数据748、任务流模型754、服务模型756和asr系统。在一些示例中,使用在数字助理模块726中实现的处理模块、数据和模型,数字助理可执行以下中的至少一些:将语音输入转换成文本;识别在从用户接收的自然语言输入中表达的用户意图;主动引出并获得完全推断用户意图所需的信息(例如,通过消除字词、姓名、意图的歧义等);确定用于满足推断出的意图的任务流;以及执行该任务流以满足推断出的意图。在一些示例中,如图7b中所示,i/o处理模块728可通过图7a中的i/o设备716与用户交互或通过图7a中的网络通信接口708与用户设备(例如,设备104、设备200、设备400或设备600)交互,以获得用户输入(例如,言语输入)并提供对用户输入的响应(例如,作为言语输出)。i/o处理模块728随同接收到用户输入一起或在接收到用户输入之后不久任选地获得与来自用户设备的用户输入相关联的上下文信息。上下文信息包括特定于用户的数据、词汇,和/或与用户输入相关的偏好。在一些示例中,该上下文信息还包括在接收到用户请求时的用户设备的软件状态和硬件状态,和/或在接收到用户请求时与用户的周围环境相关的信息。在一些示例中,i/o处理模块728还向用户发送与用户请求有关的跟进问题,并从用户接收回答。在用户请求被i/o处理模块728接收且用户请求包括言语输入时,i/o处理模块728将言语输入转发至stt处理模块730(或言语识别器)以进行言语到文本转换。stt处理模块730包括一个或多个asr系统。该一个或多个asr系统可处理通过i/o处理模块728接收到的语音输入,以产生识别结果。每个asr系统包括前端语音预处理器。前端言语预处理器从言语输入中提取代表性特征。例如,前端言语预处理器对言语输入执行傅里叶变换,以提取表征言语输入的光谱特征作为代表性多维向量的序列。另外,每个asr系统包括一个或多个语音识别模型(例如,声学模型和/或语言模型)并且实现一个或多个语音识别引擎。言语识别模型的示例包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。言语识别引擎的示例包括基于动态时间规整的引擎和基于加权有限状态变换器(wfst)的引擎。使用一个或多个言语识别模型和一个或多个言语识别引擎来处理前端言语预处理器的所提取的代表性特征以产生中间识别结果(例如,音素、音素串和子字词),并且最终产生文本识别结果(例如,字词、字词串、或符号序列)。在一些示例中,言语输入至少部分地由第三方服务处理或在用户的设备(例如,设备104,200,400,或600)上处理,以产生识别结果。一旦stt处理模块730产生包含文本串(例如,字词,或字词的序列,或符号序列)的识别结果,识别结果即被传送至自然语言处理模块732以供意图推断。在一些示例中,stt处理模块730产生言语输入的多个候选文本表示。每个候选文本表示是与言语输入对应的字词或符号的序列。在一些示例中,每个候选文本表示与言语识别置信度得分相关联。基于言语识别置信度得分,stt处理模块730对候选文本表示进行排序并将n个最佳(例如,n个排名最高)候选文本表示提供给自然语言处理模块732以供意图推断,其中n为大于零的预先确定的整数。例如,在一个示例中,仅将排名最高的(n=1)候选文本表示递送至自然语言处理模块732以供意图推断。又如,将5个排名最高的(n=5)候选文本表示递送至自然语言处理模块732以供意图推断。有关语音转文本处理的更多细节在2011年9月20日提交的名称为“consolidatingspeechrecognitionresults”的美国实用新型专利申请13/236,942中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,stt处理模块730包括可识别字词的词汇和/或经由语音字母转换模块731访问该词汇。每个词汇字词与言语识别语音字母表中表示的字词的一个或多个候选发音相关联。具体地讲,可识别字词的词汇包括与多个候选发音相关联的字词。例如,该词汇包括与和的候选发音相关联的字词“tomato”。另外,词汇字词与基于来自用户的先前言语输入的自定义候选发音相关联。此类自定义候选发音存储在stt处理模块730中,并且经由设备上的用户配置文件与特定用户相关联。在一些示例中,字词的候选发音基于字词的拼写以及一个或多个语言学和/或语音规则确定。在一些示例中,候选发音手动生成,例如,基于已知的标准发音而手动生成。在一些示例中,基于候选发音的普遍性来对候选发音进行排名。例如,候选发音的排序高于,因为前者是更常用的发音(例如,在所有用户中,对于特定地理区域的用户而言,或者对于任何其他合适的用户子集而言)。在一些示例中,基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排序。例如,自定义候选发音的排名高于标准候选发音。这可用于识别具有偏离规范发音的独特发音的专有名词。在一些示例中,候选发音与一个或多个言语特征(诸如地理起源、国家或种族)相关联。例如,候选发音与美国相关联,而候选发音与英国相关联。此外,候选发音的排序基于存储在设备上的用户配置文件中的用户的一个或多个特征(例如,地理起源、国家、种族等)。例如,可从用户配置文件确定该用户与美国相关联。基于用户与美国相关联,候选发音(与美国相关联)可比候选发音(与英国相关联)排名更高。在一些示例中,经排序的候选发音中的一个可被选作预测发音(例如,最可能的发音)。接收到言语输入时,stt处理模块730被用来(例如,使用声音模型)确定对应于该言语输入的音素,然后尝试(例如,使用语言模型)确定匹配该音素的字词。例如,如果stt处理模块730首先识别对应于该言语输入的一部分的音素序列,那么它随后可基于词汇索引744确定该序列对应于字词“tomato”。在一些示例中,stt处理模块730使用模糊匹配技术来确定话语中的字词。因此,例如,stt处理模块730确定音素序列对应于字词“tomato”,即使该特定音素序列不是该字词的候选音素序列。数字助理的自然语言处理模块732(“自然语言处理器”)获取由stt处理模块730生成的n个最佳候选文字表示(“字词序列”或“符号序列”),并尝试将每个候选文本表示与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”(或“用户意图”)表示可由数字助理执行并且可具有在任务流模型754中实现的相关联的任务流的任务。相关联任务流是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围取决于已在任务流模型754中实现并存储的任务流的数量和种类,或换言之,取决于数字助理所识别的“可执行意图”的数量和种类。然而,数字助理的有效性还取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。在一些示例中,除从stt处理模块730获得的字词或符号的序列之外,自然语言处理模块732还(例如,从i/o处理模块728)接收与用户请求相关联的上下文信息。自然语言处理模块732任选地使用上下文信息来明确、补充和/或进一步限定在从stt处理模块730接收的候选文本表示中包含的信息。上下文信息包括例如用户偏好,用户设备的硬件和/或软件状态,在用户请求之前、期间或之后不久收集的传感器信息,数字助理与用户之间的先前交互(例如,对话),等等。如本文所述,在一些示例中,上下文信息是动态的,并且随对话的时间、位置、内容、以及其他因素而变化。在一些示例中,自然语言处理基于例如知识本体760。知识本体760为包含许多节点的分级结构,每个节点表示“可执行意图”或与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述,“可执行意图”表示数字助理能够执行的任务,即,该任务为“可执行的”或可被进行的。“属性”代表与可执行意图或另一属性的子方面相关联的参数。知识本体760中可执行意图节点与属性节点之间的连接定义由属性节点表示的参数如何从属于由可执行意图节点表示的任务。在一些示例中,知识本体760由可执行意图节点和属性节点组成。在知识本体760内,每个可执行意图节点直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地,每个属性节点直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如,如图7c所示,知识本体760包括“餐厅预订”节点(即,可执行意图节点)。属性节点“餐厅”、“日期/时间”(针对预订)和“同行人数”均直接连接至可执行意图节点(即,“餐厅预订”节点)。此外,属性节点“菜系”、“价格区间”、“电话号码”和“位置”是属性节点“餐厅”的子节点,并且均通过中间属性节点“餐厅”连接至“餐厅预订”节点(即,可执行意图节点)。又如,如图7c所示,知识本体760还包括“设定提醒”节点(即,另一个可执行意图节点)。属性节点“日期/时间”(针对设定提醒)和“主题”(针对提醒)均连接至“设定提醒”节点。由于属性“日期/时间”与进行餐厅预订的任务和设定提醒的任务二者相关,因此属性节点“日期/时间”连接至知识本体760中的“餐厅预订”节点和“设定提醒”节点二者。可执行意图节点连同其连接的属性节点一起,被描述为“域”。在本讨论中,每个域与相应的可执行意图相关联,并涉及与特定可执行意图相关联的一组节点(以及这些节点之间的关系)。例如,图7c中示出的知识本体760包括在知识本体760内的餐厅预订域762的示例以及提醒域764的示例。餐厅预订域包括可执行意图节点“餐厅预订”、属性节点“餐厅”、“日期/时间”和“同行人数”以及子属性节点“菜系”、“价格范围”、“电话号码”和“位置”。提醒域764包括可执行意图节点“设定提醒”和属性节点“主题”和“日期/时间”。在一些示例中,知识本体760由多个域组成。每个域与一个或多个其他域共享一个或多个属性节点。例如,除了餐厅预订域762和提醒域764之外,“日期/时间”属性节点还与许多不同域(例如,行程安排域、旅行预订域、电影票域等)相关联。尽管图7c示出知识本体760内的两个示例性域,但其他域包括例如“查找电影”、“发起电话呼叫”、“查找方向”、“安排会议”、“发送消息”以及“提供问题的回答”、“阅读列表”、“提供导航指令”、“提供针对任务的指令”等。“发送消息”域与“发送消息”可执行意图节点相关联,并且进一步包括属性节点诸如“一个或多个接收人”、“消息类型”和“消息正文”。属性节点“接收人”进一步例如由子属性节点诸如“接收人姓名”和“消息地址”来限定。在一些示例中,知识本体760包括数字助理能够理解并对其起作用的所有域(以及因而可执行意图)。在一些示例中,知识本体760诸如通过添加或移除整个域或节点,或者通过修改知识本体760内的节点之间的关系进行修改。在一些示例中,将与多个相关可执行意图相关联的节点群集在知识本体760中的“超级域”下。例如,“旅行”超级域包括与旅行相关的属性节点和可执行意图节点的群集。与旅行相关的可执行意图节点包括“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”、“寻找感兴趣的点”,等等。同一超级域(例如,“旅行”超级域)下的可执行意图节点具有多个共用的属性节点。例如,针对“机票预订”、“酒店预订”、“汽车租赁”、“路线规划”和“寻找感兴趣的点”的可执行意图节点共享属性节点“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”和“同行人数”中的一者或多者。在一些示例中,知识本体760中的每个节点与跟由节点代表的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语是所谓的与节点相关联的“词汇”。将与每个节点相关联的相应组的字词和/或短语存储在与由节点所代表的属性或可执行意图相关联的词汇索引744中。例如,返回图7b,与“餐厅”属性的节点相关联的词汇包括字词诸如“美食”、“酒水”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“膳食”等。又如,与“发起电话呼叫”可执行意图的节点相关联的词汇包括字词和短语诸如“呼叫”、“打电话”、“拨打”、“与……通电话”、“呼叫该号码”、“打电话给”等。词汇索引744任选地包括不同语言的字词和短语。自然语言处理模块732接收来自stt处理模块730的候选文本表示(例如,一个或多个文本串或一个或多个符号序列),并针对每个候选表示,确定候选文本表示中的字词涉及到哪些节点。在一些示例中,如果发现候选文本表示中的字词或短语(经由词汇索引744)与知识本体760中的一个或多个节点相关联,则所述字词或短语“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性,自然语言处理模块732选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中,选择具有最多“已触发”节点的域。在一些示例中,选择具有最高置信度(例如,基于其各个已触发节点的相对重要性)的域。在一些示例中,基于已触发节点的数量和重要性的组合来选择域。在一些示例中,在选择节点的过程中还考虑附加因素,诸如数字助理先前是否已正确解译来自用户的类似请求。用户数据748包括特定于用户的信息,诸如特定于用户的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表,以及每位用户的其他短期或长期信息。在一些示例中,自然语言处理模块732使用特定于用户的信息来补充用户输入中所包含的信息以进一步限定用户意图。例如,针对用户请求“邀请我的朋友参加我的生日派对”,自然语言处理模块732能够访问用户数据748以确定“朋友”是哪些人以及“生日派对”将于何时何地举行,而不需要用户在其请求中明确地提供此类信息。应认识到,在一些示例中,利用一个或多个机器学习机构(例如,神经网络)来实现自然语言处理模块732。具体地,一个或多个机器学习机构被配置为接收候选文本表示和与候选文本表示相关联的上下文信息。基于候选文本表示和相关联的上下文信息,一个或多个机器学习机构被配置为基于一组候选可执行意图确定意图置信度得分。自然语言处理模块732可基于所确定的意图置信度得分从一组候选可执行意图中选择一个或多个候选可执行意图。在一些示例中,还利用知识本体(例如,知识本体760)从一组候选可执行意图中选择一个或多个候选可执行意图。基于符号串搜索知识本体的其他细节在2008年12月22日提交的名称为“methodandapparatusforsearchingusinganactiveontology”的美国实用新型专利申请12/341,743中有所描述,其全部公开内容以引用方式并入本文。在一些示例中,一旦自然语言处理模块732基于用户请求识别出可执行意图(或域),自然语言处理模块732便生成结构化查询以表示所识别的可执行意图。在一些示例中,结构化查询包括针对可执行意图的域内的一个或多个节点的参数,并且所述参数中的至少一些参数填充有用户请求中指定的特定信息和要求。例如,用户说“帮我在寿司店预订晚上7点的座位。”在这种情况下,自然语言处理模块732能够基于用户输入将可执行意图正确地识别为“餐厅预订”。根据知识本体,“餐厅预订”域的结构化查询包括参数诸如{菜系}、{时间}、{日期}、{同行人数}等。在一些示例中,基于言语输入和使用stt处理模块730从言语输入得出的文本,自然语言处理模块732针对餐厅预订域生成部分结构化查询,其中部分结构化查询包括参数{菜系=“寿司类”}以及{时间=“晚上7点”}。然而,在该示例中,用户话语包含不足以完成与域相关联的结构化查询的信息。因此,基于当前可用信息,在结构化查询中未指定其他必要参数诸如{同行人数}和{日期}。在一些示例中,自然语言处理模块732用所接收的上下文信息来填充结构化查询的一些参数。例如,在一些示例中,如果请求“附近的”寿司店,自然语言处理模块732用来自用户设备的gps坐标来填充结构化查询中的{位置}参数。在一些示例中,自然语言处理模块732识别针对从stt处理模块730所接收的每个候选文本表示的多个候选可执行意图。另外,在一些示例中,针对每个所识别的候选可执行意图生成相应的结构化查询(部分地或全部地)。自然语言处理模块732确定针对每个候选可执行意图的意图置信度得分,并基于意图置信度得分对候选可执行意图进行排序。在一些示例中,自然语言处理模块732将所生成的一个或多个结构化查询(包括任何已完成的参数)传送至任务流处理模块736(“任务流处理器”)。在一些示例中,针对m个最佳(例如,m个排名最高的)候选可执行意图的一个或多个结构化查询被提供给任务流处理模块736,其中m为预先确定的大于零的整数。在一些示例中,将针对m个最佳候选可执行意图的一个或多个结构化查询连同对应的候选文本表示提供给任务流处理模块736。基于根据言语输入的多个候选文本表示所确定的多个候选可执行意图推断用户意图的其他细节在提交于2014年6月6日的“systemandmethodforinferringuserintentfromspeechinputs”的美国实用新型申请号14/298,725中有所描述,其全部公开内容以引用方式并入本文。任务流处理模块736被配置为接收来自自然语言处理模块732的一个或多个结构化查询,(必要时)完成结构化查询,以及执行“完成”用户最终请求所需的动作。在一些示例中,完成这些任务所必需的各种过程在任务流模型754中提供。在一些示例中,任务流模型754包括用于获得来自用户的附加信息的过程,以及用于执行与可执行意图相关联的动作的任务流。如上所述,为了完成结构化查询,任务流处理模块736需要发起与用户的附加对话,以便获得附加信息和/或弄清可能有歧义的话语。当有必要进行此类交互时,任务流处理模块736调用对话流处理模块734来参与同用户的对话。在一些示例中,对话流处理器模块734确定如何(和/或何时)向用户请求附加信息,并且接收和处理用户响应。通过i/o处理模块728将问题提供给用户并从用户接收回答。在一些示例中,对话处理模块734经由音频和/或视频输出向用户呈现对话输出,并接收经由口头或物理(例如,点击)响应的来自用户的输入。继续上述示例,在任务流处理模块736调用对话流处理模块734来确定针对与域“餐厅预订”相关联的结构化查询的“同行人数”和“日期”信息时,对话流处理模块734生成诸如“一行几位?”和“预订哪天?”之类的问题传递给用户。一旦收到来自用户的回答,对话流处理模块734就用缺失信息填充结构化查询,或将信息传递给任务流处理模块736以根据结构化查询完成缺失信息。一旦任务流处理模块736已针对可执行意图完成结构化查询,任务流处理模块736便开始执行与可执行意图相关联的最终任务。因此,任务流处理模块736根据结构化查询中包含的特定参数来执行任务流模型中的步骤和指令。例如,针对可执行意图“餐厅预订”的任务流模型包括用于联系餐厅并实际上请求在特定时间针对特定同行人数的预订的步骤和指令。例如,使用结构化查询诸如:餐厅预订、{餐厅=abc咖啡馆、日期=3/12/2012、时间=7pm、同行人数=5,}任务流处理模块736可执行以下步骤:(1)登录abc咖啡馆的服务器或诸如之类的餐厅预订系统,(2)以网站上的形式输入日期、时间和同行人数信息,(3)提交表格,以及(4)在用户的日历上形成针对预订的日历条目。在一些示例中,任务流处理模块736在服务处理模块738(“服务处理模块”)的辅助下完成用户输入中所请求的任务或者提供用户输入中所请求的信息性回答。例如,服务处理模块738代表任务流处理模块736发起电话呼叫、设定日历条目、调用地图搜索、调用用户设备上安装的其他用户应用程序或与所述其他应用程序进行交互,以及调用第三方服务(例如,餐厅预订门户网站、社交网站、银行门户网站等)或与第三方服务进行交互。在一些示例中,通过服务模型756中的相应服务模型指定每项服务所需的协议和应用程序编程接口(api)。服务处理模块738针对服务访问适当的服务模型,并依据服务模型根据该服务所需的协议和api生成针对该服务的请求。例如,如果餐厅已启用在线预订服务,则餐厅提交服务模型,该服务模型指定进行预订的必要参数以及将必要参数的值传送至在线预订服务的api。在被任务流处理模块736请求时,服务处理模块738可使用存储在服务模型中的web地址来建立与在线预订服务的网络连接,并将预订的必要参数(例如,时间、日期、同行人数)以根据在线预订服务的api的格式发送至在线预订接口。在一些示例中,自然语言处理模块732、对话处理模块734以及任务流处理模块736被共同且反复地使用,以推断并限定用户的意图、获得信息以进一步明确并细化用户意图、并最终生成响应(即,输出至用户,或完成任务)以满足用户的意图。所生成的响应是至少部分地满足用户意图的对言语输入的对话响应。另外,在一些示例中,所生成的响应被输出为言语输出。在这些示例中,所生成的响应被发送到言语合成模块740(例如,言语合成器),在言语合成模块中,可处理所生成的响应以将对话响应以言语形式合成。在其他示例中,所生成的响应是与满足言语输入中的用户请求相关的数据内容。在任务流处理模块736接收到来自自然语言处理模块732的多个结构化查询的示例中,任务流处理模块736首先处理所接收结构化查询的第一结构化查询以试图完成第一结构化查询和/或执行由第一结构化查询所表示的一个或多个任务或动作。在一些示例中,第一结构化查询对应于排名最高的可执行意图。在其他示例中,第一结构化查询选自基于对应的语音识别置信度得分和对应的意图置信度得分的结合所接收的结构化查询。在一些示例中,如果任务流处理模块736在第一结构化查询的处理期间(例如,由于无法确定必要的参数)遇到错误,任务流处理模块736可继续选择和处理所接收结构化查询的与排名较低的可执行意图对应的第二结构化查询。例如基于对应候选文本表示的语音识别置信度得分、对应候选可执行意图的意图置信度得分、第一结构化查询中的缺失必要参数或它们的任何组合来选择第二结构化查询。言语合成模块740被配置为合成用于呈现给用户的言语输出。语音合成模块740基于数字助理提供的文本来合成语音输出。例如,所生成的对话响应是文本串的形式。言语合成模块740将文本串转换成可听言语输出。语音合成模块740使用任何适当语音合成技术,以便从文本生成语音输出,包括但不限于:拼接合成、单元选择合成、双音素合成、域特定合成、共振峰合成、发音合成、基于隐马尔可夫模型(hmm)的合成,以及正弦波合成。在一些示例中,言语合成模块740被配置为基于对应于这些字词的音素串来合成各个字词。例如,音素串与所生成的对话响应中的字词相关联。音素串存储在与字词相关联的元数据中。言语合成模型740被配置为直接处理元数据中的音素串,以合成言语形式的字词。在一些示例中,替代使用言语合成模块740(或除此之外),在远程设备(例如,服务器系统108)上执行言语合成,并且将合成的言语发送至用户设备以输出给用户。例如,这可发生在一些具体实施中,其中在服务器系统处生成数字助理的输出。而且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源,其有可能获得比客户端侧合成将实现的质量更高的言语输出。有关数字助理的其他详情可在2011年1月10日提交的名称为“intelligentautomatedassistant”的美国实用新型专利申请12/987,982和2011年9月30日提交的名称为“generatingandprocessingtaskitemsthatrepresenttaskstoperform”的美国实用新型专利申请13/251,088中找到,其全部公开内容以引用方式并入本文。4.用于提供数字助理的基于听觉的界面用于媒体探索的示例性技术图8a-图8b,图9a-图9b,图10a-图10b和图11图示了根据一些实施方案的包括用于提供数字助理的示例性用户界面(“ui”)的示例性技术。这些图也用于示出下面描述的方法,分别包括图12-图15的方法1200,1300,1400和1500。图8a示出了电子设备800。在一些实施方案中,电子设备800可为设备200,设备400和设备600中的任一个(图2a,图4和图6a-图6b)。在例示的示例中,电子设备800是具有一个或多个扬声器的电子设备,但应当理解,电子设备可是任何类型的设备,诸如电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如智能手表)、机顶盒、电视、扬声器,或它们的任何组合或子组合。在操作中,电子设备800提供用户与智能自动化助理(或数字助理)之间的自然语言语音的交换。在一些示例中,交换是纯听觉的。在一些示例中,该交换另外或可选地是可视的(例如,通过图形用户界面和/或一个或多个灯光指示器)和/或触觉。在图8a中,电子设备800接收(例如,经由麦克风)指示对电子设备800的数字助理的请求的自然语言语音输入810。自然语言语音输入810可包括可指向数字助理的任何请求。在一些示例中,自然语言语音输入包括预定的触发短语(例如“heysiri”)。在一些示例中,自然语言语音输入包括对媒体项目的请求(例如,“播放richrubin制作的音乐”,“播放说唱歌曲”,“播放80年代的东西”,“播放乐观的东西”)。参考图8a,用户802提供包括触发短语和对特定艺术家的媒体项目的请求的自然语言语音输入810:“嘿,siri,播放adele的新歌”。在一些示例中,电子设备800处理自然语言语音输入810以执行一个或多个任务。在一些示例中,以这种方式处理自然语言语音输入810包括例如使用stt处理模块730提供自然语言语音输入的一个或多个候选文本表示(例如,文本串)。如上所述,每个候选文本表示可与语音识别置信度分数相关联,并且可相应地对候选文本表示进行排序。在其他示例中,自然语言输入是文本输入(例如,经由电子设备800的触摸板输入)并且被提供为候选文本表示,其中n=1。以这种方式作为候选文本表示提供的文本输入可被分配最大语音识别置信度分数或任何其他语音识别置信度分数。参考图8a,数字助理提供一个或多个候选文本表示,包括候选文本表示“嘿,siri,播放adele的新歌”。在一些示例中,电子设备800例如使用自然语言处理模块732基于n个最佳(例如,排名最高)的候选文本表示提供一个或多个候选意图。每个候选意图可与意图置信度分数相关联,并且候选意图可被相应地排序。在一些示例中,针对每个候选文本表示识别多个候选意图。此外,在一些示例中,针对每个候选意图生成具有一个或多个参数的结构化查询(部分或完整)。参考图8a,电子设备800的数字助理提供一个或多个候选意图,该一个或多个候选意图包括“获取对媒体项目的推荐”,这基于候选文本表示“嘿,siri,播放adele的新歌曲”。此外,电子设备800的数字助理确定具有多个参数的结构化查询:{获得媒体项目的推荐,艺术家=adele,媒体类型=歌曲,时间段=新}。之后,候选任务是例如使用任务流处理模块736基于m个最佳(例如,排序最高的)候选意图确定的。在一些示例中,基于针对m个最佳(例如,排名最高)的候选意图中的每个的结构化查询来识别候选任务。例如,如上所述,结构化查询可根据一个或多个任务流(诸如一个或多个任务流754)来实现。在一些示例中,电子设备800基于所识别的参数来执行候选任务以获得一个或多个结果。例如,基于结构化查询,电子设备800的任务流处理模块(例如,任务流处理模块736)调用程序、方法、服务、api等以获得一个或多个结果。结果可包括例如与一个或多个媒体项目相关的信息,包括但不限于歌曲、有声读物、播客、站点、播放列表或其任何组合。参考图8a,基于结构化查询{获得对媒体项目的推荐,艺术家=adele,媒体类型=歌曲,时间段=新},数字助理使用搜索参数“adele”、“歌曲”和“新”来执行媒体搜索,并且识别题名为“hello”的歌曲(以下简称“第一媒体项目”)。此后,电子设备800提供第一媒体项目。参考图8a,电子设备800的数字助理提供歌曲“hello”的回放812。如图所示,数字助理还在提供第一媒体项目的回放的同时提供包括第一媒体项目(“这里是adele的hello”)的描述(例如,言语描述)的自然语言语音输出813。在一些示例中,可同时提供第一媒体项目的回放和第一媒体项目的描述。在一些示例中,电子设备800响应于自然语言语音输入810而提供第一媒体项目的一部分的回放。第一媒体项目的部分可是媒体项目的代表性样本(例如合唱,第一节)。在一些示例中,数字助理在提供指示与第一媒体项目相关联的描述的语音输出(例如,“这里是adele的hello”)时提供该部分(例如合唱)的回放。如果用户向语音输出提供肯定响应(例如,自然语言响应)(例如,“确定播放这个”),则电子设备800完整地提供第一媒体项目的回放(例如从开始)。本文提供了用于提供分层音频输出的机制的更多细节。在一些示例中,电子设备800提供基于自然语言语音输入810识别的多个媒体项目的概要和/或列表(例如,“你从这位艺术家得到很多。这里是10首歌曲中的前三个hello,…”)。在一些示例中,电子设备800提供一个或多个建议(例如,“如果你听到你喜欢的或者你想要听接下来的五首让我知道”),然后提供列表。在一些示例中,在呈现预定次数之后,电子设备放弃提供建议。例如,在针对相同的媒体请求提供了三次后,电子设备可放弃提供“如果你听到你喜欢的东西让我知道”的建议。在2016年9月23日提交的美国专利申请62/399,232“intelligentautomatedassistant”中提供了提供媒体推荐的附加描述,该申请的全部内容通过引用并入本文。美国专利申请62/399,232描述了用于除其他外输出用于呈现媒体内容的多种格式(例如,专辑名称、歌曲名称等)的示例性技术。电子设备800可在提供媒体项目的回放的同时接收自然语言语音输入。参考图8a,在提供歌曲“hello”的回放时,电子设备800接收自然语言语音输入814(“实际上,播放进行的那个,‘i’mgivingyouupi’mforgivingitall’”)。在一些示例中,响应于接收到自然语言语音输入814,电子设备调整提供第一媒体项目的当前回放的方式(例如,以较低的音量或速率提供回放)。在2016年9月23日提交的美国专利申请62/399,232“intelligentautomatedassistant”中提供了调节音频输出的附加示例性描述,该申请的全部内容通过引用并入本文。美国专利申请62/399,232特别描述了用于调整音频输出的示例性技术,包括降低/增加音频输出的音量,以不同的速率提供音频输出,和/或以不同的语言提供音频输入。在一些示例中,响应于与音频输出相关联的用户输入来调整音频输出。电子设备800以与以上关于自然语言输入812描述的一致的方式处理自然语言输入814。具体地讲,基于自然语言输入814,电子设备800提供一个或多个候选文本表示,一个或多个候选意图,并且执行与排名最高的候选意图相关联的任务。在所示的示例中,与自然语言语音输入814相对应的一个候选意图(“实际上,播放进行的那个,‘i’mgivingyouupi’mforgivingitall’”)是“改进媒体请求”。在一些示例中,候选意图是m个最佳候选意图中的一者。在一些示例中,电子设备800基于一个或多个预定义短语和一个或多个短语的自然语言等价物来推导出改进对媒体的请求的用户意图。示例性的预定义短语包括但不限于:“是,但是”,“怎么样”,“如何”,“仅”,“其他”,“其他”,“更多”,“更少”,“更多”,“更少少”,“新的一个”,“旧的一个”,“进行的那个”,“听起来像的那个”“实际上”,“等待”,“播放”,“不”,“不同”,“跳过”和“下一个”。如此,电子设备800可处理诸如“nah,你还有什么?”,“播放更乐观的东西”,“播放别的东西”,“仅他在80年代制作的东西”等示例性输入。参考图8a,电子设备800可基于自然语言语音输入814中的预定义短语(例如,“实际”,“播放”,“进行的那个”)导出用户改进媒体请求的意图。上面关于自然语言处理模块732描述了用于处理自然语言输入814的示例性技术。例如,电子设备800可接收自然语言输入814的候选文本表示(文本字符串“实际上播放进行的那个i’mgivingyouupi’mforgivingitall”)(例如,来自stt处理模块730)并确定数字助理(例如,本体760)的本体中的哪些节点与候选文本表示中的词语有关。基于激活的节点的数量和/或相对重要性,电子设备(更具体地说,自然语言处理模块)可选择可动作意图中的一者作为用户想要数字助理执行的任务。在一些示例中,电子设备800基于上下文信息来推导改进对媒体的请求的用户意图。上下文信息包括与电子设备的一个或多个先前用户交互(例如,用户会话)。例如,如果用户先前的请求与获取媒体推荐(例如,语音输入812)的用户意图相关联和/或如果用户的当前输入对应于媒体推荐域中的一个或多个属性(例如,属性节点),电子设备800可导出改进先前的媒体请求的用户意图(例如,使用一个或多个指定的属性)。媒体推荐域中的属性可对应于艺术家、流派、歌词、发布日期或下面描述的任何搜索参数。参考图8a,电子设备800可基于用户先前的语音输入912和/或在当前语音输入中指定的属性(歌词“i’mgivingyouupi’mforgivingitall”)导出用户改进媒体请求的意图。在一些示例中,电子设备800基于自然语言语音输入814识别一个或多个候选任务和对应参数。参考图8a,电子设备800识别“改进先前的媒体请求”的候选任务和“i’mgivingyouupi’mforgivingitall”的参数以改进先前的媒体请求。基于自然语言语音输入识别的参数可用于优化媒体请求。本文提供了示例性参数。在一些示例中,该参数对应于:媒体项目的抒情内容(例如“heyjude”),流派(例如,“嘻哈”),歌曲或专辑标题(例如“hotelcalifornia”),场合或时间(例如,季节、假期、一天中的时间、十年),活动(例如锻炼、驾驶、睡眠),位置(例如,海滩、工作、家庭、夏威夷),心情(例如,乐观),艺术家(例如,歌手,制片人)或其任何组合。在一些示例中,参数对应于预定时间范围内的日期(例如,发布日期)。例如,电子设备800存储短语(以及这些短语的自然语言等同物)与时间帧之间的相关性。例如,电子设备800将“新的”与1个月的时间框架相关联,“最近”具有3个月的时间框架,“刚刚出来”和“最新”时间框架为1周。在一些示例中,参数对应于一个或多个人(例如,目标观众)。例如,自然语言语音输入814可包括对与用户相关联的人的引用,诸如“我的朋友在听什么?”,“jason在播放什么?”,“播放来自amy的更多音乐”,“播放一些我朋友喜欢的东西”。电子设备800处理自然语言语音输入以识别指向用户(例如“我”,“我”,“对于我”,“我的”),指向用户以外的人(例如,“amy”)或其任何组合(例如,“我们的”,“我的朋友们和我”)的单词或短语。基于这些单词或短语,电子设备800从一个或多个源(例如,联系人列表,诸如社交媒体服务和媒体服务的软件服务)获得标识信息。在一些示例中,电子设备800通过提示用户在候选解释之间消除歧义(例如,“你是指johnsmith还是johndoe?”)来获得标识信息。在一些其他示例中,电子设备800基于诸如电子设备附近的一个或多个人的物理存在等上下文信息来获得识别信息。以下更详细地讨论了用于检测一个或多个人的物理存在的技术。在一些示例中,参数对应于媒体项目的源。例如,自然语言语音输入814可包括对媒体项目集合的引用(例如,“我的库里有什么?”,“从我的周末卡列表中播放东西”)。又如,自然语言语音输入814可包括对媒体项目的拥有者的引用(例如,“播放来自jason的集合”)。作为响应,电子设备800获得标识信息并且还利用适当的许可设置标识一个或多个媒体项目,如下面更详细讨论的。在一些示例中,电子设备800识别至少部分地基于上下文信息来改进媒体请求的参数。如上所述,上下文信息(或背景信息)可包括与电子设备800的环境相关的信息,例如照明、环境噪声、环境温度、周围环境的图像或视频等。在一些示例中,上下文信息包括电子设备800的物理状态,例如设备取向、设备位置、设备温度、电力水平、速度、加速度、运动模式、蜂窝信号强度等。设备位置可是绝对的(例如,基于gps坐标)或相对的(例如,该设备在用户的起居室、车库、卧室)。在一些示例中,上下文信息包括电子设备处的当前时间。在一些示例中,上下文信息包括与数字助理服务器(例如,da服务器106)的状态有关的信息,例如运行进程、安装的程序、过去和现在的网络活动、后台服务、错误日志,资源使用等等,以及与电子设备800的状态有关的信息。在一些示例中,上下文信息包括与电子设备800物理接近的人员的身份。在一些示例中,电子设备800可通过从一个或多个源获得信息并且将该信息与关于一个或多个用户的已知信息进行比较来进行一个或多个标识来检测一个或多个用户的物理存在和/或身份。例如,电子设备800可基于与与该人相关联的电子设备有关的信息(诸如该人的电子设备的连接性信息(例如,在同一wi-fi网络上,在蓝牙范围内,在nfc范围内))检测人的物理存在。又如,电子设备800可基于人的面部特征和/或声音特征(例如通过相机和麦克风捕捉)来检测人的物理存在。又如,电子设备800可基于本地可用的信息(诸如在日历邀请(为当前时间设置)中列出的联系人)或电子邮件消息来检测人的物理存在。又如,电子设备800可基于由该人提供的证书(例如,用户名和密码)来检测人的物理存在。在一些示例中,在检测到人的实际存在之后,电子设备800提示消除歧义输入(例如,“我听到的是jason还是john?”)和/或确认(例如,“john是否加入派对?)在一些示例中,上下文信息包括与与电子设备800物理接近的人相关的信息。例如,上下文信息可包括偏好、媒体集合、被检测为与电子设备物理接近的每个人的历史。例如,如果电子设备800确定用户的朋友amy发出了“播放我也喜欢的一些东西”,则电子设备从一个或多个源识别amy的偏好(最喜欢的流派、显式语言设置),并将偏好用作搜索参数用于改进媒体请求。以下提供了有关为多人提供合并的偏好简档的其他信息。在一些示例中,上下文信息包括与第一媒体项目相关的信息。例如,如果用户响应于第一媒体项目的推荐而说出“播放比此更近的东西”,则电子设备800基于第一媒体项目的发布日期导出时间参数。应当理解,用于改进媒体请求的上述参数仅仅是示例性的。应当进一步理解,电子设备可在电子设备正在处理原始媒体请求和/或在电子设备正在基于原始媒体请求提供(例如,提供与一个或多个媒体项目相关的信息或者一个或多个媒体项目的回放)一个或多个媒体项目的任何时刻接收用于改进媒体请求的用户请求。应当进一步理解,使用自然语言语音输入(例如,自然语言语音输入814)来改进媒体请求仅仅是示例性的。在一些示例中,电子设备800可响应于经由电子设备的一个或多个传感器接收输入(例如,触觉输入、手势输入、按钮按压)而启动用于改进媒体请求和/或提供另外的媒体项目的方法。执行媒体搜索的其他示例性描述在2016年6月8日提交的美国专利申请62/347,480“intelligentautomatedassistantformediaexploration”中提供,其全部内容通过引用并入本文。美国专利申请62/347,480描述了用于尤其确定语音输入是否对应于获得媒体项目的个性化推荐的用户意图的示例性技术。响应于此类确定,在一些示例中,获得来自用户特定媒体项目语料库的至少一个媒体项目。在于2015年5月16日提交的美国专利申请62/507,056“providinganauditory-basedinterfaceofadigitalassistant”中提供了获得上下文信息的附加示例性描述,其全部内容通过引用并入本文。美国专利申请62/507,056描述了用于尤其是在接收自然语言语音输入之前、期间或之后获得上下文信息的示例性技术。在一些示例中,所获得的上下文信息包括用户特定信息和电子设备的物理状态。在确定自然语言语音输入814对应于改进先前媒体请求的用户意图(例如,m个最佳候选意图中的一者)之后,电子设备识别不同于第一媒体项目的第二媒体项目。第二媒体项目可是歌曲、有声读物、播客、电台、播放列表或其任何组合。参考图8a,电子装置800基于语音输入812中的参数(“adele”,“新的”,“歌曲”)和语音输入814中的参数(“i’vegivingyouupi’mforgivingitall”)来识别第二媒体项目。在一些示例中,基于自然语言语音输入812(“heysiri,播放adele的新歌曲”),电子设备800识别第一组媒体项目(例如,在过去三个月中由adele发布的一组歌曲)。在第一组媒体项目中,电子设备选择歌曲“hello”(例如,基于受欢迎等级)来提供给用户。其后,基于后续的自然语言语音输入814,电子设备800基于从自然语言语音输入814导出的指定参数来识别第一组媒体项目的子集(例如,仅第一组歌曲中包括歌词“i’mgivingyouupi’mforgivingitall”的歌曲)。在一些示例中,识别第一组媒体项目的子集包括确定第一组媒体项目是否与与自然语言输入814中的指定参数相匹配的内容(例如,歌词、脚本)或元数据(流派、发布日期)相关联。如果是,电子设备800然后从子集中选择第二媒体项目(歌曲“sendmylove”)以提供给用户。如果不是,电子设备800放弃选择第二媒体项目以提供给用户。在一些示例中,电子设备从用户特定媒体项目语料库中识别第一媒体项目和/或第二媒体项目。在一些示例中,电子设备800基于与用户输入相关联的声学信息(例如,自然语言语音输入814)来识别用户特定语料库。基于与用户相关联的数据(例如,偏好、设置、先前请求、先前选择、先前拒绝、先前用户购买、用户特定播放列表)生成用户特定语料库。在一些示例中,基于软件服务(例如,媒体服务或社交媒体服务)生成用户特定语料库的至少一部分。例如,用户特定语料库将先前被用户拒绝或不喜欢的媒体项目(例如,在软件服务上)与低排名相关联,或者不包括这些媒体项目。又如,用户特定语料库包括与用户在软件服务上拥有/购买的媒体项目相对应的数据。又如,用户特定语料库包括与用户在软件服务(例如,播放列表)上创建的媒体项目相对应的数据。如上所述,电子设备可通过确定用户特定语料库中的媒体项目是否与匹配所指定的搜索参数的元数据或内容相关联来识别媒体项目。在一些示例中,用户特定语料库中的至少一个媒体项目包括指示以下项的元数据:活动(例如,锻炼、睡觉);情绪(例如,乐观,平静,悲伤);场合(例如,生日);时间段(例如,80s),位置;管理者(例如,滚石列表);集合(例如,夏季播放列表);一个或多个先前用户输入(用户先前的拒绝,用户先前喜欢);或它们的任何组合。在2016年6月8日提交的美国专利申请62/347,480“intelligentautomatedassistantformediaexploration”中提供了用户专用语料库的附加示例性描述,其全部内容通过引用并入本文。在一些示例中,用户特定语料库中的至少一个媒体项目包括基于来自与提供媒体请求的用户不同的人的信息的元数据。例如,媒体项目可基于在对应于海滩的位置处软件应用(例如,诸如itunes的媒体服务)的所有用户播放它的频率与“海滩”位置相关联。又如,媒体项目可基于其已经由用户的朋友(即,与社交媒体服务上的用户相关联)和/或由来自类似人口统计分段的人播放的次数与活动(例如,聚会)相关联。在一些示例中,在不同于电子设备800的远程设备上生成元数据。在一些示例中,用户特定语料库中的至少一个媒体项目是用户未被授权访问(例如,尚未购买)的媒体项目,但是物理接近电子设备800的另一人被授权,如更详细讨论的。此后,电子设备800提供第二媒体项目。在一些示例中,第二媒体项目以与上文相对于第一媒体项目所述的方式提供的方式提供。参考图8a,电子设备800的数字助理提供歌曲“sendmylove”的回放816。如图所示,例如,在提供第二媒体项目的回放的同时,数字助理还提供包括第二媒体项目的描述(“这里是sendmylove”)的自然语言语音输出817。在一些示例(未示出)中,电子设备800响应于自然语言语音输入814提供第二媒体项目的代表性样本的回放,并且在整体提供第二媒体项目之前需要用户确认。在一些示例中,电子设备800提供基于自然语言语音输入814识别的多个媒体项目的概要和/或列表(例如,“我找到了具有那些歌词的两首歌曲:sendmylove,sendmyloveacousticversion…”)。在一些示例中,参照图8b,电子设备800接收第三自然语言语音输入818(“heysiri,将其添加到我的星期六早上播放列表”)。基于第三自然语言语音输入818,电子设备确定将媒体项目与媒体项目的集合相关联的用户意图。电子设备可基于上下文信息(例如,当前/先前播放的媒体项目)来确定用户意图。在所示的示例中,电子装置800将当前播放的歌曲“sendmylove”与名为“星期六早上”的播放列表相关联,并提供指示关联的语音输出820(“完成”)。在另一个示例(未示出)中,电子设备可接收自然语言语音输入“将最后10首歌曲添加到称为新收藏夹的新播放列表”。作为响应,电子设备可创建名为“新收藏夹”的媒体项目的新集合并且将先前播放的10首歌曲与新集合相关联。在一些示例中,电子设备800在提供“sendmylove”的回放的同时接收第四自然语言语音输入822(“adele在巡回演出?”)。基于第四自然语言语音输入822,电子设备确定获取与特定媒体项目有关的信息(例如,艺术家、发行日期、相关采访、背后故事、歌词的含义、巡回信息,用户的哪些朋友听过该媒体项目)的用户意图。在一些示例中,基于上下文信息(播放的歌曲,先前播放的歌曲)来识别特定媒体项目。在所示的示例中,电子设备800确定获得与当前播放歌曲的歌手adele相关的巡回信息的用户意图,并且提供指示该信息的语音输出824(“是的,adele将在下个月在你的城市中。你要票吗?”)。在所示的示例中,用户提供负响应826(“现在不”)。在另一个示例(未示出)中,用户可提供肯定响应,并且电子设备800可发起用于购买音乐会门票的方法。在一些示例中,电子设备800在没有第四自然语言语音输入822的情况下自动提供信息。在一些示例中,在播放媒体项目时,电子设备800可提供指示另一个媒体项目的语音输出。以举例的方式,当提供第二媒体项目(“sendmylove”)时,电子设备800提供指示要播放的第三媒体项目的语音输出828(“接下来是adele的someonelikeyou”)。在提供第二媒体项目之后,电子设备800提供第三媒体项目。在一些示例中,在播放媒体项目时,电子设备800可接收指示位置的自然语言语音输入(例如,“在车库播放”)。作为响应,电子设备800基于指定的位置识别另一个电子设备(例如,与用户的车库相关联的扬声器,物理上位于用户的车库中的电话)并且使识别的电子设备提供媒体项目的回放。在一些示例中,电子设备800可向识别出的电子设备发送(例如,直接地或经由远程设备)与回放有关的信息(例如,媒体项目的识别信息、回放的进展、回放设置,诸如音量)。例如,在2010年9月30日提交的标题为“intelligentassistantforhomeautomation”的美国实用新型申请no.14/503,105(代理人案卷号no.106842108200(p23013us1)、于2016年6月9日提交的标题为intelligentassistantforhomeautomation”的美国临时专利申请no.62/348,015(代理人案卷号770003000100(p30331usp1))以及于2016年6月11日提交的标题为“intelligentdevicearbitrationandcontrol”的美国临时专利申请no.62/348,896(代理人案卷号770003001400(p30585usp1))中可找到用于处理指示位置的自然语言语音输入和相应地处理媒体请求的附加描述,其全部公开内容通过引用并入本文。美国实用新型申请14/503,105描述了用于尤其使用虚拟助理来控制电子设备(例如,门锁、恒温器等)的示例性技术。美国临时专利申请62/348,015描述了用于尤其确定用户输入是否对应于使用建立位置的设备执行任务并检索表示建立位置的一组设备的数据结构的用户意图的示例性技术。美国临时专利申请序列号no.62/348,896描述了用于尤其确定许多设备中的哪个设备应该使用基于口头输入广播的值来响应口头输入的示例性技术。图9a-图9b示出了电子设备900。在一些实施方案中,电子设备900可是设备200,设备400,设备600和设备800中的任何一者(图2a,图4,图6a-图6b和图8a-图8b)在例示的示例中,电子设备900是具有一个或多个扬声器的电子设备,但可以理解,电子设备可是任何类型的设备,诸如电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如智能手表)、机顶盒、电视机、扬声器或其任何组合或子组合。参考图9a,电子设备900(例如,经由麦克风)接收指示对电子设备900的数字助理的请求的自然语言语音输入910。自然语言语音输入910可包括可针对数字助理的任何请求。在一些示例中,自然语言语音输入包括预定触发短语(例如“嘿,siri”)。在图9a所示的示例中,用户902提供自然语言语音输入910,其包括触发短语和对媒体项目的请求:“嘿,siri,您今天为我有什么音乐?”电子设备900以符合上文相对于电子设备800所讨论的方式处理自然语言语音输入。例如,电子设备900处理自然语言语音输入910以提供一个或多个候选文本表示(例如,文本表示“heysiri,你今天为我有什么音乐”)和一个或多个候选意图(例如,“获取媒体推荐”的用户意图)。电子设备900基于自然语言语音输入910来识别任务。在一些示例中,电子设备900基于一个或多个候选意图(继而基于一个或多个候选文本表示来识别)标识一个或多个候选任务,如上所述。此外,电子设备执行候选任务以获得一个或多个结果。所述一个或多个结果可包括与媒体项目相关的信息,诸如歌曲、有声读物、播客、电台、播放列表或它们的组合。在图9a所示的示例中,电子设备900基于自然语言语音输入910来识别具有“为我”和“音乐”参数的“提供媒体项目”的候选任务。此外,电子设备900执行所识别的任务以获得与播放列表“transgressive新发布”有关的信息。参考图9a,电子设备900提供指示与所识别的任务相关联的言语响应的语音输出914。具体地,电子设备900提供所识别的播放列表(“我已获得播放列表transgressive新发布”)的言语描述。在一些示例中,向用户提供的言语描述包括对应于所识别的媒体项目的信息(例如,元数据)、从用户请求识别的参数,或它们的组合。例如,响应于用户请求“从我最喜爱的艺术家播放某些东西”,电子设备900可提供语音输出“这是你最爱的歌手中的一者adele的歌曲,上周发布”。电子设备900可基于用户特定语料库的元数据来确定用户的最爱歌手。如参考图8所述,在一些示例中,用户指定的语料库中的至少一个媒体项目包括指示一个或多个先前用户输入(先前被用户拒绝,用户先前搜索)的元数据。另选地,在一些其他示例中,电子设备900可基于用户偏好数据(例如,用户数据和模型231)来确定用户的最爱歌手。在一些示例中,电子设备900根据一个或多个文本到语音模式来提供语音输出914。例如,可以数字助理的声音、与媒体项目相关联的声音(例如,艺术家,dj)或其组合来提供语音输出914。于2017年5月16日提交的美国专利申请62/507,056“providinganauditory-basedinterfaceofadigitalassistant”(代理人案号770003015700(p34183usp1))中提供了使用不同文本到语音模式的附加示例性描述,通过引用将其全部内容并入本文。美国专利申请62/507,056描述了用于尤其使用基于上下文信息(诸如在自然语言语音输入中指定的信息)的不同文本到语音模式的示例性技术。在提供表示言语响应的语音输出(例如语音输出914)的同时,电子设备900同时提供音频输出912,该音频输出912是对应于言语响应的媒体项目的回放。在一些示例中,播放的媒体项目是所识别的媒体项目的一部分(例如代表性样品)。例如,如果所识别的媒体项目为单个歌曲,则回放可包括歌曲的合唱或第一节。又如,如果所识别的媒体项目是播放列表,则回放可包括播放列表中每个歌曲的5秒片段。在一些示例中,电子设备900以与语音输出不同的音量(例如,较低)提供回放。在一些示例中,电子设备900以与语音输出不同的保真度(例如,较低)提供回放。在一些示例中,电子设备900在提供语音输出914之前开始提供音频输出912。在其他示例中,电子设备900开始同时提供音频输出912和语音输出914。在其他示例中,电子设备900在提供音频输出912之前开始提供语音输出914。在2016年9月23日提交的美国专利申请62/399,232“intelligentautomatedassistant”(代理人案卷号770003001300(p30584usp1))中提供了在回放期间调整音频的附加描述,其全部内容通过引用并入本文。在一些示例中,在提供回放912的同时,电子设备接收自然语言语音输入916(“播放它!”)。响应于接收到自然语言语音输入916,电子设备900提供音频输出918,该音频输出918是整个已识别媒体项目的回放(例如,从开始)。在一些示例中,回放918以与回放912不同的音量和/或保真度提供。在一些示例中,在提供回放918的同时,电子设备800提供指示与媒体项目相关的信息的语音输出(未示出)。这些信息可对应于例如一首歌曲的琐事(“这是上周发布的”),艺术家的巡演信息(“这位艺术家下个月即将来到加利福尼亚州。想要门票吗?”)或新闻(“这位艺术家刚刚订婚。让我知道你是否想了解更多的事情。”)媒体项目可是正在回放,先前播放或将由电子设备900播放的媒体项目。在一些示例中,电子设备900提供所标识的媒体项目的描述而不提供对代表性样本的回放,而不是同时提供两层音频(例如,所识别的媒体项目的言语描述和代表性样本)。在一些示例中,用户902可提供听取代表性样本的后续请求(例如,“它听起来像什么?”,“播放列表中有什么样的歌曲?”)。作为响应,电子设备900提供代表性样品(例如,“让我们听一下30<秒摘要>”)的回放,并且在某些情况下,提示用户输入附加的输入(“您希望我播放它?”)。应当理解,上述用于提供多个音频层的技术仅仅是示例性的。一般来讲,电子设备900可提供分层的和/或协调的音频信息作为数字助理和用户之间的任何交互的一部分。例如,参考图9b,电子设备900接收自然语言语音输入918(“嘿,siri,我的团队是如何做的?”)。基于输入,电子设备900识别任务(例如,“获得体育赛事的得分”的候选任务)和一个或多个参数(例如“giants”),并且执行任务以获得一个或多个结果(例如,得分)。在一些其他示例中,电子设备900可基于用户偏好数据(例如,用户数据和模型231)来确定一个或多个参数。电子设备900提供指示与所识别的任务相关联的言语响应的语音输出922。在所示的示例中,语音输出922指示获得的结果(“昨天giants赢了,得分是…”)的言语描述。在提供语音输出922时,电子设备900还提供对应于言语响应的媒体项目的回放920。在所示的示例中,媒体项目是对应于获奖得分(例如,人群欢呼)的声音效果。在一些示例中,声音效果是预先录制的音频(例如,通用音效,在相关体育赛事中记录的音频)或实况流(例如,电子设备的当前位置处的降雨声音)。在一些示例中,语音输出922以不同于回放920的不同音量(例如更高)和/或保真度(例如更高)提供。应当理解,电子设备900的数字助理可以各种文本到语音模式、声音和序列与用户交互(例如提供信息)。一般来讲,数字助理可在各种层(例如,背景音频、前景音频)和音频输出的各种类型(例如,音效、语音、音乐)之间进行协调以提供直观、丰富且自然的用户界面。例如,电子设备可基于前景音频的时间、音量、保真度和内容来调整背景音频的时间、音量、保真度和内容。图10a-图10b示出了电子设备1000。在一些实施方案中,电子设备1000可是设备200,设备400,设备600,设备800和设备900(图2a,图4,图6a-图6b,图8a-图8b和图9a-图9b)中的任何一者。在例示的示例中,电子设备1000是具有一个或多个扬声器的电子设备,但可以理解,电子设备可是任何类型的设备,诸如电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如智能手表)、机顶盒、电视机、扬声器或其任何组合或子组合。参考图10a,电子设备1000接收(例如,经由麦克风)自然语言语音输入1010,该自然语言语音输入指示媒体对电子设备1000的数字助理的请求(“嘿,siri,我该听什么呢?”)。电子设备1000以与上文结合电子设备800和900所述的方式处理自然语言语音输入。例如,电子设备1000处理自然语言语音输入1010以提供一个或多个候选文本表示(例如,文本表示“嘿,siri,应该听什么”)和一个或多个候选意图(例如,“获得媒体建议”的用户意图)。电子设备1000基于自然语言语音输入1010来识别任务。在一些示例中,电子设备1000基于上述一个或多个候选意图来识别一个或多个候选任务,并且执行最高级别的候选任务以获得一个或多个结果。在一些示例中,一个或多个结果包括相关信息:歌曲、有声读物、播客、电台、播放列表或它们的组合。在图10a所示的示例中,电子设备1000利用参数“为我”来识别“提供媒体项目”的候选任务,并执行获得第一媒体项目(banks的“thealtar”)的任务。响应于接收语音输入1010,电子设备1000提供指示第一媒体项目(“如果你觉得可选,我得到banks的‘thealtar’”)的建议的音频输出1012。在一些示例中,第一媒体项目的建议包括使媒体推荐情境化的附加信息,诸如媒体项目的元数据(例如,流派,艺术家)和推荐该媒体项目的原因(“例如,如果你觉得可选,…”)。在一些示例中,电子设备1000同时提供所推荐媒体项目的一部分的回放。在一些示例中,在提供音频输出1012之后,电子设备1000接收语音输入1014(“nah”)。电子设备确定语音输入1014是否指示与对媒体的请求相对应的非肯定响应(例如,“否”,“下一个”,“不喜欢它”,“讨厌它”,“一对多”和指示拒绝的任何短语的自然语言等同物)。根据确定语音输入1014指示不肯定响应,电子设备更新对应于该请求的连续的非肯定响应的数量。另一方面,根据确定语音输入1014不指示非肯定响应,电子设备放弃更新数量。在所示的示例中,电子设备基于语音输入1014将数量从0更新到1。参考图10a,在一些示例中,电子设备1000提供另一音频输出1016,该音频输出1016指示第二媒体项目(“播放列表whenhip-hopgoesleft怎么样?”)的建议。在一些示例中,电子设备900将第一媒体项目和第二媒体项目识别为单个搜索的一部分,并且第一媒体项目具有比第二媒体项目更高的置信度分数,并且因此由电子设备首先建议。在一些示例中,电子设备分别执行两次单独的搜索以识别第一媒体项目和第二媒体项目,并且在用户对第一媒体项目的建议提供不肯定的响应(例如,音频输入1014)之后执行第二搜索。在提供第二媒体项目的建议之后,电子设备1000接收语音输入1018(“下一个”)。电子设备确定语音输入1018是否以与关于语音输入1014描述的方式一致的方式指示对应于对媒体的请求的非肯定响应。在所示的示例中,电子设备确定语音输入1018指示非肯定响应并将数量从1更新成2。参考图10a,在一些示例中,电子设备1000提供指示第三媒体项目(我也已经得到播放列表“ifyoulikealabamashakes.”)的建议的另一音频输出1020。电子设备900可在单个搜索中或在不同的搜索中(例如,使用不同的搜索参数和/或上下文信息)识别第一媒体项目、第二媒体项目和第三媒体项目。在提供第三媒体项目的建议之后,电子设备1000对来自用户的输入进行采样(例如,经由麦克风)。在一些示例中,电子设备确定在预定时间段(例如5秒)内没有接收到响应。根据该确定,电子设备更新与请求相对应的连续的非肯定响应的数量。在所述示例中,电子设备确定在预定时间段内没有接收到响应(例如,静音)并且将该数量从2更新为3。电子设备1000确定与对媒体的请求相对应的连续的非肯定响应的数量是否满足阈值。在一些示例中,电子设备在提供音频输出1012,1016和1020中的每一者之后进行确定。根据确定连续的非肯定响应的数量不满足阈值,电子设备提供指示另一媒体项目的建议的音频输出。例如,在接收到音频输出1018(“下一个”)之后,电子设备确定连续的非肯定响应的数量(2)不等于预定阈值(例如,3)。因此,电子设备提供语音输出1020以建议与已经建议的不同的另一媒体项目。根据确定连续的非肯定响应的数量满足阈值,电子设备放弃提供另一媒体项目的建议,而是提供指示对用户输入的请求的音频输出。例如,在接收到非肯定响应1022(例如,静音预定时间量)之后,电子设备确定连续的非肯定响应的数量(3)等于预定阈值(例如,3)。因此,参考图10b,电子设备提供语音输出1024(“好的。你能说出一位你最近享受过的艺术家吗?”)。在一些示例中,语音输出1024指示针对媒体的请求的一个或多个参数的提示。在所示的示例中,电子设备1000提示用户输入艺术家参数(“你可以说出你最近享受的艺术家吗?”)并且接收语音输入1026(“um…flume”)。语音输入1026指示用于对媒体的请求的参数(艺术家=flume)。基于所接收的参数,电子设备1000识别不同于先前推荐的媒体项目的另一个媒体项目。因此,电子设备1000通过语音输出1028提供所识别的媒体项目(“太好了,这里是播放列表,‘ifyoulikeflume’”)。在一些示例中,基于所接收的参数,电子设备更新用户偏好数据(例如,用户数据和模型231)和/或因此用户特定语料库。在一些示例中,另选地或除此之外提供语音输出1024,电子设备1000提供指示在先前建议的多个媒体项目中进行用户选择的提示的语音输出(例如,“这些有听起来好的吗?”)。在一些示例中,电子设备接收指示用户选择的语音输入(例如,“是的,第二个”,“嘻哈的那个”,“adele的一个”)并基于上下文信息解释语音输入。上下文信息可包括先前由电子设备建议的多个媒体项目。图11示出了电子设备1100。在一些实施方案中,电子设备1100可是设备200,400,600,800,900,和1000(图2a,图4,图6a-图6b,图8a-图8b,图9a-图9b和图10)中的任何一者。在例示的示例中,电子设备1100是具有一个或多个扬声器的电子设备,但可以理解,电子设备可是任何类型的设备,诸如电话、膝上型计算机、台式计算机、平板电脑、可穿戴设备(例如智能手表)、机顶盒、电视机、扬声器或其任何组合或子组合。在操作中,电子设备1100接收(例如,经由麦克风)由用户1102发出的指示对电子设备1100的数字助理的媒体请求的自然语言语音输入1110(“heysiri,播放一些东西”)。在所示的示例中,电子设备1100与用户1102相关联。电子设备1100以与以上关于电子设备800,900,和1000描述的方式一致的方式处理自然语言语音输入。例如,电子设备1100处理自然语言语音输入1110以提供一个或多个候选文本表示(例如,文本表示“heysiri,播放一些东西”)和一个或多个候选意图(例如,“获取媒体建议”的用户意图)。电子设备1100检测靠近电子设备的多个用户的物理存在。在一些示例中,电子设备1100可基于与与人相关联的电子设备有关的信息(诸如该人的电子设备的连接状态(例如,在同一wi-fi网络上、在蓝牙范围内、在nfc范围内),基于该人的电子设备的信息等检测人的物理存在。例如,如果用户的姐姐也与电子设备1100物理接近并且她的电话在她身上,则电子设备1100可接收对应于姐姐的电话的信息。例如,电子设备1100可从姐姐的设备(例如,经由蓝牙连接)接收标识信息(例如,电话号码,用户名)。又如,电子设备1100可从路由设备(例如,电子设备1100和姐姐的设备都连接到的无线路由器)接收标识信息。在一些示例中,电子设备1100可基于人的面部特性和/或声音特性(通过例如相机和麦克风捕获)来检测人的物理存在。在其他示例中,电子设备800可基于本地可用的信息(诸如在日历邀请或电子邮件消息中列出的联系人)来检测人的物理存在。在其他一些示例中,电子设备800可基于由该人提供的证书(例如,用户名和密码)来检测人的物理存在。在一些示例中,电子设备1100在检测到人的物理存在之后提示消歧输入(例如,“我听到的是jason还是john?”)和/或确认输入(例如,“john是否加入聚会?”)。响应于检测到多个用户(例如,家庭成员,访客)的物理存在,电子设备1100获得与多个用户相对应的多个偏好简档。在一些示例中,电子设备1100从远程设备(例如,服务器设备)接收对应于除了用户1102之外的人(例如,用户的姐姐)的偏好简档。在一些示例中,电子设备1100直接从人的电子设备(例如,姐妹的电话)接收与用户1102以外的人(例如,用户1102的姐妹)相对应的偏好简档。在一些示例中,电子设备1100在本地存储除了用户1102之外的人的偏好简档。例如,用户1102可能先前已经要求数字助理本地存储偏好(例如,“嘿,siri,记得我的姐姐喜欢披头士”)。基于所述多个偏好简档,电子设备1100提供合并的偏好简档。在一些示例中,提供合并的偏好简档包括识别由所述多个偏好简档中的每一者共享的一个或多个偏好。在所示的示例中,电子设备1100基于用户的偏好简档和姐姐的偏好简档来提供合并的偏好简档。由于用户和姐姐都偏好披头士乐队,所以合并的偏好简档包括对披头士乐队的偏好。另一方面,因为只有用户,而不是姐姐对banks具有偏好,因此在一些示例中,合并的偏好简档可不包括对banks的偏好。基于合并的偏好简档,电子设备1100识别媒体项目。所识别的媒体项目可是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。例如,电子设备1100识别歌曲“heyjude”,因为歌曲的元数据(例如,艺术家)匹配合并简档的一个或多个偏好(例如,披头士乐队)。因此,电子设备1100提供音频输出1112(“这是你可能喜欢的,来自披头士的东西”)。音频输出1112包括对所识别的媒体项目的描述(“来自披头士乐队”)并且对合并的简档进行参考(例如,“你们都可能喜欢的东西”)。电子设备1100还提供包括所识别的媒体的音频输出1113(歌曲“heyjude”的回放)。在一些示例中,基于合并的偏好简档识别媒体项目包括识别来自多个媒体项目的媒体项目。在一些示例中,多个媒体项目包括与第一用户相关联的第一组媒体项目(例如,第一用户被授权访问)和与第二用户相关联的第二媒体项目组(例如,第二用户被授权访问)。在所示的示例中,所标识的媒体项目不是第一组媒体项目的一部分,但是是第二组媒体项目的一部分(即,用户不能访问歌曲“heyjude”,但用户的姐姐可以)。在一些示例中,在检测到包括第二用户(例如,姐姐)的多个用户的物理存在之后,电子设备1100检测到第二用户的存在缺失。电子设备1100可使用与用于检测第二用户的存在的技术类似的技术来检测第二用户的存在缺失。例如,电子设备1100可通过获得与第二用户的电子设备有关的信息(例如,姐姐的设备是否仍连接到无线网络)来检测存在缺失。信息可直接从第二个用户的设备或从网络路由器获得。在检测到第二用户不存在之后,电子设备1100更新合并的偏好简档和/或多个媒体项目以从中搜索。例如,如果电子设备1100检测到缺少用户的姐姐的存在,则电子设备1100从用于从其搜索的多个媒体项目中移除只有姐姐有权访问的媒体项目(例如,姐姐的披头士集合)。在一些示例中,电子设备1100基于偏好和/或除了用户之外的人的活动来接收指示对媒体的请求的自然语言语音输入1114。在图11中所示的示例中,用户1102提供音频输出1114(“我的朋友在听什么?”)。作为响应,电子设备1100识别一个或多个人(例如,经由联系人列表,诸如社交媒体服务和媒体服务的软件服务以及其他用户特定数据)。此外,电子设备从一个或多个源(例如,软件服务,诸如社交媒体服务和软件服务)获得与一个或多个人的偏好(例如,偏好流派,偏好艺术家)和/或活动(最近播放的歌曲)有关的信息。例如,电子设备1100可识别与软件服务上的用户相关联的一个或多个人并且识别这些人中的一些或全部使用软件服务已经播放的媒体项目。另选地,电子设备1100通过在数据库(例如,上面讨论的用户特定语料库)中搜索具有适当元数据(例如,朋友标签)的媒体项目来识别媒体项目。在所示的示例中,电子设备1100提供音频输出1116(“这里是adele的hello”)以提供所识别的媒体项目。在一些示例中,电子设备接收指示对信息的请求的自然语言语音输入1118(“谁在听这个?”)。作为响应,电子设备1100提供与媒体项目相关联的一个或多个人的标识信息(例如,使用用户特定语料库,使用相关软件服务)。标识信息可从本地和/或从一个或多个远程设备获得。在所示的示例中,电子设备1100提供音频输出1120(“你的朋友john和jane”)以提供标识信息。4.为媒体探索提供数字助理的基于听觉的界面的方法图12示出了根据各种示例的用于操作数字助理的方法1200。可使用例如实施了数字助理的一个或多个电子设备来执行方法1200。在一些示例中,利用客户端-服务器系统(例如,系统100)执行方法1200,并且在服务器(例如,da服务器106)和客户端设备之间以任何方式划分方法1200的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分方法1200的框。因此,尽管方法1200的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,方法1200不限于此。在其他示例中,利用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行方法1200。在方法1200中,一些框被任选地组合,一些框的顺序被任选地改变,并且一些框被任选地省略。在一些示例中,附加步骤可与方法1200结合而执行。在框1202处,电子设备接收指示对媒体的请求的第一自然语言语音输入。第一自然语言语音输入包括第一搜索参数。在一些示例中,基于第一自然语言语音输入,电子设备获得文本字符串。此外,电子设备基于文本字符串来确定用于获得对媒体项目的推荐的用户意图的表示。此外,电子设备基于用户意图的表示来确定任务以及用于执行任务的一个或多个参数,其包括第一搜索参数。在框1204处,电子设备(或电子设备的数字助理)提供第一媒体项目。第一媒体项目基于第一搜索参数来识别。在一些示例中,第一媒体项目是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。在一些示例中,提供第一媒体项目包括:由数字助理提供指示与第一媒体项目相关联的言语响应的语音输出。提供所述第一媒体项目还包括:在提供指示所述言语响应的所述语音输出时,由所述数字助理提供所述第一媒体项目的一部分的回放。在一些其他示例中,提供第一媒体项目包括由数字助理提供第一媒体项目的回放。在一些其他示例中,提供第一媒体项目包括由数字助理提供包括第一媒体项目的多个媒体项目。在框1206处,在提供第一媒体项目时,电子设备接收第二自然语言语音输入。在一些示例中,响应于接收到第二自然语言语音输入,电子设备调节第一媒体项目被提供的方式。在框1208处,电子设备确定第二自然语言语音输入是否对应于改进对媒体的请求的用户意图。在一些示例中,确定第二自然语言语音输入是否对应于改进对媒体的请求的用户意图包括基于所述一个或多个预定义短语和所述一个或多个短语的自然语言等同物导出用于改进对所述媒体的请求的用户意图的表示。在一些示例中,确定第二自然语言语音输入是否对应于改进对媒体的请求的用户意图包括基于上下文信息导出改进对媒体的请求的用户意图的表示。在一些示例中,电子设备基于第二自然语言语音输入来获得用于改进对媒体的请求的一个或多个参数。在一些示例中,该一个或多个参数的参数对应于:媒体项目的抒情内容、场合或时间段、活动、位置、心情、预定时间范围内的发布日期、目标观众、媒体项目的集合或它们的任何组合。在一些示例中,第二自然语言语音输入与第一用户相关联,并且一个或多个参数的参数对应于不同于第一用户的第二用户。在一些示例中,获得用于改进对媒体的请求的一个或多个参数包括基于上下文信息来确定一个或多个参数。在一些示例中,上下文信息包括与第一媒体项目相关的信息。在一些示例中,电子设备检测一个或多个用户的物理存在,并且上下文信息包括与一个或多个用户相关的信息。在一些示例中,上下文信息包括与电子设备的一个或多个用户相关联的设置。在框1210处,根据第二自然语言语音输入对应于改进对媒体的请求的用户意图的确定,电子设备(或数字助理)基于第一参数和第二自然语言语音输入识别不同于第一媒体项目的第二媒体项目,并且提供第二媒体项目。第二媒体项目可是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。在一些示例中,基于第一自然语言语音输入,电子设备获得第一组媒体项目并从第一组媒体项目选择第一媒体项目。此外,基于第二自然语言语音输入,电子设备获得第二组媒体项目,该第二组媒体项目是第一组媒体项目的子集,并且从该第二组媒体项目中选择第二媒体项目。在一些示例中,获得第二组媒体项目包括基于所述一个或多个参数从第一组媒体项目中选择一个或多个媒体项目以改进对媒体的请求。在一些示例中,识别第二媒体项目包括确定与第二媒体项目相关联的内容是否与一个或多个参数中的至少一者匹配。在某些其它示例中,识别第二媒体项目包括确定与第二媒体项目相关联的元数据是否与一个或多个参数中的至少一者匹配。在一些示例中,电子设备从用户特定的媒体项目语料库中获得第二媒体项目,所述用户特定的媒体项目语料库基于与用户相关联的数据而生成。在一些示例中,电子设备基于与第二自然语言语音输入相关联的声学信息来识别媒体项目的用户特定语料库。在一些示例中,媒体项目的用户特定语料库中的媒体项目包括指示以下项的元数据:活动;情绪;场合;位置;时间;管理者;播放列表;一个或多个先前的用户输入;或它们的任何组合。在一些示例中,元数据的至少一部分基于来自不同于第一用户的第二用户的信息。在一些示例中,提供第二媒体项目包括由数字助理提供指示与第二媒体项目相关联的言语响应的语音输出。此外,提供第二媒体项目包括在提供表示言语响应的语音输出的同时由数字助理提供第二媒体项目的一部分的回放。在一些示例中,提供第二媒体项目包括由数字助理提供第二媒体项目的回放。在一些其他示例中,提供第二媒体项目包括由数字助理提供包括第二媒体项目的多个媒体项目。在一些示例中,电子设备接收第三自然语言语音输入并且基于第三自然语言语音输入来确定将第二媒体项目与媒体项目的集合相关联的用户意图的表示。此外,电子设备将第二媒体项目与媒体项目的集合相关联,并且由数字助理提供指示该关联的音频输出。在一些示例中,在提供第二媒体项目的同时,电子设备接收第四自然语言语音输入。此外,电子设备基于第四自然语言语音输入来确定获得与特定媒体项目有关的信息的用户意图的表示,并且由数字助理提供与特定媒体项目有关的信息。在一些示例中,电子设备基于上下文信息选择特定媒体项目。在一些示例中,在提供第二媒体项目的同时,电子设备(或电子设备的数字助理)提供指示第三媒体项目的语音输出,并且在提供第二媒体项目之后提供第三媒体项目。在一些示例中,电子设备是计算机、机顶盒、扬声器、智能手表、电话或它们的组合。上面参考图12描述的操作可选地由图1-图4,图6a-图6b和图7a-图7c中所示的部件实施。例如,方法1200的操作可由本文描述的任何设备或其部件来实现,包括但不限于设备104,200,400,600,800,900,1000,和1100。本领域人员会清楚地知道如何基于在图1-图4、图6a-图6b和图7a-图7c中所描绘的部件来实现其他过程。图13示出根据各种示例的用于提供数字助理的基于听觉的界面的方法1300。可使用例如实施了数字助理的一个或多个电子设备来执行方法1300。在一些示例中,利用客户端-服务器系统(例如,系统100)执行方法1300,并且在服务器(例如,da服务器106)和客户端设备之间以任何方式划分方法1300的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分方法1300的框。因此,尽管方法1300的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,方法1300不限于此。在其他示例中,利用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行方法1300。在方法1300中,一些框被任选地组合,一些框的顺序被任选地改变,并且一些框被任选地省略。在一些示例中,附加步骤可与方法1300结合而执行。在框1302处,电子设备接收自然语言语音输入。在一些示例中,自然语言语音输入指示对一个或多个媒体项目的请求。在框1304处,电子设备(或电子设备的数字助理)基于自然语言语音输入识别任务。在一些示例中,识别任务包括:基于自然语言语音输入获得文本字符串;解释文本字符串以获得用户意图的表示;以及基于用户意图的表示来确定任务。在一些示例中,基于自然语言语音输入来识别任务包括识别提供一个或多个媒体项目的任务。在一些示例中,电子设备基于语音输入来识别媒体项目(在下文中称为“第二媒体项目”)并且获得与媒体项目相对应的信息(例如,通过执行所识别的任务)。在一些示例中,第二媒体项目包括:歌曲、有声读物、播客、电台、播放列表或它们的组合。在一些其他示例中,电子设备执行任务以获得一个或多个结果(例如,搜索结果)。在框1306处,电子设备(或电子设备的数字助理)提供指示与所识别的任务相关联的语言响应的语音输出。在一些示例中,提供语音输出包括提供第二媒体项目的言语描述。在一些示例中,以数字助理的声音、与第二媒体项目相关联的声音或其组合来提供语音输出。在一些示例中,提供指示与所识别的任务相关联的言语响应的语音输出包括提供指示对所述一个或多个结果(例如,搜索结果)中的结果的言语描述的语音输出。在框1308处,在提供表示言语响应的语音输出的同时,电子设备(或电子设备的数字助理)提供对应于言语响应的媒体项目(在下文中称为“第一媒体项目”)的回放。在一些示例中,播放的媒体项目对应于第二媒体项目的一部分。例如,播放的媒体项目是第二媒体项目的代表性样本。在一些示例中,在提供第一媒体项目的回放的同时,电子设备接收第二自然语言语音输入。响应于接收到所述第二自然语言语音输入,所述电子设备提供所述第二媒体项目的回放。在一些示例中,第二媒体项目的回放以不同于第一媒体项目的回放的不同音量提供。在一些示例中,指示与所识别的任务相关联的言语响应的语音输出为第一语音输出。当提供所述第二媒体项目的回放时,所述电子设备提供第二语音输出。在一些示例中,提供对应于言语响应的媒体项目的回放包括提供对应于结果的声音效果的回放。在一些示例中,指示与所识别的任务相关联的言语响应的语音输出以第一音量提供,并且媒体项目(例如,声音效果)的回放以不同于第一音量的第二音量提供。在一些示例中,电子设备是计算机、机顶盒、扬声器、智能手表、电话或它们的组合。上面参考图13描述的操作可选地由图1-图4,图6a-图6b,和图7a-图7c中所示的部件实现。例如,方法1300的操作可通过本文描述的任何设备或其部件来实现,包括但不限于设备104,200,400,600,800,900,1000,和1100。本领域人员会清楚地知道如何基于在图1-图4、图6a-图6b和图7a-图7c中所描绘的部件来实现其他方法。图14示出根据各种示例的用于提供数字助理的基于听觉的界面的方法1400。可使用例如实施了数字助理的一个或多个电子设备来执行方法1400。在一些示例中,利用客户端-服务器系统(例如,系统100)执行方法1400,并且在服务器(例如,da服务器106)和客户端设备之间以任何方式划分方法1400的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分方法1400的框。因此,尽管方法1400的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,方法1400不限于此。在其他示例中,利用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行方法1400。在方法1400中,一些框被任选地组合,一些框的顺序被任选地改变,并且一些框被任选地省略。在一些示例中,附加步骤可与方法1400结合而执行。在框1402处,电子设备接收指示对媒体的请求的语音输入。在一些示例中,基于指示对媒体的请求的语音输入,电子设备获得文本字符串。在一些示例中,电子设备还基于所获得的文本字符串来确定用户意图的表示,并且基于用户意图的表示来获得与一个或多个媒体项目有关的信息。在框1404处,响应于接收语音输入,电子设备(或电子设备的数字助理)提供指示第一媒体项目的建议的音频输出。在一些示例中,第一媒体项目是所述一个或多个媒体项目的一部分。在一些示例中,第一媒体项目是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。在框1406处,电子设备(或电子设备的数字助理)确定与对媒体的请求相对应的连续的非肯定响应的数量是否满足阈值。在一些示例中,指示对媒体的请求的语音输入是第一语音输入。此外,确定与对媒体的请求相对应的连续非肯定响应的数量是否满足阈值包括:在提供指示第一媒体项目的建议的音频输出之后,接收第二语音输入;以及确定第二语音输入是否指示与对媒体的请求相对应的非肯定响应。此外,根据第二语音输入指示非肯定响应的确定,电子设备更新对应于该请求的连续的非肯定响应的数量。根据确定第二语音输入不表示非肯定响应,电子设备放弃更新对应于该请求的连续的非肯定响应的数量。在一些示例中,确定第二语音输入是否指示对媒体请求的非肯定响应包括:确定第二语音输入是否指示拒绝。在一些示例中,确定与对媒体的请求相对应的连续的非肯定响应的数量是否满足阈值包括:在提供指示第一媒体项目的建议的音频输出之后,确定未在预定义的时间段内接收到对应于该请求的响应。确定与对媒体的请求对应的连续非肯定响应的数量是否满足阈值还包括:更新于所述请求对应的连续的非肯定响应的数量。在框1408处,根据连续的非肯定响应的数量不满足阈值的确定,电子设备(或电子设备的数字助理)提供指示不同于第一媒体项目的第二媒体项目的建议的音频输出。在一些示例中,第二媒体项目是所述一个或多个媒体项目的一部分。在一些示例中,第二媒体项目是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。在框1410处,根据连续的非肯定响应的数量满足阈值的确定,电子设备(或电子设备的数字助理)放弃提供指示第二媒体项目的建议的音频输出并且提供指示对用户输入的请求的音频输出。在一些示例中,提供指示对用户输入的请求的音频输出包括:由数字助理提供指示用于在数字助理先前建议的多个媒体项目中的进行用户选择的提示的语音输出。在一些示例中,在提供指示对用户输入的请求的音频输出之后,电子设备接收指示用户选择的语音输入并基于上下文信息解释指示用户选择的语音输入。在一些示例中,上下文信息包括先前由数字助理建议的多个媒体项目。在一些示例中,提供指示用户输入的请求的音频输出包括:由数字助理提供指示针对媒体的请求的一个或多个参数的提示的语音输出。在一些示例中,在提供指示对用户输入的请求的音频输出之后,电子设备接收指示媒体请求的一个或多个参数的语音输入。在一些示例中,电子设备基于一个或多个参数来获得第三媒体项目。所述第三媒体项目不同于所述第一媒体项目和所述第二媒体项目。在一些示例中,电子设备是计算机、机顶盒、扬声器、智能手表、电话或它们的组合。以上参考图14描述的操作任选地由图1-图4,图6a-图6b和图7a-图7c描绘的部件来实现。例如,方法1400的操作可通过本文描述的任何设备或其部件来实现,包括但不限于设备104,200,400,600,800,900,1000,和1100。本领域人员会清楚地知道如何基于在图1-图4、图6a-图6b和图7a-图7c中所描绘的部件来实现其他方法。图15示出根据各种示例的用于提供数字助理的基于听觉的界面的方法1500。可使用例如实施了数字助理的一个或多个电子设备来执行方法1500。在一些示例中,利用客户端-服务器系统(例如,系统100)执行方法1500,并且在服务器(例如,da服务器106)和客户端设备之间以任何方式划分方法1500的框。在其他示例中,在服务器和多个客户端设备(例如,移动电话和智能手表)之间划分方法1500的框。因此,尽管方法1500的部分在本文中被描述为由客户端-服务器系统的特定设备执行,但应当理解,方法1500不限于此。在其他示例中,利用仅客户端设备(例如,用户设备104)或仅多个客户端设备来执行方法1500。在方法1500中,一些框被任选地组合,一些框的顺序被任选地改变,并且一些框被任选地省略。在一些示例中,附加步骤可与方法1500结合而执行。在框1502处,电子设备接收指示对媒体的请求的语音输入。在框1504处,电子设备(或电子设备的数字助理)检测到多个用户对电子设备的物理存在。在一些示例中,电子设备是与多个用户的第一用户相关联的第一电子设备。此外,检测所述多个用户对所述电子设备的物理存在包括:接收与与所述多个用户中的第二用户相关联的第二电子设备相对应的信息。在一些示例中,接收对应于所述第二电子设备的信息包括:在所述第一电子设备处接收来自所述第二电子设备的标识信息。在一些示例中,接收与所述第二电子设备对应的信息包括:接收来自与所述第一电子设备和所述第二电子设备连接的路由设备的标识信息。在框1506处,响应于检测到多个用户的物理存在,电子设备获得与多个用户相对应的多个偏好简档。在一些示例中,电子设备从远程设备接收与第二用户相对应的偏好简档。在其他示例中,对应于第二用户的偏好简档存储在电子设备上。在框1508处,电子设备(或电子设备的数字助理)基于多个偏好简档来提供合并的偏好简档。在一些示例中,提供合并的偏好简档包括:识别由所述多个偏好简档中的每一者共享的一个或多个偏好。在框1510处,电子设备(或电子设备的数字助理)基于合并的偏好简档来识别媒体项目。在一些示例中,所识别的媒体项目与和一个或多个偏好匹配的元数据相关联。所识别的媒体项目可是歌曲、有声读物、播客、电台、播放列表或它们的任何组合。在一些示例中,基于合并的偏好简档来识别媒体项目包括:从多个媒体项目中识别媒体项目。多个媒体项目包括与第一用户相关联的第一组媒体项目和与第二用户相关联的第二组媒体项目。在一些示例中,所标识的媒体项目不是第一组媒体项目的一部分,但是是第二组媒体项目的一部分。在框1512处,电子设备(或电子设备的数字助理)提供包括所识别的媒体项目的音频输出。在一些示例中,音频输出包括所识别的媒体项目的言语描述。在一些示例中,音频输出包括指示合并简档的语音输出。在一些示例中,在检测到多个用户的物理存在之后,电子设备(或电子设备的数字助理)检测到第二用户的存在缺失。在检测到第二用户的存在缺失之后,电子设备更新多个媒体项目并更新合并的偏好简档。在一些示例中,更新多个媒体项目包括从多个媒体项目中移除媒体项目。在一些示例中,电子设备是计算机、机顶盒、扬声器、智能手表、电话或它们的组合。以上参考图15描述的操作任选地由图1-图4,图6a-图6b和图7a-图7c描绘的部件来实现。例如,方法1500的操作可由本文所述的任何设备或其部件来实现,包括但不限于设备104,200,400,600,800,900,1000和1100。本领域人员会清楚地知道如何基于在图1-图4、图6a-图6b和图7a-图7c中所描绘的部件来实现其他方法。根据一些具体实施,提供一种计算机可读存储介质(例如,非暂态计算机可读存储介质),该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序,该一个或多个程序包括用于执行本文所述方法(method)或方法(process)中的任一者的指令。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括用于执行本文所述的方法(method)或方法(process)中的任一者的装置。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括处理单元,该处理单元被配置为执行本文所述的方法(method)或方法(process)中的任一者。根据一些具体实施,提供了一种电子设备(例如,便携式电子设备),该电子设备包括一个或多个处理器和存储用于由该一个或多个处理器执行的一个或多个程序的存储器,该一个或多个程序包括用于执行本文所述的方法(method)和方法(process)中的任一个的指令。出于解释的目的,已经参考具体实施方案对上述描述进行了描述。然而,上面的例示性论述并非旨在为穷尽或将本发明限制为所公开的确切形式。根据以上教导内容,很多修改形式和变型形式为可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所设想的特定用途的各种修改的各种实施方案。虽然参照附图对本公开以及示例进行了全面的描述,但应当注意,各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解,此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。如上所述,本发明技术的一个方面在于采集和使用得自各种来源的数据,以改进向用户递送其可能感兴趣的启发内容或任何其他内容。本公开设想,在一些实例中,该所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还设想个人信息数据有益于用户的其它用途。本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其它用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应实施并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应仅在用户知情同意之后进行。此外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保有权访问个人信息数据的其它人遵守他们的隐私政策和程序。另外,此类实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还设想用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开设想可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还设想各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最小量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息来推断偏好,从而选择内容并递送至用户。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1