数字助理的语音触发器的制造方法

文档序号：9252474阅读：426来源：国知局

数字助理的语音触发器的制造方法
【专利说明】数字助理的语音触发器
[0001]相关申请的交叉引用
[0002]本申请要求于2013年2月7日提交的名称为“VOICE TRIGGER FOR A DIGITALASSISTANT”的美国临时申请61/762，260的权益，该申请特此全文以引用方式并入以用于所有目的。
技术领域
[0003]本发明所公开的具体实施整体涉及数字助理，并且更具体地涉及一种用于数字助理的语音触发器的方法和系统。
【背景技术】
[0004]近来，基于语音的数字助理诸如苹果的SIRI已被引入市场来处理各种任务诸如网页搜索和导航。这种基于语音的数字助理的一个优点在于用户能够以免持方式与设备进行交互，而无需触摸乃至查看设备。免持操作在人无法或不能物理地操纵设备的情况下，诸如在他们正在开车的情况下，可以是尤其有利的。然而，为了启动基于语音的助理，用户通常必须在触摸屏上按下按钮或选择图标。这一触觉输入有损于免持体验。因此，提供一种使用语音输入或信号而非触觉输入来启用基于语音的数字助理(或其他基于语音的服务)的方法和系统将是有利的。
[0005]使用语音输入来启用基于语音的助理需要监测音频通道以检测语音输入。该监测消耗电力，而电力是手持式设备或便携式设备上的有限资源，该手持式设备或便携式设备依靠于电池并且此类基于语音的数字助理常常运行于其上。因此，提供一种可用于启动设备上基于语音的服务的高能效语音触发器将是有利的。

【发明内容】

[0006]因此，需要可在不过度消耗有限电力资源的情况下提供“随时监听”语音触发功能性的低功率语音触发器。下述的具体实施提供用于使用位于电子设备上的语音触发器来启动基于语音的助理的系统和方法。与基于语音的数字助理(或其他基于语音的服务，诸如语音转文字转录服务)的交互常常开始于用户按下设备上的示能表示(例如，按钮或图标)以启用数字助理时，之后设备向用户提供数字助理为活动的并在监听的某一指示，诸如光、声音(例如，哔哔声)或发声输出(例如，“我能帮你做点什么？ ”)。如本文所述，也可将语音触发器实现为使得其响应于特定预先确定的字词、短语或声音而启用，并且无需用户的物理交互。例如，用户能够通过叙读短语“嘿，SIRI”来启用IPHONE上的SIRI数字助理(二者由Apple Inc.，本申请的受让人提供)。作为响应，设备输出哔哔声、声音或语音输出(例如，“我能帮你做点什么？ ”)来向用户表明监听模式是活动的。因此，用户可通过数字助理发起交互，而不必物理地触摸提供数字助理功能的设备。
[0007]一种用于通过语音触发器启动基于语音的服务的技术为使基于语音的服务连续监听预先确定的触发字词、短语或声音(其任一种在本文中可称为“触发声音”)。然而，连续操作基于语音的服务(例如，基于语音的数字助理)需要大量的音频处理和电池电力。为了降低由提供语音触发功能所消耗的功率，可采用几种技术。在一些具体实施中，电子设备的主处理器(即，“应用处理器”)保持在低功率或无功率状态，而使用较低功率(例如，因为它们不依赖于应用处理器)的一个或多个声音检测器保持为活动的。(当处于低功率或无功率状态时，应用处理器或任何其他处理器、程序或模块可被描述为非活动的或处于待机模式。)例如，即使在应用处理器为非活动的时，低功率声音检测器也用于监测触发声音的音频通道。该声音检测器在本文中有时称为触发声音检测器。在一些具体实施中，其被配置为检测特定声音、音素和/或字词。触发声音检测器(包括硬件和/或软件部件)被设计成识别特定字词、声音或短语，但就需要更大计算资源和功率资源的任务而言，通常不能提供完整的语音转文本功能或未针对该功能进行优化。因此，在一些具体实施中，触发声音检测器识别语音输入是否包括预定义的模式(例如，匹配字词“嘿，SIRI”的声波模式)，但其无法(或未被配置为)将语音输入转换成文本或识别大量其他字词。一旦检测到触发声音，则使数字助理离开待机模式，使得用户能够提供语音命令。
[0008]在一些具体实施中，触发声音检测器被配置为检测几种不同的触发声音，诸如一组字词、词组、声音和/或它们的组合。用户继而可使用那些声音中的任一种来启动基于语音的服务。例如，语音触发器被预先配置为对词组“嘿，SIRI”、“醒来，SIRI”、“调用我的数字助理”或“你好，HAL，听到了吗，HAL ? ”进行响应。在一些具体实施中，用户必须选择预先配置的触发声音中的一个作为唯一的触发声音。在一些具体实施中，用户选择预先配置的触发声音的子组，使得用户可利用不同的触发声音来启动基于语音的服务。在一些具体实施中，所有的预先配置的触发声音均保持为有效触发声音。
[0009]在一些具体实施中，使用另一声音检测器使得甚至触发声音检测器也可在大部分时间内保持在低功率或无功率模式。例如，使用不同类型的声音检测器(例如，比触发声音检测器使用更低功率的声音检测器)来监测音频通道以确定声音输入是否对应于某一声音类型。基于声音的某些可辨识特征将声音分类成不同“类型”。例如，属于“人声”类型的声音具有一定的频谱内容、周期性、基频等。其他类型的声音(例如，口哨声、拍手声等)具有不同特征。不同类型的声音使用本文所述的音频和/或信号处理器技术来识别。该声音检测器在本文中有时称为“声音类型检测器”。例如，如果预先确定的触发短语为“嘿，SIRI”，则声音类型检测器确定输入是否有可能对应于人的语音。如果触发声音为非语音声音，诸如口哨声，则声音类型检测器确定声音输入是否有可能对应于口哨声。当检测到适当的声音类型时，声音类型检测器启动触发声音检测器以进一步处理和/或分析该声音。并且由于声音类型检测器比触发声音检测器需要更少的功率(例如，由于其使用比触发声音检测器具有更低功率需求和/或更高效音频处理算法的电路)，因此语音触发功能比只用触发声音检测器消耗更少的功率。
[0010]在一些具体实施中，使用另一声音检测器使得上述的声音类型检测器和触发声音检测器两者均可在大部分时间内保持在低功率或无功率模式。例如，使用比声音类型检测器使用更低功率的声音检测器来监测音频通道以确定声音输入是否满足预先确定的条件，诸如幅值(例如，音量)阈值。该声音检测器在本文中可称为“噪声检测器”。当噪声检测器检测到满足预先确定阈值的声音时，噪声检测器启动声音类型检测器以进一步处理和/或分析该声音。并且由于噪声检测器比声音类型检测器或触发声音检测器需要更少的功率(例如，由于其使用具有更低功率需求和/或更高效音频处理算法的电路)，因此语音触发功能比不使用噪声检测器而使用声音类型检测器和触发声音检测器的组合消耗更少的功率。
[0011]在一些具体实施中，上述声音检测器中的任何一者或多者根据占空比进行操作，其中它们在“接通”和“关断”状态之间循环。这就进一步有助于减少语音触发器的功率消耗。例如，在一些具体实施中，噪声检测器“接通”(即，积极地监测音频通道)10毫秒，并且在接下来的90毫秒内“关断”。这样，噪声检测器90%的时间“关断”，而同时仍有效地提供连续噪声检测功能。在一些具体实施中，选择声音检测器的接通和关断持续时间使得所有的检测器在触发声音一直保持输入的情况下启用。例如，对于触发短语“嘿，SIRI”，可配置声音检测器使得不管触发短语开始于一个或多个占空比的哪个位置，触发声音检测器都被及时启用以分析足够的输入量。例如，触发声音检测器将被及时启用以接收、处理并分析声音“嘿，SIRI”，这足以确定声音与触发短语匹配。在一些具体实施中，声音输入在被接收并传送至上游检测器时存储在存储器中，使得较大部分的声音输入可被分析。因此，即使直到触发短语发出之后触发声音检测器才启动，其仍可分析整个已记录的触发短语。
[0012]一些具体实施提供一种用于操作语音触发器的方法。该方法在包括存储器和一个或多个处理器的电子设备上执行，该存储器存储由一个或多个处理器执行的指令。该方法包括接收声音输入。该方法还包括确定声音输入的至少一部分是否对应于预先确定的声音类型。该方法还包括在确定声音输入的至少一部分对应于预先确定的类型时，确定声音输入是否包括预先确定的内容。该方法还包括在确定声音输入包括预先确定的内容时，启动基于语音的服务。在一些具体实施中，基于语音的服务为基于语音的数字助理。在一些具体实施中，基于语音的服务为听写服务。
[0013]在一些具体实施中，确定声音输入是否对应于预先确定的声音类型由第一声音检测器执行，并且确定声音输入是否包括预先确定的内容由第二声音检测器执行。在一些具体实施中，第一声音检测器在操作时比第二声音检测器消耗更少的功率。在一些具体实施中，第一声音检测器执行声音输入的频域分析。在一些具体实施中，确定声音输入是否对应于预先确定的声音类型是在确定声音输入满足预先确定的条件(例如，由下述的第三声音检测器确定)时执行的。
[0014]在一些具体实施中，第一声音检测器根据占空比周期性地监测音频通道。在一些具体实施中，占空比包括约20毫秒的接通时间以及约100毫秒的关断时间。
[0015]在一些具体实施中，预先确定的类型为人声并且预先确定的内容为一个或多个字词。在一些具体实施中，确定声音输入的至少一部分是否对应于预先确定的声音类型包括确定声音输入的至少一部分是否包括人声的频率特征。
[0016]在一些具体实施中，第二声音检测器是响应于第一声音检测器确定声音输入对应于预先确定的类型而启动的。在一些具体实施中，在第一声音检测器确定声音输入对应于预先确定的类型之后，第二声音检测器操作至少预先确定的时间量。在一些具体实施中，预先确定的时间量对应于预先确定内容的持续时间。
[0017]在一些具体实施中，预先确定的内容为一个或多个预先确定的音素。在一些具体实施中，一个或多个预先确定的音素构成至少一个字词。
[0018]在一些具体实施中，该方法包括在确定声音输入是否对应于预先确定的声音类型之前，确定声音输入是否满足预先确定的条件。在一些具体实施中，预先确定的条件为幅值阈值。在一些具体实施中，确定声音输入是否满足预先确定的条件是由第三声音检测器来执行的，其中第三声音检测器在操作时比第一声音检测器消耗更少的功率。在一些具体实施中，第三声音检测器根据占空比周期性地监测音频通道。在一些具体实施中，占空比包括约20毫秒的接通时间以及约500毫秒的关断时间。在一些具体实施中，第三声音检测器执行声音输入的时域分析。
[0019]在一些具体实施中，该方法包括将声音输入的至少一部分存储在存储器中，并且一旦基于语音的服务启动，就将声音输入的该部分提供至基于语音的服务。在一些具体实施中，使用直接存储器存取将声音输入的一部分存储在存储器中。
[0020]在一些具体实施中，该方法包括确定声音输入是否对应于特定用户的语音。在一些具体实施中，基于语音的服务是在确定声音输入包括预先确定的内容以及声音输入对应于特定用户的语音时启动的。在一些具体实施中，基于语音的服务在确定声音输入包括预先确定的内容以及声音输入不对应于特定用户的语音时在受限访问模式下启动。在一些具体实施中，该方法包括在确定声音输入对应于特定用户的语音时，输出包括特定用户的姓名的语音提示。
[0021]在一些具体实施中，确定声音输入是否包括预先确定的内容包括将声音输入的表示与参考表示进行比较，以及在声音输入的表示与参考表示相匹配的情况下确定声音输入是否包括预先确定的内容。在一些具体实施中，如果声音输入的表示以预先确定的置信度与参考表示匹配，则确定匹配。在一些具体实施中，该方法包括接收多个声音输入，该多个声音输入包括声音输入；以及响应于确定相应声音输入包括预先确定的内容，使用多个声音输入中的相应声音输入反复地调节参考表示。
[0022]在一些具体实施中，该方法包括确定电子设备是否处于预先确定的取向，以及在确定电子设备处于预先确定的取向时，启用语音触发器的预先确定模式。在一些具体实施中，预先确定的取向对应于设备的大体上水平且正面朝下的显示屏，并且预先确定的模式为待机模式。在一些具体实施中，预先确定的取向对应于设备的大体上水平且正面朝上的显示屏，并且预先确定的模式为监听模式。
[0023]一些具体实施提供一种用于操作语音触发器的方法。该方法在包括存储器和一个或多个处理器的电子设备上执行，该存储器存储由一个或多个处理器执行的指令。该方法包括在第一模式下操作语音触发器。该方法还包括通过检测到电子设备的麦克风和相机中的一者或多者被遮挡来确定电子设备是否处于大体上封闭的空间中。该方法还包括在确定电子设备处于大体上封闭的空间中时，将语音触发器切换至第二模式。在一些具体实施中，第二模式为待机模式。
[0024]一些具体实施提供一种用于操作语音触发器的方法。该方法在包括存储器和一个或多个处理器的电子设备上执行，该存储器存储由一个或多个处理器执行的指令。该方法包括确定电子设备是否处于预先确定的取向，以及在确定电子设备处于预先确定的取向时，启用语音触发器的预先确定模式。在一些具体实施中，预先确定的取向对应于设备的大体上水平且正面朝下的显示屏，并且预先确定的模式为待机模式。在一些具体实施中，预先确定的取向对应于设备的大体上水平且正面朝上的显示屏，并且预先确定的模式为监听模式。
[0025]根据一些具体实施，电子设备包括被配置为接收声音输入的声音接收单元和耦接至声音接收单元的处理单元。处理单元被配置为确定声音输入的至少一部分是否对应于预先确定的声音类型；在确定声音输入的至少一部分对应于预先确定的类型时，确定声音输入是否包括预先确定的内容；以及在确定声音输入包括预先确定的内容时，启动基于语音的服务。在一些具体实施中，处理单元被进一步配置为在确定声音输入是否对应于预先确定的声音类型时，确定声音输入是否满足预先确定的条件。在一些具体实施中，处理单元被进一步配置为确定声音输入是否对应于特定用户的语音。
[0026]根据一些具体实施，电子设备包括被配置为在多个模式中的第一模式下操作语音触发器的语音触发单元；以及耦接至语音触发单元的处理单元。在一些具体实施中，处理单元被配置为:通过检测到电子设备的麦克风和相机中的一者或多者被遮挡来确定电子设备是否处于大体上封闭的空间中；并且在确定电子设备处于大体上封闭的空间中时，将语音触发器切换至第二模式。在一些具体实施中，处理单元被配置为确定电子设备是否处于预先确定的取向；以及在确定电子设备处于预先确定的取向时，启用语音触发器的预先确定模式。
[0027]根据一些具体实施，提供一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述方法中的任一种方法的指令。
[0028]根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，其包括用于执行本文所述方法中的任一种方法的装置。
[0029]根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，其包括被配置为执行本文所述方法中的任一种方法的处理单元。
[0030]根据一些具体实施，提供一种电子设备(例如，便携式电子设备)，其包括存储器和一个或多个处理器，该存储器存储供一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述方法中的任一种方法的指令。
[0031]根据一些具体实施，提供一种用于在电子设备中使用的信息处理装置，该信息处理装置包括用于执行本文所述方法中的任一种方法的装置。
【附图说明】
[0032]图1为示出根据一些具体实施的数字助理在其中操作的环境的框图。
[0033]图2为示出根据一些具体实施的数字助理客户端系统的框图。
[0034]图3A为示出根据一些具体实施的独立式数字助理系统或数字助理服务器系统的框图。
[0035]图3B为示出根据一些具体实施的图3A中所示的数字助理的功能的框图。
[0036]图3C为示出根据一些具体实施的知识本体的一部分的网络图。
[0037]图4为示出根据一些具体实施的语音触发系统的部件的框图。
[0038]图5-7为示出根据一些具体实施的用于操作语音触发系统的方法的流程图。
[0039]图8-9为根据一些实施例的电子设备的功能框图。
[0040]相似的附图标号是指整个附图中的对应部件。
【具体实施方式】
[0041]图1为根据一些具体实施的数字助理的操作环境100的框图。术语“数字助理”、“虚拟助理”、“智能自动化助理”、“基于语音的数字助理”或“自动数字助理”是指解译口头和/或文本形式的自然语言输入以推断用户意图(例如，识别对应于自然语言输入的任务类型)并基于推断出的用户意图来执行动作(例如，执行对应于所识别的任务类型的任务)的任何信息处理系统。例如，为遵照推断出的用户意图来执行动作，系统可执行以下操作中的一者或多者:通过设计用以实现所推断出的用户意图的步骤和参数来识别任务流(例如，识别任务类型)，将来自推断出的用户意图的具体要求输入到任务流中，通过调用程序、方法、服务、API等来执行任务流(例如，发送请求至服务提供方)；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。
[0042]具体地讲，数字助理系统一旦启动，就能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常，用户请求要么寻求数字助理系统作出信息性回答，要么寻求数字助理系统执行任务。对用户请求的令人满意的响应通常是提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如，用户可向数字助理系统提出诸如“我现在在哪里？ ”之类的问题。基于用户的当前位置，数字助理可能回答“你在中央公园西门附近。”用户还可请求执行任务，例如通过叙述“请邀请我的朋友下周来参加我女朋友的生日聚会。”作为响应，数字助理可通过生成语音输出“好的，马上”来确认请求，并且然后将合适的日历邀请从用户的电子邮件地址发送到用户的电子通讯录或联系人列表中列出的用户的每个朋友。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供口头应答并进行程序化动作之外，数字助理还可提供其他视觉或音频形式的应答(例如，像文本、警报、音乐、视频、动画等)。
[0043]如图1中所示，在一些具体实施中，数字助理系统根据客户端-服务器模型来实施。数字助理系统包括在用户设备(例如，104a和104b)上执行的客户端侧部分(例如，102a和102b)(后文称作“数字助理(DA)客户端102”)，以及在服务器系统108上执行的服务器侧部分106 (后文称作“数字助理(DA)服务器106”)。DA客户端102通过一个或多个网络110与DA服务器106进行通信。DA客户端102提供客户端侧功能诸如面向用户的输入和输出处理以及与DA服务器106的通信。DA服务器106为任意数量的DA客户端102提供服务器侧功能，该任意数量的DA客户端102各自位于相应的用户设备104(也称作客户端设备或电子设备)上。
[0044]在一些具体实施中，DA服务器106包括面向客户端的I/O接口 112、一个或多个处理模块114、数据与模型116、到外部服务的I/O接口 118、照片与标签数据库130，以及照片-标签模块132。面向客户端的I/O接口促成数字助理服务器106的面向客户端的输入和输出处理。一个或多个处理模块114利用数据与模型116基于自然语言输入来确定用户的意图，并基于推断出的用户意图来进行任务执行。照片与标签数据库130存储数字照片的指纹并任选地存储数字照片本身，以及与数字照片相关联的标签。照片-标签模块132创建标签，存储与照片相关联的标签和/或指纹，自动标记照片，并将标签连接到照片中的位置。
[0045]在一些具体实施中，DA服务器106通过一个或多个网络110与外部服务120 (例如，一种或多种导航服务122-1、一种或多种消息型服务122-2、一种或多种信息服务

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·G·宾德;O·塔金;S·D·波斯特;T·R·格鲁伯;
技术所有人：苹果公司;
我是此专利的发明人