数字助理的语音触发器的制造方法_4

文档序号：9252474阅读：来源：国知局

器(例如，通过提供控制信号来启动一个或多个处理程序，并且/或者通过提供电力至上游声音检测器)诸如触发声音检测器406。
[0098]触发声音检测器406被配置为确定声音输入是否包括某些预先确定内容的至少一部分(例如，触发字词、短语或声音的至少一部分)。在一些具体实施中，触发声音检测器406将声音输入的表不(“输入表不”)与触发字词的一个或多个参考表不进行比较。如果输入表示以可接受置信度与一个或多个参考表示中的至少一者相匹配，触发声音检测器406便启动基于语音的服务408(例如，通过提供控制信号来启动一个或多个处理程序，并且/或者通过提供电力至上游声音检测器)。在一些具体实施中，输入表示和一个或多个参考表示为频谱图(或它们的数学表示)，这些频谱图表示出信号的频谱密度怎样随时间变化。在一些具体实施中，表示是其他类型的音频特征或声纹。在一些具体实施中，启动基于语音的服务408包括使一个或多个电路、程序和/或处理器离开待机模式，并且调用基于声音的服务。基于声音的服务继而准备好提供更全面的语音识别、语音转文本处理，和/或自然语言处理。在一些具体实施中，语音触发系统400包括语音认证功能，使其能够确定声音输入是否对应于特定人诸如设备的所有者/使用者的语音。例如，在一些具体实施中，声音类型检测器404使用声纹技术来确定声音输入是由授权用户发出的。语音认证和声纹在转让给本申请受让人的美国专利申请13/053，144中更详细描述，该文献特此全文以引用方式并入。在一些具体实施中，语音认证包括在本文所述的任一种声音检测器中(例如，噪声检测器402、声音类型检测器404、触发声音检测器406和/或基于语音的服务408)。在一些具体实施中，将语音认证实现为独立于上文列出的声音检测器的模块(例如，作为语音认证模块428，图4)，并且可被可操作地定位在噪声检测器402之后、声音类型检测器404之后、触发声音检测器406之后、或定位在任何其他适当的位置处。
[0099]在一些具体实施中，只要满足任何一个或多个下游声音检测器(例如，噪声检测器402和/或声音类型检测器404)的条件，触发声音检测器406就保持为活动的。例如，在一些具体实施中，只要声音输入包括超过预先确定的阈值的声音(如由噪声检测器402来检测)，触发声音检测器406就保持为活动的。在一些具体实施中，只要声音输入包括某种类型的声音(如由声音类型检测器404来检测)，触发声音检测器406就保持为活动的。在一些具体实施中，只要同时满足上述条件，触发声音检测器406就保持为活动的。
[0100]在一些具体实施中，一旦被启动，触发声音检测器406就保持为活动的直至满足条件，诸如定时器到期(例如，为时I秒、2秒、5秒或10秒，或者任何其他适当持续时间)、触发声音检测器406的一定数量的开/关周期结束、或发生事件(例如，声音的幅值降至第二阈值以下)。在一些具体实施中，当一个声音检测器启动另一检测器时，这两个声音检测器均保持为活动的。然而，声音检测器可在不同时间为活动的或非活动的，并且不必为了使上游声音检测器为活动的而使所有上游(例如，较低功率和/或复杂性)声音检测器均为活动的(或满足它们的相应条件)。例如，在一些具体实施中，在噪声检测器402和声音类型检测器404确定满足它们的相应条件并且触发声音检测器406被启动之后，在触发声音检测器406操作时，噪声检测器402和声音类型检测器404中的一者或两者被停用并且/或者进入待机模式。在其他具体实施中，在触发声音检测器406操作时，噪声检测器402和声音类型检测器404两者(或者其中一者或另一者)保持为活动的。在各种具体实施中，声音检测器的不同组合在不同时间为活动的，并且一个声音检测器为活动的还是非活动的可取决于另一声音检测器的状态，或者可独立于另一声音检测器的状态。
[0101]尽管图4描述了三个单独的声音检测器，其各自被配置为检测声音输入的不同方面，但在语音触发器的各种具体实施中可使用更多或更少的声音检测器。例如，在一些具体实施中，仅使用触发声音检测器406。在一些具体实施中，触发声音检测器406与噪声检测器402或声音类型检测器404—起使用。在一些具体实施中，使用所有检测器402-406。在一些具体实施中，还包括另外的声音检测器。
[0102]此外，可在不同时间使用声音检测器的不同组合。例如，声音检测器的特定组合以及它们的交互方式可取决于一个或多个条件，诸如设备的上下文或操作状态。举个具体例子，如果设备接通电源(并从而不仅仅依赖于电池电力)，触发声音检测器406便为活动的，而噪声检测器402和声音类型检测器404保持为非活动的。又如，如果设备在口袋或背包里，则所有的声音检测器均为非活动的。通过级联如上所述的声音检测器，其中需要较低功率的检测器仅在必要时调用需要更多功率的检测器，这就可提供高能效语音触发功能。如上所述，额外的功率效率通过根据占空比操作声音检测器中的一者或多者来实现。例如，在一些具体实施中，噪声检测器402根据占空比进行操作，使得噪声检测器即使在至少一部分时间内关闭，也可有效地执行连续噪声检测。在一些具体实施中，噪声检测器402接通10毫秒并关断90毫秒。在一些具体实施中，噪声检测器402接通20毫秒并关断500毫秒。其他开关持续时间也是可能的。
[0103]在一些具体实施中，如果噪声检测器402在其“接通”时段期间检测到噪声，则噪声检测器402将保持接通以进一步处理和/或分析声音输入。例如，噪声检测器402可被配置为在其于预先确定的时间量内(例如，100毫秒)检测到超过预先确定幅值的声音的情况下启动上游声音检测器。因此，如果噪声检测器402在其10毫秒的“接通”时段期间检测到超过预先确定幅值的声音，则它将不立即进入“关断”时段。相反，噪声检测器402保持为活动的并继续处理声音输入以确定其是否在整个预先确定的持续时间内(例如，100毫秒)超过阈值。
[0104]在一些具体实施中，声音类型检测器404根据占空比进行操作。在一些具体实施中，声音类型检测器404接通20毫秒并关断100毫秒。其他开关持续时间也是可能的。在一些具体实施中，声音类型检测器404能够在其占空比的“接通”时段内确定声音输入是否对应于预先确定类型的声音。因此，如果声音类型检测器404在其“接通”时段期间确定声音为某种类型，声音类型检测器404将启动触发声音检测器406 (或任何其他上游声音检测器)。另选地，在一些具体实施中，如果声音类型检测器404在“接通”时段期间检测到可能对应于预先确定的类型的声音，则检测器将不立即进入“关断”时段。相反，声音类型检测器404保持为活动的并继续处理声音输入以及确定其是否对应于预先确定的声音类型。在一些具体实施中，如果声音检测器确定已检测到预先确定的声音类型，它便启动触发声音检测器406以进一步处理声音输入并确定是否已检测到触发声音。类似于噪声检测器402和声音类型检测器404，在一些具体实施中，触发声音检测器406根据占空比进行操作。在一些具体实施中，触发声音检测器406接通50毫秒并关断50毫秒。其他开关持续时间也是可能的。如果触发声音检测器406在其“接通”时段期间检测到存在可能对应于触发声音的声音，则检测器将不立即进入“关断”时段。相反，触发声音检测器406保持为活动的并继续处理声音输入以及确定其是否包括触发声音。在一些具体实施中，如果检测到这种声音，触发声音检测器406便保持为活动的以在预先确定的持续时间内诸如I秒、2秒、5秒或10秒，或任何其他适当的持续时间内处理音频。在一些具体实施中，持续时间是基于特定触发字词的长度或被配置为进行检测的声音来选择的。例如，如果触发短语是“嘿，SIRI”，则触发字词检测器在约2秒内进行操作以确定声音输入是否包括该短语。
[0105]在一些具体实施中，声音检测器中的一些声音检测器根据占空比进行操作，而其他检测器在为活动的时连续操作。例如，在一些具体实施中，仅第一声音检测器(例如，图4中的噪声检测器402)根据占空比进行操作，并且上游声音检测器一旦被启动就连续操作。在一些其他具体实施中，噪声检测器402和声音类型检测器404根据占空比进行操作，而触发声音检测器406连续操作。特定的声音检测器是连续操作还是根据占空比进行操作取决于一个或多个条件，诸如设备的上下文或操作状态。在一些具体实施中，如果设备接通电源并不仅仅依赖于电池电力，则所有的声音检测器一旦被启动便连续操作。在其他具体实施中，如果设备在口袋或背包中(例如，由传感器和/或麦克风信号来确定)，则噪声检测器402 (或声音检测器中的任一种)根据占空比进行操作，但在确定该设备很可能未被存放的情况下，噪声检测器连续地操作。在一些具体实施中，特定的声音检测器是连续操作还是根据占空比进行操作取决于设备的电池充电水平。例如，在电池充电量超过50%时，噪声检测器402连续操作，并且在电池充电量低于50 %时，噪声检测器402根据占空比进行操作。在一些具体实施中，语音触发器包括噪声、回声，和/或声音消除功能(统称为噪声消除)。在一些具体实施中，噪声消除是由音频子系统226 (例如，由音频DSP 412)来执行的。噪声消除在声音输入由声音检测器进行处理之前，从声音输入中减少或消除了不必要噪声或声音。在一些情况下，不必要噪声为来自用户环境的背景噪声，诸如来自风扇或键盘发出的点击声。在一些具体实施中，不必要噪声为上述、下述或预先确定幅值或频率下的任何声音。例如，在一些具体实施中，将超过典型人类音域(例如，3，OOOHz)的声音从信号中滤除或去除。在一些具体实施中，使用多个麦克风(例如，麦克风230)来帮助确定应减小和/或去除所接收声音的哪些成分。例如，在一些具体实施中，音频子系统226使用波束形成技术来识别似乎源于空间(例如，用户口中)中的单个点的声音或声音输入的部分。音频子系统226继而通过从声音输入中去除由所有麦克风等同接收的声音(例如，好像并不源于任何特定方向的环境声音)来集中注意力于该声音。
[0106]在一些具体实施中，DSP 412被配置为从声音输入中消除或去除由数字助理操作于其上的设备正输出的声音。例如，如果音频子系统226正在输出音乐、广播、播客、语音输出或任何其他音频内容(例如，通过扬声器228)，则DSP 412去除由麦克风拾取并包括在声音输入中的任何输出的声音。因此，声音输入不含输出的音频(或至少包含较少的输出的音频)。因此，提供至声音检测器的声音输入将比较清晰，并且触发更准确。噪声消除的方面在转让给本申请受让人的美国专利7，272，224中更详细描述，该文献特此全文以引用方式并入。
[0107]在一些具体实施中，不同声音检测器需要声音输入以不同方式进行滤除和/或预处理。例如，在一些具体实施中，噪声检测器402被配置为在60Hz和20，OOOHz之间分析时域音频信号，并且声音类型检测器被配置为在60Hz和3，OOOHz之间执行音频的频域分析。因此，在一些具体实施中，音频DSP412 (和/或设备104的其他音频DSP)根据声音检测器的相应需要对所接收的音频进行预处理。在一些具体实施中，另一方面，声音检测器被配置为根据它们的具体需要来滤除和/或预处理来自音频子系统226的音频。在这种情况下，音频DSP 412仍可在将声音输入提供至声音检测器之前执行噪声消除。在一些具体实施中，可使用电子设备的上下文来帮助确定是否操作语音触发器以及如何操作语音触发器。例如，当设备存放在用户的口袋、钱包或背包中时，他们将不太可能调用基于语音的服务，诸如基于语音的数字助理。另外，当用户在听喧闹的摇滚音乐会时，他们将不太可能调用基于语音的服务。对于一些用户来说，他们将不太可能在一天的某些时候(例如，深夜)调用基于语音的服务。另一方面，还存在用户将很可能使用语音触发器来调用基于语音的服务的上下文。例如，一些用户将很可能在他们正在开车时、在他们独自一人时、在他们工作时等情况下使用语音触发器。使用各种技术来确定设备的上下文。在各种具体实施中，设备使用来自以下部件或信息源中的任何一者或多者的信息来确定设备的上下文:GPS接收器、光传感器、麦克风、接近传感器、方向传感器、惯性传感器、相机、通信电路和/或天线、充电和/或功率电路、开关位置、温度传感器、指南针、加速度计、日历、用户偏好等。设备的上下文继而能够用于调节语音触发器如何操作以及语音触发器是否操作。例如，在某些上下文中，只要保持该上下文，语音触发器就将被停用(或在不同模式下操作)。例如，在一些具体实施中，在电话处于预先确定的取向(例如，正面朝下放在一表面上)时、在预先确定的时间段内(例如，在晚上10:00和上午8:00之间)、在电话处于“静音”或“勿扰”模式时(例如，基于开关位置、模式设置或用户偏好)、在设备处于大体上封闭空间(例如，口袋、书包、钱包、抽屉或手套箱)中时、在设备位于具有语音触发器和/或基于语音的服务的其他设备附近时(例如，基于接近传感器、声/无线/红外通信)等情况下，语音触发器被停用。在一些具体实施中，语音触发系统400在低功率模式下被操作(例如，通过根据具有10毫秒“接通”时段和5秒的“关断”时段的占空比操作噪声检测器402)，而不是被停用。在一些具体实施中，当语音触发系统400在低功率模式下被操作时，以更低频率监测音频通道。在一些具体实施中，当语音触发器处于低功率模式下时，语音触发器使用与之处于正常模式下不同的声音检测器或声音检测器的组合。(语音触发器能够进行多种不同模式或操作状态，每种可使用不同的功率值，并且不同具体实施将根据它们的具体设计来使用这些模式或操作状态)。
[0108]另一方面，当设备处于一些其他上下文中时，语音触发器将被启用(或在不同模式下被操作)，只要保持该上下文即可。例如，在一些具体实施中，在语音触发器接通电源的情况下、在电话处于预先确定的取向时(例如，正面朝上放在一表面上)、在预先确定的时间段内(例如，在上午8:00和晚上10:00之间)、在设备正行进和/或在车里(例如，基于GPS信号、蓝牙连接或与车辆对接等)等情况下，语音触发器保持为活动的。设备在车辆中的检测方面在转让给本申请受让人的美国临时专利申请61/657，744中更详细地描述，该文献特此全文以引用方式并入。如何确定某些上下文的若干具体实例在下文中提供。在各种实施例中，使用不同技术和/或信息源来检测这些和其他上下文。
[0109]如上所述，语音触发系统400是否为活动的(例如，监听)可取决于设备的物理取向。在一些具体实施中，当设备“正面朝上”位于一表面上时(例如，显示器和/或触摸屏表面可见)，语音触发器为活动的，并且/或者当设备“正面朝下”时，语音触发器为非活动的。这就提供给用户一种在无需操纵设置菜单、开关或按钮的情况下启用和/或停用语音触发器的简单方法。在一些具体实施中，设备使用光传感器(例如，基于到设备104的正面和背面的入射光的差异)、接近传感器、磁性传感器、加速度计、陀螺仪、倾斜传感器、相机等检测其是正面朝上还是正面朝下地位于一表面上。在一些具体实施中，其他操作模式、设置、参数或偏好受到设备的取向和/或位置的影响。在一些具体实施中，语音触发器的特定触发声音、字词或短语取决于设备的取向/或位置进行监听。例如，在一些具体实施中，当设备处于第一取向时(例如，正面朝上放在一表面上)，语音触发器监听第一触发字词、短语或声音，并且当设备处于另一取向时(例如，正面朝下放置)，语音触发器监听不同的触发字词、短语或声音。在一些具体实施中，针对正面朝下取向的触发短语比针对正面朝上取向的触发短语长和/或复杂。因此，用户在他们周围有其他人或处于噪杂环境中时可使设备正面朝下，使得语音触发器仍可在减少错误接受率的情况下进行操作，这可能更频繁地需要更短或更简单的触发字词。举个具体例子，正面朝上触发字词可以是“嘿，SIRI”，而正面朝下触发短语可以是“嘿，SIRI，我是Andrew，请醒过来”。较长触发短语还为声音检测器和/或语音认证器用于处理和/或分析提供了较大的语音样本，从而提高了语音触发器的准确度并降低了错误接受率。
[0110]在一些具体实施中，设备104检测其是否在车辆(例如，汽车)中。语音触发器对在用户处于车辆中的情况下调用基于语音的服务尤其有益，因为它有助于减少操作设备和/或基于语音的服务所必需的物理交互。实际上，基于语音的数字助理的有益效果之一在于其可用于在查看和触摸设备将不太可能或不够安全的情况下执行任务。因此，语音触发器可在设备处于车辆中时使用，使得用户不必触摸设备来调用数字助理。在一些具体实施中，设备通过检测其已连接至和/或配对于车辆，诸如通过蓝牙通信(或其他无线通信)或通过扩展坞接口或缆线，来确定其处于车辆中。在一些具体实施中，设备通过确定设备的位置和/或速度(例如，使用GPS接收器、加速度计和/或陀螺仪)来确定其处于车辆中。如果例如由于设备正以每小时20英里以上的速度行进并且被确定正沿道路行进而确定设备可能处于车辆中，则语音触发器保持为活动的和/或处于高功率或较敏感状态。
[0111]在一些具体实施中，设备通过确定其是否处于大体上封闭的空间中来检测其是否被存放(例如，在口袋、钱包、书包、抽屉等中)。在一些具体实施中，设备使用光传感器(例如，专用环境光传感器和/或相机)来确定其被存放。例如，在一些具体实施中，如果光传感器检测到少许光或未检测到光，则设备很可能被存放。在一些具体实施中，还对一天中的时间和/或设备的位置进行考虑。例如，如果光传感器在预期较高光照水平的情况下(例如，在白天期间)检测到较低光照水平，则设备可能处于存放状态并且无需语音触发系统400。因此，将使语音触发系统400处于低功率或待机状态。在一些具体实施中，位于设备的不同面上的传感器检测到的光的差异可用于确定设备的位置，并由此确定其是否被存放。具体地，用户很可能在设备放在桌子或表面上时而不是在设备存放在口袋或书包中时去尝试启用语音触发器。然而当设备正面朝下(或正面朝上)放在一表面诸如桌子或办公桌上时，设备的一个表面将被遮挡使得少许光或没有光到达该表面，而另一表面将暴露于环境光中。因此，如果位于设备的正面和背面的光传感器检测到明显不同的光照水平，则设备确定其并非被存放。另一方面，如果位于相对面的光传感器检测到相同或类似的光照水平，设备便确定其存放在大体上封闭的空间中。另外，如果两个光传感器在白天期间(或在设备预期电话处于明亮环境中时)检查到较低光照水平，设备便以更大置信度确定其被存放。
[0112]在一些具体实施中，还使用其他技术(代替或除了光传感器)来确定设备是否被存放。例如，在一些具体实施中，设备从扬声器或换能器(例如，扬声器228)发出一种或多种声音(例如，音调声、点击声、撞击声等)，并且监测一个或多个麦克风或换能器(例如，麦克风230)来检测发出的一种或多种声音的回声。(在一些具体实施中，设备发出听不见的信号，诸如人类听觉范围之外的声音)。通过回声，设备确定周边环境的特征。例如，相对较大环境(例如，房间或车辆)将反射不同于相对较小的封闭环境(例如，口袋、钱包、书包、抽屉等)的声音。
[0113]在一些具体实施中，在语音触发系统位于其他设备(诸如具有语音触发器和/或基于语音的服务的其他设备)附近的情况下与在其不位于其他设备附近的情况下，语音触发系统400操作有所不同。例如在许多设备彼此靠近的情况下，关闭或降低语音触发系统400的敏感性是有用的，以使得在一个人发出触发字词时，其他周边设备不同样被触发。在一些具体实施中，设备使用RFID、近场通信、红外/声信号等来确定接近其他设备。如上所述，当设备在免持模式下操作时，诸如当用户正在开车时，语音触发器尤其有用。在这种情况下，用户常常使用外部音频系统，诸如有线或无线耳机、带有扬声器和/或麦克风的手表、车辆的内置麦克风和扬声器等，来使自身不必将设备靠近其面部来进行呼叫或指示文本输入。例如，无线耳机和车辆音频系统可使用蓝牙通信或任何其他适当的无线通信连接至电子设备。然而，由于通过无线附件来保持打开音频通道所需的功率方面的原因，语音触发器通过无线音频附件来监测所接收的音频可能效率低下。具体地，无线耳机可在其电池中保持足够充电量以提供几个小时的连续通话时间，并因

完整全部详细技术资料下载

当前第4页1 2 3 4 5 6