利用相同的音频输入的设备唤醒和说话者验证的制作方法

文档序号：9529226阅读：722来源：国知局

利用相同的音频输入的设备唤醒和说话者验证的制作方法
【专利说明】
【背景技术】
[0001]大多数现代计算设备响应于各种事件(例如用户在一段时间内没有和设备进行交互)而进入低功率状态以保存电量。为了“唤醒”处于低功率状态中的设备，用户通常需要以某种方式与设备进行物理交互。例如，用户可能需要在键盘上点击Ctrl+Alt+Delete、按遥控器或智能电话上的按钮、或者解锁触摸屏。此外，用户通常需要例如在用户被允许操作设备之前，通过在触摸屏上输入密码而与设备进行第二次交互以作为授权或者验证过程的一部分。
【附图说明】
[0002]图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备的方框图。
[0003]图2是利用相同的音频输入来识别唤醒短语并执行说话者验证的第二计算设备的方框图。
[0004]图3是利用相同的音频输入来唤醒计算设备并执行说话者验证的第一示例性方法的流程图。
[0005]图4是利用相同的音频输入来唤醒计算设备并执行说话者验证的第二示例性方法的流程图。
[0006]图5是利用相同的音频输入来唤醒计算设备并执行说话者验证的第三示例性方法的流程图。
[0007]图6是其中可以实现本文所描述的技术的示例性计算设备的方框图。
[0008]图7是可以执行计算机可执行指令以作为实现本文中所描述的技术的一部分的示例性处理器核心的方框图。
【具体实施方式】
[0009]在本文中公开的技术允许计算设备响应于用户说出单个唤醒短语而从低功率状态中唤醒，并且验证用户。因此，通过允许用户以更加免提和免视的方式与设备进行交互，可以使设备的用户界面更加自然。当设备处于低功率状态时，低功率引擎确定在设备处接收的音频输入是否包括人说出唤醒短语。如果检测到唤醒短语，则设备利用包含唤醒短语的音频的一部分来输入验证说话者。说话者验证可以由低功率引擎或由在检测到唤醒短语之后被唤醒的另一组件来执行。
[0010]如在本文中使用的，术语“唤醒”或“叫醒”是指计算设备或计算设备的组件从低功率状态到活动状态的转换。低功率状态(例如，半睡半醒、睡眠或休眠状态)是计算设备比在活动状态中运行时消耗更少的电量的状态。例如，低功率状态可以是设备组件被禁用、或是以降低的时钟频率或供给电压运行的状态。例如，在低功率状态中运行的设备可以使其输出显示器关闭或变暗，或者使其处理器中的一个或多个以按比例缩小的频率运行。相应地，活动状态是计算设备比当在低功率状态中运行时消耗更多的电量的状态。因此，唤醒设备可以包括启用已经关闭了的输出显示器或按比例增大处理器的运行频率。
[0011]现在参考附图，其中通篇使用的相同的标号是指相同的元件。在以下的描述中，为了说明的目的阐述了许多具体细节以便提供对本文的透彻的理解。然而，可以显而易见的是，可以在没有这些具体细节的情况下实践新颖的实施例。在其他实例中，以方框图形式示出了公知的结构和设备，以便于对这些结构和设备的描述。目的是为了覆盖权利要求的范围内的所有修改、等同物、以及替代物。
[0012]图1是利用相同的音频输入来识别唤醒短语并执行说话者验证的第一计算设备100的方框图。计算设备(设备)100包括麦克风104、音频编码解码器108、低功率引擎(LPE) 112、LPE驱动器116、说话者验证代理120、操作系统122和一个或多个应用程序124。计算设备100在麦克风104处接收音频输入，这生成被传递至音频编码解码器108的音频信号。音频编码解码器108进而将音频信号转换成被提供给LPE 112的数字信号。
[0013]低功率引擎112管理设备100中的捕获音频管线的方面。当设备处于低功率状态时，LPE 112运行。在一些实施例中，当设备处于活动状态时，LPE 112的组件也可以运行。除了当设备处于低功率状态时被启用之外，LPE 112还可以以相对于当设备处于活动状态时提供给其他组件的频率或供给电压而言降低的频率或供给电压而运行。在一些实施例中，LPE 112是低功率DSP (数字信号处理器)。
[0014]LPE 112包对由音频编码解码器108生成的数字音频信号进行编码的编码器128，以及对接收到的音频执行唤醒短语识别和说话者验证的话音(voice)触发器和说话者验证(VTSV)模块134。编码器128将音频编码成可以由VTSV模块134使用的格式，例如PCM(脉冲编码调制)。VTSV模块134包括话音活动检测模块138、唤醒短语识别模块142、说话者验证模块148以及可选地唤醒短语存储设备154。通常，当设备100进入低功率状态时，将VTSV模块134插入到音频捕获管线中，并且当设备100唤醒时，将VTSV模块134从音频捕获管线中移除。在一些实施例中，在设备100转换到低功率状态时是否将VTSV模块插入到音频捕获管线中是基于用户设定确定的。
[0015]VTSV模块134确定被编码的音频输入是否包括唤醒短语并且对包括唤醒短语的音频输入的部分执行说话者验证。可以将在麦克风104处接收到的音频输入126的全部或部分传送至VTSV模块134。例如，只有在来自先前阶段的输入满足某些特性时，例如音频信号的幅度高于阈值水平，才可以将麦克风104、音频编码解码器108和/或编码器128配置为以将输出提供给音频捕获管线中的下一阶段。在其他实施例中，当设备100处于低功率状态中时，VTSV模块134处理在麦克风104处接收到的所有音频输入。
[0016]话音活动检测模块138确定被编码的音频是否包括人类语音。如果包括，则将包括所述语音的音频输入的部分传送至唤醒短语识别模块142。唤醒短语识别模块142采用已知的语音识别技术以确定音频输入是否包括包含唤醒短语的语音。
[0017]唤醒短语是可以使得在低功率状态中运行的计算设备唤醒的单词或短语(例如，“嘿，电话”、“起来”、“你好”)。在图1中，在计算设备100唤醒之前，还验证说话者。在其他实施例中，如在下文中关于图2所描述的，在检测到唤醒短语之后设备醒来，并且接着执行说话者验证。
[0018]计算设备可以采用各种唤醒短语策略。例如，在一些实施例中，不同的用户可以使用相同的唤醒短语以唤醒计算设备。在其他实施例中，用户可以说出多个唤醒短语中的一个以唤醒设备。在其他实施例中，各种的唤醒短语可以和不同的用户关联。例如，一个或多个唤醒短语可以和第一用户关联，并且一个或多个第二唤醒短语可以和第二用户关联。而且，不同的唤醒短语可以使得计算设备从低功率状态转换到不同的活动状态，例如高性能、标准和低性能活动状态。例如，这些活动状态之间的不同可以是启用的设备组件或配件的数量，设备的组件运行的时钟频率、应用至设备的组件的供给电压等。在一些实施例中，唤醒短语可以是用户可编程的或被计算设备制造商配置的。
[0019]唤醒短语识别模块142将音频输入和可以被设备存取的唤醒短语进行比较，所述唤醒短语例如存储在唤醒短语存储设备154中的唤醒短语。唤醒短语存储设备154还可以包括与被存储的唤醒短语相关联的一个或多个用户的指示。如果唤醒短语识别模块142确定音频输入包括唤醒短语，则说话者验证模块148验证说出唤醒短语的用户是有权操作设备的用户。在一些实施例中，利用已知的生物计量分析技术执行说话者验证。例如，可以将对音频输入执行的生物计量分析的结果与生物计量标识符或与被授权以操作计算设备的用户相关联的其他生物计量相关的信息进行比较。
[0020]对包括唤醒短语的音频输入的部分执行说话者验证。因此，对相同的音频输入执行说话者验证和唤醒短语识别。例如，如果唤醒短语识别模块142确定音频输入包括唤醒短语“嘿，电话”，则对包含“嘿，电话”唤醒短语的音频输入的部分执行说话者验证。
[0021]在说话者已经被验证为是被允许访问设备100的用户之后，设备100要被唤醒的通知将被传送至LPE驱动器116o LPE驱动器116将该通知传送至说话者验证代理服务120。代理服务120提供向设备100的操作系统122事件以解锁设备100。代理服务120可以向操作系统122提供事件以获得额外的任务，例如指示操作系统122从而针对待由一个或多个应用程序124执行或利用的命令或输入而开始监测音频输入126。在一些实施例中，在设备已经被唤醒之后，VTSV模块134在音频捕获管线中被跳过。
[0022]在已经验证了说话者之后唤醒设备100可以降低设备100的功率消耗。例如，如果设备100响应于用户说出唤醒短语而被唤醒，但是用户没有被验证，则电量可能被浪费。
[0023]图2是利用相同的音频输入识别来唤醒短语并执行说话者验证的第二计算设备200的方框图。设备200具有和图1中的设备100共同的组件，但是不同的是，说话者验证功能是由在低功率引擎112外部的说话者验证模块220执行的。在设备200中，当唤醒短语识别模块142在音频输入中检测出唤醒短语时，将设备200唤醒并且将包含唤醒短语的音频采样复制到由LPE驱动器116分配的短语缓冲器210。LPE驱动器116从LPE 112中接收已经检测到唤醒短语的通知，并且将该通知传送至说话者验证模块220中。说话者验证模块220对存储在短语缓冲器210中的音频采样执行验证。如果验证成功，则验证模块220向操作系统122提供事件以解锁设备200。验证模块220可以向操作系统提供额外的事件以针对提供给应用程序124的用户命令或输入而开始监测音频输入126。在计算设备200的替代的实施例中，说话者验证

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·达杜;L·克里希纳穆尔蒂;F·M·塔拉佩尔;P·R·达塔;B·R·皮布勒;M·E·戴舍尔;M·S·乔希;S·沙阿;B·K·弗格尔;
技术所有人：英特尔公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。