用于设备唤醒的低功率语音门的制作方法

文档序号：6548202阅读：264来源：国知局

用于设备唤醒的低功率语音门的制作方法
【专利摘要】本发明提供了一种用于设备唤醒的低功率语音门。一种分级处理系统可以被配置为减小音频信号的语音探测期间的功率消耗。第一级可以包含探测音频信号中的最小声音阈值。然后可以触发第二级施加Teager算子，以确定所述音频信号中的语言能量的信噪比。当探测到最小SNR时，可以触发第三级，以探测所述音频信号中的周期性并识别所述音频信号中的语音信号。当探测到语音信号时，可以触发第四级以处理语音命令。
【专利说明】用于设备唤醒的低功率语音门

【技术领域】
[0001] 本公开内容涉及移动设备。更具体地，本公开内容涉及对移动设备的功率减小。

【背景技术】
[0002] 人们通常通过口语单词最舒服地通信。然而，人与电子设备的交互常规地是通过触觉方法，诸如利用物理键盘和鼠标交互，并且最近是通过触摸屏来交互。在触觉交互的情况下，来自用户的输入是容易通过键盘上的键的触发或通过触摸屏设备的电容的变化来探测的。触觉输入可以涉及没有处理或有限的处理来探测与用户的交互的开始。例如，可以通过压力传感器探测何时按压键来探测物理键敲击。在另一范例中，可以通过确定触摸屏的电容值何时与阈值相交来探测触摸屏上的重击。在触觉输入中，在探测用户交互的起始时存在一些假阳性。即，当用户不意图开始与电子设备交互时，电子设备很少探测到触摸屏上的重击运动或探测到键盘上的键按压。
[0003] 输入至电子设备的音频可以变得对用户更舒服和容易。例如，与电子设备的交互可能需要两只手来在键盘上打字或两个拇指来在移动设备上打字。替代地，能够利用仅一只手握持设备，或甚至不用手，来向电子设备提供音频输入。例如，用户可以使移动设备位于口袋中，并且将其配置为无手模式用于通过无线耳机（headset)接收音频输入。然而，电子设备附近的噪声总是向电子设备的麦克风提供输入。即，总是存在背景噪声，并且背景噪声仅很少地含有意图用于电子设备的音频输入。此外，可能难以将音频输入与背景噪声区别开，特别是当使用单个麦克风输入时。从而，电子设备必需连续地处理由电子设备中的麦克风接收的音频信号以确定是否存在音频输入。此处理消耗电子设备的资源，这可以导致处理器以较慢的响应时间来完成其它任务，并且可以消极地影响电子设备的电池寿命。
[0004] 一个常规方案是不通过电子设备处理音频信号，直到用户用信号向电子设备通知正在开始音频输入为止。例如，用户可以选择电子设备上的"语音搜索"图标，引起电子设备开始记录来自麦克风的音频信号，并且处理音频信号来识别音频输入。然而，此常规的方案对于用户是较不舒服的并且减小了用户通过音频输入与电子设备交互的可能性。
[0005] 这里提到的缺点仅是代表性的并且简单地包含它们以强调存在对改进的电子设备的需求，特别是在消费者水平的设备中。于此描述的实施例应对某些缺点，但是不必处理于此描述的或本领域已知的每一个缺点。

【发明内容】

[0006] 电子设备的语音触发可以改进电子设备的智能，并给用户提供更舒服的输入方法。语音触发例如在智能电话上在用户向智能电话提供音频输入且用户不具有任何空闲的手时，诸如当驾驶汽车时，可能是有用的。音频输入可以由电子设备中的语音门探测，语音门可以生成唤醒信号来触发电子设备中的其它部件。例如，语音门可以位于电子设备的低功率部件中，以减小没有探测到音频输入时的功率消耗。当探测到音频输入时，语音门可以向电子设备的另一部件，诸如应用处理器，发送唤醒信号，以基于语音输入执行操作。从而，语音门可以减小电子设备等待来自用户的音频输入时电子设备的功率消耗。
[0007] 可以对语音探测进行分级以进一步减小功率消耗。例如，当音频信号达到阈值水平时，可以探测第一级。当音频号具有够的声音时，可以触发第二级以探测增大的瞬时信号能量。当探测的增大的信号能量时，指示语音信号的概率，则可以触发第三级以搜索语音信号中的周期性，匹配人声带生成的周期性。当探测到周期性时，可以触发第四级来处理音频信号，确定音频信号中的语音命令，并执行语音命令中的指令。
[0008] 在某些实施例中，可以至少部分地基于向音频信号施加 Teager算子的结果来计算音频信号的信噪比（SNR)。向音频信号施加 Teager算子来计算SNR可以作为利用语言能量探测和语音信号探测来提供用于在不同和变化的环境中识别语音信号的更鲁棒和精确的方法的系统的部分来实现。
[0009] 在一个实施例中，一种方法可以包含在处理器处接收音频信号。所述方法还可以包含在所述处理器处向所述音频信号施加 Teager算子，以计算所述音频信号中的能量的瞬时变化。所述方法还可以包含在所述处理器处至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的信噪比（SNR)。所述方法还可以包含当所述SNR在信号阈值以上时，设定第一探测标记。
[0010] 所述方法还可以包含：当设定了第一探测标记时，基于所述音频信号的倒谱来计算峰度，并且当所述峰度在阈值以上时，设定第二探测标记；以及当设定了所述第二探测标记时，唤醒第二处理器来识别所述音频信号中的语言命令；计算所述音频信号内对于搜索窗口的所述能量的瞬时变化，以及基于所述搜索窗口内的最小能量值来计算噪声水平；通过估计环境波动来调整所述信号阈值；基于所述音频信号的平均能量值和所述音频信号的标准偏差中的至少之一来对所述环境波动进行分类；和/或设定噪声跟踪系数，以对所述环境波动进行分类，并调整所述噪声跟踪系数。
[0011] 根据另一实施例，一种装置可以包含：音频信号输入端；以及语音门，耦合至所述音频信号输入端。所述语音门包含：语言能量探测模块，被配置为向音频信号施加 Teager 算子，以计算所述音频信号输入端的能量的瞬时变化，并被配置为至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的信噪比（SNR)。所述语音门还可以包含探测标记输出端，其中，当所述SNR在信号阈值以上时，设定所述探测标记输出端。
[0012] 所述装置还可以包含：耦合至所述音频信号输入端的缓冲器，其中，所述缓冲器被配置为缓冲来自所述音频信号输入端的传入音频；耦合至所述语音门和所述音频信号输入端的抽选（decimation)滤波器，其中，所述抽选滤波器被配置为减小来自所述音频信号输入端的音频样本的采样率；耦合至所述语音门的音频采样处理模块，其中，所述音频样本处理模块被配置为在所述信号水平在唤醒阈值以下时，对所述语音门进行断电（power down);模拟-数字转换器，耦合至所述音频信号输入端和所述语音门，其中，所述模拟-数字转换器被配置为在所述信号水平在所述唤醒阈值以上时，将来自所述音频信号输入端的模拟信号转换为数字；耦合至所述探测标记输出端的语音信号探测模块，其中，所述语音信号探测模块被配置为基于所述音频信号的倒谱来计算峰度，以及当所述峰度在阈值以上时，生成唤醒信号；和/或耦合至所述语音门的应用处理器，其中，所述应用处理器被配置为在生成所述唤醒信号时，进一步处理所述音频信号，以确定所述音频信号中的语音命令。在某些实施例中，语言能量探测器进一步被配置为至少部分地基于环境波动来调整所述信号阈值。
[0013] 根据再一实施例，一种计算机程序产品可以包含非瞬态计算机可读介质，所述非瞬态计算机可读介质包括执行以下步骤的代码：在处理器处接收音频信号。所述介质还可以包含执行以下步骤的代码：在所述处理器处向所述音频信号施加 Teager算子，以计算所述音频信号中的能量的瞬时变化。所述介质还可以包含执行以下步骤的代码：至少部分地基于计算的所述能量的瞬时变化来在所述处理器处计算所述音频信号的信噪比（SNR)。所述介质还可以包含执行以下步骤的代码：当所述SNR在信号阈值以上时，设定第一探测标记。
[0014] 所述计算机程序产品还可以包含执行以下步骤的代码：当设定了第一探测标记时，基于所述音频信号的倒谱来计算峰度，以及当所述峰度在阈值以上时，设定第二探测标记；当设定了所述第二探测标记时，唤醒第二处理器来识别所述音频信号中的语言命令；通过估计环境波动来调整所述信号阈值；计算所述音频信号内对于搜索窗口的所述能量的瞬时变化；和/或基于所述搜索窗口内的最小能量值来计算噪声水平。
[0015] 前面相当宽泛地概述了本发明的实施例的某些特征和技术优点，以便可以更好地理解以下详细描述。于此将描述形成本发明的权利要求的主题的附加特征和优点。本领域技术人员将理解，公开的具体实施例可以易于用作修改或设计用于执行相同或类似目的的其它结构的基础。还将意识到，该等同结构不脱离所附权利要求中提出的本发明的范围。当结合附图考虑时，根据以下描述，将可以更好地理解据信为本发明的其组织和操作方法的特点的新颖特征以及进一步的目的和优点。然而，应当清楚地理解，仅是为示例和描述的目的提供每一个图，其不意图作为本发明的限制的定义。

【专利附图】

【附图说明】
[0016] 为了更完全地理解公开的系统和方法，现在参考结合附图进行的以下描述。
[0017] 图1是示例根据本公开内容的一个实施例的语音门实施的框图；
[0018] 图2是示例根据本公开内容的一个实施例的探测语音信号中的增大的瞬时能量的方法的流程图；
[0019] 图3是示例根据一个实施例的向含有粉红噪声（pink noise)和语音声音的音频信号施加 Teager算子的结果的图示；
[0020] 图4是不例根据一个实施例的向含有汽车噪声和语音声音的音频信号施加 Teager算子的结果的图示；
[0021] 图5是示例根据一个实施例的向含有人交谈和机器操作噪声的音频信号施加 Teager算子的结果的图示；
[0022] 图6是示例根据本公开内容的一个实施例的考虑环境波动而探测音频信号中的语音的框图；
[0023] 图7是示例根据本公开内容的一个实施例的用于在自适应地跟踪噪声水平和波动时探测音频信号中的语音的算法的流程图；
[0024] 图8是示例根据本公开内容的一个实施例的各种背景噪声的噪声跟踪的图示；
[0025] 图9是示例根据本公开内容的一个实施例的根据具有粉红噪声的有声信号来计算倒谱的图示；
[0026] 图10是示例根据本公开内容的另一个实施例的根据具有粉红噪声的有声信号来计算倒谱的图示。

【具体实施方式】
[0027] 图1是示例根据本公开内容的一个实施例的语音门实施的框图。麦克风102可以奉禹合至第一芯片110,诸如低功率模拟 -数字转换器（ADC)。第一芯片110可以包含语音门 120。语音门120可以实施为音频编码器-解码器（CODEC)内的硬件、数字信号处理器（DSP) 内的硬件、专用集成电路（ASIC)内的硬件、或由通用中央处理单元（CPU)运行的算法。根据一个实施例，语音门120可以以低时钟频率操作，以减小功率消耗。第一芯片110也可以包含其它部件，诸如模拟-数字转换器114、抽选器（de Cimat〇r)116、以及缓冲器118。第一芯片110可以耦合至第二芯片130,诸如应用处理器。第二芯片130可以包含语言短语探测器132和口语命令处理器134。
[0028] 第一芯片110可以接收来自麦克风102的音频信号并且处理音频信号以探测语音信号。当在音频信号中探测到语音信号时，第一芯片110可以设定探测标记并且向第二芯片130传输唤醒信号。语音门120可以处理来自在麦克风102处接收的音频信号的数据并基于音频信号的内容输出唤醒信号。
[0029] 来自麦克风102的音频信号可以储存在缓冲器118中并被提供给第二芯片120。例如，当第一芯片110向第二芯片130输出唤醒信号时，然后第二芯片130可以访问位于缓冲器118中的音频信号的先前部分。在第一芯片110探测到音频输入时且第二芯片130响应于唤醒信号初始化时，缓冲器118可以减小或防止来自用户的音频输入的损耗。缓冲器 118可以储存例如两秒钟的来自麦克风102的音频信号。缓冲器118可以例如是圆缓冲器或先进先出（first-in-first-out，FIFO)缓冲器。
[0030] 虽然示为两个分开的芯片，但是第一芯片110和第二芯片130可以是单个芯片组的分开的部件。例如，第一芯片110和第二芯片130可以放置在层叠封装 (package-〇n-package)集成电路（PoP 1C)中。在另一范例中，可以将第一芯片110和第二芯片130制造于公共基底上，利用选通方案来在第一芯片110操作于触发状态时，容许第二芯片130操作于睡眠状态。
[0031] 语音门120可以通过音频包络比较器112耦合至麦克风102。音频包络比较器112 可以探测来自麦克风102的音频信号何时含有大于预定义的阈值的包络。可以分析来自音频包络比较器112的信号以在静默周期期间将模拟-数字转换器114、语音门120、和/或其它部件置于减小的功率模式中。例如，在晚上时间期间，音频包络比较器112可以生成指令模拟-数字转换器114、语音门120、和/或其它部件进入睡眠模式的信号。从而，音频包络比较器112可以进一步降低电子设备内的功率消耗。
[0032] 当音频包络比较器112探测到阈值水平以上的来自麦克风102的音频信号时，音频信号可以由模拟-数字转换器（ADC)114处理。可以将ADC114的数字输出提供给抽选器 116和缓冲器118。抽选器框116可以对从麦克风102接收的音频信号进行下采样。例如，抽选器框116可以将音频信号减小至具有4KHz带宽的信号，用于由语音门120进一步处理。对从麦克风102接收的音频信号进行下采样可以容许简化语音门120,使得语音门120 消耗减小的功率并且占据封装的集成电路中的减小的管芯空间。缓冲器118可以储存未抽选的（undecimated)的音频信号用于由第二芯片130后续处理。
[0033] 语音门120可以在硬件和/或软件中运行用于探测增大的信号能量的算法，诸如图2中示例的算法。图2是示例根据本公开内容的一个实施例的探测音频信号中的增大的信号能量的方法的流程图。方法200在框202以接收音频信号开始，诸如从耦合至电子设备或集成于电子设备中的麦克风接收音频信号。
[0034] 在框204,向音频信号施加 Teager算子，以计算音频信号中的瞬时能量变化。可以如下计算使用离散时间中的Teager算子的瞬时能量的计算：
[0035] ρ (η) = X (η) 2-χ (η-1) X (η+1),
[0036] 其中，ρ(η)是采样数为η时信号χ(η)的离散能量水平。Teager算子提供跟踪信号中的变化的能力并测量不同类型的信号。例如，可以将Teager算子施加至音频信号以探测振荡声音，诸如由声带振动生成的有声声音。频率和/或能量中的探测的瞬时变化可以提供至电子设备的音频输入正在开始的指示。提供至不同信号的Teager算子的范例示于图3中。
[0037] 图3是不例根据一个实施例的向含有粉红噪声和语音声音的音频信号施加 Teager算子的结果的图示。线302和304分别示例了对于粉红噪声和语音的解构 (deconsturct)的音频信号。当以Teager算子分析含有粉红噪声和语音的音频信号时，生成线306。将基于Teager算子的计算的输出中的脉冲与音频信号内的语音的位置相关联。为比较，基于均方根（RMS)算子的计算示为线308。
[0038] 图4是不例根据一个实施例的向含有汽车噪声和语音声音的音频信号施加 Teager算子的结果的图示。线402和404分别示例了对于汽车噪声和语音的解构的音频信号。当以Teager算子分析含有汽车噪声和语音的音频信号时，生成线406。将基于Teager 算子的计算的输出中的具有某一宽度的脉冲与音频信号内的语音的位置相关联。为比较，基于均方根（RMS)算子的计算示为线408。
[0039] 图5是示例根据一个实施例的向含有人交谈与机器操作噪声的音频信号施加 Teager算子的结果的图示。线502示例了含有语音和机器操作噪声的音频信号。当以 Teager算子分析含有机器操作噪声和语音的音频信号时，生成线506。将基于Teager算子的计算的输出中的尖峰与音频信号内的语音，诸如低幅度语音，的位置相关联。为比较，基于均方根（RMS)算子的计算示为线508。
[0040] 返回参照在图2的流程图中示例的方法200,在框206,至少部分地基于在框204 计算的能量的瞬时变化，对音频信号计算信噪比（SNR)。除计算的能量的瞬时变化外，对音频信号计算的SNR比也可以基于环境条件和其它因素。
[0041] 在框208,当SNR比在阈值水平以上时，设定探测标记。探测标记可以例如是引起唤醒信号的输出的芯片中的寄存器，或触发至其它处理框的时钟反馈的使能信号。当SNR 比在阈值以上时，方法200确定在音频信号中可以存在语音。探测标记可以引起处理器的触发，以进一步分析音频信号并探测语音命令。
[0042] 图6是示例根据本公开内容的一个实施例的考虑环境波动时探测音频信号中的语音的框图。可以将音频信号602,诸如脉冲代码调制（PCM)信号，输入至系统600的音频样本处理框612。音频样本处理框612可以基于信号602来处理音频采样率并向语言 (speech)能量探测框614提供表示巾贞能量（frame energy)的输出数据。音频样本处理框 612可以基于音频数据和Teager算子来处理样本，然后对它们一起求和以获得帧能量。根据一个实施例，帧可以具有音频样本的大约128与大约160个样本之间的大小。
[0043] 语言能量探测框614可以确定音频信号602何时包含与可能的语音（voice)信号对应的瞬时能量的变化。语言能量探测框614可以接收来自环境波动统计框616的输入信号。环境波动统计框616可以接收音频信号602并确定环境噪声（noise)水平。例如，环境波动统计框616可以确定音频号602是否是从飞机、汽车、办公室、户外公园等记录的。语言能量探测框614可以使用环境统计来确定何时能量的瞬时变化指示可能的语音信号。
[0044] 语言能量探测框614的输出可以引发有声（voiced)信号探测框618对音频信号 602执行进一步的处理。有声信号探测框618可以计算对于音频信号602的信噪比（SNR)，并且确定在音频信号602中是否存在语音。有声信号探测框618可以输出探测标记。可以处理探测标记以产生传输至另一芯片的唤醒信号622。在一个实施例中，可以将有声信号探测框618的输出提供给时滞定时器620,时滞定时器620可以在某一量的时间，诸如500毫秒，之后停用（deactivate)唤醒信号。
[0045] 可以将系统600的全局时钟信号604输入至时钟生成器610,时钟生成器610生成用于系统600内的同步操作的局部时钟。时钟生成器610可以向处理框，诸如音频样本处理框612和语言能量探测框614,供应局部时钟。替代地，可以将系统600内的处理的同步定时至全局时钟信号604,而无局部时钟信号。
[0046] 此外，时钟生成器610可以开通或关闭至系统600的各个框的时钟信号，以减小系统600的功率消耗。例如，当语言能量探测框614未探测到语言能量时，时钟生成器610可以停止向有声信号探测框618提供时钟。在一个实施例中，时钟生成器610的输出可以通过三态缓冲器611传递，三态缓冲器611接收语言能量探测框614的输出作为使能输入。语言能量探测框614可以在在音频信号中存在语言能量时运行用于增大的能量探测的算法。
[0047] 图7是示例根据本公开内容的一个实施例的用于在自适应地跟踪噪声水平和波动时音频信号中的语言能量探测的算法的流程图。可以在例如图1的语音门120或图6的语言能量探测框614中实施方法700。
[0048] 方法700在框702以确定是否达到了最小搜索窗口开始。例如，可以建立对于搜索窗口的半秒最小值。如果最小窗口时间没有通过，则方法700继续框704以寻求最小值。如果在框702最小窗口时间通过了，则方法700继续至框706以重设窗口计数器并在框708 更新最小值。框708的最小量的帧能量可以在框710用于形成初始信噪（SNR)比估计。如果框710的初始SNR估计大于部分地通过环境波动估计确定的上限，则在框718将语音存在的概率设定为1。如果框710的初始SNR估计小于上限，则方法700进行至框714。在框 714,确定框710的初始SNR估计是否低于下限。如果低于下限，则在框716将语音存在概率设定为0。如果不低于下限，则在框720将初始SNR估计映射（map)为语音存在概率。可以将语音存在概率映射为〇与1之间的值，诸如通过线性映射或通过查找表。在在框718、框716、或框720设定语音存在概率之后，方法进行至框722。
[0049] 在框722,可以平滑语音存在概率，诸如通过移动平均方法。框722的平滑的语音存在概率可以在框724用于确定用于噪声基底（noise floor)跟踪的滤波器的系数。滤波器系数更新计算：CMise = Cdrfault+(1-Cdrfault) ·概率，其中，Cdrfault是默认噪声滤波器系数， CMise是更新的滤波器系数。当不存在语音信号时，可以在框716将概率估计为0,可以通过以默认系数值Cdrfault对帧能量进行低通滤波来获得噪声基底。如果在框718将概率估计为 1，则将滤波系数设定为1，这确定不存在进一步的噪声基底更新。在框726,可以利用平滑滤波器基于框724的修改的系数来更新周围噪声估计。根据一个实施例，将默认滤波器系数设定为大约0.89。
[0050] 在框728,对音频信号计算更新的SNR。如果在框730SNR大于阈值，则在框734设定能量探测标记。如果在框730SNR不大于阈值，则在框732将能量探测标记清除。阈值以上的SNR可以指示当前帧的能量与根据先前帧计算的噪声基底的比用信号通知音频信号中的语音的可能性。在相应的框734和732设定和清除的探测标记可以用于生成传递至集成电路的另一部件或传递至另一芯片的唤醒信号，以进一步处理音频信号。
[0051] 在框736,确定是否达到环境波动统计窗口。窗口可以是例如一秒的持续期间。如果未达到，则方法700结束。如果达到了，则方法700进行至框738,以计算信号统计，诸如平均值和偏差，并且然后进行至框740以分别更新框712、714、以及730的上限、下限、以及 SNR阈值。重新计算上限、下限、以及SNR阈值容许方法700的算法适应变化的环境。方法 700可以由图1的语音门120重复。
[0052] 方法700提供用于探测各种以及连续变化的环境中的噪声掺杂的语音信号的方法。例如，通过在非语言周期期间统计地跟踪背景噪声的能量水平和能量波动，算法可以调整静态和非静态声音环境，包含餐馆内的杂音（babble)和背景音乐以及噪声。在一个实施例中，可以部分地基于音频信号的能量平均值和偏差将背景噪声分类为三个种类之一。三个种类可以表示静态场景、伪静态场景、以及非静态场景。静态场景可以包含粉红噪声、空调扇噪声、以及喷气发动机噪声等。伪静态场景可以包含汽车噪声。非静态场景可以包含在办公室、或餐馆中捕获的去掉的杂音噪声、背景音乐、以及街道噪声等。
[0053] 可以基于探测到三个种类中的哪一个种类来使方法700的上限、下限、以及SNR阈值适应。例如，当在与非静态场景对应的种类中操作时，可以提高三个参数以减小错误地探测到音频信号中语音信号的存在的可能性。
[0054] 方法700的阈值的适应容许对许多背景环境的跟踪。图8是示例根据本公开内容的一个实施例的各种背景噪声的噪声跟踪而无假阳性的图示。线820示例粉红噪声随时间的噪声跟踪。线804示例汽车噪声随时间的跟踪。线806示例去掉的杂音噪声随时间的噪声跟踪。线808示例交响乐音乐随时间的跟踪。
[0055] 返回参照图6,在语言能量探测框输出能量探测标记时，可以触发有声信号探测框 618。有声信号探测框618可以比语言能量探测框614提供在音频信号620中是否存在有声信号的更精确的确定。有声信号探测框618可以对音频信号602进行采样，以以例如8KHz 的采样率获得音频信号602的512个样本。可以通过向音频信号602的汉明（Hamming)窗口施加快速傅立叶变换（FFT)来获得样本。可以向样本施加逻辑计算以压缩谱的动态范围。根据一个实施例，动态范围可以聚焦于容纳人语言基频的范围的50与400赫兹之间的范围上。可以通过识别样本的谱的周期性来探测语音信号。周期性特别地存在于语言中的有声信号中，诸如英语或汉语中的元音和某些辅音。在一个实施例中，可以应用高通滤波器来去除低频分量。
[0056] 然后，可以计算第二FFT以产生音频信号的倒谱。如果通过人声带的激发产生音频信号602,则可以在来自音频信号602的样本的倒谱中产生峰。可以通过将倒频峰值的累积和峰附近的斜坡（bin)的数量与整个倒谱的平均幅度进行比较来执行峰度（peakness) 探测。在一个实施例中，可以将倒谱峰值和峰值任一侧的两个斜坡与平均幅度进行比较。当相对于平均幅度识别了峰时，检查峰的位置，以确定位置是否在人语言周期范围内。如果不在人语言周期范围内，则确定音频信号的当前样本为非有声信号。如果在人语言周期范围内，则确定音频信号的当前样本为有声信号，并且可以作为响应生成唤醒信号。图9和10 中示例了倒谱的计算。
[0057] 图9是示例根据本公开内容的一个实施例的根据具有粉红噪声的有声信号计算倒谱的图示。线902示例混合有粉红噪声的10分贝（dB) SNR有声信号。线904示例线902 的信号的对数谱。线906示例线902的信号的计算的倒谱。对应于有声信号，线906中出现峰。
[0058] 图10是示例根据本公开内容的另一个实施例的根据具有粉红噪声的另一个有声信号计算倒谱的图示。线1002示例混合有粉红噪声的10dB SNR有声信号。线1004示例线1002的信号的对数谱。线1006示例线1002的信号的计算的倒谱。对应于有声信号，线 1006中出现峰。
[0059] 利用语言能量探测和有声信号探测对来自用户的音频输入进行的探测可以具有减小的错误引发率。语言能量探测过程可以包含施加 Teager算子以计算音频信号的信噪 (SNR)比。当探测到阈值水平以上的语言能量时，可以执行音频信号的有声信号探测。有声信号探测识别从语音信号中的周期性得到的音频信号的谱中的准周期性。
[0060] 可以实施包含语言能量探测的第一级和有声信号探测的第二级的此分级的音频输入探测，以减小语言探测期间的功率消耗。此外，第一级和第二级的确定可以用于生成唤醒诸如在应用处理器中运行的一个算法的另一个算法的唤醒信号，以对音频信号执行进一步的分析，诸如确定音频信号中的语音命令。减小来自第一级和第二级的假阳性减小了应用处理器被触发的时间量，这减小了电子设备中电池消耗。
[0061] 分级的探测算法的运行可以减小功率消耗。例如，第一级可以在消耗少的功率的同时探测各种噪声环境下的增大的能量。第二级可以操作于占空比模式，其中，其仅在音频信号通过第一级探测时开通。在由电池供电的移动设备中，此算法可以容许在移动设备通电时，语音探测的连续操作。
[0062] 如果实施于固件和/或软件中，则可以将以上描述的功能储存为计算机可读介质上的一个或多个指令或代码。范例包含编码有数据结构的非瞬态计算机可读介质和编码有计算机程序的计算机可读介质。计算机可读介质包含物理计算机储存介质。储存介质可以是能够由计算机访问的任何可用介质。通过范围，而非限制，该计算机可读介质能够包括 RAM、ROM、EEPROM、CD-ROM或其它光碟储存器、磁碟储存器或其它磁储存设备、或能够用于储存指令或数据结构形式的期望的程序代码并由计算机访问的任何其它介质。碟（disk)和盘（disc)包含压缩盘（⑶)、激光盘、光盘、数字多功能盘（DVD)、软碟以及蓝光盘。通常，碟磁性地再现数据，而盘光学地再现数据。以上的组合也应当包含在计算机可读介质的范围内。
[0063] 除储存在计算机可读介质上外，可以作为包含在通信装置中的传输介质上的信号提供指令和/或数据。例如，通信装置可以包含具有指示指令和数据的信号的收发器。指令和数据被配置为引起一个或多个处理器实施权利要求中概述的功能。
[0064] 虽然已经详细描述了本公开内容及其某些优点，但是应当理解，能够不脱离由所附权利要求限定的本公开内容的精神和范围，于此做出各种变化、替代和更改。此外，不意图将本申请的范围限制于说明书中描述的过程、机器、制造、物质的构成、措施、方法以及步骤的特定实施例。如本领域技术人员根据本发明所理解的，可以根据本公开内容利用当前存在或以后研发的执行与于此描述的对应实施例基本相同的功能或实现基本相同的结果的公开、机器、制造、物质的构成、措施、方法、或步骤。因而，意图将所附权利要求包含在它们的该过程、机器、制造、物质的构成、措施、方法、或步骤的范围内。
【权利要求】
1. 一种方法，包括：在处理器处接收音频信号；在所述处理器处向所述音频信号施加 Teager算子，以计算所述音频信号中的能量的瞬时变化；在所述处理器处至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的信噪比（SNR);以及当所述SNR在信号阈值以上时，设定第一探测标记。
2. 如权利要求1所述的方法，进一步包括：当设定了所述第一探测标记时：基于所述音频信号的倒谱来计算峰度；以及当所述峰度在阈值以上时，设定第二探测标记。
3. 如权利要求2所述的方法，进一步包括：当设定了所述第二探测标记时，唤醒第二处理器来识别所述音频信号中的语言命令。
4. 如权利要求1所述的方法，其中，所述计算的步骤包括：计算所述音频信号内的对于搜索窗口的所述能量的瞬时变化，并且计算所述音频信号的所述SNR的步骤包括基于所述搜索窗口内的最小能量值来计算噪声水平。
5. 如权利要求1所述的方法，进一步包括通过估计环境波动来调整所述信号阈值。
6. 如权利要求5所述的方法，其中，计算所述阈值的步骤包括基于所述音频信号的平均能量值和所述音频信号的标准偏差中的至少之一来对所述环境波动进行分类。
7. 如权利要求6所述的方法，进一步包括：设定用于对所述环境波动进行分类的噪声跟踪系数；以及调整所述噪声跟踪系数。
8. 如权利要求1所述的方法，其中，所述处理器是模拟-数字转换器（ADC)。
9. 一种装置，包括：音频信号输入端；以及语音门，耦合至所述音频信号输入端，所述语音门包括：语言能量探测模块，被配置为向音频信号施加 Teager算子，以计算所述音频信号输入端的能量的瞬时变化，并用于至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的信噪比（SNR);以及探测标记输出端，其中，当所述SNR在信号阈值以上时，设定所述探测标记输出端。
10. 如权利要求9所述的装置，进一步包括耦合至所述音频信号输入端的缓冲器，其中，所述缓冲器被配置为缓冲来自所述音频信号输入端的传入音频。
11. 如权利要求9所述的装置，进一步包括耦合至所述语音门和所述音频信号输入端的抽选滤波器，所述抽选滤波器被配置为减小来自所述音频信号输入端的音频样本的采样率。
12. 如权利要求9所述的装置，进一步包括：耦合至所述语音门的音频样本处理模块，其中，所述音频样本处理模块被配置为在所述信号水平在唤醒阈值以下时，对所述语音门进行断电；以及模拟-数字转换器，耦合至所述音频信号输入端和所述语音门，其中，所述模拟-数字转换器被配置为在所述信号水平在所述唤醒阈值以上时，将来自所述音频信号输入端的模拟信号转换为数字信号。
13. 如权利要求9所述的装置，其中，所述语言能量探测器进一步被配置为至少部分地基于环境波动来调整所述信号阈值。
14. 如权利要求9所述的装置，其中，所述语音门进一步包括耦合至所述探测标记输出端的有声信号探测模块，其中，所述有声信号探测模块被配置为：基于所述音频信号的倒谱来计算峰度；以及当所述峰度在阈值以上时，生成唤醒信号。
15. 如权利要求14所述的装置，进一步包括耦合至所述语音门的应用处理器，其中，所述应用处理器被配置为在生成所述唤醒信号时，进一步处理所述音频信号，以确定所述音频信号中的语音命令。
16. -种计算机程序产品，包括：非瞬态计算机可读介质，包括执行步骤的代码，所述步骤包括：在处理器处接收音频信号；在所述处理器处向所述音频信号施加 Teager算子，以计算所述音频信号中的能量的瞬时变化；在所述处理器处至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的信噪比（SNR);以及当所述SNR在信号阈值以上时，设定第一探测标记。
17. 如权利要求16所述的计算机程序产品，其中，所述介质进一步包括执行以下步骤的代码：当设定了所述第一探测标记时，基于所述音频信号的倒谱来计算峰度；以及当所述峰度在阈值以上时，设定第二探测标记。
18. 如权利要求17所述的计算机程序产品，其中，所述介质进一步包括执行以下步骤的代码：当设定了所述第二探测标记时，唤醒第二处理器来识别所述音频信号中的语言命令。
19. 如权利要求16所述的计算机程序产品，其中，所述介质进一步包括执行以下步骤的代码：通过估计环境波动来调整所述信号阈值。
20. 如权利要求16所述的计算机程序产品，其中，所述介质进一步包括执行以下步骤的代码：计算所述音频信号内的对于搜索窗口的所述能量的瞬时变化；以及基于所述搜索窗口内的最小能量值来计算噪声水平。
【文档编号】G06F3/16GK104216677SQ201410238545
【公开日】2014年12月17日申请日期:2014年5月30日优先权日:2013年5月31日
【发明者】J·L·许申请人:塞瑞斯逻辑公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·L·许
技术所有人：塞瑞斯逻辑公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。