用于设备唤醒的低功率语音门的制作方法

文档序号:6548202阅读:264来源:国知局
用于设备唤醒的低功率语音门的制作方法
【专利摘要】本发明提供了一种用于设备唤醒的低功率语音门。一种分级处理系统可以被配置为减小音频信号的语音探测期间的功率消耗。第一级可以包含探测音频信号中的最小声音阈值。然后可以触发第二级施加Teager算子,以确定所述音频信号中的语言能量的信噪比。当探测到最小SNR时,可以触发第三级,以探测所述音频信号中的周期性并识别所述音频信号中的语音信号。当探测到语音信号时,可以触发第四级以处理语音命令。
【专利说明】用于设备唤醒的低功率语音门

【技术领域】
[0001] 本公开内容涉及移动设备。更具体地,本公开内容涉及对移动设备的功率减小。

【背景技术】
[0002] 人们通常通过口语单词最舒服地通信。然而,人与电子设备的交互常规地是通过 触觉方法,诸如利用物理键盘和鼠标交互,并且最近是通过触摸屏来交互。在触觉交互的情 况下,来自用户的输入是容易通过键盘上的键的触发或通过触摸屏设备的电容的变化来探 测的。触觉输入可以涉及没有处理或有限的处理来探测与用户的交互的开始。例如,可以 通过压力传感器探测何时按压键来探测物理键敲击。在另一范例中,可以通过确定触摸屏 的电容值何时与阈值相交来探测触摸屏上的重击。在触觉输入中,在探测用户交互的起始 时存在一些假阳性。即,当用户不意图开始与电子设备交互时,电子设备很少探测到触摸屏 上的重击运动或探测到键盘上的键按压。
[0003] 输入至电子设备的音频可以变得对用户更舒服和容易。例如,与电子设备的交互 可能需要两只手来在键盘上打字或两个拇指来在移动设备上打字。替代地,能够利用仅一 只手握持设备,或甚至不用手,来向电子设备提供音频输入。例如,用户可以使移动设备位 于口袋中,并且将其配置为无手模式用于通过无线耳机(headset)接收音频输入。然而,电 子设备附近的噪声总是向电子设备的麦克风提供输入。即,总是存在背景噪声,并且背景噪 声仅很少地含有意图用于电子设备的音频输入。此外,可能难以将音频输入与背景噪声区 别开,特别是当使用单个麦克风输入时。从而,电子设备必需连续地处理由电子设备中的麦 克风接收的音频信号以确定是否存在音频输入。此处理消耗电子设备的资源,这可以导致 处理器以较慢的响应时间来完成其它任务,并且可以消极地影响电子设备的电池寿命。
[0004] 一个常规方案是不通过电子设备处理音频信号,直到用户用信号向电子设备通知 正在开始音频输入为止。例如,用户可以选择电子设备上的"语音搜索"图标,引起电子设 备开始记录来自麦克风的音频信号,并且处理音频信号来识别音频输入。然而,此常规的方 案对于用户是较不舒服的并且减小了用户通过音频输入与电子设备交互的可能性。
[0005] 这里提到的缺点仅是代表性的并且简单地包含它们以强调存在对改进的电子设 备的需求,特别是在消费者水平的设备中。于此描述的实施例应对某些缺点,但是不必处理 于此描述的或本领域已知的每一个缺点。


【发明内容】

[0006] 电子设备的语音触发可以改进电子设备的智能,并给用户提供更舒服的输入方 法。语音触发例如在智能电话上在用户向智能电话提供音频输入且用户不具有任何空闲的 手时,诸如当驾驶汽车时,可能是有用的。音频输入可以由电子设备中的语音门探测,语音 门可以生成唤醒信号来触发电子设备中的其它部件。例如,语音门可以位于电子设备的低 功率部件中,以减小没有探测到音频输入时的功率消耗。当探测到音频输入时,语音门可以 向电子设备的另一部件,诸如应用处理器,发送唤醒信号,以基于语音输入执行操作。从而, 语音门可以减小电子设备等待来自用户的音频输入时电子设备的功率消耗。
[0007] 可以对语音探测进行分级以进一步减小功率消耗。例如,当音频信号达到阈值水 平时,可以探测第一级。当音频号具有够的声音时,可以触发第二级以探测增大的瞬时信号 能量。当探测的增大的信号能量时,指示语音信号的概率,则可以触发第三级以搜索语音信 号中的周期性,匹配人声带生成的周期性。当探测到周期性时,可以触发第四级来处理音频 信号,确定音频信号中的语音命令,并执行语音命令中的指令。
[0008] 在某些实施例中,可以至少部分地基于向音频信号施加 Teager算子的结果来计 算音频信号的信噪比(SNR)。向音频信号施加 Teager算子来计算SNR可以作为利用语言能 量探测和语音信号探测来提供用于在不同和变化的环境中识别语音信号的更鲁棒和精确 的方法的系统的部分来实现。
[0009] 在一个实施例中,一种方法可以包含在处理器处接收音频信号。所述方法还可以 包含在所述处理器处向所述音频信号施加 Teager算子,以计算所述音频信号中的能量的 瞬时变化。所述方法还可以包含在所述处理器处至少部分地基于计算的所述能量的瞬时变 化来计算所述音频信号的信噪比(SNR)。所述方法还可以包含当所述SNR在信号阈值以上 时,设定第一探测标记。
[0010] 所述方法还可以包含:当设定了第一探测标记时,基于所述音频信号的倒谱来计 算峰度,并且当所述峰度在阈值以上时,设定第二探测标记;以及当设定了所述第二探测标 记时,唤醒第二处理器来识别所述音频信号中的语言命令;计算所述音频信号内对于搜索 窗口的所述能量的瞬时变化,以及基于所述搜索窗口内的最小能量值来计算噪声水平;通 过估计环境波动来调整所述信号阈值;基于所述音频信号的平均能量值和所述音频信号的 标准偏差中的至少之一来对所述环境波动进行分类;和/或设定噪声跟踪系数,以对所述 环境波动进行分类,并调整所述噪声跟踪系数。
[0011] 根据另一实施例,一种装置可以包含:音频信号输入端;以及语音门,耦合至所述 音频信号输入端。所述语音门包含:语言能量探测模块,被配置为向音频信号施加 Teager 算子,以计算所述音频信号输入端的能量的瞬时变化,并被配置为至少部分地基于计算的 所述能量的瞬时变化来计算所述音频信号的信噪比(SNR)。所述语音门还可以包含探测标 记输出端,其中,当所述SNR在信号阈值以上时,设定所述探测标记输出端。
[0012] 所述装置还可以包含:耦合至所述音频信号输入端的缓冲器,其中,所述缓冲器被 配置为缓冲来自所述音频信号输入端的传入音频;耦合至所述语音门和所述音频信号输 入端的抽选(decimation)滤波器,其中,所述抽选滤波器被配置为减小来自所述音频信号 输入端的音频样本的采样率;耦合至所述语音门的音频采样处理模块,其中,所述音频样 本处理模块被配置为在所述信号水平在唤醒阈值以下时,对所述语音门进行断电(power down);模拟-数字转换器,耦合至所述音频信号输入端和所述语音门,其中,所述模拟-数 字转换器被配置为在所述信号水平在所述唤醒阈值以上时,将来自所述音频信号输入端的 模拟信号转换为数字;耦合至所述探测标记输出端的语音信号探测模块,其中,所述语音 信号探测模块被配置为基于所述音频信号的倒谱来计算峰度,以及当所述峰度在阈值以上 时,生成唤醒信号;和/或耦合至所述语音门的应用处理器,其中,所述应用处理器被配置 为在生成所述唤醒信号时,进一步处理所述音频信号,以确定所述音频信号中的语音命令。 在某些实施例中,语言能量探测器进一步被配置为至少部分地基于环境波动来调整所述信 号阈值。
[0013] 根据再一实施例,一种计算机程序产品可以包含非瞬态计算机可读介质,所述非 瞬态计算机可读介质包括执行以下步骤的代码:在处理器处接收音频信号。所述介质还可 以包含执行以下步骤的代码:在所述处理器处向所述音频信号施加 Teager算子,以计算所 述音频信号中的能量的瞬时变化。所述介质还可以包含执行以下步骤的代码:至少部分地 基于计算的所述能量的瞬时变化来在所述处理器处计算所述音频信号的信噪比(SNR)。所 述介质还可以包含执行以下步骤的代码:当所述SNR在信号阈值以上时,设定第一探测标 记。
[0014] 所述计算机程序产品还可以包含执行以下步骤的代码:当设定了第一探测标记 时,基于所述音频信号的倒谱来计算峰度,以及当所述峰度在阈值以上时,设定第二探测标 记;当设定了所述第二探测标记时,唤醒第二处理器来识别所述音频信号中的语言命令; 通过估计环境波动来调整所述信号阈值;计算所述音频信号内对于搜索窗口的所述能量的 瞬时变化;和/或基于所述搜索窗口内的最小能量值来计算噪声水平。
[0015] 前面相当宽泛地概述了本发明的实施例的某些特征和技术优点,以便可以更好地 理解以下详细描述。于此将描述形成本发明的权利要求的主题的附加特征和优点。本领域 技术人员将理解,公开的具体实施例可以易于用作修改或设计用于执行相同或类似目的的 其它结构的基础。还将意识到,该等同结构不脱离所附权利要求中提出的本发明的范围。当 结合附图考虑时,根据以下描述,将可以更好地理解据信为本发明的其组织和操作方法的 特点的新颖特征以及进一步的目的和优点。然而,应当清楚地理解,仅是为示例和描述的目 的提供每一个图,其不意图作为本发明的限制的定义。

【专利附图】

【附图说明】
[0016] 为了更完全地理解公开的系统和方法,现在参考结合附图进行的以下描述。
[0017] 图1是示例根据本公开内容的一个实施例的语音门实施的框图;
[0018] 图2是示例根据本公开内容的一个实施例的探测语音信号中的增大的瞬时能量 的方法的流程图;
[0019] 图3是示例根据一个实施例的向含有粉红噪声(pink noise)和语音声音的音频 信号施加 Teager算子的结果的图示;
[0020] 图4是不例根据一个实施例的向含有汽车噪声和语音声音的音频信号施加 Teager算子的结果的图示;
[0021] 图5是示例根据一个实施例的向含有人交谈和机器操作噪声的音频信号施加 Teager算子的结果的图示;
[0022] 图6是示例根据本公开内容的一个实施例的考虑环境波动而探测音频信号中的 语音的框图;
[0023] 图7是示例根据本公开内容的一个实施例的用于在自适应地跟踪噪声水平和波 动时探测音频信号中的语音的算法的流程图;
[0024] 图8是示例根据本公开内容的一个实施例的各种背景噪声的噪声跟踪的图示;
[0025] 图9是示例根据本公开内容的一个实施例的根据具有粉红噪声的有声信号来计 算倒谱的图示;
[0026] 图10是示例根据本公开内容的另一个实施例的根据具有粉红噪声的有声信号来 计算倒谱的图示。

【具体实施方式】
[0027] 图1是示例根据本公开内容的一个实施例的语音门实施的框图。麦克风102可以 奉禹合至第一芯片110,诸如低功率模拟 -数字转换器(ADC)。第一芯片110可以包含语音门 120。语音门120可以实施为音频编码器-解码器(CODEC)内的硬件、数字信号处理器(DSP) 内的硬件、专用集成电路(ASIC)内的硬件、或由通用中央处理单元(CPU)运行的算法。根 据一个实施例,语音门120可以以低时钟频率操作,以减小功率消耗。第一芯片110也可以 包含其它部件,诸如模拟-数字转换器114、抽选器(de Cimat〇r)116、以及缓冲器118。第一 芯片110可以耦合至第二芯片130,诸如应用处理器。第二芯片130可以包含语言短语探测 器132和口语命令处理器134。
[0028] 第一芯片110可以接收来自麦克风102的音频信号并且处理音频信号以探测语音 信号。当在音频信号中探测到语音信号时,第一芯片110可以设定探测标记并且向第二芯 片130传输唤醒信号。语音门120可以处理来自在麦克风102处接收的音频信号的数据并 基于音频信号的内容输出唤醒信号。
[0029] 来自麦克风102的音频信号可以储存在缓冲器118中并被提供给第二芯片120。 例如,当第一芯片110向第二芯片130输出唤醒信号时,然后第二芯片130可以访问位于缓 冲器118中的音频信号的先前部分。在第一芯片110探测到音频输入时且第二芯片130响 应于唤醒信号初始化时,缓冲器118可以减小或防止来自用户的音频输入的损耗。缓冲器 118可以储存例如两秒钟的来自麦克风102的音频信号。缓冲器118可以例如是圆缓冲器 或先进先出(first-in-first-out,FIFO)缓冲器。
[0030] 虽然示为两个分开的芯片,但是第一芯片110和第二芯片130可以是单个 芯片组的分开的部件。例如,第一芯片110和第二芯片130可以放置在层叠封装 (package-〇n-package)集成电路(PoP 1C)中。在另一范例中,可以将第一芯片110和第二 芯片130制造于公共基底上,利用选通方案来在第一芯片110操作于触发状态时,容许第二 芯片130操作于睡眠状态。
[0031] 语音门120可以通过音频包络比较器112耦合至麦克风102。音频包络比较器112 可以探测来自麦克风102的音频信号何时含有大于预定义的阈值的包络。可以分析来自音 频包络比较器112的信号以在静默周期期间将模拟-数字转换器114、语音门120、和/或 其它部件置于减小的功率模式中。例如,在晚上时间期间,音频包络比较器112可以生成指 令模拟-数字转换器114、语音门120、和/或其它部件进入睡眠模式的信号。从而,音频包 络比较器112可以进一步降低电子设备内的功率消耗。
[0032] 当音频包络比较器112探测到阈值水平以上的来自麦克风102的音频信号时,音 频信号可以由模拟-数字转换器(ADC)114处理。可以将ADC114的数字输出提供给抽选器 116和缓冲器118。抽选器框116可以对从麦克风102接收的音频信号进行下采样。例如, 抽选器框116可以将音频信号减小至具有4KHz带宽的信号,用于由语音门120进一步处 理。对从麦克风102接收的音频信号进行下采样可以容许简化语音门120,使得语音门120 消耗减小的功率并且占据封装的集成电路中的减小的管芯空间。缓冲器118可以储存未抽 选的(undecimated)的音频信号用于由第二芯片130后续处理。
[0033] 语音门120可以在硬件和/或软件中运行用于探测增大的信号能量的算法,诸如 图2中示例的算法。图2是示例根据本公开内容的一个实施例的探测音频信号中的增大的 信号能量的方法的流程图。方法200在框202以接收音频信号开始,诸如从耦合至电子设 备或集成于电子设备中的麦克风接收音频信号。
[0034] 在框204,向音频信号施加 Teager算子,以计算音频信号中的瞬时能量变化。可以 如下计算使用离散时间中的Teager算子的瞬时能量的计算:
[0035] ρ (η) = X (η) 2-χ (η-1) X (η+1),
[0036] 其中,ρ(η)是采样数为η时信号χ(η)的离散能量水平。Teager算子提供跟踪信 号中的变化的能力并测量不同类型的信号。例如,可以将Teager算子施加至音频信号以探 测振荡声音,诸如由声带振动生成的有声声音。频率和/或能量中的探测的瞬时变化可以 提供至电子设备的音频输入正在开始的指示。提供至不同信号的Teager算子的范例示于 图3中。
[0037] 图3是不例根据一个实施例的向含有粉红噪声和语音声音的音频信号施 加 Teager算子的结果的图示。线302和304分别示例了对于粉红噪声和语音的解构 (deconsturct)的音频信号。当以Teager算子分析含有粉红噪声和语音的音频信号时,生 成线306。将基于Teager算子的计算的输出中的脉冲与音频信号内的语音的位置相关联。 为比较,基于均方根(RMS)算子的计算示为线308。
[0038] 图4是不例根据一个实施例的向含有汽车噪声和语音声音的音频信号施加 Teager算子的结果的图示。线402和404分别示例了对于汽车噪声和语音的解构的音频信 号。当以Teager算子分析含有汽车噪声和语音的音频信号时,生成线406。将基于Teager 算子的计算的输出中的具有某一宽度的脉冲与音频信号内的语音的位置相关联。为比较, 基于均方根(RMS)算子的计算示为线408。
[0039] 图5是示例根据一个实施例的向含有人交谈与机器操作噪声的音频信号施加 Teager算子的结果的图示。线502示例了含有语音和机器操作噪声的音频信号。当以 Teager算子分析含有机器操作噪声和语音的音频信号时,生成线506。将基于Teager算子 的计算的输出中的尖峰与音频信号内的语音,诸如低幅度语音,的位置相关联。为比较,基 于均方根(RMS)算子的计算示为线508。
[0040] 返回参照在图2的流程图中示例的方法200,在框206,至少部分地基于在框204 计算的能量的瞬时变化,对音频信号计算信噪比(SNR)。除计算的能量的瞬时变化外,对音 频信号计算的SNR比也可以基于环境条件和其它因素。
[0041] 在框208,当SNR比在阈值水平以上时,设定探测标记。探测标记可以例如是引起 唤醒信号的输出的芯片中的寄存器,或触发至其它处理框的时钟反馈的使能信号。当SNR 比在阈值以上时,方法200确定在音频信号中可以存在语音。探测标记可以引起处理器的 触发,以进一步分析音频信号并探测语音命令。
[0042] 图6是示例根据本公开内容的一个实施例的考虑环境波动时探测音频信号中的 语音的框图。可以将音频信号602,诸如脉冲代码调制(PCM)信号,输入至系统600的音 频样本处理框612。音频样本处理框612可以基于信号602来处理音频采样率并向语言 (speech)能量探测框614提供表示巾贞能量(frame energy)的输出数据。音频样本处理框 612可以基于音频数据和Teager算子来处理样本,然后对它们一起求和以获得帧能量。根 据一个实施例,帧可以具有音频样本的大约128与大约160个样本之间的大小。
[0043] 语言能量探测框614可以确定音频信号602何时包含与可能的语音(voice)信号 对应的瞬时能量的变化。语言能量探测框614可以接收来自环境波动统计框616的输入信 号。环境波动统计框616可以接收音频信号602并确定环境噪声(noise)水平。例如,环境 波动统计框616可以确定音频号602是否是从飞机、汽车、办公室、户外公园等记录的。语 言能量探测框614可以使用环境统计来确定何时能量的瞬时变化指示可能的语音信号。
[0044] 语言能量探测框614的输出可以引发有声(voiced)信号探测框618对音频信号 602执行进一步的处理。有声信号探测框618可以计算对于音频信号602的信噪比(SNR), 并且确定在音频信号602中是否存在语音。有声信号探测框618可以输出探测标记。可以 处理探测标记以产生传输至另一芯片的唤醒信号622。在一个实施例中,可以将有声信号探 测框618的输出提供给时滞定时器620,时滞定时器620可以在某一量的时间,诸如500毫 秒,之后停用(deactivate)唤醒信号。
[0045] 可以将系统600的全局时钟信号604输入至时钟生成器610,时钟生成器610生成 用于系统600内的同步操作的局部时钟。时钟生成器610可以向处理框,诸如音频样本处 理框612和语言能量探测框614,供应局部时钟。替代地,可以将系统600内的处理的同步 定时至全局时钟信号604,而无局部时钟信号。
[0046] 此外,时钟生成器610可以开通或关闭至系统600的各个框的时钟信号,以减小系 统600的功率消耗。例如,当语言能量探测框614未探测到语言能量时,时钟生成器610可 以停止向有声信号探测框618提供时钟。在一个实施例中,时钟生成器610的输出可以通过 三态缓冲器611传递,三态缓冲器611接收语言能量探测框614的输出作为使能输入。语 言能量探测框614可以在在音频信号中存在语言能量时运行用于增大的能量探测的算法。
[0047] 图7是示例根据本公开内容的一个实施例的用于在自适应地跟踪噪声水平和波 动时音频信号中的语言能量探测的算法的流程图。可以在例如图1的语音门120或图6的 语言能量探测框614中实施方法700。
[0048] 方法700在框702以确定是否达到了最小搜索窗口开始。例如,可以建立对于搜 索窗口的半秒最小值。如果最小窗口时间没有通过,则方法700继续框704以寻求最小值。 如果在框702最小窗口时间通过了,则方法700继续至框706以重设窗口计数器并在框708 更新最小值。框708的最小量的帧能量可以在框710用于形成初始信噪(SNR)比估计。如 果框710的初始SNR估计大于部分地通过环境波动估计确定的上限,则在框718将语音存 在的概率设定为1。如果框710的初始SNR估计小于上限,则方法700进行至框714。在框 714,确定框710的初始SNR估计是否低于下限。如果低于下限,则在框716将语音存在概 率设定为0。如果不低于下限,则在框720将初始SNR估计映射(map)为语音存在概率。可 以将语音存在概率映射为〇与1之间的值,诸如通过线性映射或通过查找表。在在框718、 框716、或框720设定语音存在概率之后,方法进行至框722。
[0049] 在框722,可以平滑语音存在概率,诸如通过移动平均方法。框722的平滑的语音 存在概率可以在框724用于确定用于噪声基底(noise floor)跟踪的滤波器的系数。滤波 器系数更新计算:CMise = Cdrfault+(1-Cdrfault) ·概率,其中,Cdrfault是默认噪声滤波器系数, CMise是更新的滤波器系数。当不存在语音信号时,可以在框716将概率估计为0,可以通过 以默认系数值Cdrfault对帧能量进行低通滤波来获得噪声基底。如果在框718将概率估计为 1,则将滤波系数设定为1,这确定不存在进一步的噪声基底更新。在框726,可以利用平滑 滤波器基于框724的修改的系数来更新周围噪声估计。根据一个实施例,将默认滤波器系 数设定为大约0.89。
[0050] 在框728,对音频信号计算更新的SNR。如果在框730SNR大于阈值,则在框734设 定能量探测标记。如果在框730SNR不大于阈值,则在框732将能量探测标记清除。阈值以 上的SNR可以指示当前帧的能量与根据先前帧计算的噪声基底的比用信号通知音频信号 中的语音的可能性。在相应的框734和732设定和清除的探测标记可以用于生成传递至集 成电路的另一部件或传递至另一芯片的唤醒信号,以进一步处理音频信号。
[0051] 在框736,确定是否达到环境波动统计窗口。窗口可以是例如一秒的持续期间。如 果未达到,则方法700结束。如果达到了,则方法700进行至框738,以计算信号统计,诸如 平均值和偏差,并且然后进行至框740以分别更新框712、714、以及730的上限、下限、以及 SNR阈值。重新计算上限、下限、以及SNR阈值容许方法700的算法适应变化的环境。方法 700可以由图1的语音门120重复。
[0052] 方法700提供用于探测各种以及连续变化的环境中的噪声掺杂的语音信号的方 法。例如,通过在非语言周期期间统计地跟踪背景噪声的能量水平和能量波动,算法可以调 整静态和非静态声音环境,包含餐馆内的杂音(babble)和背景音乐以及噪声。在一个实施 例中,可以部分地基于音频信号的能量平均值和偏差将背景噪声分类为三个种类之一。三 个种类可以表示静态场景、伪静态场景、以及非静态场景。静态场景可以包含粉红噪声、空 调扇噪声、以及喷气发动机噪声等。伪静态场景可以包含汽车噪声。非静态场景可以包含 在办公室、或餐馆中捕获的去掉的杂音噪声、背景音乐、以及街道噪声等。
[0053] 可以基于探测到三个种类中的哪一个种类来使方法700的上限、下限、以及SNR阈 值适应。例如,当在与非静态场景对应的种类中操作时,可以提高三个参数以减小错误地探 测到音频信号中语音信号的存在的可能性。
[0054] 方法700的阈值的适应容许对许多背景环境的跟踪。图8是示例根据本公开内容 的一个实施例的各种背景噪声的噪声跟踪而无假阳性的图示。线820示例粉红噪声随时间 的噪声跟踪。线804示例汽车噪声随时间的跟踪。线806示例去掉的杂音噪声随时间的噪 声跟踪。线808示例交响乐音乐随时间的跟踪。
[0055] 返回参照图6,在语言能量探测框输出能量探测标记时,可以触发有声信号探测框 618。有声信号探测框618可以比语言能量探测框614提供在音频信号620中是否存在有声 信号的更精确的确定。有声信号探测框618可以对音频信号602进行采样,以以例如8KHz 的采样率获得音频信号602的512个样本。可以通过向音频信号602的汉明(Hamming)窗 口施加快速傅立叶变换(FFT)来获得样本。可以向样本施加逻辑计算以压缩谱的动态范 围。根据一个实施例,动态范围可以聚焦于容纳人语言基频的范围的50与400赫兹之间的 范围上。可以通过识别样本的谱的周期性来探测语音信号。周期性特别地存在于语言中的 有声信号中,诸如英语或汉语中的元音和某些辅音。在一个实施例中,可以应用高通滤波器 来去除低频分量。
[0056] 然后,可以计算第二FFT以产生音频信号的倒谱。如果通过人声带的激发产生音 频信号602,则可以在来自音频信号602的样本的倒谱中产生峰。可以通过将倒频峰值的累 积和峰附近的斜坡(bin)的数量与整个倒谱的平均幅度进行比较来执行峰度(peakness) 探测。在一个实施例中,可以将倒谱峰值和峰值任一侧的两个斜坡与平均幅度进行比较。当 相对于平均幅度识别了峰时,检查峰的位置,以确定位置是否在人语言周期范围内。如果不 在人语言周期范围内,则确定音频信号的当前样本为非有声信号。如果在人语言周期范围 内,则确定音频信号的当前样本为有声信号,并且可以作为响应生成唤醒信号。图9和10 中示例了倒谱的计算。
[0057] 图9是示例根据本公开内容的一个实施例的根据具有粉红噪声的有声信号计算 倒谱的图示。线902示例混合有粉红噪声的10分贝(dB) SNR有声信号。线904示例线902 的信号的对数谱。线906示例线902的信号的计算的倒谱。对应于有声信号,线906中出 现峰。
[0058] 图10是示例根据本公开内容的另一个实施例的根据具有粉红噪声的另一个有声 信号计算倒谱的图示。线1002示例混合有粉红噪声的10dB SNR有声信号。线1004示例 线1002的信号的对数谱。线1006示例线1002的信号的计算的倒谱。对应于有声信号,线 1006中出现峰。
[0059] 利用语言能量探测和有声信号探测对来自用户的音频输入进行的探测可以具有 减小的错误引发率。语言能量探测过程可以包含施加 Teager算子以计算音频信号的信噪 (SNR)比。当探测到阈值水平以上的语言能量时,可以执行音频信号的有声信号探测。有声 信号探测识别从语音信号中的周期性得到的音频信号的谱中的准周期性。
[0060] 可以实施包含语言能量探测的第一级和有声信号探测的第二级的此分级的音频 输入探测,以减小语言探测期间的功率消耗。此外,第一级和第二级的确定可以用于生成唤 醒诸如在应用处理器中运行的一个算法的另一个算法的唤醒信号,以对音频信号执行进一 步的分析,诸如确定音频信号中的语音命令。减小来自第一级和第二级的假阳性减小了应 用处理器被触发的时间量,这减小了电子设备中电池消耗。
[0061] 分级的探测算法的运行可以减小功率消耗。例如,第一级可以在消耗少的功率的 同时探测各种噪声环境下的增大的能量。第二级可以操作于占空比模式,其中,其仅在音频 信号通过第一级探测时开通。在由电池供电的移动设备中,此算法可以容许在移动设备通 电时,语音探测的连续操作。
[0062] 如果实施于固件和/或软件中,则可以将以上描述的功能储存为计算机可读介质 上的一个或多个指令或代码。范例包含编码有数据结构的非瞬态计算机可读介质和编码有 计算机程序的计算机可读介质。计算机可读介质包含物理计算机储存介质。储存介质可以 是能够由计算机访问的任何可用介质。通过范围,而非限制,该计算机可读介质能够包括 RAM、ROM、EEPROM、CD-ROM或其它光碟储存器、磁碟储存器或其它磁储存设备、或能够用于储 存指令或数据结构形式的期望的程序代码并由计算机访问的任何其它介质。碟(disk)和 盘(disc)包含压缩盘(⑶)、激光盘、光盘、数字多功能盘(DVD)、软碟以及蓝光盘。通常,碟 磁性地再现数据,而盘光学地再现数据。以上的组合也应当包含在计算机可读介质的范围 内。
[0063] 除储存在计算机可读介质上外,可以作为包含在通信装置中的传输介质上的信号 提供指令和/或数据。例如,通信装置可以包含具有指示指令和数据的信号的收发器。指 令和数据被配置为引起一个或多个处理器实施权利要求中概述的功能。
[0064] 虽然已经详细描述了本公开内容及其某些优点,但是应当理解,能够不脱离由所 附权利要求限定的本公开内容的精神和范围,于此做出各种变化、替代和更改。此外,不意 图将本申请的范围限制于说明书中描述的过程、机器、制造、物质的构成、措施、方法以及步 骤的特定实施例。如本领域技术人员根据本发明所理解的,可以根据本公开内容利用当前 存在或以后研发的执行与于此描述的对应实施例基本相同的功能或实现基本相同的结果 的公开、机器、制造、物质的构成、措施、方法、或步骤。因而,意图将所附权利要求包含在它 们的该过程、机器、制造、物质的构成、措施、方法、或步骤的范围内。
【权利要求】
1. 一种方法,包括: 在处理器处接收音频信号; 在所述处理器处向所述音频信号施加 Teager算子,以计算所述音频信号中的能量的 瞬时变化; 在所述处理器处至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的 信噪比(SNR);以及 当所述SNR在信号阈值以上时,设定第一探测标记。
2. 如权利要求1所述的方法,进一步包括: 当设定了所述第一探测标记时: 基于所述音频信号的倒谱来计算峰度;以及 当所述峰度在阈值以上时,设定第二探测标记。
3. 如权利要求2所述的方法,进一步包括:当设定了所述第二探测标记时,唤醒第二处 理器来识别所述音频信号中的语言命令。
4. 如权利要求1所述的方法,其中,所述计算的步骤包括:计算所述音频信号内的对于 搜索窗口的所述能量的瞬时变化,并且计算所述音频信号的所述SNR的步骤包括基于所述 搜索窗口内的最小能量值来计算噪声水平。
5. 如权利要求1所述的方法,进一步包括通过估计环境波动来调整所述信号阈值。
6. 如权利要求5所述的方法,其中,计算所述阈值的步骤包括基于所述音频信号的平 均能量值和所述音频信号的标准偏差中的至少之一来对所述环境波动进行分类。
7. 如权利要求6所述的方法,进一步包括: 设定用于对所述环境波动进行分类的噪声跟踪系数;以及 调整所述噪声跟踪系数。
8. 如权利要求1所述的方法,其中,所述处理器是模拟-数字转换器(ADC)。
9. 一种装置,包括: 音频信号输入端;以及 语音门,耦合至所述音频信号输入端,所述语音门包括: 语言能量探测模块,被配置为向音频信号施加 Teager算子,以计算所述音频信号输入 端的能量的瞬时变化,并用于至少部分地基于计算的所述能量的瞬时变化来计算所述音频 信号的信噪比(SNR);以及 探测标记输出端,其中,当所述SNR在信号阈值以上时,设定所述探测标记输出端。
10. 如权利要求9所述的装置,进一步包括耦合至所述音频信号输入端的缓冲器,其 中,所述缓冲器被配置为缓冲来自所述音频信号输入端的传入音频。
11. 如权利要求9所述的装置,进一步包括耦合至所述语音门和所述音频信号输入端 的抽选滤波器,所述抽选滤波器被配置为减小来自所述音频信号输入端的音频样本的采样 率。
12. 如权利要求9所述的装置,进一步包括: 耦合至所述语音门的音频样本处理模块,其中,所述音频样本处理模块被配置为在所 述信号水平在唤醒阈值以下时,对所述语音门进行断电;以及 模拟-数字转换器,耦合至所述音频信号输入端和所述语音门,其中,所述模拟-数字 转换器被配置为在所述信号水平在所述唤醒阈值以上时,将来自所述音频信号输入端的模 拟信号转换为数字信号。
13. 如权利要求9所述的装置,其中,所述语言能量探测器进一步被配置为至少部分地 基于环境波动来调整所述信号阈值。
14. 如权利要求9所述的装置,其中,所述语音门进一步包括耦合至所述探测标记输出 端的有声信号探测模块,其中,所述有声信号探测模块被配置为: 基于所述音频信号的倒谱来计算峰度;以及 当所述峰度在阈值以上时,生成唤醒信号。
15. 如权利要求14所述的装置,进一步包括耦合至所述语音门的应用处理器,其中,所 述应用处理器被配置为在生成所述唤醒信号时,进一步处理所述音频信号,以确定所述音 频信号中的语音命令。
16. -种计算机程序产品,包括: 非瞬态计算机可读介质,包括执行步骤的代码,所述步骤包括: 在处理器处接收音频信号; 在所述处理器处向所述音频信号施加 Teager算子,以计算所述音频信号中的能量的 瞬时变化; 在所述处理器处至少部分地基于计算的所述能量的瞬时变化来计算所述音频信号的 信噪比(SNR);以及 当所述SNR在信号阈值以上时,设定第一探测标记。
17. 如权利要求16所述的计算机程序产品,其中,所述介质进一步包括执行以下步骤 的代码: 当设定了所述第一探测标记时,基于所述音频信号的倒谱来计算峰度;以及 当所述峰度在阈值以上时,设定第二探测标记。
18. 如权利要求17所述的计算机程序产品,其中,所述介质进一步包括执行以下步骤 的代码:当设定了所述第二探测标记时,唤醒第二处理器来识别所述音频信号中的语言命 令。
19. 如权利要求16所述的计算机程序产品,其中,所述介质进一步包括执行以下步骤 的代码:通过估计环境波动来调整所述信号阈值。
20. 如权利要求16所述的计算机程序产品,其中,所述介质进一步包括执行以下步骤 的代码: 计算所述音频信号内的对于搜索窗口的所述能量的瞬时变化;以及 基于所述搜索窗口内的最小能量值来计算噪声水平。
【文档编号】G06F3/16GK104216677SQ201410238545
【公开日】2014年12月17日 申请日期:2014年5月30日 优先权日:2013年5月31日
【发明者】J·L·许 申请人:塞瑞斯逻辑公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1