低功率语音检测的制作方法

文档序号：2825372阅读：190来源：国知局

低功率语音检测的制作方法
【专利摘要】允许具有最小功耗的语音处理的方法包含以第一时钟频率和第一电压记录时域音频信号，并且以第二时钟频率对时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号。可通过一个或多个滤波和增强技术来增强频域音频信号而获取更佳信噪比。增强的音频信号可用于生成总信号能量并且估计背景噪声能量。决策逻辑可从信号能量和背景噪声来确定人语音的存在或不存在。第一时钟频率可不同于第二时钟频率。
【专利说明】低功率语音检测
[0001]背景。
【技术领域】
[0002]实施例通常涉及音频处理。更特别地，实施例涉及语音识别。
[0003]讨论
语音命令和连续的言语识别对于移动计算系统而言因为有限的键盘功能性而可能是重要的。然而，持续地监听环境中的潜在语音的功率成本可能太高以使得在系统可以开始监听之前大多数系统要求来自用户的输入。此方式会不便并且会限制许多潜在应用的实用性。
【专利附图】

【附图说明】
[0004]通过阅读下文的说明书和所附权利要求，并且通过参考以下的图，本发明的实施例的各种优势将对于本领域的技术人员而变得明显，图中:
图1是图示言语识别系统的实施例的示例的框图；
图2是图示根据实施例的与音频信号有关的示例能量和帧的图表；
图3是表示噪声抑制的示例实施例的框图。
[0005]图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表；
图5是语音活动检测模块的硬件架构实施例的示例；
图6是图示根据实施例的示例512点快速傅里叶变换的框图；
图7是图示根据实施例的快速傅里叶变换模块的示例硬件实现的框图；
图8是图示根据实施例的乘法和滤波模块的示例硬件实现的图；以及图9是处理音频信号来检测人语音的示例方法的流程图。
【具体实施方式】
[0006]实施例可包括设备，它包含用于在存储器中存储时域中的音频信号的逻辑，其配置为基于第一时钟频率和第一电压来操作，并且基于第二时钟频率和第二电压对时域中的音频信号执行快速傅里叶变换(FFT)操作来生成频域中的音频信号。
[0007]实施例可包括计算机实现的方法，其包含以第一时钟频率和第一电压记录时域音频信号。该方法还包含以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。
[0008]实施例可包含计算机可读存储介质，具有一组指令，当处理器执行该组指令时，使计算机:以第一时钟频率和第一电压记录时域音频信号，以及以第二时钟频率对时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。
[0009]转到图1，示出了图示言语识别系统100的实施例的框图。该系统可包含预处理模块101 (配置为捕获音频信号)、前端处理模块102 (配置为处理音频信号并且检测可包含在音频信号中的任何人语音信息)、以及后端处理模块103 (配置为分析人语音信息并且执行与人语音信息关联的操作)。可注意到，音频信号可包含背景噪声和人语音信息。
[0010]预处理模块101可包含记录器105 (例如，麦克风)，它可用于将音频信号捕获为脉冲密度调制(PDM)信息流。PDM流可包含时域中的采用数字格式的音频信号。预处理模块101可包含PDM到脉冲编码调制(PCM)转换器110，它配置为接收PDM信息流并且生成PCM信息流。PCM信息流可被视为PDM信息流的数字表示。PCM信息流包含未编码的或原始信息。对于一些实施例，PCM数据流可以被直接接收。例如，记录器105可包含整合特征以使它生成PCM信息流。
[0011]前端处理模块102 (也被称作语音活动检测或VAD模块)可包含分帧和加窗模块115，配置为分帧并且加窗从PDM-PCM转换器110接收的PCM信息流。分帧和加窗模块115可基于采样率和帧大小来将PCM信息流分帧并且加窗成多个帧(在图2中图示)。例如，采样率可设置为16kHz，并且帧大小可设置为32ms (毫秒)。取决于实现，可使用不同的采样率和不同的帧大小。对于一些实施例，帧可彼此重叠，并具有非重叠窗口。例如，两个连续帧(每个具有32ms的帧大小)可彼此重叠22ms (具有IOms的非重叠窗口)。使用16kHz采样率和32ms帧大小的示例，每个帧的采样数可以为16X32=512。
[0012]FFT模块120可配置为接收PCM信息流的帧并且执行那些帧的从它们的时域表示到频域表示的必要变换。音频信号的频域表示可指示在频率范围上在每个给定频带内的能量或信号电平(在图2中图示)。在FFT模块120执行变换操作之后，噪声估计和抑制模块125可分析频域表示中的每个帧，并且滤出可与人语音信息不在相同频带内的任何噪声信息。对于一些实施例，噪声估计和抑制模块125可实现为可编程带通滤波器。一般而言，人语音可落入近似在20Hz与7KHz之间的频带(本文称作人语音频带)。噪声估计和抑制模块125可配置为检测可落在人语音频带之外的任何能量或信号电平，并且将该能量作为带外能量抑制。
[0013]人语音与背景噪声的统计性质之间可能有差别。对于一些实施例，噪声估计和抑制模块125可基于人语音趋于短脉冲后跟着可图示为高幅度能量(其后跟着低幅度能量)的短脉冲的间歇的图案的假定来从背景噪声中辨别人语音。此能量图案不同于与背景噪声关联的能量，其中，能量的平均幅度可趋于从一个时间段到另一时间段保持相对相同或非常缓慢改变。其结果是，有可能保持跟踪并且估计一段时间上的背景噪声。
[0014]人语音检测模块130可配置为使用背景噪声估计来确定在人语音频带内是否存在人语音。对于一些实施例，人语音检测模块130可确定在频域表示中的帧内的总能量，比较该总能量与估计的噪声能量，并且确定那个帧内是否存在人语音。例如，当总能量大于背景噪声能量乘以阈值时，可存在人语音信息135。当总能量近似小于或等于背景噪声能量时，可不存在人语音信息135。当不存在人语音信息135时，前端处理模块102的操作可继续到下一帧的噪声估计和抑制(如噪声估计和抑制模块125所执行的)。
[0015]后端处理模块103可包含语音处理模块140，其配置为从前端处理模块102接收人语音信息135并且确定可包含在人语音信息135中的命令或指令。语音处理模块140可引起基于所确定的命令或指令来执行操作。
[0016]转到图2，图2是图示与音频信号有关的示例能量和帧的图表200。图表200包含在时间段上可由记录器105 (在图1中图示)捕获的音频信号的能量。图表200的垂直轴线205可表示能量的幅度，并且水平轴线210可表示时间。对于一些实施例，音频信号可被分成多个重叠的帧，例如诸如帧215、220和225。在此示例中，帧215、220和225中的每个可与32ms的窗口关联并且可彼此偏置IOms的非重叠窗口 230。FFT模块120 (在图1中图示)可首先处理帧215，帧215可与覆盖从Oms到31ms的时间段的窗口关联。十毫秒以后，FFT模块120可处理第二帧220，第二帧220可与覆盖从IOms到41ms的时间段的窗口关联。然后，十毫秒以后，FFT模块120可处理第三帧225，第三帧225可与覆盖从20ms到51ms的时间段的窗口关联。
[0017]使用16kHz的采样率，帧215、220和225中的每个可包含512个样本。取决于所选择的采样率和帧大小，样本数量可改变但通常可以是二的幂的数量。对于一些实施例，可期望FFT模块120 (图1)在类似于非重叠窗口的大小的时间段内(例如，IOms)完成对于每个帧的其变换操作(从时域表示变换到频域表示)。在其它实施例中，可期望FFT模块在非重叠窗口的时间的一部分中完成其变换。例如，FFT模块可只需要IOms的10% (或Ims)来完成其处理；FFT模块的操作可由以下公式来表示:
X(k) - FfT (Xlf))公式 I
其中XOO表示音频信号的频域表示，x(0表示音频信号的时域表示，k的范围是从值I到频带的总数量(例如，512)，并且t表示时间。公式I的结果可以是512点FFT (基于512个样本示例)。来自FFT操作的结果然后可由噪声估计和抑制模块125 (在图1中图示)滤波来移除任何带外噪声。噪声估计和抑制模块125的滤波操作可由以下公式来表示:
Yik) - H(k) ? X(k)公式 2
其中表示滤波操作之后的结果，.W1表示滤波函数，XOil表示音频信号的频域表示，并且k的范围是从值I到频带的总数量(例如，512)。可通过将滤波器应用于采用频域表示的Xfk)来执行滤波操作以移除任何带外噪声。
[0018]转到图3，图3示出表示噪声抑制的示例实施例的框图。一旦完成滤波操作，可应用一个或多个噪声抑制操作来移除或抑制可能不是人语音的任何噪声。对于一些实施例，每个噪声抑制操作可与不同的噪声抑制技术关联。可存在着许多不同的技术，这些技术可组合来执行噪声抑制操作。参考图3，已滤波的信息305可被传送到第一噪声抑制模块310。可注意到，已滤波的信息305可作为一系列帧(每个帧具有相同的帧大小)传送到第一噪声抑制模块310。从第一噪声抑制模块310产生的信息可被传送到第二噪声抑制模块315等等，直至可由第N噪声抑制模块320生成增强的音频信号(本文称作增强的音频信息)325。例如，第一噪声抑制模块310可以基于被称作延迟总和波束形成(具有固定的系数)的技术，并且第二噪声抑制模块315可以基于被称作频谱跟踪和子带域维纳滤波的技术。有可能的是，在图3中图示的噪声抑制操作完成之后增强的音频信息325可具有比进来的音频信号更高的信噪比。
[0019]增强的音频信息325可包含一系列帧，每个帧具有相同的帧大小。可由图1中图示的人语音检测模块130处理增强的音频信息325来检测人语音的存在。取决于实现，增强的音频信息325的处理可不同。下文是人语音检测模块130可用来处理增强的音频信息325的第一算法的伪代码示例:
任务1:对于增强的音频信息325的每个帧，确定总能量Ua)为:
【权利要求】
1.一种设备，包括: 逻辑，所述逻辑用于: 在存储器中存储时域音频信号，所述存储器配置为基于第一时钟频率和第一电压来操作，以及基于第二时钟频率和第二电压对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号。
2.如权利要求1所述的设备，其中所述逻辑用于: 执行第一组FFT操作，执行复数乘法操作，以及与所述第一组FFT操作串行地执行第二组FFT操作。
3.如权利要求2所述的设备，其中所述第二时钟频率比所述第一时钟频率慢，并且其中所述第二电压低于所述第一电压。
4.如权利要求3所述的设备，其中所述逻辑用于: 执行噪声抑制操作，基于所述第二时钟频率和所述第二电压对所述频域音频信号执行滤波操作来生成增强的音频信号。
5.如权利要求4所述的设备，其中所述复数乘法操作和滤波操作使用相同的硬件部件来实现。
6.如权利要求4所述的设备，其中所述逻辑用于基于所述第二时钟频率和所述第二电压对所述增强的音频信号执行人语音检测操作。
7.如权利要求6所述的设备，其中所述逻辑用于确定所述增强的音频信号的帧中的总能量，并且确定所述增强的音频信号的所述帧中的背景噪声。
8.如权利要求7所述的设备，其中所述逻辑用于执行中值滤波操作，并且执行轮廓跟踪操作。
9.如权利要求7所述的设备，其中所述逻辑用于基于所述第一时钟频率和所述第一电压来执行与所检测的人语音关联的命令。
10.一种计算机实现的方法，包括: 以第一时钟频率和第一电压记录时域音频信号；以第二时钟频率对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号，其中所述第一时钟频率比所述第二时钟频率快。
11.如权利要求10所述的方法，其中所述FFT操作以低于所述第一电压的第二电压执行。
12.如权利要求11所述的方法，还包含；以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号。
13.如权利要求12所述的方法，还包含: 以所述第二时钟频率和所述第二电压对所述增强的音频信号执行语音检测操作来检测人语音。
14.如权利要求13所述的方法，其中执行所述人语音检测操作包含:确定所述增强的音频信号的帧中的总能量；确定与所述增强的音频信号的所述帧中的背景噪声关联的能量；以及通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。
15.如权利要求13所述的方法，还包含: 以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令。
16.如权利要求15所述的方法，其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号并且将所述时域音频信号从脉冲密度调制(PDM)转换成脉冲编码调制(PCM)0
17.如权利要求16所述的方法，其中所述FFT操作串行执行。
18.一种计算机可读存储介质，包括一组指令，当处理器执行所述一组指令时，使计算机: 以第一时钟频率和第一电压记录时域音频信号；以及以第二时钟频率对所述时域音频信号执行快速傅里叶变换(FFT)操作来生成频域音频信号，其中所述第一时钟频率比所述第二时钟频率快。
19.如权利要求18所述的所述介质，其中所述FFT操作以低于所述第一电压的第二电压执行。
20.如权利要求19所述的所述介质，还包括一组指令，当所述处理器执行所述一组指令，使所述计算机: 以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号；以所述第二时钟频率和所述第二电压处对所述增强的音频信号执行语音检测操作来检测人语音；以及以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令。
21.如权利要求20所述的介质，其中所述语音检测操作通过以下操作来执行:通过确定所述增强的音频信号的帧中的总能量，确定与所述增强的音频信号的所述帧中的背景噪声关联的能量，并且通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。
22.如权利要求21所述的介质，其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号。
23.—种系统,包括: 预处理模块，配置为将音频信号捕获为脉冲密度调制(PDM)信息流并且基于第一时钟频率和第一电压将所述PDM信息流转换成脉冲编码调制(PCM)信息流；前端处理模块，耦合到所述预处理模块并且配置为将所述PCM信息流分帧并且加窗成多个帧；以及快速傅里叶变换(FFT)模块，耦合到所述前端处理模块并且配置为接收所述PCM信息流的所述帧并且基于第二时钟频率和第二电压执行所述帧的从所述时域表示到频域表示的变换，其中所述第二时钟频率不同于所述第一时钟频率并且所述第二电压不同于所述第一电压。
24.如权利要求23所述的系统，其中所述第一时钟频率比所述第二时钟频率快，并且其中所述第二电压低于所述第一电压。
25.如权利要求24所述的系统，还包含: 噪声估计和抑制模块，耦合到所述FFT模块并且配置为在所述频域表示中分析所述帧并且滤出与人语音不在相同频带内的噪声信息；人语音检测模块，耦合到所述噪声估计和抑制模块并且配置为使用背景噪声估计来基于人语音频带而确定所述帧中是否存在所述人语音:以及语音处理模块，耦合到所述人语音检测模块并且配置为确定与所述人语音关联的命令并且执行与所述命令关联的操作。
【文档编号】G10L25/84GK103959376SQ201180075351
【公开日】2014年7月30日申请日期:2011年12月6日优先权日:2011年12月6日
【发明者】A.雷乔杜里, W.M.贝尔特曼, J.W.尚茨, C.托库纳加, M.E.戴舍尔, T.E.沃尔什申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.雷乔杜里;W.M.贝尔特曼;J.W.尚茨;C.托库纳加;M.E.戴舍尔;T.E.沃尔什
技术所有人：英特尔公司
我是此专利的发明人