多麦克风语音活动检测器的制作方法

文档序号:2823146阅读:266来源:国知局
专利名称:多麦克风语音活动检测器的制作方法
技术领域
本发明涉及语音活动检测器。更具体地,本发明的实施例涉及利用两个或多个麦 克风的语音活动检测器。
背景技术
除非在此指出,否则本部分所描述的方案不是本申请中权利要求的现有技术,并 且不会因为包含在本部分而被承认是现有技术。语音活动检测器(VAD)的一个功能在于检测麦克风所记录的音频信号区域中存 在或者不存在人的语音。在关于由VAD模块所决定的语音是否存在于其中的输入信号上使 用的不同处理机制的上下文中,VAD在许多语音处理系统中起作用。在这些应用中,精确且 鲁棒的VAD性能可影响整体性能。例如,在语音通信系统中,DTX(不连续传输)通常被用来 改善带宽使用效率。在这种系统中,利用VAD确定输入信号中是否存在语音,并且如果不存 在语音,则停止语音信号的实际传输。这里,将语音错分类为干扰会导致传输信号中的语音 减弱,并影响其可理解性(intelligibility)。作为示例,在语音增强系统中,通常需要估计 所记录的信号中的干扰信号的水平(level)。这通常是在VAD的帮助下进行的,其中从仅包 含干扰信号的部分估计干扰水平。例如,参见A.M. Kondoz的Digital Speech Coding for Low Bit Rate Communication Systems 的第 11 章(John Wiley&Sons,2004)。在这个例子 中,不准确的VAD会导致干扰水平的过估计(over-estimate)或低估计(under-estimate), 这最终会导致非最理想的(suboptimal)语音增强质量。之前已经提出了多种VAD系统。例如,参见A.M. Kondoz撰写的Digital Speech Coding for Low Bit Rate Communication Systems 的第 10 章(John Wiley&Sons, 2004)。 这些系统中的一些利用目标语音和干扰之间的差异的统计方面,并依赖阈值比较方法从干 扰信号中区分出目标语音。原先用于这些系统中的统计测量包括能量水平、计时、音调、零 相交率、周期测量等。多于一种统计测量的组合被用于更多的复杂系统,以进一步改善检测 结果的精度。通常,当目标语音和干扰具有非常明显的统计特征时,例如当干扰具有稳定的 并低于目标语音水平的水平时,统计方法取得好的性能。然而,在更不利的环境中,尤其在 目标信号水平与干扰水平的比值低时或者干扰信号具有类似语音的特征时,保持好的性能 变成非常具有挑战性的任务。在一些鲁棒的自适应射束形成(adaptive beamforming)系统设计中也可以发现 与麦克风阵列组合的VAD。例如,参见0. Hoshuyama, B. Begasse, A. Sugiyama及A. Hirano的
6"A real time robust adaptive microphone array controlled by an SNR estimate,,, Procedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing,1998。那些VAD基于麦克风射束形成系统的不同输出水平的差异,其 中目标信号仅存在于一个输出中并因为其他输出而被阻塞。因此,这种VAD设计的有效性 可以与射束形成系统在因为那些输出而阻塞目标信号时的能力有关,在实时系统中获取这 种能力会是昂贵的。与该背景有关的、但是不被认为是下文部分中将描述的示例性发明实施例的现有 技术的其他参考包括参考 1 :A. Μ. KondozZiDigital Speech Coding for Low Bit Rate Communication Systems”,第 10 章(John Wiley&Sons,2004);参考 2 :Α· Μ· Kondoz,“Digital Speech Coding for Low Bit Rate Communication Systems”,第 11 章(John Wiley&Sons,2004);参 考 3 J. G. Ryan 禾口 R. A. Goubran,“Optimal nearf ield responses for Microphone Array”,见 IEEE Workshop Applicat. Signal Processing to Audio Acoust, New PaltziNY, USA, 1997 ;参考 4 :0· Hoshuyama,B. Begasse,A. Sugiyama 及 A. Hirano,“A real time robust adaptive microphone array controlled by an SNR estimate”, Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing 1998 ;参考5 :US20030228023A1/W003083828A1/CA2479758AA,不利环境中多信道语音 检测(Multichannel voice detection in adverse environments);以及参考6 :US7174022的用于射束形成和噪声抑制的小阵列麦克风(Small array microphone for beam-forming and noise suppression)0


图1是说明根据本发明实施例的一般麦克风构造的图;图2是说明根据本发明实施例的包括示例性双麦克风语音活动检测器的装置的 图;图3是说明根据本发明实施例的示例性语音活动检测器系统的框图;图4是根据本发明实施例的语音活动检测的示例性方法的流程图。
具体实施例方式在此所述的是用于语音活动检测的技术。在下文的描述中,为了解释的目的提出 了许多示例以及具体的细节,以提供对本发明的透彻理解。然而,对于本领域技术人员显而 易见的是,由权利要求限定的本发明可以仅包括这些示例中的一些或所有特征、或者与下 文所述的其他特征相结合,还可以进一步包括在此所述特征和概念的修改以及等价物。下面将描述各种方法和过程。以一定顺序描述它们主要是为了便于呈现。需要明 白的是,可以根据不同的实施方式按期望以其他顺序来执行具体的步骤或者并行执行具体 的步骤。当特定步骤必须在另一步骤之前或者之后时,当根据上下文不明显时,会具体指出
7这种情况。概要本发明的实施例改进了 VAD系统。根据一实施例,披露了基于双麦克风阵列的VAD 系统。在这样的实施例中,建立了麦克风阵列以使得一个麦克风比另一麦克风更靠近目标 声音源。通过比较麦克风阵列输出的信号水平做出VAD决定。根据一实施例,可以以相似 的方式使用多于两个麦克风。进一步根据一实施例,本发明包括语音活动检测的方法。该方法包括在第一麦克 风处接收第一信号并在第二麦克风处接收第二信号。第二麦克风离开第一麦克风放置。第 一信号包括第一目标分量和第一干扰分量,且第二信号包括第二目标分量和第二干扰分 量。根据麦克风之间的距离,第一目标分量与第二目标分量不同;且根据麦克风之间的距 离,第一干扰分量与第二干扰分量不同。该方法进一步包括基于第一信号估计第一信号的 水平,基于第二信号估计第二信号的水平,基于第一信号估计第一噪声水平,以及基于第二 信号估计第二噪声水平。该方法进一步包括基于第一信号水平和第一噪声水平计算第一比 值,以及基于第二信号水平和第二噪声水平计算第二比值。该方法进一步包括基于第一比 值和第二比值之间的差计算当前语音活动决策。根据一实施例,语音获得检测器系统包括第一麦克风、第二麦克风、信号水平估计 器、噪声水平估计器、第一除法器(divider)、第二除法器以及语音活动检测器。第一麦克风 接收包括第一目标分量和第一干扰分量的第一信号。第二麦克风离开第一麦克风放置。第 二麦克风接收包括第二目标分量和第二干扰分量的第二信号。根据麦克风之间的距离,第 一目标分量与第二目标分量不同,并且第一干扰分量与第二干扰分量不同。信号水平估计 器基于第一信号估计第一信号的水平,并基于第二信号估计第二信号的水平。噪声水平估 计器基于第一信号估计第一噪声水平并基于第二信号估计第二噪声水平。第一除法器基于 第一信号水平和第一噪声水平计算第一比值。第二除法器基于第二信号水平和第二噪声水 平计算第二比值。语音活动检测器基于第一比值和第二比值之间的差计算当前语音活动决 策。本发明的实施例可以作为方法或者过程来执行。所述方法可以由电子电路实施为 硬件或软件、或者它们的组合。用于实施该过程的电路可以是(仅仅执行特定任务的)专 用电路或者(被编程为执行一个或多个特定任务的)通用电路。示例性配置、过程以及实施根据本发明的实施例,鲁棒VAD系统观察目标语音和干扰信号之间差异的不同方 面。在许多语音通信应用(例如电话、移动电话等)中,目标语音的源(source)通常在距 麦克风非常短的范围内;而干扰信号通常来自非常远的源。例如,在移动电话中,麦克风与 嘴之间的距离处于2cm IOcm的范围内;而干扰通常发生在距离麦克风至少几米的位置 处。根据声波传输理论知道在前一种情况中,所记录信号的水平对麦克风的位置非常敏感 (其方式为,声源距离麦克风越近,将获得的信号的水平越大);而如果如后一种情况那样 信号来自远距离处,则这种敏感性即消失。与上述的统计差异不同,该差异与声源的地理位 置有关,因此,它是鲁棒的和高度可预知的。这给出了非常鲁棒的特征来区分目标声音信号 和干扰。为了利用这个特征,根据VAD系统的实施例,使用了小规模的双麦克风阵列。以这
8种方式建立麦克风阵列,以使得一个麦克风比另一麦克风被放置得更靠近目标声源。从而, 通过监测这两个麦克风输出的信号水平来做出VAD决策。在本文的剩余部分中进一步公开 本发明实施例的详细实现。麦克风阵列的示例性配置图1是概念性地示出本发明实施例中所用的示例性麦克风阵列102的配置的框 图。麦克风阵列包括两个麦克风一个麦克风102a(近处的麦克风)位于与目标声源104 距离I1的位置处,另一麦克风102b (远处的麦克风)放置在与目标声源104距离I2的位置 处。这里h<l2。此外,这两个麦克风102a和102b彼此足够靠近,从而使得从远处干扰 的视点来看它们可被看作位于大概相同的位置处。根据一实施例,如果这两个麦克风102a 和102b之间的距离Δ1比其到干扰的距离小一数量级(在麦克风阵列可具有几厘米的尺 寸的实际应用中,通常是这样),那么就满足这个条件。根据一实施例,这两个麦克风102a和102b之间的距离Δ 1至少比到干扰信号源 的距离小一数量级。例如,如果预期干扰信号的源距离麦克风102a (或102b) 1米,那么这 两个麦克风之间的距离Δ1可是2厘米。根据一实施例,这两个麦克风102a和102b之间的距离Δ 1处于到目标信号源的 距离的数量级中。例如,如果预期目标信号源距离麦克风102a(或102b)2厘米,那么这两 个麦克风之间的距离Δ1可是3厘米。根据一实施例,麦克风102a(或102b)与目标信号源之间的距离比麦克风 102a(或102b)与干扰信号源之间的距离小多于一个数量级。例如,如果预期目标信号源距 离麦克风102a (或102b) 5厘米,那么到干扰信号源的距离可为51厘米。总之,根据实施例,目标信号源可以距离麦克风102a(或102b) 5厘米,干扰可以距 离麦克风102a (或102b)至少1米,而两麦克风102a和102b之间的距离可以是3厘米。图2是给出满足上述要求的麦克风阵列102的示例的框图。这里,近处的麦克风 102a被放置在移动电话204的前面,而远处的麦克风102b被放置在移动电话204的后面。 在这个具体的示例中,I1 = 3 5 (cm),I2 = 5 7 (cm)且Δ 1 = 2 3 (cm)。示例性VAD决策图3是根据本发明实施例的示例性VAD系统300的框图。VAD系统300包括近处 的麦克风102a、远处的麦克风102b、模-数转换器302a和302b、带通滤波器304a和304b、 信号水平估计器306a和306b、噪声水平估计器308a和308b、除法器310a和310b、单位 (unit)延迟元件312a和312b、以及VAD决策模块314。VAD系统300的这些元件执行如下 文提出的各种功能。在VAD系统300中,麦克风阵列102的模拟输出由模-数转换器302a和302b数 字化为PCM(脉冲编码调制)信号。为了改善算法的鲁棒性,可以对具有显著语音能量的 频率范围进行检查。这可以通过具有带通频率范围为400Hz 1000Hz的一对带通滤波器 (BPF) 304a和304b对该数字化信号进行处理来实现。在信号水平估计模块306a和306b中,估计BPF 304a和304b输出的信号Xi (η) 的水平。方便地,可以像下面这样通过对信号Xi (η)的幂执行回归平均运算,进行该水平估 计σ ^n) = α Xi (η) |2+(1_α ) σ “η_1) ,1 = 1,2
9
其中0 < α < 1是接近零的小值,且ο J0)被初始化为0。假设,信号X1(Ii)来自近处的麦克风102a,X2(η)来自远处的麦克风102b。现在, 如果对于信号X1 (η)的水平估计为0l(n) = Xd(n) + Xx(n)(其中Xd(n)是来自干扰信号 分量的水平,而Xs (η)来自目标信号),则信号X2 (η)的水平将由下式给出σ2(η) = g[ λ d(η)+ρ λ s(η)]这里g是远处麦克风102b和近处麦克风102a之间的增益差;且ρ是信号传播延 迟导致的。在理想条件下,所记录声音的水平与声音到麦克风的距离的幂成反比。例如,参 见 J. G. Ryan 禾口 R. A. Goubran, "Optimal nearfield responses for microphone array,,, Proc. IEEE Workshop Applicat. Signal Processing to Audio Acoust. (New Paltz, NY, USA, 1997)。在此情况下,ρ由下式给定P=(Vl2)2其中I1和I2分别是目标声音到近处麦克风102a和远处麦克风102b的距离。在 实际应用中,P可以依赖于麦克风阵列的实际声学设置,且它的值可以通过测量获得。注 意由于在这种情况下,这两个麦克风之间的传播衰减差异可被忽略,所以假设当麦克风增 益差被补偿之后,来自两个麦克风的干扰信号的水平相同。VAD系统300还像这样监测X1 (η)和X2 (η)中干扰的水平
{ β\χχη)\2 + (1 - β)λ,{η -1) VADin -1) = 0 . = 12 ‘ U( -l)否则, ,其中1 < β < 1是接近零的小值,且λ i(n)被初始化为0。这里,估计中只包括 被分类为干扰(VAD = 0)的样本。由于还没有执行当前样本的VAD决策,因此这里替代地 采用前面样本的VAD决策(经由延迟312a和312b)。类似地,假设;I1㈨=!;( ),由于远处 麦克风和近处麦克风之间的增益差,将通过下式给出λ2(η)A2(n) = gJ^(n)通常,;Ι/η^Ι;㈨,虽然两者都是干扰的估计水平。这是因为这两个水平估计器 中所用的时间常量(α和β)是不同的。通常,由于希望在目标存在时信号水平估计器的 响应足够快,因此可以选择较大值的α ;而较小值的β允许干扰水平的平滑估计。为此, Ad(n)指的是干扰水平的短时估计;而指的是干扰水平的长时估计。根据一实施例, α =0.1, β =0.01。在其他实施例中,可以根据目标信号和干扰信号的特征调整α和β 的值。根据信号的特征,这两个值可以根据经验设定。在VAD系统中,进一步计算下面的比值
Δ Q- (γΛ^{η)=-^-— = γ{ ) + ξ{ )以及
Δ <y ( )^{η)=-^—- = γ{η) + ρξ{ )其中,(…是近处麦克风102a处干扰水平的短时估计与长时估计的
10比值,而
权利要求
1.一种执行语音活动检测的方法,包括从第一麦克风接收第一信号,所述第一信号包括第一目标分量和第一干扰分量; 从第二麦克风接收第二信号,所述第二麦克风离开第一麦克风一距离,所述第二信号 包括第二目标分量和第二干扰分量,其中根据所述距离区分所述第一目标分量和所述第二 目标分量,且其中根据所述距离区分所述第一干扰分量和所述第二干扰分量; 基于所述第一信号估计第一信号水平; 基于所述第二信号估计第二信号水平; 基于所述第一信号估计第一噪声水平; 基于所述第二信号估计第二噪声水平; 基于所述第一信号水平和所述第一噪声水平计算第一比值; 基于所述第二信号水平和所述第二噪声水平计算第二比值;以及 基于所述第一比值和所述第二比值之间的差计算当前语音活动决策。
2.权利要求1的方法,进一步包括在估计所述第一信号水平之前对第一信号执行带通滤波;以及 在估计所述第二信号水平之前对第二信号执行带通滤波,其中带通频率范围在400赫 兹到1000赫兹之间。
3.权利要求1的方法,其中所述第一麦克风和所述第二麦克风之间的距离至少比所述 第一麦克风和所述干扰分量的干扰源之间的第二距离小一数量级。
4.权利要求1的方法,其中所述第一麦克风和所述第二麦克风之间的距离处于所述第 一麦克风和所述目标分量的目标源之间的第二距离的数量级内,并且其中所述第一麦克风 和所述第二麦克风之间的距离至少比所述第一麦克风和所述干扰分量的干扰源之间的第 三距离小一数量级。
5.权利要求1的方法,其中所述第一麦克风距离所述目标分量的目标源第一距离且 距离所述干扰分量的干扰源第二距离,且其中所述第一距离比所述第二距离小多于一数量 级。
6.权利要求1的方法,其中估计第一信号水平包括通过对所述第一信号的功率水平执 行递归平均运算来估计第一信号水平。
7.权利要求1的方法,其中估计第一噪声水平包括通过如前面的语音活动决策所指示 的那样对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平。
8.权利要求1的方法,其中估计第一信号水平包括通过利用第一时间常量对第一信号的功率水平执行递归平均 运算来估计第一信号水平;以及估计第一噪声水平包括通过利用第二时间常量如前面的语音活动决策所指示的那样 对所述第一信号的功率水平执行递归平均运算来估计第一噪声水平,其中所述第一时间常 量大于所述第二时间常量。
9.权利要求1的方法,进一步包括基于所述第一比值与所述第二比值之间的第三比值检测风噪声; 其中计算当前语音活动决策包括基于所述风噪声和基于所述第一比值与所述第二比 值之间的差来计算当前语音活动决策。
10.一种设备,包括执行语音活动检测的电路,所述设备包括第一麦克风,所述第一麦克风接收包括第一目标分量和第一干扰分量的第一信号;第二麦克风,所述第二麦克风离开所述第一麦克风一距离,所述第二麦克风接收包括 第二目标分量和第二干扰分量的第二信号,其中根据所述距离区分第一目标分量和第二目 标分量,且其中根据所述距离区分第一干扰分量和第二干扰分量;信号水平估计器,所述信号水平估计器基于所述第一信号估计第一信号水平且基于所 述第二信号估计第二信号水平;噪声水平估计器,所述噪声水平估计器基于所述第一信号估计第一噪声水平且基于所 述第二信号估计第二噪声水平;第一除法器,所述第一除法器基于所述第一信号水平和所述第一噪声水平计算第一比值;第二除法器,所述第二除法器基于所述第二信号水平和所述第二噪声水平计算第二比 值;以及语音活动检测器,所述语音活动检测器基于所述第一比值和所述第二比值之间的差计 算当前语音活动决策。
11.权利要求10的设备,进一步包括带通滤波器,所述带通滤波器耦合在所述第一麦克风和所述信号水平估计器之间,并 耦合在所述第二麦充风和所述信号水平估计器之间,所述带通滤波器对所述第一信号和对 所述第二信号执行带通滤波,其中带通频率范围在400赫兹到1000赫兹之间。
12.权利要求10的设备,其中所述第一麦克风和所述第二麦克风之间的距离比所述第 一麦克风和所述干扰分量的干扰源之间的第二距离小至少一数量级。
13.权利要求10的设备,其中所述第一麦克风和所述第二麦克风之间的距离处于所述 第一麦克风和所述目标分量的目标源之间的第二距离的数量级内,且其中所述第一麦克风 和所述第二麦克风之间的距离比所述第一麦克风和所述干扰分量的干扰源之间的第三距 离小至少一数量级。
14.权利要求10的设备,其中所述第一麦克风距离所述目标分量的目标源第一距离且 距离所述干扰分量的干扰源第二距离,且其中所述第一距离比所述第二距离小多于一数量 级。
15.权利要求10的设备,其中所述信号水平估计器通过对所述第一信号的功率水平执 行递归平均运算来估计第一信号水平。
16.权利要求10的设备,进一步包括延迟元件,所述延迟元件耦合在所述噪声水平估计器和所述语音活动检测器之间,所 述延迟元件存储前面的语音活动决策;其中所述噪声水平估计器通过如前面的语音活动决策所指示的那样对所述第一信号 的功率水平执行递归平均运算来估计第一噪声水平。
17.权利要求10的设备,进一步包括延迟元件,所述延迟元件耦合在所述噪声水平估计器和所述语音活动检测器之间,所 述延迟元件存储前面的语音活动决策;其中所述信号水平估计器通过对所述第一信号的功率水平执行递归平均运算来估计第一信号水平;并且其中所述噪声水平估计器通过如前面的语音活动决策所指示的那样对所述第一信号 的功率水平执行递归平均运算来估计第一噪声水平。
18.权利要求10的设备,其中所述信号水平估计器通过利用第一时间常量对第一信号的功率水平执行递归平均运 算来估计第一信号水平;以及所述噪声水平估计器通过利用第二时间常量如前面的语音活动决策所指示的那样对 所述第一信号的功率水平执行递归平均运算来估计第一噪声水平,其中所述第一时间常量 大于所述第二时间常量。
19.权利要求10的设备,其中所述语音活动检测器进一步基于所述第一比值与所述第 二比值之间的第三比值检测风噪声,并且其中所述语音活动检测器基于所述风噪声和基于所述第一比值与所述第二比值之间 的差来计算当前语音活动决策。
20.权利要求10的设备,其中所述信号水平估计器包括耦合在所述第一麦克风和所述第一除法器之间的第一信号 水平估计器以及耦合在所述第二麦克风和所述第二除法器之间的第二信号水平估计器;并 且所述噪声水平估计器包括耦合在所述第一麦克风和所述第一除法器之间的第一噪声 水平估计器以及耦合在所述第二麦克风和所述第二除法器之间的第二噪声水平估计器。
21.一种执行语音活动检测的设备,包括第一麦克风,所述第一麦克风接收包括第一目标分量和第一干扰分量的第一信号; 第二麦克风,所述第二麦克风离开所述第一麦克风一距离,所述第二麦克风接收包括 第二目标分量和第二干扰分量的第二信号;其中根据所述距离区分第一目标分量和第二目 标分量,且其中根据所述距离区分第一干扰分量和第二干扰分量;用于基于所述第一信号估计第一信号水平、基于所述第二信号估计第二信号水平、基 于所述第一信号估计第一噪声水平、以及基于所述第二信号估计第二噪声水平的装置;用于基于所述第一信号水平和所述第一噪声水平计算第一比值、以及基于所述第二信 号水平和所述第二噪声水平计算第二比值的装置;以及用于基于所述第一比值和所述第二比值之间的差计算当前语音活动决策的装置。
22.—种有形的计算机可读介质,包括有用于执行语音活动检测的计算机程序,所述计 算机程序控制处理器执行处理,所述处理包括从第一麦克风接收第一信号,所述第一信号包括第一目标分量和第一干扰分量; 从第二麦克风接收第二信号,所述第二麦克风离开第一麦克风一距离,所述第二信号 包括第二目标分量和第二干扰分量,其中根据所述距离区分第一目标分量和第二目标分 量,且其中根据所述距离区分第一干扰分量和第二干扰分量; 基于所述第一信号估计第一信号水平; 基于所述第二信号估计第二信号水平; 基于所述第一信号估计第一噪声水平; 基于所述第二信号估计第二噪声水平;基于所述第一信号水平和所述第一噪声水平计算第一比值;基于所述第二信号水平和所述第二噪声水平计算第二比值;以及基于所述第一比值和所述第二比值之间的差计算当前语音活动决策。
23. 一种执行语音活动检测的方法,包括从多个麦克风接收多个信号;分别基于所述多个信号估计多个信号水平;分别基于所述多个信号估计多个噪声水平;分别基于所述多个信号水平和所述多个噪声水平计算多个比值;分别根据多个常量对所述多个比值进行调整;以及基于已经被调整的所述多个比值的总和计算当前语音活动决策。
全文摘要
提供了一种双麦克风语音活动检测器系统。语音活动检测器系统估计每个麦克风处的信号水平和噪声水平。诸如信号的附近声音在两个麦克风之间的水平差大于诸如噪声的更远距离声音的水平差。因此,语音活动检测器检测附近声音的存在。
文档编号G10L11/02GK102077274SQ200980125256
公开日2011年5月25日 申请日期2009年6月25日 优先权日2008年6月30日
发明者俞容山 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1