用于电子系统的声学语音活动检测(avad)的制作方法

文档序号:7738084阅读:315来源:国知局
专利名称:用于电子系统的声学语音活动检测(avad)的制作方法
技术领域
本文中的公开内容一般涉及噪声抑制。具体而言,本公开内容涉及用于声学应用的噪声抑制系统、设备、以及方法。
背景技术
用以正确识别浊音(voiced speech)和清音(unvoiced speech)的能力对于包括话音(speech)辨识、说话者验证、噪声抑制、以及许多其它应用的许多话音应用是关键的。 在通常的声学应用中,捕捉以及向不同位置的接收器传输来自人类说话者的话音。在说话者的环境中,可能存在以不希望的声学噪声污染话音信号(感兴趣的信号)的一个或更多个噪声源。这使得接收器(无论是人还是机器)均难以或无法理解用户的话音。用于分类浊音和清音的通常的方法主要依赖于单个麦克风数据的声学内容,这受信号内容的相应不确切性以及噪声问题的困扰。随着如移动电话的便携式通信设备的普及,这尤其成为问题。存在用于抑制话音信号中呈现的噪声的本领域中已知的方法,但是这些通常需要确定何时产生话音的鲁棒方法。在诸如加利福尼亚旧金山的Aliphcom公司 (Aliph)生产的Jawbone耳机的商业产品中已成功采用了非声学方法,但是在一些情形中期望仅声学的解决方案(例如,用于减少成本、作为非声学传感器的补充等)。引用合并本说明书中提到的每个专利、专利申请、和/或公开通过引用完整地合并入本文, 犹如具体地和各自地表明通过引用合并各个专利、专利申请、和/或公开一样的程度。


图1是根据实施例的具有话音源S的两个麦克风的阵列的配置。图2是根据实施例的使用固定β (ζ)的V2构造的框图。图3是根据实施例的使用自适应β (ζ)的V2构造的框图。图4是根据实施例的V1构造的框图。图5是根据实施例的声学语音活动检测的流程图。图6示出了根据实施例的在仅噪声呈现时使用固定β的算法的实验结果。图7示出了根据实施例的在仅话音呈现时使用固定β的算法的实验结果。
图8示出了根据实施例的在话音和噪声呈现时使用固定β的算法的实验结果。图9示出了根据实施例的在仅噪声呈现时使用自适应β的算法的实验结果。图10示出了根据实施例的在仅话音呈现时使用自适应β的算法的实验结果。图11示出了根据实施例的在话音和噪声呈现时使用自适应β的算法的实验结果。
图12是根据实施例的NAVSAD系统的框图。图13是根据实施例的PSAD系统的框图。图14是根据实施例的在本文中被称作路径寻找器(Pathfinder)系统的去噪子系统的框图。图15是根据实施例的用于检测浊音和清音的检测算法的流程图。图16A、图16B、和图17示出了根据实施例的对象两次说出短语“poppan”的示例的数据图。图16A连同GEMS信号与Mic 1信号之间的平均相关以及用于浊音检测的阈值Tl 一起绘制出了此话语的接收的GEMS信号。图16B连同GEMS信号的标准偏差以及用于浊音检测的阈值T2 —起绘制出了此话语的接收的GEMS信号。图17连同GEMS信号和声学噪声一起绘制了根据实施例的从声学或音频信号中检测的浊音;因为较重的背景模糊不清的噪声而在此示例中未检测到清音。图18是用于PSAD系统的实施例的麦克风阵列。图19是根据实施例的若干Δ d值的Δ M对Cl1的图。图20示出了根据实施例的增益参数的图,该增益参数作为来自麦克风1的音频或声学数据与H1 (ζ)的绝对值的和。图21是根据实施例的图20中呈现的声学数据的替选图。图22是根据实施例的两个麦克风的自适应噪声抑制系统。图23是根据实施例的包括阵列和话音源S配置的广义两个麦克风的阵列(DOMA)。图M是根据实施例的用于使用两个全向元件O1和&生成或产生一阶梯度麦克风 V的系统。图25是根据实施例的包括被配置成形成两个虚拟麦克风V1和V2的两个物理麦克风的DOMA的框图。图沈是根据实施例的包括被配置成形成N个虚拟麦克风V1至Vn(其中N是大于 1的任何数)的两个物理麦克风的DOMA的框图。图27是根据实施例的如本文中所述包括DOMA的耳机或头戴式装置的示例。图观是根据实施例的用于使用DOMA对声学信号去噪的流程图。图四是根据实施例的用于形成DOMA的流程图。图30是根据实施例的β = 0. 8的虚拟麦克风V2对0. Im的距离处IkHz话音源的线性响应的图。图31是根据实施例的β = 0. 8的虚拟麦克风V2对1. Om的距离处IkHz话音源的线性响应的图。图32是根据实施例的β = 0. 8的虚拟麦克风V1对0. Im的距离处IkHz话音源的线性响应的图。图33是根据实施例的β = 0. 8的虚拟麦克风V1对1. Om的距离处IkHz噪声源的线性响应的图。图;34是根据实施例的β =0.8的虚拟麦克风VJfO. Im的距离处100、500、1000、 2000、3000、以及4000Hz频率的话音源的线性响应的图。图35是示出了根据实施例的实施例的阵列与常规心型(cardioid)麦克风对话音的频率响应的比较的图。图36是示出了根据实施例的在假定ds为0. Im的情况下V1 (顶部,虚线)和V2 (底部,实线)对B的话音响应的图。图37是示出了根据实施例的图31中示出的话音响应对B的比率的图。图38是根据实施例的在假定ds = IOcm和θ = 0的情况下B对实际ds的图。图39是根据实施例的在ds = IOcm以及假定ds = IOcm的情况下B对θ的图。图40是根据实施例的在B = 1以及D = -7. 2 μ s的情况下N(s)的幅度(顶部) 和相位(底部)响应的图。图41是根据实施例的在B = 1.2以及D = _7. 2 μ s的情况下N(S)的幅度(顶部)和相位(底部)响应的图。图42是根据实施例的在ql = 0度以及q2 = 30度的情况下由于话音源位置的差错而对V2中话音消除的影响的幅度(顶部)和相位(底部)响应的图。图43是根据实施例的在ql = 0度以及q2 = 45度的情况下由于话音源位置的差错而对V2中话音消除的影响的幅度(顶部)和相位(底部)响应的图。图44示出了在很响( 85dBA)的音乐/话音噪声环境中在Bruel和Kjaer头部和躯干模拟器(HATS)上使用0. 83的线性β以及Bl = Β2 = 1对于2d。= 19mm阵列的实验结果。
具体实施例方式在本文中描述声学语音活动检测(AVAD)方法和系统。包括算法或程序的AVAD方法和系统使用麦克风生成虚拟定向麦克风,这些虚拟定向麦克风的噪声响应很相似而话音响应很不相似。随后在给定窗口尺寸上计算虚拟麦克风能量的比率,可以随后通过各种方法使用该比率以生成VAD信号。可以使用固定滤波器或自适应滤波器来构建虚拟麦克风。 自适应滤波器通常得出更准确和噪声鲁棒的VAD信号但是需要训练。另外,可以在滤波器上施加限制以确保它仅在话音上而未在环境噪声上训练。在以下描述中,介绍大量具体细节以提供实施例的全面理解、以及实现实施例的描述。然而相关领域的技术人员将会认识到,可以在没有具体细节中的一个或更多个细节的情况下、或者使用其它部件、系统等实施这些实施例。在其它示例中,未示出或者未详细描述公知结构或操作,以避免妨碍公开实施例的方面。图1是根据实施例的具有话音源S的AVAD的两个麦克风的阵列的配置。实施例的AVAD使用两个物理麦克风(O1和O2)形成两个虚拟麦克风(V1和V2)。实施例的虚拟麦克风是定向麦克风,但是实施例不限于此。实施例的物理麦克风包括全向麦克风,但是本文中描述的实施例不限于全向麦克风。以其对用户的话音的响应最小的方式来配置虚拟麦克风(VM) V2,而把V1配置成使得其响应于用户的话音但是噪声量值响应与V2很相似,如本文中详细描述的。然后可以使用PSAD VAD方法来确定话音何时发生。进一步的细化是使用自适应滤波器以使V2的话音响应进一步最小化,从而增加PSAD中使用的话音能量比率以及得到AVAD的更好整体性能。 如本文中所述的PSAD算法计算两个定向麦克风M1和M2能量的比率
权利要求
1.一种方法,包括通过组合第一物理麦克风的第一信号和第二物理麦克风的第二信号来形成第一虚拟麦克风;形成描述所述第一物理麦克风与所述第二物理麦克风之间的话音的关系的滤波器;通过把所述滤波器应用于所述第一信号以生成第一中间信号,并且对所述第一中间信号和所述第二信号求和,以形成第二虚拟麦克风;生成所述第一虚拟麦克风与所述第二虚拟麦克风能量的能量比率;以及在所述能量比率大于阈值时检测出说话者的声学语音活动。
2.如权利要求1所述的方法,其中,所述第一虚拟麦克风和所述第二虚拟麦克风是不同的虚拟定向麦克风。
3.如权利要求2所述的方法,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对噪声的响应大致相似。
4.如权利要求3所述的方法,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对话音的响应大致不相似。
5.如权利要求1所述的方法,包括对所述第一信号和所述第二信号中的至少之一应用校准。
6.如权利要求5所述的方法,其中,所述校准补偿所述第二物理麦克风的第二响应以使得所述第二响应等同于所述第一物理麦克风的第一响应。
7.如权利要求5所述的方法,包括对所述第一中间信号应用延迟。
8.如权利要求7所述的方法,其中,所述延迟与所述话音到达所述第二物理麦克风与所述话音到达所述第一物理麦克风的时间差成比例。
9.如权利要求8所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述滤波器。
10.如权利要求9所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述校准。
11.如权利要求10所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第一信号应用所述延迟。
12.如权利要求11所述的方法,其中,通过所述组合形成所述第一虚拟麦克风包括从所述第一信号中减去所述第二信号。
13.如权利要求12所述的方法,其中,所述滤波器是自适应滤波器。
14.如权利要求13所述的方法,包括调节所述滤波器以在所述第一物理麦克风和所述第二物理麦克风仅接收话音时使所述第二虚拟麦克风输出最小化。
15.如权利要求13所述的方法,其中,所述调节包括应用最小均方过程。
16.如权利要求13所述的方法,包括在所述第一物理麦克风和所述第二物理麦克风仅接收话音的时间段内生成所述滤波器的系数。
17.如权利要求13所述的方法,其中,所述滤波器的所述形成包括通过对所述第二信号应用校准来生成第一量;通过对所述第一信号应用延迟来生成第二量;将所述滤波器形成为所述第一量对所述第二量的比率。
18.如权利要求17所述的方法,其中,所述能量比率的所述生成包括针对频带生成所述能量比率。
19.如权利要求17所述的方法,其中,所述能量比率的所述生成包括针对子频带生成所述能量比率。
20.如权利要求19所述的方法,其中,所述子频带包括高于大约200赫兹(Hz)的频率。
21.如权利要求19所述的方法,其中,所述子频带包括从大约250Hz至1250Hz的范围内的频率。
22.如权利要求19所述的方法,其中,所述子频带包括从大约200Hz至3000Hz的范围内的频率。
23.如权利要求12所述的方法,其中,所述滤波器是静态滤波器。
24.如权利要求23所述的方法,其中,所述滤波器的所述形成包括将第一距离确定为所述第一物理麦克风与所述说话者的嘴之间的距离;将第二距离确定为所述第二物理麦克风与所述嘴之间的距离;以及形成所述第一距离对所述第二距离的比率。
25.如权利要求1所述的方法,包括生成所述能量比率对时间的向量。
26.如权利要求1所述的方法,其中,所述第一和物理麦克风和所述第二物理麦克风是全向麦克风。
27.如权利要求1所述的方法,包括沿着轴定位所述第一物理麦克风和所述第二物理麦克风以及把所述第一物理麦克风和所述第二物理麦克风分离开第一距离。
28.如权利要求27所述的方法,其中,所述轴的中点距所述说话者的嘴第二距离,其中,所述嘴位于由相对于所述中点的角度定义的方向上。
29.一种方法,包括形成第一虚拟麦克风;通过这样的方式形成滤波器通过对第二物理麦克风的第二信号应用校准来生成第一量,通过对第一物理麦克风的第一信号应用延迟来生成第二量,并将所述滤波器形成为所述第一量对所述第二量的比率;通过把所述滤波器应用于所述第一信号以生成第一中间信号,并对所述第一中间信号和所述第二信号求和,以形成第二虚拟麦克风;以及生成所述第一虚拟麦克风和所述第二虚拟麦克风的能量的比率并使用所述比率检测声学语音活动。
30.如权利要求四所述的方法,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对噪声的响应大致相似而对话音的响应大致不相似。
31.如权利要求四所述的方法,包括对所述第一信号和所述第二信号中的至少之一应用校准,其中,所述校准补偿所述第二物理麦克风的第二响应以使得所述第二响应等同于所述第一物理麦克风的第一响应。
32.如权利要求四所述的方法,包括对所述第一中间信号应用延迟,其中,所述延迟与所述话音到达所述第二物理麦克风和所述话音到达所述第一物理麦克风的时间差成比例。
33.如权利要求四所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述滤波器。
34.如权利要求33所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述校准。
35.如权利要求34所述的方法,其中,所述第一虚拟麦克风的所述形成包括对所述第一信号应用所述延迟。
36.如权利要求35所述的方法,其中,通过所述组合形成所述第一虚拟麦克风包括从所述第一信号中减去所述第二信号。
37.如权利要求四所述的方法,其中,所述滤波器是自适应滤波器。
38.如权利要求四所述的方法,包括调节所述滤波器以在所述第一物理麦克风和所述第二物理麦克风仅接收话音时使第二虚拟麦克风输出最小化。
39.如权利要求37所述的方法,其中,所述调节包括应用最小均方过程。
40.如权利要求37所述的方法,包括在所述第一物理麦克风和所述第二物理麦克风仅接收话音的时间段内生成所述滤波器的系数。
41.如权利要求四所述的方法,其中,所述比率的所述生成包括针对频带生成所述比率。
42.如权利要求四所述的方法,其中,所述比率的所述生成包括针对子频带生成所述比率。
43.如权利要求四所述的方法,包括生成所述比率对时间的向量。
44.一种方法,包括通过生成第一信号和第二信号的第一组合来形成第一虚拟麦克风,其中,从第一物理麦克风接收所述第一信号而从第二物理麦克风接收所述第二信号;通过这样的方式生成滤波器通过对所述第一信号和所述第二信号中的至少之一应用校准来生成第一量,通过对所述第一信号应用延迟来生成第二量,并将所述滤波器形成为所述第一量对所述第二量的比率;以及通过把所述滤波器应用于所述第一信号以生成第一中间信号,并对所述第一中间信号和所述第二信号求和,以形成第二虚拟麦克风;以及在所述第一虚拟麦克风和所述第二虚拟麦克风能量的能量比率大于阈值时确定说话者的声学语音活动的存在。
45.一种声学语音活动检测系统,包括第一虚拟麦克风,其包括第一信号和第二信号的第一组合,其中,从第一物理麦克风接收所述第一信号而从第二物理麦克风接收所述第二信号;滤波器,其中,通过这样的方式生成所述滤波器通过对所述第一信号和所述第二信号中的至少之一应用校准来生成第一量,通过对所述第一信号应用延迟来生成第二量,并将所述滤波器形成为所述第一量对所述第二量的比率;第二虚拟麦克风,通过把所述滤波器应用于所述第一信号以生成第一中间信号并对所述第一中间信号和所述第二信号求和来形成所述第二虚拟麦克风,其中,在所述第一虚拟麦克风和所述第二虚拟麦克风的能量的能量比率大于阈值时确定说话者的声学语音活动存在。
46.如权利要求45所述的系统,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对噪声的响应大致相似而对话音的响应大致不相似。
47.如权利要求45所述的系统,其中,对所述第二信号应用校准,其中,所述校准补偿所述第二物理麦克风的第二响应以使得所述第二响应等同于所述第一物理麦克风的第一响应。
48.如权利要求45所述的系统,其中,对所述第一中间信号应用所述延迟,其中,所述延迟与所述话音到达所述第二物理麦克风和所述话音到达所述第一物理麦克风的时间差成比例。
49.如权利要求45所述的系统,其中,通过对所述第二信号应用所述滤波器来形成所述第一虚拟麦克风。
50.如权利要求49所述的系统,其中,通过对所述第二信号应用所述校准来形成所述第一虚拟麦克风。
51.如权利要求50所述的系统,其中,通过对所述第一信号应用所述延迟来形成所述第一虚拟麦克风。
52.如权利要求51所述的系统,其中,通过从所述第一信号中减去所述第二信号来形成所述第一虚拟麦克风。
53.如权利要求45所述的系统,其中,所述滤波器是自适应滤波器。
54.如权利要求45所述的系统,其中,所述滤波器适合于在所述第一物理麦克风和所述第二物理麦克风仅接收话音时使第二虚拟麦克风输出最小化。
55.如权利要求45所述的系统,其中,在所述第一物理麦克风和所述第二物理麦克风仅接收话音的时间段内生成所述滤波器的系数。
56.如权利要求45所述的系统,其中,所述能量比率包括针对频带的能量比率。
57.如权利要求45所述的系统,其中,所述能量比率包括针对子频带的能量比率。
58.一种设备,包括生成第一信号的第一物理麦克风; 生成第二信号的第二物理麦克风;处理部件,其耦合到所述第一物理麦克风和所述第二物理麦克风,所述处理部件形成第一虚拟麦克风,所述处理部件形成滤波器,所述滤波器描述所述第一物理麦克风与所述第二物理麦克风之间的话音的关系,所述处理部件通过把所述滤波器应用于所述第一信号以生成第一中间信号并对所述第一中间信号和所述第二信号求和来形成第二虚拟麦克风, 所述处理部件在所述第一虚拟麦克风和所述第二虚拟麦克风的能量的能量比率大于阈值时检测出说话者的声学语音活动。
59.如权利要求58所述的设备,包括对所述第一信号和所述第二信号中的至少之一应用校准。
60.如权利要求59所述的设备,其中,所述校准补偿所述第二物理麦克风的第二响应以使得所述第二响应等同于所述第一物理麦克风的第一响应。
61.如权利要求59所述的设备,包括对所述第一中间信号应用延迟。
62.如权利要求61所述的设备,其中,所述延迟与所述话音到达所述第二物理麦克风和所述话音到达所述第一物理麦克风的时间差成比例。
63.如权利要求62所述的设备,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述滤波器。
64.如权利要求63所述的设备,其中,所述第一虚拟麦克风的所述形成包括对所述第二信号应用所述校准。
65.如权利要求64所述的设备,其中,所述第一虚拟麦克风的所述形成包括对所述第一信号应用所述延迟。
66.如权利要求65所述的设备,其中,通过所述组合形成所述第一虚拟麦克风包括从所述第一信号中减去所述第二信号。
67.如权利要求66所述的设备,其中,所述滤波器是自适应滤波器。
68.如权利要求67所述的设备,包括调节所述滤波器以在所述第一物理麦克风和所述第二物理麦克风仅接收话音时使第二虚拟麦克风输出最小化。
69.如权利要求67所述的设备,其中,所述调节包括应用最小均方过程。
70.如权利要求67所述的设备,包括在所述第一物理麦克风和所述第二物理麦克风仅接收话音的时间段内生成所述滤波器的系数。
71.如权利要求67所述的设备,其中,所述滤波器的所述形成包括 通过对所述第二信号应用校准来生成第一量;通过对所述第一信号应用所述延迟来生成第二量; 将所述滤波器形成为所述第一量对所述第二量的比率。
72.如权利要求71所述的设备,其中,所述能量比率的所述生成包括针对频带生成所述能量比率。
73.如权利要求71所述的设备,其中,所述能量比率的所述生成包括针对子频带生成所述能量比率。
74.如权利要求73所述的设备,其中,所述子频带包括高于大约200赫兹(Hz)的频率。
75.如权利要求73所述的设备,其中,所述子频带包括从大约250Hz至1250Hz范围内的频率。
76.如权利要求73所述的设备,其中,所述子频带包括从大约200Hz至3000Hz范围内的频率。
77.如权利要求66所述的设备,其中,所述滤波器是静态滤波器。
78.如权利要求77所述的设备,其中,滤波器的所述形成包括 将第一距离确定为所述第一物理麦克风与所述说话者的嘴之间的距离; 将第二距离确定为所述第二物理麦克风与所述嘴之间的距离;形成所述第一距离对所述第二距离的比率。
79.如权利要求58所述的设备,包括生成所述能量比率对时间的向量。
80.如权利要求58所述的设备,其中,所述第一虚拟麦克风和所述第二虚拟麦克风是不同的虚拟定向麦克风。
81.如权利要求80所述的设备,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对噪声的响应大致相似。
82.如权利要求81所述的设备,其中,所述第一虚拟麦克风和所述第二虚拟麦克风对话音的响应大致不相似。
83.如权利要求58所述的设备,其中,所述第一物理麦克风和所述第二物理麦克风是全向麦克风。
84.如权利要求58所述的设备,包括沿着轴定位所述第一物理麦克风和所述第二物理麦克风并把所述第一物理麦克风和所述第二物理麦克风分离开第一距离。
85.如权利要求84所述的设备,其中,所述轴的中点距所述说话者的嘴第二距离,其中,所述嘴位于由相对于所述中点的角度定义的方向上。
86.一种设备,包括头戴式耳机,其包括至少一个扬声器,其中,所述头戴式耳机附连到人的头部的区域;麦克风阵列,其连接到所述头戴式耳机,所述麦克风阵列包括输出第一信号的第一物理麦克风和输出第二信号的第二物理麦克风;以及处理部件,其耦合到所述第一物理麦克风和所述第二物理麦克风,所述处理部件形成第一虚拟麦克风,所述处理部件形成滤波器,所述滤波器描述所述第一物理麦克风与所述第二物理麦克风之间的话音的关系,所述处理部件通过把所述滤波器应用于所述第一信号以生成第一中间信号并对所述第一中间信号和所述第二信号求和来形成第二虚拟麦克风, 所述处理部件在所述第一虚拟麦克风和所述第二虚拟麦克风的能量的能量比率大于阈值时检测出说话者的声学语音活动。
全文摘要
描述了声学语音活动检测(AVAD)方法和系统。包括相应算法或程序的AVAD方法和系统使用麦克风来生成噪声响应很相似而话音响应很不相似的虚拟定向麦克风。随后在给定窗口尺寸上计算虚拟麦克风的能量的比率,随后可以通过各种方法使用该比率来生成VAD信号。可以使用自适应滤波器或固定滤波器来构建虚拟麦克风。
文档编号H04R3/00GK102282865SQ200980151512
公开日2011年12月14日 申请日期2009年10月26日 优先权日2008年10月24日
发明者尼古拉斯·珀蒂, 格里戈里·伯内特, 经致年 申请人:爱利富卡姆公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1