使用波束形成的音频捕获的方法和装置与流程

文档序号:18457594发布日期:2019-08-17 01:44阅读:258来源:国知局
使用波束形成的音频捕获的方法和装置与流程

本发明涉及使用波束形成的音频捕获,并且特别地但非排他地涉及使用波束形成的语音捕获。



背景技术:

在过去几十年中,捕获音频,尤其是语音,已变得越来越重要。实际上,捕获语音对于包括电信、电话会议、游戏、音频用户接口等在内的各种应用已变得越来越重要。然而,在许多场景和应用中的问题是所需的语音源通常不是环境中的唯一音频源。相反,在典型的音频环境中,存在正在由麦克风捕获许多其他音频/噪声源。许多语音捕获应用程序面临的一个关键问题是如何在嘈杂的环境中最好地提取语音。为了解决这个问题,已经提出了许多不同的噪声抑制方法。

实际上,例如免提语音通信系统中的研究是几十年来备受关注的话题。第一个商业系统专注于专业(视频)会议系统,其具有低背景噪音和短混响时间。发现用于识别和提取期望音频源(例如期望的发言者)的特别有利的方法是基于来自麦克风阵列的信号的波束形成的使用。最初,麦克风阵列通常与聚焦固定波束一起使用,但后来自适应波束的使用变得更加流行。

在20世纪90年代后期,手机的免提系统开始引入。这些旨在用于许多不同的环境,包括混响房间和(较)高背景噪音水平。这种音频环境提供了显著更困难的挑战,并且特别是可能使形成的波束的调整变得复杂或劣化。

最初,针对这样的环境的音频捕获研究主要关注回声消除,并且后来关注噪声抑制。基于波束形成的音频捕获系统的示例在图1中示出。在该示例中,多个麦克风101的阵列被耦合到波束形成器103,波束形成器103生成音频源信号z(n)和一个或多个噪声参考信号x(n)。

在一些实施例中,麦克风阵列101可以仅包括两个麦克风,但通常包括更高的数量。

波束形成器103可以具体地是自适应波束形成器,其中可以使用合适的自适应算法将一个波束指向语音源。

例如,us7146012和us7602926公开了自适应波束形成器的示例,其关注于语音但是还提供包含(几乎)无语音的参考信号。

替代地,us2014/278394公开了一种可以根据包括语音识别结果的各种参数来控制和修改的波束。用于控制和修改波束的参数都是基于波束的输出信号或从波束的输出信号导出的。

波束形成器通过在前向匹配滤波器中对接收信号进行滤波并将经滤波的输出相加而通过将麦克风信号的所需部分相干地相加来创建增强的输出信号z(n)。此外,输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有针对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而造成音频波束朝向主导信号被操纵。生成的误差信号x(n)可以被认为是噪声参考信号,其特别适合于对增强的输出信号z(n)执行额外的噪声降低。

主信号z(n)和参考信号x(n)通常都被噪声污染。在两个信号中的噪声是相干的情况下(例如,当存在干扰点噪声源时),可以使用自适应滤波器105来减少相干噪声。

为此目的,噪声参考信号x(n)被耦合到自适应滤波器105的输入,其中从音频源信号z(n)中减去输出以生成补偿信号r(n)。自适应滤波器105适于最小化补偿信号r(n)的功率,通常在期望音频源不活动时(例如,当没有语音时)并且这导致对相干噪声的抑制。

经补偿的信号被馈送到后处理器107,后处理器107基于噪声参考信号x(n)对补偿信号r(n)执行降噪。具体地,后处理器107使用短时傅立叶变换将补偿信号r(n)和噪声参考信号x(n)变换到频率域。然后,对于每个频率分箱,通过减去x(ω)的幅值谱的缩放版本来修改r(ω)的幅值。将得到的复光谱被变换回时域,以产生噪声已被抑制的输出信号q(n)。这种谱减法技术首先在下文中描述:s.f.boll,“suppressionofacousticnoiseinspeechusingspectralsubtraction,”ieeetrans.acoustics,speechandsignalprocessing,第27卷,第113–120页,1979年4月。

尽管图1的系统是在许多场景中提供了非常有效的操作和有利的性能,但是其并不是在所有场景中都是最佳的。实际上,尽管许多传统系统,包括图1的示例,当所需音频源/发言者在麦克风阵列的混响半径内时,即对于所需音频源的直接能量(优选地显著地)强于所需音频源的反射能量的应用,提供非常好的性能,当不是这种情况时,其倾向于提供较不理想的结果。在典型的环境中,已经发现发言者通常应该在麦克风阵列的1-1.5米范围内。

然而,强烈期望基于音频的免提解决方案、应用和系统,其中用户可能距离麦克风阵列更远。例如,这对于许多通信和许多语音控制系统和应用都是期望的。提供语音增强的系统包括针对这种情况的去混响和噪声抑制,在该领域中称为超级免提系统。

更详细地说,当处理额外的漫射噪声和混响半径之外的期望的发言者时,可能会出现以下问题:

·波束形成器可能经常具有在期望语音的回声和漫射背景噪声之间进行区分方面存在问题,从而导致语音失真。

·自适应波束形成器可以朝向期望的发言者更慢地收敛。在自适应波束尚未收敛的时间期间,参考信号中将存在语音泄漏,导致在该参考信号用于非静态噪声抑制和消除的情况下的语音失真。当有更多所需的源前后交谈时,问题就会增加。

处理较慢收敛的自适应滤波器(由于背景噪声)的一种解决方案是补充这一点,其中若干固定波束瞄准不同方向,如图2中所示。但是,这种方法特别针对以下场景开发:在混响半径内存在期望的音频源。其对于混响半径之外的音频源可能效率较低,并且在这种情况下可能经常导致非鲁棒的解决方案,尤其是在还存在声学漫射背景噪声的情况下。

这可以如下地理解:在所需音频源在混响半径之外的情况下,与由反射产生的漫射声场的能量相比,直接声场的能量较小。如果还存在漫射背景噪声,则直接声场对漫散声场比率将进一步降低。不同波束的能量将大致相同,并且因此这不能提供用于控制波束形成器的合适参数。出于同样的原因,基于测量到达方向(doa)的系统将不鲁棒:由于直接场的低能量,信号的互相关不会给出明显的区分峰并且将导致大的误差。使检测器更鲁棒将经常导致不检测到导致非聚焦波束的所需音频源。典型的结果是噪声参考中的语音泄漏,并且如果试图基于噪声参考信号来降低主信号中的噪声,则将发生严重的失真。

因此,一种改进的音频捕获方法将是有利的,并且特别是一种允许降低复杂性、增加灵活性、便于实现、降低成本、改进音频捕获、改进适合于在混响半径之外捕获音频的适合性、降低噪声灵敏度、改进语音捕获、和/或改进的性能的方法将是有利的。



技术实现要素:

因此,本发明寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。

根据本发明的一个方面,提供了一种用于捕获音频的装置,所述装置包括:麦克风阵列;第一波束形成器,其被耦合到所述麦克风阵列并且被布置为生成第一波束形成的音频输出;多个约束波束形成器,其被耦合到所述麦克风阵列,并且每个约束波束形成器被布置为生成约束波束形成的音频输出;第一适配器,其用于调整所述第一波束形成器的波束形成参数;第二适配器,其用于调整针对所述多个约束波束形成器的约束波束形成参数;差异处理器,其用于确定针对所述多个约束波束形成器中的至少一个的差异量度,所述差异量度指示由所述第一波束形成器与所述多个约束波束形成器中的至少一个形成的波束之间的差异;其中,所述第二适配器被布置为利用约束来调整约束波束形成参数,所述约束是约束波束形成参数仅针对所述多个约束波束形成器中的如下的约束波束形成器进行调整:针对所述约束波束形成器,已经确定差异量度满足相似性准则。

在许多实施例中,本发明可以提供改进的音频捕获。特别地,通常可以实现针对混响环境和/或音频源的改进的性能。该方法尤其可以在许多具有挑战性的音频环境中提供改进的语音捕获。在许多实施例中,所述方法可以提供可靠和精确的波束形成,同时提供对新的期望音频源的快速调整。该方法可以提供对例如噪声、混响和反射具有降低的灵敏度的音频捕获装置。特别是,通常可以实现在混响半径之外的音频源的改进捕获。

在一些实施例中,来自音频捕获装置的输出音频信号可以是响应于第一波束形成的音频输出和/或约束波束形成的音频输出而生成的。在一些实施例中,所述输出音频信号可以被生成为约束波束形成的音频输出的组合,并且具体地,可以使用对例如单个约束波束形成的音频输出进行选择的选择组合。

差异量度可以反映第一波束形成器与生成差异量度的约束波束形成器的形成波束之间的差异,例如测量为波束方向之间的差异。在许多实施例中,差异量度可以指示来自第一波束形成器和约束波束形成器的波束形成的音频输出之间的差异。在一些实施例中,差异量度可以指示第一波束形成器和约束波束形成器的波束形成滤波器之间的差异。差异量度可以是距离量度,例如被确定为第一波束形成器与约束波束形成器的波束形成滤波器的系数的矢量之间的距离的量度。

应当理解,相似性度量可以等同于差异量度,因为通过提供与两个特征之间的相似性有关的信息的相似性量度固有地也提供与这些之间的差异相关的信息,并且反之亦然。

相似性准则可以例如包括差异量度指示差异低于给定度量的要求,例如,可能需要具有用于增加差异的增加值的差异量度低于阈值。

所述约束波束形成器受到约束,因为调整经受如下的限制:仅在差异量度满足相似性准则时才执行调整。相反,第一波束形成器不受此要求的限制。特别地,对所述第一波束形成器的调整可以独立于任何约束波束形成器,并且具体地可以独立于这些波束的波束形成。

要求差异量度例如低于阈值的对调整的限制可以被认为对应于仅针对约束波束形成器的调整,所述约束波束形成器当前形成对应于靠近第一波束形成器针对其进行调整的音频源的区域中的音频源的波束。

波束形成器的调整可以通过调整波束形成器的波束形成滤波器的滤波器参数来实现,例如通过调整滤波器系数。调整可以寻求优化(最大化或最小化)给定的调整参数,例如,当检测到音频源时最大化输出信号水平或者仅在检测到噪声时使其最小化。调整可以寻求修改波束形成滤波器以优化测量参数。

根据本发明的任选特征,所述装置还包括音频源检测器,用于检测第二波束形成的音频输出中的点音频源;并且所述第二适配器被布置为仅针对约束波束形成器调整约束波束形成参数,对于所述约束波束形成器,在约束波束形成的音频输出中检测到存在点音频源。

这可以进一步改善性能,并且可以例如提供更鲁棒的性能,从而导致改进的音频捕获。在不同实施例中,可以使用不同的标准来检测点音频源。点音频源可以具体地是麦克风阵列的麦克风的相关音频源。如果来自麦克风阵列的麦克风信号之间的相关性(例如,在约束波束形成器的波束形成滤波器滤波之后)超过给定阈值,则可以认为点音频源被检测到。

根据本发明的任选特征,所述音频源检测器还被配置为检测所述第一波束形成的音频输出中的点音频源;并且所述装置还包括控制器,所述控制器被布置为如果在第一波束形成的音频输出中检测到点音频源但未在任何约束波束形成的音频输出中检测到,则响应于所述第一波束形成器的波束形成参数而设置第一约束波束形成器的约束波束形成参数。

这可以进一步改进性能,并且例如在许多实施例中可以针对新的期望点音频源提供改进的自适应性能。在许多实施例和场景中,它可以允许更快或更可靠地检测新的音频源。

根据本发明的任选特征,所述控制器被配置为仅当第一约束波束形成器的差异量度超过阈值时,响应于第一波束形成器的波束形成参数,为所述第一约束波束形成器设置约束波束形成参数。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的调整性能。

根据本发明的任选特征,所述音频源检测器还被配置为检测所述第一波束形成的音频输出中的音频源;并且所述装置还包括控制器,所述控制器被设置为如果在来自第一约束波束形成器的第一波束形成的音频输出中检测到点音频源并且在第二波束形成的音频输出中检测到点音频源并且已经针对所述第一约束波束形成器确定了差异量度超过阈值,则响应于第一波束形成器的波束形成参数而设置针对所述第一约束波束形成器约束波束形成参数。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。

根据本发明的任选特征,所述多个约束波束形成器是从约束波束形成器池中选择的约束波束形成器的活动子集,并且所述控制器被布置为通过使用所述第一波束形成器的波束形成参数来初始化来自约束波束形成器池的约束波束形成器来增加多个活动约束波束形成器以包括所述第一约束波束形成器。

这可以进一步改善性能和/或促进实现和/或操作。在许多情况下,它可能会减少计算资源需求。

根据本发明的任选特征,所述第二适配器还被布置为如果满足包括从以下组中选择的至少一个要求的准则,则仅对第一约束波束形成器调整约束波束形成参数:要求来自所述第一约束波束形成器的第二波束形成的音频输出的水平高于任何其他第二波束形成的音频输出的水平;要求来自所述第一约束波束形成器的第二波束形成的音频输出中的点音频源的水平高于任何其他第二波束形成的音频输出中的任何点音频源;要求针对来自所述第一约束波束形成器的第二波束形成的音频输出的信噪比超过阈值;以及要求来自所述第一约束波束形成器的第二波束形成的音频输出包括语音分量。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。

根据本发明的任选特征,所述差异处理器被布置为确定第一约束波束形成器的差异量度以反映以下中的至少一个:针对第一约束波束形成器的参数的第一集合与参数的约束集合之间的差异;以及所述第一波束形成的音频输出与来自所述第一约束波束形成器的约束波束成形音频输出之间的差异。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。

根据本发明的任选特征,所述第一波束形成器的调整速率高于所述多个约束波束形成器的调整速率。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。特别地,它可以允许系统的整体性能提供对当前音频场景的准确和可靠的调整,同时提供对此的变化的快速适应(例如,当出现新的音频源时)。

根据本发明的任选特征,所述第一波束形成器和所述多个约束波束形成器是滤波及组合波束形成器。

滤波及组合波束形成器可以具体地包括具有多个系数的有限响应滤波器(fir)形式的波束形成滤波器。

根据本发明的任选特征,所述第一波束形成器是滤波及组合波束形成器,包括第一多个波束形成滤波器,每个波束形成滤波器具有第一自适应脉冲响应;并且第二波束形成器是所述多个约束波束形成器中的约束波束形成器,其是滤波及组合波束形成器,包括第二多个波束形成滤波器,每个波束形成滤波器具有第二自适应脉冲响应;差异处理器用于响应于所述第一自适应脉冲响应与所述第二自适应脉冲响应的比较来确定所述第一波束形成器与所述第二波束形成器的波束之间的差异量度。

该方法可以在许多场景和应用中提供由两个波束形成器形成的波束之间的差异/相似性的改进指示。特别是,在以下场景中通常可以提供改进的差异量度:波束形成器进行适应的音频源的直接路径不是主导的。通常可以实现包括高度漫射噪声、混响信号和/或后期反射的场景的改进的性能。

该方法可以降低音频信号的属性(无论是波束形成的音频输出还是麦克风信号)的灵敏度,并且因此可以对例如噪声不太敏感。在许多场景中,差异量度可以更快地生成,并且例如在一些场景中即时生成。特别地,可以基于当前滤波器参数来生成差异量度而不进行任何平均。

滤波及组合波束形成器可以包括针对每个麦克风的波束形成滤波器以及针对组合波束形成滤波器的输出的组合器以生成波束形成的音频输出信号。所述组合器可以具体地是求和单元,并且所述滤波及组合波束形成器可以是滤波及加和波束形成器。

所述波束形成器是自适应波束形成器,并且可以包括用于调整自适应脉冲响应的自适应功能(从而适应麦克风阵列的有效方向性)。

差异量度等同于相似性度量。

滤波及组合波束形成器可以具体地包括具有多个系数的有限响应滤波器(fir)形式的波束形成滤波器。

在一些实施例中,所述差异处理器被布置为针对麦克风阵列的每个麦克风确定麦克风的第一和第二自适应脉冲响应之间的相关性,并且响应于针对所述麦克风阵列中的每个麦克风的相关性的组合来确定差异量度。

这可以提供特别有利的差异量度而不需要过多的复杂性。

在一些实施例中,所述差异处理器被布置为确定第一自适应脉冲响应和第二自适应脉冲响应的频域表示;并且响应于第一自适应脉冲响应和第二自适应脉冲响应的频域表示来确定差异度量。

这可以进一步改善性能和/或便于操作。在许多实施例中,它可以便于差异量度的确定。在一些实施例中,可以在频域中提供自适应脉冲响应,并且可以容易地获得频域表示。然而,在大多数实施例中,可以在时域中提供自适应脉冲响应,例如通过fir滤波器的系数,并且差异处理器可以被布置为将例如离散傅里叶变换(dft)应用于时域脉冲响应以生成频率表示。

在一些实施例中,所述差异处理器被布置为确定针对所述频域表示中的频率的频率差异量度;并且响应于针对所述频域表示中的频率的频率差异量度来确定差异量度;所述差异处理器被设置为响应于第一频域系数和第二频域系数来确定针对麦克风阵列的第一频率和第一麦克风的频率差异量度,所述第一频域系数是针对所述第一麦克风的第一自适应脉冲响应的针对第一频率的频域系数,并且所述第二频域系数是针对所述第一麦克风的第二自适应脉冲响应的针对第一频率的频域系数;并且所述差异处理器还被配置为响应于麦克风阵列的多个麦克风的频率差异量度的组合来确定针对所述第一频率的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。

分别将针对频率ω和麦克风m的第一和第二频率分量表示为f1m(e)和f2m(e),针对频率ω和麦克风m的频率差异量度可以被确定为:

sω,m=f1(f1m(e),f2m(e))

可以通过组合差异麦克风的值来确定针对麦克风阵列中的多个麦克风的频率ω的(组合)频率差异量度。例如,对于m个麦克风的简单求和:

然后可以通过组合各个频率差异量度来确定总差异量度。例如,可以应用频率相关的组合:

其中,w(e)是合适的频率加权函数。

在一些实施例中,所述差异处理器被布置为响应于第一频域系数与第二频域系数的共轭的相乘来确定针对第一频率和第一麦克风的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。在一些实施例中,针对频率ω和麦克风m的频率差异量度可以被确定为:

在一些实施例中,所述差异处理器被布置为响应于针对麦克风阵列中的多个麦克风的针对第一频率的频率差异量度的组合的实部,来确定针对所述第一频率的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。

在一些实施例中,所述差异处理器被布置为响应于针对麦克风阵列中的多个麦克风的针对第一频率的频率差异量度的组合的范数,来确定针对所述第一频率的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。范数可以具体地是l1范数。

在一些实施例中,所述差异处理器被布置为响应于针对所述麦克风阵列中多个麦克风的针对第一频率的频率差异量度的组合的实部和范数中的至少一个相对于针对所述麦克风阵列中的多个麦克风的针对第一频域系数的和的l2范数的函数与针对第二频域系数的和的l2范数的函数的加和来确定第一频率的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。单调函数可以具体地是平方函数。

在一些实施例中,所述差异处理器被布置为响应于针对所述麦克风阵列中多个麦克风的针对第一频率的频率差异量度的组合的范数相对于针对所述麦克风阵列中的多个麦克风的针对第一频域系数的和的l2范数的函数与针对第二频域系数的和的l2范数的函数的积来确定第一频率的频率差异量度。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。所述单调函数可以具体地是绝对值函数。

在一些实施例中,所述差异处理器被布置为将差异度量确定为频率差异度量的频率选择性加权和。

这可以提供特别有利的差异量度,其特别地可以提供波束之间的差异的精确指示。特别是,它可以强调特别是感知上重要的频率,例如强调语音频率。

在一些实施例中,第一多个波束形成滤波器和第二多个波束形成滤波器是具有多个系数的有限脉冲响应滤波器。

这可以在许多实施例中提供有效的操作和实现。

根据本发明的任选特征,所述装置包括:噪声参考波束形成器,其被布置为生成波束形成的音频输出信号和至少一个噪声参考信号,所述噪声参考波束形成器是第一波束形成器和多个约束波束形成器中的一个;第一变换器,其用于根据所述波束形成的音频输出信号的频率变换来生成第一频域信号,所述第一频域信号由时间频率瓦片值表示;第二变换器,用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号,所述第二频域信号由时频率瓦片值表示;差异处理器,其被布置为生成时间频率瓦片差异量度,针对第一频率的时间频率瓦片差异量度指示所述第一频域信号的时间频率瓦片值的范数的第一单调函数与针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异;点音频源估计器,其用于生成指示所述波束形成的音频输出信号是否包括点音频源的点音频源估计,所述点音频源估计器被布置为响应于针对高于频率阈值的频率的针对时间频率瓦片差异量度的组合差异值而生成所述点音频源估计。

该方法可以在许多场景和应用中提供改进的点音频源估计/检测。特别是,在以下场景中通常可以提供改进的估计:波束形成器进行适应的音频源的直接路径不是主导的。通常可以实现包括高度漫射噪声、混响信号和/或后期反射的场景的改进的性能。通常可以实现针对在更远距离处、特别是在混响半径之外的点音频源的改进的检测。

波束形成器可以是自适应波束形成器,其包括自适应功能,用于调整波束形成滤波器的自适应脉冲响应(从而调整麦克风阵列的有效方向性)。

所述第一和第二单调函数通常可以是单调递增函数,但在一些实施例中可以都是单调递减函数。

范数通常可以是l1或l2范数,即具体地,范数可以对应于时间频率瓦片值的幅值或功率量度。

时间频率瓦片可以具体地对应于一个时间片段/帧中的频率变换的一个二进制分箱。具体地,第一和第二变换器可以使用块处理来变换第一和第二信号的相继的片段。时间频率瓦片可以对应于一个片段/帧中的一组变换分箱(通常为一个)。

所述至少一个波束形成器可以包括两个波束形成器,其中,一个生成波束形成的音频输出信号,另一个生成噪声参考信号。所述两个波束形成器可以被耦合到麦克风阵列的不同且可能不相交的麦克风组。实际上,在一些实施例中,所述麦克风阵列可包括被耦合到不同波束形成器的两个单独的子阵列。所述子阵列(以及可能的波束形成器)可以处于不同的位置,可能彼此远离。具体地,所述子阵列(以及可能的波束形成器)可以在不同的设备中。

在本发明的一些实施例中,所述阵列中的仅有所述多个麦克风的子集可以被耦合到波束形成器。

在一些实施例中,所述点音频源估计器被布置为响应于所述组合差异值超过阈值而检测所述波束形成的音频输出中的点音频源的存在。

该方法通常可以为波束形成器提供改进的点音频源检测,尤其是用于检测混响半径之外的点音频源,在混响半径之外直接场不是主导的。

在一些实施例中,所述频率阈值不低于500hz。

这可以进一步改善性能,并且例如在许多实施例和场景中可以确保在波束形成的音频输出信号值和用于确定点音频源估计的噪声参考信号值之间实现充分或改进的去相关。在一些实施例中,频率阈值有利地不低于1khz、1.5khz、2khz、3khz或甚至4khz。

在一些实施例中,所述差异处理器被布置为生成噪声相干估计,所述噪声相干估计指示所述波束形成的音频输出信号的幅值与所述至少一个噪声参考信号的幅值之间的相关性;所述第一单调函数和所述第二单调函数中的至少一个取决于噪声相干估计。

这可以进一步改善性能,并且具体地在许多实施例中可以特别地为具有较小麦克风间距离的麦克风阵列提供改进的性能。

当没有点音频源活动时(例如,在没有语音的时间段期间,即在语音源不活动时),噪声相干性估计可以具体地是对波束形成的音频输出信号的幅值与噪声参考信号的幅值之间的相关性的估计。在一些实施例中,噪声相干估计可以基于波束形成的音频输出信号和噪声参考信号、和/或第一和第二频域信号来确定。在一些实施例中,可以基于单独的校准或测量过程来生成噪声相干性估计。

在一些实施例中,所述差异处理器被布置为响应于所述噪声相干估计,相对于针对所述第一频率的所述第二频域信号的时间频率瓦片值的范数来缩放针对所述第一频率的所述第一频域信号的时间频率瓦片值的范数。

这可以进一步改善性能,并且可以具体地在许多实施例中提供点音频源估计的改进的准确度。它还可以允许低复杂度的实现方式。

在一些实施例中,所述差异处理器被布置为基本上将针对频率ωl和时间tk的时间频率块差量度生成为如下:

d=|z(tk,ωl)|-γc(tk,ωl)|x(tk,ωl)|

其中,z(tk,ωl)是针对所述波束形成的音频输出信号在时间tk在频率ωl的时间频率瓦片值;x(tk,ωl)为所述至少一个噪声参考信号在时间tk在频率ωl的时间频率瓦片值;c(tk,ωl)是在时间tk在频率ωl的噪声相干估计;并且γ是设计参数。

这可以在许多场景和实施例中提供特别有利的点音频源估计。

在一些实施例中,所述差异处理器用于所述对波束形成的音频输出信号的所述时间频率瓦片值和所述至少一个噪声参考信号的所述时间频率瓦片值中的至少一个进行滤波。

这可以提供改进的点音频源估计。滤波可以是低通滤波,例如平均。

在一些实施例中,所述滤波在频率方向和时间方向两者上进行。

这可以提供改进的点音频源估计。所述差异处理器可以被布置为在多个时间频率瓦片上对时间频率瓦片值进行滤波,所述过滤包括在时间和频率两者上不同的时间频率瓦片。

根据本发明的一个方面,提供了一种音频捕获方法;所述方法包括:被耦合到麦克风阵列的第一波束形成器生成第一波束形成的音频输出;被耦合到所述麦克风阵列多个约束波束形成器生成约束波束形成音频输出;调整所述第一波束形成器的波束形成参数;针对所述多个约束波束形成器调整约束波束形成参数;确定所述多个约束波束形成器中的至少一个的差异量度,所述差异量度指示由所述第一波束形成器和所述多个约束波束形成器中的至少一个形成的波束之间的差异;其中,调整约束波数形成参数利用约束来调整约束波束形成参数,所述约束是约束波束形成参数仅针对所述多个约束波束形成器中的如下的约束波束形成器进行调整:针对所述约束波束形成器,已经确定差异量度满足相似性准则。

参考下文描述的(一个或多个)实施例,本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例,其中,

图1图示了波束形成的音频捕获系统的元件的示例;

图2图示了由音频捕获系统形成的多个波束的示例;

图3图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图4图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图5图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图6图示了根据本发明的一些实施例的适配音频捕获设备的约束波束形成器的方法的流程图的示例;

图7图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图8图示了滤波及加和波束形成器的元件的示例;

图9图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图10图示了频域变换器的示例;并且

图11图示了根据本发明一些实施例的音频捕获装置的差异处理器元件的示例。

具体实施方式

以下描述集中于适用于基于波束形成的语音捕获音频系统的本发明的实施例,但是应当理解,所述方法适用于用于音频捕获的许多其他系统和场景。

图3图示了根据本发明一些实施例的音频捕获装置的元件的示例。

所述音频捕获装置包括麦克风阵列301,麦克风阵列301包括多个麦克风,所述麦克风被布置为捕获环境中的音频。在该示例中,麦克风阵列301被耦合到任选的回声消除器303,其可以消除源自与麦克风信号中的回声线性相关的声源(其参考信号可用)的回声。该源可以例如是扬声器。可以将调整滤波器与参考信号一起用作输入,并且从麦克风信号中减去输出以生成回波补偿信号。这可以针对每个单独的麦克风重复进行。

应当理解,回声消除器303是任选的,并且在许多实施例中可以简单地省略。

麦克风阵列301通常直接或通过回声消除器303(以及可能通过放大器,数模转换器等)耦合到第一波束形成器305,如本领域技术人员所熟知的。

第一波束形成器305被布置为组合来自麦克风阵列301的信号,使得生成麦克风阵列301的有效定向音频灵敏度。因此,第一波束形成器305生成输出信号,称为第一波束形成的音频输出,其对应于环境中的音频的选择性捕获。第一波束形成器305是自适应波束形成器,并且可以通过设置第一波束形成器305的波束形成操作的参数(称为第一波束形成参数)来控制方向性。

第一波束形成器305耦合到第一适配器307,第一适配器1107被布置为调整第一波束形成参数。因此,第一适配器307被布置为适应第一波束形成器305的参数,使得可以操纵波束。

另外,音频捕获装置包括多个约束波束形成器309、311,每个约束波束形成器1109、1111被布置为组合来自麦克风阵列301的信号,使得生成麦克风阵列301的有效定向音频灵敏度。因此,约束波束形成器309、311中的每个被布置为生成音频输出,称为约束波束形成的音频输出,其对应于环境中的音频的选择性捕获。类似地,对于第一波束形成器305,约束波束形成器309、311是自适应波束形成器,其中每个约束波束形成器309、311的方向性可以通过设置约束波束形成器309、311的参数(称为约束波束形成参数)来控制。

因此,音频捕获装置包括第二适配器313,第二适配器1113被布置为适应多个约束波束形成器的约束波束形成参数,从而调整由这些波束形成的波束。

因此,第一波束形成器305和约束波束形成器309、311都是自适应波束形成器,可以针对其动态地调整所形成的实际波束。具体地,波束形成器305、309、311是滤波及组合器或者具体地,在大多数实施例中是滤波及求和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号,并且经滤波的输出可以被组合,通常通过简单地相加在一起。

在大多数实施例中,每个波束形成滤波器具有时域脉冲响应,其不是简单的狄拉克脉冲(对应于简单的延迟,并且因此对应于频域中的增益和相位偏移),而是具有通常在不小于2、5、10或甚至30毫秒的时间区间上延伸的脉冲响应。

脉冲响应通常可以通过波束形成滤波器是具有多个系数的fir(有限脉冲响应)滤波器来实现。在这样的实施例中,第一和第二适配器307、313可以通过调整滤波器系数来对波束形成进行调整。在许多实施例中,fir滤波器可以具有对应于固定时间偏移(通常是采样时间偏移)的系数,其中,适配器307、313被布置为调整系数值。在其他实施例中,波束形成滤波器通常可以具有显著更少的系数(例如,仅两个或三个),但是这些(也)的定时是可调整的。

具有扩展的脉冲响应而不是简单的可变延迟(或简单的频域增益/相位调整)的波束形成滤波器的特别的优点在于它允许波束形成器305、309、311不仅仅针对最强的、通常是直接的信号分量进行调整。相反,它允许波束形成器350、309、311被调整以包括通常对应于反射的另外的信号路径。因此,所述方法允许在大多数真实环境中改进的性能,并且特别地允许改善反射和/或混响环境和/或针对远离麦克风阵列301的音频源的性能。

应当理解,可以在不同的实施例中使用不同的调整算法,并且技术人员将知道各种优化参数。例如,适配器307、313可以调整波束形成参数以最大化波束形成器的输出信号值。作为具体示例,考虑波束形成器,其中利用前向匹配滤波器对接收的麦克风信号进行滤波,并且添加经滤波的输出。输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而得到最大输出功率。这种方法的进一步细节可以在us7146012和us7602926中找到。

应注意,诸如us7146012和us7602926的方法基于调整是基于音频源信号z(n)和来自波束形成器的噪声参考信号x(n),并且应该理解,相同的方法可以针对图3的波束形成器使用。

第一波束形成器305和约束波束形成器309、311可以具体地是对应于图1中所示并且在us7146012和us7602926中公开的波束形成器的波束形成器。

在许多实施例中,第一波束形成器305和约束波束形成器309、311的结构和实现方式可以是相同的,例如波束形成滤波器可以具有相同数量的系数等的fir滤波器结构。

然而,第一波束形成器305和约束波束形成器309、311的操作和参数将是不同的,并且特别地,约束波束形成器309、311以第一波束形成器305不经受的方式被约束。具体地,约束波束形成器309、311的调整将不同于第一波束形成器305的调整,并且将特别地受到一些约束。

具体地,约束波束形成器309、311受到以下约束:调整(波束形成滤波器参数的更新)被约束到满足准则的情况,而第一波束形成器305将被允许即使在不满足这样的准则时也能够调整。实际上,在许多实施例中,可以允许第一适配器307始终调整波束形成滤波器,其不受第一波束形成器305捕获的音频的(或任何约束波束形成器309、311的)任何属性的约束。

稍后将更详细地描述用于调整约束波束形成器309、311的准则。

在许多实施例中,第一波束形成器305的调整速率高于约束波束形成器309、311的调整速率。因此,在许多实施例中,第一适配器307可以被布置为比第二适配器313更快地适应变化,因此第一波束形成器305可以比约束波束形成器309、311更新得更快。这可以例如通过对第一波束形成器305具有比对约束波束形成器309、311更高的截止频率的被最大化或最小化的值(例如,输出信号的信号水平或误差信号的幅值)的低通滤波来实现。作为另一示例,对于第一波束形成器305,波束形成参数(具体地,波束形成滤波器系数)的每次更新的最大改变可以比对于约束波束形成器309、311更高。

因此,在该系统中,通过不受该约束影响的自由运行的更快的调整波束形成器来补充仅在满足特定标准时缓慢地调整多个聚焦(调整约束)波束形成器。与自由运行的波束形成器相比,较慢且聚焦的波束形成器通常将提供比特定音频环境更慢但更准确和可靠的适应,然而自由运行的波束形成器通常能够在更大的参数间隔上快速调整。

在图3的系统中,这些波束形成器协同使用以提供改进的性能,这将在后面更详细地描述。

第一波束形成器305和约束波束形成器309、311耦合到输出处理器315,输出处理器1115接收来自波束形成器305、309、311的波束形成的音频输出信号。从音频捕获装置生成的确切输出将取决于各个实施例的特定偏好和要求。实际上,在一些实施例中,来自音频捕获装置的输出可以简单地包括来自波束形成器305、309、311的音频输出信号。

在许多实施例中,来自输出处理器315的输出信号被生成为来自波束形成器305、309、311的音频输出信号的组合。实际上,在一些实施例中,可以执行简单的选择组合,例如,选择音频输出信号,其中信噪比(或者简单地信号水平)是最高的。

因此,输出处理器315的输出选择和后处理可以是应用特定的和/或在不同的实现/实施例中是不同的。例如,可以提供所有可能的聚焦波束输出,可以基于用户定义的标准等进行选择(例如,选择最强的发言者)。

例如,对于语音控制应用,可以将所有输出转发到语音触发识别器,所述语音触发识别器被设置为检测特定的单词或短语以初始化语音控制。在这样的示例中,其中检测到触发词或短语的音频输出信号可以跟随触发短语被语音识别器用于检测特定命令。

对于通信应用,例如有利的是选择最强的音频输出信号,例如已经找到特定点音频源的存在。

在一些实施例中,诸如图1的噪声抑制之类的后处理,可以应用于音频捕获装置的输出(例如,通过输出处理器315)。这可以改善例如语音通信的性能。在这样的后处理中,可以包括非线性操作,尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

在图3的系统中,采取特别有利的方法来基于第一波束形成器305和约束波束形成器309、311之间的协同互通和相互关系来捕获音频。

为此目的,音频捕获装置包括差异处理器317,其被布置为确定约束波束形成器309、311与第一波束形成器305中的一个或多个之间的差异量度。差异量度表示分别由第一波束形成器305和约束波束形成器309、311形成的波束之间的差异。因此,第一约束波束形成器309的差异量度可以指示由第一波束形成器305和第一约束波束形成器309形成的波束之间的差异。以这种方式,差异量度可以指示两个波束形成器305、309与相同音频源的匹配程度。

可以在不同的实施例和应用中使用不同的差异量度。

在一些实施例中,可以基于从不同波束形成器305、309、311生成的波束形成的音频输出来确定差异量度。作为示例,可以通过测量第一波束形成器305和第一约束波束形成器309的输出的信号水平并将它们彼此进行比较来简单地生成简单的差异量度。信号水平彼此越接近,差异量度越低(通常差异量度也将作为例如第一波束形成器305的实际信号水平的函数而增加)。

在许多实施例中,可以通过确定来自第一波束形成器305的波束形成的音频输出与第一约束波束形成器309之间的相关性来生成更合适的差异量度。相关值越高,差异量度越低。

替代地或者额外地,可以基于第一波束形成器305和第一约束波束形成器309的波束形成参数的比较来确定差异量度。例如,对于给定麦克风,第一波束形成器305的波束形成滤波器和第一约束波束形成器309的波束形成滤波器的系数可以由两个矢量表示。然后可以计算这两个矢量的差矢量的幅值。可以对所有麦克风重复该过程,并且可以确定组合或平均幅值并将其用作距离量度。因此,所生成的差异量度反映了波束形成滤波器的系数对于第一波束形成器305与第一约束波束形成器309有多不同,并且这被用作波束的差异量度。

因此,在图3的系统中,生成差异量度以反映第一波束形成器305和第一约束波束形成器309的波束形成参数之间的差异和/或这些波束形成的音频输出之间的差异。

应当理解,生成、确定和/或使用差异量度直接等同于生成、确定和/或使用相似性量度。实际上,通常可以认为一个是另一个的单调递减函数,因此差异量度也是相似度量(反之亦然),通常一个简单地通过增加值来指示增加的差异而另一个通过减少值来实现这一点。

差异处理器317被耦合到第二适配器313并为此提供差异量度。第二适配器313被布置为响应于差异量度来适配约束波束形成器309、311。具体地,第二适配器313被布置为仅针对已经确定了满足相似度准则的差异量度的约束波束形成器来调整约束波束形成参数。因此,如果没有针对给定的约束波束形成器309、311确定差异量度,或者如果给定的约束波束形成器309的确定的差异量度311指示第一波束形成器305和给定的约束波束形成器309、311的波束是不完全相似,则不进行调整。

因此,在图3的音频捕获装置中,约束波束形成器309、311在波束的调整方面受到约束。具体地,则它们被约束为仅在由约束波束形成器309、311形成的当前波束接近自由运行的第一波束形成器305正在形成的波束的情况下进行调整,即,个体约束波束形成器309、311仅在第一波束形成器305当前被调整为足够接近个体约束波束形成器309、311的情况下被调整。

其结果是约束波束形成器309、311的调整由第一波束形成器305的操作控制,使得由第一波束形成器305形成的波束有效地控制约束波束形成器309、311中的哪个被优化/调整。该方法可以具体地导致约束波束形成器309、311仅在期望的音频源接近约束波束形成器309、311的当前调整时倾向于被调整。

在实践中已经发现,当期望的音频源(在当前情况下为期望的发言者)在混响半径之外时,要求波束之间的相似性以允许调整的方法已经导致显著改善的性能。实际上,已经发现,特别是在具有非主导直接路径音频分量的混响环境中的弱音频源提供非常期望的性能。

在许多实施例中,对调整的约束可能受到进一步的要求。

例如,在许多实施例中,调整可以是对波束形成的音频输出的信噪比超过阈值的要求。因此,对个体约束波束形成器309、311的适配可以限于以下场景:其被充分调整并且调整所基于的信号反映了期望的音频信号。

应当理解,可以在不同的实施例中使用用于确定信噪比的不同方法。例如,麦克风信号的本底噪声可以通过跟踪经平滑的功率估计的最小值来确定,并且对于每个帧或时间区间,将瞬时功率与该最小值进行比较。作为另一示例,可以确定波束形成器的输出的噪声基底并将其与波束形成的输出的瞬时输出功率进行比较。

在一些实施例中,约束波束形成器309、311的调整被限制为在约束波束形成器309、311的输出中检测到语音分量时。这将为语音捕获应用提供改进的性能。应当理解,可以使用用于检测音频信号中的语音的任何合适的算法或方法。

应当理解,图3-5的系统通常使用帧或块处理来操作。因此,定义了相继的的时间区间或帧,并且可以在每个时间区间内执行所描述的处理。例如,麦克风信号可以被划分到处理时间区间,并且对于每个处理时间区间,波束形成器305、309、311可以针对该时间区间生成波束形成的音频输出信号,确定差异量度,选择约束波束形成器309、311,以及更新/调整该约束波束形成器309、311等。在许多实施例中,处理时间区间可以有利地具有5毫秒到50毫秒之间的持续时间。

应当理解,在一些实施例中,不同的处理时间区间可以用于音频捕获装置的不同方面和功能。例如,用于调整的约束波束形成器309、311的差异量度和选择可以在比例如用于波束形成的处理时间区间更低的频率下执行。

在许多系统中,调整可能取决于波束形成的音频输出中的点音频源的检测。因此,在许多实施例中,音频捕获设备还可以包括如图4所示的音频源检测器401。

在许多实施例中,音频源检测器401可以被布置为检测第二波束形成的音频输出中的音频源,并且因此点音频源检测器401被耦合到约束波束形成器309、311,并且其接收来自它们的波束形成的音频输出。

声学中的音频点源是源自空间中的点的声音。应当理解,音频源检测器401可以使用不同的算法或标准来估计(检测)来自给定约束波束形成器309、311的波束形成的音频输出中是否存在点音频源,并且技术人员将知道各种这样的方法。

一种方法可以具体地基于识别由麦克风阵列301中的麦克风捕获的单个或主导点源的特性。例如,可以通过查看麦克风上的信号之间的相关性来检测单个或主导点源。如果存在高相关性,则认为存在主导点源。如果相关性低,则认为不存在主导点源但是捕获的信号源自许多不相关的源。因此,在许多实施例中,点音频源可以被认为是空间相关的音频源,其中,空间相关性由麦克风信号的相关性反映。

在当前情况下,在波束形成滤波器的滤波之后确定相关性。具体地,可以确定约束波束形成器309、311的波束形成滤波器的输出的相关性,并且如果这超过给定阈值,则可以认为已经检测到点音频源。

在其他实施例中,可以通过评估波束形成的音频输出的内容来检测点源。例如,音频源检测器401可以分析波束形成的音频输出,并且如果在波束形成的音频输出中检测到具有足够强度的语音分量,则可以认为这对应于点音频源,并且因此检测到强的语音分量可以被认为是检测到点音频源。

检测结果从音频源检测器401传递到第二适配器313,第二适配器1113被设置为响应于此而对调整进行适配。具体地,第二适配器313可以被布置为仅调整音频源检测器401指示已经检测到点音频源的约束波束形成器309、311。

因此,音频捕获装置被布置为将约束波束形成器309、311的调整约束为使得约束波束形成器309、311仅在形成的源束中存在点音频源时被调整,并且所形成的波束接近于由第一波束形成器305形成的波束。因此,调整通常限于已经接近(期望的)点音频源的约束波束形成器309、311。该方法允许非常鲁棒和精确的波束形成,其在期望的音频源可能在混响半径之外的环境中执行得非常好。此外,通过操作和选择性地更新多个约束波束形成器309、311,可以通过相对快速的反应时间来补充这种鲁棒性和准确性,从而允许系统作为整体快速适应快速移动或新发生的声源。

在许多实施例中,音频捕获装置可以被布置为一次仅适配一个约束波束形成器309、311。因此,第二适配器313可以在每个调整时间区间中选择约束波束形成器309、311中的一个,并且仅通过更新波束形成参数来适应此。

单个约束波束形成器309、311的选择通常将在选择约束波束形成器309、311时自动发生,仅当所形成的当前波束接近于由第一波束形成器305形成的波束并且在波束中检测到点音频源时才进行调整。

然而,在一些实施例中,多个约束波束形成器309、311可以同时满足准则。例如,如果点音频源被定位为接近由两个不同的约束波束形成器309、311覆盖的区域(或者例如它位于所述区域的交叠区域中),则可以在两个波束中检测点音频源,并且这些可以都是通过均朝向点音频源调整而被调整为彼此接近。

因此,在这样的实施例中,第二适配器313可以选择满足两个准则的约束波束形成器309、311中的一个并且仅调整该一个。这将降低两个波束针对相同的点音频源进行调整的风险,从而降低这些波束彼此干扰的操作风险。

实际上,在相应的差异量度必须足够低并且仅选择单个约束波束形成器309、311以进行调整(例如,在每个处理时间区间/帧中)的约束下对约束波束形成器309、311进行调整将导致调整在不同的约束波束形成器309、311之间被区分。这将倾向于导致约束波束形成器309、311适于覆盖不同的区域,其中自动选择最接近的约束波束形成器309、311以适应/跟随由第一波束形成器305检测的音频源。然而,与例如图2的方法不同,这些区域不是固定的和预定的,而是动态地和自动地形成的。

还应注意,这些区域可以取决于多个路径的波束形成,并且通常不限于到达区域的角度方向。例如,可以基于到麦克风阵列的距离来对区域进行区分。因此,术语区域可以被认为是指空间中音频源将导致满足差异量度的相似性要求的调整的位置。因此,它不仅考虑直接路径而且还考虑例如反射(如果它们在波束形成参数中被考虑并且特别是基于空间和时间方面两者(并且具体地取决于波束形成滤波器的全脉冲响应))。

单个约束波束形成器309、311的选择可以具体地响应于捕获的音频水平。例如,音频源检测器401可以确定来自满足标准的约束波束形成器309、311的每个波束形成的音频输出的音频水平,并且其可以选择导致最高的音频水平的约束波束形成器309、311。在一些实施例中,音频源检测器401可以选择如下的约束波束形成器309、311:针对所述约束波束形成器,在波束形成的音频输出中检测到的点音频源具有最高值。例如,音频源检测器401可以检测来自两个约束波束形成器309、311的波束形成的音频输出中的语音分量,并且可以前进到选择具有最高水平的语音分量的那个。

在该方法中,因此执行约束波束形成器309、311的非常选择性的调整,导致这些仅在特定情况下进行调整。这通过约束波束形成器309、311提供了非常鲁棒的波束形成,从而改善了对期望音频源的捕获。然而,在许多场景中,波束形成中的约束还可能导致较慢的调整,并且实际上可能在许多情况下导致未检测到新的音频源(例如,新的发言者)或者仅针对其非常慢地调整。

图5图示了图4的音频捕获设备,但是增加了波束形成器控制器501,其被耦合到第二适配器313和音频源检测器401。波束形成器控制器501被布置为在特定情况下初始化约束波束形成器309、311。具体地,波束形成器控制器501可以响应于第一波束形成器305初始化约束波束形成器309、311,并且具体地可以初始化约束波束形成器309、311中的一个以形成与第一波束形成器305的波束相对应的波束。

波束形成器控制器501具体地响应于第一波束形成器305的波束形成参数而设置约束波束形成器309、311中的一个的波束形成参数,此后称为第一波束形成参数。在一些实施例中,约束波束形成器309、311和第一波束形成器305的滤波器可以是相同的,例如它们可以具有相同的架构。作为具体示例,约束波束形成器309、311和第一波束形成器305的滤波器可以是具有相同长度(即,给定数量的系数)的fir滤波器,并且来自第一波束形成器305的滤波器的当前调整的系数值可以简单地被复制到约束波束形成器309、311,即,可以将约束波束形成器309、311的系数设置为第一波束形成器305的值。以这种方式,约束波束形成器309、311将被初始化,具有与当前针对第一波束形成器305调整的相同的波束特性。

在一些实施例中,约束波束形成器309、311的滤波器的设置可以从第一波束形成器305的滤波器参数确定,但是不是直接使用它们,而是可以在应用之前调整它们。例如,在一些实施例中,可以修改fir滤波器的系数以将约束波束形成器309、311的波束初始化为比第一波束形成器305的波束更宽(但是例如在相同方向上形成)。

在许多实施例中,波束形成器控制器501可以在一些情况下相应地利用与第一波束形成器305的初始波束对应的初始波束初始化约束波束形成器309、311中的一个。然后,系统可以如前所述继续处理约束波束形成器309、311,并且具体地可以在约束波束形成器309、311满足先前描述的标准时进行调整。

在不同的实施例中,用于初始化约束波束形成器309、311的准则可以是不同的。

在许多实施例中,如果在第一波束形成的音频输出中检测到点音频源的存在但是在任何约束波束形成的音频输出中没有检测到,则波束形成器控制器501可以被布置为初始化约束波束形成器309、311。

因此,音频源检测器401可以确定点音频源是否存在于来自约束波束形成器309、311或第一波束形成器305的任何波束形成的音频输出中。每个波束形成的音频输出的检测/估计结果可以被转发到波束形成器控制器501,其可以对此进行评估。如果仅针对第一波束形成器305检测到点音频源,而不是针对任何约束波束形成器309、311检测到点音频源,则这可以反映以下情况:诸如发言者的点音频源存在并且被第一波束形成器305检测到,但是约束波束形成器309、311都没有检测到或已经针对所述点音频源进行调整。在这种情况下,约束波束形成器309、311可能从不(或仅非常慢地)针对点音频源进行调整。因此,约束波束形成器309、311中的一个被初始化以形成对应于点音频源的波束。随后,所述波束可能足够靠近点音频源,并且它(通常缓慢但可靠地)针对这个新的点音频源进行调整。

因此,所述方法可以组合并提供快速第一波束形成器305和可靠约束波束形成器309、311两者的有利效果。

在一些实施例中,波束形成器控制器501可以被布置为仅在约束波束形成器309、311的差异量度超过阈值时初始化约束波束形成器309、311。具体地,如果约束波束形成器309、311的最低确定的差异量度低于阈值,则不执行初始化。在这种情况下,约束波束形成器309、311的自适应可能更接近期望的情况,而第一波束形成器305的不太可靠的自适应更不准确并且可以被调整为更接近第一波束形成器305。因此,在差异量度足够低的这种情况下,允许系统尝试自动适应可能是有利的。

在一些实施例中,波束形成器控制器501可以具体地被布置为当针对第一波束形成器305和约束波束形成器309、311中的一个检测到点音频源但是针对它们的差异量度不满足相似性标准时初始化约束波束形成器309、311。具体地,如果在来自第一波束形成器305的波束形成的音频输出和在来自约束波束形成器309、311的波束形成的音频输出两者中检测到点音频源并且差异量度值超过阈值,则波束形成器控制器501可以被布置为响应于第一波束形成器305的波束形成参数来为第一约束波束形成器309、311设置波束形成参数。

这样的场景可能反映以下情况:约束波束形成器309、311可能已经适配并捕获点音频源,然而该点音频源不同于由第一波束形成器305捕获的点音频源。因此,它可以具体地反映约束波束形成器309、311可能已经捕获了“错误的”点音频源。因此,可以重新初始化约束波束形成器309、311以形成朝向期望点音频源的波束。

在一些实施例中,可以改变活动的约束波束形成器309、311的数量。例如,音频捕获设备可以包括用于形成可能相对大量的约束波束形成器309、311的功能。例如,它可以实现多达例如八个同时的约束波束形成器309、311。然而,为了减少例如功耗和计算负荷,并非所有这些都可以同时激活。

因此,在一些实施例中,从较大的波束形成器池中选择一组有效的约束波束形成器309、311。具体地,这可以在约束波束形成器309、311被初始化时完成。因此,在上面提供的示例中,约束波束形成器309、311的初始化(例如,如果在任何活动约束波束形成器309、311中没有检测到点音频源)可以通过初始化来自池中的非活动约束波束形成器309、311来实现,从而增加了活动约束波束形成器309、311的数量。

如果池中的所有约束波束形成器309、311当前都是活动的,则可以通过初始化当前活动的约束波束形成器309、311来完成约束波束形成器309、311的初始化。可以根据任何合适的准则来选择要初始化的约束波束形成器309、311。例如,可以选择具有最大差异量度或最低信号水平的约束波束形成器309、311。

在一些实施例中,响应于满足合适的准则,可以将约束波束形成器309、311停用。例如,如果差异量度增加到给定阈值以上,则可以停用约束波束形成器309、311。

用于控制根据上述许多示例的约束波束形成器309、311的适配和设置的具体方法由图6的流程图示出。

该方法在步骤601中通过初始化下一个处理时间区间(例如,等待下一个处理时间区间的开始,收集处理时间区间的一组样本等)开始。

步骤601之后是步骤603,其中,确定在约束波束形成器309、311的任何波束中是否检测到点音频源。

如果是,则该方法在步骤605继续,其中,确定差异量度是否满足相似性准则,并且具体地确定差异量度是否低于阈值。

如果是,则该方法在步骤607继续,其中,检测到点音频源的约束波束形成器309、311(或者在多于一个约束波束形成器309、311中检测到点音频源的情况下具有最大信号水平的波束形成器)被调整,即波束形成(滤波)参数被更新。

如果不是,则该方法在步骤609继续,其中,初始化约束波束形成器309、311,约束波束形成器309、311的波束形成参数根据第一波束形成器305的波束形成参数来设置。被初始化的约束波束形成器309、311可以是新的约束波束形成器309、311(即,来自非活动波束形成器池的波束形成器)或者可以是已经为其提供新的波束形成参数的已经激活的约束波束形成器309、311。

在步骤607和609之一之后,所述方法返回到步骤601并等待下一个处理时间区间。

如果在步骤603中检测到在任何约束波束形成器309、311的波束形成的音频输出中没有检测到点音频源,则该方法前进到步骤611,其中确定是否在第一个波束形成器305中检测到点音频源,即当前场景是否对应于点音频源由第一波束形成器305捕获但不由约束波束形成器309、311中的任一个捕获。

如果不是,则根本没有检测到点音频源,并且该方法返回到步骤601以等待下一个处理时间区间。

否则,所述方法前进到步骤613,其中,确定差异量度是否满足相似性准则,并且具体地,差异量度是否低于阈值(其可以是与步骤605中使用的阈值/标准相同的或者可以是不同的阈值/标准)。

如果是,则该方法前进到步骤615,其中,调整差异量度低于阈值的约束波束形成器309、311(或者如果不止一个约束波束形成器309、311满足标准,则可以选择具有例如最低差异量度的波束形成器709、711)。

否则,所述方法前进到步骤617,其中,初始化约束波束形成器309、311,约束波束形成器309、311的波束形成参数根据第一波束形成器305的波束形成参数来设置。被初始化的约束波束形成器309、311可以是新的约束波束形成器309、311(即,来自非活动波束形成器池的波束形成器)或者可以是已经为其提供新的波束形成参数的已经激活的约束波束形成器309、311。

在步骤615和617之一之后,所述方法返回到步骤601并等待下一个处理时间区间。

所描述的图3的音频捕获设备的方法可以在许多场景中提供有利的性能,并且特别地可以倾向于允许音频捕获设备动态地形成聚焦的、鲁棒的和准确的波束以捕获音频源。波束倾向于适于覆盖不同区域,并且该方法可以例如自动选择和调整最近的约束波束形成器309、311。

因此,与例如图2的方法不同,不需要直接施加对波束方向或滤波器系数的特定约束。相反,通过让约束波束形成器309、311仅在存在单个音频源主导时以及当其足够接近约束波束形成器309、311的波束时(有条件地)调整,可以自动地生成/形成单独的区域。这可以通过考虑直接场和(第一)反射的滤波器系数来具体确定。

应当注意,使用具有扩展脉冲响应的滤波器(与使用简单延迟滤波器,即单系数滤波器不同)也考虑到反射在直接场之后某个(特定)时间到达。因此,波束不仅由空间特性(直接场和反射从哪个方向到达)确定,而且还由时间特性确定(反射在直接场之后什么时间到达)。因此,对波束的引用不仅限于空间考虑,而且还反映波束形成滤波器的时间分量。类似地,对区域的引用包括波束形成滤波器的纯空间效应和时间效应。

因此,所述方法可以被认为形成通过第一波束形成器305的自由运行波束与约束波束形成器309、311的波束之间的距离量度的差异确定的区域。例如,假设约束波束形成器309、311具有聚焦在源上的波束(具有空间和时间特性两者)。假设源是静音的并且新的源变为活动的,第一波束形成器305适于聚焦于此。然后,具有时间空间特性的每个源使得第一波束形成器305的波束与约束波束形成器309、311的波束之间的距离不超过阈值可被认为是在约束波束形成器309、311的区域中。以这种方式,可以认为对第一约束波束形成器309的约束转换为空间约束。

用于自适应约束波束形成器的距离标准以及初始化波束的方法(例如,波束形成滤波器系数的复制)通常提供约束波束形成器309、311以在不同区域中形成波束。

该方法通常导致反映环境中音频源的存在的区域的自动形成,而不是如图2中的预定固定系统。这种灵活的方法允许系统基于时空特性,例如由反射引起的特性,这对于预定和固定的系统来说是非常困难和复杂的(因为这些特性取决于许多参数,例如尺寸、房间的形状和混响特性等)。

在下文中,将参考图4描述用于确定差异量度的具体方法。为简洁和清楚起见,图6示出了麦克风阵列301,第一波束形成器305,作为约束波束形成器309之一的第二波束形成器309和差异处理器317。第一波束形成器305的输出将被称为第一波束形成的音频输出信号,第二波束形成器309的输出将被称为第二波束形成的音频输出信号。

因此,第一和第二波束形成器303、305是自适应波束形成器,其中可以通过调整波束形成操作的参数来控制方向性。

具体地,波束形成器305、309是滤波器和组合器(或者具体地,在大多数实施例中是滤波及求和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号,并且经滤波的输出可以被组合,通常通过简单地相加在一起。

在大多数实施例中,每个波束形成滤波器具有时域脉冲响应,其不是简单的狄拉克脉冲(对应于简单的延迟,并且因此对应于频域中的增益和相位偏移),而是具有通常在不小于2、5、10或甚至30毫秒的时间区间上延伸的脉冲响应。

脉冲响应通常可以通过波束形成滤波器是具有多个系数的fir(有限脉冲响应)滤波器来实现。在这样的实施例中,波束形成器305、309可以通过调整滤波器系数来调整波束形成。在许多实施例中,fir滤波器可以具有对应于固定时间偏移(通常是采样时间偏移)的系数,其中通过调整系数值来实现调整。在其他实施例中,波束形成滤波器通常可以具有显著更少的系数(例如,仅两个或三个),但是这些(也)的定时是可调整的。

具有扩展的脉冲响应而不是简单的可变延迟(或简单的频域增益/相位调整)的波束形成滤波器的特别的优点在于它允许波束形成器305、309不仅仅针对最强的、通常是直接的信号分量进行调整。相反,它允许波束形成器305、309进行调整以包括通常对应于反射的另外的信号路径。因此,所述方法允许在大多数真实环境中改进的性能,并且特别地允许改善反射和/或混响环境和/或针对远离麦克风阵列301的音频源的性能。

波束形成器305、309具体地是滤波器及组合器(并且特别是滤波器及加和波束形成器)。图8图示了基于仅包括两个麦克风801的麦克风阵列的滤波及加和波束形成器的简化示例。在该示例中,每个麦克风801被耦合到波束形成滤波器803、805,其输出在加法器808中求和以生成波束形成的音频输出信号。波束形成滤波器803、805具有脉冲响应f1和f2,其适于在给定方向上形成波束。应当理解,通常麦克风阵列将包括两个以上的麦克风,并且图通过还包括用于每个麦克风的波束形成滤波器,图8的示例很容易扩展到更多麦克风。

第一和第二波束形成器303、305可以包括用于波束形成的这种滤波及加和架构(例如,在us7146012和us7602926的波束形成器中)。应当理解,在许多实施例中,麦克风阵列301可以包括多于两个麦克风。此外,应当理解,波束形成器350、309包括用于如前所述地调整波束形成滤波器的功能。此外,在特定示例中,波束形成器350、309不仅生成波束形成的音频输出信号,还生成噪声参考信号。

在用于比较波束形成器和波束的传统方法中,通过比较所生成的音频输出来评估波束之间的相似性。例如,可以生成音频输出之间的互相关,其中相似性由所述相关的幅值指示。在一些系统中,可以通过以下来确定doa:对麦克风对的音频信号进行互相关并且响应于峰值的定时而确定doa。

在图7的系统中,差异量度不仅仅基于音频信号的属性或比较来确定,无论是来自波束形成器的波束形成的音频输出信号还是输入的麦克风信号,而图7的音频捕获设备的差异处理器317被布置为响应于第一和第二波束形成器305、309的波束形成滤波器的脉冲响应的比较来确定所述差异量度。

在图7的系统中,将第一波束形成器305的波束形成滤波器的参数与第二波束形成器309的波束形成滤波器的参数进行比较。然后可以确定差异量度以反映这些参数彼此之间的接近程度。具体地,对于每个麦克风,将第一波束形成器305和第二波束形成器309的相应波束形成滤波器彼此进行比较,以产生中间差异量度。然后将中间差异量度值组合成从差值处理器317输出的单个差异量度。

被比较的波束形成参数通常是滤波器系数。具体地,波束形成滤波器可以是fir滤波器,其具有由该组fir滤波器系数定义的时域脉冲响应。差值处理器317可以被布置为通过确定滤波器之间的相关性来比较第一波束形成器305和第二波束形成器309的对应滤波器。可以将相关值确定为最大相关性(即,使相关性最大化的时间偏移的相关值)。

差值处理器317然后可以将所有这些单独的相关值组合成单个差异量度,例如简单地通过将它们相加在一起。在其他实施例中,可以执行加权组合,例如通过将较大系数比较低系数更高地加权。

应当理解,这样的差异量度将具有增加滤波器相关性增加的值,并且因此较高的值将指示波束的增加的相似性而不是增加的差异。然而,在以下实施例中:为了增加差异,期望差异量度增加,可以简单地将单调递减函数应用于组合相关性。

基于波束形成滤波器的脉冲响应而不是基于音频信号(波束形成的音频输出信号或麦克风信号)的比较来确定差异量度值在许多系统和应用中提供了显著的优点。特别地,所述方法通常提供大大改进的性能,并且实际上适用于混响音频环境中的应用以及适用于更远距离的音频源,包括特别是混响半径之外的音频源。实际上,它在以下情况下提供了大大改进的性能:来自音频源的直接路径不是主导的,而是直接路径和可能的早期反射由例如漫射声场主导的地方。特别地,在这种场景中,基于音频信号的差异估计将严重受声场的空间和时间特性的影响,而基于滤波器的方法允许基于不仅反映直接声场/路径而且适于反射直接声场/路径和早期反射(由于脉冲响应具有延长的持续时间以考虑这些反射)的滤波器参数而允许对波束更直接的评估。

实际上,用于估计两个波束形成器的相似性的传统doa和音频信号相关度量基于消声环境,并且因此在期望用户靠近麦克风使得漫射声场的能量占主导地位(在混响半径内)的环境中工作良好,图7的方法不是基于这样的假设,并且即使在存在许多反射和/或显著的漫射声学噪声的情况下也提供出色的估计。

其他优点包括可以基于当前波束形成参数来即时确定差异量度,并且具体地基于当前滤波器系数。在大多数实施例中,不需要对参数进行任何平均,而是自适应波束形成器的自适应速度确定跟踪行为。

一个特别有利的方面是比较和差异量度可以基于具有延长的持续时间的脉冲响应。这允许差异量度不仅反映波束的直接路径或角度方向的延迟,而且允许考虑估计的声学房间脉冲的显著部分或实际上所有的部分。因此,差异量度不仅仅基于由传统方法中的麦克风信号激发的子空间。

在一些实施例中,差异量度可以具体地被布置为比较频域中的脉冲响应而不是时域中的脉冲响应。具体地,所述差异处理器317可以被布置为将第一波束形成器305的滤波器的自适应脉冲响应变换到频域。类似地,所述差异处理器317可以被布置为将第二波束形成器309的滤波器的自适应脉冲响应变换到频域。可以通过将例如快速傅里叶变换(fft)应用于第一波束形成器305和第二波束形成器309两者的波束形成滤波器的脉冲响应来具体地执行变换。

因此,所述差异处理器317可以针对第一波束形成器305和第二波束形成器309的每个滤波器生成一组频域系数。然后,可以基于频率表示继续确定差异量度。例如,对于麦克风阵列301中的每个麦克风,所述差异处理器317可以比较两个波束形成滤波器的频域系数。作为一个简单的示例,它可以简单地确定差异矢量的大小,所述差异矢量被计算为两个滤波器的频域系数矢量之间的差。然后可以通过组合针对各个频率生成的中间差异量度来确定差异量度。

在下文中,将描述用于确定差异量度的一些特定且非常有利的方法。这些方法基于频域中自适应脉冲响应的比较。在该方法中,所述差异处理器317被布置为确定频域表示的频率的频率差异量度。具体地,可以针对频率表示中的每个频率确定频率差异量度。然后根据这些单独的频率差异量度值生成输出差异量度。

具体地,可以针对每个滤波器对波束形成滤波器的每个频率滤波器系数生成频率差异量度,其中滤波器对分别表示针对同一麦克风的第一波束形成器305和第二波束形成器309的滤波器。该频率系数对的频率差异量度值是作为两个系数的函数产生的。实际上,在一些实施例中,系数对的频率差异量度可以被确定为系数之间的绝对差。

然而,对于实值的时域系数(即实值的脉冲响应),频率系数将通常是复数值,并且在许多应用中,响应于将第一频域系数和第二频域系数的共轭相乘(即,响应于一个滤波器的复系数与该对中另一滤波器的复系数的共轭的相乘)来确定针对系数对的特别有利的频率差异量度。

因此,对于波束形成滤波器的脉冲响应的频域表示的每个频率分箱,可以为每个麦克风/滤波器对生成频率差异量度。然后可以通过组合所有麦克风的这些麦克风特定频率差异量度值来生成频率的组合频率差异量度值,例如简单地通过对它们求和。

更详细地,波束形成器305、309可以包括针对每个麦克风和频域表示的每个频率的频域滤波器系数。

对于第一波束形成器305,这些系数可以被表示为f11(e)…f1m(e)并且对于第二波束形成器309,它们可以被表示为f21(e)…f2m(e),其中,m是麦克风的数量。

针对特定频率和所有麦克风的波束形成频域滤波器系数的总集合可以分别针对第一波束形成器305和第二波束形成器309表示为f1和f2

在这种情况下,给定频率的频率差异量度值可以被确定为:

s(ω)=f(f1,f2)

通过将属于相同麦克风的复值滤波器系数相乘我们针对每个频率获得的第一形式的距离量度,因此

其中,(·)*表示复共轭。这可以用作针对麦克风m的频率ω的差异量度。针对所有麦克风的组合频率差异量度可以被生成为这些的总和,即

如果两个滤波器不相关,即滤波器的调整状态并且因此形成的波束非常不同,则预期该和接近于零,因此频率差异量度值接近于零。然而,如果滤波器系数相似,则获得大的正值。如果滤波器系数具有相反的符号,则获得大的负值。因此,所生成的频率差异量度指示波束形成滤波器对于该频率的相似性。

两个复系数(包括共轭)的相乘得到复数值,并且在许多实施例中,可能希望将其转换为标量值。

特别地,在许多实施例中,响应于针对该频率的不同麦克风的频率差异量度的组合的实部,确定针对给定频率的频率差异量度。

具体地,组合频率差异量度可以被确定为:

在该度量中,基于re(s)的相似性度量导致当滤波器系数相同时获得最大值,而当滤波器系数相同但具有相反符号时获得最小值。

另一种方法是响应于针对麦克风的频率差异量度的组合的范数,确定给定频率的组合频率差异量度。该范数通常可以有利地是l1或l2范数。

例如:

在一些实施例中,针对麦克风阵列301中的所有麦克风的组合频率差异量度因此被确定为针对个体麦克风的复值频率差异量度之和的幅值或绝对值。

在许多实施例中,将差异量度标准化可能是有利的。例如,对差异量度进行归一化以使其落[0;1]的区间。

在一些实施例中,上述差异量度可以通过如下地确定而被归一化:响应针对第一波束形成器305的频域系数之和的范数的单调函数和针对第二波束形成器309的频域系数之和的范数的单调函数的加和来确定,其中加和是对麦克风进行的。该范数可以有利地是l2范数,并且单调函数可以有利地是平方函数。

因此,差异量度可以相对于以下值进行归一化:

结合上述第一种方法,这导致组合的频率差异量度给出如下:

其中引入了1/2的偏移量,使得对于f1=f2,频率差异量度值的值为一,并且对于f1=-f2,频率差异量度的值为零。因此,生成0和1之间的差值度量,其中增加的值指示减小的差异。应当理解,如果需要增加值来增加差异,则可以通过确定以下项来简单地实现:

类似地,对于第二种方法,可以确定以下频率差异量度:

再次导致频率差异量度落在[0;1]区间中。

作为另一个示例,在一些实施例中,归一化可以基于频域系数的各个加和的范数(特别是l2范数)的相乘:

n2(f1,f2)=‖f1‖2·‖f2‖2

特别是在许多应用中,这可以为差异量度的最后一个示例(即,基于针对系数的l1范数)提供非常有利的性能。特别是,可以使用以下频率差异量度:

因此,具体的频率差异量度可以确定为:

其中,<a|b>=((a)hb)*是内积,并且是l2范数。

然后,差值处理器317可以通过将这些差异量度组合成指示第一波束形成器305和第二波束形成器309的波束有多相似的单个差异量度来根据频率差异量度生成所述差异量度。

具体地,差异量度可以被确定为频率差度量的频率选择性加权和。频率选择方法可以对于应用合适的频率窗口特别有用,允许例如强调放在特定的频率范围上,例如像在音频范围或主要语音频率区间上。例如,可以应用(加权)平均来生成鲁棒的宽带差异量度。

具体而言,所述差异量度可以被确定为:

其中,w(e)是合适的加权函数。

作为一个示例,权重函数w(e)可以被设计为考虑到语音主要在特定频带中活跃和/或麦克风阵列对于相对低的频率倾向于具有低的指向性。

应当理解,虽然上述公式在连续频域中呈现,但是它们可以容易地转换到离散频域中。

例如,可以首先通过应用离散傅里叶变换(即,针对0≤k<k)来将离散时域滤波器变换为离散频域滤波器,我们可以计算:

其中,表示针对第m麦克风的第j波束形成器的离散时间滤波器响应,nf是时域滤波器的长度,表示第m麦克风的第j波束形成器的离散频域滤波器,并且k是频域波束形成滤波器的长度,通常被选择为k=2nf(通常与时域系数相同,但不一定是这种情况。例如,对于不同于2n的多个时域系数,可以使用零填充来促进频域转换(例如,使用fft))。

向量f1和f2的离散频域对应项是向量f1[k]和f2[k],其是通过将针对所有麦克风的频率指标k频域滤波器系数收集为向量而得到。

随后,例如相似性度量s7(f1,f2)[k]的计算然后可以按以下方式执行:

其中,

其中,(·)*表示复共轭。

最后,宽带相似性度量s7(f1,f2)可以基于加权函数w[k]而计算如下:

将加权函数选择为w[k]=1/k导致宽带相似性量度,其被界定在0和1之间并且对所有频率均等地加权。

替代的加权函数可以集中于特定频率范围(例如,由于其可能包含语音)。在这种情况下,导致在0和1之间限定的相似性度量的加权函数可以例如被选择为:

其中,k1和k2是与期望频率范围的边界相对应的频率指标。

导出的差异量度提供了具有在不同实施例中可能期望的不同特性的特别有效的性能。特别地,所确定的值可能对波束差异的不同特性敏感,并且取决于各个实施例的偏好,可能优选不同的量度。

实际上,差异/相似性量度s5(f1,f2)可以考虑对波束形成器之间的相位、衰减和方向差异进行量度,而s6(f1,f2)只考虑增益和方向差异。最后,差异量度s7(f1,f2)仅考虑方向差异并忽略相位和衰减差异。

这些差异与波束形成器的结构有关。具体来说,假设波束形成器的滤波器系数在所有麦克风上共享一个共用的(频率相关的)因子,我们将其指示为a(e)。在这种情况下,波束形成器滤波器系数可以分解如下:

使用缩写表示表示我们有接下来我们考虑两个版本的共用因子a(e)。

在第一种情况下,我们假设共用因子仅包括(频率相关的)相移,即,也称为全通滤波器。在第二种情况下,我们假设共用因子具有任意增益和每频率的相移。三种呈现的相似性度量以不同方式处理这些共用因子。

·s5(f1,f2)对波束形成器之间的共用幅值和相位差异敏感。

·s6(f1,f2)对波束形成器之间的共用幅值差异很敏感

·s7(f1,f2)对共用因子不敏感a(e)

这可以从以下范例中看出:

范例1

在该范例中,我们考虑具有f1=a(ejf)f2的场景,其中,是每频率任意相位,即全通滤波器。

这导致相似性度量的以下结果:

范例2

在该范例中,我们考虑具有f1=b(e)f2的场景,其中,b(e)是每频率的任意增益和相位。这导致相似性度量的以下结果:

在许多实际实施例中,在波束形成器之间可能存在共同的增益和相位差,并因此差异量度s7(f1,f2)在许多实施例中可以提供特别有吸引力的量度。

在下文中,用于确定点音频源估计的特定方法,其特别地可以由点音频源检测器401用于检测来自波束形成器的波束形成的音频输出信号中的点音频源。将参考第一波束形成器305来描述该示例,但是应当理解,它同样可以应用于任何约束波束形成器309、311。

将参考图9描述该示例,并且其是基于波束形成器305生成波束形成的音频输出信号和噪声参考信号的,如前所述。

波束形成器305被布置为生成波束形成的音频输出信号和噪声参考信号。

波束形成器305可以被布置为调整波束形成以捕获期望的音频源并且在波束形成的音频输出信号中表示该波束形成。它还可以生成噪声参考信号以提供剩余捕获音频的估计,即,它指示在没有期望音频源的情况下将捕获的噪声。

在如在us7146012和us7602926中公开的波束形成器305是波束形成器的示例中,可以如先前所描述的那样生成噪声参考,例如通过直接使用误差信号。然而,应当理解,在其他实施例中可以使用其他方法。例如,在一些实施例中,噪声参考可以被生成为来自(例如,全方向)麦克风的麦克风信号减去所生成的波束形成的音频输出信号,或者甚至是麦克风信号本身,以防该噪声参考麦克风远离其他麦克风并不包含所需的语音。作为另一示例,波束形成器305可以被布置为生成在生成波束形成的音频输出信号的波束的最大值的方向上具有零的第二波束,并且噪声参考可以被生成为由该互补的波束捕获的音频。

在一些实施例中,波束形成器305可包括两个子波束形成器,其可单独地生成不同的波束。在这样的示例中,子波束形成器中的一个可以被布置为生成波束形成的音频输出信号,而另一个子波束形成器可以被布置为生成噪声参考信号。例如,第一子波束形成器可以被布置为使输出信号最大化,从而导致主导源被捕获,而第二子波束形成器可以被布置为最小化输出水平,从而通常导致朝向主导源生成空值。因此,后一种波束形成的信号可以用作噪声参考。

在一些实施例中,两个子波束形成器可被以耦合并使用麦克风阵列301的不同麦克风。因此,在一些实施例中,麦克风阵列301可以由两个(或更多个)麦克风子阵列形成,每个麦克风子阵列被耦合到不同的子波束形成器并且被布置为单独地生成波束。实际上,在一些实施例中,子阵列甚至可以彼此远离地定位并且可以从不同位置捕获音频环境。因此,可以在一个位置处从麦克风子阵列生成波束形成的音频输出信号,而在不同的位置(并且通常在不同的设备中)从麦克风子阵列生成噪声参考信号。

在一些实施例中,诸如图1的噪声抑制之类的后处理可以通过输出处理器306将图1所示的输出处理器305应用于音频捕获装置的输出。这可以改善例如语音通信的性能。在这样的后处理中,可以包括非线性操作,尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

在许多实施例中,可能需要估计点音频源是否存在于由波束形成器305生成的波束形成的音频输出中,即,可能需要估计波束形成器305是否已针对音频源进行调整以使得波束形成的音频输出信号包括点音频源。

声学中的音频点源可以被认为是源自空间中的点的声音源。在许多应用中,期望检测并捕获点音频源,例如人类发言者。在一些场景中,这样的点音频源可以是声学环境中的主导音频源,但是在其他实施例中,情况可能不是这样,即,期望的点音频源可以例如被漫射背景噪声主导。

点音频源具有以下特性:直接路径声音将倾向于以强相关性到达不同麦克风,并且实际上通常将以与路径长度的差异相对应的延迟(频域线性相位变化)捕获相同的信号。因此,当考虑由麦克风捕获的信号之间的相关性时,高相关性指示主导点源,而低相关性指示从许多不相关源接收捕获的音频。实际上,音频环境中的点音频源可以被认为是直接信号分量导致麦克风信号的高相关性的点音频源,并且实际上可以认为点音频源对应于空间相关的音频源。

然而,尽管可以通过确定麦克风信号的相关性来寻求检测点音频源的存在,但这往往是不准确的并且不能提供最佳性能。例如,如果点音频源(并且实际上直接路径分量)不是主导的,则检测将趋于不准确。因此,所述方法不适用于例如远离麦克风阵列(特别是在混响半径之外)的点音频源或者存在高水平的例如漫射噪声的点音频源。而且,这种方法仅仅指示是否存在点音频源但不反映波束形成器是否已适应该点音频源。

图9的音频捕获装置包括点音频源检测器401,点音频源检测器307被设置为生成指示波束形成的音频输出信号是否包括点音频源的点音频源估计。点音频源检测器401不是确定麦克风信号的相关性,而是基于波束形成的音频输出信号和波束形成器305生成的噪声参考信号来确定点音频源估计。

点音频源检测器401包括第一变换器901,其被布置为通过对波束形成的音频输出信号应用频率变换来生成第一频域信号。具体地,波束形成的音频输出信号被分成时间段/间隔。每个时间段/区间包括一组样本,其例如通过fft变换为一组频域样本。因此,第一频域信号由频域样本表示,其中每个频域样本对应于特定时间区间(对应的处理帧)和特定频率间隔。在本领域中,每个这样的频率间隔和时间区间通常称为时间频率瓦片。因此,第一频域信号由针对多个时间频率瓦片中的每个的值表示,即由时间频率瓦片值表示。

点音频源检测器401还包括第二变换器903,其接收噪声参考信号。第二变换器903被布置为通过对噪声参考信号应用频率变换来生成第二频域信号。具体地,噪声参考信号被分成时间段/区间。每个时间段/区间包括一组样本,其例如通过fft变换为一组频域样本。因此,第二频域信号由针对多个时间频率瓦片中的每个的值表示,即由时间频率瓦片值表示。

图10示出了第一和第二变换单元901、903的可能实现方式的功能元件的具体示例。在该示例中,串行到并行转换器生成2b样本的交叠块(帧),然后通过快速傅里叶变换(fft)进行hanning窗口化并转换到频域。

波束形成的音频输出信号和噪声参考信号在下面分别称为z(n)和x(n),并且第一和第二频域信号称为向量z(m)(tk)和x(m)(tk)(每个向量包括针对给定处理/变换时间段/帧的所有m个频率瓦片值)。

在使用时,假设z(n)包括噪声和语音,而假设x(n)理想地仅包括噪声。此外,假设z(n)的噪声分量和x(n)是不相关的(假设分量在时间上是不相关的。然而,假设通常是平均幅度之间的关系,并且该关系可以由相干项表示,如稍后将描述的)。这样的假设在一些场景中倾向于是有效的;并且具体在许多实施例中,波束形成器305可以如图1中的示例中那样,包括自适应滤波器,其衰减或去除与噪声参考信号相关的波束形成的音频输出信号中的噪声。

在变换到频域之后,假设时间频率值的实部和虚部是高斯分布的。该假设通常是准确的,例如对于具有源自漫射声场的噪声、传感器噪声以及许多实际场景中经历的许多其他噪声源的场景。

第一变换器901和第二变换器903耦合到差异处理器905,所述差异处理器805被布置为针对各个瓦片频率生成时间频率瓦片差异量度。具体地,它可以针对由fft生成的每个频率分箱的当前帧生成差异量度。差异量度是根据波束形成的音频输出信号和噪声参考信号(即第一和第二频域信号)的相应时间频率瓦片值生成的。

具体地,生成给定时间频率瓦片的差异量度以反映第一频域信号(即波束形成的音频输出信号)的时间频率瓦片值的范数的第一单调函数与第二频域信号(噪声参考信号)的时间频率瓦片值的范数的第二单调函数之间的差异。第一和第二单调函数可以相同或者可以不同。

范数通常可以是l1范数或l2范数。在大多数实施例中,这可以将时间频率瓦片差异量度确定为反映第一频域信号值的值的幅值或功率的单调函数与第二频域信号值的幅值或功率的单调函数之间的差异的差异指示。

单调函数通常可以是单调递增的,但在一些实施例中可以都是单调递减的。

应当理解,可以在不同的实施例中使用不同的差异量度。例如,在一些实施例中,可以通过将第一和第二函数的结果进行相减来简单地确定差异量度。在其他实施例中,它们可以进行相除以生成指示差异等的比率。

因此,所述差异处理器905针对每个时间频率瓦片生成时间频率瓦片差异量度,其中差异量度指示分别在该频率处的波束形成的音频输出信号与噪声参考信号的相对水平。

差异处理器905被耦合到点音频源估计器907,所述点音频源器315响应于针对频率阈值之上的频率的时间频率瓦片差异量度的组合差异值而生成语音攻击估计。因此,所述点音频源估计器907通过组合针对给定频率上的频率的频率瓦片差异量度来生成点音频源估计。该组合可以具体地是在给定阈值频率上的所有时间频率瓦片差异量度的总和,或者例如包括频率相关加权的加权组合。

因此生成点音频源估计以反映在给定频率上波束形成的音频输出信号和噪声参考信号的水平之间的相对频率特定差异。阈值频率通常可以高于500hz。

发明人已经认识到,这样的量度提供了点音频源是否包括在波束形成的音频输出信号中的强烈指示。实际上,他们已经意识到频率特定的比较以及对较高频率的限制在实践中提供了对点音频源存在的改进指示。此外,他们已经意识到该估计适用于声学环境和传统方法不能提供准确结果的场景中的应用。具体地,即使对于远离麦克风阵列301(并且在混响半径之外)并且存在强漫射噪声的非主导点音频源,所描述的方法也可以提供有利且准确的点音频源检测。

在许多实施例中,点音频源估计器907可以被布置为生成点音频源估计以简单地指示是否已经检测到点音频源。具体地,点音频源估计器907可以被布置为组合差异值超过阈值而指示已经检测到波束形成的音频输出信号中的点音频源的存在。因此,如果生成的组合差异值指示差异值高于给定阈值,则认为已在波束形成的音频输出信号中检测到点音频源。如果组合差异值低于阈值,则认为在波束形成的音频输出信号中未检测到点音频源。

因此,所描述的方法可以提供对所生成的波束形成的音频输出信号是否包括点源的低复杂度检测。

应当理解,这种检测可以用于许多不同的应用和场景,并且实际上可以以许多不同的方式使用。

例如,如前所述,输出处理器306可以使用点音频源估计/检测来调整输出音频信号。作为一个简单的示例,除非在波束形成的音频输出信号中检测到点音频源,否则可以将输出静音。作为另一示例,可以响应于点音频源估计来调整输出处理器306的操作。例如,可以根据点音频源存在的可能性来调整噪声抑制。

在一些实施例中,可以简单地将点音频源估计与音频输出信号一起提供为输出信号。例如,在语音捕获系统中,点音频源可以被认为是语音存在估计,并且这可以与音频信号一起提供。语音识别器可以具有音频输出信号,并且可以例如被布置为执行语音识别以便检测语音命令。语音识别器可以被布置为仅在点音频源估计指示存在语音源时执行语音识别。

在下文中,将描述非常有利地确定点音频源估计的具体示例。

在该示例中,波束形成器305可以如先前所描述的那样适于聚焦在期望的音频源上,并且具体地关注语音源。它可以提供聚焦在源上的波束形成的音频输出信号,以及指示来自其他源的音频的噪声参考信号。波束形成的音频输出信号表示为z(n),噪声参考信号表示为x(n)。z(n)和x(n)两者都可能通常被噪声污染,例如特别是漫射噪声。尽管以下描述将集中于语音检测,但是应当理解,它通常适用于点音频源。

设z(tk,ωl)是对应于波束形成的音频输出信号(复)第一频域信号。这个信号由期望的语音信号zs(tk,ωl)和一个噪声信号zn(tk,ωl)的:

z(tk,ωl)=zs(tk,ωl)+zn(tk,ωl).

如果zn(tk,ωl)的幅值是已知的,则可以如下地导出变量d:

d(tk,ωl)=|z(tk,ωl)|-|zn(tk,ωl)|,

其表示语音幅值|zs(tk,ωl)|。

第二频域信号,即噪声参考信号x(n)的频域表示,可以由xn(tk,ωl)表示。

可以假设zn(n)和x(n)具有相等的方差,因为它们都表示漫反射噪声,并且通过加上(zn)或减去(xn)具有相等的方差的信号得到,因此zn(tk,ωl)和xn(tk,ωl)的实部和虚部也有相同的差异。因此,在上面的公式中|zn(tk,ωl)|可以由|xn(tk,ωl)|替代。

在没有语音的情况下(并且因此z(tk,ωl)=zn(tk,ωl)),这导致:

d(tk,ωl)=|zn(tk,ωl)|-|xn(tk,ωl)|,

其中,|zn(tk,ωl)|和|xn(tk,ωl)|将是瑞利分布的,因为实部和虚部是高斯分布且独立的。

两个随机变量的差值的平均值等于平均值的差值,因此上面的时间频率瓦片差异量度的平均值将为零:

e{d}=0.

两个随机信号差异的方差等于个体方差的和,因此:

var(d)=(4-π)σ2.

现在可以通过在(tk,ωl)平面中的l个独立值上对|zn(tk,ωl)|和|xn(tk,ωl)|进行平均来减少方差,给出:

平滑(低通滤波)不会改变平均值,因此我们有:

两个随机信号差异的方差等于个体方差的和,

平均因此减少了噪声的方差。

因此,当不存在语音时测量的时间频率瓦片差的平均值是零。但是,在存在语音的情况下,平均值会增加。具体地,在语音分量的l个值上进行平均将具有更小的影响,因为|zs(tk,ωl)|的所有元素都是将是正的并且

e{|zs(tk,ωl)|}>0.

因此,当存在语音时,上述时间频率瓦片差异量度的平均值将高于零:

可以通过以大于1的过减因子γ的形式应用设计参数来修改时间频率瓦片差异量度:

在这种情况下,当没有语音时平均值将低于零。但是,过减因子γ可以被选择为使得平均值在存在语音的情况下倾向于高于零。

为了生成点音频源估计,可以例如通过简单求和来组合多个时间频率瓦片的时间频率瓦片差异量度。此外,所述组合可以被布置为仅包括针对高于第一阈值的频率的时间频率瓦片,并且可能仅针对低于第二阈值的时间频率瓦片。

具体地,点音频源估计可以被生成为:

该点音频源估计可以指示来自期望语音源的波束形成的音频输出信号中的能量相对于噪声参考信号中的能量的量。因此,它可以提供用于区分语音与漫射噪声的特别有利的措施。具体地,可以认为仅在e(tk)为正时发现语音源存在。如果e(tk)为负的,则认为没有发现期望的语音源。

应当理解,所确定的点音频源估计不仅指示点音频源(或者具体地是语音源)是否存在于捕获环境中,而是具体地提供关于这是否确实存在于波束形成的音频输出信号中的指示,即它还提供波束形成器305是否已针对该信号源进行调整的指示。

实际上,如果波束形成器305没有完全聚焦在期望的发言者上,则语音信号的一部分将存在于噪声参考信号x(n)中。对于us7146012和us7602926的自适应波束形成器,可以表明麦克风信号中所需源的能量之和等于波束形成的音频输出信号中的能量与噪声参考信号中的能量之和。在波束没有完全聚焦的情况下,波束形成的音频输出信号中的能量将减小并且噪声参考中的能量将增加。这将导致与完全聚焦的波束形成器相比针对e(tk)显著较低的值。以这种方式,可以实现鲁棒的鉴别器。

应当理解,尽管以上描述举例说明了图9系统的方法的背景和益处,但是可以应用许多变化和修改而不偏离该方法。

应当理解,用于确定反映例如波束形成的音频输出信号和噪声参考信号的幅值之间的差异的差异量度的不同功能和方法可以在不同的实施例中使用。实际上,使用不同的范数或将不同的函数应用于范数可以提供具有不同属性的不同估计,但是仍然可以导致差异量度,其指示在给定时间频率瓦片中波束形成的音频输出信号与噪声参考信号之间的潜在差异。

因此,尽管先前描述的特定方法可以在许多实施例中提供特别有利的性能,但是取决于应用的特定特征,许多其他功能和方法可以在其他实施例中使用。

更一般地,差异量度可以被计算为:

d(tk,ωl)=f1(|z(tk,ωl)|)-f2(|x(tk,ωl)|)

其中f1(x)和f2(x)可以被选择为适合各个实施例的特定偏好和要求的任何单调函数。通常,函数f1(x)和f2(x)将是单调递增或递减函数。还应当理解,可以使用其他范数(例如,l2范数)而不仅仅使用幅值。

时间频率瓦片差异量度在上述示例中表示第一频域信号的时间频率瓦片值的幅值(或其他范数)的第一单调函数f1(x)与第二频域信号的时间频率瓦片值的幅值(或其他范数)的第二单调函数f2(x)之间的差异。在一些实施例中,第一和第二单调函数可以是不同的函数。然而,在大多数实施例中,两个函数将是相同的。

此外,函数f1(x)和f2(x)中的一个或两个可以取决于各种其他参数和度量,例如麦克风信号的总平均功率水平、频率等。

在许多实施例中,函数f1(x)和f2(x)中的一个或两个可以取决于其他频率瓦片的信号值,例如通过在其他瓦片上在频率和/或时间维度上对z(tk,ωl)、|z(tk,ωl)|、f1(|z(tk,ωl)|)、x(tk,ωl)、|x(tk,ωl)|、或f2(|x(tk,ωl)|)中的一个或多个进行平均(即,对于k和/或l的变化索引的值的平均值)。在许多实施例中,可以执行在时间和频率维度上延伸的邻域上的平均。基于先前提供的特定差异量度公式的具体示例将在后面描述,但是应当理解,相应的方法也可以应用于确定差异量度的其他算法或函数。

用于确定差异量度的可能功能的示例包括例如:

d(tk,ωl)=|z(tk,ωl)|α-γ·|x(tk,ωl)|β

其中,α和β是设计参数,其中,典型地α=β,例如在以下公式中:

d(tk,ωl)={|z(tk,ωl)|-γ.|x(t_k,ω_l)|}·σ(ωl)

其中,σ(ωl)是合适的加权函数,其用于提供差异量度和点音频源估计的所需谱特性。

应当理解,这些功能仅仅是示例性的,并且可以设想用于计算距离测量的许多其他公式和算法。

在上面的公式中,因子γ表示将差异量度向负值偏置的因子。应当理解,尽管具体示例通过应用于噪声参考信号时间频率瓦片的简单比例因子引入该偏置,但是许多其他方法也是可能的。

实际上,可以使用任何合适的方式来布置第一和第二函数f1(x)和f2(x)以便提供朝向负值的偏置。与前面的示例中一样,偏置具体地说是将生成差异量度的预期值的偏置,所述预期值在没有语音的情况下为负值。实际上,如果波束形成的音频输出信号和噪声参考信号都仅包含随机噪声(例如,样本值可以对称且随机地分布在平均值附近),则差异量度的预期值将是负的而不是零。在前面的具体示例中,这是通过过减因子γ实现的,其在没有语音时导致负值。

基于所描述的考虑的点音频源检测器401的示例在图11中提供。在该示例中,波束形成的音频输出信号和噪声参考信号被提供给第一变换器901和第二变换器903,其生成对应的第一和第二频域信号。

例如,通过计算例如时域信号的交叠hanning窗口化的块的短时傅立叶变换(stft)来生成频域信号。stft通常是时间和频率两者的函数,并且由两个自变量tk和ωl表示,其中,tk=kb为离散时间,并且其中,k为帧索引,b帧移位,并且ωl=lω0是(离散的)频率,其中,l为频率指数并且ω0表示基本频率间隔。

在该频域变换之后,因此提供了具有长度的由矢量z(m)(tk)和x(m)(tk)表示的频域信号。

频域变换在特定示例中被馈送到幅值单元1101、1103,其确定并输出两个信号的幅值,即它们生成值:

|z(m)(tk)|和|x(m)(tk)|。

在其他实施例中,可以使用其他范数,并且处理可以包括应用单调函数。

幅值单元1101、1103被耦合到低通滤波器1105,低通滤波器1005可以对幅值进行平滑。滤波/平滑可以在时域、频域中,或者通常有利地两者,即滤波可以在时间和频率维度上延伸。

经滤波的幅值信号/矢量也将被称为

滤波器1105被耦合到差异处理器905,所述差异处理器805被设置为确定时间频率瓦片差异量度。作为具体示例,所述差异处理器905可以生成时间频率瓦片差异量度,如下:

设计参数γn通常可以在1..2的范围内。

差异处理器905被耦合到点音频源估计器907,所述点音频源估计器315被馈送时间频率瓦片差异量度并且作为响应通过组合它们来前进到确定点音频源估计。

具体地,时间频率瓦片差异量度的总和针对ωl=ωlow与ωl=ωhigh之间的频率值可以被确定为:

在一些实施例中,可以从点音频源检测器401输出该值。在其他实施例中,可以将确定的值与阈值进行比较并且用于生成例如指示是否认为点音频源被检测到的二进制值。具体地,可以将值e(tk)与零阈值进行比较,即,如果该值是负的,则认为没有检测到点音频源,并且如果它是正的,则认为已经在波束形成的音频输出信号中检测到点音频源。

在该示例中,点音频源检测器401包括对波束形成的音频输出信号的幅值时间频率瓦片值以及噪声参考信号的幅值时间频率瓦片值的低通滤波/平均。

具体地,可以通过对相邻值执行平均来执行平滑。例如,可以将以下低通滤波应用于第一频域信号:

其中,(n=1)w是3*3矩阵,权重为1/9。应当理解,当然可以使用n的其他值,并且类似地,在其他实施例中可以使用不同的时间区间。实际上,执行滤波/平滑的大小可以变化,例如取决于频率(例如,对于较高频率而不是较低频率应用较大的内核)。

实际上,可以理解,可以通过在时间方向(所考虑的相邻时间帧的数量)和频率方向(所考虑的相邻频率区的数量)上应用具有合适扩展的内核来实现滤波,并且实际上例如,对于不同的频率或不同的信号特性,可以改变这样的内核的大小。

此外,可以改变上述公式中由w(m,n)表示的不同内核,并且这可以类似地是动态变化,例如对于不同频率或响应于信号属性。

滤波不仅降低了噪声,因此提供了更准确的估计,而且特别是增加了语音和噪声之间的差异。实际上,滤波对噪声的影响比对点音频源的影响大得多,导致针对时间频率瓦片差异量度生成更大的差异。

发现波束形成的音频输出信号和用于波束形成器(例如图1的波束形成器)的(一个或多个)噪声参考信号之间的相关性随着频率的增加而减少。因此,响应于仅针对高于阈值的频率的时间频率瓦片差异量度,生成点音频源估计。这导致增加的去相关,并且因此当存在语音时,波束形成的音频输出信号和噪声参考信号之间的差异更大。这导致在波束形成的音频输出信号中更准确地检测点音频源。

在许多实施例中,通过将点音频源估计限制为仅基于不低于500hz的频率的时间频率瓦片差异量度,或者在一些实施例中有利地不低于1khz或甚至2khz,已经发现了有利的性能。

然而,在一些应用或场景中,波束形成的音频输出信号和噪声参考信号之间的显著相关性可以保持甚至相对高的音频频率,并且实际上在一些场景中针对整个音频频带。

实际上,在理想的球面各向同性漫射噪声中,波束形成的音频输出信号和噪声参考信号将部分相关,结果是|zn(tk,ωl)|和|xn(tk,ωl)|的预期值不会是相等的,并且因此|zn(tk,ωl)|不能直接由|xn(tk,ωl)|取代。

通过观察理想的球面各向同性漫射噪声场的特征可以理解这一点。当两个麦克风放置在距离为d的这样的场中并且分别具有麦克风信号u(tk,ωl)和u2(tk,ωl)时,我们有:

e{|u1(tk,ω)|2}=e{|u2(tk,ω)|2}=2σ2

并且

其中,波数(c是声速)和σ2是u1(tk,ωl)和u2(tk,ωl)的实部和虚部的方差,其是高斯分布的。

假设波束形成器是简单的2麦克风延迟及求和波束形成器并形成宽边波束(即延迟为零)。

我们可以写出:

z(tk,ωl)=u1(tk,ωl)+u2(tk,ωl),

并且针对噪声参考信号:

x(tk,ωl)=u1(tk,ωl)-u2(tk,ωl).

对于我们得到的预期值,假设仅存在噪声:

类似地,对于e{|x(tk,ω)|2},我们得到:

e{|x(tk,ω)|2}=4σ2(1-sinc(kd)).

因此对于低频率,|zn(tk,ωl)|和|xn(tk,ωl)|是不相等的。

在一些实施例中,点音频源检测器401可以被布置为补偿这种相关性。特别地,点音频源检测器401可以被布置为确定噪声相干估计c(tk,ωl),其指示噪声参考信号的幅值与波束形成的音频输出信号的噪声分量的幅值之间的相关性。然后,时间频率瓦片差异量度的确定可以作为该相干性估计的函数。

实际上,在许多实施例中,点音频源检测器401可以被布置为基于以下预期幅值之间的比率来确定波束形成的音频输出信号和来自波束形成器的噪声参考信号的相干性:

其中,e{.}是期望算子。相干项指示波束形成的音频输出信号中的噪声分量的幅值与噪声参考信号的幅值之间的平均相关性。

由于c(tk,ωl)不依赖于麦克风的即时音频,而是取决于噪声声场的空间特性,即作为时间的函数c(tk,ωl)的变化远小于zn和xn的时间变化。

结果是,通过在没有语音的时时段期间的时间上对|zn(tk,ωl)|和|xn(tk,ωl)|平均可以相对准确地估计c(tk,ωl)。在us7602926中公开了这样做的方法,其具体描述了一种方法,其中不需要显式语音检测来确定c(tk,ωl)。

应当理解,可以使用用于确定噪声相干性估计c(tk,ωl)的任何合适的方法。例如,可以执行校准,其中,指示发言者不说话,其中,针对每个时间频率瓦片将第一和第二频域信号与噪声相关估计c(tk,ωl)进行比较,简单地将其确定为第一频域信号与第二频域信号的时间频率瓦片值的平均比率。对于理想的球面各向同性漫射噪声场,也可以按照上述方法解析地确定相干函数。

基于该估计,|zn(tk,ωl)|可以由c(tk,ωl)|xn(tk,ωl)|替换,而不是仅仅|xn(tk,ωl)|。这可能导致时间频率瓦片差异量度由下式给出:

因此,可以将先前时间频率瓦片差异量度视为上述差异量度的具体示例,其中相干函数被设置为恒定值1。

相干函数的使用可以允许该方法在较低频率下使用,包括在波束形成的音频输出信号与噪声参考信号之间存在相对强的相关性的频率。

应当理解,所述方法可以进一步有利地在许多实施例中还包括自适应消除器,其被布置为消除波束形成的音频输出信号的与至少一个噪声参考信号相关的信号分量。例如,类似于图1的示例,自适应滤波器可以将噪声参考信号作为输入,并且从波束形成的音频输出信号中减去输出。调整滤波器可以例如被布置为在不存在语音的时间区间期间最小化得到的信号的水平。

应当理解,为了清楚起见,以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而,显而易见的是,可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如,被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此,对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用,而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现,包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上,功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样,本发明可以在单个单元中实现,或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明,但是并不旨在将本发明限于这里阐述的特定形式。相反,本发明的范围仅受所附权利要求的限制。另外,尽管可能看起来结合特定实施例描述了特征,但是本领域技术人员将认识到,可以根据本发明组合所描述的实施例的各种特征。在权利要求中,术语“包括”不排除存在其他元件或步骤。

此外,尽管单独列出,但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外,尽管各个特征可以包括在不同的权利要求中,但是这些特征可以有利地组合,并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制,而是指示该特征在合适时同样适用于其他权利要求类别。此外,权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序,并且特别地,方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是,可以以任何合适的顺序来执行这些步骤。另外,单数引用不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚,不应被解释为以任何方式限制权利要求的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1