使用波束形成的音频捕获的制作方法

文档序号:18456862发布日期:2019-08-17 01:41阅读:177来源:国知局
使用波束形成的音频捕获的制作方法

本发明涉及使用波束形成的音频捕获,并且尤其涉及其。



背景技术:

在过去几十年中,捕获音频,尤其是语音,已变得越来越重要。实际上,捕获语音对于包括电信、电话会议、游戏、音频用户接口等在内的各种应用已变得越来越重要。然而,在许多场景和应用中的问题是所需的语音源通常不是环境中的唯一音频源。相反,在典型的音频环境中,存在正在由麦克风捕获许多其他音频/噪声源。许多语音捕获应用面临的一个关键问题是如何在嘈杂的环境中最好地提取语音。为了解决这个问题,已经提出了许多不同的噪声抑制方法。

实际上,例如免提语音通信系统中的研究是几十年来备受关注的话题。第一个可用商业系统专注于具有低背景噪音和短混响时间的环境中的专业(视频)会议系统。发现用于识别和提取期望音频源(例如期望的发言者)的特别有利的方法是基于来自麦克风阵列的信号的波束形成的使用。最初,麦克风阵列通常与聚焦固定波束一起使用,但后来自适应波束的使用变得更加流行。

在20世纪90年代后期,开始引入手机的免提系统。这些旨在在许多不同的环境中使用,包括混响房间和(较)高背景噪音水平。这种音频环境提供了显著更困难的挑战,并且特别是可能使对形成的波束的适配变得复杂或劣化。

最初,针对这样的环境的音频捕获研究主要关注回声消除,并且后来关注噪声抑制。基于波束形成的音频捕获系统的示例在图1中示出。在该示例中,多个麦克风101的阵列被耦合到波束形成器103,波束形成器103生成音频源信号z(n)和一个或多个噪声参考信号x(n)。

在一些实施例中,麦克风阵列101可以仅包括两个麦克风,但通常包括更高的数量。

波束形成器103可以具体地是自适应波束形成器,其中可以使用合适的调整算法将一个波束指向语音源。

例如,us7146012和us7602926公开了自适应波束形成器的示例,其关注于语音但是还提供包含(几乎)无语音的参考信号。

波束形成器通过在前向匹配滤波器中对接收信号进行滤波并将经滤波的输出相加而通过将麦克风信号的所需部分相干地相加来创建增强的输出信号z(n)。此外,输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有针对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而造成音频波束朝向主导信号被操纵。生成的误差信号x(n)可以被认为是噪声参考信号,其特别适合于对增强的输出信号z(n)执行额外的噪声降低。

主信号z(n)和参考信号x(n)通常都被噪声污染。在两个信号中的噪声是相干的情况下(例如,当存在干扰点噪声源时),可以使用自适应滤波器105来减少相干噪声。

为此目的,噪声参考信号x(n)被耦合到自适应滤波器105的输入,其中从音频源信号z(n)中减去输出以生成补偿信号r(n)。自适应滤波器105适于最小化补偿信号r(n)的功率,通常在期望音频源不活跃时(例如,当没有语音时)并且这导致对相干噪声的抑制。

经补偿的信号被馈送到后处理器107,后处理器107基于噪声参考信号x(n)对补偿信号r(n)执行降噪。具体地,后处理器107使用短时傅立叶变换将补偿信号r(n)和噪声参考信号x(n)变换到频率域。然后,对于每个频率分箱,通过减去x(ω)的幅值谱的缩放版本来修改r(ω)的幅值。将得到的复光谱被变换回时域,以产生噪声已被抑制的输出信号q(n)。这种谱减法技术首先在下文中描述:s.f.boll,“suppressionofacousticnoiseinspeechusingspectralsubtraction,”ieeetrans.acoustics,speechandsignalprocessing,第27卷,第113–120页,1979年4月。

在wo2015139938a中描述了基于各个时间频率瓦片(tile)中的音频源信号和噪声参考信号的相对能量的噪声抑制的具体示例。

在许多音频捕获系统中,可以应用能够独立地针对音频源进行调整的多个波束形成器。例如,为了在音频环境中跟踪两个不同的发言者,音频捕获装置可以包括两个独立的自适应波束形成器。

实际上,尽管图1的系统是在许多场景中提供了非常有效的操作和有利的性能,但是其并不是在所有场景中都是最佳的。实际上,尽管许多传统系统,包括图1的示例,当所需音频源/发言者在麦克风阵列的混响半径内时,即对于所需音频源的直接能量(优选地显著地)强于所需音频源的反射能量的应用,提供非常好的性能,当不是这种情况时,其倾向于提供较不理想的结果。在典型的环境中,已经发现发言者通常应该在麦克风阵列的1-1.5米范围内。

然而,强烈期望基于音频的免提解决方案、应用和系统,其中用户可能距离麦克风阵列更远。例如,这对于许多通信和许多语音控制系统和应用都是期望的。提供语音增强的系统包括针对这种情况的去混响和噪声抑制,在该领域中称为超级免提系统。

更详细地说,当处理额外的漫射噪声和混响半径之外的期望的发言者时,可能会出现以下问题:

·波束形成器可能经常具有在期望语音的回声和漫射背景噪声之间进行区分方面存在问题,从而导致语音失真。

·自适应波束形成器可以朝向期望的发言者更慢地收敛。在自适应波束尚未收敛的时间期间,参考信号中将存在语音泄漏,导致在该参考信号用于非静态噪声抑制和消除的情况下的语音失真。当有更多所需的源前后交谈时,问题就会增加。

处理较慢收敛自适应滤波器(由于背景噪声)的一种解决方案是补充这一点,其中若干固定波束瞄准不同的方向,如图2中所示。但是,这种方法特别针对以下场景开发:在混响半径内存在期望的音频源。其对于混响半径之外的音频源可能效率较低,并且在这种情况下可能经常导致不鲁棒的解决方案,尤其是在还存在声学漫射背景噪声的情况下。

使用波束形成器捕获音频的一个特别关键的因素是波束形成器/波束的调整。已经提出了各种波束形成调整算法。例如,对于语音捕获应用,调整算法可以寻求基于在语音周期期间最大化输出信号水平的准则来调整波束形成滤波器。

然而,当前的调整算法倾向于基于假设良性环境,其中波束形成器针对其进行调整的音频源是提供相对高的信噪比的主导音频源。实际上,大多数算法倾向于假设直接路径(以及可能的早期反射)主导后面的反射、混响尾部两者,以及实际上来自其他源的噪声(包括漫反射背景噪声)。

因此,这种适应方法在不满足这些假设的环境中往往是次优的,并且实际上倾向于为许多实际应用提供次优性能。

实际上,由于从源到设备的直接场的能量与反射语音和声学背景噪声的能量相比是小的,因此对于混响半径之外的源的音频捕获倾向于是困难的。尽管多波束系统可以改善这样的场景下的音频捕获,但是如果调整不可靠,则捕获将劣化,或者实际上通常根本不起作用。

当前的调整算法倾向于次优并且对于期望的音频源由后期反射、混响和/或噪声(尤其包括漫射噪声)主导的场景提供相对差的调整。当期望的音频源远离麦克风阵列时,通常可能发生这样的场景。

因此,在许多实际应用中,波束形成音频捕获系统的性能可能会因适应性能而降低或受到限制。

因此,改进的波束形成音频捕获方法将是有利的,并且特别地,提供改进的适应性的方法将是有利的。特别是,一种允许降低复杂性、增加灵活性、便于实现、降低成本、改进音频捕获、改善在混响半径之外捕获音频的适应性、降低噪声灵敏度、改进语音捕获、改进波束形成适应、改进控制和/或改进性能的方法将是有利的。



技术实现要素:

因此,本发明寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。

根据本发明的一个方面,提供了一种音频捕获装置,包括:第一波束形成器,其被布置为生成波束形成的音频输出信号;适配器,其用于调整第一波束形成器的波束形成参数;检测器,其用于检测波束形成的音频输出信号中的语音攻击(attack);以及控制器,其用于控制对波束形成参数的调整发生于响应于检测到语音攻击而确定的预定调整时间区间内。

在许多实施例中,本发明可以提供改进的音频捕获。特别地,通常可以实现针对混响环境和/或较大距离的音频源的改进的性能。该方法尤其可以在许多具有挑战性的音频环境中提供改进的语音捕获。在许多实施例中,所述方法可以提供可靠且准确的波束形成。该方法可以提供对例如噪声、混响和反射具有降低的灵敏度的音频捕获装置。特别是,通常可以实现在混响半径之外的语音源的改进的捕获。

该方法可以为经历具有显著后期反射或混响的房间响应的语音源提供改进的语音捕获。该方法可以改进针对经历不能通过有限持续时间的脉冲响应完全建模的房间响应语音源的适应性和音频捕获。特别地,在许多实施例中,通过将适配指向直接路径和早期反射分量同时忽略后期反射(未由波束形成滤波器建模),可以实现改进的性能。

特别是,在以下场景中通常可以提供改进的性能:波束形成器进行适应的音频源的直接路径不是主导的。通常可以实现包括高度漫射噪声、混响信号和/或后期反射的场景的改进的性能。通常可以实现针对在更远距离处、特别是在混响半径之外的点音频源的改进的性能。

该方法可以自动控制适配器以使波束形成参数适应于存在用于调整波束形成器的有利特性的调整时间区间。特别地,它可以自动控制系统以在语音信号将导致这种有利场景的时间期间调整波束形成参数,并且具体地,可以在来自语音源的期望信号分量相对于不需要的/干扰信号分量占优势的调整时间区间期间执行调整。

实际上,所述方法可以在主导信号分量(特别是早期反射)主要是波束形成器的波束形成滤波器可以建模的那些的调整时间区间期间控制调整,而在不期望的信号分量(无法由波束形成滤波器建模的来自语音源的后期反射/混响/漫射噪声)的时间区间期间不调整。实际上,通常当检测到语音攻击时,来自语音源的接收信号分量将由强的早期反射主导,而来自当前接收的后期反射/混响的信号分量将源自较早且更弱的语音部分。在许多实施例和场景中,对语音攻击的检测将指示来自给定语音源的接收信号分量由在攻击期间来自较强信号的早期反射以及来自在攻击之前的较弱信号的后期反射和混响构成的场景。这种情况可能存在给定的持续时间,直到后期反射也来自攻击期间或之后的强语音,此时调整时间区间通常终止(或者可能已经终止)。因此,在早期反射(包括直接路径)占主导的时间期间可以自动执行调整,因此即使声学房间响应针对后期反射具有更强的分量,调整将寻求适应早期反射而不是后期反射。

因此,所述方法可以在以下场景中提供显著改进的性能:后期反射和混响对于给定的语音源是重要的。特别是,对于混响半径之外的语音源,实现了改进的性能。该方法可以同时允许有效的调整,因为只要有利的情况发生,它就可以在整个语音段中执行。因此,调整不限于语音的开始,而是可以在一旦发生攻击时在整个语音中执行。

在一段时间的静默之后,语音攻击可能特别是语音的开始。然而,在许多实施例和场景中,语音攻击可以在语音期间发生。

与前一时段的平均语音水平相比,语音攻击可以是源语音水平的增加。前一时段通常可以在60至100毫秒的范围内。源语音水平的增加通常可以是突然增加,并且通常可以是显著增加。

在一些实施例中,当早期反射的信号水平主导后期混响和/或混响漫射噪声的信号水平时,可以认为发生语音攻击。

在许多实施例中,音频捕获装置可以包括输出单元,用于响应于波束形成的音频输出信号而生成音频输出信号。

波束形成器可以是滤波及组合波束形成器。滤波及组合波束形成器可以包括用于每个麦克风的波束形成滤波器以及用于组合波束形成滤波器的输出以生成波束形成的音频输出信号的组合器。滤波及组合波束形成器可以具体地包括具有多个系数的有限响应滤波器(fir)形式的波束形成滤波器。

在大多数实施例中,每个波束形成滤波器具有时域脉冲响应,其不是简单的狄拉克脉冲(对应于简单的延迟,并且因此对应于频域中的增益和相位偏移),而是具有通常在不小于2、5、10或甚至30毫秒的时间区间上延伸的脉冲响应。

预定调整时间区间可以具有预定持续时间,并且在许多实施例中可以具有预定最大持续时间。在许多实施例中,预定(最大)持续时间可以不小于5毫秒、10毫秒、20毫秒、50毫秒或100毫秒。在许多实施例中,预定(最大)持续时间可以不超过50毫秒、100毫秒、200毫秒、500毫秒或1秒。

根据本发明的任选特征,所述检测器被布置为响应于接收到的早期反射的信号水平相对于接收的后期反射的信号水平来检测语音攻击。

这可以提供用于检测适合于对调整进行控制的语音攻击的特别有利的方法。特别地,它可以通过将此指向可以由波束形成器的波束形成滤波器有效地建模的直接路径和早期反射来提供特别有利的调整。早期反射可以包括第一次反射(通常被认为是零级反射)。

当从语音源接收的由早期反射(包括直接路径)的信号分量主导在后期反射和/或混响/漫射噪声中接收的信号分量时,可以特别地检测并且认为发生语音攻击。在以下情况下来自早期反射(包括直接路径)的信号分量可以被认为是主导的:当它们的信号能量比在后期反射和/或混响/漫射噪声接收到的信号分量的信号能量更高(或在某些情况下高出3db、6db或甚至10db)时。在一些实施例中,早期反射可以被认为是如下的接收到的反射:其从直接路径延迟不超过波束形成滤波器的波束形成滤波器的脉冲响应的持续时间。来自语音源的后期反射(包括混响和漫射噪声)可以是以比脉冲响应的持续时间更高的延迟接收到的反射。在一些实施例中,早期反射可以例如被认为是相对于直接路径以低于给定(可能预定)阈值的延迟地接收到的反射。剩余的信号分量可以被认为是后期反射或混响。在不同的实施例中,可以使用不同的方法或考虑来区分早期(包括直接路径)和后期反射(包括混响/漫射噪声)。

根据本发明的任选的特征,所述第一波束形成器被布置为生成至少一个噪声参考信号;并且所述检测器被布置为响应于波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较来检测语音攻击。

这可以提供用于检测适合于对调整进行控制的语音攻击的特别有利的方法。特别地,它可以通过将此指向可以由波束形成器的波束形成滤波器有效地建模的直接路径和早期反射来提供特别有利的调整。早期反射可以包括第一次反射(通常被认为是零级反射)。

该方法可以具体地允许响应于波束形成的音频输出信号的信号水平相对于噪声参考信号的信号水平而生成语音攻击估计。例如,可以将其确定为它们之间的比率。

这种措施可以自动提供强的指示,指示麦克风阵列处的接收语音何时主要以可以由波束形成滤波器建模的信号分量(早期反射)为特征,以及麦克风阵列处的接收语音何时主要以不能通过波形建模的信号分量为特征。因此,调整可以集中在适应将集中于可以建模的信号分量的场景上。这可以为例如在混响半径之外的语音源提供显著改进的语音捕获。

基于波束形成的音频输出信号和噪声参考的比较的语音攻击估计可以提供语音攻击开始和语音结束攻击的良好指示。它特别地调试适合于识别语音攻击期间的场景,其中接收信号由早期反射主导,并且可以指示何时该场景被后期反射主导的场景替换。

在一些实施例中,控制器可以被布置为响应于波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较来所述确定所述预定调整时间区间的开始时间。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。它可以提供对所接收信号由早期反射(在波束形成滤波器的脉冲响应的持续时间内)主导的情况的开始的理想检测。

可以具体地响应于波束形成的音频输出信号的信号水平与噪声参考信号的信号水平之间的差异量度增加到阈值之上来确定开始时间。

根据本发明的任选的特征,所述控制器被配置为响应于波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较而终止所述预定调整时间区间。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。它可以提供对所接收信号由早期反射(在波束形成滤波器的脉冲响应的持续时间内)主导的情况的结束的理想检测。

控制器可以被布置为响应于波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较,在预定结束时间之前终止所述调整时间区间。在一些实施例中,调整时间区间可以使调整时间区间具有预定最大持续时间。然而,如果比较指示早期反射可能不是主导的,则控制器可以在预定最大持续时间之前继续终止调整时间区间(并因此终止调整)。

终止预定调整时间区间的时间可以具体地响应于波束形成的音频输出信号的信号水平与噪声参考信号的信号水平之间的差值量度低于阈值来确定。

所述控制器可以被布置为响应于所述比较而在预定持续时间之前终止调整时间区间。

根据本发明的任选的特征,所述第一波束形成器被布置为生成至少一个噪声参考信号,并且所述检测器包括:第一变换器,其用于根据所述波束形成的音频输出信号的频率变换来生成第一频域信号,所述第一频域信号由时间频率瓦片值表示;第二变换器,用于根据所述至少一个噪声参考信号的频率变换来生成第二频域信号,所述第二频域信号由时间频率瓦片值表示;差异处理器,其被配置为生成时间频率瓦片差异量度,所述时间频率瓦片差异量度指示第一频域信号的时间频率瓦片值的范数的第一单调函数与第二频域信号的时间频率瓦片值的范数的第二单调函数之间的差异;以及语音攻击估计器,其用于响应于针对高于频率阈值的频率的针对时间频率瓦片差异量度的组合差异值,生成语音攻击估计。

这可以在许多场景和应用中提供特别有利的语音捕获。已经发现以这种方式确定的语音攻击估计提供了适合波束形成器的适当时间的非常有利和高性能的指示。特别地可以实现包括高度漫射噪声、混响信号和/或后期反射的场景的改进的性能。通常可以实现对在更远距离处(特别是在混响半径之外)的源的改进的语音捕获。

语音攻击估计可以自动提供强的指示,指示麦克风阵列处的接收语音何时主要由可以由波束形成滤波器建模的信号分量(早期反射)为特征,以及麦克风阵列处的接收语音何时主要由不能通过波形建模的信号分量为特征。因此,调整可以集中在调整将集中于可以建模的信号分量的场景上。这可以为例如在混响半径之外的语音源提供显著改进的语音捕获。

所述第一单调函数和第二单调函数通常可以是单调递增函数,但在一些实施例中可以都是单调递减函数。

范数通常可以是l1或l2范数,即具体地,范数可以对应于时间频率瓦片值的幅值或功率量度。

时间频率瓦片可以具体地对应于一个时间片段/帧中的频率变换的一个二进制分箱。具体地,第一变换器和第二变换器可以使用块处理来变换第一信号和第二信号的相继段。时间频率瓦片可以对应于一个段/帧中的一组变换分箱(通常为一个)。

在许多实施例中,频率阈值不低于500hz。这可以进一步改善性能,并且例如在许多实施例和场景中可以确保在波束形成的音频输出信号值和用于确定点音频源估计的噪声参考信号值之间实现充分或改进的去相关。在一些实施例中,频率阈值有利地不低于1khz、1.5khz、2khz、3khz或甚至4khz。

根据本发明的任选的特征,检测器被布置为响应于组合差异值增加到阈值之上而确定预定调整时间区间的开始时间。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。它可以提供对所接收信号由早期反射(在波束形成滤波器的脉冲响应的持续时间内)主导的情况的结束和开始两者的理想检测。

根据本发明的任选的特征,所述检测器被布置为响应于组合差异值下降到阈值之下来确定终止调整时间区间。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的适应性能。它可以提供对所接收信号由早期反射(在波束形成滤波器的脉冲响应的持续时间内)主导的情况的结束的理想检测。

根据本发明的任选特征,所述检测器被布置为生成噪声相干性估计,所述噪声相干性估计指示波束形成的音频输出信号的幅值与至少一个噪声参考信号的幅值之间的相关性。所述第一单调函数和所述第二单调函数中的至少一个取决于噪声相干估计。

这可以进一步改善性能,并且具体地在许多实施例中可以特别地为具有较小麦克风间距离的麦克风阵列提供改进的性能。

当没有点音频源活跃时(例如,在没有语音的时间段期间,即在语音源不活跃时),噪声相干性估计可以具体地是对波束形成的音频输出信号的幅值与噪声参考信号的幅值之间的相关性的估计。在一些实施例中,噪声相干估计可以基于波束形成的音频输出信号和噪声参考信号、和/或第一频域信号和第二频域信号来确定。在一些实施例中,可以基于单独的校准或测量过程来生成噪声相干性估计。

根据本发明的任选特征,适配器被配置为响应于第一时间频率瓦片的时间频率瓦片差异量度,修改第一时间频率瓦片的波束形成参数的调整速率。

这可以进一步改善性能,并且可以具体地在许多实施例中提供改进的调整性能。

根据本发明的任选的特征,所述检测器被布置为对第一频域信号的时频瓦片值和第二频域信号的时频瓦片值的范数中的至少一个范数进行滤波;所述滤波包括在时间和频率两者上都不同的时间频率瓦片。

在许多实施例中,这可以提供改进的语音攻击估计。滤波可以是低通滤波,例如平均。

根据本发明的任选的特征,从语音攻击到预定调整时间区间结束的持续时间不超过100毫秒。

这可以在许多实施例中提供有利的性能。在一些实施例中,预定调整时间区间不超过10、15、20、30、50、150、250或500毫秒。

根据本发明的任选的特征,所述音频捕获装置还包括多个波束形成器,包括第一波束形成器;并且所述检测器用于为所述多个波束形成器中的每个波束形成器生成语音攻击估计;并且所述音频捕获装置还包括适配器,用于响应于语音攻击估计来对所述多个波束形成器中的至少一个进行调整。

这可以进一步改善性能,并且可以具体地在许多实施例中为利用多个波束形成器的系统提供改进的调整性能。特别地,它可以允许系统的整体性能提供对当前音频场景的准确和可靠的调整,同时提供对此的变化的快速适应(例如,当出现新的音频源时)。

根据本发明的任选的特征,所述多个波束形成器包括第一波束形成器,所述第一波束形成器被布置为生成波束形成的音频输出信号和至少一个噪声参考信号;以及多个约束波束形成器,其被耦合到麦克风阵列,并且每个被配置为生成约束波束形成的音频输出和至少一个约束噪声参考信号;并且其中,所述适配器被布置为调整针对约束波束形成器的约束波束形成参数,所述第一约束波束形成器经受包括来自以下组中的至少一个约束的准则:针对第一约束波束形成器的语音攻击估计指示针对第一约束波束形成器检测到语音攻击;并且针对第一约束波束形成器的语音攻击估计指示语音攻击的概率高于针对多个约束波束形成器中的任何其他约束波束形成器的语音攻击估计。

在许多实施例中,本发明可以提供改进的音频捕获。特别地,通常可以实现针对混响环境和/或音频源的改进的性能。该方法尤其可以在许多具有挑战性的音频环境中提供改进的语音捕获。在许多实施例中,所述方法可以提供可靠和精确的波束形成,同时提供对新的期望音频源的快速调整。该方法可以提供对例如噪声、混响和反射具有降低的灵敏度的音频捕获装置。特别是,通常可以实现在混响半径之外的音频源的改进捕获。

在一些实施例中,来自音频捕获装置的输出音频信号可以是响应于第一波束形成的音频输出和/或约束波束形成的音频输出而生成的。在一些实施例中,所述输出音频信号可以被生成为约束波束形成的音频输出的组合,并且具体地,可以使用对例如单个约束波束形成的音频输出进行选择的选择组合。

波束形成器的调整可以通过调整波束形成器的波束形成滤波器的滤波器参数来实现,例如通过调整滤波器系数。调整可以寻求优化(最大化或最小化)给定的调整参数,例如,当检测到音频源时最大化输出信号水平或者仅在检测到噪声时使其最小化。调整可以寻求修改波束形成滤波器以优化测量参数。

根据本发明的任选的特征,所述音频捕获装置还包括:波束差异处理器,用于确定所述多个约束波束形成器中的至少一个的差分量度,所述差分量度指示由所述第一波束形成器和所述多个约束波束形成器中的至少一个形成的波束之间的差异;并且其中,所述适配器被布置为利用约束来调整约束波束形成参数,所述约束是约束波束形成参数仅针对所述多个约束波束形成器中的如下的约束波束形成器进行调整:针对所述约束波束形成器已经确定差异量度满足相似性准则。

这可以在许多实施例中提供改进的性能。

差异量度可以反映第一波束形成器与生成差异量度的约束波束形成器的形成波束之间的差异,例如测量为波束方向之间的差异。在许多实施例中,差异量度可以指示来自第一波束形成器和约束波束形成器的波束形成的音频输出之间的差异。在一些实施例中,差异量度可以指示第一波束形成器和约束波束形成器的波束形成滤波器之间的差异。差异量度可以是距离量度,例如被确定为第一波束形成器与约束波束形成器的波束形成滤波器的系数的矢量之间的距离的量度。

应当理解,相似性度量可以等同于差异量度,因为通过提供与两个特征之间的相似性有关的信息的相似性量度固有地也提供与这些之间的差异相关的信息,并且反之亦然。

相似性准则可以例如包括差异量度指示差异低于给定度量的要求,例如,可能需要具有用于增加差异的增加值的差异量度低于阈值。

根据本发明的一个方面,提供了一种音频捕获方法,包括:波束形成器生成波束形成的音频输出信号;调整波束形成器的波束形成参数;检测波束形成的音频输出信号中的语音攻击;控制对波束形成参数的调整在响应于检测到语音攻击而确定的调整时间区间内发生。

参考下文描述的(一个或多个)实施例,本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例,其中,

图1图示了波束形成的音频捕获系统的元件的示例;

图2图示了由音频捕获系统形成的多个波束的示例;

图3图示了根据本发明一些实施例的音频捕获装置的元件的示例;

图4图示了滤波及加和波束形成器的元件的示例;

图5-7图示了从语音源接收声反射的示例;

图8图示了根据本发明一些实施例的音频捕获装置的语音攻击估计器元件的示例;

图9图示了根据本发明一些实施例的音频捕获装置的语音攻击估计器元件的频域变换器的示例;

图10图示了根据本发明一些实施例的音频捕获装置的语音攻击估计器元件的示例;并且

图11图示了根据本发明一些实施例的音频捕获装置的元件的示例。

具体实施方式

以下描述集中于适用于基于波束形成的语音捕获音频系统的本发明的实施例,但是应当理解,所述方法适用于用于音频捕获的许多其他系统和场景。

图3图示了根据本发明一些实施例的音频捕获装置的一些元件的示例。

所述音频捕获装置包括麦克风阵列301,麦克风阵列301包括多个麦克风,所述麦克风被布置为捕获环境中的音频。

所述麦克风阵列301被耦合到波束形成器303(通常直接或经由回声消除器、放大器、数模转换器等,如本领域技术人员所熟知的)。

波束形成器303被布置为组合来自麦克风阵列301的信号,使得生成麦克风阵列301的有效定向音频灵敏度。因此,波束形成器303生成输出信号,称为波束形成的音频输出或波束形成的音频输出信号,其对应于环境中的音频的选择性捕获。波束形成器303是自适应波束形成器,并且可以通过设置波束形成器303的波束形成操作的参数(称为波束形成参数)来控制方向性,并且具体地通过设置波束形成滤波器的滤波器参数(通常是系数)来控制方向性。

因此,波束形成器303是自适应波束形成器,其中可以通过调整波束形成操作的参数来控制方向性。

波束形成器303具体地是滤波及组合(或者具体地,在大多数实施例中是滤波及加和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号,并且经滤波的输出可以组合,通常通过简单地相加在一起。

图4图示了基于仅包括两个麦克风401的麦克风阵列的滤波及加和波束形成器的简化示例。在该示例中,每个麦克风耦合到波束形成滤波器403、405,其输出在加法器407中求和以生成波束形成的音频输出信号。波束形成滤波器403、405具有脉冲响应f1和f2,其适于在给定方向上形成波束。应当理解,通常麦克风阵列将包括两个以上的麦克风,并且通过还包括用于每个麦克风的波束形成滤波器,图4的示例很容易扩展到更多麦克风。

波束形成器303可以包括用于波束形成的这种滤波及加和架构(例如,在us7146012和us7602926的波束形成器中)。应当理解,在许多实施例中,麦克风阵列301可以包括多于两个麦克风。此外,应当理解,波束形成器303包括用于如前所述地调整波束形成滤波器的功能。此外,在特定示例中,波束形成器303不仅生成波束形成的音频输出信号,还生成噪声参考信号。

在大多数实施例中,每个波束形成滤波器具有时域脉冲响应,其不是简单的狄拉克脉冲(对应于简单的延迟,并且因此对应于频域中的增益和相位偏移),而是具有通常在不小于2、5、10或甚至30毫秒的时间区间上延伸的脉冲响应。

脉冲响应通常可以通过波束形成滤波器是具有多个系数的fir(有限脉冲响应)滤波器来实现。在这样的实施例中,波束形成器303可以通过调整滤波器系数来调整波束形成。在许多实施例中,fir滤波器可以具有对应于固定时间偏移(通常是采样时间偏移)的系数,其中通过调整系数值来实现调整。在其他实施例中,波束形成滤波器通常可以具有显著更少的系数(例如,仅两个或三个),但是这些(也)的定时是可调整的。

具有扩展的脉冲响应而不是简单的可变延迟(或简单的频域增益/相位调整)的波束形成滤波器的特别的优点在于它允许波束形成器303不仅仅针对最强的、通常是直接的信号分量进行调整。相反,它允许波束形成器303进行调整以包括通常对应于反射的另外的信号路径。因此,所述方法允许在大多数真实环境中改进的性能,并且特别地允许改善反射和/或混响环境和/或针对远离麦克风阵列301的音频源的性能。

调整波束形成器性能的一个非常关键的因素是指向性的调整(通常称为波束,但是应该理解,扩展的脉冲响应导致该方向性不仅具有空间分量而且具有时间分量,即波束形成为针对反射等的时间变化)。

在图3的系统中,波束形成器303包括适配器305,适配器305被布置为适应第一波束形成器的波束形成参数。具体地,其被布置为调整波束形成滤波器的系数以提供给定(空间和时间)波束。

应当理解,可以在不同的实施例中使用不同的调整算法,并且技术人员将知道各种优化参数。例如,适配器305可以调整波束形成参数以最大化波束形成器303的输出信号值。作为具体示例,考虑波束形成器,其中利用前向匹配滤波器对接收的麦克风信号进行滤波,并且添加经滤波的输出。输出信号在后向自适应滤波器中被滤波,所述后向自适应滤波器具有对前向滤波器的共轭滤波器响应(在频域中对应于时域中的时间反转脉冲响应)。误差信号被生成为输入信号与后向自适应滤波器的输出之间的差异,并且滤波器的系数适于使误差信号最小化,从而得到最大输出功率。这可以还固有地根据误差信号生成噪声参考信号。这种方法的进一步细节可以在us7146012和us7602926中找到。

应注意,诸如us7146012和us7602926的方法基于调整是基于来自波束形成器的音频源信号z(n)和一个或多个噪声参考信号x(n),并且应该理解,相同的方法可以针对图3的波束形成器使用。

实际上,波束形成器303可以具体地是对应于图1中所示的并且在us7146012和us7602926中公开的波束形成器的波束形成器。

波束形成器303被布置为生成波束形成的音频输出信号和噪声参考信号。

波束形成器303可以被布置为调整波束形成以捕获期望的音频源并且在波束形成的音频输出信号中表示该波束形成。它还可以生成噪声参考信号以提供剩余捕获音频的估计,即,它指示在没有期望音频源的情况下将捕获的噪声。

在如在us7146012和us7602926中公开的波束形成器303是波束形成器的实施例中的示例中,可以如先前所描述的那样生成噪声参考,例如通过直接使用误差信号。然而,应当理解,在其他实施例中可以使用其他方法。例如,在一些实施例中,噪声参考可以被生成为来自(例如,全向)麦克风的麦克风信号减去所生成的波束形成的音频输出信号,或者甚至是麦克风信号本身,以防该噪声参考麦克风远离其他麦克风并不包含所需的语音。作为另一示例,波束形成器303可以被布置为生成在生成波束形成的音频输出信号的波束的最大值的方向上具有零的第二波束,并且噪声参考可以被生成为由该互补的波束捕获的音频。

在一些实施例中,诸如图1的噪声抑制之类的后处理可以通过输出处理器305将图1所示的输出处理器305应用于音频捕获装置的输出。这可以改善例如语音通信的性能。在这样的后处理中,可以包括非线性操作,尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

调整性能对波束形成音频捕获系统的性能至关重要。然而,尽管典型的传统方法在理论和理想音频环境中表现良好,但在许多实际场景中它们往往效率和准确性要低得多。

实际上,针对增加的噪声调整趋于劣化,并且特别地,如果在不存在活跃源时执行调整,则在该时间区间期间的调整将适应噪声而不是期望的音频源。为了解决这个问题,已经开发了这样的系统,其中仅在存在音频源时执行调整。具体地,对于语音捕获系统,已经开发了一种系统,其检测语音的存在并且仅在语音的时段期间调整。

然而,尽管这种方法可以在期望的音频源不活跃时解决调整问题,但是它并未解决期望音频源活跃期间的任何潜在问题。

实际上,如发明人所实现的,声学环境的特性可能显著影响调整和整体性能,尤其是当使用扩展脉冲响应滤波器时,其寻求估计房间脉冲响应的较大间隔。特别地,发明人已经意识到在直接路径不占优势的情况下,调整可能经常是次优的。实际上,在音频源在混响半径之外的情况下,接收信号倾向于由后期反射和混响主导。这使得调整变得复杂化和劣化,并且实际上甚至可能在许多场景中甚至阻止针对正确音频源的调整,即使这是活跃的。

图3的系统包括调整控制,其可以在许多场景中提供改进的调整性能,从而改善语音捕获。

音频捕获装置具体包括检测器307,检测器307被布置为检测波束形成的音频输出信号中的语音攻击。

语音攻击可能是与前一时期的平均语音水平相比语音水平的突然增加。语音句子由音素的序列组成,其中每个音素具有特定的强度或声压,并且平均长度在60到100毫秒之间。音素强度的差异可能非常大。元音,特别是扩展元音可以具有相对强的水平。停止辅音可以比前一个元音低20db到30db。

当水平比例如前一音素的水平强4db、10db或甚至20db时,这种元音的开始可以被认为是语音攻击。

因此,相对于前一时段的平均语音水平,语音水平(来自语音源,即源语音水平的增加)的增加被称为语音攻击。前一时段通常可以在该范围内从60到100毫秒。源语音水平的增加通常可以是突然增加,并且通常可以是显著增加。例如,在不超过例如5毫秒、10毫秒或20毫秒的时段内增加例如语音水平的至少3db、4db、10db或更多,可以被认为是语音攻击。

在一些实施例中,当早期反射的信号水平主导后期混响和/或混响漫射噪声的信号水平时,可以认为发生语音攻击。

在一些场景中,检测器307可以具体地检测语音开始,即语音攻击(语音攻击)的具体示例可以是语音的开始。因此,检测器307可以被布置为检测在一段时间的静默(其中在波束形成的音频输出信号上没有检测到语音内容)之后何时开始语音。

检测器307被耦合到控制器309,控制器309被耦合到适配器305和检测器307,并且被布置为控制波束形成参数的调整,使得调整发生在调整时间区间中,所述调整时间区间根据检测到的语音攻击来确定。因此,响应于检测到语音节段的开始来确定调整时间区间。调整时间区间可以具体地在检测到语音攻击时开始(此后也称为语音攻击检测)并且例如具有预定持续时间。

因此,控制器309被布置为开始波束形成器303的调整,并且显然还被布置为停止调整。因此,即使语音片段延伸超出调整时间区间的持续时间,控制器309也被设置为停止波束形成器303的调整。因此,控制器309被布置为在语音段期间结束调整时间区间。因此,控制器309被布置为控制调整,以便在新语音区段开始时通常以相对短的时间区间发生。在许多实施例中,调整可以仅在这样的调整时间区间期间发生。

在所描述的示例中,调整时间区间是预定调整时间区间,其具有预定持续时间或预定最大持续时间。因此,调整时间区间将具有预定最大持续时间,并且因此将在该预定最大持续时间之后终止调整。在一些实施例中,控制器可以额外地被布置为在预定最大持续时间之前终止调整时间区间,例如,如果检测到不适合于调整的条件(具体地,如果检测到早期反射不是主导的)。

与连续执行调整(或当期望语音源有效时连续执行)的传统方法不同,控制器309限制在语音段的初始间隔中执行调整。该方法可以具体地控制调整,使得其在一段时间内执行,其中,语音攻击的具体特征可用于调整波束形成器303。它可以特别关注调整初始间隔,其中,相对于后面的反射和混响,直接路径或早期反射比在语音段的后期时间区间期间更重要。发明人不仅实现了这种效果,而且还发现它为波束形成语音捕获系统提供了显著改进的调整,并且特别是对于通过脉冲响应建模声学房间响应具有相当长的持续时间但不是足以包括所有可能的反射的系统。

通过首先描述发明人针对以下场景实现的效果,将进一步阐明该方法:只要语音是活跃的,波束形成器就会持续调整。

波束形成器的波束形成滤波器将适于尝试模拟从音频源到相应麦克风的声学房间响应。如果期望的源在混响半径之外,则由直接场和第一次反射引起的声场中的能量与由其余反射(包括混响)引起的能量相比相对较低。因此,当在语音段期间连续地调整波束形成器时,调整通常可以针对后期反射,因为这导致更大的总捕获语音能量。因此,不是针对直接路径和第一反射进行调整,而是调整通常可以针对后期反射。

这可以通过考虑从发言者到两个不同麦克风的两个简化的房间响应来说明,如图5中所示。

在该示例中,房间响应包括在同一时间td到达麦克风的直接场/路径贡献。此外,第一反射在相同的时间到达麦克风(tr1)。此外,非常强的反射在不同的时间tr2和tr3到达麦克风。如果在这种场景下认为波束形成滤波器具有等于tn的自适应滤波器的滤波器长度,则期望自适应滤波器模拟第一次反射附近的时间,即,期望脉冲响应为反映τs与τs+tn之间的时间,其中τs=td-δ并且将δ选择为足够大以能够处理在麦克风处不同时到达的直接场贡献。

然而,在这种情况下,调整通常会使波束形成滤波器的脉冲响应主要由强反射决定,并且因此它们将调整为对延迟(tr3-tr2)建模。

这可以从考虑图4的两个麦克风示例来理解,其中,通过对正向匹配滤波器中的麦克风信号进行滤波并添加经滤波的输出来获得波束形成输出信号z。在调整过程中获得前向匹配滤波器,其中在对滤波器系数的功率约束下,z的输出功率最大化。这将导致波束形成滤波器的脉冲响应适合于看起来如图6中所示的那些,然而,期望的结果将是图7中的那些。因此,不是在同时响应将导致直接路径和第一反射在滤波之后相干地相加的期望结果,而是图6的经调整的滤波器将导致它们被衰减。

然而,在图3的系统的方法中,检测语音攻击,并且具体地,可以检测来自直接路径的第一信号的到达。此时,可以初始化调整时间区间,即波束形成器303可以开始调整。因此,在图5中,控制器309可以控制适配器305以在时间t=td开始调整。然后,它可以在调整时间区间期间继续更新波束形成器(具体地,最大化输出功率),所述调整时间区间可以具有持续时间tn,其中,tn可以是预定的或具有预定最大值,因此调整将仅基于在该持续时间内接收的信号来调整。如果该持续时间保持足够短,则调整将不包括大的后期反射到达的时间,并且因此调整可以基于较弱的早期反射(以及直接路径)。这将在特定示例中允许波束形成滤波器适于具有图7中的期望脉冲响应。

因此,所述方法基于以下见解:当波束形成器的调整在语音攻击期间而不是在衰减期间时实现改进的调整时,因为这允许系统模拟弱的直接路径和第一反射。

等效地,对于语音攻击,信号水平通常非常快速地增加并且大量增加。这导致在麦克风阵列处接收的直接路径和(其他)早期反射源自高水平语音信号的时间,而当前通过后期反射或作为混响/漫射噪声接收的信号分量源自攻击,并且从而对应于低信号水平。这可能导致早期反射主导接收信号,即使房间响应表现出比早期反射更强的后期反射/混响。因此,系统可以检测到这种情况并且在发生这种情况时特别地调整波束形成器。

因此,所述方法扩展了在调整时将所需音频源与来自其他音频源的噪声分离的考虑或期望,并且还可以在从期望音频源接收的不同信号分量之间(特别是在早期信号分量与后期信号分量之间)引入区分。因此,在该方法中,漫射声部分实际上也可以源自期望的声源,因此即使在没有背景噪声或其他音频源的情况下,所述方法提供了优于典型的传统系统的改进的调整,所述传统系统仅在语音存在时简单地调整。即使当直接路径和早期反射分量比后期反射弱得多时,所述方法也允许改进的调整,并且实际上系统被布置为限制针对语音攻击的调整,其中直接路径/早期反射可能仍然由于后期反射没有足够的时间到达麦克风阵列而占主导。

应当理解,可以在不同的实施例中使用用于检测语音攻击的不同方法。实际上,在语音信号相对于其他音频源(包括漫射背景噪声)占优势的一些实施例中,检测器307可以简单地是水平检测器,其检测信号水平何时增加到阈值以上(例如,设置得足够低以检测第一直接路径的到达)。

然而,在大多数实施例中,可能存在显著的后期反射和/或噪声,并且可以有利地应用更复杂的检测。

例如,在一些实施例中,检测器307可以被布置为响应于接收的早期反射的信号水平相对于接收的后期反射的信号水平而直接检测语音攻击。实际上,在语音攻击的初始部分期间,早期反射可以主导后期反射,而在语音段本身期间,后期反射可能是主导的。

这种效果不仅可以在集中于早期反射占主导的时间的调整中利用,而且在一些实施例中也可以直接用于检测语音攻击。

作为示例,检测器307可以确定波束形成的音频信号的包络,然后对该包络信号进行高通滤波。语音中的攻击导致包络急剧上升,而后期混响导致包络根据由混响时间确定的指数缓慢衰减。高通滤波去除了包络信号的衰减部分,并且保留攻击。如果高通滤波包络信号超过阈值并超过后期混响,则可以认为这对应于语音攻击的检测。

作为另一个示例,两个低通滤波器可以用具有比另一个具有更低截止频率的一个低通滤波器对接收到的(语音)信号进行滤波(并且因此在更长的持续时间内“平均”)。如果发生语音攻击,语音的信号水平可能会突然大幅增加。这种增加将导致较高频率截止滤波器的输出水平比较低频率截止滤波器的输出水平更快地增加。实际上,在这种情况下,较高频率的截止滤波器可以表示后攻击信号,并且因此表示攻击的早期反射,而较低频率的截止滤波器仍然可以反映攻击前的总信号,其可以由后期反射主导。

因此,可以通过比较滤波器输出来检测语音攻击并且当较高频率截止滤波器的输出超过较低频率截止滤波器的输出达给定量时,指示语音攻击。

因而,通过评估表示早期和后期反射(或早期和后期反射的组合,即总信号)的信号,可以检测针对调整特别有利的情况。这些不仅可以在静默时段之后的语音开始时检测到,而且还可以在正常连续语音期间确定。实际上,可以检测它们,使得只要直接和早期反射主导接收的语音信号就可以调整它们。当新的语音部分比以前的部分声音大得多时,直接和早期反射可能主导来自先前部分的后期反射的较弱部分。这被检测到并且然后执行调整,从而改善针对房间响应的期望部分(即早期响应)的调整。

在图3的示例中所示,波束形成器303被布置为生成波束形成的音频输出信号和一个或多个噪声参考信号。在这样的实施例中,检测器307可以被布置为响应于指示波束形成的音频输出信号的信号水平(并且具体地,功率)相对于指示至少一个噪声参考信号的信号水平(并且具体地,功率)的比较来检测语音攻击。因此,可以将波束形成的音频输出信号的信号水平与噪声参考信号的信号水平进行比较,并且语音检测的攻击可以基于该比较。例如,如果波束形成的音频输出信号的信号水平超过噪声参考信号的信号水平达给定的裕量,则可以认为这对应于语音攻击的检测。

实际上,经过一段时间的静默(或者如果后期反射/混响主导的恒定语音水平),在波束的方向捕获的音频和在其他方向捕获的音频通常会非常相似(可能在针对波束的宽度的补偿之后)。例如,如果漫射噪声在空间上均匀分布,则信号水平的唯一差异将归因于波束窄并且因此可以对此进行补偿。

然而,如果波束已经聚焦在期望的语音源上(即,已经执行了一些调整),则语音攻击将导致波束形成器303捕获相应的增加的信号水平并且波束形成的音频输出的信号的信号水平将增加。此外,由于波束形成滤波器适用于直接路径和早期反射,并且这些在初始攻击期间都是从攻击接收到的,所以从语音源接收的大部分能量将被捕获,并且因此波束形成的音频输出信号的信号水平将被将增加,而噪声参考信号的信号水平将保持不变。因此,波束形成的音频输出信号相对于噪声参考信号的信号水平的信号水平将显著增加,并且这可以被检测为语音攻击。

此外,在一定延迟之后,来自攻击的后期反射将到达麦克风阵列。但是,如果它们的延迟时间超过波束形成滤波器的脉冲响应的持续时间(即它们是房间响应的反射,延迟超过波束形成滤波器的脉冲响应的持续时间),它们将不是相干地组合成波束形成的音频输出信号,但结果也有助于噪声参考信号。因此,波束形成的音频输出信号的信号水平将不再高于噪声参考信号的信号水平(假设后面的反射更强),结果检测器307将不再检测到语音攻击。

因此,这种检测器307可以具体地检测语音攻击,与仅仅存在语音不同。此外,这可以在语音段期间连续地进行,并且实际上该方法可以允许自动检测导致早期反射主导后期反射的任何语音攻击。这可以提供非常有利的方法。

实际上,在一些实施例中,可以响应于检测器307输出来确定调整时间区间的开始和结束。具体地,当检测器307指示已经检测到语音攻击(例如,信号水平的差异超过阈值)并且持续到检测器307没有检测到语音攻击(例如,信号水平的差异不再超过阈值)时,可以启动调整时间区间。在一些实施例中,可以确定调整时间区间的结束在预定持续时间之后发生。在其他实施例中,结束时间可以被确定为在预定最大持续时间之后,或者如果检测到特定状况则调整时间区间可以被确定为在此之前。

在下文中,将描述用于检测语音攻击的特定且特别有利的方法。该方法基于将波束形成的音频输出信号与噪声参考信号进行比较的方法,但是将基于各个时间频率瓦片中的比较。已经发现该方法提供了非常鲁棒的检测,并且在许多实际场景中提供了非常有利的性能,包括特别是在音频源在混响半径之外并且存在大量噪声的情况下。

在该方法中,图3的检测器307包括如图8中所示的元件。具体地,检测器307包括被布置为生成指示语音攻击是否正在发生的语音攻击估计的检测器307。检测器307基于波束形成的音频输出信号和波束形成器303生成的噪声参考信号来确定该估计。

检测器307包括第一变换器801,其被布置为通过对波束形成的音频输出信号应用频率变换来生成第一频域信号。具体地,波束形成的音频输出信号被分成时间段/间隔。每个时间段/区间包括一组样本,其例如通过fft变换为一组频域样本。因此,第一频域信号由频域样本表示,其中每个频域样本对应于特定时间区间(对应的处理帧)和特定频率间隔。在本领域中,每个这样的频率间隔和时间区间通常称为时间频率瓦片。因此,第一频域信号由针对多个时间频率瓦片中的每个的值表示,即由时间频率瓦片值表示。

检测器307还包括第二变换器803,其接收噪声参考信号。第二变换器803被布置为通过对噪声参考信号应用频率变换来生成第二频域信号。具体地,噪声参考信号被分成时间段/区间。每个时间段/区间包括一组样本,其例如通过fft变换为一组频域样本。因此,第二频域信号由针对多个时间频率瓦片中的每个的值表示,即由时间频率瓦片值表示。

图9示出了第一和第二变换单元801、803的可能实现方式的功能元件的具体示例。在该示例中,串行到并行转换器生成2b样本的交叠块(帧),然后通过快速傅里叶变换(fft)进行hanning窗口化并转换到频域。

波束形成的音频输出信号和噪声参考信号在下面分别称为z(n)和x(n),并且第一和第二频域信号称为向量z(m)(tk)和x(m)(tk)(每个向量包括针对给定处理/变换时间段/帧的所有m个频率瓦片值)。

在许多实施例中,波束形成器303可以如图1中的示例中那样,包括自适应滤波器,其衰减或去除与噪声参考信号相关的波束形成的音频输出信号中的噪声。

在变换到频域之后,假设时间频率值的实部和虚部是高斯分布的。该假设通常是准确的,例如对于具有源自漫射声场的噪声、传感器噪声以及许多实际场景中经历的许多其他噪声源的场景。

第一变换器801和第二变换器803耦合到差异处理器805,差异处理器805被布置为针对各个瓦片频率生成时间频率瓦片差异量度。具体地,它可以针对由fft生成的每个频率分箱的当前帧生成差异量度。差异量度是根据波束形成的音频输出信号和噪声参考信号(即第一和第二频域信号)的相应时间频率瓦片值生成的。

具体地,生成给定时间频率瓦片的差异量度以反映第一频域信号(即波束形成的音频输出信号)的时间频率瓦片值的范数的第一单调函数与第二频域信号(噪声参考信号)的时间频率瓦片值的范数的第二单调函数之间的差异。第一和第二单调函数可以相同或者可以不同。

范数通常可以是l1范数或l2范数。在大多数实施例中,这可以将时间频率瓦片差异量度确定为反映第一频域信号值的值的幅值或功率的单调函数与第二频域信号值的幅值或功率的单调函数之间的差异的差异指示。

单调函数通常可以是单调递增的,但在一些实施例中可以都是单调递减的。

应当理解,可以在不同的实施例中使用不同的差异量度。例如,在一些实施例中,可以通过将第一和第二函数的结果进行相减来简单地确定差异量度。在其他实施例中,它们可以进行相除以生成指示差异等的比率。

因此,差异处理器805针对每个时间频率瓦片生成时间频率瓦片差异量度,其中差异量度指示分别在该频率处的波束形成音频输出信号与噪声参考信号的相对水平。

差异处理器805被耦合到语音攻击估计器807,所述语音攻击估计器807响应于针对频率阈值之上的频率的时间频率瓦片差异量度的组合差异值而生成语音攻击估计。因此,语音攻击估计器807通过组合给定频率上的频率的频率瓦片差异量度来生成语音攻击估计。该组合可以具体地是在给定阈值频率上的所有时间频率瓦片差异量度的总和,或者例如包括频率相关加权的加权组合。

因此生成语音攻击估计以反映在给定频率上波束形成的音频输出信号和噪声参考信号的水平之间的相对频率特定差异。阈值频率通常可以高于500hz。

发明人已经意识到这种措施提供了是否发生语音攻击的强烈指示。实际上,他们已经意识到频率特定比较以及对较高频率的限制实际上提供了对语音攻击存在的改进指示。此外,他们已经意识到该估计适用于声学环境和传统方法不能提供准确结果的场景中的应用。具体地,即使对于远离麦克风阵列301(并且在混响半径之外)并且存在强漫射噪声的非主导语音源,所描述的方法也可以提供有利且准确的语音攻击检测。

在许多实施例中,语音攻击估计器807可以被布置为生成语音攻击估计以简单地指示是否已经检测到语音攻击。具体地,语音攻击估计器807可以被布置为指示已经检测到组合差异值超过阈值的语音攻击。因此,如果生成的组合差异值指示差异值高于给定阈值,则认为已在波束形成音频输出信号中检测到语音攻击。如果组合差异值低于阈值,则认为在波束形成的音频输出信号中未检测到语音攻击。

因此,所描述的方法可以提供语音攻击或攻击的低复杂度检测。特别地,注意到语音攻击估计可以表现出先前描述的特性,即在静音或恒定信号水平周期期间,估计将是低的;在攻击时间期间,当接收到早期反射而不是后期反射时,估计将是高的;并且在接收到攻击的强后期反射(在脉冲响应间隔之外)之后的攻击,估计将是低的。因此,所述方法允许语音攻击估计直接指示语音攻击正在发生而不是仅仅检测语音的存在。已经发现特定方法在实践中提供非常有效的性能,并且实际上已经发现针对混响间隔之外的语音源以及在存在由后期反射和回响引起的强噪声的情况下提供有利的检测。

在下文中,将描述非常有利地确定语音攻击估计的具体示例。

在该示例中,波束形成器303可以如先前所描述的那样适于聚焦在期望的语音源上。它可以提供聚焦在源上的波束形成的音频输出信号,以及指示后期混响和可能来自其他源的音频的噪声参考信号。波束形成的音频输出信号表示为z(n),噪声参考信号表示为x(n)。z(n)和x(n)都可能被后期混响和可能的噪声污染,这两者都可以被建模为漫射噪声。

设z(tk,ωl)是对应于波束形成的音频输出信号(复)第一频域信号。这个信号由所需的(直接反射加第一反射)的语音信号zs(tk,ωl)和混响语音信号zr(tk,ωl)(其包括不能由波束形成器的波束形成滤波器进行建模的混响和后期反射):

z(tk,ωl)=zs(tk,ωl)+zr(tk,ωl).

如果zr(tk,ωl)的幅值是已知的,则可以如下地导出变量d:

d(tk,ωl)=|z(tk,ωl)|-|zr(tk,ωl)|,

其表示语音幅值|zs(tk,ωl)|。

第二频域信号,即噪声参考信号x(n)的频域表示,可以由xn(tk,ωl)表示。

可以假设zr(n)和x(n)具有相等的方差,因为它们都表示漫反射噪声,并且通过加上(zr)或减去(x)具有相等的方差的信号得到,因此zr(tk,ωl)和xn(tk,ωl)的实部和虚部也有相同的差异。因此,在上面的公式中|zr(tk,ωl)|可以由|xn(tk,ωl)|替代。

在没有语音的情况下(并且因此z(tk,ωl)=zr(tk,ωl)),这导致:

d(tk,ωl)=|zr(tk,ωl)|-|xn(tk,ωl)|,

其中,|zr(tk,ωl)|和|xn(tk,ωl)|将是瑞利分布的,因为实部和虚部是高斯分布且独立的。

两个随机变量的差值的平均值等于平均值的差值,因此上面的时间频率瓦片差异量度的平均值将为零:

e{d}=0.

两个随机信号差异的方差等于个体方差的和,因此:

var(d)=(4-π)σ2.

现在可以通过在(tk,ωl)平面中的l个独立值上对|zr(tk,ωl)|和|xn(tk,ωl)|进行平均来减少方差,给出:

平滑(低通滤波)不会改变平均值,因此我们有:

两个随机信号差异的方差等于个体方差的和,

平均因此减少了噪声的方差。

因此,当不存在语音时测量的时间频率瓦片差的平均值是零。但是,在存在语音(直接加第一次反射)的情况下,平均值将增加。具体地,在语音分量的l个值上进行平均将具有更小的影响,因为|zs(tk,ωl)|的所有元素都是将是正的并且

e{|zs(tk,ωl)|}>0.

因此,当存在语音时,上述时间频率瓦片差异量度的平均值将高于零:

可以通过以大于1的过减因子γ的形式应用设计参数来修改时间频率瓦片差异量度:

在这种情况下,平均值当没有(直接加第一次反射)语音存在时以及实际上当存在语音但是后期主导反射以波束形成滤波器的脉冲响应的长度/持续时间之外的延迟到达时,将低于零。但是,过减因子γ可以被选择为使得平均值在语音攻击的情况下,往往会高于零。

为了生成语音攻击估计,可以例如通过简单求和来组合多个时间频率瓦片的时间频率瓦片差异量度。此外,所述组合可以被布置为仅包括针对高于第一阈值的频率的时间频率瓦片,并且可能仅针对低于第二阈值的时间频率瓦片。

具体而言,语音攻击估计可以被生成为:

该语音攻击估计可以指示来自在波束形成滤波器脉冲响应的窗口内接收的期望语音源的波束形成的音频输出信号中的能量相对于噪声参考信号中的能量的量。因此,它可以提供用于区分语音攻击的特别有利的措施。具体而言,如果e(tk)为正,则可以认为存在语音攻击。如果e(tk)为负,则认为没有找到期望的语音源或者脉冲响应窗口之外的后期反射占主导。应当理解,在其他实施例中可以使用除零以外的其他阈值。

应当理解,尽管以上描述举例说明了图3系统的方法的背景和益处,但是可以应用许多变化和修改而不偏离该方法。

应当理解,用于确定反映例如波束形成的音频输出信号和噪声参考信号的幅值之间的差异的差异量度的不同功能和方法可以在不同的实施例中使用。实际上,使用不同的范数或将不同的函数应用于范数可以提供具有不同属性的不同估计,但是仍然可以导致差异量度,其指示在给定时间频率瓦片中波束形成的音频输出信号与噪声参考信号之间的潜在差异。

因此,尽管先前描述的特定方法可以在许多实施例中提供特别有利的性能,但是取决于应用的特定特征,许多其他功能和方法可以在其他实施例中使用。

更一般地,差异量度可以被计算为:

d(tk,ωl)=f1(|z(tk,ωl)|)-f2(|x(tk,ωl)|)

其中,f1(x)和f2(x)可以被选择为适合各个实施例的特定偏好和要求的任何单调函数。通常,函数f1(x)和f2(x)将是单调递增或递减函数。还应当理解,可以使用其他范数(例如,l2范数)而不仅仅使用幅值。

时间频率瓦片差异量度在上述示例中表示第一频域信号的时间频率瓦片值的幅值(或其他范数)的第一单调函数f1(x)与第二频域信号的时间频率瓦片值的幅值(或其他范数)的第二单调函数f2(x)之间的差异。在一些实施例中,第一和第二单调函数可以是不同的函数。然而,在大多数实施例中,两个函数将是相同的。

此外,函数f1(x)和f2(x)中的一个或两个可以取决于各种其他参数和度量,例如麦克风信号的总平均功率水平、频率等。

在许多实施例中,函数f1(x)和f2(x)中的一个或两个可以取决于其他频率瓦片的信号值,例如通过在其他瓦片上在频率和/或时间维度上对z(tk,ωl)、|z(tk,ωl)|、f1(|z(tk,ωl)|)、x(tk,ωl)、|x(tk,ωl)|、或f2(|x(tk,ωl)|)中的一个或多个进行平均(即,对于k和/或l的变化索引的值的平均值)。在许多实施例中,可以执行在时间和频率维度上延伸的邻域上的平均。基于先前提供的特定差异量度公式的具体示例将在后面描述,但是应当理解,相应的方法也可以应用于确定差异量度的其他算法或函数。

用于确定差异量度的可能功能的示例包括例如:

d(tk,ωl)=|z(tk,ωl)|α-γ·|x(tk,ωl)|β

其中,α和β是设计参数,其中,典型地α=β,例如在以下公式中:

d(tk,ωl)={|z(tk,ωl)|-γ·|x(t_k,ω_l)|}·σ(ωl)

其中,σ(ωl)是合适的加权函数,其用于提供差值测量和语音攻击估计的所需谱特性。

应当理解,这些函数仅仅是示例性的,并且可以设想用于计算距离测量的许多其他公式和算法。

在上面的公式中,因子γ表示将差异量度向负值偏置的因素。应当理解,尽管具体示例通过应用于噪声参考信号时间频率瓦片的简单比例因子引入该偏置,但是许多其他方法也是可能的。

实际上,可以使用任何合适的方式来布置第一和第二函数f1(x)和f2(x)以便提供朝向负值的偏置。与前面的示例中一样,所述偏置具体地说是将生成差异量度的预期值的偏置,如果没有语音或者语音主要通过(太)后期的反射被接收到则是负的。实际上,如果波束形成的音频输出信号和噪声参考信号都仅包含随机噪声(例如,样本值可以对称且随机地分布在平均值附近),则差异量度的预期值将是负的而不是零。在前面的具体示例中,这是通过过减因子γ实现的,其在没有语音攻击时导致负值。

基于所描述的考虑的检测器307的示例在图10中提供。在该示例中,波束形成的音频输出信号和噪声参考信号被提供给第一变换器801和第二变换器803,其生成对应的第一和第二频域信号。

例如,通过计算例如时域信号的交叠hanning窗口块的短时傅立叶变换(stft)来生成频域信号。stft通常是时间和频率两者的函数,并且由两个自变量tk和ωl表示,其中,tk=kb为离散时间,并且其中,k为帧索引,b帧移位,并且ωl=lω0是(离散的)频率,其中,l为频率指数并且ω0表示基本频率间隔。

在该频域变换之后,因此提供了具有长度的由矢量z(m)(tk)和x(m)(tk)表示的频域信号。

频域变换在特定示例中被馈送到幅值单元1001、1003,其确定并输出两个信号的幅值,即它们生成值:

|z(m)(tk)|和|x(m)(tk)|。

在其他实施例中,可以使用其他范数,并且处理可以包括应用单调函数。

幅值单元1001、1003被耦合到低通滤波器1005,低通滤波器1005可以对幅值进行平滑。滤波/平滑可以在时域、频域中,或者通常有利地两者,即滤波可以在时间和频率维度上延伸。

经滤波的幅值信号/矢量也将被称为

滤波器1005被耦合到差异处理器805,所述差异处理器805被设置为确定时间频率瓦片差异量度。作为具体示例,所述差异处理器805可以将时间频率瓦片差异量度生成为:

设计参数γn通常可以在1..2的范围内。

差异处理器805被耦合到语音攻击估计器807,所述语音攻击估计器807被馈送时间频率瓦片差异量度并且作为响应通过组合它们来前进到确定语音攻击估计。

具体地,时间频率瓦片差异量度的总和针对ωl=ωlow与ωl=ωhigh之间的频率值可以被确定为:

在一些实施例中,所述值可以从检测器307输出。在其他实施例中,可以将确定的值与阈值进行比较并且用于生成例如指示是否认为语音攻击被检测到的二进制值。具体地,可以将值e(tk)与零阈值进行比较,即,如果该值是负的,则认为没有检测到语音攻击,并且如果它是正的,则认为已经在波束形成的音频输出信号中检测到语音攻击。

在该示例中,检测器307包括对波束形成的音频输出信号的幅值时间频率瓦片值以及噪声参考信号的幅值时间频率瓦片值的低通滤波/平均。

具体地,可以通过对相邻值执行平均来执行平滑。例如,可以将以下低通滤波应用于第一频域信号:

其中,(n=1)w是3*3矩阵,权重为1/9。应当理解,当然可以使用n的其他值,并且类似地,在其他实施例中可以使用不同的时间区间。实际上,执行滤波/平滑的大小可以变化,例如取决于频率(例如,对于较高频率而不是较低频率应用较大的内核)。

实际上,可以理解,可以通过在时间方向(所考虑的相邻时间帧的数量)和频率方向(所考虑的相邻频率区的数量)上应用具有合适扩展的内核来实现滤波,并且实际上例如,对于不同的频率或不同的信号特性,可以改变这样的内核的大小。

此外,可以改变上述公式中由w(m,n)表示的不同内核,并且这可以类似地是动态变化,例如对于不同频率或响应于信号属性。

滤波不仅减少了后期混响和噪声,因此提供了更准确的估计,但它特别增加了(直接加第一次反射)语音和后期混响和噪声之间的区别。实际上,滤波对后期混响和噪声的影响比直接路径和点音频源的第一次反射具有明显更高的影响,导致为时间频率瓦片差异量度生成更大的差异。

发现波束形成的音频输出信号和用于波束形成器(例如图1的波束形成器)的(一个或多个)噪声参考信号之间的相关性随着频率的增加而减少。因此,响应于仅针对高于阈值的频率的时间频率瓦片差异量度,生成语音攻击估计。这导致增加的去相关,并且因此当存在语音时,波束形成的音频输出信号和噪声参考信号之间的差异更大。这导致在波束形成的音频输出信号中更准确地检测点音频源。

在许多实施例中,通过将语音攻击估计限制为仅基于不低于500hz的频率的时间频率瓦片差异量度,或者在一些实施例中有利地不低于1khz或甚至2khz,已经发现了有利的性能。

然而,在一些应用或场景中,波束形成的音频输出信号和噪声参考信号之间的显著相关性可以保持甚至相对高的音频频率,并且实际上在一些场景中针对整个音频频带。

实际上,在理想的球面各向同性漫射声场中,波束形成的音频输出信号和噪声参考信号将部分相关,结果是|zr(tk,ωl)|和|xn(tk,ωl)|的预期值不会是相等的,并且因此|zr(tk,ωl)|不能直接由|xn(tk,ωl)|取代。

通过观察理想的球面各向同性漫射声场的特征可以理解这一点。当两个麦克风放置在距离为d的这样的场中并且分别具有麦克风信号u(tk,ωl)和u2(tk,ωl)时,我们有:

e{|u1(tk,ω)|2}=e{|u2(tk,ω)|2}=2σ2

并且

其中,波数(c是声速)和σ2是u1(tk,ωl)和u2(tk,ωl)的实部和虚部的方差,其是高斯分布的。

假设波束形成器是简单的2麦克风延迟及求和波束形成器并形成宽边波束(即延迟为零)。

我们可以写出:

z(tk,ωl)=u1(tk,ωl)+u2(tk,ωl),

并且针对噪声参考信号:

x(tk,ωl)=u1(tk,ωl)-u2(tk,ωl).

对于我们得到的预期值,假设只有迟到的混响和可能的噪声:

类似地,对于e{|x(tk,ω)|2},我们得到:

e{|x(tk,ω)|2}=4σ2(1-sinc(kd)).

因此对于低频率,|zr(tk,ωl)|和|xn(tk,ωl)|是不相等的。

在一些实施例中,检测器307可以被布置为补偿这种相关性。特别地,检测器307可以被布置为确定噪声相干估计c(tk,ωl),其指示噪声参考信号的幅值与波束形成的音频输出信号的噪声分量的幅值之间的相关性。然后,时间频率瓦片差异量度的确定可以作为该相干性估计的函数。

实际上,在许多实施例中,检测器307可以被布置为基于预期幅值之间的比率来确定波束形成的音频输出信号和来自波束形成器的噪声参考信号的相干性:

其中,e{.}是期望算子。相干项指示波束形成的音频输出信号中的噪声分量的幅值与参考噪声参考信号的幅值之间的平均相关性。

由于c(tk,ωl)不依赖于麦克风的即时音频,而是取决于噪声声场的空间特性,即作为时间的函数c(tk,ωl)的变化远小于zr和xn的时间变化。

结果是,通过在没有直接语音和第一次反射的时时段期间的时间上对|zr(tk,ωl)|和|xn(tk,ωl)|平均可以相对准确地估计c(tk,ωl)。在us7602926中公开了这样做的方法,其具体描述了一种方法,其中不需要显式语音检测来确定c(tk,ωl)。

应当理解,可以使用用于确定噪声相干性估计c(tk,ωl)的任何合适的方法。例如,对于每个时间频率瓦片,其中,e(tk)不超过特定阈值,指示没有直接语音和早期反射可用/主导,可以比较第一和第二频域信号并且噪声相关估计c(tk,ωl)可以简单地被确定为第一频域信号和第二频域信号的时频瓦片值的平均比率。

对于理想的球面各向同性漫射噪声场,也可以按照上述方法解析地确定相干函数。

基于该估计,|zr(tk,ωl)|可以由c(tk,ωl)|xn(tk,ωl)|替换,而不是仅仅|xn(tk,ωl)|。这可能导致时间频率瓦片差异量度由下式给出:

因此,可以将先前时间频率瓦片差异量度视为上述差异量度的具体示例,其中相干函数被设置为恒定值1。

相干函数的使用可以允许该方法在较低频率下使用,包括在波束形成的音频输出信号与噪声参考信号之间存在相对强的相关性的频率。

应当理解,所述方法可以进一步有利地在许多实施例中还包括自适应消除器,其被布置为消除波束形成的音频输出信号的与至少一个噪声参考信号相关的信号分量。例如,类似于图1的示例,自适应滤波器可以将噪声参考信号作为输入,并且从波束形成的音频输出信号中减去输出。调整滤波器可以例如被布置为在不存在语音的时间区间期间最小化得到的信号的水平。

因此,以下洞悉得到了特定语音攻击估计的发展:在语音攻击期间,与噪声参考相比,来自波束形成器的波束形成的音频输出信号将是大的并且当接收到后期并且可能是主导的反射时噪声参考将(相对于输出信号)将增加(并且更后期反射可以被建模为来自漫射声场)。实际上,所生成的量度e(tk)提供了关于直接场和第一反射是否主导麦克风信号(e(tk)为正)还是剩余的后期反射和/或漫反射是否主导麦克风信号(e(tk)为负)的良好指示。它还允许波束形成器在典型语音段期间的频繁间隔期间进行调整。实际上,它不仅限于在暂停之后仅在语音段的最开始时进行调整,而是允许在语音段期间发生攻击时进行调整。

应当理解,用于调整波束形成器和用于确定波束形成滤波器的合适更新值的许多不同方法是已知的,并且图3(或11)的适配器可以使用任何合适的方法。

还应当理解,可以使用不同的调整步长,从而可以使用不同的调整速率或带宽。实际上,在许多实施例中,可以有利地使调整步长自适应并且可以动态地改变调整步长。

实际上,已经发现,在许多实施例中,对于调整速率针对个体时间频率瓦片来单独调整可能是有利的(对于恒定的更新频率可以对应于波束形成参数的变化的大小、幅值或比例)。实际上,发明人已经意识到,针对给定时间频率瓦片响应于该瓦片的时间频率瓦片差异来适配调整速率是特别有利的。具体地,调整速率或大小可以通过因子来缩放,所述因子取决于该时间频率瓦片的差异量度。这种方法的效果是它通常会使调整频率相关。

作为特定示例,调整步长可以乘以频率相关的增益函数,其在0和1之间变化并且取决于各个时间频率瓦片的差异量度。可能的增益函数具体为:

该增益因子具有如下的特征:针对g(tk,ωl)相比是小的情况,将接近一。对于大于|z(tk,ωl)|,g(tk,ωl)的情况将为零。因此,调整频率依赖地被适配为反映由波束形成的音频输出信号的能量水平与噪声参考信号的比较生成的语音攻击的指示。

应当理解,在不同实施例中,调整时间区间的持续时间可以不同。例如,在一些实施例中,调整时间区间可以在检测到语音攻击时开始,并且可以持续固定的时间段。在这种情况下,可能希望调整持续时间足够长以包括整个语音累积,但优选地,当强后期反射变为主导时不包括调整。

在许多实施例中,期望调整时间区间不会太长,并且实际上已经发现,经常在低于100毫秒的持续时间内发现改善的性能。

该方法可以通过(虚构)示例进一步说明。首先,如果认为语音信号由单个狄拉克脉冲组成,则在麦克风处接收的信号是房间脉冲响应。如果假设波束形成滤波器可以对第一个例如16毫秒(即波束形成滤波器脉冲响应长度为16毫秒)进行建模,那么在第一个声音到达麦克风之后,只有前16毫秒的声音才有用,因为只其可以由过滤器进行建模。因此,希望在16毫秒后停止调整。

然而,如果假设语音信号包括3个后续的狄拉克脉冲成,每个脉冲间隔16毫秒,但幅值为1、1000、1000000(即大量增加),则在前16毫秒内在第一声音到达之后(通常对应于第一狄拉克脉冲的直接路径),所有接收的声音都是有用的并且值得针对其进行调整。在16毫秒之后接收来自第一脉冲的不期望的声音,即从第一狄拉克脉冲接收不能被建模的后期反射。然而,此外,从第二狄拉克脉冲接收有用且相关的声音(即,这仍然可以由波束形成滤波器建模,因为它在可以建模的房间响应的前16毫秒内)。此外,来自第二狄拉克脉冲的这种声音更强,因此比来自第一狄拉克脉冲的剩余声音更有用。因此仍然需要调整波束形成器303。针对第三狄拉克脉冲重复此,即在32毫秒之后,从第一和第二狄拉克脉冲接收不能建模的后期反射,但同时从第三狄拉克脉冲接收可建模的强信号。因此,在这种情况下,希望在48毫秒后停止调整。

因此,在有效发生三种不同语音攻击的情况下(由虚构狄拉克脉冲示出),可以在每次检测到语音攻击时开始调整时间区间。实际上,在每个调整时间区间终止之前,检测到新的语音攻击并且延长调整时间区间以反映来自先前语音的后期反射由新的攻击的早期反射主导(由于由攻击造成的更高的信号水平)。

在一些实施例中,调整时间区间可以被布置为具有脉冲响应的持续时间的50%与200%之间的持续时间。在许多实施例中,调整时间区间可以被布置为具有不超过脉冲响应的持续时间的持续时间。特别地,在一些实施例中,可以将这种持续时间设置为预定。例如,在上述特定场景中,脉冲响应可以具有16毫秒的持续时间,并且调整时间区间的持续时间可以设置为16毫秒。在该示例中,这将导致三个连续的16毫秒的调整时间区间,导致期望的48毫秒的总体调整持续时间。

在许多实施例中,控制器309可以被布置为响应于波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较来确定调整时间区间的结束时间。例如,如果波束形成的音频输出信号的信号功率相对于噪声参考信号的信号功率的比率或差值低于给定水平,则这可以如前所述指示无法建模的后期反射正在变为主导。因此,控制器可以终止调整。因此,在一些实施例中,如果检测到特定条件发生,则控制器309可以被布置为在预定最大持续时间之前终止调整时间区间。该条件可以具体地通过波束形成的音频输出信号的信号水平相对于至少一个噪声参考信号的信号水平的比较来确定。

作为特定示例,控制器309可以连续监视上面导出的值e(tk),并且如果这低于给定阈值(通常为零),则可以终止调整。

因此,实际上可以提供一种系统,其中,控制器连续监视语音攻击估计,例如特别是e(tk),因为这会由于语音的非平稳性而变化。如果语音攻击估计增加到阈值以上,则控制器309可以开始调整,并且当它低于阈值时,它可以停止适应。以这种方式,系统可以自动控制波束形成器303的适配,以仅在可以建模的直接路径和早期反射主导不能建模的后期反射和混响的时间期间发生。

在下文中,将描述音频捕获装置,其中语音攻击检测器307与其他描述的元件互通,以提供特别有利的音频捕获系统。特别是,所述方法非常适合在嘈杂和混响环境中捕获音频源。它为以下应用提供了特别有利的性能:期望的音频源可以在混响半径之外,并且由麦克风捕获的音频可以由漫射噪声和晚期反射或混响主导。

图11图示了根据本发明一些实施例的这样的音频捕获装置的元件的示例。图3中系统的元件和方法可以对应于图11中的系统,如下所述。

音频捕获装置包括麦克风阵列1101,其可以直接对应于图3的麦克风阵列301。在该示例中,麦克风阵列1101被耦合到任选的回声消除器1103,其可以消除源自与麦克风信号中的回声线性相关的声源(其参考信号可用)的回声。该源可以例如是扬声器。可以将调整滤波器与参考信号一起用作输入,并且从麦克风信号中减去输出以生成回波补偿信号。这可以针对每个单独的麦克风重复进行。

应当理解,回声消除器1103是任选的,并且在许多实施例中可以简单地省略。

麦克风阵列1101通常直接或通过回声消除器1103(以及可能通过放大器,数模转换器等)耦合到第一波束形成器1105,如本领域技术人员所熟知的。第一波束形成器1105可以直接对应于图3的波束形成器303。

第一波束形成器1105被布置为组合来自麦克风阵列1101的信号,使得生成麦克风阵列1101的有效定向音频灵敏度。因此,第一波束形成器1105生成输出信号,称为第一波束形成的音频输出,其对应于环境中的音频的选择性捕获。第一波束形成器1105是自适应波束形成器,并且可以通过设置第一波束形成器1105的波束形成操作的参数(称为第一波束形成参数)来控制方向性。

第一波束形成器1105耦合到第一适配器1107,第一适配器1107被布置为调整第一波束形成参数。因此,第一适配器1107被布置为适应第一波束形成器1105的参数,使得可以操纵波束。

另外,音频捕获装置包括多个约束波束形成器1109、1111,每个约束波束形成器1109、1111被布置为组合来自麦克风阵列1101的信号,使得生成麦克风阵列1101的有效定向音频灵敏度。因此,约束波束形成器1109、1111中的每个被布置为生成音频输出,称为约束波束形成的音频输出,其对应于环境中的音频的选择性捕获。类似地,对于第一波束形成器1105,约束波束形成器1109、1111是自适应波束形成器,其中每个约束波束形成器1109、1111的方向性可以通过设置约束波束形成器1109、1111的参数(称为约束波束形成参数)来控制。

因此,音频捕获装置包括第二适配器1113,第二适配器1113被布置为适应多个约束波束形成器的约束波束形成参数,从而调整由这些波束形成的波束。

图3的波束形成器303可以直接对应于图11的第一约束波束形成器1109。还应当理解,剩余的约束波束形成器1111可以对应于第一波束形成器1109,并且可以被认为是对其的实例化。

因此,第一波束形成器1105和约束波束形成器1109、1111都是自适应波束形成器,可以针对其动态地调整所形成的实际波束。具体地,波束形成器1105、1109、1111是滤波及组合(或者具体地,在大多数实施例中是滤波及求和)波束形成器。波束形成滤波器可以被应用到每个麦克风信号,并且经滤波的输出可以组合,通常通过简单地相加在一起。

应当理解,图3的波束形成器303可以包括对应于波束形成器1105、1109、1111中的任何一个,并且实际上对于图3的波束形成器303提供的评论同样适用于图11的第一波束形成器1105和约束波束形成器1109、1111中的任何一个。

类似地,第二适配器513可以直接对应于图3的适配器305。

在许多实施例中,第一波束形成器1105和约束波束形成器1109、1111的结构和实现方式可以是相同的,例如波束形成滤波器可以具有相同数量的系数等的fir滤波器结构。

然而,第一波束形成器1105和约束波束形成器1109、1111的操作和参数将是不同的,并且特别地,约束波束形成器1109、1111以第一波束形成器1105不经受的方式被约束。具体地,约束波束形成器1109、1111的调整将不同于第一波束形成器1105的调整,并且将特别地受到一些约束。

具体地,约束波束形成器1109、1111受到以下约束:调整(波束形成滤波器参数的更新)被约束到满足准则的情况,而第一波束形成器1105将被允许即使在不满足这样的准则时也能够调整。实际上,在许多实施例中,可以允许第一适配器1107始终调整波束形成滤波器,其不受第一波束形成器1105捕获的音频的(或任何约束波束形成器1109、1111的)任何属性的约束。此外,第二适配器1113被布置为仅在响应于语音攻击的检测而确定的调整时间区间期间进行调整。

稍后将更详细地描述用于调整约束波束形成器1109、1111的准则。

在许多实施例中,第一波束形成器1105的调整速率高于约束波束形成器1109、1111的调整速率。因此,在许多实施例中,第一适配器1107可以被布置为比第二适配器1113更快地适应变化,因此第一波束形成器1105可以比约束波束形成器1109、1111更新得更快。这可以例如通过对第一波束形成器1105具有比对约束波束形成器1109、1111更高的截止频率的被最大化或最小化的值(例如,输出信号的信号水平或误差信号的幅值)的低通滤波来实现。作为另一示例,对于第一波束形成器1105,波束形成参数(具体地,波束形成滤波器系数)的每次更新的最大改变可以比对于约束波束形成器1109、1111更高。

因此,在该系统中,通过不受该约束影响的自由运行的更快的调整波束形成器来补充仅在满足特定标准时缓慢地调整多个聚焦(调整约束)波束形成器。与自由运行的波束形成器相比,较慢且聚焦的波束形成器通常将提供比特定音频环境更慢但更准确和可靠的适应,然而自由运行的波束形成器通常能够在更大的参数间隔上快速调整。

在图11的系统中,这些波束形成器协同使用以提供改进的性能,这将在后面更详细地描述。

第一波束形成器1105和约束波束形成器1109、1111耦合到输出处理器1115,输出处理器1115接收来自波束形成器1105、1109、1111的波束形成的音频输出信号。从音频捕获装置生成的确切输出将取决于各个实施例的特定偏好和要求。实际上,在一些实施例中,来自音频捕获装置的输出可以简单地包括来自波束形成器1105、1109、1111的音频输出信号。

在许多实施例中,来自输出处理器1115的输出信号被生成为来自波束形成器1105、1109、1111的音频输出信号的组合。实际上,在一些实施例中,可以执行简单的选择组合,例如,选择音频输出信号,其中信噪比(或者简单地信号水平)是最高的。

因此,输出处理器1115的输出选择和后处理可以是应用特定的和/或在不同的实现/实施例中是不同的。例如,可以提供所有可能的聚焦波束输出,可以基于用户定义的标准等进行选择(例如,选择最强的发言者)。

例如,对于语音控制应用,可以将所有输出转发到语音触发识别器,所述语音触发识别器被设置为检测特定的单词或短语以初始化语音控制。在这样的示例中,其中检测到触发词或短语的音频输出信号可以跟随触发短语被语音识别器用于检测特定命令。

对于通信应用,例如有利的是选择最强的音频输出信号,例如已经找到特定点音频源的存在。

在一些实施例中,诸如图1的噪声抑制之类的后处理,可以应用于音频捕获装置的输出(例如,通过输出处理器1115)。这可以改善例如语音通信的性能。在这样的后处理中,可以包括非线性操作,尽管例如对于某些语音识别器而言可以更有利于将处理限制为仅包括线性处理。

在图11的系统中,采取特别有利的方法来基于第一波束形成器1105和约束波束形成器1109、1111之间的协同互通和相互关系来捕获音频。

为此目的,音频捕获装置包括波束差异处理器1117,其被布置为确定约束波束形成器1109、1111与第一波束形成器1105中的一个或多个之间的差异量度。差异量度表示分别由第一波束形成器1105和约束波束形成器1109、1111形成的波束之间的差异。因此,第一约束波束形成器1109的差异量度可以指示由第一波束形成器1105和第一约束波束形成器1109形成的波束之间的差异。以这种方式,差异量度可以指示两个波束形成器1105、1109与相同音频源的匹配程度。

可以在不同的实施例和应用中使用不同的差异量度。

在一些实施例中,可以基于从不同波束形成器1105、1109、1111生成的波束形成音频输出来确定差异量度。作为示例,可以通过测量第一波束形成器1105和第一约束波束形成器1109的输出的信号水平并将它们彼此进行比较来简单地生成简单的差异量度。信号水平彼此越接近,差值量度越低(通常差值量度也将作为例如第一波束形成器1105的实际信号水平的函数而增加)。

在许多实施例中,可以通过确定来自第一波束形成器1105的波束形成的音频输出与第一约束波束形成器1109之间的相关性来生成更合适的差异量度。相关值越高,差异量度越低。

替代地或者额外地,可以基于第一波束形成器1105和第一约束波束形成器1109的波束形成参数的比较来确定差异量度。例如,对于给定麦克风,第一波束形成器1105的波束形成滤波器和第一约束波束形成器1109的波束形成滤波器的系数可以由两个矢量表示。然后可以计算这两个矢量的差矢量的幅值。可以对所有麦克风重复该过程,并且可以确定组合或平均幅值并将其用作距离测量。因此,所生成的差异量度反映了波束形成滤波器的系数对于第一波束形成器1105与第一约束波束形成器1109有多不同,并且这被用作波束的差异量度。

因此,在图11的系统中,生成差异量度以反映第一波束形成器1105和第一约束波束形成器1109的波束形成参数之间的差异和/或这些波束形成的音频输出之间的差异。

应当理解,生成、确定和/或使用差异量度直接等同于生成、确定和/或使用相似性量度。实际上,通常可以认为一个是另一个的单调递减函数,因此差异量度也是相似度量(反之亦然),通常一个简单地通过增加值来指示增加的差异而另一个通过减少值来实现这一点。

波束差处理器1117被耦合到第二适配器1113并为此提供差异量度。第二适配器1113被布置为响应于差异量度来适配约束波束形成器1109、1111。具体地,第二适配器1113被布置为仅针对已经确定了满足相似度准则的差异量度的约束波束形成器来调整约束波束形成参数。因此,如果没有针对给定的约束波束形成器1109、1111确定差异量度,或者如果给定的约束波束形成器1109的确定的差异量度1111指示第一波束形成器1105和给定的约束波束形成器1109、1111的波束是不完全相似,则不进行调整。

因此,在图11的音频捕获装置中,约束波束形成器1109、1111受到波束的调整的约束。具体地,它们被约束为仅在由约束波束形成器1109、1111形成的当前波束接近自由运行的第一波束形成器1105正在形成的波束的情况下进行调整,即,个体约束波束形成器1109、1111仅在第一波束形成器1105当前被调整为足够接近个体约束波束形成器1109、1111的情况下被调整。

其结果是约束波束形成器1109、1111的调整由第一波束形成器1105的操作控制,使得由第一波束形成器1105形成的波束有效地控制约束波束形成器1109、1111中的哪个被优化/调整。该方法可以具体地导致约束波束形成器1109、1111仅在期望的音频源接近约束波束形成器1109、1111的当前调整时倾向于被调整。

在实践中已经发现,当期望的音频源(在当前情况下为期望的发言者)在混响半径之外时,要求波束之间的相似性以允许调整的方法已经导致显著改善的性能。实际上,已经发现,特别是在具有非主导直接路径音频分量的混响环境中的弱音频源提供非常期望的性能。

在许多实施例中,对调整的约束可能受到进一步的要求。

例如,在许多实施例中,调整可以是对波束形成的音频输出的信噪比超过阈值的要求。因此,对个体约束波束形成器1109、1111的适配可以限于以下场景:其被充分调整并且调整所基于的信号反映了期望的音频信号。

应当理解,可以在不同的实施例中使用用于确定信噪比的不同方法。例如,麦克风信号的本底噪声可以通过跟踪经平滑的功率估计的最小值来确定,并且对于每个帧或时间区间,将瞬时功率与该最小值进行比较。作为另一示例,可以确定波束形成器的输出的噪声基底并将其与波束形成的输出的瞬时输出功率进行比较。

在一些实施例中,约束波束形成器1109、1111的调整被限制为在约束波束形成器1109、1111的输出中检测到语音分量时。这将为语音捕获应用提供改进的性能。应当理解,可以使用用于检测音频信号中的语音的任何合适的算法或方法。特别地,可以应用先前描述的检测器307的方法。

应当理解,图3和11的系统通常使用帧或块处理来操作。因此,定义了相继的的时间区间或帧,并且可以在每个时间区间内执行所描述的处理。例如,麦克风信号可以被划分为处理时间区间,并且对于每个处理时间区间,波束形成器1105、1109、1111可以针对该时间区间生成波束形成的音频输出信号,确定差异量度,选择约束波束形成器1109、1111,以及更新/调整该约束波束形成器1109、1111等。在许多实施例中,处理时间区间可以有利地具有11毫秒到110毫秒之间的持续时间。

应当理解,在一些实施例中,不同的处理时间区间可以用于音频捕获装置的不同方面和功能。例如,用于调整的约束波束形成器1109、1111的差异量度和选择可以在比例如用于波束形成的处理时间区间更低的频率下执行。

在该系统中,调整还取决于波束形成的音频输出中的语音攻击的检测。因此,音频捕获装置还可以包括已经参考图3描述的检测器307。

在许多实施例中,检测器307可以被布置为检测每个约束波束形成器1109、1111中的语音攻击,并且因此检测器307被耦合到这些并且接收波束形成的音频输出信号。另外,它从约束波束形成器1109、1111接收噪声参考信号(为清楚起见,图11通过单线示出了波束形成的音频输出信号和噪声参考信号,即,图11的线可以被认为表示总线包括波束形成的音频输出信号和(一个或多个)噪声参考信号,以及例如波束形成参数)。

因此,图11的系统的操作的流程图取决于由检测器307根据先前描述的原理执行的语音攻击估计。检测器307可以具体地被布置为针对所有波束形成器1105、1109、1111生成语音攻击估计。

检测结果从检测器307传递到第二适配器1113,第二适配器1113被设置为响应于此对调整适配。具体地,第二适配器1113可以被布置为仅调整检测器307指示已经检测到语音攻击的约束波束形成器1109、1111。具体地,图3的控制器309包因此可以被包括第二适配器1113中,第二适配器1113相应地被布置为将约束波束形成器1109、1111的调整约束为仅发生在检测到语音攻击之后的(短)调整时间区间中。

因此,音频捕获装置被布置为将约束波束形成器1109、1111的调整约束为使得仅约束波束形成器1109、1111在发生语音攻击时被调整,并且所形成的波束接近于由第一波束形成器1105形成的波束。因此,调整通常限于已经接近(期望的)点音频源的约束波束形成器1109、1111。该方法允许非常鲁棒和精确的波束形成,其在期望的音频源可能在混响半径之外的环境中执行得非常好。此外,通过操作和选择性地更新多个约束波束形成器1109、1111,可以通过相对快速的反应时间来补充这种鲁棒性和准确性,从而允许系统作为整体快速适应快速移动或新发生的声源。

在许多实施例中,音频捕获装置可以被布置为一次仅适配一个约束波束形成器1109、1111。因此,第二适配器1113可以在每个调整时间区间中选择约束波束形成器1109、1111中的一个,并且仅通过更新波束形成参数来适应此。在以下场景中:已经针对多个约束波束形成器1109、1111检测到语音攻击,可以选择具有最低差异量度的约束波束形成器1109、1111。

在一些实施例中,调整可以不依赖于波束差异量度,并且实际上可以是不确定这样的度量。实际上,在一些实施例中,调整可以仅基于语音攻击估计。

例如,在一些实施例中,第二适配器1113可以被布置为允许调整已经检测到语音攻击的所有约束波束形成器1109、1111。在一些实施例中,第二适配器1113可以被布置为仅允许针对已经检测到语音攻击的最强指示的约束波束形成器1109、1111进行调整。

在其他实施例中,第二适配器1113可以被布置为简单地选择约束波束形成器1109、1111,即使这指示没有当前语音攻击,也提供语音攻击的最强指示。

作为具体示例,第二适配器1113可以执行以伪代码表示的以下操作:

因此,在一些实施例中,如果语音攻击估计指示当前语音攻击或者如果给定的约束波束形成器的语音攻击估计比任何其他约束波束形成器1109、1111以合适的裕量更强,则音频捕获装置可以被布置为调整该波束形成器。如果满足后一条件,则指示在波束形成器1中存在直接语音,但是波束形成器尚未准确地聚焦。

应当理解,为了清楚起见,以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而,显而易见的是,可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如,被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此,对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用,而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现,包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上,功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样,本发明可以在单个单元中实现,或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明,但是并不旨在将本发明限于这里阐述的特定形式。相反,本发明的范围仅受所附权利要求的限制。另外,尽管可能看起来结合特定实施例描述了特征,但是本领域技术人员将认识到,可以根据本发明组合所描述的实施例的各种特征。在权利要求中,术语“包括”不排除存在其他元件或步骤。

此外,尽管单独列出,但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外,尽管各个特征可以包括在不同的权利要求中,但是这些特征可以有利地组合,并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制,而是指示该特征在合适时同样适用于其他权利要求类别。此外,权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序,并且特别地,方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是,可以以任何合适的顺序来执行这些步骤。另外,单数引用不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚,不应被解释为以任何方式限制权利要求的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1