声音捕获的制作方法

文档序号:19689510发布日期:2020-01-14 18:59阅读:577来源:国知局
声音捕获的制作方法

本公开涉及一种用于捕获声音的系统和方法(通常称为“系统”)。



背景技术:

远场麦克风系统通常用作例如(微软公司)、(亚马逊公司)、(苹果公司)、(三星公司)的语音识别引擎(sre)的前端,并且在这方面也用于发现或检测关键字,例如“alexa”、“你好小娜(heycortana)”等。常见的远场麦克风具有例如可转向且高度指向性的灵敏度特性,并且可以包括多个麦克风(例如,麦克风阵列),所述麦克风的输出信号在信号处理路径中进行处理,所述信号处理路径包括任何类型的波束形成结构以形成麦克风阵列的波束形灵敏度特性。波束形灵敏度特性(在此称为波束)增加了信噪比(snr),因此可以允许拾取距离多个麦克风较远处所说的语音。

通常,讲话的人(即,讲话者)的位置以及因此语音出现的方向是未知的。然而,为了获得最大的信噪比,需要将多个麦克风的波束形灵敏度特性转向至讲话者的位置,所述讲话者的位置可以围绕多个麦克风位于任何水平角度(360°覆盖范围)处。另外,讲话者可以改变,使得波束形成结构必须能够对来自任何方向的任何语音信号起作用。此外,远场麦克风系统可以放置在任何环境中,例如靠近使用中的电视机或收音机的起居室,或许多人正在交谈并且有非常不同的发音噪声、广泛分散的声源的自助餐厅。在此类情况下,波束形成结构很可能会被例如使用中的电视机产生的声音分散,即,在讲话者想要通过使用相应的关键字激活语音识别引擎时,可能使波束朝向电视机转向。如果波束形成结构太慢而无法跟踪讲话者,则可能导致无法识别的关键字,从而迫使讲话者重复关键字(反复),这可能会使讲话者感到烦恼。



技术实现要素:

一种实例声音捕获系统包括:第一信号处理路径,所述第一信号处理路径被配置成基于多个第一麦克风信号来应用远场麦克风功能并提供第一输出信号;以及第二信号处理路径,所述第二信号处理路径被配置成基于一个或多个第二麦克风信号来应用弱指向性麦克风功能并提供第二输出信号。

一种实例声音捕获方法包括:将远场麦克风功能应用于多个第一麦克风信号以提供第一输出信号;以及将弱指向性麦克风功能应用于一个或多个第二麦克风信号以提供第二输出信号。

通过检查以下详细描述和附图,其它系统、方法、特征和优点对于所属领域技术人员将是或将变得显而易见。旨在将所有此类附加系统、方法、特征和优点包括在本说明书内,包括在本发明的范围内,并由所附权利要求书保护。

附图说明

参考以下附图和描述可以更好地理解系统和方法。附图中的组件不一定按比例绘制,而是将重点放在说明本发明的原理上。此外,在附图中,贯穿不同的视图,相似的附图标记表示对应的部分。

图1是示出具有第一信号和第二信号处理路径的示例性声音捕获系统的示意图,第二信号处理路径包括延时-相加块。

图2是示出另一示例性声音捕获系统的示意图,所述系统包括在第二信号处理路径中的全通滤波器块以及在第一信号处理路径和第二信号处理路径中的分离的声学回声消除器。

图3是示出另一示例性声音捕获系统的示意图,所述系统包括在第二信号处理路径中的全通滤波器块以及在第一信号处理路径和第二信号处理路径中的公共声学回声消除器块。

图4是示出另一示例性声音捕获系统的示意图,所述系统包括用于第一信号处理路径和第二信号处理路径的公共固定波束形成块。

图5是示出图4所示的系统的示意图,其中在第二信号处理路径中仅处理公共固定波束形成块的与更负波束有关的输出。

图6是示出图4所示的系统的示意图,其中在第二信号处理路径中仅处理公共固定波束形成块的与最负波束和在其每一侧上的一个相邻波束有关的输出。

图7是示出另一示例性声音捕获系统的示意图,所述系统包括在第一信号处理路径和第二信号处理路径中的公共波束转向块。

具体实施方式

在下面描述的示例性声音捕获系统中,除了具有远场麦克风功能的一个(第一)信号处理路径之外,还提供了具有全向或其它弱指向性麦克风功能的(第二)信号处理路径。例如,第二信号处理路径可以与至少一个附加全向麦克风或一个或多个已经存在的麦克风结合操作,所述一个或多个已经存在的麦克风例如与第一信号处理路径结合使用的麦克风的阵列(也称为麦克风阵列或简称为阵列)中的麦克风。

在一个实例中,已经结合第一信号处理路径使用的麦克风阵列中的所有麦克风的输出信号在第二信号处理路径中求和。所得的和信号中包括的噪声比阵列中单个麦克风的输出信号的噪声少噪声降低系数rn,其为rn[db]=10·log10(麦克风的数量),并且因此提高了白噪声增益。

仅仅对阵列中的(例如,全向)麦克风的输出信号求和会导致和信号的幅频响应显著地劣化。例如,劣化取决于阵列的几何形状,即,麦克风阵列中的麦克风之间的(相互)距离。为了克服这个缺点,可以采用延时-相加波束形成结构,其中在将麦克风的输出信号求和之前将所述输出信号延时,并且可以调整(控制)延时以便可以将波束转向至所需的方向。延时可以包括分数延时,即,将采样数据延时采样周期的一部分。

克服上述积压的另一种方法是在麦克风与求和点之间插入(而不是延时)全通滤波器,所述全通滤波器具有布置在所得幅频响应的陷波周围的截止频率,并且具有随机分布的截止频率,根据具体情况为随机分布的质量值,以便获得陷波频率周围的弥散相位特性,因此在求和后以几乎与入射角无关的方式封闭幅频响应中的陷波。因此,可以获得具有改善的噪声行为的虚拟全向麦克风,接着,所述虚拟全向麦克风的输出信号可以形成至第二信号处理路径的后续部分的输入,包括例如声学回声消除、降噪、自动增益控制、限制等。

替代地,第一信号处理路径中的自动回声消除器的输出信号可以用作第二信号处理路径中的全通滤波器的输入信号。在另一替代方案中,将麦克风信号全通滤波,然后求和。接着将和信号供应至第一信号处理路径的其余部分上游的单通道自动回声消除器。

现在参考图1,示例性声音捕获系统包括多个麦克风101(例如,麦克风的阵列)和可选的多通道高通(hp)滤波器块102。声音捕获系统还包括连接在可选的高通滤波器块102下游的后续多通道声学回声消除(aec)块103、后续固定波束形成器(fbf)块104、后续波束转向(bs)块105、自适应波束形成(abf)块106、后续降噪(nr)块107、自动增益控制(agc)块108和(峰值)限制器块109。块102至109包括在第一信号处理路径中,所述第一信号处理路径与麦克风101结合形成示例性远场麦克风系统。

可选的多通道高通滤波器块102包括多个高通滤波器,每个高通滤波器连接在多个麦克风101中的一个的下游(例如,连接至其输出)。高通滤波器可以被配置成切断与语音处理无关但可能会为总体噪声做贡献的较低频率(例如,低于150hz)。

多通道声学回声消除块103包括多个声学回声消除器,每个声学回声消除器连接在高通滤波器块102中的多个高通滤波器中的一个的下游(例如,连接至其输出),并因此与麦克风101耦合。回声消除涉及首先在来自麦克风的信号中识别最初传输的信号,所述信号作为此麦克风接收的信号中的回声以一定的延时重新出现。一旦识别出回声,就可以通过从传输和接收的信号中减去回声而将其去除,从而提供回声抑制信号。

声学回声消除块103的输出信号用作固定波束形成块104的输入信号,所述固定波束形成块可以采用简单但有效的(波束形成)技术,例如延时-相加(ds)技术。固定延时-相加结构的简单结构可以使得高通滤波后和回声抑制后的麦克风输出信号相对于彼此延时,然后将所述麦克风输出信号求和以提供固定波束形成块104的输出信号。

波束转向块105可以传递一个输出信号,所述一个输出信号表示指向房间中当前具有最高信噪比的方向(房间方向)的波束,称为正波束;并且波束转向块105传递另一个输出信号,所述另一个输出信号表示指向房间中例如当前具有最低信噪比的方向(房间方向)的波束,称为负波束。基于这两个信号,可操作地连接在波束转向块105下游(例如,连接至其输出)的自适应波束形成块106提供至少一个输出信号,理想情况下所述至少一个输出信号仅包括有用的信号部分(例如,语音信号)但是没有或只有很小的噪声部分,并且自适应波束形成块106可以提供另一个输出信号,理想情况下所述另一个输出信号仅包括噪声。

自适应波束形成块106可以被配置成对来自麦克风101的预处理信号执行自适应空间信号处理。以增加来自所选方向的信号强度的方式组合这些信号。可以以良性或破坏性方式组合来自其它方向的信号,从而使来自非期望方向的信号降级。自适应波束形成块106的输出信号提供具有改进的信噪比的输出信号。

降噪块107可以被配置成例如使用普通音频噪声去除技术从由自适应波束形成块106提供的信号中去除残留噪声。

自动增益控制块108可以具有闭环反馈调节结构,并且可以被配置成在其输出处提供受控信号幅度,尽管其输入信号中的幅度不同。平均值或峰值输出信号电平可以用于将输入-输出增益动态调整为合适的值,从而使后续信号处理结构能够在更大范围的输入信号电平内令人满意地工作。

(峰值)限制器块109可以被配置成执行过程,通过所述过程防止信号(此处是由自动增益控制块108输出的信号)的指定特性(例如,幅度)超过预定值,即,将信号幅度限制到预定值。(峰值)限制器块109提供信号sreout(n),所述信号可以用作第一信号处理路径的输出信号以及语音识别引擎(未示出)的输入信号。

图1所示的声音捕获系统还包括第二信号处理路径,所述第二信号处理路径可以连接至具有全向方向性特性的单独的专用全向麦克风(未示出)或单独的专用麦克风阵列(未示出)。然而,在图1所示的声音捕获系统中,已经存在的麦克风101的阵列和后续高通滤波器块102不仅形成第一信号处理路径的前端,而且形成第二信号处理路径的前端。示例性第二信号处理路径包括多通道延时块110、后续求和块111、后续单通道声学回声消除(aec)块112、后续降噪(nr)块113、自动增益控制(agc)块114和(峰值)限制器块115。延时块110可以由第一信号处理路径的波束转向块105经由延时计算块116控制。

在通过求和块111对来自高通滤波器块102的输出信号,即麦克风101的已滤波输出信号求和之前,多通道延时块110以不同延时来延时来自高通滤波器块102的输出信号,所述不同延时可以通过第一信号处理路径的波束转向块105经由延时计算块116控制。控制延时块110的延时,使得如由求和块111的输出信号表示的麦克风101的阵列的指向特性例如是(近似)全向的或具有任何其它弱指向性形状。

单通道声学回声消除块112包括连接在求和块111的下游(例如,连接至其输出)的声学回声消除器。声学回声消除器可以以与多通道声学回声消除块103中采用的多个声学回声消除器相同或相似的方式操作。此外,第二信号处理路径中的降噪块113、自动增益控制块114和(峰值)限制器块115可以与第一信号处理路径中的降噪块107、自动增益控制块108和(峰值)限制器块109具有相同或相似的结构和/或功能。(峰值)限制器块115提供信号kwsout(n),所述信号可以用作第二信号处理路径的输出信号,并且可以用作例如关键字搜索系统(未示出)的语音处理装置的输入信号,和/或(峰值)限制器块115提供信号hfsout(n),所述信号可以用作第二信号处理路径的(另一个)输出信号,并且可以用作例如免提系统(未示出)的语音处理装置的输入信号。语音处理可以包括对包括语音信号的信号的任何适当的处理,从一方面对例如电话信号的特性的简单处理至另一方面复杂的语音识别。

参考图2,可以通过省略延时计算块116并用多通道全通滤波器块201代替多通道延时块110来改变图1所示的系统。全通滤波器块201包括多个全通滤波器,每个全通滤波器连接在多个高通滤波器中的一个的下游(例如,连接至其输出),并因此与麦克风101耦合。全通滤波器具有布置在所得幅频响应的陷波周围的截止频率,并且具有随机分布的截止频率,可选地还具有随机分布的质量值,以便获得陷波频率周围的弥散相位特性,因此在求和块111中求和后以几乎与入射角无关的方式封闭幅频响应中的陷波。

参考图3,可以通过省略单通道声学回声消除块112并将降噪块113直接连接至求和块111,且将全通滤波器块201连接至多通道声学回声消除块103的输出而不是高通滤波器块102的输出来改变图2所示的系统。这允许降低第二信号处理路径的复杂度,因此降低整个系统的复杂度。

参考图4,可以通过省略全通滤波器块201并将求和块111连接至固定波束形成块104的输出来改变图3所示的系统。这允许进一步降低第二信号处理路径的复杂度,因此降低整个系统的复杂度。应注意,固定波束形成块104的全部或仅一些输出可以连接至求和块111。在图5所示的示例性系统中,仅与更负波束有关的输出可以通过求和块111来求和。在图6所示的示例性系统中,与最负波束有关的输出和多个相邻的输出(在图1所示的实例中在每一侧)可以通过求和块111来求和。在其它替代方案中,表示负波束的波束转向块105的输出,即负波束形成信号可以直接连接至降噪块113,同时省略求和块111。

从图4至图7所示的示例性系统可以看出,存在多个选项用于创建第二信号处理路径(音频管道),例如用于关键字搜索。所述选项包括使用若干波束相关信号或来自固定波束形成块104或波束转向块105的波束信号中的一个或总和。例如,可以向第二信号处理路径馈送与负波束有关(基于负波束)的信号,例如,负波束是指向正波束的相反方向的波束,其中正波束是指向最佳信噪比方向的波束。正波束通常指向讲话者所在房间的区域,但是在某些情况下,例如,因使用中的收音机或电视机,或因其它近距离讲话者进行交谈,正波束可能会被误导。以此方式,可能会覆盖与所期望不同的半球。

替代地或另外,可以采用由波束转向块105的相应输出信号表示并且被输入到自适应波束形成块106的负波束,但是已经发现,为了区分两个半球,如果讲话者与正负波束指向的方向成90度角站立,即如果讲话者垂直于正波束方向与负波束方向之间的直线站立,则仅使用这一个(负)波束可能会有一些缺陷。在这种“最坏情况”下,即使使用基于来自第二信号处理路径的信号的第二关键字搜索,“热门词”,即搜索的词仍会经常被错过。

通过还考虑负波束的相邻波束,例如,将与负波束相关的信号及其顺时针方向和逆时针方向的相邻信号求和,可以显著减少这一问题。例如,如果固定波束形成块传递八个规则分布的输出波束,则考虑接下来的两个相邻波束(即,将或多或少指向负波束的方向的5个波束求和)。这里的情况可能是,如果讲话者与正波束和负波束之间的线偏离90°,则可能会有过多的语音能量泄漏到正波束中,这可能会使关键字搜索性能下降。替代地,也可以采用对所有波束求和并将和信号用作第二信号处理路径的信号,以获得令人满意的结果。

甚至在如上所述的不利环境条件下,也可以并行运行两个以上关键字搜索过程,以增加拾取热门词的可能性。例如,可以对八个固定波束形成块中的每个象限用一个波束进行四个单独的关键字搜索过程,以覆盖这些象限中的每个象限。一旦关键字搜索找到了热门词,就可以确定热门词的产生方向(例如,半球、分别象限),以使正波束指向此方向,并且可选地保持指向(冻结)此方向,直到完成对语音识别引擎的当前请求为止。

例如,通过可以包括一个或多个单独的麦克风(例如,阵列,特别是预先存在的阵列)的附加(虚拟)全向麦克风布置,可以进一步增强关键字系统(kws)和/或免提系统(hfs)的性能,所述麦克风具有几乎与入射角无关的平坦幅频响应并具有最佳的噪声行为。上文描述的系统和方法是简单但有效的,因此可仅需要最少的附加存储器和/或处理负载来创建第二音频管道,所述第二音频管道可用于避免口头关键词的检测损失。

块被理解为具有以下至少一项的硬件系统或其元件:执行软件的处理单元和用于实施相应期望的信号传送或处理功能的专用电路结构。因此,声音捕获系统的部分或全部可以实施为由处理器或可编程数字电路执行的软件和固件。应认识到,本文公开的任何声音捕获系统可以包括任何数量的微处理器、集成电路、存储器装置(例如,闪存、随机存取存储器(ram)、只读存储器(rom)、电可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或它们的其它合适的变体),以及彼此相互协作以执行本文公开的操作的软件。另外,如所公开的任何声音捕获系统可以利用任何一个或多个微处理器来执行体现在非暂时性计算机可读介质中的计算机程序,所述计算机程序被编程为执行如所公开的任何数量的功能。此外,本文提供的任何控制器包括壳体和各种微处理器、集成电路和存储器装置(例如,闪存、随机存取存储器(ram)、只读存储器(rom)、电可编程只读存储器(eprom)和/或电可擦除可编程只读存储器(eeprom)。

已经出于说明和描述的目的呈现了实施方案的描述。可以根据以上描述执行对实施方案的适当修改和变化或可以从实践方法中获得对实施方案的适当修改和变化。例如,除非另外指出,否则可以通过合适的装置和/或装置的组合来执行一种或多种所描述的方法。除了在本申请中描述的顺序之外,还可以并行和/或同时地以各种顺序执行所描述的方法和相关联的动作。所描述的系统本质上是示例性的,并且可以包括附加元件和/或省略元件。

如在本申请中使用的,以单数陈述并且以单词“一”或“一个”开始的元件或步骤应被理解为不排除多个所述元件或步骤,除非陈述了这种排除。此外,对本公开的“一个实施方案”或“一个实例”的引用并不意图被解释为排除也包括所述特征的另外的实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标签,且并不意图对其对象施加数字要求或特定的位置顺序。

尽管已经描述了本发明的各种实施方案,但是对于所属领域的普通技术人员将显而易见的是,在本发明的范围内可能有更多的实施方案和实施方式。具体地,技术人员将认识到,不同实施方案的各种特征具有互换性。尽管已经在某些实施方案和实例的上下文中公开了这些技术和系统,但是应理解,可以将这些技术和系统超出具体公开的实施方案扩展至其它实施方案和/或用途及其明显的修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1