用于降噪的音频信号处理的制作方法

文档序号:19128298发布日期:2019-11-13 02:21阅读:324来源:国知局
用于降噪的音频信号处理的制作方法

本申请要求根据pct第8条于2017年3月20日提交的名称为“audiosignalprocessingfornoisereduction(用于降噪的音频信号处理)”的共同未决的美国专利申请号15/463,368的优先权的权益,该申请全文以引用方式并入本文以用于所有目的。



背景技术:

耳机系统用于多种环境并用于各种目的,其示例包括娱乐目的诸如游戏或听音乐、生产目的诸如电话呼叫以及专业目的诸如航空通信或录音室监听,等等。不同的环境和目的对于保真度、噪声隔离、降噪、语音拾取等可能具有不同的要求。尽管背景噪音很大,但一些环境(诸如涉及工业设备、航空运营和体育赛事的环境)需要准确的通信。当用户的语音与其他噪声更清楚地分离或隔离时,一些应用程序诸如语音通信和语音识别(包括用于通信的语音识别,例如用于短消息服务(sms)即发短信的语音转文字应用程序或虚拟个人助理(vpa)应用程序)表现出提高的性能。

因此,在一些环境中以及在一些应用中,可能期望从耳机或头戴式耳机附近的其他声源中增强对用户的语音的捕获或拾取,以减少不是由用户的语音引起的信号分量。



技术实现要素:

各方面和示例涉及拾取用户的语音活动并减少其他声音分量(诸如背景噪声和其他话音)的耳机系统和方法,以增强用户的语音分量而不是其他声音分量。用户佩戴耳机组,并且这些系统和方法通过移除不是由用户说话引起的可听声来提供对用户语音的增强隔离。降噪的语音信号可有利地应用于音频记录、通信、语音识别系统、虚拟个人助理(vpa)等。本文所公开的方面和示例允许耳机拾取和增强用户的语音,使得用户可使用具有改善的性能的此类应用程序和/或可在嘈杂环境中使用此类应用程序。

根据一个方面,提供了一种增强耳机用户的语音的方法,该方法包括接收从耦接到耳机的第一多个麦克风导出的第一多个信号、阵列处理第一多个信号来控制波束朝向用户的嘴部以生成第一主信号、接收从一个或多个麦克风导出的参考信号(该参考信号与背景声学噪声相关)以及通过从第一主信号中移除与参考信号相关的分量来过滤第一主信号以提供语音估计信号。

一些示例包括通过阵列处理第一多个信号来从第一多个信号中导出参考信号,以控制零点朝向用户的嘴部。

在一些示例中,过滤第一主信号包括过滤参考信号以生成噪声估计信号并从第一主信号中减去噪声估计信号。该方法可包括基于噪声估计信号来增强语音估计信号的频谱振幅以提供输出信号。过滤参考信号可包括自适应地调节滤波器系数。在一些示例中,当用户不说话时,自适应地调节滤波器系数。在一些示例中,通过后台进程自适应地调节滤波器系数。

一些示例还包括在与第一多个麦克风不同的位置处接收从耦接到耳机的第二多个麦克风导出的第二多个信号、阵列处理第二多个信号来控制波束朝向用户的嘴部以生成第二主信号、组合第一主信号和第二主信号以提供组合主信号以及通过从组合主信号中移除与该参考信号相关的分量来过滤组合主信号以提供语音估计信号。

参考信号可包括第一参考信号和第二参考信号,并且该方法还可包括处理第一多个信号来控制零点朝向用户的嘴部以生成第一参考信号并处理第二多个信号来控制零点朝向用户的嘴部以生成第二参考信号。

组合第一主信号和第二主信号可包括将第一主信号与第二主信号进行比较,并且基于比较结果更大程度上地加权第一主信号和第二主信号中的一者。

在某些示例中,阵列处理第一多个信号以控制波束朝向用户的嘴部包括使用超指向性近场波束形成器。

在一些示例中,该方法包括通过延迟相加技术从一个或多个麦克风中导出参考信号。

根据另一方面,提供了一种耳机系统,该耳机系统包括:耦接到左听筒的多个左麦克风;耦接到右听筒的多个右麦克风;一个或多个阵列处理器;第一组合器,该第一组合器提供作为左主信号和右主信号的组合的组合主信号;第二组合器,该第二组合器提供作为左参考信号和右参考信号的组合的组合参考信号;以及被配置为接收组合主信号和组合参考信号以及提供语音估计信号的自适应滤波器。一个或多个阵列处理器被配置为接收从多个左麦克风导出的多个左信号,并通过作用于多个左信号上的阵列处理技术来控制波束以提供左主信号,并且通过作用于多个左信号上的阵列处理技术来控制零点以提供左参考信号。一个或多个阵列处理器还被配置为接收从多个右麦克风导出的多个右信号,并通过作用于多个右信号上的阵列处理技术来控制波束以提供右主信号,并且通过作用于多个右信号上的阵列处理技术来控制零点以提供右参考信号。

在某些示例中,自适应滤波器被配置为通过过滤组合参考信号以生成噪声估计信号并从组合主信号中减去噪声估计信号来过滤组合主信号。耳机系统可包括频谱增强器,该频谱增强器被配置为基于噪声估计信号来增强语音估计信号的频谱振幅以提供输出信号。过滤组合参考信号可包括自适应地调节滤波器系数。当用户不说话时,可自适应地调节滤波器系数。可通过后台进程自适应地调节滤波器系数。

在一些示例中,耳机系统可包括一个或多个子频带滤波器,一个或多个子频带滤波器被配置为将多个左信号和多个右信号分离成一个或多个子频带,并且其中一个或多个阵列处理器、第一组合器、第二组合器和自适应滤波器各自在一个或多个子频带上操作以提供多个语音估计信号,多个语音估计信号中的每一个具有一个或多个子频带之一的分量。耳机系统可包括频谱增强器,该频谱增强器被配置为接收多个语音估计信号中的每一个并且频谱地增强每个语音估计信号以提供多个输出信号,该输出信号中的每一个具有一个或多个子频带之一的分量。合成器可被包括并且被配置为将多个输出信号组合成单个输出信号。

在某些示例中,第二组合器被配置为提供作为左参考信号和右参考信号之间的差值的组合参考信号。

在一些示例中,提供左主信号和右主信号的阵列处理技术是超指向性近场波束处理技术。

在一些示例中,提供左参考信号和右参考信号的阵列处理技术是延迟相加技术。

根据另一方面,提供了一种耳机,该耳机包括耦接到一个或多个听筒的多个麦克风;并且包括一个或多个阵列处理器,一个或多个阵列处理器被配置为接收从多个麦克风导出的多个信号,以通过作用于多个信号上的阵列处理技术来控制波束以提供主信号,并且以通过作用于多个信号上的阵列处理技术来控制零点以提供参考信号;并且包括自适应滤波器,该自适应滤波器被配置为接收主信号和参考信号以及提供语音估计信号。

在一些示例中,自适应滤波器被配置为过滤参考信号以生成噪声估计信号,并从第一主信号中减去噪声估计信号以提供语音估计信号。耳机可包括频谱增强器,该频谱增强器被配置为基于噪声估计信号来增强语音估计信号的频谱振幅以提供输出信号。过滤参考信号可包括自适应地调节滤波器系数。当用户不说话时,可自适应地调节滤波器系数。可通过后台进程自适应地调节滤波器系数。

在一些示例中,耳机可包括一个或多个子频带滤波器,一个或多个子频带滤波器被配置为将多个信号分离成一个或多个子频带,并且其中一个或多个阵列处理器和自适应滤波器各自在一个或多个子频带上操作以提供多个语音估计信号,多个语音估计信号中的每一个具有一个或多个子频带之一的分量。耳机可包括频谱增强器,该频谱增强器被配置为接收多个语音估计信号中的每一个并且频谱地增强每个语音估计信号以提供多个输出信号,每个输出信号具有一个或多个子频带中的一个子频带的分量。耳机还可包括合成器,该合成器被配置为将多个输出信号组合成单个输出信号。

在某些示例中,提供主信号的阵列处理技术是超指向性近场波束处理技术。

在一些示例中,提供参考信号的阵列处理技术是延迟相加技术。

根据另一方面,提供了一种耳机,该耳机包括:多个麦克风,多个麦克风耦接到一个或多个听筒以提供多个信号;以及一个或多个处理器,一个或多个处理器被配置为接收多个信号、使用第一阵列处理技术处理多个信号来增强来自所选方向的响应以提供主信号、使用第二阵列处理技术处理多个信号来增强来自所选方向的响应以提供辅信号、将主信号和辅信号进行比较并且基于主信号、辅信号和该比较结果来提供所选信号。

在一些示例中,一个或多个处理器被进一步配置为通过信号能量来比较主信号和辅信号。一个或多个处理器被进一步配置为进行信号能量的阈值比较,该阈值比较是确定主信号或辅信号中的一者是否具有小于另一者的信号能量的阈值量的信号能量。一个或多个处理器可被进一步配置为通过阈值比较来选择主信号和辅信号中具有较小信号能量的一者,以作为所选信号被提供。

在某些示例中,一个或多个处理器被进一步配置为在比较信号能量之前对主信号和辅信号中的至少一者应用均衡。

在各种示例中,一个或多个处理器被进一步配置为基于该比较结果来指示风条件。在某些示例中,第一阵列处理技术是超指向性波束形成技术,并且第二阵列处理技术是延迟-相加技术,并且一个或多个处理器被进一步配置为基于主信号的信号能量超过阈值信号能量来确定存在该风条件,该阈值信号能量基于辅信号的信号能量。

在一些示例中,一个或多个处理器被进一步配置为处理减少多个信号以来自所选方向的响应以提供参考信号,并从所选信号中减去与参考信号相关的分量。

根据另一方面,提供了一种增强耳机用户的语音的方法,该方法包括接收多个麦克风信号、通过第一阵列技术阵列处理多个信号来增强来自用户的嘴部方向的声学响应以生成第一主信号、通过第二阵列技术阵列处理多个信号来增强来自用户的嘴部方向的声学响应以生成第二主信号、将第一主信号与第二主信号进行比较以及基于第一主信号、第二主信号和该比较结果来提供所选主信号。

在各种示例中,将第一主信号与第二主信号进行比较包括比较第一主信号和第二主信号的信号能量。

在一些示例中,基于该比较结果来提供所选主信号包括提供第一主信号和第二主信号中的所选一者,该所选一者具有小于第一主信号和第二主信号中的另一者的阈值量的信号能量。

某些示例包括在比较信号能量之前均衡第一主信号和第二主信号中的至少一者。

一些示例包括基于比较结果来确定存在风条件,并设置存在该风条件的指示符。在某些示例中,第一阵列技术是超指向性波束形成技术,并且第二阵列技术是延迟相加技术,并且确定存在风条件包括确定第一主信号的信号能量超过阈值信号能量,该阈值信号能量基于第二主信号的信号能量。

各种示例包括阵列处理多个信号以减少来自用户的嘴部方向的声学响应以生成噪声参考信号,过滤该噪声参考信号以生成噪声估计信号,并且从所选主信号中减去该噪声估计信号。

根据另一方面,提供了一种耳机系统,该耳机系统包括:多个左麦克风,多个左麦克风耦接到左听筒以提供多个左信号;多个右麦克风,多个右麦克风耦接到右听筒以提供多个右信号;以及一个或多个处理器,一个或多个处理器被配置为组合多个左信号来增强来自用户的嘴部方向的声学响应以生成左主信号、组合多个左信号来增强来自用户的该嘴部方向的声学响应以生成左辅信号、组合多个右信号来增强来自用户的该嘴部方向的声学响应以生成右主信号、组合多个右信号来增强来自用户的该嘴部方向的声学响应以生成右辅信号、比较左主信号和左辅信号、比较右主信号和右辅信号、基于左主信号、左辅信号以及该左主信号和该左辅信号的比较结果来提供左信号,并且基于右主信号、右辅信号以及该右主信号和该右辅信号的比较结果来提供右信号。

在一些示例中,一个或多个处理器被进一步配置为通过信号能量来比较左主信号和左辅信号,并通过信号能量来比较右主信号和右辅信号。

在某些示例中,一个或多个处理器被进一步配置为进行信号能量的阈值比较,该阈值比较是确定第一信号是否具有小于第二信号的信号能量的阈值量的信号能量。在一些示例中,该阈值比较包括在比较信号能量之前均衡第一信号和第二信号中的至少一者。

在各种示例中,一个或多个处理器可被进一步配置为基于该比较结果中的至少一者来指示左侧或右侧中任一者的风条件。

根据另一方面,提供了一种耳机系统,该耳机系统包括:多个左麦克风,多个左麦克风耦接到左听筒以提供多个左信号;多个右麦克风,多个右麦克风耦接到右听筒以提供多个右信号;一个或多个处理器,一个或多个处理器被配置为组合多个左信号和多个右信号中的一者或多者以提供在所选位置的方向上具有增强的声学响应的主信号、组合多个左信号以提供具有来自所选位置的减少的声学响应的左参考信号,并且组合多个右信号以提供具有来自所选位置的减少的声学响应的右参考信号;左滤波器,该左滤波器被配置为过滤左参考信号以提供左估计噪声信号;右滤波器,该右滤波器被配置为过滤右参考信号以提供右估计噪声信号;以及组合器,该组合器被配置为从主信号中减去左估计噪声信号和右估计噪声信号。

一些示例包括语音活动检测器,该语音活动检测器被配置为指示用户是否正在说话,并且其中左滤波器和右滤波器中的每一者是被配置为在该语音活动检测器指示用户不说话的时间段期间进行调整的自适应滤波器。

一些示例包括风检测器,该风检测器被配置为指示是否存在风条件,并且其中一个或多个处理器被配置为在该风检测器指示存在风条件时转换为单耳操作。该风检测器可被配置为将使用第一阵列处理技术的多个左信号和多个右信号中的一者或多者的第一组合与使用第二阵列处理技术的多个左信号和多个右信号中的一者或多者的第二组合进行比较,并且基于该比较结果来指示是否存在风条件。

一些示例包括头外检测器,该头外检测器被配置为指示左听筒或右听筒中的至少一者是否从用户的头部附近移除,并且其中一个或多个处理器被配置为在该头外检测器指示左听筒或右听筒中的至少一者从用户的头部附近移除时转换为单耳操作。

在某些示例中,一个或多个处理器被配置为通过延迟相减技术组合多个左信号以提供左参考信号,并且通过延迟相减技术组合多个右信号以提供右参考信号。

某些示例包括一个或多个信号混频器,一个或多个信号混频器被配置为通过将左右平衡加权为完全左或完全右来将耳机系统转换为单耳操作。

根据另一方面,提供了一种增强耳机用户的语音的方法。该方法包括:接收多个左麦克风信号;接收多个右麦克风信号;组合多个左麦克风信号和多个右麦克风信号中的一者或多者,以提供在所选位置的方向上具有增强的声学响应的主信号;组合多个左麦克风信号,以提供具有来自所选位置的减少的声学响应的左参考信号;组合多个右麦克风信号,以提供具有来自所选位置的减少的声学响应的右参考信号;过滤左参考信号以提供左估计噪声信号;过滤右参考信号以提供右估计噪声信号;以及从主信号中减去左估计噪声信号和右估计噪声信号。

一些示例包括接收用户是否正在说话的指示,并且在用户不说话的时间段期间调整与过滤左参考信号和右参考信号相关联的一个或多个滤波器。

一些示例包括接收是否存在风条件的指示,并且在存在该风条件时转换为单耳操作。另外的示例可包括通过将使用第一阵列处理技术的多个左麦克风信号和多个右麦克风信号中的一者或多者的第一组合与使用第二阵列处理技术的多个左麦克风信号和多个右麦克风信号中的一者或多者的第二组合进行比较来提供是否存在该风条件的指示并且基于该比较结果来指示是否存在风条件。

一些示例包括接收头外条件的指示,并且在存在该头外条件时转换为单耳操作。

在某些示例中,组合多个左麦克风信号以提供左参考信号以及组合多个右麦克风信号以提供右参考信号中的每一者包括延迟相减技术。

各种示例包括加权左右平衡以将耳机转换为单耳操作。

根据另一方面,提供了一种耳机系统,该耳机系统包括:提供多个左信号的多个左麦克风;提供多个右信号的多个右麦克风;一个或多个处理器,一个或多个处理器被配置为组合多个左信号以提供在用户的嘴部方向上具有增强的声学响应的左主信号、组合多个右信号以提供在用户的该嘴部方向上具有增强的声学响应的右主信号、组合该左主信号和该右主信号以提供语音估计信号、组合多个左信号以提供在用户的该嘴部方向上具有减少的声学响应的左参考信号,并且组合多个右信号以提供在用户的该嘴部方向上具有减少的声学响应的右参考信号;左滤波器,该左滤波器被配置为过滤左参考信号以提供左估计噪声信号;右滤波器,该右滤波器被配置为过滤右参考信号以提供右估计噪声信号;以及组合器,该组合器被配置为从语音估计信号中减去左估计噪声信号和右估计噪声信号。

某些示例包括语音活动检测器,该语音活动检测器被配置为指示用户是否正在说话,并且其中左滤波器和右滤波器中的每一者是被配置为在该语音活动检测器指示用户不说话的时间段期间进行调整的自适应滤波器。

某些示例包括风检测器,该风检测器被配置为指示是否存在风条件,并且其中一个或多个处理器被配置为在该风检测器指示存在风条件时转换为单耳操作。在一些示例中,风检测器可被配置为将使用第一阵列处理技术的多个左信号和多个右信号中的一者或多者的第一组合与使用第二阵列处理技术的多个左信号和多个右信号中的一者或多者的第二组合进行比较,并且基于该比较结果来指示是否存在风条件。

某些示例包括头外检测器,该头外检测器被配置为指示左听筒或右听筒中的至少一者是否从用户的头部附近移除,并且其中一个或多个处理器被配置为在该头外检测器指示左听筒或右听筒中的至少一者从用户的头部附近移除时转换为单耳操作。

在一些示例中,一个或多个处理器被配置为通过延迟相减技术组合多个左信号以提供左参考信号,并且通过延迟相减技术组合多个右信号以提供右参考信号。

以下仍然详细讨论了这些示例性方面和示例的其他方面、示例和优点。本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合,并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥,并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

附图说明

下面参考附图讨论至少一个示例的各个方面,这些附图并非旨在按比例绘制。包括附图以提供对各个方面和示例的例证和进一步理解,并且附图并入本说明书且构成本说明书的一部分,但并非旨在作为本发明的限制的定义。在附图中,在各种图中示出的相同或几乎相同的部件可以类似的数字表示。为清楚起见,并不是在每个图中给每个部件都注上标记。在附图中:

图1为示例性耳机组的透视图;

图2为示例性耳机组的左侧视图;

图3为用于在其他声学信号中增强用户的语音信号的示例性系统的示意图;

图4为用于增强用户的语音的另一示例性系统的示意图;

图5为用于增强用户的语音的另一示例性系统的示意图;

图6为用于增强用户的语音的另一示例性系统的示意图;

图7a为用于增强用户的语音的另一示例性系统的示意图;

图7b为适合与图7a的系统一起使用的示例性自适应滤波器系统的示意图;

图8a为用于增强用户的语音的另一示例性系统的示意图;

图8b为适合与图8a的系统一起使用的示例性混频器系统的示意图;

图9为用于增强用户的语音的另一示例性系统的示意图;和

图10为用于增强用户的语音的另一示例性系统的示意图。

具体实施方式

本公开的各方面涉及耳机系统和方法,这些耳机系统和方法在减少或移除与用户的语音不相关联的其他信号分量的同时拾取耳机的用户(例如,佩戴者)的语音信号。接收具有降低的噪声分量的用户的语音信号可增强能够作为耳机组或其他相关联的设备的一部分而提供的基于语音的特征或功能,诸如通信系统(蜂窝、无线电、航空)、娱乐系统(游戏)、语音识别应用程序(语音转文本、虚拟个人助理)以及处理音频(尤其是语音或声音)的其他系统和应用程序。本文所公开的示例可通过有线或无线装置耦接到其他系统或与其他系统连接,或者可独立于其他系统或设备。

在一些示例中,本文所公开的耳机系统可包括航空头戴式耳机、电话头戴式耳机、媒体耳机和网络游戏耳机,或这些或其他的任何组合。在整个本公开中,术语“头戴式耳机”、“耳机”和“耳机组”可互换使用,并且不旨在通过使用一个术语而不是另一个术语来进行区分,除非上下文另有明确说明。另外,在一些情况下,根据本文所公开的那些方面和示例可应用于耳机形状因数(例如,入耳式换能器、耳塞)和/或离耳式声学设备,例如佩戴在佩戴者的耳朵附近的设备、颈部形状因数、或头部或身体(例如肩部)上的其他形状因数、或包括一个或多个驱动器(例如,扬声器)的形状因数,一个或多个驱动器被引导为大致朝向佩戴者的耳朵而没有邻近联接到佩戴者的头部或耳朵。术语“头戴式耳机”、“耳机”和“耳机组”设想了所有此类形状因数和类似的形状因数。因此,术语“头戴式耳机”、“耳机”和“耳机组”旨在包括个人声学设备的任何贴耳式、入耳式、耳罩式或离耳式形状因数。术语“听筒”和/或“耳罩”可包括旨在于用户的至少一个耳朵附近操作的此类形状因数的任何部分。

本文所公开的示例可以与本文所公开的至少一个原理一致的任何方式与其他示例组合,并且对“示例”、“一些示例”、“另选的示例”、“各种示例”、“一个示例”等的引用不一定互相排斥,并且旨在指示所述的特定特征、结构或特性可包括在至少一个示例中。本文中此类术语的出现未必全都指代相同的示例。

应当理解,本文讨论的方法和装置的示例不限于应用到以下描述中提及的或附图中示出的构造细节和分量布置。这些方法和装置能够在其他示例中实施,并且能够以各种方式操作或执行。本文提供的具体实施的示例仅出于进行示意性的目的,并非旨在进行限制。此外,本文所用的措辞和术语是出于描述的目的,而不应被视为限制。本文使用“包括”、“包含”、“具有”、“含有”、“涉及”和其变型形式旨在涵盖其后列出的项目及其等同物以及附加项目。对“或”的引用可以被理解为是包含性的,使得使用“或”描述的任何术语可以指示所述术语中的单个、多于一个和全部中的任何一种。对前和后、右和左、顶部和底部、上部和下部以及垂直和水平的任何引用是为了便于描述,而不是为了将本系统和方法或它们的分量限制成任何一个位置或空间取向。

图1示出了耳机组的一个示例。耳机100包括两个听筒,即右耳罩102和左耳罩104,二者分别联接到右叉架组件108和左叉架组件110,并且由头带106互连。右耳罩102和左耳罩104分别包括右耳罩垫112和左耳罩垫114。虽然示例性耳机100被示出为具有听筒,而该听筒具有适配在用户耳部周围或之上的耳罩垫,但在其他示例中,这些软垫可位于耳部上,或者可包括突出到用户耳道的一部分中的耳塞部分,或者可包括另选的物理布置。如下文更详细讨论的,耳罩102、104中的任一者或两者可包括一个或多个麦克风。虽然图1所示的示例性耳机100包括两个听筒,但一些示例可仅包括仅用于头部的一侧上的单个听筒。另外,尽管图1所示的示例性耳机100包括头带106,但其他示例可包括不同的支撑结构以将一个或多个耳机(例如,耳罩、入耳式结构等)保持在用户的耳朵附近,例如,耳塞可包括被配置为将耳塞保持在用户的耳朵的一部分内的形状和/或材料,或者个人扬声器系统可包括用于将声学驱动器支撑和保持在用户的耳朵、肩膀等附近的颈带。

图2从左侧示出了耳机100并且示出了左耳罩104的细节,该左耳罩包括一对前麦克风202和后麦克风206,该前麦克风可更靠近耳罩的前边缘204,该后麦克风可更靠近耳罩的后边缘208。右耳罩102可附加地或另选地具有类似的前麦克风和后麦克风的布置,但在示例中,这两个耳罩可在麦克风的数量或放置方面具有不同的布置。另外,各种示例可具有更多或更少的前麦克风202,并且可具有更多、更少或不具有后麦克风206。虽然在各个附图中示出了麦克风并且用附图标号(诸如附图标号202、206)标记,但在一些示例中,附图所示的视觉元件可表示声学端口,其中声学信号进入以最终到达麦克风202、206,这些麦克风可以是内部的并且从外部物理地不可见。在示例中,麦克风202、206中的一者或多者可邻近声学端口的内部或者可从声学端口移动一定距离,并且可包括声学端口和相关联的麦克风之间的声波导。

来自麦克风的信号与阵列处理组合以有利地以在一个实例中最大化用户的语音以提供主信号并在另一个实例中最小化用户的语音以提供参考信号的方式控制波束和零值。参考信号与周围环境噪声相关,并且以自适应滤波器的参考的形式被提供。自适应滤波器修改主信号以移除与参考信号相关的分量,例如噪声相关信号,并且自适应滤波器提供近似于用户的语音信号的输出信号。可如下文更详细讨论的那样进行附加处理,并且可组合来自右侧和左侧(即,双耳)的麦克风信号,同样如下文更详细讨论的。另外,可有利地在不同子频带中处理信号以增强降噪的有效性,即相比于噪声增强用户的语音。其中用户的语音分量被增强而其他分量被减少的信号的产生在本文中通常被称为语音拾取、语音选择、语音隔离、语音增强等。如本文所使用的术语“声音”、“语音”、“通话”及其变型可互换使用,而不考虑此类语音是否涉及使用声带。

拾取用户的语音的示例可操作或依赖于环境、音质、声音特征和独特的使用方面的各种原理,例如佩戴或放置在用户(其语音将被检测)的头部的每一侧的听筒。例如,在头戴式耳机环境中,用户的语音通常源自与头戴式耳机的右侧和左侧对称的点,并且将基本上同时以基本上相同的相位基本上相同的振幅到达右前麦克风和左前麦克风两者,而背景噪声(包括来自其他人的语音)将倾向于在右侧和左侧之间不对称,在振幅、相位和时间上具有变化。

图3是处理麦克风信号以产生输出信号的示例性信号处理系统300的框图,该输出信号包括相对于背景噪声和其他说话者增强的用户语音分量。一组多个麦克风302将声学能量转换成电子信号304并且将信号304提供给两个阵列处理器306、308中的每一个。信号304可以是模拟形式。另选地,一个或多个模数转换器(adc)(未示出)可首先转换麦克风输出,使得信号304可以是数字形式。

阵列处理器306、308应用阵列处理技术,诸如相控阵列、延迟相加技术,并且可利用最小方差无失真响应(mvdr)和线性约束最小方差(lcmv)技术来调整该组麦克风302的响应性,以增强或拒绝来自各个方向的声学信号。波束形成增强来自特定方向或方向范围的声学信号,而零点控制减少或拒绝来自特定方向或方向范围的声学信号。

第一阵列处理器306是波束形成器,其用于最大化该组麦克风302在用户嘴部方向上(例如,指向听筒的前面和略微下方)的声学响应,并提供主信号310。由于波束形成阵列处理器306,主信号310包括由于用户语音而比任何单独的麦克风信号304更高的信号能量。

第二阵列处理器308朝向用户的嘴部控制零点并提供参考信号312。参考信号312包括由于用户的语音而引起的最小(如果有的话)信号能量,因为零点指向用户的嘴部。因此,参考信号312基本上由由于背景噪声而引起的分量和并非由于用户语音而引起的声学源组成,即,参考信号312是与没有用户语音的声学环境相关的信号。

在某些示例中,阵列处理器306是在用户的嘴部方向上增强声学响应的超指向性近场波束形成器,并且阵列处理器308是在用户的嘴部方向上抑制零点(即,减少声学响应)的延迟相加算法。

主信号310包括用户语音分量并且包括噪声分量(例如,背景、其他说话者等),而参考信号312基本上仅包括噪声分量。如果参考信号312几乎与主信号310的噪声分量相同,则可通过简单地从主信号310中减去参考信号312来移除主信号310的噪声分量。然而,在实施过程中,主信号310和参考信号312的噪声分量不相同。相反,参考信号312与主信号310的噪声分量相关,如本领域技术人员将理解的,因此可使用自适应过滤通过使用与噪声分量相关的参考信号312来从主信号310中移除至少一些噪声分量。

主信号310和参考信号312被提供给自适应滤波器314并由其接收,该自适应滤波器试图从主信号310中移除与用户语音不相关的分量。具体地,自适应滤波器314试图移除与参考信号312相关的分量。本领域已知的许多自适应滤波器被设计成移除与参考信号相关的分量。例如,某些示例包括归一化最小二乘均方(nlms)自适应滤波器或递归最小二乘(rls)自适应滤波器。自适应滤波器314的输出是语音估计信号316,其表示用户语音信号的近似值。

示例性自适应滤波器314可包括结合各种自适应技术(例如,nlms、rls)的各种类型。自适应滤波器通常包括数字滤波器,该数字滤波器接收与主信号的不需要的分量相关的参考信号。数字滤波器尝试从参考信号中生成对主信号中不需要的分量的估计。根据定义,主信号的不需要的分量是噪声分量。数字滤波器对噪声分量的估计是噪声估计。如果数字滤波器产生良好的噪声估计,则可通过简单地减去噪声估计来有效地从主信号中移除噪声分量。另一方面,如果数字滤波器未生成对噪声分量的良好估计,则这种减法可能无效或者可能降低主信号,例如增加噪声。因此,自适应算法与数字滤波器并行操作,并且以例如改变权重或滤波器系数的形式对数字滤波器进行调节。在某些示例中,自适应算法可在已知仅具有噪声分量时(即,在用户不说话时)监测主信号,并且调整数字滤波器以生成与主信号匹配的噪声估计,此时该主信号仅包括噪声分量。

自适应算法可通过各种手段知道用户何时没有说话。在至少一个示例中,系统在触发语音增强之后强制执行暂停或静音时段。例如,用户可能需要按下按钮或说出唤醒命令,然后暂停,直到系统向用户指示其已准备好。在所需的暂停期间,自适应算法监测不包括任何用户语音的主信号,并且使滤波器适应于背景噪声。然后,当用户说话时,数字滤波器生成良好的噪声估计,将其从主信号中减去以生成语音估计,例如,语音估计信号316。

在一些示例中,自适应算法可基本上连续更新数字滤波器,并且可在检测到用户正在说话时冻结滤波器系数,例如暂停调整。另选地,自适应算法可被禁用,直到需要语音增强,然后仅在检测到用户不说话时更新滤波器系数。检测用户是否正在说话的系统的一些示例在2017年3月20日提交的标题为“systemsandmethodsofdetectingspeechactivityofheadphoneuser(耳机用户语音活动检测的系统与方法)”的共同未决的美国专利申请号15/463,259中有所描述,该专利申请据此全文以引用方式并入本文。

在某些示例中,自适应滤波器所应用的权重和/或系数可通过并行或后台进程来建立或更新。例如,附加自适应滤波器可并行于自适应滤波器314操作,并且在后台中连续更新其系数,即,不影响图3的示例性系统300中所示的有源信号处理,直到附加自适应滤波器提供更好的语音估计信号。附加自适应滤波器可被称为后台或并行自适应滤波器,并且当并行自适应滤波器提供更好的语音估计时,可将并行自适应滤波器中使用的权重和/或系数复制到有源自适应滤波器,例如自适应滤波器314。

在某些示例中,可通过其他方法或通过除上文讨论那些之外的其他部件来导出参考信号诸如参考信号312。例如,可从对用户语音的响应性降低的一个或多个单独的麦克风(诸如后置麦克风,例如后麦克风206)导出参考信号。另选地,可使用波束形成技术引导宽波束远离用户嘴部来从该组麦克风302导出参考信号,或者可在没有阵列或波束形成技术的情况下组合参考信号以对声学环境作出响应,而一般不考虑其中所包括的用户语音分量。

示例性系统300可有利地应用于耳机系统(例如,耳机100),以便以增强用户语音和降低背景噪声的方式拾取用户语音。例如,并且如下文更详细地讨论的,来自麦克风202(图2)的信号可由示例性系统300处理,以提供具有相对于背景噪声增强的语音分量的语音估计信号316,该语音分量表示来自用户(即,耳机100的佩戴者)的语音。如上所述,在某些示例中,阵列处理器306是在用户的嘴部方向上增强声学响应的超指向性近场波束形成器,并且阵列处理器308是在用户的嘴部方向上抑制零点(即,减少声学响应)的延迟相加算法。示例性系统300示出了用于从一组麦克风302进行单耳语音增强的系统和方法。下文更详细地讨论了系统300的至少包括麦克风的两个阵列(例如,右阵列和左阵列)的双耳处理的变型、通过频谱处理进行进一步语音增强以及通过子频带对信号进行单独处理。

图4是用于产生输出信号的信号处理系统400的另一个示例的框图,该输出信号包括相对于背景噪声和其他说话者增强的用户语音分量。图4类似于图3,但还包括在自适应滤波器314的输出处执行的频谱增强操作404。

如上所述,示例性自适应滤波器314可生成噪声估计,例如噪声估计信号402。如图4所示,语音估计信号316和噪声估计信号402可被提供给频谱增强器404并由其接收,该频谱增强器增强语音的短时频谱振幅(stsa),从而进一步降低输出信号406中的噪声。可在频谱增强器404中实现的频谱增强的示例包括频谱相减技术、最小均方误差技术和维纳滤波器技术。虽然自适应滤波器314减少了语音估计信号316中的噪声分量,但是经由频谱增强器404的频谱增强可进一步改善输出信号406的语音噪声比。例如,自适应滤波器314可在噪声源更少的情况下,或者在噪声是固定的(例如,噪声特性基本上恒定)时更好地执行。频谱增强可在存在更多噪声源或改变噪声特性时进一步改善系统性能。因为自适应滤波器314生成噪声估计信号402以及语音估计信号316,所以频谱增强器404可使用它们的频谱内容对两个估计信号进行操作,以进一步增强输出信号406的用户语音分量。

如上所述,示例性系统300、400可在数字域中操作并且可包括模数转换器(未示出)。另外,当在窄带信号而不是宽带信号上操作时,示例性系统300、400中包括的部件和进程可实现更好的性能。因此,某些示例可包括子频带过滤以允许由示例性系统300、400处理一个或多个子频带。例如,当在各个子频带上操作时,波束形成、零点控制、自适应过滤和频谱增强可表现出增强的功能。子频带可在示例性系统300、400产生单个输出信号的操作之后一起合成。在某些示例中,可过滤信号304以移除人类语音的典型频谱之外的内容。另选地或除此之外,可采用示例性系统300、400对子频带进行操作。此类子频带可在与人类语音相关联的频谱内。除此之外或另选地,示例性系统300、400可被配置为忽略与人类语音相关联的频谱之外的子频带。除此之外,虽然上文仅参考单组麦克风302讨论了示例性系统300、400,但在某些示例中,可能存在其他组的麦克风,例如左侧的一组和右侧的另一组,可将示例性系统300、400的其他方面和示例应用于这些组,并且可组合示例性系统300、400的其他方面和示例,以提供改进的语音增强,其中的至少一个示例将参考图5更详细地讨论。

图5是示例性信号处理系统500的框图,该信号处理系统包括右麦克风阵列510、左麦克风阵列520、子频带滤波器530、右波束处理器512、右零点处理器514、左波束处理器522、左零点处理器524、自适应滤波器540、组合器542、组合器544、频谱增强器550、子频带合成器560和加权计算器570。右麦克风阵列510包括用户右侧上的多个麦克风,例如,这些麦克风耦接到一组耳机100上的右听筒102(见图1至图2),对用户右侧上的声学信号作出响应。左麦克风阵列520包括用户左侧上的多个麦克风,例如,这些麦克风耦接到一组耳机100上的左听筒104(见图1至图2),对用户左侧上的声学信号作出响应。右麦克风阵列510和左麦克风阵列520中的每一者可包括与图2中所示的一对麦克风202相当的单对麦克风。在其他示例中,可在每个听筒上提供和使用两个以上的麦克风。

在图5所示的示例中,根据本文所公开的方面和示例用于语音增强的每个麦克风将信号提供给子频带滤波器530,该子频带滤波器将每个麦克风的频谱分量分离成多个子频带。来自每个麦克风的信号可以模拟形式来处理,但优选地通过一个或多个adc转换为数字形式,这些adc与每个麦克风相关联,或与子频带滤波器530相关联,或以其他方式作用于麦克风和子频带滤波器530之间或其他位置的每个麦克风的输出信号。因此,在某些示例中,子频带滤波器530是作用于从每个麦克风导出的数字信号的数字滤波器。可通过对dsp进行配置和/或编程以执行所示或所讨论的任何部件的功能或充当该部件来在数字信号处理器(dsp)中实现adc、子频带滤波器530和示例性系统500的其他部件中的任一者。

右波束处理器512是波束形成器,其以形成朝向用户嘴部(例如,在用户右耳的下方和前面)的声学响应波束的方式作用于来自右麦克风阵列510的信号,以提供右主信号516,之所以这样称谓是因为其包括由于波束指向用户嘴部而增大的用户语音分量。右零点处理器514以形成朝向用户嘴部的声学无响应零点的方式作用于来自右麦克风阵列510的信号,以提供右参考信号518,之所以这样称谓是因为其包括由于零点指向用户嘴部而减少的用户语音分量。相似地,左波束处理器522提供来自左麦克风阵列520的左主信号526,并且左零点处理器524提供来自左麦克风阵列520的左参考信号。右主信号516和右参考信号518与上文相对于图3至图4的示例性系统300、400讨论的主信号和参考信号相当。同样,左主信号526和左参考信号528与上文相对于图3至图4的示例性系统300、400讨论的主信号和参考信号相当。

示例性系统500处理主信号和参考信号的左右双耳组,相比于单声道示例性系统300、400,这可改善性能。如下文更详细地讨论,加权计算器570可影响将左右主信号和参考信号中的每一者提供给自适应滤波器540的程度,甚至仅提供左右信号集中的一者的程度,在这种情况下,系统500的操作被减少到单声道情况,类似于示例性系统300、400。

组合器542将双耳主信号(即右主信号516和左主信号526)组合例如通过将它们相加在一起,以提供组合主信号546。右主信号516和左主信号526中的每一者具有在用户讲话时指示用户的语音的可比语音分量,这至少是因为右麦克风阵列510和左麦克风阵列520相对于用户的嘴部大约对称且等距。由于这种物理对称性,来自用户的嘴部的声学信号基本上同时以基本上相等的能量和基本上相同的相位到达右麦克风阵列510和左麦克风阵列520中的每一者。因此,右主信号516和左主信号526内的用户的语音分量可彼此基本上对称并且在组合主信号546中彼此增强。各种其他声学信号(例如,背景噪声和其他讲话者)往往不是关于用户的头部左右对称,并且不会在组合主信号546中彼此增强。为了清楚起见,右主信号516和左主信号526内的噪声分量传送到组合主信号546,但不以用户的语音分量可传送的方式彼此增强。因此,用户的语音分量在组合主信号546中可比分别在右主信号516和左主信号526中的任一者中更广泛。另外,由加权计算器570施加的加权可影响右主信号516和左主信号526中的每一者内的噪声和语音分量是否在组合主信号546中更多或更少地表示。

组合器544将右参考信号518和左参考信号528进行组合以提供组合参考信号548。在示例中,组合器544可利用右参考信号518和左参考信号528之间的差值(例如通过从另一个中减去一个),以提供组合参考信号548。由于右零点处理器514和左零点处理器524的零控动作,右参考信号518和左参考信号528中的每一者中存在最小限度的(如果有的话)用户语音分量。因此,组合参考信号548中存在最小限度的(如果有的话)用户语音分量。对于组合器544为减法器的示例,由于如上所述用户的语音分量的相对对称性,在右参考信号518和左参考信号528中的每一者中存在的任何用户语音分量都被减法器减少。因此,组合参考信号548基本上不具有用户语音分量,而是基本上完全由噪声(例如,背景噪声、其他讲话者)组成。如上,由加权计算器570施加的加权可影响左噪声分量或右噪声分量是否在组合参考信号548中更多或更少地表示。

自适应滤波器540相当于图3至图4的自适应滤波器314。自适应滤波器540接收组合主信号546和组合参考信号548,并且施加具有自适应系数的数字滤波器以提供语音估计信号556和噪声估计信号558。如上所述,自适应系数可在强制暂停期间建立,每当用户在说话时其可被冻结,每当用户不说话时可被自适应地更新,或者可通过后台或并行处理间隔地更新,或者可通过上述任何组合来建立或更新。

另外,如上所述,参考信号(例如,组合参考信号548)不一定等于存在于主信号(例如,组合主信号546)中的噪声分量,但与主信号中的噪声分量基本上相关。自适应滤波器540的操作是适应或“学习”最佳数字滤波器系数,以将参考信号转换为基本上类似于主信号中的噪声分量的噪声估计信号。然后自适应滤波器540从主信号中减去噪声估计信号以提供语音估计信号。在示例性系统500中,自适应滤波器540接收到的主信号是从右和左波束形成的主信号(516,526)导出的组合主信号546,并且自适应滤波器540接收到的参考信号是从右和左零控参考信号(518,528)导出的组合参考信号548。自适应滤波器540处理组合主信号546和组合参考信号548以提供语音估计信号556和噪声估计信号558。

如上所述,当存在较少和/或固定噪声源时,自适应滤波器540可生成更好的语音估计信号556。然而,噪声估计信号558可基本上表示环境噪声的频谱内容,即使存在更多或变化的噪声源,并且系统500的进一步改进也可通过频谱增强来实现。因此,图5所示的示例性系统500以与上文结合图4的示例性系统400更详细讨论的相同方式向频谱增强器550提供语音估计信号556和噪声估计信号558,这可提供改善的语音增强。

如上所述,在示例性系统500中,来自麦克风的信号被子频带滤波器530分成子频带。图5所示的示例性系统500的后续分量中的每一者逻辑地表示用于处理多子频带的多个此类分量。例如,子频带滤波器530可处理麦克风信号以提供限于特定范围的频率,并且在该范围内可提供多个子频带,多个子频带组合在一起涵盖整个范围。在一个具体示例中,子频带滤波器可在0至8,000hz的频率范围内提供64个子频带,每个子频带覆盖125hz。可为所关注的最高频率选择模拟-数字采样率,例如,对于至多8khz的频率范围,16khz的采样率满足奈斯奎特-香农(nyquist-shannon)采样定理。

因此,为了示出图5所示的示例性系统500的每个分量表示多个此类分量,应当考虑,在一个具体示例中,子频带滤波器530可提供每个覆盖125hz的64个子频带,并且这些子频带中的两个可包括第一子频带(例如,对于1,500hz至1,625hz的频率)和第二子频带(例如,对于1,625hz至1,750hz的频率)。第一右波束处理器512将作用于第一子频带,并且第二右波束处理器512将作用于第二子频带。第一右零点处理器514将作用于第一子频带,并且第二右零点处理器514将作用于第二子频带。从子频带滤波器530的输出到子频带合成器560的输入,图5所示的所有分量同理,其用于将所有子频带重新组合成单个语音输出信号562。因此,在至少一个示例中,右波束处理器512、右零点处理器514、左波束处理器522、左零点处理器524、自适应滤波器540、组合器542、组合器544和频谱增强器550各有64个。其他示例可包括更多或更少的子频带,或者可不在子频带上操作,例如不包括子频带滤波器530和子频带合成器560。可实现任何采样频率、频率范围和子频带的数量以适应变化的系统要求、操作参数和应用。另外,每个分量的倍数仍可在单个数字信号处理器或其他电路,或一个或多个数字信号处理器和/或其他电路的组合中实现或执行。

加权计算器570可有利地改善示例性系统500的性能,或者可在各种示例中被完全省略。加权计算器570可控制将多少左信号或右信号分解成组合主信号546或组合参考信号548或两者。加权计算器570建立由组合器542和组合器544施加的因子。例如,组合器542可默认将右主信号516直接添加到左主信号526,即,具有相等加权。另选地,组合器542可提供组合主信号546作为由右主信号516的较小部分和由左主信号526的较大部分形成的组合,或反之亦然。例如,组合器542可将组合主信号546提供为使得40%由右主信号516形成、60%由左主信号526形成的组合,或者任何其他合适的不等组合。加权计算器570可监视和分析任何麦克风信号—诸如右麦克风510和左麦克风520中的一者或多者,或者可监视和分析任何主信号或参考信号—诸如右主信号516和左主信号526和/或右参考信号518和左参考信号528,以确定组合器542、544中的任一者或两者的适当加权。

在某些示例中,加权计算器570分析右信号和左信号中的任一者的总信号振幅或能量,并且无论哪一侧具有较低的总振幅或能量,进行更重地加权。例如,如果一侧具有显著更高的振幅,则这可指示影响该侧的麦克风阵列的风或其他噪声源的存在。因此,将该侧的主信号的权重减少为组合主信号546可有效地降低组合主信号546中的噪声—例如增加了语音-噪声比,并且可改善系统的性能。在类似情况下,加权计算器570可对组合器544施加类似加权,使得右侧参考信号518或左侧参考信号528中的一者更严重地影响组合参考信号548。

可向各种其他部件、设备、特征部或功能件提供语音输出信号562。例如,在至少一个示例中,语音输出信号562被提供给虚拟个人助理以用于进一步处理,包括语音识别和/或语音转文字处理,其还可被提供用于互联网搜索、日历管理、个人通信等。语音输出信号562可被提供用于直接通信目的,诸如电话呼叫或无线电传输。在某些示例中,语音输出信号562可以数字形式提供。在其他示例中,语音输出信号562可以模拟形式提供在某些示例中,语音输出信号562可被无线地提供给另一设备,诸如智能电话或平板电脑。无线连接可通过或近场通信(nfc)标准或足以以各种形式传输语音数据的其他无线协议来进行。在某些示例中,语音输出信号562可通过有线连接来传送。本文所公开的方面和示例可有利地应用于在环境中提供来自佩戴头戴式耳机、耳机、耳塞等的用户的语音增强语音输出信号,该环境可具有另外的声源,诸如其他讲话者、机械设备、航空和飞机噪音,或任何其他背景噪声源。

在上述示例性系统300、400、500以及下文讨论的另外的示例性系统中,增强的用户语音分量部分地通过使用波束形成技术被提供给主信号。在某些示例中,波束形成器(例如,阵列处理器306、512、522)使用超指向性近场波束形成以在耳机应用中朝用户的嘴部控制波束。耳机环境具有挑战性的部分原因在于,在耳机形状因数方面通常没有太多空间来容纳多个麦克风。传统观点认为,当麦克风的数量比噪声源的数量多一倍时,需要用波束形成技术来有效地隔离其他源(例如,噪声源)或其效果最好。然而,耳机形状因数未能为足够多的麦克风留出空间来满足在通常包括多个噪声源的嘈杂环境中的这种传统条件。因此,本文示例性系统中讨论的波束形成器的某些示例实现超指向性技术并且利用用户的语音的近场方面,例如,用户的语音的直接路径是麦克风(相对较少,例如,在一些情况下为两个)由于用户的嘴部的接近而接收到的信号的主要分量,而不是趋于更远且非主导的噪声源。另外,如上所述,某些示例包括各种零控部件(例如,阵列处理器308、514、524)的延迟相加的具体实施。此外,耳机应用中的传统系统在存在风噪声的情况下未能提供足够的结果。本文的某些示例引入了双耳加权(例如,通过作用于组合器542、544上的加权计算器570),以在必要时改变两侧之间的加权,这可部分地适应和补偿有风的情况。因此,本文提供的某些方面和示例通过使用超指向性近场波束形成、延迟相加零点控制、双耳加权因子或这些内容的任何组合中的一者或多者,在耳机/头戴式耳机应用方面提供增强的性能。

图6示出了基本上等同于图5的系统500的另一个示例性系统600。在图6中,右波束处理器512和左波束处理器522被示出为单个块,例如,波束处理器602。类似地,右零点处理器514和左零点处理器524被示出为单个块,例如,零点处理器604。附图中所示的变型是为了方便和简单起见,包括以下附图。波束处理器602产生右主信号516和左主信号526的功能可基本上与先前所讨论的相同。同样,零点处理器604产生右参考信号518和左参考信号528的功能可基本上与先前所讨论的相同。图6还示出了加权计算器570与共同形成混频器606的组合器542、544的协作性质。混频器606的功能可基本上与先前相对于其部件(例如,加权计算器570和组合器542、544)所描述的相同。

图7a示出了基本上类似于系统500、600的另一个示例性系统700,其具有适应多个参考信号输入(例如,右参考输入和左参考输入)的自适应滤波器540a。右参考信号518和左参考信号528主要表示不包括用户的语音的声学环境,例如,信号具有如先前所描述的经减少或抑制的用户语音分量,但在一些示例中,右声学环境和左声学环境可显著不同,诸如在风或其他源在一侧或另一侧上可能更强的情况下。因此,在一些示例中,自适应滤波器540a可在不混合的情况下适应两个参考信号(例如,右参考信号518和左参考信号528,)以增强降噪性能。

在一些示例中,多参考自适应滤波器540a可如先前所描述的向频谱增强器550提供噪声估计(例如,相当于噪声估计信号558)。在其他示例中,频谱增强器550可从混频器606接收组合参考信号548(例如,噪声参考信号),如图7a所示。在其他示例中,可以各种其他方式向频谱增强器550提供噪声估计,该噪声估计可包括右参考信号518和左参考信号528、组合参考信号548、由自适应滤波器540a提供的噪声估计信号,和/或其他信号的各种组合。

图7a中还示出了为可包括在各种示例(诸如当向频谱增强器550提供噪声参考信号(如图所示)而不是噪声估计信号时)中的均衡块702。均衡块702被配置为使语音估计信号556与组合参考信号548均衡。如上所述,语音估计信号556可由自适应滤波器540a从组合主信号546提供,该组合主信号可受各种阵列处理技术(例如,图10中的a或b波束形成,在一些示例中可为mvdr或延迟相加处理)影响,并且组合参考信号548可来自混频器606,使得频谱增强器550接收到的语音估计信号和噪声参考信号可具有施加在不同子频带中的不同频率响应和/或不同增益。在某些示例中,可在用户不说话时计算(选择、适应等)均衡块702的设定(例如,系数)。

例如,当用户不说话时,语音估计信号556和组合参考信号548中的每一者可表示基本上等同的声学内容(例如,周围的声学内容),但由于不同的处理而具有不同的频率响应,使得在此期间(无用户语音)所计算的均衡设定可改善频谱增强器550的操作。因此,在一些示例中,当语音活动检测器指示耳机用户不说话(例如,vad=0)时,可计算均衡块702的设定。当用户开始说话(例如,vad=1)时,均衡块702的设定可被冻结,并且当用户说话时使用直到该时间为止所计算的任何均衡设定。在一些示例中,均衡块702可结合异常值舍弃(例如,舍弃看似异常的数据),并且可实施一个或多个最大或最小均衡水平,以避免错误均衡和/或避免施加过度均衡。

图7b中示出了用于适应多个参考输入的自适应滤波器540a的至少一个示例。右参考信号518和左参考信号528可分别由右滤波器710和左滤波器720过滤,这些参考信号的输出被组合器730进行组合以提供噪声估计信号732。从组合主信号546中减去噪声估计信号732(相当于先前所描述的噪声估计信号558)以提供语音估计信号556。语音估计信号556可被提供为误差信号给一个或多个自适应算法(例如,nlms)以更新右滤波器710和左滤波器720的滤波器系数。

在各种示例中,语音活动检测器(vad)可提供用于指示用户何时说话的标志,并且自适应滤波器540a可接收vad标志,并且在一些示例中,自适应滤波器540a可在用户正在说话和/或在用户开始说话不久之后暂停或冻结自适应(例如,过滤器710、720的自适应)。

在各种示例中,可提供远端语音活动检测器并且可提供用于指示远程用户(例如,会话伙伴)何时说话的标志,并且自适应滤波器540a可接收该标志,并且在一些示例中,自适应滤波器540a可在该远程用户正在说话和/或在他/她开始说话不久之后暂停或冻结自适应(例如,过滤器710、720的自适应)。

在一些示例中,一个或多个延迟可包括在一条或多条信号路径中。在某些示例中,此类延迟可适应vad检测用户语音活动的时间延迟,例如使得在处理包括用户语音分量的信号部分之前发生适应暂停。在某些示例中,此类延迟可对准各种信号以适应两个信号之间的处理差异。例如,组合主信号546由自适应滤波器540a在被混频器606处理之后接收,而右参考信号518和左参考信号528由自适应滤波器540a从零点处理器604接收。因此,在到达自适应滤波器540a之前,延迟可包括在信号546、518、528中的任何或全部信号中,使得信号546、518、528各自在适当的时间被自适应滤波器540a处理(例如,对准)。

在各种示例中,可提供风检测能力(其示例在下文更详细地讨论),并且可向自适应滤波器540a(和/或混频器606)提供一个或多个标志(例如,指示器信号),该标志可通过例如更严重地加权左侧或右侧、切换至单耳操作,和/或冻结滤波器的自适应来响应风的指示。

在一些声学环境中,增强来自某些方向的声学响应的各种形式可表现得优于其他形式。因此,一个或多个形式的波束形成器602可比另一形式更适于在某些环境和/或在某些条件下。例如,在有风条件期间,延迟相加方法可提供比超指向性近场波束形成更好的用户语音分量增强。因此,在一些示例中,可提供各种形式的波束处理器602,并且可在各种示例中分析、选择和/或混合各种波束形成输出信号。

关于术语,“延迟相加”一般是指随时间对准信号并组合信号的任何形式,无论是为了增强还是减少信号分量。对准信号可意味着例如延迟一个或多个信号以适应麦克风与声源的距离的差异,以使麦克风信号对准,如同声学信号同时到达每个麦克风一样,以适应从声源到每个麦克风的不同传播延迟等。将对准信号进行组合可包括将它们相加以增强对准分量并且/或者可包括减去它们以抑制或减少对准分量。因此,在各种示例中,延迟相加可用于增强或减少响应,并且因此可用于波束控制或零点控制,例如关于如本文所述的波束处理器602和零点处理器604。当减少对准信号分量(例如,零点控制以减少用户语音分量)时,在一些示例中可使用术语“延迟相减”。

图8a示出了类似于图6的系统600的另一个示例性系统800,其包括向选择器836提供多个波束形成输出的波束处理器602a。例如,波束形成器602a可如先前所讨论的使用某种形式的阵列处理(诸如最小方差无失真响应(mvdr))来提供右主信号516和左主信号526,并且还可通过不同形式的阵列处理(诸如延迟相加)来提供右辅信号816和左辅信号826。右主信号516和左主信号526以及右辅信号816和左辅信号826中的每一者可包括增强的语音分量,但在各种声学环境和/或使用情况下,主信号516、526可提供比辅信号816、826更高质量的语音分量和/或语音-噪声比,而在其他声学环境中,辅信号816、826可提供更高质量的语音分量和/或语音-噪声比。

在有风条件下,mvdr响应信号可变得饱和(例如,高量值),而延迟相加响应信号可更适应风条件。在较少风条件下,延迟相加响应信号的量值可大于mvdr响应信号。因此,在一些示例中,可在通过不同形式的阵列处理提供的两个信号之间进行信号幅值(或信号能量水平)的比较,以确定是否存在有风条件和/或确定哪个信号可具有用于进一步处理的优选语音分量。

继续参考图8a,主信号516、526中的一者或多者(由第一阵列技术(例如,mvdr)形成)可通过选择器836与辅信号816、826中的一者或多者(由第二阵列技术(例如,延迟相加)形成)进行比较,该选择器可确定主信号或辅信号中的哪个(或者主信号或辅信号的共混或混合)被提供给混频器606,并且可确定在左侧或右侧的任一者或两者上是否存在风条件,并且可提供风标志848以指示风条件的确定。由选择器836提供给混频器606的右信号和左信号通过图8a中的附图标号846共同识别。

参考图8b示出了选择器836的至少一个示例的更多细节。参考右侧信号,右主信号516(通过第一阵列处理技术由右麦克风阵列510形成)可通过比较块840r与右辅信号816进行比较以确定哪个具有更高的信号能量(和/或量值)。在一些示例中,信号能量比较可通过比较块840r执行以检测有风条件。例如,如果主信号516由mvdr技术提供,并且辅信号816由延迟相加技术提供,则在一些情况下,当风水平超过某个阈值时,与辅信号816相比,主信号516可具有相对高的信号电平。因此,主信号516中的信号能量(emvdr)可与辅信号816(ep)中的信号能量进行比较(在一些示例中,延迟相加技术可提供被认为类似于压力麦克风信号的信号)。如果主信号516的能量超过辅信号816的能量的阈值(例如,emvdr>th×ep,其中th为阈值因子),则比较块840r可指示右侧上的有风条件并且可向系统的其他部件提供风标志848r。在一些示例中,信号能量的相对比较可指示风条件存在的强烈程度,例如,在一些情况下,比较块840r可施加多个阈值以检测无风、轻风、平均风、大风等。

在各种示例中,比较块840r还控制主信号516和辅信号816中的哪一者或这两者的混合作为输出信号846r被提供给混频器606以用于进一步处理。因此,比较块840r可确定加权因子α,该加权因子对组合器844r产生关于主信号516和辅信号816可组合的程度以提供输出信号846r的影响。例如,当主信号516的能量相对于辅信号较低时,这可指示风不存在(或相对较轻),并且在一些示例中,形成主信号516的阵列处理可被认为在无风条件下具有更好的性能,并且因此可将加权因子设定为一,α=1,以使组合器844r提供主信号516作为输出信号846r并且拒绝辅信号816。当检测到有风条件时,并且在一些示例中,当检测到大风条件时,权重因子可被设定为零,α=0,以使组合器844r提供辅信号816作为输出信号846r并且拒绝主信号516。

在一些示例中,一个或多个附加阈值可由比较块840r施加,并且可将加权因子α设定为介于零或一之间的某个中间值,0≤α≤1。在一些示例中,可由比较块840r施加时间常数或其他平滑操作,以防止当信号能量接近阈值(例如,在高于和低于阈值质之间变化)时,系统参数(例如风标志848r、加权因子α)的重复切换。在一些示例中,当信号能量超过阈值时,比较块840r可在一段时间段内逐渐调整加权因子α,以最终获得新值,从而防止输出信号846r的突然变化。在一些示例中,由组合器844r进行的混合可通过其他混合参数来控制。在一些示例中,选择器836可提供比所接收的相应主信号和辅信号更高的量值(例如,放大的)的右输出信号和左输出信号846。

如上文更详细地讨论,系统中的任一个中的处理可被子频带分开。因此,在各种示例中,选择器836可通过子频带处理主信号和辅信号。在一些示例中,比较块840r可在子频带的子集内将主信号516与辅信号816进行比较。例如,有风条件可能更显著地影响某些子频带或一系列子频带(例如,特别是处于较低频率),并且比较块840r可比较那些子频带而不是其他子频带中的信号能量。

此外,不同的阵列处理技术可具有可在主信号516中相对于辅信号816反映的不同频率响应。因此,一些示例可以对主信号516和/或辅信号816中的任一者(或两者)应用均衡,以使这些信号相对于彼此均衡,如在图8b中由eq842r所示。

在某些示例中,如上讨论的各种阈值因子(可能被子频带分开)可与均衡参数一致地操作,以建立可指示风并且可选择和应用混合参数的条件。因此,利用选择器836可实现宽范围的操作灵活性,并且对此类参数的各种选择和/或编程可允许设计者适应宽范围的操作条件和/或适应变化的系统标准和/或应用。

继续参考图8b,如上讨论的关于右侧信号的各种部件和描述可同样适用于用于处理左侧信号的一组部件,如图所示。因此,在各种示例中,选择器836可提供右输出信号846r和左输出信号846l。在一些示例中,比较块840可协同地操作以在右侧和左侧上应用单个加权因子α或其他混合参数。在其他示例中,右输出信号和左输出信号846可包括它们各自的主信号和辅信号的不同混合(可能在一定限度内)。

在某些示例中,检测到在一侧或另一侧更普遍的风条件可被配置为将整个系统切换到单耳模式,例如,以在少风侧处理信号以便提供语音输出信号562。

如前所述,可将风标志848提供给自适应滤波器540(或540a)并且该自适应滤波器可使用该风标志,例如,该自适应滤波器可响应于风条件而冻结自适应。另外,可将风标志848提供给语音活动检测器,在一些示例中,该语音活动检测器可响应于风条件而改变vad处理。

图9示出了示例性系统900,该系统包括多参考自适应滤波器540a,类似于图7a的系统700的多参考自适应滤波器,并且包括多波束处理器602a和选择器836,类似于图8a的系统800的多波束处理器和选择器。因此,系统900类似于如上所述的系统700、800进行操作,并且提供系统700、800的益处。

图10示出了类似于图9的系统的另一个示例性系统1000,但将选择器836和混频器606示为单个混合块1010(例如,麦克风混频器),因为选择器836和混频器606的操作协同以选择和提供阵列处理信号的加权混合,因此在一些示例中,可被认为具有类似的“混合”目的和/或操作。

在一些示例中,波束处理器602、零点处理器604和混合块1010可共同被认为是处理块1020,该处理块共同接收来自麦克风阵列510、520的信号,并且将主信号和噪声参考信号提供给噪声消除器(例如,自适应滤波器540a),并且可选地提供一个或多个风标志848,以及/或者可应用于频谱增强的噪声估计信号。

根据上述示例性系统,可通过用于检测风的各种处理(例如,在一些示例中通过选择器836的比较块840)来提供风标志848,并且可将该风标志提供给各种其他系统部件,诸如语音活动检测器、自适应滤波器和频谱增强器。另外,这种语音活动检测器还可向自适应滤波器和频谱增强器提供vad标志。在一些示例中,语音活动检测器还可向自适应滤波器和频谱增强器提供噪声标记,该噪声标记可指示何时存在过量噪声。在各种示例中,可通过远程检测器和/或通过本地检测器处理来自远程端的信号来提供远端语音活动标志,并且可将远端语音活动标志提供给自适应滤波器和频谱增强器。在各种示例中,自适应滤波器和频谱增强器可使用风、噪声和语音活动标志来改变它们的处理,例如,切换到单耳处理、冻结滤波器自适应、计算均衡等。

在各种示例中,双耳系统(例如,示例性系统500、600、700、800、900、1000)处理来自一个或多个右麦克风和左麦克风(例如,右麦克风阵列510、左麦克风阵列520)的信号,以提供各种主信号、参考信号、语音估计信号、噪声估计信号等。右处理和左处理中的每一者可在各种示例中独立地操作,并且各种示例可相应地作为并行操作的两个单耳系统操作至某个点,并且可控制其中任一个单耳系统在任何时间终止操作以产生单耳处理系统。在至少一个示例中,通过混频器606将100%加权到右侧或左侧中的任一者(例如,参考图6,组合器542、544仅接受或传递它们各自的右信号,或者仅接受或传递它们的左信号)可实现单耳操作。在其他示例中,可终止一侧(右侧或左侧)的进一步处理,以节省能量和/或避免不稳定性(例如,当从头部移除耳罩时的过度反馈)。

用于切换到单耳操作的条件可包括但不限于在一侧检测到的风、在一侧检测到较小的风、检测到听筒或耳罩已从用户的头部移除(例如,头外检测,如下文更详细地描述)、检测到一侧的故障、检测到一个或多个麦克风中的高噪声、检测到通过一个或多个麦克风或处理块的不稳定传递函数和/或反馈,或任何各种其他条件。另外,某些示例可包括在设计上仅具有单耳处理或本质上仅为单耳的系统,例如,用于头部的单侧,例如或者用作具有单耳语音拾取处理的移动设备、便携式设备或个人音频设备。在上述示例中,可通过忽略图中的“左”部件或“右”部件中的一者及对它们的描述(其中图或描述以其他方式包括左和右)来获得单耳操作或单耳系统的示例。

在某些示例中,双耳系统可包括头上/头外检测,以检测耳机组的任一侧还是两侧从用户的耳朵或头部附近移除,例如戴上或摘下(或在一些情况下,未正确定位),并且在单侧在头外(例如,移除或未正确放置)的情况下,双耳系统可切换到单耳操作(例如,类似于图3至图4,并且可选地包括选择器836以比较不同的阵列处理技术和/或检测单个头上侧的风,并且/或者包括与单耳操作兼容的各种图的其他部件。检测头外条件或不适当的放置条件可包括各种技术。例如,物理检测可包括检测听筒处于停放位置(例如,耳塞经由磁体“停放”到作为系统的一部分的颈部饰件)或存储在壳体中(例如,在无线分离的左右听筒情况下)。其他物理检测可包括通过机械捕获或电接触触发的基于开关的感测,以感测位置或者与用户的头部和/或停放位置的接触。在一些示例中,移除听筒或耳罩可导致降噪(anr)系统的变化或不稳定性,可以各种方式检测这种变化或不稳定性,包括检测指示不稳定性的振荡或音调。此外,移除听筒或耳罩可改变驱动器与内部麦克风(例如,用于反馈anr)和/或外部麦克风(例如,用于前馈anr)的耦合中的频率响应。例如,移除可增加驱动器和外部麦克风之间的声学耦合,并且可减少驱动器和内部麦克风之间的声学耦合。因此,检测到此类耦合的偏移可指示听筒或耳罩被戴上或摘下或者正在被戴上或摘下。在一些情况下,直接测量或监测此类传递函数可能很难,因此在一些示例中,可通过观察反馈回路的行为的变化来间接地监测传递函数的变化。检测个人声学设备的位置的各种方法可包括电容感测、磁感测、红外(ir)感测或其他技术。在一些示例中,可通过检测到两侧(例如,整个耳机组)在头外来触发功率节省模式和/或系统关闭(可选地具有延迟定时器)。

一个或多个头外检测系统的其他方面可见于标题为“on/offheaddetectionofpersonalacousticdevice(个人声学设备开/关头检测)”的美国专利号9,860,626,各自标题为“personalacousticdevicepositiondetermination(个人声学设备位置的确定)”的美国专利号8,238,567、号8,699,719、号8,243,946和号8,238,570,以及标题为“off-headdetectionofin-earheadset(耳机离头检测)”的美国专利号9,894,452中。

除了由自适应滤波器540、540a提供的噪声消除(例如,减少)之外,某些示例可包括回声消除。由于声学驱动器和任何麦克风之间存在耦合,因此回声分量可包括在一个或多个麦克风信号中。可将一个或多个回放信号提供给一个或多个声学驱动器,诸如用于回放音频节目和/或用于收听远端会话伙伴,并且可将回放信号的分量注入到麦克风信号中,例如通过声学或直接耦合,并且可将其称为回声分量。因此,可由回声消除器提供这种回声分量的减少,该回声消除器可对本文所述的各种系统内的信号进行操作,例如,在自适应滤波器540、540a(例如,噪声消除器)进行处理之前或之后。在一些示例中,第一回声消除器可对右侧信号进行操作,而第二回声消除器可对左侧信号进行操作。在一些示例中,一个或多个回声消除器可接收回放信号作为回声参考信号,并且可自适应地过滤回声参考信号以产生估计的回声信号,并且可从主信号和/或语音估计信号中减去估计的回声信号。在一些示例中,一个或多个回声消除器可预过滤回声参考信号以提供第一估计回声信号,然后自适应地过滤第一估计回声信号以提供最终估计回声信号。这种预滤波器可模拟声学驱动器与一个或多个麦克风或者麦克风阵列之间的标称传递函数,并且这种自适应滤波器可适应实际传递函数与标称传递函数的变化。在一些示例中,用于标称传递函数的预过滤可包括将预配置的滤波器系数加载到自适应滤波器中,该预配置的滤波器系数表示标称传递函数。可参考与本申请同日提交并且出于所有目的据此全文以引用方式并入本文的标题为“echocontrolinbinauraladaptivenoisecancellationsystemsinheadsets(双耳自适应噪声消除系统的回波控制)”的美国专利申请号15/925,102获得通过集成到如本文所述的双耳降噪系统来进行回声消除的进一步细节。

某些示例可包括低功率或待机模式以减少能量消耗和/或延长能量源(诸如电池)的寿命。例如,并且如上所述,用户可能需要在通话之前按下按钮(例如,一键通(ptt))或说出唤醒命令。在这种情况下,示例性系统可保持在禁用、待机或低功率状态,直到按下按钮或接收到唤醒命令。在接收到系统需要提供增强语音(例如,按钮按下或唤醒命令)的指示时,可加电、打开或以其他方式激活示例性系统的各种部件。同样如前所述,可强制执行短暂停顿,以基于背景噪声(例如,没有用户的语音)建立自适应滤波器的权重和/或滤波器系数并且/或者由例如加权计算器570或混频器606、836、1010基于各种因素(例如,来自右侧或左侧的风或高噪声)建立双耳加权。附加示例包括各种部件保持在禁用、待机或低功率状态,直到诸如用如上简述的语音活动检测模块检测到语音活动。

在各种示例和组合中,上述系统和方法中的一个或多个可用于捕获耳机用户的语音并相对于背景噪声、回声和其他说话者隔离或增强用户的语音。所述的任何系统和方法及其变型可基于例如麦克风质量、麦克风放置、声学端口、耳机框架设计、阈值、对自适应算法、频谱算法和其他算法的选择、加权因子、窗口大小等,以及可适应不同应用和操作参数的其他标准用不同级别的可靠性来实施。

应当理解,本文公开的系统的方法和部件的任何功能可在数字信号处理器(dsp)、微处理器、逻辑控制器、逻辑电路等或这些部件的任何组合中实施或执行,并且可包括关于任何特定实施的模拟电路部件和/或其他部件。任何合适的硬件和/或软件(包括固件等)可被配置为执行或实施本文公开的方面和示例的部件。

已经在上文描述了至少一个示例的若干方面,应当理解,本领域技术人员将容易想到各种改变、修改和改进。此类改变、修改和改进旨在成为本公开的一部分,并且旨在落入本发明的范围内。因此,上述说明书和附图仅是示例性的,并且本发明的范围应由所附权利要求书的适当构造及其等同内容来确定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1