通过修改的广义特征值波束成形器在音频信号中进行话音增强的制作方法

文档序号:21485007发布日期:2020-07-14 17:10阅读:282来源:国知局
通过修改的广义特征值波束成形器在音频信号中进行话音增强的制作方法

相关申请的交叉引用

本续展专利申请要求序号为no.15/833,977的、2017年12月6日提交的并且题为“通过修改的广义特征值波束成形器在音频信号中进行话音增强”的美国专利申请的优先权和权益,该美国专利申请以其整体通过引用结合于此。

根据一个或多个实施例,本公开一般涉及音频信号处理,并且更具体地,例如涉及用来增强噪声环境中的期望音频信号的系统和方法。



背景技术:

近年来,智能扬声器和其他话音控制的设备和器具已经得到普及。智能扬声器通常包括用于从环境接收音频输入(例如,用户的口头命令)的麦克风的阵列。当在音频输入中检测到目标音频(例如,口头命令)时,智能扬声器可以将检测的目标音频转变为一个或多个命令并且基于命令执行不同的任务。这些智能扬声器的一个挑战是要高效且有效地将目标音频(例如,口头命令)与操作环境中的噪声隔离。在噪声环境(在其中目标音频可来自相对于麦克风的任何方向)中,挑战被加剧。因此,需要用于处理在噪声环境中接收的音频信号的改进的系统和方法。

附图说明

参考以下附图和随后的详细描述,可以更好地理解本公开的各方面及其优点。应当领会,相同的附图标记用于标识在一个或多个附图中说明的相同的元件,附图中,其中的显示是为了说明本公开的实施例的目的,而不是为了限制其的目的。附图中的部件不一定按比例绘制,而是将重点放在清楚地说明本公开的原理上。

图1说明了根据本公开的一个或多个实施例的用于音频处理设备的示例性操作环境。

图2是根据本公开的一个或多个实施例的示例性音频处理设备的框图。

图3是根据本公开的一个或多个实施例的示例性音频信号处理器的框图。

图4a是根据本公开的实施例的示例性目标增强引擎的框图。

图4b是根据本公开的实施例的示例性语音增强引擎的框图。

图5说明了根据本公开的一个或多个实施例的用于执行实时音频信号处理的示例性过程。

具体实施方式

本文中公开了用于检测和增强噪声环境中的目标音频的系统和方法。在各种实施例中,具有多个麦克风的麦克风阵列感测操作环境中的目标音频和噪声并且生成针对每个麦克风的音频信号。本文中公开了结合广义特征向量跟踪的改进的波束成形技术,以便增强接收的音频信号中的目标音频。

传统波束成形技术操作以集中于从目标音频源的方向接收的音频。许多波束成形解决方案需要关于麦克风阵列的几何形状和/或目标源的位置的信息。此外,一些波束成形解决方案是处理密集的,并且可随着麦克风数量的增加在复杂度上呈指数增长。照此,传统波束成形解决方案可能不适合于具有由针对低功率设备中的实时音频处理的要求所约束的多样的几何形状和应用的实施方案。本文公开的各种实施例解决了传统波束成形系统中的这些和其他约束。

在本公开的一个或多个实施例中,多通道音频输入信号通过音频传感器(例如,麦克风)的阵列被接收。分析每个音频通道以确定目标音频是否存在,例如目标人员是否正在积极地说话。系统跟踪目标和噪声信号以确定目标音频源相对于麦克风阵列的最大传播的声学方向。该方向被称为相对传递函数(rtf)。在各种实施例中,改进的广义特征向量过程用来实时地确定目标音频的rtf。确定的rtf然后可以由空间滤波过程(诸如,最小方差无失真响应(mvdr)波束成形器)使用,以便增强目标音频。在处理音频输入信号之后,可以使用增强的音频输出信号,例如,作为向一个或多个扬声器传送的音频输出、作为ip上话音(voip)呼叫或电话中的话音通信、用于语音识别或话音命令处理、或其他话音应用。

根据本公开的各种实施例,修改的广义特征向量(gev)系统和方法用来在不知道音频环境或麦克风的阵列的几何形状的情况下实时地高效确定音频源的rtf。本文中公开的修改的gev解决方案提供了许多优点。例如,修改的gev解决方案可以提供可以在各种系统(其包括具有大麦克风阵列的系统)中使用的主特征向量的计算上高效、可缩放、在线的跟踪。本文中公开的解决方案可以在目标音频源的方向上无失真,并且通过实施在所公开的系统和方法内有效的源和噪声模型来增加鲁棒性。本文中公开的系统和方法可用于例如改进在其中在噪声环境中接收目标语音的话音通信系统和自动语音识别(asr)系统。

图1说明了其中音频处理系统可以根据本公开的各种实施例操作的示例性操作环境100。操作环境100包括音频处理设备105、目标音频源110和一个或多个噪声源135-145。在图1中所说明的示例中,操作环境被说明为房间100,但是预期的是,操作环境可以包括其他区域,诸如车辆的内部、办公室会议室、家庭的房间、室外体育场或机场。根据本公开的各种实施例,音频处理设备105可以包括两个或更多个音频感测部件(例如,麦克风)115a–115d,并且可选地包括一个或多个音频输出部件(例如,扬声器)120a–120b。

音频处理设备105可以配置为经由音频接收部件115a–115d感测声音并且生成包括两个或更多个音频输入信号的多通道音频输入信号。音频处理设备105可以使用本文所公开的音频处理技术来处理音频输入信号,以便增强从目标音频源110接收的音频信号。例如,处理的音频信号可传送到音频处理设备105内的其它部件(诸如语音识别引擎或话音命令处理器),或传送到外部设备。因此,音频处理设备105可以是处理音频信号的独立设备,或将处理的音频信号转换成其它信号(例如,命令、指令等)的设备以用于与外部设备进行交互或控制外部设备。在其他实施例中,音频处理设备105可以是诸如移动电话或ip上话音(voip)实现的设备之类的通信设备,并且处理的音频信号可以通过网络被传送到另一设备以用于输出给远程用户。通信设备还可从远程设备接收处理的音频信号且经由音频输出部件120a-120b输出处理的音频信号。

目标音频源110可以是产生由音频处理设备105可检测的音频的任何源。可以基于由用户或系统要求所指定的标准来定义目标音频。例如,目标音频可被定义为人类语音、由特定动物或机器发出的声音。在所说明的示例中,目标音频被定义为人类语音,并且目标音频源110是人。除了目标音频源110之外,操作环境100还可以包括一个或多个噪声源135-145。在各种实施例中,不是目标音频的声音被处理为噪声。在所说明的示例中,噪声源135-145可以包括播放音乐的扩音器135,播放电视节目、电影或体育赛事的电视140,以及非目标扬声器145之间的背景会话。将领会,在各种操作环境中可以存在其他噪声源。

注意,目标音频和噪声可以从不同的方向到达音频处理设备105的麦克风115a–115d。例如,噪声源135-145可以在房间100内的不同位置处产生噪声,并且目标音频源(人)110可以在房间100内的位置之间移动时讲话。此外,目标音频和/或噪声可以反射于房间100内的固定物(例如,墙壁)。例如,考虑目标音频可从人110行进以到达麦克风115a-115d中的每个的路径。如箭头125a–125d所指示,目标音频可从人110分别直接行进到麦克风115a–115d。另外,目标音频可以反射于壁150a和150b,并且间接地从人110到达麦克风115a–115d,如箭头130a–130b所指示。根据本公开的各种实施例,音频处理设备105可以使用本文所公开的音频处理技术来基于由麦克风115a–115d接收的音频输入信号来估计目标音频源110的rtf,并且处理音频输入信号以便基于估计的rtf来增强目标音频和抑制噪声。

图2说明了根据本公开的各种实施例的示例性音频处理设备200。在一些实施例中,音频设备200可以被实现为图1的音频处理设备105。音频设备200包括音频传感器阵列205、音频信号处理器220和主机系统部件250。

音频传感器阵列205包括两个或更多个传感器,其中每个可以被实现为将以声波形式的音频输入转换成音频信号的换能器。在所说明的环境中,音频传感器阵列205包括多个麦克风205a–205n,每个麦克风生成音频输入信号,所述音频输入信号被提供给音频信号处理器220的音频输入电路222。在一个实施例中,传感器阵列205生成多通道音频信号,其中每个通道对应于来自麦克风205a-n中之一的音频输入信号。

音频信号处理器220包括音频输入电路222、数字信号处理器224和可选的音频输出电路226。在各种实施例中,音频信号处理器220可以被实现为包括模拟电路、数字电路和数字信号处理器224的集成电路,所述集成电路可操作以执行存储在固件中的程序指令。音频输入电路222例如可以包括到音频传感器阵列205的接口、抗混叠滤波器、模数转换器电路、回声消除电路以及如本文所公开的其它音频处理电路和部件。数字信号处理器224可操作以处理多通道数字音频信号以生成增强的音频信号,所述增强的音频信号输出到一个或多个主机系统部件250。在各种实施例中,数字信号处理器224可操作以执行回声消除、噪声消除、目标信号增强、后滤波和其它音频信号处理功能。

可选的音频输出电路226处理从数字信号处理器224接收的音频信号,以用于输出到至少一个扬声器,诸如扬声器210a和210b。在各种实施例中,音频输出电路226可以包括将一个或多个数字音频信号转换为模拟的数模转换器以及一个或多个放大器以用于驱动扬声器210a–210b。

音频处理设备200可实现为可操作以接收和增强目标音频数据的任何设备,诸如例如移动电话、智能扬声器、平板电脑、膝上型计算机、台式计算机、话音控制的器具或者汽车。主机系统部件250可以包括用于操作音频处理设备200的各种硬件和软件部件。在所说明的实施例中,系统部件250包括处理器252、用户接口部件254、用于与外部设备和网络(诸如网络280(例如,因特网、云、局域网或蜂窝网络))进行通信的通信接口256,和移动设备284以及存储器258。

处理器252和数字信号处理器224可以包括以下项中的一个或多个:处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件(pld)(例如,现场可编程门阵列(fpga))、数字信号处理(dsp)设备或者可以通过硬连线、执行软件指令或两者的组合来配置为执行本文中针对本公开的实施例所讨论的各种操作的其他逻辑设备。主机系统部件250配置为诸如通过总线或其它电子通信接口与音频信号处理器220和其它系统部件250通过接口连接并通信。

将领会,尽管音频信号处理器220和主机系统部件250被示为结合硬件部件、电路和软件的组合,但是在一些实施例中,硬件部件和电路可操作以执行的功能性中的至少一些或全部可以被实现为由处理部件252和/或数字信号处理器224响应于软件指令和/或配置数据(其存储在数字信号处理器222的固件或存储器258中)执行的软件模块。

存储器258可被实现为可操作以存储数据及信息(包括音频数据及程序指令)的一个或多个存储器装置。存储器258可以包括一个或多个各种类型的存储器设备,其包括易失性和非易失性存储器设备,诸如ram(随机存取存储器)、rom(只读存储器)、eeprom(电可擦除只读存储器)、闪速存储器、硬盘驱动器和/或其他类型的存储器。

处理器252可操作以执行存储在存储器258中的软件指令。在各种实施例中,语音识别引擎260可操作以处理从音频信号处理器220接收的增强的音频信号,包括标识和执行话音命令。话音通信部件262可操作以促进例如通过移动或蜂窝电话网络上的话音呼叫或ip网络上的voip呼叫与一个或多个外部设备(诸如,移动设备284或用户设备286)的话音通信。在各种实施例中,话音通信包括将增强的音频信号传输到外部通信设备。

用户接口部件254可包括显示器、触摸板显示器、小键盘(keypad)、一个或多个按钮和/或可操作以使得用户能够直接与音频设备200交互的其它输入/输出部件。

通信接口256促进音频设备200与外部设备之间的通信。例如,通信接口256可以实现音频设备200与诸如移动设备284之类的一个或多个本地设备或者无线路由器(其诸如通过网络280向远程服务器282提供网络接入)之间的wi-fi(例如,802.11)或蓝牙连接。在各种实施例中,通信接口256可包括促进音频设备200与一个或多个其它设备之间的直接或间接通信的其它有线及无线通信部件。

图3说明了根据本公开的各种实施例的示例性音频信号处理器300。在一些实施例中,音频输入处理器300实施为一个或多个集成电路,所述一个或多个集成电路包括由数字信号处理器(诸如,图2的音频信号处理器224)实施的模拟和数字电路及固件逻辑。如所说明的,音频信号处理器300包括音频输入电路315、子带频率分析器(sub-bandfrequencyanalyzer)320、目标活动检测器325、目标增强引擎330和合成器335。

音频信号处理器300从多个音频传感器(诸如,包括至少两个音频传感器305a-n的传感器阵列305)接收多通道音频输入。音频传感器305a–305n可以包括与音频处理设备(诸如,图2的音频处理设备200)集成的麦克风或连接到其上的外部部件。根据本公开的各种实施例,音频传感器305a–305n的布置可以对于音频输入处理器300是已知或未知的。

音频信号可以初始由音频输入电路315处理,音频输入电路315可以包括抗混叠滤波器、模数转换器和/或其他音频输入电路。在各种实施例中,音频输入电路315输出具有n个通道的数字、多通道、时域音频信号,其中n是传感器(例如,麦克风)输入的数量。多通道音频信号被输入到子带频率分析器320,子带频率分析器320将多通道音频信号分成相继的帧,并且将每个通道的每个帧分解为多个频率子带。在各种实施例中,子带频率分析器320包括傅立叶变换过程并且输出多个频率仓。分解的音频信号然后被提供给目标活动检测器325和目标增强引擎330。

目标活动检测器325可操作以分析音频通道中的一个或多个的帧并且生成指示目标音频是否存在于当前帧中的信号。如上面所讨论的,目标音频可以是要由音频系统标识的任何音频。当目标音频是人类语音时,目标活动检测器325可以被实现为话音活动检测器。在各种实施例中,可使用话音活动检测器,所述话音活动检测器可操作以接收音频数据的帧并且做出关于目标音频存在或不存在的确定。在一些实施例中,目标活动检测器325可将目标音频分类规则应用于子带帧以计算值。然后将该值与用于生成目标活动信号的阈值进行比较。在各种实施例中,由目标活动检测器325生成的信号是二进制信号,诸如“1”的输出(其用来指示子带音频帧中存在目标语音)以及“0”的二进制输出(其用来指示子带音频帧中不存在目标语音)。生成的二进制输出被提供给目标增强引擎330以用于多通道音频信号的进一步处理。在其它实施例中,目标活动信号可包括目标存在的概率、目标存在的确定不能被做出的指示、或根据系统要求的其它目标存在信息。

目标增强引擎330接收来自子带频率分析器320的子带帧和来自目标活动检测器325的目标活动信号。根据本公开的各种实施例,目标增强引擎330使用修改的广义特征值波束成形器来基于接收的活动信号来处理子带帧,如将在下面更详细地描述的。在一些实施例中,处理子带帧包括估计目标音频源(例如,目标音频源110)相对于传感器阵列305的rtf。基于目标音频源的估计的rtf,目标增强引擎330可以增强被确定为来自目标音频源的方向的音频信号的部分,并且抑制被确定为噪声的音频信号的其他部分。

在增强目标音频信号之后,目标增强引擎330可将处理的音频信号传递到合成器335。在各种实施例中,合成器335通过组合子带以形成增强的时域音频信号来在逐帧的基础上重建多通道音频信号中的一个或多个。增强的音频信号然后可以被变换回到时域并且被发送到系统部件或外部设备以用于进一步处理。

图4说明了根据本公开的各种实施例的用于处理子带帧的示例性目标增强引擎400。目标增强引擎400可以被实现为由数字信号处理器执行的数字电路和逻辑的组合。在许多常规系统中,使用增强波束成形的目标信号可能需要从目标音频源到麦克风阵列的rtf的估计或知晓,这在阵列几何形状是先验未知的情况下可能是有意义的。另外,随着麦克风的数量增加,许多多通道语音提取算法在复杂度上呈指数增长,从而使得此类算法不适合于许多实时、较低功率的设备。

根据本公开的各种实施例,目标增强引擎400包括目标音频rtf估计410和音频信号增强器415。目标音频源rtf估计410接收子带帧和由目标活动检测器415生成的目标活动信号,以确定目标源的rtf的估计。在各种实施例中,目标音频源rtf估计器包括修改的gev过程以生成主特征向量。音频信号增强器415接收来自目标源rtf估计器410的输出并且估计目标音频信号。在各种实施例中,音频信号增强器415使用主特征向量来操纵波束成形过程,诸如通过使用无失真mvdr波束成形器。本文所公开的方法通过提供计算上高效的操作和实施无失真约束来解决技术的许多缺点。在一些实施例中,可以创建噪声输出信号以用于后滤波。下面根据各种实施例描述示例性gev过程。

参考图4b说明了示例性话音增强引擎450。话音增强引擎450包括广义特征向量(gev)引擎460和波束成形器470。gev引擎460接收分解的子带音频信号和来自话音活动检测器455的话音活动信号。gev引擎460包括逆矩阵更新逻辑462、归一化逻辑464和主特征向量跟踪逻辑466,其可以根据本文描述的过程来实现。主特征向量和信号信息被提供给波束成形器470,波束成形器470可以被实现为mvdr波束成形器,以产生单独的目标音频和可选地产生噪声信号。在所说明的实施例中,后滤波器处理器480可用于进一步从来自波束成形器470的目标音频信号输出中去除噪声元素。

标记和假设

在所说明的环境中,目标增强引擎400测量从n个麦克风通道接收的信号。将每个麦克风通道变换为k个子带,并且在每个频率仓上执行处理。可以在由k索引的每个帧处获得m×1阶向量xk。

信号模型可以表达为,其中sk是目标音频的频谱分量,hk是rtf向量(其被用而约束),并且nk是噪声分量。

也可以使用以下标记:

归一化和无失真约束

在各种实施例中,目标音频rtf估计器410可操作以实施无失真约束,由此允许系统创建可用于后置滤波的噪声输出信号。

在fgev指示gev波束成形器的波束成形器系数并且h表示导向向量(steeringvector)的情况下,以下等式示出fgev和h经由噪声方差矩阵pn是相关的。认识到,fgev是的特征向量,并且因此可以推断以下等式:

由于矩阵具有秩1,所以对应于非零特征值的其特征向量是fgev的缩放版本。此外,使用关于秩-1矩阵的特征向量的线性代数理论,可以推断是这样的特征向量。换言之,基于以上等式,认识到,fgev和rtf向量h是相关的,并且它们的关系可以表达为

鉴于前述内容,从麦克风的阵列到目标音频源的导向向量的未归一化的估计可表达为:

因此,示出了gev解决方案可以用于估计导向向量h。然后估计的向量h可以被插入最小方差无失真响应(mvdr)解决方案中以实施无失真约束并且通过以下表达式将输出投影到第一通道:

此处的第一通道是任意选择的,并且我们可以选择改为投影到任何期望的通道上。

因此,gev可用来使用主特征值方法来估计相对传递函数(rtf),其然后可以如下插入mvdr解决方案:

因此,目标音频(例如,语音)输出可表达为:。噪声输出可以表达为:(在第一通道被选择为参考通道的情况下)。

注意,由矩阵求逆引理(matrixinversionlemma),下面的等式可以被替换如下:。已经预期,在上述等式中用方差矩阵px替换方差矩阵pn不应对所得到的mvdr波束成形器具有显著影响。实际上,可能存在对解决方案的影响,因为用于跟踪pn和px的步长可能不相同,然而在本实施例中该影响是极小的。使用前述处理的优点包括减少音频处理设备中的存储器消耗,因为不再需要与矩阵pn相关的信息(并且不再需要将与矩阵pn相关的信息存储在设备的存储器中)。

备选地,在本公开的盲分析归一化过程中,目标音频信号可表达为:

并且噪声音频输出可表达为:

(在第一通道为参考的情况下,写出上述等式)。

归一化的矩阵求逆跟踪

在常规闭合形式的非迭代gev中,在每个步骤对矩阵pn求逆,这在计算上是昂贵的。照此,根据一个或多个实施例的跟踪方法不需要在每个步骤对矩阵pn求逆。为了说明跟踪方法如何工作,我们如下提出了基于sherman-morrisonformula的方法。给定矩阵p0、任意数和向量x,于是如果,那么

此技术可被调适以允许对pn的求逆进行逐帧跟踪,而不需要执行代价高的矩阵求逆。通过选择,归一化还可以同步执行,因为当x非常小时,逆矩阵将包括大的数,这可能增加计算成本。此外,归一化矩阵pn的逆矩阵中的值对gev向量没有实质的不利影响,因为后者自身随后被归一化。注意,的值可以是将数值地稳定q的值的任何形式的归一化因子。

主特征向量跟踪

前述部分中描述的方法解决了gev归一化和矩阵求逆所涉及的复杂度。然而,注意,在每次迭代时从n×n阶矩阵提取主特征向量在计算上也是昂贵的。照此,根据本公开的各种实施例,在假设针对主特征向量的连续演进的情况下,提供功率方法的一次迭代以跟踪主特征向量。给定主要特征向量fgev和矩阵的初始估计,迭代可被表达为:

重复上述操作允许gev向量收敛到真实主特征向量。然而,注意,在实际操作中,一次迭代常常足以导致快速收敛且有效地跟踪真实特征向量,由此支持空间连续性的假设。

对盲初始化的鲁棒性

上述过程中的一个问题是,如果px或pn的初始化取远离它们实际值的任一值并且适应步长相对小,则可能的是,方程可能在一段时间内是无效的,由此创建未反映音频环境物理意义的滤波器和未实现增强目标音频信号的预期目标的输出。要确保这不发生的一种方式是比较两个矩阵的一个或多个测量(例如,两个矩阵之间的一个元素)。如果该比较指示以上等式被违反,则预期的是,可以用矩阵pn替换矩阵px,或者反之亦然(其可能包括存储矩阵pn或从qn近似pn),或者暂时改变任一适应的平滑因子。在一个实施例中,由于ps是正数,它意味着范数(px)范数(pn)。

另一观察是当px或pn的更新是可忽略的(例如,当前px为1且计算的更新为10-9)时,此问题自身显现。这还建议加速平滑因子以确保不可忽略的更新速率。

算法

如由以上讨论所说明的,并且根据本公开的各种实施例,在知道或不知道麦克风阵列的几何形状的情况下,音频信号可被高效地处理以使用如本文所公开的修改的gev技术来生成增强的音频输出信号。参考回图4a,目标增强引擎400可以针对每个音频通道(例如,由来自麦克风阵列的麦克风生成的每个音频信号)接收多个子带帧。音频增强电路400包括目标音频源rtf估计器410和音频信号增强器415。目标音频增强器400可以例如从子带分解电路320接收子带帧。在处理子带帧之前,一些实施例的目标音频增强器400可以初始化多个变量。例如,函数fgev和矩阵px可以被生成和初始化。变量可以用1的值初始化,并且矩阵qn被初始化等于。还可以选择平滑常数。此外,可以选择归一化因子函数。目标音频增强器400(诸如通过目标音频源rtf估计器410)可以配置为通过将归一化因子应用于矩阵qn来归一化矩阵qn。归一化因子可以是qn的函数,诸如,

如上文所讨论的,音频增强电路400可从活动检测器405接收指示目标音频存在或不存在的活动信号。在一些实施例中,活动检测器405可以被实现为数字信号处理电路300中的活动检测器325。根据本公开的各种实施例,目标音频源rtf估计器410可以配置为基于从活动检测器405接收的活动信号来更新矩阵px和qn。在一些实施例中,当所接收的活动信号指示目标音频存在时,目标音频源rtf估计器410可以配置为使用以下等式基于子带帧来更新目标音频矩阵px:

另一方面,当接收到的活动信号指示目标音频不存在时,目标音频源rtf估计器410可以配置为使用以下等式来更新噪声逆矩阵(invertednoisematrix)qn:

注意,矩阵qn是噪声方差矩阵pn的逆矩阵。如利用上面的等式所示,目标音频源rtf估计器410可以配置为直接更新矩阵qn。照此,使用这些等式,在各种实施例中,不需要目标音频源rtf估计器410对每个更新执行矩阵pn的求逆,这显著地降低了该过程的计算复杂度。

如果确定px或pn中的初始值过多偏离实际音频信号,则目标音频源rtf估计器410可以配置为调整px和/或pn以满足如上所讨论的模型

此后,目标音频源rtf估计器410可以配置为在修改的gev解决方案中使用更新的矩阵px和qn来计算将由音频信号增强器415或图4b的波束成形器470(例如,mvdr波束成形器)使用的导向向量h,如下:

注意,导向向量h与目标音频源的位置相关。换言之,通过使用上文所讨论的技术计算导向向量h,在已知阵列几何形状的情况下,目标音频源rtf估计器410还可用于估计目标音频源相对于麦克风的阵列的位置。而且,如以上所讨论的,向量h可以被归一化以生成。在一些实施例中,目标音频源rtf估计器410可以将计算的导向向量h或归一化的导向向量传递到音频信号增强器415。然后,在各种实施例中,音频信号增强器415可以配置为处理mvdr波束成形解决方案,如下:

音频信号增强器415然后可以配置为将目标音频输出计算为:

以及将噪声输出计算为:

然后,可以由音频信号增强器415使用目标音频输出和/或噪声输出来生成滤波器,该滤波器可以应用于音频输入信号以生成增强的音频输出信号以用于输出。在一些实施例中,使用本文所公开的技术,通过增强音频输入信号与目标音频对应的部分并且抑制音频输入信号的部分来处理音频信号以生成增强的音频输出信号。

图5说明了根据本公开的各种实施例的用于使用修改的gev技术来实时地处理音频信号的示例性方法500。在一些实施例中,过程500可由音频信号处理器300中的一个或多个部件执行。如上面参考图4所讨论的,可在处理音频信号之前初始化多个变量。然后通过归一化(在步骤502)矩阵qn来开始过程500,矩阵qn是噪声分布矩阵pn的逆矩阵。在一些实施例中,可以通过将归一化因子函数应用于矩阵qn来归一化矩阵qn,诸如

过程500然后接收(在步骤504)多通道音频信号。在一些实施例中,多通道音频信号包括经由对应通道从麦克风(例如,麦克风305a–305n)的阵列接收的音频信号。在接收多通道音频信号时,过程500根据一组预定的子带频率范围将多通道音频信号的每个通道分解帧(在步骤506)为频域中的子带帧。

此后,过程500分析子带帧以确定(在步骤508)目标音频是否存在于子带帧中。在一些实施例中,目标音频是否存在于子带帧中的确定可由目标活动检测器(诸如,目标活动检测器325)执行。例如,当目标音频包括人类语音时,活动检测器可包括配置为检测人类话音是否存在于子带帧中的话音活动检测器。

如果确定目标音频存在于子带帧中,则过程500基于子带帧更新(在步骤510)对应于目标音频特性的矩阵。例如,目标音频源rtf估计器410可以使用来更新矩阵px。另一方面,如果确定目标音频不存在于子带帧中,则过程500基于子带帧来更新(在步骤512)对应于噪声特性的矩阵。例如,目标音频源rtf估计器410可以使用以下等式来更新矩阵qn,如以上所讨论的:

同样如上文关于各种实施例所讨论的,矩阵qn是噪声方差矩阵pn的逆矩阵,并且一些实施例的目标音频源rtf估计器410可以在该步骤中直接更新逆矩阵qn而不执行矩阵求逆。另外,这些等式使得目标音频源rtf估计器410能够在更新期间考虑归一化因子。在一些实施例中,过程500可以通过从子带分解电路320获得新的子带帧来迭代步骤508至512如所期望的次数,并且取决于新获得的子带帧中是否检测到目标音频来在每次迭代更新矩阵px和qn中的任一个。

一旦矩阵被更新,则过程500基于更新的矩阵来估计(在步骤514)目标音频源(例如,目标音频源110)相对于麦克风的阵列的位置的rtf。在一些实施例中,估计目标音频源的rtf包括计算从麦克风的阵列到目标音频源的导向向量。例如,目标音频源rtf估计器410可以使用以下等式来计算向量,如以上所讨论的:

然后,过程500将估计的rtf应用(在步骤516)在无畸变波束成形解决方案中以生成滤波器。例如,音频信号增强器415可基于以下等式在mvdr波束成形解决方案中使用计算的向量:

基于mvdr波束成形解决方案,音频信号增强器415然后可以使用来计算目标音频输出,该目标音频输出包括与来自子带帧的目标音频相关的数据。另外,音频信号增强器415还可以使用来计算噪声输出,该噪声输出包括与来自子带帧的噪声相关的数据。音频信号增强器415可以基于目标音频输出或噪声输出中的至少一个来生成滤波器。例如,滤波器可以包括来自噪声输出的数据,并且当应用于音频信号时抑制或滤除与噪声相关的任何音频数据,由此使音频信号基本上剩有目标音频。在另一示例中,滤波器可包括来自目标音频输出的数据,并且当应用于音频信号时增强与目标音频相关的任何音频数据。

在步骤518,过程500将生成的滤波器应用于音频信号以生成增强的音频输出信号。然后,增强的音频输出信号可以被传送(在步骤520)到各种设备或部件。例如,增强的音频输出信号可以被分包化并且通过网络传送到另一音频输出设备(例如,智能电话、计算机等)。增强的音频输出信号还可以被传送到话音处理电路(诸如自动语音识别部件)以用于进一步处理。

前述公开并非旨在将本发明限制于所公开的精确形式或特定使用领域。照此,预期的是,根据本公开,无论是在本文中明确描述或是暗示,对于本公开的各种备选实施例和/或修改是可能的。在已经如此描述了本公开的实施例的情况下,本领域的普通技术人员将认识到相对于常规方法的优点,并且在不脱离本公开的范围的情况下,可以在形式和细节上进行改变。因此,本公开仅由权利要求所限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1