一种基于双麦克风阵列的定向拾音方法及计算设备与流程

文档序号:14912874发布日期:2018-07-10 23:54阅读:924来源:国知局

本发明涉及音频处理技术领域,尤其是一种基于双麦克风阵列的定向拾音方法及计算设备。



背景技术:

在拍摄视频或录音时,麦克风阵列所接收到的语音信号是期望信号与非期望的噪音信号叠加的结果。由于录音环境常常伴随着各种不同类型的噪音,有稳态的高斯白噪声,也有非稳态的噪声,如食堂、超市、餐厅等声音场所,环境声音组成比较复杂,导致录音结果往往非常嘈杂,影响听音感受,严重的情况下期望的声音甚至会被噪音掩蔽,无法获取期望的语音内容。

针对音频降噪,单麦降噪的基本思想都是采用谱减法,通过语音活动检测获取噪音段音频数据,进一步估计出噪音频谱,从录音结果中减去估计的噪音谱来得到期望语音成分。考虑到环境的多样性,有的录音设备会内置许多不同环境下的背景噪音样本,计算匹配最相似的噪音样本,来应对不同的录音环境。由于录音环境随机性很大,且相同环境中的录音成分更是千差万别,这种内置噪音样本的降噪方式对稳态噪音有一定效果,但是要采集很多噪音样本,工作量较大,对于非稳态噪音抑制效果很弱。同时单麦并不能定位声源,无法实现定向地增强某一个拾音范围内的声音。

因此,在一些小型通信设备或者录音设备中,常需要利用双麦克风阵列来实现增强期望声音、抑制噪音,其基本思想是依赖声源定位检测结果,通过波束成形来提取期望区域的声源,传统的延时加成(delay and sum)的方法通过估计声源定位结果来纠正两个声道直接的延时,再叠加两个声道数据在一定程度上抵消环境噪音。但是,在混响较大或嘈杂环境的中提取效果并不理想,还是需要借助谱减法达到最终降噪的目的,影响听音感受。

鉴于上述原因,需要一种在嘈杂环境中也能够准确地获取期望的语音内容的定向拾音方案。



技术实现要素:

为此,本发明提供了一种基于双麦克风阵列的定向拾音方法,双麦克风阵列包含第一麦克风和第二麦克风,该方法适于对通过第一麦克风获取的第一声道的音频数据和通过第二麦克风获取的第二声道的音频数据进行处理,该方法适于在计算设备中执行,包括步骤:对获取的第一声道的音频数据和第二声道的音频数据分别进行预处理,得到每个音频帧在第一声道的频谱及对应在第二声道的频谱;根据每个音频帧对应在第一声道和第二声道上的频谱间的延时,计算该音频帧的入射角;根据每个音频帧的入射角计算该音频帧的目标噪音比;利用每个音频帧的入射角和目标噪音比计算该音频帧的滤波器系数;根据滤波器系数生成各音频帧的滤波后频谱;以及通过对滤波后频谱作逆傅里叶变换,来生成期望拾音范围内的音频数据的时域波形。

可选地,在根据本发明的方法中,根据每个音频帧对应在第一声道和第二声道上的频谱间的延时、计算该音频帧的入射角的步骤包括:对于每个音频帧,根据音频帧对应在第一声道和第二声道上的频谱计算音频帧的协方差矩阵;根据协方差矩阵计算音频帧的相角谱;以及从相角谱中取最大值对应的角度作为该音频帧的入射角。

可选地,在根据本发明的方法中,根据每个音频帧的入射角计算该音频帧的目标噪音比的步骤包括:根据双麦克风的间距、采样率和声速计算得到第一参数;根据每个音频帧的入射角及第一参数计算得到音频帧对应的第二参数;以及根据第一参数和每个音频帧的第二参数计算得到每个音频帧的目标信噪比。

可选地,在根据本发明的方法中,在根据每个音频帧的入射角计算该音频帧的目标噪音比的步骤之前,还包括步骤:判断每个音频帧的入射角是否在期望拾音范围内;若在期望拾音范围内,则判断该音频帧为期望帧;以及若不在期望拾音范围,则判断该音频帧为干扰帧。

可选地,在根据本发明的方法中,根据每个音频帧的入射角计算该音频帧的目标噪音比的步骤还包括:若判断当前音频帧为干扰帧,则根据当前音频帧的入射角计算该音频帧的目标噪音比;若判断当前音频帧为期望帧,则不计算该音频帧的目标噪音比。

可选地,在根据本发明的方法中,利用每个音频帧的入射角和目标噪音比计算该音频帧的滤波器系数的步骤包括:若当前音频帧为期望帧,则根据初始滤波器中对应的全局协方差矩阵和当前音频帧对应在第一声道和第二声道上的频谱计算当前音频帧的全局协方差矩阵;将初始滤波器中对应的噪音协方差矩阵作为当前音频帧的噪音协方差矩阵;以及结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数。

可选地,在根据本发明的方法中,利用每个音频帧的入射角和目标噪音比计算该音频帧的滤波器系数的步骤包括:若当前音频帧为干扰帧,则根据初始滤波器中对应的噪音协方差矩阵和当前音频帧对应在第一声道和第二声道上的频谱、及当前音频帧的目标信噪比计算当前音频帧的噪音协方差矩阵;根据初始滤波器中对应的全局协方差矩阵和所述当前音频帧对应在第一声道和第二声道上的频谱计算当前音频帧的全局协方差矩阵;以及结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数。

可选地,在根据本发明的方法中,当前音频帧中第l个频率成分的全局协方差矩阵Φy(l,t)定义为:Φy(l,t)=α'Φy(l,t)'+(1-α')Y1(ωl,t)Y2(ωl,t)H,式中,Φy(l,t)'为初始滤波器中对应的第l个频率成分的全局协方差矩阵,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,H表示共轭,t表示时间刻度,α'表示更新因子,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

可选地,在根据本发明的方法中,当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)定义为:

式中,Φv(l,t)'为初始滤波器中对应的第l个频率成分的噪音协方差矩阵,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,H表示共轭,t表示时间刻度,α'表示更新因子,为第l个频率成分对应的目标信噪比,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

可选地,在根据本发明的方法中,结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数的步骤包括:按照如下公式计算当前音频帧中第l个频率成分的滤波器系数hmvdr(l,t),

式中,为当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)的逆矩阵,Φy(l,t)为当前音频帧中第l个频率成分的全局协方差矩阵,t表示时间刻度,u为优化系数且u>0,IM为M×M的单位矩阵,M为麦克风个数。

可选地,在根据本发明的方法中,初始滤波器为MVDR滤波器。

可选地,在根据本发明的方法中,根据滤波器系数生成各音频帧的滤波后频谱的步骤包括:按照如下公式计算当前音频帧中第l个频率成分滤波后的频谱Y(ωl,t),

式中,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,t表示时间刻度,hmvdr(l,t,1)为第一声道的音频数据对应的滤波器系数,hmvdr(l,t,2)为第二声道的音频数据对应的滤波器系数,H表示共轭,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

可选地,在根据本发明的方法中,通过对滤波后频谱作逆傅里叶变换,生成期望拾音范围内的音频数据的时域波形的步骤包括:对各音频帧的滤波后频谱作逆傅里叶变换得到各音频帧对应的时域信号;以及拼接各音频帧对应的时域信号以输出期望语音信号的时域波形。

可选地,在根据本发明的方法中,预处理包括如下操作:分帧、加窗、傅里叶变换。

根据本发明的又一方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行如上所述的方法中的任一方法。

根据本发明的基于双麦克风阵列的定向拾音方案,能够根据当前音频帧的入射角精确地估计出当前音频帧的目标噪音比,再根据目标噪音比和入射角计算滤波器系数,然后根据该滤波器系数对所获取的音频数据进行相应的滤波,得到滤波后频谱,最终输出期望拾音范围内的音频数据。本发明的方案能够提升噪音参数的估计准确率,无论外界环境如何变化,基于双麦克风阵列,本方案都能实现从环境中提取期望声源信号。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图;

图2示出了根据本发明一个实施例的基于双麦克风阵列的定向拾音方法200的流程图;

图3示出了根据本发明一个实施例的双麦克风阵列的定向拾音示意图;以及

图4示出了根据本发明一个实施例的滤波器系数计算流程400的示意框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。

计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

根据本发明的一种实现方式,计算设备100的输入设备中包括双麦克风阵列(未示出),用于采集音频数据。其中,双麦克风阵列包含第一麦克风和第二麦克风,且通过第一麦克风获取第一声道的音频数据,通过第二麦克风获取第二声道的音频数据。计算设备100的应用122中可以包含对所采集的音频数据进行处理的相关指令(即执行基于双麦克风阵列的定向拾音方法200的指令),以便于计算设备100执行本发明的基于双麦克风阵列的定向拾音方法200,从采集的音频数据中获取到期望拾音范围内的音频。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、录音设备、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

以下将结合图2,详细阐述根据本发明一个实施例的基于双麦克风阵列的定向拾音方法200的流程。

如图2所述,方法200始于步骤S210,对获取的第一声道的音频数据和第二声道的音频数据分别进行预处理,得到每个音频帧在第一声道的频谱及对应在第二声道的频谱。

根据本发明的实现方式,假设声源数目为N,原始声源信号(即,原始音频数据)记为:xn(t),n=1,2,...,N,那么第一麦克风和第二麦克风接收到的音频数据在时域可以表示为(以第一麦克风为参考信号,则第二麦克风接收到的信号存在时延):

式中,t表示时间刻度,y1(t)表示第一声道的音频数据,y2(t)表示第二声道的音频数据,xn(t)和τn分别表示第n个声源信号和相对第一麦克风到达第二麦克风的时延,b1(t)和b2(t)分别表示第一麦克风、第二麦克风所接收到的声源反射成分和其他的加性噪声。

可选地,预处理包括如下操作:分帧、加窗、傅里叶变换。对y1(t)和y2(t)进行预处理操作后,得到对应的频谱表示为:

式中,i表示复数符号,通过对y1(t)和y2(t)作傅里叶变换得到每一时刻对应的频谱Y1(ωl,t)和Y2(ωl,t),其中ωl=2πl/L,频率成分l设为l=1,2,...,L,L为傅里叶变换长度。

在逐帧处理过程中,帧长一般选取为20ms,帧移10ms。根据本发明的实施例,在逐帧处理时,从Y1(ωl,t)中选取的第一个音频帧的频谱与从Y2(ωl,t)中选取的第一个音频帧的频谱相对应,从Y1(ωl,t)中选取的第二个音频帧的频谱与从Y2(ωl,t)中选取的第二个音频帧的频谱相对应,依次类推。

随后在步骤S220中,对所获取的音频数据进行声源定位,具体地,根据每个音频帧对应在第一声道和第二声道上的频谱间的延时,计算该音频帧的入射角。

如图3示出了双麦克风阵列的定向拾音示意图。设第一麦克风301和第二麦克风302之间的间距为dis_mic,期望拾音范围为range_1≤a≤range_2,其中range_1表示期望拾音范围下确界,range_2表示期望拾音范围上确界。

双麦克风阵列接收到的音频信号是由很多方向入射的信号(各类噪音+期望语音)组成,我们将拾音区域内入射的信号视为期望信号。考虑到双麦克风阵列的对称性,双麦克风阵列拾音区域对称的后方区域也是拾音区域,旁侧区域都为干扰声区域,图3中仅示例性地示出了正前方的示意图。

根据本发明的一个实施例,假定每一音频帧直达声中只有一个主成分,通过计算每个音频帧在两个声道之间的延时,就可以确定当前帧主声源入射角。基于GCC-PHAT(generalized cross-correlation with phase transform)算法,入射角的具体计算步骤如下:

1)对于每个音频帧,根据该音频帧对应在第一声道和第二声道上的频谱,计算该音频帧的协方差矩阵。

协方差矩阵定义为:

其中,Y1(ωl,t)和Y2(ωl,t)分别表示对应的第一声道的频谱和第二声道的频谱,H表示共轭,·表示元素对应相乘。

2)根据每个音频帧的协方差矩阵计算该音频帧的相角谱。

相角谱定义为:

其中,表示数z的实部,τ表示两个声道的相位差,范围为0°到180°。τ相当于量化刻度,例如τ=181表示以1°为步长,将180°的半圆范围划分为180份。在根据本发明的一个实施例中,τ=181。

3)从每个音频帧的相角谱中取最大值对应的角度作为该音频帧的入射角。具体地,从相角谱中找出所有的极大值,然后,极大值中最大值对应的角度就是当前音频帧主成分的入射角。

随后在步骤S230中,根据每个音频帧的入射角计算该音频帧的目标噪音比。

根据本发明的一种实施方式,首先根据每个音频帧的入射角判断其是否在期望拾音范围内(即,图3所示的[range_1,range_2]):若在期望拾音范围内,则判断该音频帧为期望帧;若不在期望拾音范围,则判断该音频帧为干扰帧。

进而,若判断当前音频帧为干扰帧,则根据当前音频帧的入射角计算该音频帧的目标噪音比;若判断当前音频帧为期望帧,则不计算该音频帧的目标噪音比。

根据本发明的一个实施例,目标噪音比的计算过程如下:

首先,根据双麦克风的间距、采样率和声速计算得到第一参数τ1,第一参数τ1定义为:

τ1=fs(d/c)

式中,fs为采样率,c表示声速,一般取d表示麦克风间距,单位为米。

其次,根据每个音频帧的入射角及第一参数计算得到该音频帧对应的第二参数α,第二参数α定义为:

α=ωτ1cosθ

式中,θ为音频帧的入射角,τ1为第一参数,ω为频谱频率。

最后,根据第一参数和每个音频帧的第二参数计算得到每个音频帧的目标信噪比,根据一种实施方式,目标信噪比定义为:

式中,α为第二参数,τ1为第一参数,β=cosβ1+cosβ2+...+cosβN表示不属于期望拾音范围[range_1,range_2]内的声源之和,其包含部分反射声和其他加性噪音。I表示当前音频帧在第一声道的频谱和在第二声道的频谱的相关函数的虚部(关于相关函数的具体计算,可参见下文描述)。

为进一步说明目标噪音比的计算,以下将示出根据本发明一个实施例的目标信噪比的推导过程。

基于前文描述,音频帧在第一声道的频谱和在第二声道的频谱的相关函数表示为(由于本部分不是本发明的重点内容,且相关函数计算属于该技术领域的基本知识,故此处对相关函数的计算不作过多展开):

其中,表示互能量谱密度,定义为Φuv(ω,k)=E[U(ω,k)V*(ω,k)],ω和k为傅里叶变换的频率参数,其中符号*表示对每个元素取复共轭。

假设麦克风接收到的直达声中,第n个声源为期望声源,那么目标-噪音比可以由相关函数表示为:

式中,和分别表示对应信号的相关函数(接收到的带噪音的音频信号的相关函数、期望信号的相关函数、非期望噪音信号的相关函数)。TNR1和TNR2分别表示两个声道的语音数据(或语音信号)的目标-噪音比。

根据本发明的一个实施例,两个双麦克风之间的间距往往只有5到20cm,故,两个声道的目标-噪音比基本相等,可以表示为因此,将估计目标-噪音比记为式(2)可以修正为:

同时,假设信号源u1的入射角度为0°,信号源u2的入射角度为θ,任意两个信号u1和u2的相关函数又可以表示为:

式中,fs为采样率,c表示声速,一般取c≌343m/s,d表示麦克风间距,单位为米。

假设要提取的声源方向与麦克风阵列0°方向夹角为θ,联立式(3)(4),相关函数可以写成:

式中,τ1=fs(d/c),β=cosβ1+cosβ2+...+cosβN表示不属于期望拾音范围[range_1,range_2]内的声源之和,其包含部分反射声和其他加性噪音。

令α=ωτ1cosθ,这样,相关函数的实部R和虚部I分别表示为:

以为未知数,对式(6)(7)分别解方程,可以得到:

联立式(8)(9),可得:

整理方程为:

记,

A=I-sinα,

B=cosα-R,

C=Rsinα-Icosα.

则可以解方程得到:

由于入射角θ已知,则α已知,根据相关函数的公式(1)或(4)可以求出实部R和虚部I,将式(12)代入式(8)或(9)即可求出目标噪音比。

上文给出了根据本发明的目标信噪比的一种计算方式,应当指出的是,本发明对此不作限制,本领域技术人员可以通过其他方式计算得到音频帧的目标噪音比,与本发明的实施例相结合,以得到期望拾音范围内的音频信号。

随后在步骤S240中,利用每个音频帧的入射角(经步骤S220求得)和目标噪音比(经步骤S230求得)计算该音频帧的滤波器系数。

根据一种实施方式,计算音频帧的滤波器系数时分为两种情况:

第一,若当前音频帧为期望帧,则根据初始滤波器中对应的全局协方差矩阵和当前音频帧对应在第一声道和第二声道上的频谱计算当前音频帧的全局协方差矩阵;然后,将初始滤波器中对应的噪音协方差矩阵作为当前音频帧的噪音协方差矩阵;最后,结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数。

第二,若当前音频帧为干扰帧,则根据初始滤波器中对应的噪音协方差矩阵和当前音频帧对应在第一声道和第二声道上的频谱、及当前音频帧的目标信噪比计算当前音频帧的噪音协方差矩阵;然后,根据初始滤波器中对应的全局协方差矩阵和当前音频帧对应在第一声道和第二声道上的频谱计算当前音频帧的全局协方差矩阵;最后,结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数。

根据本发明的一个实施例,初始滤波器为MVDR滤波器。MVDR(Minimum variance distortionless response),即最小方差无失真相应法,是一种自适应波束成形方法,通过语音活动检测判别噪音帧(即,干扰帧)和声源定位结果来估计噪音频谱参数,计算转向向量以更新滤波器系数,进而从信号中分离出期望信号。但该方法在嘈杂环境中定位到目标声源位置不准确,会直接影响噪音(尤其是非稳态干扰噪音)参数估计,出现误判,造成期望语音较大的失真,影响听音感受(由于MVDR方法不是本发明重点,篇幅所限,此处不作展开)。

因此,根据本发明的实施方式,利用前文所计算出的每个音频帧的入射角和目标噪音比,对MVDR滤波器系数进行修正。

图4示出了根据本发明一个实施例的滤波器系数的计算流程400的示意框图。结合前文所述的计算音频帧的滤波器系数的两种情况,如图4所示,先根据当前音频帧的入射角判断当前音频帧是否为期望帧,然后,根据判断结果——当判断当前音频帧为期望帧时,只更新全局协方差矩阵;当判断当前音频帧为干扰帧时,既更新全局协方差矩阵又更新噪音协方差矩阵。最后,根据更新后的全局协方差矩阵和噪音协方差矩阵计算得到滤波器系数。

下面对滤波器系数的具体计算过程进行描述。

根据本发明的实施例,当前音频帧中第l个频率成分的全局协方差矩阵Φy(l,t)定义为:

Φy(l,t)=α'Φy(l,t)'+(1-α')Y1(ωl,t)Y2(ωl,t)H

式中,Φy(l,t)'为初始滤波器中对应的第l个频率成分的全局协方差矩阵,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,H表示共轭,t表示时间刻度,α'表示更新因子,如前文所述,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

对Φy(l,t)'的进一步解释如下:在第一个音频帧中,Φy(l,t)'可以表示初始滤波器中对应的第l个频率成分的全局协方差矩阵,在后续的音频帧中,Φy(l,t)'可以表示当前音频帧的上一音频帧中相对应的第l个频率成分的全局协方差矩阵。

为了前后音频帧各个频率之间能够平稳过渡,需要设置更新因子α'来调节更新的幅度。可选地,α'∈[0,1.0],其中,α'=0表示只考虑当前音频帧的(第l个频率成分的)全局协方差矩阵,不考虑上一音频帧的(第l个频率成分的)全局协方差矩阵;α'=1表示用上一音频帧的(第l个频率成分的)全局协方差矩阵代替当前音频帧的(第l个频率成分的)全局协方差矩阵。

在根据本发明的一个实施例中,不论是期望帧、还是干扰帧,α'均取0.5。

同样地,当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)定义为:

式中,Φv(l,t)'为初始滤波器中对应的第l个频率成分的噪音协方差矩阵,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,H表示共轭,t表示时间刻度,α'表示更新因子,为当前音频帧中第l个频率成分对应的目标信噪比(参考前文步骤S230的描述,通过将频谱频率ω设为对应的ωl计算得到得到相应的),ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

类似地,对Φv(l,t)'的进一步解释如下:在第一个音频帧中,Φv(l,t)'可以表示初始滤波器中对应的第l个频率成分的噪音协方差矩阵,在后续的音频帧中,Φv(l,t)'可以表示当前音频帧的上一音频帧中相对应的第l个频率成分的噪音协方差矩阵。

关于更新因子α'的描述可以参考前文对全局协方差矩阵的描述,在根据本发明的一个实施例中,对于期望帧,α'取1;对于干扰帧,α'取0.5。

在得到当前音频帧中第l个频率成分的全局协方差矩阵Φy(l,t)和噪音协方差矩阵Φv(l,t)后,按照如下公式计算当前音频帧中第l个频率成分的滤波器系数hmvdr(l,t):

式中,(l,t)为当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)的逆矩阵,Φy(l,t)为当前音频帧中第l个频率成分的全局协方差矩阵,t表示时间刻度,u为优化系数且u>0,IM为M×M的单位矩阵,M为麦克风个数,在本发明的实施例中,M=2。

每一个频率成分l对应的滤波器系数hmvdr(l,t)的元素个数与麦克风数目一致,同时,记第l个频率成分对应的滤波器系数hmvdr(l,t)中,第m个麦克风信号的对应滤波器系数为hmvdr(l,t,m)。根据本发明的双麦克风阵列,滤波器系数分别表示为hmvdr(l,t,1)和hmvdr(l,t,2)。

可选地,优化系数u>0,u越大,期望信号损失越严重,噪音滤除越干净;u越小,期望信号保持得越好,但是噪音滤除相对较差,需要取一个合适的值,根据本发明的一个实施例,设置u=4。

随后在步骤S250中,根据步骤S240算得的滤波器系数对各音频帧的频谱进行滤波,生成各音频帧的滤波后频谱。

可选地,按照如下公式计算当前音频帧中第l个频率成分滤波后的频谱Y(ωl,t):

式中,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,t表示时间刻度,hmvdr(l,t,1)为第一声道的音频数据对应的滤波器系数,hmvdr(l,t,2)为第二声道的音频数据对应的滤波器系数,H表示共轭,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

随后在步骤S260中,通过对滤波后频谱作逆傅里叶变换,来生成期望拾音范围内的音频数据的时域波形。具体地,先对各音频帧的滤波后频谱作逆傅里叶变换得到各音频帧对应的时域信号;再拼接各音频帧对应的时域信号以输出期望语音信号的时域波形。

根据本发明的基于双麦克风阵列的定向拾音方案,不依赖声源检测结果,根据当前音频帧的入射角就能够精确地估计出当前音频帧的目标噪音比,再根据目标噪音比和入射角计算当前音频帧的滤波器系数,并根据该滤波器系数对所获取的音频数据进行相应的滤波,得到滤波后频谱,最终输出期望拾音范围内的音频数据。

更进一步地,根据当前音频帧的入射角与期望拾音范围的关系,将当前音频帧划分为期望帧和干扰帧,对期望帧和干扰帧区别处理,分别计算滤波器系数,具体地,若当前音频帧为期望帧,则只更新全局协方差矩阵;若当前音频帧为干扰帧,则既更新全局协方差矩阵又更新噪音协方差矩阵,根据更新后的全局协方差矩阵和噪音协方差矩阵计算得到滤波器系数。

本发明的方案能够提升噪音参数的估计准确率,无论外界环境如何变化,基于双麦克风阵列,本方案都能实现从环境中提取期望声源信号。并且,相应地减少了计算量,降低了运算的复杂度。

本方案可以应用于双麦助听器、双麦会议、单人录音设备以及手机视频录制等,定向拾取期望声音,提升用户的听音感受。

应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明所述的方法。

以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

本发明一并公开了:

A9、如A7所述的方法,其中,当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)定义为:

式中,Φv(l,t)'为初始滤波器中对应的第l个频率成分的噪音协方差矩阵,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,H表示共轭,t表示时间刻度,α'表示更新因子,为第l个频率成分对应的目标信噪比,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

A10、如A6或7所述的方法,其中,所述结合当前音频帧的全局协方差矩阵和噪音协方差矩阵计算当前音频帧的滤波器系数的步骤包括:

按照如下公式计算当前音频帧中第l个频率成分的滤波器系数hmvdr(l,t),

式中,(l,t)为当前音频帧中第l个频率成分的噪音协方差矩阵Φv(l,t)的逆矩阵,Φy(l,t)为当前音频帧中第l个频率成分的全局协方差矩阵,t表示时间刻度,u为优化系数且u>0,IM为M×M的单位矩阵,M为麦克风个数。

A11、如A6-10中任一项所述的方法,其中,所述初始滤波器为MVDR滤波器。

A12、如A1-11中任一项所述的方法,其中,所述根据滤波器系数生成各音频帧的滤波后频谱的步骤包括:

按照如下公式计算当前音频帧中第l个频率成分滤波后的频谱Y(ωl,t),

式中,Y1(ωl,t)为当前音频帧对应在第一声道上的第l个频率成分的频谱,Y2(ωl,t)为当前音频帧对应在第二声道上的第l个频率成分的频谱,t表示时间刻度,hmvdr(l,t,1)为第一声道的音频数据对应的滤波器系数,hmvdr(l,t,2)为第二声道的音频数据对应的滤波器系数,H表示共轭,ωl=2πl/L,l=1,2,...,L,L为傅里叶变换长度。

A13、如A1-12中任一项所述的方法,其中,所述通过对滤波后频谱作逆傅里叶变换,生成期望拾音范围内的音频数据的时域波形的步骤包括:

对各音频帧的滤波后频谱作逆傅里叶变换得到各音频帧对应的时域信号;以及

拼接各音频帧对应的时域信号以输出期望语音信号的时域波形。

A14、如A1-13中任一项所述的方法,其中,所述预处理包括如下操作:分帧、加窗、傅里叶变换。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1