基于多模型和听觉特性的麦克风阵列后滤波语音增强方法

文档序号：2822501研发日期：2009年阅读：576来源：国知局

技术简介：
本发明针对麦克风阵列后滤波语音增强中信号参数估计不准确及降噪与语音畸变难以平衡的问题，提出基于多模型和听觉特性的解决方案。通过时域对齐、功率谱特征值分解确定信号子空间维度，自适应选择噪声模型并利用条件概率估计噪声谱，结合听觉掩蔽阈值计算与拉格朗日乘子法设计后滤波器，在降低残余噪声的同时最小化语音畸变，提升增强效果。
关键词：麦克风阵列,语音增强,后滤波,听觉掩蔽

专利名称：基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
技术领域：
本发明涉及麦克风阵列的信号子空间方法、听觉掩蔽效应及后滤波器的设计。
背景技术：
现实生活中的语音常常受到环境中噪声的影B向，多通道语音增强方法在近些年来受到了广泛的关注。麦克风阵列语音增强方法相对于单通道语音增强方法的优势在于它可以利用多路信号之间的相关性更准确地估计信号的特性，从而达到更好的语音增强效果。其中，麦克风阵列后滤波语音增强方法更是由于其出色的降噪性能近年来得到了广泛的使用。Simmer等(参考文献1 :K. Uwe Simmer, et al， "Post-filtering techniques'', inMicrophone Arrays, M.Brandstein and D.Ward, Eds.New York :Springer, ch. 3， pp. 36-60,2001.)证明了最小均方误差意义下的最优多通道语音增强解可分解为一个最小方差非畸变响应波束形成器加上一个单通道的维纳后滤波器的形式。尽管理论上证明了后滤波方法的最优性，但在实际应用中，由于很难精确地估计出语音信号和噪声信号的功率谱来得到理想的后滤波器，限制了后滤波方法的性能。所以，合理的后滤波器设计，准确的信号功率谱估计都可以使得语音增强方法的性能得到大幅的提高。Zelinski(参考文献2 : R. Zelinski，"A microphone array with adaptive post-filteringfor noise reduction in reverberant rooms", in Proc. of ICASSP-88,1988， Vol. 5， pp. 2578-2581.)假设各个阵元上的噪声信号是不相关的，提出了一种后滤波器设计方法。但由于实际环境中，阵元噪声之间是存在一定相关性的，所以该方法性能较差。McCowan(参考文献3 :Iain A.McCowan， Herv6Bourlard，"Microphone array post-filter based on noise field coherence", IEEETransaction on Speech and Audio Processing,Vol. ll，pp. 709_715，Nov. 2003.)考
虑了噪声之间的相关性，利用散射噪声场的特性，提出了一种后滤波器设计方法，具有较好的语音增强性能。但由于其方法是基于散射噪声场假设的，所以，当实际场合中的噪声场不符合散射噪声场时，该方法性能会有明显的下降。本发明利用人耳的听觉掩蔽效应，提出了一种基于听觉感知特性的后滤波器设计方法。为了更准确地估计噪声功率谱，本发明将带噪信号空间分解为信号子空间和噪声子空间，提出了用目标语音信号信号存在概率最大化来估计子空间维度的方法，合理地估计出信号子空间和噪声子空间的维度，在噪声子空间上，提出了用条件概率估计噪声功率谱的方法。实验证明，本发明所提出的噪声估计方法比以往的噪声估计方法更为准确，所提出的基于听觉感知特性的后滤波器也比传统的后滤波器更为有效。
假设由L个麦克风组成的阵列上接收到的带噪语音信号向量的频域表示为X = [Xp…，XJH。由阵列输入信号的加权相加得到的增强后的语音信号的频域表示如下
Y = wHX = wH[Sd+N] (1) 其中，模型w是阵列加权系数，S是目标信号，d二 …，cyT是传播向量，N二 [K，…，NJH是噪声信号向量，[，]H为共轭转置算子。
误差信号e = SiHX的功率为
步骤d :利用条件概率估计噪声功率谱；步骤e :根据信号子空间维度和噪声功率谱估计，利用听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值；步骤f :根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计后滤波器，使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除残余噪声影响，并使目标语音信号的畸变尽可能的小，完成麦克风阵列后滤波语音增强。
其中，所述对功率谱矩阵进行特征值分解，包括利用特征值分解将带噪语音信号空间分为两个子空间，即信号子空间包含目标语音信号和噪声；噪声子空间只包含噪声；把带噪语音信号X在时帧t和频率k的功率谱矩阵d^(k， t)特征值分解为①xx(k，t) = UAXXUH = U(Ass+(j)ra(k， t)I)UH 其中，X = S+N， X为带噪语音信号，S为目标语音信号，N为噪声；Axx为特征值降序排列的带噪语音信号功率谱特征值矩阵，Ass为特征值降序排列的目标语音信号功率谱特征值矩阵，U为特征向量矩阵，4ffl(k， t)为时帧t和频率k的噪声功率，I为L阶单位阵， [，]H为共轭转置算子。其中，所述确定信号子空间维度是取最合适的Q值使得带噪语音中目标语音信号存在的概率最大；利用条件概率计算，步骤包括
定义互斥事件H。和& :事件H。带噪语音信号中，只存在噪声，不存在目标语音信号；
事件^ :带噪语音信号中，目标语音信号与噪声同时存在；
信号子空间维度Q定义为 argjiaxP ) | 其中，S(k，t)是目标语音信号信号在第t帧的第k个频率点上的功率谱，P。)是
目标语音信号谱的分布函数，argmax()是寻找具有最大评分的参数值的算子。其中，所述基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱分布模型，包
括以下步骤步骤cl :定义一个用来表述功率谱的平稳性的判别函数Q :
1 丄
丄lx
丄一 2 ,=e+i 'SP， Q为几何平均"-2)^[几,,对算术平均_^ ^义,的比值，其中是带噪语
V '.=2+1 丄-2 '=。+1 '■
音信号功率谱特征值矩阵A^的第i个特征值，i G {Q+l，…，L}是特征值的下标，Q的值在0到1之间；步骤c2 :根据判别函数值与预设阈值比较，确定适用在带噪语音信号中的噪声功率谱分布模型。
其中，所述根据判别函数值与预设阈值的比较步骤包括
步骤c21 :确定两个预设阈值^禾P Q2， ^ < Q2 ; 步骤c22 :比较判别函数与预设阈值，特别地，如果判别函数小于预设阈值Q"则选用零均值高斯分布；如果判别大于预设阈值02，则选用伽玛分布；否则选用拉普拉斯分布。其中，利用条件概率估计噪声功率谱的步骤包括对于每一帧带噪语音信号，它只含有噪声的概率是P (4 I X)，即含有噪声又含有目标语音信号的概率是P(H」X);针对这两种情况，分别估计噪声功率谱如下
6<formula>formula see original document page 7</formula> 其中，(/^和(^v分别是噪声在互斥事件H。和&发生情况下的功率谱，i G {1， L}是特征值的下标；根据条件概率公式，噪声功率谱估计如下

AW
其中，所述估计听觉掩蔽阈值的步骤包括
步骤fl :将听觉频率范围0-15500Hz划分为若干个关键子频带；步骤f2 :分别计算每个子频带中的听觉掩蔽阈值。
其中，所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量，计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音
的传播系数两者相乘得到人耳基膜上的激励能量值，再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。
其中，所述结合拉格朗日乘子估计后滤波器G的步骤如下步骤fa :在残余噪声功率小于掩蔽阈值的约束条件下，最小化目标语音信号的畸变，以此建立最优化问题；步骤fb :结合拉格朗日乘子求解，得到后滤波器的最优估计；步骤fc :带入听觉掩蔽阈值和噪声功率谱估计，完成后滤波器的设计。
本发明的有益效果本发明利用人耳的听觉掩蔽效应提出了一种合理的折中方
案，设计了一种新的基于听觉感知特性的后滤波器。传统的噪声估计方法是基于VAD的噪
声估计方法，也就是检测出带噪语音中的纯噪声帧，用这些帧上的平均功率谱来估计语音
与噪声混合帧上的噪声功率谱。由于噪声是变化的，各帧上的噪声实际上是不同的。所以，
基于VAD的噪声估计方法用纯噪声帧上的平均噪声功率谱来估计所有帧上的噪声功率谱
会导致较大的估计误差。针对这一情况，本发明提出了一种基于带噪信号子空间分解的噪
声功率谱估计方法，在每一帧信号上都估计噪声功率谱，极大的减少了噪声估计误差。接
着，本发明利用人耳的听觉掩蔽效应设计后滤波器，使得增强后语音中的残余噪声被目标语音所掩蔽，在降噪的同时也减少了目标语音的失真。

本发明进一步的特色和优点将参考说明性的附图在下面描述。图1示出一个应用基于多模型和听觉特性的麦克风阵列后滤波语音增强方法的示例流程图；图2是一个确定信号子空间维度方法的流程图3是一个确定带噪语音信号中噪声功率谱分布模型的流程图；图4是一个利用条件概率估计噪声功率谱的流程图；

图5是一个计算听觉掩蔽阈值的流程图；图6是一个设计后滤波器的流程图。
具体实施例方式
应当理解，不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例；被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。本发明利用人耳的听觉掩蔽效应提出了一种合理的折中方案，设计了一种新的基
于听觉感知特性的后滤波器。人耳的听觉掩蔽效应是指，在通常情况下，目标语音信号信号
是强信号，而背景噪声相对较弱，这样听觉系统会根据具体的目标语音信号信号确定频域
上的听觉掩蔽阈值，如果使滤波后的残余噪声限制在人耳的听觉掩蔽阈值之下，那么该噪
声就不会被人耳感知，从而实现对带噪语音信号的增强。具体的步骤如下 —种新的基于多模型和听觉特性的麦克风阵列后滤波语音增强方法，包括下列步
骤步骤a:通过L个麦克风组成的麦克风阵列采集带噪声的多路语音信号，把各路带噪声的语音信号进行时域对齐，使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式，计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵；步骤b :通过极大化带噪语音信号中目标语音信号的存在概率，确定信号子空间的维度Q ;步骤C :基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱分布模型；
步骤d :利用条件概率估计噪声功率谱；步骤e :根据信号子空间维度和噪声功率谱估计，利用听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值；步骤f :根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计后滤波器，使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除残余噪声影响，并使目标语音信号的畸变尽可能的小，完成麦克风阵列后滤波语音增强。通常使用的噪声估计方法是基于VAD的噪声估计方法。也就是检测出带噪语音中
的纯噪声帧，用这些帧上的平均功率谱来估计语音与噪声混合帧上的噪声功率谱。由于噪
声是变化的，各帧上的噪声实际上是不同的。所以，基于VAD的噪声估计方法用纯噪声帧上
的平均噪声功率谱来估计所有帧上的噪声功率谱会导致较大的估计误差。针对这一情况，本发明步骤b)和步骤d)采用了一种基于带噪信号子空间分解的
方法来估计噪声子空间的维度和噪声功率谱，在每一帧信号上都估计噪声功率谱，极大地
减少了噪声估计误差。在目标语音信号与噪声不相关的假设下，带噪语音信号在时帧t和频率k的功率谱矩阵。xx(k， t)可表示为目标语音信号信号功率谱矩阵。ss(k， t)和噪声信号功率谱矩阵①丽(k， t)之和:Oxx(k， t) = Oss(k， t)+ (k， t) (6) 对于麦克风阵列信号而言，可假设各阵元上噪声信号的自功率谱相等，而阵元间
噪声信号不相关，则下式成立 Offl(k， t)=小NN(k， t)I (7)
其中，I为L阶单位矩阵，ctNN(k， t)为单通道噪声的自功率谱。
令目标语音信号功率谱矩阵的特征值分解为
Oss(k， t) = UASSUH (8) 其中，A^为特征值降序排列的特征值矩阵，U为对应的特征向量矩阵，Q为矩阵的秩，且Q《L。利用特征值分解可将带噪信号空间分为两个子空间信号子空间(包含目标语音信号和噪声)和噪声子空间(只包含噪声)。设带噪信号功率谱矩阵特征值分解为
①xx (k， t) = U A XXUH = U (A ss+小丽(k， t) I) UH (9)Axx为特征值降序排列的带噪语音信号功率谱特征值矩阵，I为L阶单位阵。
本发明提出了从噪声子空间中估计得到噪声自功率谱小^的方法。首先需要确定信号子空间的维度Q和噪声子空间维度P。在步骤b)中，提供了一种通过极大化带噪语音信号中目标语音信号的存在概率
来确定Q的方法，即取最合适的Q值使得目标语音信号存在的概率最大。利用条件概率计算，定义互斥事件H。和& : 事件H。带噪语音信号中，只存在噪声，不存在目标语音信号；事件^ :带噪语音信号中，目标语音信号与噪声同时存在；信号子空间维度Q定义为argjiax户(S(^:力IA) (10) 其中，S(k，t)是目标语音信号信号在第t帧的第k个频率点上的功率谱，P。)是
目标语音信号谱的分布函数，argmax()是寻找具有最大评分的参数值的算子。步骤c)提供了一种基于谱的平稳性选择带噪语音信号中噪声功率谱分布模型的
自适应方法。该方法包括下列步骤首先，定义判别函数Q
信号功率谱特征值矩阵A^的第i个特征值，i G {Q+l，， L}是特征值的下标，Q的值在0到1之间。然后，确定两个预设阈值，^和QJQ工〈Q》，比较判别函数与预设阈值，特别地，如果判别函数小于预设阈值Q"则选用零均值高斯分布；如果判别大于预设阈值Q2，则选用伽玛分布；否则选用拉普拉斯分布。在步骤d)中，提供了一种利用条件概率估计噪声功率谱的方法。对于每一帧带噪语音信号，它只含有噪声的概率是P(H。|X)，即含有噪声又含有目标语音信号的概率是 P(H」X);针对这两种情况，分别估计噪声功率谱如下
<formula>formula see original document page 10</formula>
(12)
{1，， L}是特征值的下标，^^和《^分别是噪声在互斥事件H0和H1 其中，i
发生情况下的功率谱。根据条件概率公式，噪声功率谱估计方法如下<L =户(H。 I "vC +尸(A I "《w (13) 步骤e)提供了一种根据信号子空间维度和噪声功率谱估计，利用听觉掩蔽效应，
基于信号子空间估计得到各频点的听觉掩蔽阈值的方法。听觉频率范围是0到15500Hz，覆盖了24个临界子频带，需要在每个子频带中计算听觉掩蔽阈值。首先计算各子频带上各频点的能量，再计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值。最后，根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系，再进一步计算得到掩蔽阈值。步骤f)提供了一种根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计后滤波器G(eJ")的方法。使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除残余噪声影响，并使目标语音信号的畸变尽可能的小。完成麦克风阵列后滤波语音增强。假设最小方差非畸变响应波束形成器的输出信号为》(y")，目标语音信号信号为
S(ej")，后滤波增强后的语音信号与目标语音信号信号的误差可表述如下 = G(e乂"^y") —5"(e，) = [G(e^)-l]SO^) + C (y (14) 其中，i^y"为》o加)中的噪音。式(14)中的第一项描述了增强语音中目标语音信号的畸变，第二项描述了增强语音中残余噪声的大小。可计算出一个合适的后滤波器G(eJ")使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除其影响。针对式(14)，本发明提出如下目标约束
mi《=[G(,)-1]2 Wffl)2+G(,)2》(y"2 (15)
约束条件
G(e声)2々(？"2^C^ (16)
其中，c^为听觉掩蔽阈值。
用拉格朗日乘子法求解，令
/ = ￡r + 〃(G(e， )2麵，)2 - C,,'r) (17)
G(O
其中，P是拉格朗日乘子。令J对G(eJ")求导，并使其为零，可得
>人一.
(18) 由式(18)可看出在本发明的目标约束下，基于听觉感知特性的后滤波器在表达形式上就是更合理地估计了噪声的维纳滤波器。
令J对P求导，并使其为零，可得<formula>formula see original document page 11</formula>
由(18)和(19)两式相等，可得<formula>formula see original document page 11</formula>
(19) <formula>formula see original document page 11</formula>(20) 将(20)带入(18)，并用式(13)中的4v代替^一。)2 ，得到本文所提的基于听觉感知特性的后滤波器如下
<formula>formula see original document page 11</formula> (21)<formula>formula see original document page 11</formula> 在图1中出一个应用基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
流程图。系统包括至少两个麦克风ioi的麦克风阵列。麦克风阵列的麦克风可能有不同的排列，特别地，麦克风101被置于一排，其中每
个麦克风和相邻近的麦克风有预设距离。例如，两个麦克风之间的距离可能大约是5厘米。
对于不同的应用环境和技术要求，麦克风阵列可能被安装在适当的位置。从麦克风101采集的语音信号被送到信号处理单元102。在送往信号处理单元之
前，语音信号可以经过低通滤波器来预处理语音信号。信号处理单元102对不同麦克风输采集的语音信号进行延迟补偿以实现时域对齐。使用短时离散傅里叶变换将对齐后的各麦克风信号表示成复数值的频率信号形式，计算麦克风阵列采集的多路带噪语音信号在时帧t、频率k的功率谱矩阵Oxx(k，t)并对此矩阵进行特征值分解，得到特征值矩阵An和特征向量矩阵U。在接下来的步骤103中，利用特征值矩阵A^通过极大化带噪语音信号中目标语音信号的存在概率的方法，确定信号子空间的维度Q。接着，步骤104利用信号子空间的维度Q，基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱分布模型。步骤105利用信号子空间维度Q和噪声功率谱分布模型，根据条件概率估计噪声功率谱。步骤106利用信号子空间维度和噪声功率谱估计，根据听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值。最后，步骤107利用噪声功率谱估计和听觉掩蔽阈值，结合拉格朗日乘子设计后滤波器。在图2，说明了一个确定信号子空间维度的方法的流程，该方法对应于图1中的步骤103。经过步骤101和步骤102，麦克风阵列采集的语音信号已经通过时域对齐，短时傅里叶变换。并对多路带噪语音信号的功率谱①n进行特征值分解，得到特征值矩阵A^和特征向量矩阵U。由(9)式，带噪信号功率谱特征值矩阵被分解为信号功率谱特征值与噪声功率谱特征值的和，Q是信号子空间的维度。
0139] 在第一步骤201中，初始化信号子空间的维度Q，令其为1。
0140] 接下来，步骤202更新噪声功率谱和目标语音信号功率谱。由于带噪语音信号功率谱特征值矩阵An是降序排列，并假设信号强度大于噪声，所以当信号子空间的维度为Q时，噪声的功率为
1
《
0141] 0柳=
丄-
0142]0143]
0144]
0145]0146]
0147]
0148]0149]
其中，i G {Q+l，…，U是特征值的下标。而目标语音信号的功率为
2 一
(22)
1 、
L/=1
(23)
其中，i G {1，…，Q1是特征值的下标。那么，目标语音信号的方差为
、—我
1 2丄Z
e台
义义，-？W)2 - s
2 = 16>i
(24)
其中，其中，i G {1，…，Q1是特征值的下标。
步骤203从高斯模型、拉普拉斯模型和伽玛模型中任意选择-
来描述目标语音
'^号的谱分布。计算目标语音信号的条件概率Pc;(S(k，t) IH》，特别地，当选择高斯模型时，
1 f f(A:力1
0150] A(S(A:力I^):
argmaxP(S(A:力l巧)。
0151 ] 步骤204实现变量Q和j的自加运算0152] Q = Q+l
0153] 接着步骤205判断循环终止条件Q > L，特别地，当条件不满足时，返回步骤202 ;否则进行步骤206。
0154] 步骤206利用本发明的(10)式，最终确定了信号子空间的维度Q，即0155]
0156] 在图3中，说明了一个确定带噪语音信号中噪声功率谱分布模型的流程图。该方法对应于图1中的步骤104。
0157] 高斯模型、拉普拉斯模型和伽玛模型都可以被用来描述语音信号和噪声信号的谱系数，但是对于不同的噪声类型其噪声特性也会有所不同，所以模型选择应根据目标噪声的特性有针对性的进行。在本示例中，根据计算机风扇噪声的统计数据给出了一种基于谱的平稳性进行模型选择的方法。
0158] 在步骤301中，由(11)式计算出判别函数值Q 。
0159] 步骤302判断判别函数值Q是否小于Qp如果判断结果为真，则选择高斯模型；否则执行步骤303，判断判别函数值Q是否小于02，如果判断结果为真，则选择拉普拉斯模型；否则选择伽玛模型。的模型自适应选择算法，是基于在对大量计算机风扇噪声实验数据统
计的结果。实验发现高斯模型在Q取较小值时为最优模型，在Q值较大时，拉普拉斯模型
最优，而伽玛模型总的平均噪声估计误差是最小的。据此，本发明进行模型选择如下
' 高斯模型，OSQS""w^Z-j拉普拉斯模型，q〈Q^Q2 (25)伽玛模型，Q2<Q21 在图4中，说明了一个利用条件概率估计噪声功率谱的方法流程图。该方法对应于图1中的步骤105。步骤401计算带噪语音信号起始段纯噪声帧的平均功率谱w;;。步骤402计算计算当前帧的功率谱 0'
AW
1 ￡=》,
其中，i G {1， *"，L}是特征值的下标。
接下来步骤403计算当前帧功率谱与纯噪声功率谱的比值
丄cw
r =
丽步骤403到步骤408共同完成了条件概率P(H^X)的计算。首先比较r与设定阈值a的大小，a取略大于1的较小值，特别地，a取为1.2。当r〈 a时，当前帧更可能为纯噪声帧，所以P(H。IX)应取较大的值，本发明设置其下限为0.8。如果当r〉 a，当前帧更可能是语音帧，此时P(H。IX)应取一个合适的值。由于信号的能量在各个频率上分布式不均匀的，所以，这里根据不同的频率取不同的P(H。IX)值。在低频时，P(H。IX)的值应大于高频的值，因为信号的能量大多集中在低频区域。即
1 、 P(//。|X)=
max
1
1
,0.8
^1.2
r >1.2
(26)
^ />义其中，f^是高低频的界限频率，！^和|32是加权系数
步骤409计算条件概率P讽| X) = l-P (H。 | X)。
估计值^ 在图5中，说明了一种计算听觉掩蔽阈值的方法的流程图。该方法对应于图1中的步骤106。为了将信号中的噪声掩蔽掉，从而实现对目标语音信号信号的增强，需要将噪声限制在该阈值以下。步骤501将0到15500Hz的人耳听觉范围划分为24个子频带，以便于在每个子频带中计算听觉掩蔽阈值。
得到条件概率P(H。IX)和P(H」X)以后，步骤410利用(13)式得到噪声功率谱的在步骤502中，利用步骤206所得的信号子空间维度，计算了各频点的能量。H(j， b)表示的是第j个子频带内第b个频点上的能量，可根据信号子空间特征值和特征向量计算出来。
<formula>formula see original document page 14</formula>
0178] 其中，、=1^,. -0，为目标语音信号功率谱矩阵的特征值估计，仏,i为信号子空间的第i个基，i G {1，…，Q}是特征值的下标mean()为取均值算子。 0179] SF(j)是表达第j个子频带上人耳基膜传播特性的函数，j € 在步骤503中，计算每个子频带的传播函数
<formula>formula see original document page 14</formula>接下来，步骤504计算表征人耳基膜上能量的激励能〗 C<formula>formula see original document page 14</formula>0186] 其中，O(j)是偏移量，j G {1，，24}表示第j个子频带。
0187] 在图6中，说明了一个设计后滤波器的流程图。该方法对应于图1中的步骤107。 0188] 在保证增强后的语音中残余噪声的功率低于听觉掩蔽阈值的条件下，为使目标语音信号信号的畸变达到最小。 0189] 步骤601描述有约束的最优化问题，如下目标
<formula>formula see original document page 14</formula>
约束条件
步骤602利用拉格朗日乘子法求解，令
令J对G(eJ")和ii分别求导，并使其为零，可得 S(O2
<formula>formula see original document page 14</formula>
步骤603求解此方程子，得到后滤波器的最优估计，即 =- 1
<formula>formula see original document page 14</formula>
0200] 再将步骤410得到的噪声功率谱估计(^^和505得到的听觉掩蔽阈值Cthr带入，步骤604完成后滤波器的设计。
根据本说明书，本发明进一步的修改和变化对于所述领域的技术人员是显而易见的。因此，本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解，本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。
权利要求
一种基于多模型和听觉特性的麦克风阵列后滤波语音增强方法，其特征在于，包括下列步骤步骤a通过L个麦克风组成的麦克风阵列采集带噪声的多路语音信号，把各路带噪声的语音信号进行时域对齐，使用短时离散傅里叶变换将对齐后的各路信号表示成复数值的频率信号形式，计算麦克风阵列多路信号的功率谱矩阵并对此功率谱矩阵进行特征值分解得到特征值矩阵和特征向量矩阵；步骤b通过极大化带噪语音信号中目标语音信号的存在概率，确定信号子空间的维度Q，且Q≤L；步骤c基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱分布模型；步骤d利用条件概率估计噪声功率谱；步骤e根据信号子空间维度和噪声功率谱估计，利用听觉掩蔽效应，基于信号子空间估计得到各频点的听觉掩蔽阈值；步骤f根据噪声功率谱、听觉掩蔽阈值，结合拉格朗日乘子估计后滤波器，使得增强语音中的残余噪声小于人耳的听觉掩蔽阈值，从而消除残余噪声影响，并使目标语音信号的畸变尽可能的小，完成麦克风阵列后滤波语音增强。
2. 如权利要求1所述的方法，其特征在于，所述对功率谱矩阵进行特征值分解，包括利用特征值分解将带噪语音信号空间分为两个子空间，即信号子空间包含目标语音信号和噪声；噪声子空间只包含噪声；把带噪语音信号X在时帧t和频率k的功率谱矩阵。xx(k， t)特征值分解为Oxx(k， t) = UAXXUH = U(Ass+cj)ffl(k， t)I)UH其中，X = S+N， X为带噪语音信号，S为目标语音信号，N为噪声；Axx为特征值降序排列的带噪语音信号功率谱特征值矩阵，Ass为特征值降序排列的目标语音信号功率谱特征值矩阵，U为特征向量矩阵，4NN(k， t)为时帧t和频率k的噪声功率，I为L阶单位阵，[ ]H为共轭转置算子。
3. 如权利要求1所述的方法，其特征在于，所述确定信号子空间维度是取最合适的Q值使得带噪语音中目标语音信号存在的概率最大；利用条件概率计算，步骤包括定义互斥事件H。和& :事件H。带噪语音信号中，只存在噪声，不存在目标语音信号；事件^ :带噪语音信号中，目标语音信号与噪声同时存在；信号子空间维度Q定义为argmax尸(S(A;,f)li^)其中，s(k， t)是目标语音信号信号在第t帧的第k个频率点上的功率谱，p(O是目标语音信号谱的分布函数，argmax()是寻找具有最大评分的参数值的算子。
4. 如权利要求1所述的方法，其特征在于，所述基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱分布模型，包括以下步骤步骤cl :定义一个用来表述功率谱的平稳性的判别函数Q :<formula>formula see original document page 3</formula>艮P， Q为几何平均&e)f[义;r,对算术平均T^i义A的比值，其中、是带噪语音信号功率谱特征值矩阵A^的第i个特征值，i G {Q+l，， L}是特征值的下标，Q的值在 0到1之间；步骤C2 :根据判别函数值与预设阈值比较，确定适用在带噪语音信号中的噪声功率谱分布模型。
5. 如权利要求4所述的方法，其特征在于，所述根据判别函数值与预设阈值的比较步骤包括步骤C21 :确定两个预设阈值&和Q2， & < Q2 ;步骤c22 :比较判别函数与预设阈值，特别地，如果判别函数小于预设阈值Q"则选用零均值高斯分布；如果判别大于预设阈值02，则选用伽玛分布；否则选用拉普拉斯分布。
6. 如权利要求1所述的方法，其特征在于，利用条件概率估计噪声功率谱的步骤包括对于每一帧带噪语音信号，它只含有噪声的概率是P (H。 IX)，即含有噪声又含有目标语音信号的概率是P(H」X);针对这两种情况，分别估计噪声功率谱如下<formula>formula see original document page 3</formula>其中，0^和^U分别是噪声在互斥事件H。和&发生情况下的功率谱，i G {1，…，U是特征值的下标；根据条件概率公式，噪声功率谱估计如下層
7. 如权利要求1所述的方法，其特征在于，所述估计听觉掩蔽阈值的步骤包括步骤fl :将听觉频率范围0-15500Hz划分为若干个关键子频带；步骤f2 :分别计算每个子频带中的听觉掩蔽阈值。
8. 如权利要求7所述的方法，其特征在于，所述计算每个子频带中的听觉掩蔽阈值是计算各子频带上各频点的能量，计算人耳基膜对于各频段声音的传播系数，然后将各子频带上各频点的能量和各频段声音的传播系数两者相乘得到人耳基膜上的激励能量值，再根据人耳基膜上的激励能量值与听觉掩蔽阈值的函数关系计算得到掩蔽阈值。
9. 如权利要求1所述的方法，其特征在于，所述结合拉格朗日乘子估计后滤波器G的步骤如下步骤fa:在残余噪声功率小于掩蔽阈值的约束条件下，最小化目标语音信号的畸变，以此建立最优化问题；步骤fb :结合拉格朗日乘子求解，得到后滤波器的最优估计；步骤fc :带入听觉掩蔽阈值和噪声功率谱估计，完成后滤波器的设计。
全文摘要
本发明公开了一种基于多模型和听觉特性的麦克风阵列后滤波语音增强方法。针对影响麦克风阵列后滤波语音增强性能的两个重要因素对于信号参数的准确估计和在增加降噪性能与减少语音畸变之间合适的折中，本发明的方案包括下列步骤对麦克风阵列采集到的信号进行时域对齐，短时傅里叶变换和功率谱的特征值分解；通过极大化带噪语音信号中目标语音信号的存在概率，来确定信号子空间的维度；基于谱的平稳性，自适应选择带噪语音信号中噪声功率谱的分布模型；利用条件概率估计噪声功率谱；基于信号子空间估计听觉掩蔽阈值；根据听觉感知特性，结合拉格朗日乘子估计后滤波器。
文档编号G10L21/02GK101778322SQ20091025039
公开日2010年7月14日申请日期2009年12月7日优先权日2009年12月7日
发明者刘文举, 李超, 程宁申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘文举;程宁;李超
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种模型互补的汉语重音识别方法及系统的制作方法
下一篇：一种可分层音频编码、解码方法及系统的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！