基于嵌套子阵列的后置滤波与谱减法联合语音增强方法

文档序号:2830792阅读:840来源:国知局
专利名称:基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
技术领域
本发明涉及到计算机语音信号处理领域,更具体地说,本发明涉及一种基 于嵌套子阵列的后置滤波与谱减法联合语音增强方法,尤其适用于室内嘈杂环 境中话音信号的增强。
背景技术
语音增强(SpeechEnhancement)技术就是对带噪的语音进行相关处理,从 中提取尽可能纯净的原始语音,以改善接收端语音质量,提高语音的清晰度、 可懂度和舒适度,使人易于接受或提高语音处理系统的性能。常用在自动语音 识别系统、车载非手持式电话、多媒体会议、无线通信、场景录音、军事窃听、 助听设备和智能机器人等领域。语音增强技术的研究发展已有四十多年的历史, 传统的方法皆是基于单一麦克风的系统,其拾音范围、指向性变化、噪声抑制 能力等问题都受到一定的限制。基于麦克风阵列的自适应语音增强技术融合了 阵列信号处理技术、语音信号处理技术以及多通道信号采集技术等多项关键技 术。其技术优势在于它不仅可以利用语音信号的时域和频域特性,而且可以利 用其空间信息来实现对噪声的消除,达到增强和纯化语音的目的。基于麦克风 阵列的语音增强方法典型的工作流程如图l所示,具体描述如下-
1) 根据应用要求设计麦克风阵列结构;
2) 利用麦克风阵列接收到的多通道语音信号的时间、频率、空间信息, 对语音信号的起始、结束端点进行检测,同时估计通道之间的时间延 迟,估计信号空间方位信息;
3) 采用语音增强算法对多通道信号进行处理,实现语音信号的增强。 前述步骤l)中的麦克风阵列结构设计是一项关键的步骤。传统的阵列结构
有均匀线阵、非均匀线阵、均匀圆阵和球面阵列等。阵列结构的设计与多通道 信号模型的选择有密切关系。
阵列信号模型分为近场模型和远场模型,其最大区别在于在远场模型中, 各阵元接收到的信号幅度被认为是相同的,有相位差;而近场模型则需要考虑传播路径的不同带来的信号幅度衰减,即近场模型除了要考虑信源的到达方向 之外,还必须考虑信源到各个麦克风的距离。在近场情况下,通常采用球面波 前模型,来代替远场的平面波前模型。
与时域采样定理类似,为了防止出现空间混迭现象,基于麦克风阵列传感 器空间釆样也需要满足一定的条件,称为空间采样定理,描述为式(l)-
<formula>formula see original document page 5</formula> (1)
其中,"是相邻麦克风阵元间的直线距离,A为声波的波长。只有空间采样率足 够高,才能避免空间混迭。然而,如果阵元距离过小,则是才采样,采用较多 的麦克风传感器并不能提供更多的信号空间信息。
此外,信号源与麦克风阵列之间距离也将影响信号模型的建立。定义r为声 源到麦克风阵列中心的直线距离,丄为线性麦克风阵列的总长度。如果满足式
(2),则符合远场条件;反之,则需采用近场模型。
<formula>formula see original document page 5</formula> (2)
对于一个均匀线性麦克风阵列,采用远场平面波模型,则第m个麦克风的 输出离散信号可表示为
<formula>formula see original document page 5</formula> (3)
其中,^h]为声源信号,A 为第m个麦克风接收到的信号与声源信号之间的样 本点延迟,77j"]为第m个麦克风接收到的噪声信号。
A^为第m个麦克风接收到的信号与声源信号之间的时间延迟,则有如下关
系式-
<formula>formula see original document page 5</formula> (4)
式(4)中,乂为采样频率,c为声波在空间传播的速度。
前述步骤2)中的语音端点检测(Voice Activity Detection, VAD)步骤可视不 同语音增强算法或增或减。鲁棒的VAD方法对实现噪声信号的统计特征估计, 以及后续的语音增强算法的性能都具有重要的作用。通常办法是采用单一通道 的基于短时能量的VAD方法、基于过零率的VAD方法、基于线性预测系统的VAD方法等等。此外,基于阵列结构的端点检测方法常用的有基于波束形成
器的VAD方法、基于相位向量的VAD方法以及基于GSC的空间VAD方法。
前述步骤3)中,语音增强技术主要可分为基于单一麦克风的方法和基于麦 克风阵列的方法,其中基于单一麦克风的方法最成熟也最简单有效的是谱减法 语音增强算法;而基于麦克风阵列的方法目前广泛采用的有a)固定波束形成 器(Fixed B醒fo謹g, FBF); b)自适应波束形成器(Adaptive Beamforming, ABF); c)具有自适应后置滤波器的波束形成法(Microphone Arrays with Adaptive Postfiltering); d)广义旁瓣消除法(Generalized Sidelobe Canceller, GSC)等等。 除此之外, 一些改进的算法、联合的算法也层出不穷。常用的有将谱减法与固 定波束形成器相结合的语音增强方法;固定波束形成器与自适应后置滤波联合 语音增强方法;基于空间传输函数的广义旁瓣消除语音增强方法等。常用的基 于时延-累加波束形成
前述的谱减法(Spectral Subtraction, SS)语音增强算法是经典的单一通道语 音增强方法之一,是1979年由美国犹他大学(University of Utah) Steven F. Boll 教授提出的一种普遍应用于单通道含加性噪声的语音增强算法。如图2所示, 该方法通过对受污染的语音信号和估计的噪声信号的短时幅度谱进行相减处 理,获得纯净的语音信号,其效果相当于在变换域对含噪语音信号进行了某种 均衡化处理。然而,实际中噪声的频谱服从高斯分布,噪声的帧功率谱变化范 围很宽,在频域中的最大、最小值之比往往达到几个数量级,而最大值与均值 之比也达6-8倍。因此,在减去噪声谱之后,会有较大的功率谱分量的剩余部分, 在频谱上呈现随机出现的尖峰,在听觉上形成残留噪声。这种噪声具有一定节 奏起伏感,称为"音乐噪声"。此外,在谱减算法中语音的各个部分受到的影响 是不同的。摩擦音由于其特征与噪声相似,在处理过程中会和噪声一起被抑制。 鼻音能量较低,其功率谱的幅度与噪声接近,增强效果远不如浊音。谱减法的 衰减作用使语音的非浊音部分和高频部分减弱,这就是增强后语音的可懂度下 降的原因。
时延-累加波束形成器(Delay-and-Sum Beamformer, DSBF)是一种典型的 固定波束形成器,分为时延补偿和加权求和两部分。如图3所示,采用远场模 型,假设噪声为加性噪声,以第m通道接收到的信号为例,其表达式为^["]"["-A";J + "J"] (5)
利用时延估计算法得到语音信号在各通道的时间延迟,再采用时延补偿将
各通道信号在时域对齐,得到
= + (6)
对各通道信号进行加权求和,即得到波束形成输出信号-
y["] = 2X["],w["] (7)
在波束形成算法中,准确的时延估计是多通道语音增强的基础。延迟-累加 波束形成器具有系统简单、算法鲁棒、计算量小的优点,可应用于实际系统。
该算法在理论上可获得101ogH)M的信噪比提高。所以要获得好的语音增强,则 要采用较多的麦克风阵元。另外,此算法有隐藏的前提条件,即需要获得精确 的时间延迟估计A^、入射信号为窄带信号、不存在空间传输损耗和反射信号和 混响信号,算法主要的不足在于算法对于空间多于一个语音声源或者方向性 噪声、混响干扰严重的情况,其性能下降很快,此外,对信号的不同频率成分, 其响应不同,通常低频部分空间分辨率比较差,高频部分相对较好。
1988年,R. Zelinski提出了在延迟-累加波束形成器的输出后端增加一个后 置自适应维纳滤波器(Wiener Filter)的方法,形成了经典的后置滤波器语音增 强算法(Delay-and-Sum Beamforming with an Additional Postfiltering)。后置自适 应滤波方法结合线性自适应波束形成器(ABF)和后置滤波器(Postfilter),利 用线性ABF的空间滤波特性和后置滤波器的非相干噪声抑制特性,可以同时达 到空间滤波和频率滤波语音增强的效果,进一步提高输出信噪比。
后置自适应滤波的作用是对延迟-累加方法获取的信号采用自适应维纳滤波 法进一步估计出目标语音。其主要思想是假设
1) 每个通道接收到的语音信号与噪声信号是不相关的;
2) 阵列中不同麦克风接收到的噪声信号是不相关的;
3) 每个麦克风接收到的噪声信号的功率谱密度相同。如图4所示,经时延补偿后,做傅里叶变换转换到频域,各个麦克风通道 的信号包括目标语音信号和噪声信号,加权后
W)=『m(/)[S(/) + ^(/)] (8)
y(/)=2X(/)
(9)
基于前述三个假设,分别计算各通道的谱密度和通道间互谱密度可以得到 O朋(/)=五ft^(/)(S(/) + 7,(/))][^(/)(S(/) +;;,(/))]}
+ W(/勿,(/)] W(/)W/) + W(/k(/)]] =K(/)|20,,(/) + K(/)「Ow,(/)
=K(/)f[^(/) + <EV,(/)]
(10)
气"(/)=^[w(/)(s(/)+",(/))][R'(/)讽/)+",(/)):
,W(/艮(/)
根据维纳滤波器的最佳传递函数表达式
(12)
通过求输入各通道的目标信号和噪声信号的自相关谱密度和互相关谱密度可以 分别得到传递函数的分子和分母。
由式(io)和式(11)可以分別得到^,(/)和Om(/) +①J/),艮P-
<formula>formula see original document page 8</formula>从而,可得到后置自适应维纳滤波器的传递函数估计值
<formula>formula see original document page 9</formula>
其中,M表示通道数目,51(0为取实部运算,*为共轭算子,^(/)为各麦克风 通道的信号延迟-累加的权重,艮P:
<formula>formula see original document page 9</formula>(16) 则自适应维纳滤波器输出的目标语音信号的估计值为
<formula>formula see original document page 9</formula>(17)
由上述公式可见,后置自适应维纳滤波方法不受噪声源的个数限制。但该
方法由于是基于假设条件2),即阵列中不同麦克风接收到的噪声信号是不相关 的,而实际上,各麦克风阵列各通道接收到的噪声信号的互相关函数只有在高 频情况下才能被基本忽略,在低频情况下,各通道接收到的噪声信号的互相关 较为明显,并不能被忽略,因而该方法与固定波束形成算法一样,对于信号的 高频部分增强效果较好,低频部分增强效果较差。
可见,谱减法和后置滤波法各有优劣,单独采用一种方法无法达到理想的 语音增强效果,需要一种对于低频和高频语音信号都适用的算法进行处理。

发明内容
本发明的目的是为了解决目前在多通道语音增强技术中均匀阵列对宽频带 的语音信号的频率响应性能不一致的问题,且传统的语音增强方法也存在高频 段和低频段难以兼顾的问题。
为了解决上述技术问题,本发明提出了一种基于嵌套式子阵列的后置滤波 与谱减法相结合的语音增强方法。本发明所采取的技术方案是
第一步设计两个均匀子阵列嵌套的麦克风阵列用于多通道信号的采集;
所述基于嵌套子阵列的多通道语音信号至少包括五个通道语音信号;第二步检测语音信号的起始、结束端点,估计纯噪声信号的功率谱; 第三步估计语音信号在各通道的时间延迟;
第四步对各通道语音信号进行时延补偿,将各通道语音信号在时域对齐; 第五步用傅里叶变换将各通道信号从时域转换到频域;
第六步估计纯净语音信号的自功率谱和带噪语音信号的自功率谱,得到 维纳滤波器的频响函数;
第七步对于两子阵列的信号,分别用固定波束形成器将各子阵列的每个 通道的信号进行波束形成;
第八步分别将两个子阵列的输出波束进行低通滤波和高通滤波;
第九步对滤波后的两子阵列的输出波束进行谱减法或后置维纳滤波法处 理,实现语音增强;
第十步将两路增强后的波束交叠相加,进行反傅里叶变换,得到时域里 增强后的语音信号。
本发明具有如下优点
1) 嵌套子阵列对宽频带的空间语音信号具有较好的频率响应;
2) 阵列结构简单,利用公共的阵元减少了阵列的尺寸,算法的运算复杂度 较小;
3) 采用多通道后置滤波语音增强算法仅对目标语音信号的高频部分进行 增强处理,避免了后置滤波语音增强算法对低频段的语音信号增强性能 下降的问题;
4) 算法易于实现,计算量小,适用于PC机平台和嵌入式平台。


图1.典型的语音增强方法步骤图
图2.幅度谱减法语音增强方法流程图
图3.延迟-累加波束形成器流程图
图4.后置自适应维纳滤波语音增强方法流程图
图5.基于嵌套子阵列的后置滤波与谱减法联合语音增强方法流程图
图6.嵌套子阵列设计图
具体实施例方式
基于嵌套子阵列的后置滤波与谱减法联合语音增强方法的流程框图如图5 所示,其中由多通道信号采集、时延补偿、波束形成、后置自适应滤波四部分 组成。下面结合附图和具体实施方式
对本发明作进一步详细描述。本实施案例 并不限制本发明,对于本技术领域的普通技术人员,在不脱离本发明原理的前 提下,还可以做出若干改进和变化,这些改进和变化也应视为本发明的保护范 围之内。
本实施安全运行在普通PC机上,具体配置如下
CPU: Celeron 2.80GHz 内存1GHz
操作系统Windows XP Professional Edition 运行环境MathWorks MATLAB R2006b
采用本发明的实施案例,针对室内环境中的声源特性及噪声场特性,采用 散射噪声场(Diffiise Noise Field)模型和嵌套子阵列(Harmonically Nested Subarrays, HNSA)模型,对实际环境中的多通道含噪语音信号进行建模。通过 由7个全指向性麦克风组成的两个子阵列嵌套结构的阵列采集空间中的语音信 号,每个子阵列包含5个阵元,则M-5,用x;,["]和x二[n]分别表示小子阵列 (Small)和大子阵列(Large)的某一通道的信号,且/ = 1,...,5, 7 = 1,…,5。由 于嵌套性,其中部分麦克风通道共用
对于式(5)和式(6)所给出的信号模型,延时补偿后,再经过傅里叶变换,两 个子阵列某一通道的频域信号表达式-
<formula>formula see original document page 11</formula>(19)
<formula>formula see original document page 11</formula>(20) 其中,S(/)是纯净语音信号的傅里叶变换,^(/)和^(/)分别两子阵列第Z通道和第y通道的噪声的傅里叶变换,^是帧长<
对大小两子阵列分别做累加波束形成
rs(/)=4i>s,(/) (21)
&(/)=会1>&(/) (22)
将波束形成输出i;(/)和K(/)分别通过高通(HP) FIR滤波器和低通(LP) FIR滤波器,得到K(/)和将宽频带的语音信号分成两个频段分别用不同 的语音增强算法进行处理。
对于低频信号,采用如图4所示的谱减法进行去噪增强
A(/)H之'(/)卜"/) 。"
其中,&(/)是经过谱减法去噪后的目标语音信号的估计值,"/)是采用语音 活动检测方法在非语音段估计的噪声信号的幅度平均值。
而对于高频信号,采用如图6和图1所示的后置自适应维纳滤波法进行语 音增强。对于子阵列中任意两通道/和,z、y,带噪语音信号的自功率谱密度 和互功率谱密度分别为
①早,C/V^(/) + (D卿(/) (24)
c^," (/) = £{X(/)Z;(/)} = ^(/) + O邵(/) + Os". (/) + (/) ( 25)
基于前述后置自适应维纳滤波法的三个假设条件,各通道的噪声信号互不 相关,且与声源信号也不相关,贝U:
0怖(/)=气,(/) = 0柳,(/) = 0
(26)
且每个麦克风接收到的噪声信号的功率谱密度相同,定义为:
0卿(/) = <1>,(/) = (1)"/)
则式(24)和式(")可改写为
。早,(/) = ^(/) + ^(/)
12
(27)
(28)其中
6早,(/) = :|^,(/)|
2 M-l A/
(29)
(30)
(31)
考虑实际情况中的信号短时平稳性,FFT的长度L是有限的,因而式(25) 中的后三项不可能为0,而是趋近于0的一个复数。由于信号功率谱OJ/)只可 能是正实数,所以得到
",) ,te^S曹,(32)
此外,各通道的信号是通过一种迭代平滑的方式处理得到的。对于某一频 率点t,定义一个长度为2户+ l的平滑区间[A:-/7,A: + / ],贝U
2/7 + l,=_p
(33)
(34)
(35)
综合考虑精度和计算量之间的关系,通常取p-l或2。
则通过高通滤波器后的输出信号《(/)再通过自适应维纳滤波器,得到增强
后的高频段的语音信号
式-(/) = &'(/) (36)
将高、低两频率段的语音信号进行交叠相加傅里叶综合(Fourier Synthesis Overlap-Add),转换成时域内增强后的语音信号5["]。
权利要求
1、一种采用嵌套子阵列的后置滤波谱减法联合的语音增强方法,用于室内环境的多通道语音信号增强,其特征在于,所述方法包括1)设计两个均匀子阵列嵌套的麦克风阵列用于多通道信号的采集;2)检测语音信号的起始、结束端点,估计纯噪声信号的功率谱;3)估计语音信号在各通道的时间延迟;4)对各通道语音信号进行时延补偿,将各通道语音信号在时域对齐;5)用傅里叶变换将各通道信号从时域转换到频域;6)估计纯净语音信号的自功率谱和带噪语音信号的自功率谱,得到维纳滤波器的频响函数;7)对于两子阵列的信号,分别用固定波束形成器将各子阵列的每个通道的信号进行波束形成;8)分别将两个子阵列的输出波束进行低通滤波和高通滤波;9)对滤波后的两子阵列的输出波束进行谱减法或后置维纳滤波法处理,实现语音增强;10)将两路增强后的波束交叠相加,进行反傅里叶变换,得到时域里增强后的语音信号。
2、 根据权利要求1所述的嵌套子阵列的麦克风阵列结构,其特征在于,步骤 (l)所述的,每个子阵列是都是间距固定的均匀线性阵列,且大子阵列的间 距是小子阵列间距的2倍,部分阵元可共用。
3、 根据权利要求1或2所述的将两子阵列波束形成后的语音信号进行低通滤 波或高通滤波,其特征在于,步骤(8)所述的,对大子阵列各通道波束形成 后的语音信号进行低通滤波,对小子阵列各通道波束形成后的语音信号进 行高通滤波,使得语音信号在整个频率带上都有较好的频率响应。
4、 根据权利要求1或3所述的分别用谱减法和后置维纳滤波器对两子阵列的 输出波束进行增强处理,其特征在于,步骤(9)所述的,用功率谱减法对低 通滤波后的输出波束进行谱相减处理,实现语音信号低频部分的增强;用 所述的后置维纳滤波器对高通滤波后的输出波束进行滤波,实现语音信号 高频部分的增强。
5、 根据权利要求1或2所述的采用嵌套子阵列的后置滤波谱减法联合语音增强方法,其特征在于,所述多通道语音信号至少包括五个通道语音信号。
全文摘要
本发明公开了一种基于嵌套子阵列的自适应后置滤波与谱减法联合的语音增强方法,适用于室内环境,包括车载环境的多通道语音信号的增强。由于本发明考虑到了语音信号的宽带非平稳特性,基于麦克风阵列多通道语音增强方法对于语音信号的频率响应不一致,且在实际噪声场环境中,各通道噪声之间的相关性等问题,通过由间距不等的子阵列嵌套构成的麦克风阵列采集语音信号,并将各子阵列波束形成后的语音信号分成高频段和低频段,采用不同的语音增强算法进行处理,优势互补,提高了语音增强的效果。
文档编号G10L21/02GK101447190SQ200810068000
公开日2009年6月3日 申请日期2008年6月25日 优先权日2008年6月25日
发明者波 万, 璟 赵, 邹月娴 申请人:北京大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1