基于噪声混合相干性的双通道波束形成语音增强方法

文档序号:10513521阅读:468来源:国知局
基于噪声混合相干性的双通道波束形成语音增强方法
【专利摘要】本发明公开了一种基于噪声混合相干性的双通道波束形成语音增强方法。自适应波束形成在无混响条件下可以有效地抑制方向性噪声信号,但在混响存在的条件下其效果大大降低。针对这个问题,本发明提出了一种基于噪声混合相干性的双通道波束形成方法。考虑到声场中同时存在相干性和散射性噪声,本发明提出用混合噪声声场来代替传统的散射性声场的假设,首先估计出混合噪声声场中的噪声相干性,用其来估计噪声的功率谱,并将噪声功率谱估计结果用于计算频域滤波的增益函数。噪声与混响信号经过频域滤波处理后,残留的噪声再通过最小方差无失真响应波束形成器进一步处理。实验证明利用本发明的方法增强后的语音质量相比于传统的方法有较明显的提高。
【专利说明】
基于噪声混合相干性的双通道波束形成语音増强方法
技术领域
[0001] 本发明属于信息技术领域,涉及一种适用于复杂声学环境下的语音增强方法,具 体涉及一种基于噪声混合相干性的双通道波束形成语音增强方法。
【背景技术】
[0002] 语音是人们进行语言交流的重要信息载体。然而,在日常生活的交流中,人们常常 处于一个嘈杂喧闹的环境中,因此,感兴趣的语音常常会受到噪声、混响等因素的干扰,语 音的清晰度、可懂度和舒适度大大降低,从而严重影响人耳的听觉感受。人们往往希望改善 语音质量以减轻听觉上的疲劳,特别是需要长时间处于噪声环境中。语音增强是从带噪语 音中尽可能地提取纯净的原始语音以提升语音的质量和可懂度。通过语音增强算法,可以 在一定程度上将噪声滤除,从而提高该段语音的质量和可懂度。
[0003] 在很多场合我们都需要对语音进行增强。例如,在移动电话进行语音通讯时,一方 在马路、机场或者餐厅等充满背景噪声的场景下说话,那另一方听到的就是带着各种噪声 的语音信号。此时可以先对带噪语音信号通过语音增强算法进行处理,从而改善接收端的 语音质量。又如在电话会议系统中,在某一个终端采集到的噪声将会被传送到其他所有接 收端,如果这个终端所在的房间会产生回响的话,那么会对电话会议造成更大的影响。因 此,如果能在将音频信号广播到其他接收端之前对带噪语音进行增强,就能改善整个系统 的性能。对于有听力障碍的人士来说,常常需要借助助听设备或人工耳蜗来交流。但在噪声 环境下,助听器的效果会受到很大影响。此时可以利用语音增强算法在带噪语音信号被放 大之前对信号进行预处理,可以在一定程度上减少噪声信号的干扰,帮助听障人士更好地 进行交流。
[0004] 语音增强技术通常可以分为单通道语音增强算法和多通道语音增强算法。单通道 语音增强算法利用单个麦克风进行语音增强,此类方法以其简单的模型和廉价的成本已取 得广泛的应用和成熟的发展。但由于单通道语音增强算法只能利用单路带噪语音信号的统 计特性来抑制噪声,对非平稳噪声或强干扰的条件下,其增强效果急剧下降。多通道语音增 强系统使用多个麦克风,即麦克风阵列采集声音信号,得到多路信号。由于输入通道数的增 加,信号处理算法可以利用各通道信号之间的相关性来进行语音增强。相比单通道只能利 用语音和噪声在时频域上的差异进行增强的局限,麦克风阵列的引入可以弥补单通道语音 增强的不足。通常来说,增加麦克风的数量可以提高语音增强的效果。相比于单麦克风语音 增强,基于麦克风阵列不仅可以利用信号的时频信息,还可以信号的空间信息,可以弥补单 麦克风语音增强的不足,受到广泛的关注。但其缺点是结构尺寸庞大,系统计算复杂和计算 量太大等。综合考虑设备的成本,语音增法算法的实时性与算法的效果,利用双通道语音增 强,也就是使用两个麦克风进行语音增强是一种比较好的折衷方案。
[0005] 所谓的双通道语音增强,就是通过对双通道的语音数据进行处理,增强感兴趣的 声源信号,抑制不感兴趣的声源信号和噪声。基于双通道的语音增强基本方法有固定波束 形成、自适应波束形成、后置滤波、子带波束形成和近场波束形成等方法。其中,波束形成 (beamforming)是最早最经典的方法,它通过对单个通道的语音信号进行时延补偿,使得各 通道中的语音信号同步,然后加权、求和,最后系统输出。根据加权时使用的权重是否依赖 于输入信号可将波束形成分成固定波束形成和自适应波束形成。波束形成通过对各通道信 号进行加权处理,加重特定方向信号而削弱其它方向信号,从而得到来自某一特定方向的 信号。双通道波束形成方法主要包含以下几个步骤:
[0006] 1、语音录入,预滤波、模数变换。先把录入的模拟声音信号进行预滤波,高通滤波 抑制50Hz电源噪声信号;低通滤波滤除声音信号中频率分量超过采样频率一半的部分,防 止混叠干扰,对模拟声音信号进行采样和量化得到数字信号。
[0007] 2、预加重。信号通过高频加重滤波器冲激响应,以补偿嘴唇辐射带来的高频衰减。
[0008] 3、分帧、加窗。由于语音信号的慢时变性,整体非平稳,局部平稳,一般认为语音信 号在10-30ms内是平稳的,可以把声音信号按照20ms的长度进行分帧。分帧函数为:
[0009] xk(n) = w(n)s(Nk+n)n = 0,1. . .N-l;k = 0,l. . .L-l (1)
[0010] 其中N为帧长,L为帧数,s表示语音信号。w(n)为窗函数,它的选择(形状和长度)对 短时分析参数的特性影响很大,常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉 明窗,可以很好地反应语音信号的特性变化,汉明窗表达式为:
[0012] 4、时延估计。每帧信号可以提取特征以表征本帧信号所包含的信息如时间差、能 量差等,使得各通道中的语音信号同步。
[0013] 5、波束形成增强语音。对同步后的双通道信号进行加权、求和,最后输出。

【发明内容】

[0014] 本发明提出一种新的双通道波束形成方法,用于提高复杂声学环境下(混响与方 向性噪声同时存在)自适应波束形成对噪声和混响的抑制效果。尽管自适应波束形成在无 混响条件下可以有效地抑制方向性噪声信号,在混响存在的条件下,由于房间墙壁对信号 进行多径反射,噪声信号来自四面八方,导致自适应波束形成方法对噪声抑制效果大大降 低。针对这个问题,本发明提出基于噪声混合相干性的双通道波束形成方法。
[0015] 传统的方法总是把混响环境下的噪声声场当作一个散射性声场。然而,如果噪声 来自一个特定的方向,麦克风接收到的不仅包括相干性信号(直达信号),也包括散射性的 信号(反射信号)。基于此,本发明提出用混合噪声声场来代替传统的散射性声场的假设,首 先估计出混合噪声声场中的噪声混合相干性,用其来改进传统的基于相干性噪声估计方 法,得到更准确的噪声估计结果,并将噪声估计结果用于频域滤波的设计。噪声与混响信号 经过频域滤波处理后,残留的噪声再通过最小方差无失真响应波束形成器。通过该方法,可 以提高传统的自适应波束形成方法在混响环境下的效果。
[0016] 本发明采用的技术方案是一种基于噪声混合相干性的双通道波束形成语音增强 方法,主要包括以下几个步骤:
[0017] 1)混合相干性估计。在时间域上,双通道语音模型可以描述为:
[0018] xi(n) = si(n)+vi(n), i = 1,2 (3)
[0019] 其中,Xl(n)表示麦克风接收到的带噪信号,Sl(n)表示纯净语音信号,Vl(n)表示噪 声信号,其中下标1,2分别代表第一个麦克风信号和第二个麦克风信号。
[0020] 利用短时傅里叶变换,双通道语音模型可在频域上表示为:
[0021] Xi(A,y) = Si(A,y)+Vi(A,y),i = l,2 (4)
[0022] 其中,λ和μ分别表示帧号和频率。
[0023]两个信号的相干性在频域上定义为:
[0025] 其中#_,為&和4?分别表示信号vi和V2的自功率谱和互功率谱。
[0026] 相干性噪声声场是由特定方向的噪声声源产生的。假设噪声到达角度为θν,那么 两个麦克风接收到的噪声信号的相干性为:
[0028] 其中f表示频率变量,c = 340m/s表示声音在空气中的传播速度,dmic表示两个麦克 风的距离。
[0029]随着房间混响时间的增加,无数的不相关的点源信号同时在空气中传播,此时的 噪声声场存在着散射性的噪声。散射性噪声声场往往被认为是对混响环境中声场的一种很 好的近似。理想的散射性噪声声场相干性为:
[0031]由于噪声来自一个特定的方向,麦克风同时接收到的包括相干性信号和散射性的 信号,因此,更适合将噪声声场当作是一种混合声场。对于混合噪声声场,噪声的自功率谱 等于不同声场噪声的自功率谱相加,对于互功率谱也是同理。因此,混合噪声声场中的噪声 相干性为:
[0033] 假设两个麦克风接收到的噪声的自功率谱是相等的,BP
[0034] #晒,稱=為 a',,% = 4fi> (9)
[0035] 4r.ir, =^Jr,v:v: =Φα?Λ· (1())
[0036] 结合公式(5)(9)(10),公式(8)可以改写为:
[0038]根据公式(11 ),可以认为混合噪声声场中的噪声相干性是相干性噪声和散射性噪 声相干性的加权相加。尽管公式中的相干性噪声和散射性噪声的功率谱无法直接求出,公
刚好是相干性噪声和散射性噪声的能量比,可以由以下公式求得:
[0039]
[0040] 其中『¥2表示两个带噪信号的相干性,ψ表示相干性噪声和散射性噪声的能量 比。
[0041] 由于相干性噪声的方向是未知的,因此无法直接由公式(6)计算出。根据公 式(5),可以发现信号的相干性与互功率谱的辐角是相等的,即:
[0042] argT,. =arg (6),.,. (丨.;)
[0043] 因此可以利用噪声信号的互功率谱来计算,即:
[0045]其中噪声信号的互功率谱么Λ可以用带噪语音信号前导无语音帧来计算,将其记 为C,由此可以用公式(15)计算:
[0047]最后,可以得到噪声混合相干性的估计公式为:
[0049] 2)频域滤波。带噪信号在经过波束形成器处理前,先利用频域滤波对其进行处理。 频域滤波所需的噪声信号功率谱是基于噪声混合相干性来得到。基于混合相干性的噪声功 率谱估计方法为:
[0051 ]其中 <表示估计得到的噪声功率谱,么$和分别表示带噪信号Xl的自功率谱和 带噪信号^的自功率谱,代&表示带噪信号以和^的互功率谱。信号的自功率谱和互功率谱 通过递归平均方法来得到:
[0053] 其中α是平滑因子,乂1表示信号^的短时幅度谱,X;表示信号^的短时幅度谱的复 共辄。
[0054] 噪声估计的准确性可以用真实的噪声功率谱Φ ν和估计的噪声功率谱&的对数误 差来计算:
[0056]在估计完噪声功率谱后,频率滤波增益函数可由下式计算得到:
[0058] 其中,β表示减法因子,为了避免出现负值,用Gmin作为增益函数的下界。
[0059] 经过频率滤波处理后的带噪语音信号变成:
[0060] Z,. (/."//) = !;. (/>,//)0; (;"//) (21)
[0061] 3)基于后滤波的波束形成。经过频域滤波后的信号仍然存在残留噪声,接下来进 一步最小方差无失真响应波束形成器对其进行处理。为了推导方便,将波束形成器输入信 号记为:
[0063]根据最小方差无失真响应原则,波束形成器的权重为:
[0065] 其中,^^表不输入信号念的自相关矩阵,ds(y)为目标语音信号的方向矢量。它唯 一由相对于语音接收端的相对位置确定。最终经过波束形成处理后的语音信号为:
[0066] 5(A.//) = (^//)Z(/i.//) ^21)
[0067] 经过语音增强后的双通道时域语音信号可利用短时傅里叶逆变换和重叠相加法 得到。
[0068] 本发明与传统的方法不同,将混响环境下由方向性噪声产生的噪声声场认为是一 种混合声场而不是简单的散射性噪声声场,并推导出噪声信号的混合相干性估计方法,将 混合相干性用于频域滤波器中噪声功率谱的估计,从而得到更加准确的估计结果,进而提 高语音增强算法的效果。此外,传统方法为了提高自适应波束形成方法在混响条件下的效 果,往往会在波束形成器后加后置滤波。本发明的方法与波束形成器加后置滤波方法不同, 提出了一种新的双通道波束形成器,它是由频域滤波器和最小方差无失真响应波束形成器 组成。它是先通过频域滤波去除一部分的混响和直达噪声信号,残留的信号再由最小方差 无失真响应波束形成器处理。之所以这样做是因为用波束形成器直接处理混响信号效果很 差,而先用频域滤波能在一定程度上去除混响的干扰。相比于传统的方法,提出的方法更能 有效地抑制混响环境下的噪声信号,增强后的语音在信噪比和感知语音质量相比于传统的 方法都有$父明显的提尚。
【附图说明】
[0069] 图1是本发明的双通道波束形成语音增强方法流程示意图。
[0070] 图2是本发明实施例中和另外三种已有的语音增强方法实验得到的增强后语音较 增强前语音信号的信噪比提高大小比较。这三种语音增强方法分别是Zelinski提出的经典 的波束形成加后置滤波方法(Zelinski post-filter),Yousefian和Loizou于2013年提出 的基于相干性的方法(COH based),Schwarz和Kellermann于2015年提出的基于直达信号和 散射信号能量比的方法(⑶R based)。
[0071] 图3是本发明实施例中和上述另外三种语音增强方法实验得到的增强后语音较增 强前语音信号的感知语音质量比较。
[0072] 图4(a)_4(b)分别是纯净语音信号的语谱图和受混响、噪声污染后的语音信号的 语谱图。图4(c)_4(f)分别是利用本发明的方法和上述另外三种语音增强方法增强后的语 音的语谱图。图4(c)对应Zel inski提出的经典的波束形成加后置滤波方法(Zel inski post-f ilter),图4(d)对应Yousef ian和Loizou于2013年提出的基于相干性的方法(COH based),图4(e)是对Schwarz和Kellermann于2015年提出的基于直达信号和散射信号能量 比的方法(⑶R based),以及图4 (f)对应本发明的方法。
【具体实施方式】
[0073]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施 例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有 其他实施例,都属于本发明保护的范围。
[0074] 本实施实例所采用的数据库在国际上语音增强中较为权威而且是使用最为广泛 的数据库之一。纯净语音取自TSP数据库,共有80句语音用于测试。噪声信号是取自N0ISEX 数据库,两个带噪的麦克风信号是由Air (Aachen Impulse Response)数据库提供的房间脉 冲响应卷积上语音和噪声信号得到的。Air脉冲响应数据库是由德国亚琛工业大学通讯系 统研究所利用HMS2仿真人工头录制的,包括办公室、会议室、报告厅等不同类型的场景,用 于混响环境下信号处理算法的研究。两个麦克风分别位于人工头的左耳和右耳,距离约 0.17米。不同实验场景下,房间大小,混响时间,声源的位置与人头的距离等参数有所不同。
[0075] 考虑到语音增强算法在实际的应用中往往面临不同的噪声环境,实验中通过设置 不同混响时间,不同方向的声源、不同噪声类型来测试算法的鲁棒性。表1给出了不同噪声 场景的设置,包换噪声的类型,房间混响的时间,目标声源的角度以及噪声声源角度。
[0076] 表1不同噪声场景设置
[0077]
[0078] 实施实例采用如图1所示的双通道波束形成语音增强方法在不同噪声场景下进行 语音增强算法评价。对于算法中的参数,具体设置如表2所示。
[0079]表2算法参数设置
[0081] 表3给出了分别用混合相干性(改进后)和用散射噪声相干性(改进前)估计噪声功 率谱得到的对数误差,可以看到基于混合相干性进行估计得到的对数误差明显降低。
[0082] 表3噪声功率谱估计算法改进前后噪声功率谱估计对数误差
[0084] 图2是本发明实施例中和上述另外三种语音增强方法实验得到的增强后语音较增 强前语音信号的信噪比提高大小比较。利用本发明的基于噪声混合相干性的双通道波束形 成语音增强方法在混响与方向性噪声条件下对麦克风接收到的信号进行语音增强,相比于 其它方法,得到了更高的信噪比提升。
[0085] 图3是本发明实施例中和上述另外三种语音增强方法实验得到的增强后语音较增 强前语音信号的感知语音质量比较。可以看出,利用本文提出的语音增强方法在混响与方 向性噪声条件下对麦克风接收到的信号进行语音增强能得到更好的语音质量。
[0086] 利用增强后语音信号的语谱图可以更好的观察语音增强的效果。图4(a)_4(f)给 出示例。图4(a)_4(b)分别是纯净语音信号的语谱图和受混响、噪声污染后的语音信号的语 谱图。图4(c)_4(f)分别是利用几种不同的语音增强算法增强后的语音的语谱图。从语谱图 可以看出,利用本发明的方法进行语音增强后得到的语音信号的语谱图更接近于纯净语音 信号的语谱图。
[0087] 上述实例只是本发明的举例,尽管为说明目的公开了本发明的实例,但是本领域 的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化 和修改都是可能的。因此,本发明不应局限于该实例的内容。
【主权项】
1. 一种双通道波束形成语音增强方法,其步骤包括: 1) 在固定时间窗内对双通道带噪语音信号依次进行分帧、加窗处理,并利用短时傅里 叶变换将信号变换到频域,继而在频域上对信号进行处理;然后利用带噪语音信号计算出 相干性信号与散射性信号的能量比;接着利用相干性信号与散射性信号的能量比估计噪声 的混合相干性; 2) 利用混合相干性进行噪声功率谱估计,利用估计的结果计算频域滤波的增益函数; 3) 用频域滤波对带噪语音信号进行处理,然后用最小方差无失真响应波束形成器进一 步抑制残留的噪声,得到最终增强后的语音信号,完成语音增强。2. 如权利要求1所述的双通道波束形成语音增强方法,其特征在于,步骤1)将混响和方 向性噪声同时存在的噪声声场当作是混合噪声场。3. 如权利要求1所述的双通道波束形成语音增强方法,其特征在于,步骤1)在噪声互功 率谱未知的条件下,利用带噪语音信号前导无语音帧部分的互功率谱^来代替噪声的互 功率谱。4. 如权利要求3所述的双通道波束形成语音增强方法,其特征在于,步骤1)在噪声声源 方向未知的条件下,利用噪声信县的吨噪声的相干性:5. 如权利要求4所述的双通道波束形成语音增强方法,其特征在于,步骤1)利用相干性 信号与散射性信号的能量比估计噪声的混合相干性,其中相干性的计算考虑了噪声声源入 射角度对相干性计算的影响,所述混合相干性的计算方法为:其中__爭表示相干性噪声和散射性噪声的能量比,f表示频率变量,c = 340m/s表示声音 在空气中的传播速度,dmi。表示两个麦克风的距离。6. 如权利要求1所述的双通道波束形成语音增强方法,其特征在于,步骤2)基于混合相 干性进行噪声功率谱估计的方法为:其中<表示估计得到的噪声功率谱,么η和么a分别表示带噪信号的自功率谱和带噪 信号^的自功率谱,线.%表示带噪信号的互功率谱;信号的自功率谱与互功率谱通过 递归平均方法来得到:其中α是平滑因子,λ和μ分别表示帧号和频率,乂1表示信号&的短时幅度谱,表示信号 ^的短时幅度谱的复共辄。7. 如权利要求6所述的双通道波束形成语音增强方法,其特征在于,步骤2)将基于混合 相干性进行噪声功率谱估计的结果用于计算频域滤波器的增益函数,从而实现对混响与噪 声信号同时进行抑制,频域滤波器的增益函数为:其中,β表示减法因子,为了避免出现负值,用Gmin作为增益函数的下界。8. 如权利要求1所述的双通道波束形成语音增强方法,其特征在于,步骤3)用频域滤波 器和最小方差无失真响应波束形成器组成双通道波束形成器,用其对带噪信号进行处理, 得到语音增强后的信号;其中频域滤波器是在最小方差无失真响应波束形成器之前。9. 如权利要求8所述的双通道波束形成语音增强方法,其特征在于,步骤3)包括如下子 步骤: 3-1)带噪语音信号的幅度谱乘以频域滤波器的增益函数,得到经过滤波处理后的语音 信号的幅度谱; 3-2)将得到的幅度谱再乘以最小方差无失真响应波束形成器的权重,得到最终增强后 的语音信号的幅度谱; 3-3)利用短时傅里叶逆变换和重叠相加法将信号变换到时域,得到时域上的增强后的 信号。
【文档编号】G10L21/0208GK105869651SQ201610167885
【公开日】2016年8月17日
【申请日】2016年3月23日
【发明人】刘宏, 孙淼
【申请人】北京大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1