基于分布式麦克风阵列网络的语音增强方法

文档序号:9454226阅读:1383来源:国知局
基于分布式麦克风阵列网络的语音增强方法
【技术领域】
[0001] 本发明涉及语音增强方法,具体涉及一种基于分布式麦克风阵列网络的语音增强 方法。
【背景技术】
[0002] 我们所处的环境中常常伴随着各种噪声,例如,房间内的电视机声和风扇声、汽车 内的发动机声、马路上的汽车行驶声、咖啡厅内的Babble噪声等。噪声对多种语音处理系 统产生负面影响。例如,在语音通信时,噪声会干扰甚至掩盖对方的声音,降低通话质量;在 语音识别系统中,噪声会使得语音识别率下降,甚至使识别系统完全失效。因此,根据观测 到的带噪语音信号,估计纯净语音具有十分重要的意义,我们称此为语音增强。
[0003] 传统语音增强算法采用一个麦克风的观测信号进行处理,包括单通道维纳滤波 器、谱减法、基于统计模型的最大似然和最大后验概率的语音增强方法等。虽然该类方法 可以一定程度上消除噪声,但存在两方面问题。首先,消除噪声的同时会造成语音成分的缺 失,即产生语音畸变。其次,噪声消除后的频谱上常存在随机离散的极值点,使听者感受到 "音乐噪声"。这两方面的因素都使得增强后的语音可懂度难以达到预期,且使得语音识别 性能不能有效提尚。
[0004] 为了解决上述问题,人们开始利用两个或以上的麦克风,组成"麦克风阵列",以探 寻更优的多通道语音增强方法。麦克风阵列中的麦克风处于空间不同位置,但时钟和采样 率一致。因此,多个麦克风提供了语音和噪声的时域冗余性和空间差异性,更多的信息使得 语音增强性能提高具有了可能。为了增强语音,人们可以设计称为"波束形成器"的空间滤 波器,提取目标声源方向的信号,抑制其他方向的噪声。最简单的波束形成器是"延迟加和" 波束形成器,而MVDR和LCMV波束形成器可以理论上在降低噪声的同时避免语音畸变。除 了简单的波束形成器之外,广义旁瓣消除(GSC)架构也被广泛使用。虽然从理论上可以证 明GSC和LCMV波束形成器的等价性,但是GSC的实现更为简单,计算复杂度也较低。上述 波束形成器均需要语音方位(甚至是噪声方位)已知,但实际情况下声源方位往往并不固 定,且噪声和混响下的声源方位难以估计。为了避免声源定位,单通道维纳滤波器被推广 到多通道,使得仅根据噪声时空统计特性即可设计最优的多通道维纳滤波器,而噪声时空 统计特性可结合语音存在概率或语音活动检测算法估计和更新。和单通道算法相比,即使 是双通道的语音增强方法即可取得性能的明显提升。
[0005] 采用麦克风阵列进行语音增强逐渐成为主流。一旦麦克风阵列硬件制作完成,其 麦克风间距,所包含麦克风数量等参数难以改变。由于手持设备等空间的限制,麦克风阵列 不能采用较多的麦克风和较大的间距。当麦克风阵列只处于一个较小的空间范围时,难以 对环境噪声和混响进行准确全面的采集。而理论上更多的麦克风和更大的麦克风间距可以 有效提高多通道语音增强算法的性能。因此,传统的基于麦克风阵列的语音增强算法受到 麦克风阵列自身可扩展性和空间的限制。

【发明内容】

[0006] 针对现有技术的不足,本发明公开了一种基于分布式麦克风阵列网络的语音增强 方法。
[0007] 本发明的技术方案如下:
[0008] -种基于分布式麦克风阵列网络的语音增强方法,包括下列步骤:
[0009] 步骤a、建立由多个麦克风阵列构成的基于Ad-hoc网络的分布式麦克风阵列网 络;任意两个网络节点之间均可相互通信;
[0010] 步骤b、将分布式麦克风阵列网络初始化,即对网络节点进行采样率同步;
[0011] 步骤C、将各节点的信号进行分帧,得到分帧后的多节点多路麦克风阵列观测信 号;
[0012] 步骤d、在每个节点,对于每一帧的多路麦克风阵列观测信号,根据当前节点的多 路麦克风阵列观测信号,采用多通道维纳滤波器进行语音增强,得到单通道增强后语音信 号;
[0013] 步骤e、在每个节点,将该节点通过所述步骤d得到的单通道增强后语音信号传输 到网络的所有其他节点;
[0014] 步骤f、在每个节点,同时根据当前节点的多路麦克风阵列观测信号和所有其他节 点的单通道增强后语音信号,再次采用多通道维纳滤波器进行语音增强,得到当前节点更 新后的单通道增强后语音信号;
[0015] 步骤g、重复迭代步骤e~步骤f,当某节点得到的单通道增强后语音信号收敛 时,当前节点的单通道增强后语音信号不再更新;当所有节点的单通道增强后语音信号均 不再更新时,当前帧处理结束;最终在每个节点均得到当前节点增强后语音信号。
[0016] 其进一步的技术方案为:所述麦克风阵列包括音频采集模块和通信模块。
[0017] 其进一步的技术方案为:所述步骤a中的Ad-h〇C网络的结构为平面结构或者分级 结构;Ad-hoc网络采用先验式、反应式或者混合式的路由协议实现网络中两个节点设备之 间的相互通信。
[0018] 其进一步的技术方案为:所述步骤b还包括对网络节点进行时间同步;
[0019] 所述分布式麦克风阵列包括网络设备时钟;所述时间同步是通过所述网络设备时 钟,基于NTP网络时间协议进行同步。
[0020] 其进一步的技术方案为,所述步骤b具体包括以下步骤:
[0021] 步骤bl、将网络采样率初始化,使K= 1,即网络采样率f。等于节点1的设备采样 率f1;
[0022] 步骤b2、节点K的设备采样率为fK;将节点K的设备采样率f K传输到节点K+1 ;
[0023] 步骤b3、若节点K+1的设备采样率fK+1> f K,则fQ= f K,否则fQ= f K+1;
[0024]步骤 b4、K = K+l;
[0025] 步骤b5、重复步骤b2~步骤b4,直至遍历所有节点,从而网络采样率f。为全网络 所有节点的设备采样率最小值;
[0026] 步骤b6、通过最终节点将当前网络采样率f。传输到其他各个节点,使得所有节点 设备采样率为f。。
[0027] 其进一步的技术方案为:所述步骤c中的信号分帧使用海明窗或者汉宁窗抑制频 谱泄露;所述步骤C采用时间混叠的分帧策略。
[0028] 其进一步的技术方案为:所述步骤d使用时域多通道维纳滤波器或者频域的多通 道维纳滤波器对多路麦克风阵列观测信号进行滤波,以达到语音增强的效果:
[0029] 在节点K,所述时域多通道维纳滤波器的表达式为:
[0030] hw>K(t)=[Rxx,K(t)+ARnn>K(t)] 1Rxx>K(t)u;
[0031]上式中,Rxx, K (t) = Ryy, K (t) -Rnn, K (t);
[0032] S{x瓦.(幻X忘參)}*是当前节点的纯净语音向量x K(t)= [xliK(t), x2,K(t),…,xM,K(t)]T的时域自相关矩阵;
[0033] Rrm.A-⑷是当前节点的噪声向量nK⑴= [nliK(t), n2,K(t),? ? ?,nM,K(t)]T的时域自相关矩阵;
[0034] 产(/X(;$,是当前节点的多路麦克风阵列观测信号向量yi(⑴=
[yi,K(t),y2,K(t),...,yM,K(t)]T的时域自相关矩阵;
[0035] u = [1,0, ? ? ?,0]T,其长度为 M;
[0036] M为当前节点的麦克风数量;
[0037] X为控制噪声消除和语音畸变的程度,A >〇, A越大,噪声被抑制的效果越明 显,同时带来更多的语音畸变;
[0038] 节点K的时域滤波输出为:
[0039] (幻=瓦(0;
[0040] 在节点K,所述频域多通道维纳滤波器的表达式为:
[0041] HWjK(〇) = [RXXjK(o) +ARNNjK(o)] 1RXXjK(o)u;
[0042]上式中,RXX,K(?) =RYY,K(?)-RNN,K(?);
[0043] 二E{:X.八是当前节点的纯净语音向量^ JohXwh),...,X M,K(co)]%频域自相关矩阵;
[0044] 是当前节点的噪声向量 N K(?)= [\K(co),N2,K(?),...,N M,K(co)]H 的频域自相关矩阵;
[0045] Rvtj、'_(^)=厂k M =的频域自相关矩阵;
[0046] u = [1,0, ? ? ?,0]T,其长度为 M;
[0047] M为当前节点的麦克风数量;
[0048]A为控制噪声消除和语音畸变的程度,A >0, A越大,噪声被抑制的效果越明 显,同时带来更多的语音畸变;
[0049] 节点K的频域滤波输出为:
[0050]
[0051]其进一步的技术方案为:所述步骤e包括在信号传输的数据包中加入发射节点序 号、接收节点序号以及多通道维纳滤波器处理次数的信息。
[0052] 其进一步的技术方案为:所述步骤f?包括使用时域或频域的多通道维纳滤波器对 当前节点多路观测信号和其他节点的增强后信号进行滤波;
[0053] 所述时域的多通道维纳滤波器中,
[0054]
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1