一种基于时频掩膜的单声学矢量传感器目标语音增强方法

文档序号：2825970阅读：568来源：国知局

一种基于时频掩膜的单声学矢量传感器目标语音增强方法
【专利摘要】本发明涉及一种基于时频掩膜的单声学矢量传感器(Acoustic?Vector?Sensor，AVS)目标语音增强方法。所述方法已知目标语音的到达角，采用联合固定波束形成器与后置维纳滤波器方法实现目标语音增强，后置维纳滤波器权值的计算涉及目标语音的自功率谱估计，本发明利用语音信号的时频稀疏特性，通过计算AVS中2个梯度传感器输出分量信号间的数据比(Inter-sensor?data?ratio，ISDR)来估算接收音频信号时频点关联到达角，通过计算时频点关联到达角与目标达到角之间的误差来设计时频掩膜，以此获得目标语音的自功率谱估计。本发明所述方法不需要任何噪声先验知识，在多说话人存在的复杂环境中，能够有效地增强目标语音，抑制干扰语音及背景噪声。此外该方法运算复杂度低，采用的麦克风阵列体积小(仅有1cm3左右)，非常适用于便携设备上的应用。
【专利说明】一种基于时频掩膜的单声学矢量传感器目标语音增强方法

【技术领域】
[0001] 本发明涉及一种基于时频掩膜的单声学矢量传感器目标语音增强方法，属于语音信号处理【技术领域】。

【背景技术】
[0002] 语音增强是语音处理领域的核心技术之一。在实际复杂环境中，麦克风在拾取语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰，因此拾取语音的质量受到影响。为了减少噪声对语音的影响，获得高质量的语音，对语音增强技术提出了要求。传统的单通道语音增强方法通常实现简单，对非相干噪声效果明显，但对于嘈杂人声环境（多个说话人存在）场景，难以增强目标语音；基于麦克风阵列的语音增强技术则利用了信号的空时谱信息，有较强的空间干扰噪声抑制能力，可获得比单通道语音增强更好的性能，但语音增强性能随着麦克风数目的增加而提高，因此麦克风阵列的体积较大，限制了该类技术在小型移动设备上的应用。
[0003] 本发明采用了一种新型麦克风阵列-声学矢量传感器（Acoustic Vector Sensor，AVS)作为音频信号采集器。与常用的声压麦克风相比，AVS在结构上具有其特殊性：一颗AVS由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成，它的空间结构紧凑，仅仅有lcm3左右大小，所以在研究中被认为是同位阵列。各个传感器接收到的音频信号在时间上可认为是对齐的。对于理想的AVS，各通道接收信号存在三角函数关系，因此，仅单颗AVS就能够实现单个或者多个的空间声源到达方向的估计。随着移动终端技术和语音技术的发展和应用需求，AVS小体积的特殊优点，有可能成为手机、录音笔和相机等小尺寸便携设备音频传感和噪声抑制的有效解决方案。
[0004] 本发明利用AVS中2个正交同位放置的压力梯度传感器采集音频信号，在二维场景下，其梯度传感器输出的信号模型可表示为：

【权利要求】
1. 一种基于时频掩膜的单声学矢量传感器目标语音增强方法，包括如下步骤： (a) 对声学矢量传感器中两个压力梯度传感器的输出数据分别加窗分巾贞，进行短时傅里叶变换，得到两通道的时频谱数据； (b) 对（a)所得两通道数据计算ISDR值，对ISDR值求反三角函数得到到达角估计，与目标语音到达角比较求得时频掩膜； (c) 根据目标语音到达角计算固定波束形成器权向量，对（a)所得两通道数据进行固定波束形成，输出时频谱记为Ym ; (d) 用（b)所得的时频掩膜对（c)固定波束形成器的输出进行时频掩膜滤波，输出记为 Ys； (e) 通过（c)和（d)所得的数据计算后置维纳滤波器的权值，并对（c)固定波束形成器的输出进行维纳滤波； (f) 对（e)所得的后置维纳滤波器输出数据进行傅里叶反变换，用叠接相加法重建增强后的目标语音时域信号。
2. 根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，该方法使用声学矢量传感器作为声音信号接收器，它包含两个正交同位放置的压力梯度传感器；传感器的同位放置可保证整体结构紧凑、尺寸小。
3. 根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤（b)的具体实现方法为：对两梯度传感器接收信号的短时傅里叶变换的幅度谱在每个时频点计算数据比值 (即ISDR值），对该比值求反三角函数求得该时频点信号谱所表征的信号分量的到达角估计，求该到达角与目标语音到达角的差值Λ φ，可设定一个允许角度范围δ (可取一大于〇小于90的数，本发明取25)，当| Λ φ| < δ时，判定该时频点的信号谱来自目标语音源，该时频点掩膜系数设置为1，否则掩膜系数设置为Ρ (可取一大于〇小于1的数，本发明取 0· 07)。
4. 根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤（c)中固定波束形成器采用空间匹配滤波器。
5. 根据权利要求1所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤（e)的具体实现方法为：令（c)固定波束形成器的输出￥_"为后置维纳滤波器的输入，计算（d)掩膜后的输出与 (c)固定波束形成器的输出之间的互功率谱作为后置维纳滤波器权值计算公式的分子，计算（c)固定波束形成器输出数据的自功率谱作为后置维纳滤波器权值计算公式的分母，两者的比值为后置维纳滤波器的最佳权值估计。用该后置维纳滤波器权值对（c)固定波束形成器的输出进行滤波，得到增强的目标语音时频谱。
6. 根据权利要求5所述的一种基于时频掩膜的单声学矢量传感器目标语音增强方法，其特征在于，所述步骤（e)的具体实现方法中，后置维纳滤波器分子和分母的计算皆采用多帧求平均的方法（本发明取2帧）。
【文档编号】G10L21/02GK104103277SQ201310133745
【公开日】2014年10月15日申请日期:2013年4月15日优先权日:2013年4月15日
【发明者】邹月娴, 王鹏, 石伟申请人:北京大学深圳研究生院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹月娴;王鹏;石伟
技术所有人：北京大学深圳研究生院
我是此专利的发明人

上一篇：一种音频文件的相似计算方法及装置制造方法
上一篇：一种声音编解码装置及其方法