一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法

文档序号:9909619阅读:645来源:国知局
一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法
【技术领域】
[0001 ]本发明涉及一种基于声学矢量传感器和双谱变换的鲁棒单语者声源D0A估计方 法,属于人机语音交互技术领域。
【背景技术】
[0002] 空间语者声源到达方向(Direction of Arrival,D0A)估计是智能机器人人机交 互的关键技术,具有重大的应用价值,一直是阵列信号处理领域的研究热点。在实际复杂声 学环境中,麦克风在采集语音信号时,不可避免地会受到来自周围环境噪声、传输媒介噪 声、通信设备内部电噪声和房间混响等因素干扰,因此获取的语音质量下降,导致D0A估计 性能下降。基于传统麦克风阵列的D0A技术存在麦克风阵列孔径大、有空域混叠以及运算复 杂度高等局限,限制了该类技术在小型移动设备(机器人)上的应用。
[0003] 本发明采用了一种新型麦克风--声学矢量传感器(Acoustic Vector Sensor, AVS)作为音频信号采集器。与常用的ECM麦克风相比,AVS在结构上具有其特殊性:一颗AVS 由1个全向压力传感器和2到3个正交放置的压力梯度传感器构成。它的空间结构紧凑,仅有 lcm3左右大小,理论上,AVS是同位阵列,各个传感器接收到的音频信号在时间上对齐,且各 通道接收信号存在固定的三角函数关系。AVS小体积的特殊优点,有可能成为服务机器人听 觉感知技术的有效解决方案。
[0004] 本发明利用AVS采集的音频信号,提出了一种新的鲁棒单语者声源D0A估计算法。 AVS输出的信号模型可表不为:
[0005] xu(k) =uss(k)*hs(k)+urr(k)*hr(k)+n u(k) (1)
[0006] xv(k) =vss(k)*hs(k)+vrr(k)*hr(k)+n v(k) (2)
[0007] xw(k) =wss(k)*hs(k)+wrr(k)*hr(k)+n w(k) (3)
[0008] x〇(k) = s(k)*hs(k)+r(k)*hr(k)+n〇(k) (4)
[0009] 其中xu(t),xv(t),xw(t)和x〇(t)分别是AVS的u-,v_,w-和o-通道的输出信号,n u (t),nv(t),nw(t)和n〇(t)分别是在u-,v-,w-和o-通道的零均值高斯加性噪声,s(k)和r(k) 分别是待定位的语者声源信号和非语音干扰信号,h4Ph r分别是语音和干扰的房间冲击响 应。us,vs和ws分别可表示为u s = sin9scos Φ S,vs = sin9ssin Φ s,以及ws = cos9s,被称为语者 声源信号在x,y和z轴上的方向余弦。类似的,ur,v r和wr分别可表示干扰信号在x,y和z轴上 的方向余弦。本发明基于上述定义,提出了一种基于声学矢量传感器和双谱变换的鲁棒单 语者声源D0A估计方法。实验结果表明,本发明可有效抑制非语音干扰,背景噪声和空间混 响对D0A估计的影响。

【发明内容】

[0010] 本发明的目的是面向智能机器人人机语音交互技术,发明一种对声学环境变化不 敏感、体积小的高精度鲁棒空间语音声源D0A估计方法。
[0011] -种基于声学矢量传感器和双谱变换的鲁棒单语者声源D0A估计方法,其核心思 想是:计算在双谱上u-通道信号、V-通道信号和w-通道信号与〇-通道信号间的数据比值 (Bispectrum Inter-Sensor Data Ratio,BISDR)。通过迭代估计先验双谱信干比,计算一 个双谱掩膜谱。在此基础上,利用计算的双谱掩膜谱在BISDR上提取高信干比频率点。利用 核密度估计方法对提取的高信干比频率点进行聚类,并获得语音声源的D0A估计。
[0012] -种基于声学矢量传感器和双谱变换的鲁棒单语者声源D0A估计方法,其步骤是:
[0013] (a)采用单个声学矢量传感器,即Acoustic Vector Sensor(AVS),采集四通道语 音信号,通过模数转换器获得四通道数字信号输出,包括〇-通道信号、u-通道信号、v-通道 信号和w-通道信号;分别计算每一通道数字信号的双谱变换,获得四通道双谱数据;
[0014] (b)计算传感器之间的双谱数据比值,即分别计算出u-通道双谱信号、V-通道双谱 信号和w-通道双谱信号与〇-通道双谱信号的比值,简写为BISDR值(Bispectrum Inter-Sensor Data Ratio),分别表示为Iu〇( Ω1; Ω2),Ι?( Ω1; Ω2),Ι?( Ω1; Ω2),用BISDR值构成 3父1的81501?数据矢量1(〇1,〇2);
[0015] (c)通过迭代估计先验双谱信干比,计算得到一个双谱掩膜谱;
[0016] (d)通过掩膜方式将双谱掩膜谱与BISDR数据矢量1( Ω1; Ω2)相乘,提取具有高信 干比的BISDR数据矢量I (?^ΩΑ
[0017] (e)利用核密度估计方法,即Kernel Density Estimation(KDE),对./(Ωι,??2)进行 聚类,并利用聚类结果计算所对应的语者声源到达方向,即Direction of Arrival(DOA)。
[0018] 本发明的有益效果在于:1)本发明所述的方法能够实现鲁棒的高精度单语者声源 D0A估计。仿真实验和实测实验数据验证了本发明在不同的干扰噪声种类、强度和房间混响 条件下,都能获得高精度的D0A估计。2)本发明所述的方法易于在移动或便携设备上应用。 本发明采用AVS采集语音信号,该传感器仅有lcm 3大小,易于在小型设备上集成系统;同时 算法复杂度低,易于实时运行在运算能力有限的嵌入式平台上。
【附图说明】
[0019] 图1.AVS结构图
[0020] 图2.0s = 6〇°,Φ#[0°,180°]的 100次D0A估计实验结果
[0021]图3.不同信干比和干扰噪声下的D0A估计RMSE(a)高斯白噪声(b)短波信道噪声 (c)粉红噪声(d)工厂噪声(0s = 6〇°,Φ3 = 45°)
[0022] 图4.不同混响条件下的D0A估计RMSE(9s = 60°,<i>s = 45°)
[0023] 图5.实验设备
【具体实施方式】
[0024]下面结合附图和【具体实施方式】对本发明作进一步详细描述。
[0025]假设空间中只有一个语者声源,本发明采用8kHz采样率对AVS四通道输出信号 ((1)-(4))求得双谱数据,表示如下:
[0026]
[0027]
[0028]
[0029]
[0030]
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1