一种双麦克风语音激活检测方法及语音采集设备的制造方法

文档序号:9811924阅读:361来源:国知局
一种双麦克风语音激活检测方法及语音采集设备的制造方法
【技术领域】
[0001] 本发明涉及通讯技术领域,具体涉及一种双麦克风语音激活检测方法及语音采集 设备。
【背景技术】
[0002] 随着通讯技术的革新,通讯网络的容量不断增大,通讯终端的处理能力不断加强, 人们对于语音通讯的质量要求不断提高。这其中,除了提高语音通讯的频率带宽以改善保 真度外,移动通讯终端的抗噪性能也是语音通讯质量的重要关注点。在经历了单麦克风系 统通过单通道语音增强方案降低噪声,提高语音质量的阶段以后,越来越多的移动通讯终 端开始配置主次麦克风结构的双麦克风系统,这种双麦克风系统通常将一个麦克风(主麦 克风)放置在语音采集设备的下端,靠近嘴的位置,用于接收含噪语音信号,另一个麦克风 (次麦克风)放置在语音采集设备上端的背部或顶部,靠近耳朵的位置,用于接收以噪声为 主的参考信号。
[0003] 双通道语音增强方案利用含噪语音信号和参考信号这两个信号来进行分析和计 算,得到干净的语音。双通道语音增强方法主要有波束合成和能量差滤波两类方法,大多数 方案都会综合两种方法。但无论采取哪一种方法,都需要配合语音激活检测(voice active detection,VAD)。语音激活检测是判断当前时刻信号是语音还是非语音,该判断结果要提 交给后续的语音增强模块,它对语音增强方案的性能有着决定性的影响。语音激活检测如 果经常性的错过语音段,会造成语音增强输出的语音丢失;如果经常性的误判语音段,会造 成大量噪声残留。除了针对语音增强的应用外,语音激活检测还广泛应用于语音编码,语音 识别等领域中,例如,在语音编码中,可以对有语音的片段进行有效的语音编码,对无语音 的片段进行静音编码或舒适性噪声编码,从而提高编码的效率;对于语音增强和去噪,语音 激活检测使得语音间隙的噪声估计和语音片段的信噪比估计称为可能;良好的语音激活检 测则能极大提高语音识别的准确率。
[0004] 现有语音激活检测的实现方法,包括基于能量/信噪比阈值的实现方法和基于频 域特征的实现方法。基于能量/信噪比阈值的算法,有时域短时能量/信噪比判别和子带 域短时能量/信噪比判别,这类算法通过设置能量/信噪比的单门限或双门限进行激活判 断。基于频域特征的算法检测频谱的不平滑特征,典型的有信号熵检测和利用Mel倒谱系 数的模式分类。上述算法都只利用了单个通道的含噪语音信号,其在噪声环境下的鲁棒性 不高,无法保证语音激活判断的准确率。

【发明内容】

[0005] 针对现有的语音激活检测技术存在的上述问题,现提供一种旨在提高低信噪比条 件下语音激活判断的准确率的双麦克风语音激活检测方法及语音采集设备。
[0006] 具体技术方案如下:
[0007] -种双麦克风语音激活检测方法,其中,包括以下步骤:
[0008] 步骤1、获取一含噪语音信号及一对应所述含噪语音信号的噪声信号;
[0009] 步骤2、对所述含噪语音信号进行频域变换,以获取含噪语音信号幅度谱,以及对 所述噪声信号进行频域变换,以获取噪声信号幅度谱;
[0010] 步骤3、对所述含噪语音信号幅度谱以及所述噪声信号幅度谱分别进行预滤波;
[0011] 步骤4、获取语音信号的短时包络;
[0012] 步骤5、利用所述语音信号的短时包络对预滤波后的所述含噪语音信号幅度谱及 预滤波后的所述噪声信号幅度谱进行整形;
[0013] 步骤6、对整形后的所述含噪语音信号幅度谱及整形后的所述噪声信号幅度谱进 行累加比较,以获取一能量比;
[0014] 步骤7 :据所述能量比判断是否进行语音激活。
[0015] 优选的,所述步骤2中:
[0016] 通过离散傅立叶变换,或者离散余弦变换,或者改进余弦变换对所述含噪语音信 号进行频域变换,获取含噪语音信号幅度谱;和/或
[0017] 通过离散傅立叶变换,或者离散余弦变换,或者改进余弦变换对所述噪声信号进 行频域变换,以获取噪声信号幅度谱。
[0018] 优选的,采用离散傅立叶变换获取所述含噪语音信号幅度谱通过下式计算:
[0020] 其中,Sal为所述含噪语音信号幅度谱,s Jt)为所述含噪语音信号,e为自然对数 的底数,j为虚数单位,j = H)a5, k为离散频谱序号,k = 1,2, 3,…,N,下标t为离散时 间序号,w(k)为N点的窗函数;和/或
[0021] 采用离散傅立叶变换获取所述噪声信号幅度谱通过下式计算:
[0023] 其中,Sa2为所述噪声信号幅度谱,s2(t)所述为噪声信号,e为自然对数的底数, j为虚数单位,j = (_1)°·5, k为离散频谱序号,k = 1,2, 3, . . .,N,下标t为离散时间序号, w(k)为N点的窗函数。
[0024] 优选的,所述N的取值范围为fs/100/2〈N〈0. 2fs,其中fs为采样频率;或者采样频 率匕=8000Hz 时 N = 512。
[0025] 优选的,所述窗函数采用矩形窗、或者正弦窗、或者汉宁窗、或者海明窗、或者 Tukey 窗。
[0026] 优选的,所述步骤3中:
[0027] 对所述含噪语音信号幅度谱预滤波通过下式计算:
[0028] Spal [k] t= S al [k] A [k] t,k = 1,2, 3, · · ·,N
[0029] 其中,Spal为预滤波后的含噪语音信号幅度谱,S al为含噪语音信号幅度谱,G i为预 滤波传递函数,Gi为长度N的向量,元素系数为0到1之间;和/或
[0030] 对所述噪声信号幅度谱预滤波通过下式计算:
[0031] Spa2[k]t= S a2[k]tG2[k]t,k = 1,2, 3, · · ·,N
[0032] 其中,Spa2为预滤波后的噪声信号幅度谱,S a2为噪声信号幅度谱,G 2为预滤波传递 函数,G2为长度N的向量,元素系数为0到1之间。
[0033] 优选的,采用频域维纳滤波器对所述含噪语音信号幅度谱进行预滤波,对所述含 噪语音信号幅度谱进行滤波的频域维纳滤波器通过下式计算:
[0035] 其中,Psl为含噪语音信号的自功率谱,Pnl为所述含噪语音信号中噪声的自功率 谱;和/或
[0036] 采用频域维纳滤波器对所述噪声信号幅度谱进行预滤波,对所述噪声信号幅度谱 进行滤波的频域维纳滤波器通过下式计算:
[0038] 其中,Ps2为噪声信号的自功率谱,Pn2为噪声信号中噪声的自功率谱。
[0039] 优选的,采用频域维纳滤波器对所述含噪语音信号幅度谱进行预滤波,对所述含 噪语音信号幅度谱进行滤波的频域维纳滤波器通过下式计算:
[0043] 其中,SNRi为含噪语音信号的信噪比,SNRpl为含噪语音信号的后验信噪比,P sl为 含噪语音信号的自功率谱,Pnl为所述含噪语音信号中噪声的自功率谱,a α 2取值范围 为 0〈 α α 2〈1 ;和 / 或,
[0044] 采用频域维纳滤波器对所述噪声信号幅度谱进行预滤波,对所述噪声信号幅度谱 进行滤波的频域维纳滤波器通过下式计算:
[0048] 其中,SNR2S噪声信号的信噪比,SNRp2为噪声信号的后验信噪比,P s2为噪声信号 的自功率谱,Pn2为噪声信号中噪声的自功率谱,α 1和α 2取值范围为0、。α2〈1。
[0049] 优选的,所述含噪语音信号的自功率谱Psl通过下式计算:
[0050] Psl=Sal2,
[0051] 其中,Sal为所述含噪语音信号经频域变换后形成的所述含噪语音信号幅度谱;和 /或
[0052] 所述噪声信号的自功率谱Ps2通过下式计算:
[0053] Ps2=Sa22,
[0054] 其中,Sa2为所述噪声信号经频域变换后形成的所述噪声信号幅度谱。
[0055] 优选的,所述含噪语音信号中噪声的自功率谱Pnl通过下式估计:
[0057] 其中,下标t为离散时间序号,i,n2,n3为平滑因子,取值范围为〇〈n p n2, η3〈ι;和/或
[0058] 所述噪声信号中噪声的自功率谱Pn2通过下式估计:
[0060] 其中,下标t为离散时间序号,η。n2,n3为平滑因子,取值范围为〇〈n p n2, η3<ι〇
[0061] 优选的,所述步骤4中,所述语音信号的短时包络通过下式计算:
[0063] 其中,心为所述语音信号的短时包络,S a为短时语音幅度谱。
[0064] 优选的,所述短时语音幅度谱53采用所述含噪语音信号经语音增强后输出的增强 信号的短时平均幅度谱替代;或者
[0065] 所述短时语音幅度谱Sa采用所述
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1