一种基于谱减与自适应子带对数能熵积的语音检测方法

文档序号:30183986发布日期:2022-05-26 16:45阅读:230来源:国知局
一种基于谱减与自适应子带对数能熵积的语音检测方法
音段和噪声段。2016年tong等人针对基于深度学习的语音检测方法进行研究,通过对比 分析深度神经网络(dnn)、长短期记忆网络(long short-term memory,lstm)以及卷积神 经网络(convolutional neural networks,cnn)三种模型的语音检测性能,提出一种噪声感 知训练(noise-aware training,nat)方法,有效改善低信噪比条件下语音检测的准确度。
5.两类语音端点检测方法各有优缺点,其中基于统计模型的检测方法主要以深度学习 和神经网络为基础,虽然准确度较高,但由于需要进行建模和大量的数据训练,通常该 类方法计算量大且复杂,无法满足需要实时检测的实际需求。而基于语音特征参数的检 测方法算法复杂度低、实时性高,能够满足实时性的检测需求,但在低信噪比条件下, 现有的检测方法检测的准确率和稳定性有待提高。


技术实现要素:

6.本发明目的是提供一种基于谱减与自适应子带对数能熵积的语音检测方法,解决了 现有技术在低信噪比环境下语音检测准确率低、鲁棒性差的问题,能够满足实时语音检 测需求,针对不同类型噪声环境,能够保证端点检测工作的稳定性。
7.一种基于谱减与自适应子带对数能熵积的语音检测方法,包括如下步骤:
8.步骤1:对带噪语音信号首先进行预处理,包括分帧,归一化以及预加重,同时设置 一个频率门限,仅保留频率在100hz~3500hz范围内的部分;
9.步骤2:使用自适应参数的多窗谱估计谱减法对预处理后带噪语音信号进行降噪处 理,得到增强语音信号;
10.步骤3:计算获得增强语音信号的子带能量;
11.步骤4:通过子带能量计算获得每帧信号的归一化最小带能量参数;
12.步骤5:根据改进后的有效子带个数与归一化最小带能量参数的关系计算出对应信号 帧的有效子带个数;
13.步骤6:根据每帧信号的有效子带个数,计算增强语音信号的自适应子带对数能量和 自适应子带谱熵;
14.步骤7:根据步骤6中计算得到的自适应子带对数能量和自适应子带谱熵,计算获 得待测增强语音信号的自适应子带对数能熵积,并将自适应子带对数能熵积进行中值平 滑处理;
15.步骤8:设定动态阈值门限,以经过中值平滑处理后的自适应子带对数能熵积作为检 测特征参数,使用单参数动态阈值的双门限检测方法进行语音检测;
16.步骤9:最后利用检测得到的语音端点信息划分原始语音信号,输出检测完成的各个 语音片段。
17.本发明将降噪方法和语音端点检测方法结合使用,利用语音降噪方法降低噪声对语 音信号的干扰,为后续进行语音端点检测提供较好的语音环境基础。而后以自适应子带 对数能熵积这一新的语音特征参数为阈值,使用动态阈值双门限检测法进行语音端点检 测。
18.本发明的技术方案与现有技术相比,具有如下优点:
19.1、本发明针对传统多窗谱估计谱减法使用固定过减因子,提出自适应过减因子,使 过减因子随实时修正信噪比变化而变化,提升语音降噪效果。
20.2、本发明引入自适应子带技术,减少单一谱线幅值受噪声影响,使有效子带划分数 量随每帧信号受干扰程度不同而改变,减少有害子带影响,提高检测准确率和不同噪声 环境下的鲁棒性。
21.3、本发明使用自适应子带对数能量系数,能够根据信号的实时修正信噪比调整取值, 调整特征曲线压缩比,改善了传统子带对数能量系数无法对失真信号进行有效压缩的缺 陷,提高了低信噪比条件下的检测能力。
22.4、本发明根据自适应子带对数能量和谱熵在有话段特征表现相反的特性,提出自适 应子带对数能熵积这一新的语音特征参数,该参数能够突出有话区间和噪声区间的区别, 放大两者间的数值差值,提升检测准确率,同时乘积运算可以避免类似能熵比参数中可 能出现的分母为0的错误。
23.5、本发明使用一种单参数的动态阈值双门限检测方法,能够自适应的调整门限系数 的取值,同时能够通过实时特征参数进行更新,改善了传统的双门限检测方法通常将阈 值门限设定为固定值不能够随着待检测语音信号的不同而进行调整从而降低了检测的准 确率的问题。
附图说明
24.图1是本发明的语音检测方法的流程示意图。
25.图2是自适应子带谱熵、自适应子带对数能量与纯净语音信号时域波形的参数幅度曲 线对比图。
26.图3是信噪比为0db的pink噪声条件下,纯净语音、带噪语音、传统多窗谱估计谱 减法增强语音以及本发明自适应参数的多窗谱估计谱减法增强语音的语谱图。
27.图4是信噪比为-5db的pink噪声条件下,2种对数能量系数的检测结果示意图。
28.图5是信噪比为-5db的m109噪声条件下2种门限方式的检测结果示意图。
29.图6是基于短时能量和过零率语音端点检测法、基于能零熵的语音端点检测法、基 于mfcc倒谱距离与对数能量相结合的语音端点检测法、基于传统多窗谱估计谱减与能 熵积的语音端点检测法与本文检测方法的检测结果对比图。
具体实施方式
30.如图1所示,一种基于谱减与自适应子带对数能熵积的语音检测方法,包括如下步 骤:
31.步骤1:对带噪语音信号首先进行预处理,包括分帧,归一化以及预加重,同时设置 一个频率门限,仅保留频率在100hz~3500hz范围内的部分;
32.步骤2:使用自适应参数的多窗谱估计谱减法对预处理后带噪语音信号进行降噪处 理,得到增强语音信号;
33.步骤3:计算获得增强语音信号的子带能量;
34.步骤4:通过子带能量计算获得每帧信号的归一化最小带能量参数;
35.步骤5:根据改进后的有效子带个数与归一化最小带能量参数的关系计算出对应信号 帧的有效子带个数;
36.步骤6:根据每帧信号的有效子带个数,计算增强语音信号的自适应子带对数能量
均获得;α和β分别为过减因子以及增益补偿因子。
53.通过多窗谱估计的谱减增益值g(k,i)计算谱减后的幅度谱并结合原始信号相 位谱θi(k)重构得到增强信号
[0054][0055]
设将长度为n的第i帧的信号划分为nb个子带,每个子带长度为n,计算出第i帧信 号的第m个子带的子带能量为eb(i,m):
[0056]
1≤m≤nb。
[0057]
根据子带能量为eb(i,m),求出第i帧信号的归一化最小带能量参数nminbe(i):
[0058][0059]
计算得出第i帧信号的有效子带个数nub(i):
[0060][0061]
第i帧信号第m个子带的自适应子带归一化谱概率密度定义为第m个子带的功率谱 与第i帧所有有效子带功率谱之和的比值,即为:
[0062][0063]
根据计算得到的子带能量为eb(i,m)和自适应子带归一化谱概率密度pb(i,m),计算得 到自适应子带对数能量和自适应子带谱熵:
[0064][0065][0066]
计算得到待测增强语音信号的自适应子带对数能熵积lehb(i):
[0067]
[0068]
设置单参数的动态阈值双门限,首先将两个初始阈值门限t1、t2分别定义为:
[0069][0070][0071]
式中,max(lehb)表示待测语音信号自适应子带对数能熵积的最大值,lehb(nis) 为前nis帧噪声段的平均自适子带对数能熵积,δ为前nis帧信号自适应子带对数能熵 积的标准差,p为常数,a和b分别为上下限系数,决定检测门限的高低,而p为标准 差的权重因子,决定标准差对于阈值门限的影响程度;
[0072]
根据每帧信号的实时修正信噪比的大小,自适应的调整上下限系数a和b的取值, 使其能够随着信噪比的变化而调整门限高低,将具体的上下限系数a和b的取值定义如 下:
[0073][0074]
式中,snr(i)表示第i帧信号的实时修正信噪比。
[0075]
在初始阈值门限t1、t2的基础上加入每帧信号的语音检测特征参数值进行更新,于 是最终动态阈值门限定义为:
[0076][0077]
式中,lehb(i)为第i帧信号的自适应子带对数能熵积,c为常数,表示阈值动态更新系 数,其取值大小将影响阈值门随语音信号变化的更新率。
[0078]
图1为基于谱减与自适应子带对数能熵积的语音检测方法工作的工作流程图,主要 可以分为两大部分:语音增强部分和语音检测部分。其中语音增强部分即是利用改进的 自适应参数的多窗谱估计谱减法提升待检测语音信号的信噪比,为后续语音特征参数提 取以及语音检测打下更好的条件基础。语音检测部分的流程则与传统基于语音特征参数 的双门限检测方法类似,即通过提取增强语音信号的自适应子带对数能量以及自身子带 谱熵两个特征参数,计算出待测语音信号的自适应子带对数能熵积,而后使用动态阈值 的双门限检测方法进行语音检测。
[0079]
图2两个特征参数幅度曲线对比,其中自适应子带对数能量的幅度曲线的变化规律 同语音信号自身时域波形图的变化规律一致,即在语音段波形曲线呈向上凸起的趋势, 而在静音区间则无明显变化。而自适应子带谱熵的幅度曲线表现的变化规律则刚好相反, 即在语音段自适应子带谱熵的幅度曲线的波形无明显变化,但在静音区间则呈下凹的趋 势。
[0080]
图3为信噪比为0db的pink噪声条件下测试集中某一语音信号经过2种多窗谱谱减 法增强语音的语谱图,对比分析语谱图可以发现,本文改进的自适应参数的多窗谱估计 谱减法方法残留噪声较少,降噪效果要优于使用固定参数的多窗谱估计谱减法方法,主 要原因是在非语音段信噪比低的情况下,自适应参数的多窗谱估计谱减法根据非语音段 的实时信噪比,分别提高过减因子和减小增强补偿因子的取值,使噪声在非语音段能 够被更多
的减去,同理在信噪比高的部分则相应的减少谱减程度,使语音信息能够更好 的保留。
[0081]
图4为信噪比为-5db的pink噪声条件下2种a取值方式的检测结果对比图,从图中 可以观察到由于谱减造成语音0.6秒附近存在一定失真,使用固定a值计算该失真部分的 自适应子带对数能量积时,特征值被当作噪声或静音段进行压缩,导致双门限检测时未 能检测到该部分。而使用自适应a值,将该失真部分的特征值曲线,从而能够在后续的 检测中被检测到。
[0082]
图5为信噪比为-5db的m109噪声条件下2种门限设定方式的检测结果对比,语音 信号经过谱减降噪后依然存在部分噪声残留,固定阈值门限检测时则将0.5秒前残留的噪 声误检为语音,而使用动态阈值门限则有效避免了误检。
[0083]
图6为-5db f16噪声环境下5种语音端点检测方法的检测结果。在-5db f16噪声条 件下,上述4种检测方法均同时出现了不同程度的扩展错误和截短错误。相比之下,本 文提出的检测方法在这两种噪声条件下的均能够准确的检测出语音部分,没有出现明显 的扩展错误和截短错误。
[0084]
仿真实验所有语音数据再使用前均需要进行相应的预处理,分别是对语音信号进行 重采样、分帧、预加重以及频率筛选,其中重采样和预加重系数为0.95,使用hamming 窗对语音信号进行分帧处理,帧长设置为200ms,帧移为80ms,前导噪声段帧数nis设 置为18帧(10ms)。
[0085]
计算子带能量eb时的初始子带个数nb设置为25,即将每帧信号预划分成25个子带, 每个子带的长度n为8。中值平滑处理的滑动窗口长度设置为5,即每次选取5帧数据进 行中值平滑处理。最小有话段门限设置为5帧,最长静音长度门限设置为10帧。)改进的 自适应子带归一化谱概率密度定义式中的常数k设置为0.5,初始阈值门限的标准差权重 因子p设置为3,动态阈值门限的动态更新系数c设置为0.9。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1