基于时频瞬时能量谱的低信噪比语音端点检测方法

文档序号:2834948阅读:510来源:国知局
专利名称:基于时频瞬时能量谱的低信噪比语音端点检测方法
技术领域
本发明属于语音处理领域,涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。
背景技术
语音在采集传输以及通信过程中不可避免的会引入各种噪声,噪声的存在将会直接影响语音的清晰度和可懂度。对含噪语音信号进行端点检测,获得有效语音片段的起止点,对于后续的语音增强、编码以及识别工作起着非常重要的作用。目前传统的端点检测方法主要有平均能量、平均过零率、倒谱系数、短时频带方差、短时能频值、倒谱距离、自相关相似距离、信息熵以及谱熵等。但是它们都是基于语音信号具有短时线性平稳的假设,但实际上语音信号为非线性非平稳过程。同时现有的方法抗噪能力普遍不强,当信噪比较低时语音端点检测的准确率普遍不理想。NE.Huang博士于1998年提出了一种新的具有自适应的时频分析方法一Hilbert-Huang变换(HHT),特别适合于非线性、非平稳的含噪语音时频分析,但是其存在模态混叠等缺点,因此本发明提出了一种基于时频瞬时能量谱的低信噪比语音端点检测方法。

发明内容
本发明考虑到:(I)传统含噪语音端点检测都是基于语音短时线性平稳过程的假设且对于强噪声背景下的语音端点检测效果不理想;(2)针对含噪语音的HHT变换存在模态混叠从而降低语音信号时频分辨力的缺点,提出了基于时频瞬时能量谱的低信噪比语音端点检测方法。运用小波包分解对频带进行细分,低频部分中语音信号占主导,对分解的低频信号进行重构和EMD分解。同时利用相关系数阈值准则,对含噪语音EMD分解后的IMF分量进行筛选和剔除。重组得到的有效MF分量,并对其进行Hilbert变换,计算瞬时能量谱作为语音端点检测的特征向量。本发明主要是基于Hilbert — Huang变换的语音信号处理,将小波包分解作为含噪语音信号的预处理,改善了含噪语音信号的时频分辨能力,同时使其满足Hilbert-Huang变换中经验模态函数单一振荡模态的要求,有效的避免了模态混叠的发生。引入相关系数阈值准则对MF分量进行筛选,避免Hilbert谱中出现虚假频率。同时将瞬时能量谱作为端点检测的特征量,作为区分语音和噪声时频特性的依据,有利于提升端点检测的准确率以及算法性能的稳定性。本发明时频瞬时能量谱的低信噪比语音端点检测方法包括以下步骤:
步骤(I)对加汉明窗的含噪语音进行小波包分解,并对分解后的信号进行重构。步骤(2)对重构的低频信号进行自适应EMD分解处理,得到有限个MF分量。步骤(3)采用相关系数阈值准则,对IMF分量进行筛选,得到有效的IMF分量,并进行重组。步骤(4)对重组的MF分量进行Hilbert变换,同时计算瞬时能量谱序列,将瞬时能量谱特征量作为含噪语音端点检测的依据。
步骤(5)对瞬时能量谱序列进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱。步骤(6)对分帧的瞬时能量谱序列运用起-止双门限阈值法进行语音端点检测,记录有效语音片段的起止点。本发明的有益效果:
1、由于语音信号具有非线性非平稳的特征,本发明采用具有自适应非线性非平稳的时频分析方法Hilbert — Huang变换,提取瞬时能量谱作为特征量,进行含噪语音端点检测,有利于提闻含噪语首端点检测的准确率。2、本发明基于小波包分解的HiIbert — Huang变换瞬时能量谱含噪语音端点检测,与传统强噪声背景下的端点检测方法不同,后者先对含噪语音进行降噪处理,然后再运用传统端点检测方法进行语音端点检测,其降噪效果的优劣直接影响着语音端点检测的准确率。而本发明是利用语音和噪声在时频谱上的特征差异,在含噪语音信号基础直接进行端点检测。3、引入小波包分解克服了 Hilbert — Huang变换的模态混叠缺点,使其满足经验模态函数单一振荡模态的要求,同时小波包将频带范围进行了细分,由于小波包具有良好的正交性与自适应性,改善了含噪语音信号的时频分辨力。4、相关系数阈值准则的引入剔除了含噪语音中相关性较差的MF分量,有效的避免了 Hilbert谱中虚假频率的出现,同时减少了程序运行的时间,改善了语音端点检测的稳定性。


图1为含噪语音信号示意图; 图2为小波包分解二叉树示意 图3为EMD分解后前7个IMF示意 图4为含噪语音Hilbert 图5为含噪语音瞬时能量谱图。
具体实施例方式以下结合附图对本发明作进一步说明,本发明方法的具体步骤是:
步骤(I)对强噪声背景下的含噪语音信号/ (如图1所示)加汉明窗处理。利用Daubechies中的db3小波基函数对加窗含噪语音信号进行3层小波包分解,其中小波包分解二叉树示意图如图2所示。将分解后的结果进行重构,得到重构信号,记为WPT^i = 1,-,8),其对应的频带范围分别为
,[A/, 2A/J - W, 2JA/] (j = ^ ,其
中A/为最小的频率分辨率,4/ = ^^0 = 3), fs为采样频率。步骤(2)将重构获得的低频分量信号KiPTJ进行自适应EMD分解(前7个MF分量如图3所示),从而得到有限个IMF分量Ci(OCdy)和残余信号&(£)。
步骤(3)按式(1)分别计算每个MF分量ci(t)(i=1,...,n)片与重构低频分量信号WPT1的相关系数r1,根据式(2)确定相关系数阈值,对IMF分量进行筛选,筛选规则为:当r1>λ时保留ci(t)分量,否则将该ci(t)分量剔除。将筛选后保留的IMF分量重组,得到有效的IMF 分量vi(t)(i=1,...,m,m≤n)。
权利要求
1.基于时频瞬时能量谱的低信噪比语音端点检测方法,其特征在于该方法包括如下步骤: 步骤(I)对加汉明窗的含噪语音进行小波包分解,并对分解后的信号进行重构; 步骤(2)对重构的低频信号进行自适应EMD分解处理,得到有限个MF分量; 步骤(3)采用相关系数阈值准则,对IMF分量进行筛选,得到有效的IMF分量,并进行重组; 步骤(4)对重组的MF分量进行Hilbert变换,同时计算瞬时能量谱序列,将瞬时能量谱特征量作为含噪语音端点检测的依据; 步骤(5)对瞬时能量谱序列进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱; 步骤(6)对分帧的瞬时能量谱序列运用起-止双门限阈值法进行语音端点检测,记录有效语音片段的起止点。
全文摘要
本发明涉及一种基于时频瞬时能量谱的低信噪比语音端点检测方法。传统方法降噪效果不是很理想。本发明方法将时频瞬时能量谱特征作为端点检测的依据,首先对含噪语音进行小波包分解,并对分解后的低频分量进行重构。利用经验模态分解对重构后的信号进行处理,并运用相关系数阈值准则进行固有模态函数的筛选和剔除,获取有效IMF分量。重组得到的IMF分量,进行Hilbert变换并计算相应的瞬时能量谱,构成语音端点检测的特征向量。对得到的结果进行分帧处理,将前5帧瞬时能量谱均值作为噪声的瞬时能量谱,并采用语音起-止双阈值门限法进行含噪语音的端点检测。本发明使含噪语音的时频分辨能力得到显著的改善,提高了语音端点检测的效率。
文档编号G10L25/84GK103117066SQ20131001787
公开日2013年5月22日 申请日期2013年1月17日 优先权日2013年1月17日
发明者范影乐, 陈金龙, 倪红霞, 廖进文, 李丹菁 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1