一种利用短时时频值的自适应端点检测方法

文档序号:2827588阅读:248来源:国知局
一种利用短时时频值的自适应端点检测方法
【专利摘要】一种利用短时时频值的自适应端点检测方法,涉及说话人识别系统中的语音检测技术。语音信号输入后,解析语音文件并提取采样值,对获取到的语音采样序列进行预处理;将预处理后的信号分成了固定长度的帧,并形成一个帧序列,针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数;根据三个语音信号特征参数计算每一帧信号的短时时频值,并形成一个短时时频值序列;从信号第一帧开始,分析短时时频值序列,寻找语音的起点和终点,并输出语音端点检测结果。可在复杂的背景噪声下,较为准确检测出语音的起点和终点,提高系统的识别准确率,减少识别时间,提高复杂环境下的说话人识别系统的性能。
【专利说明】一种利用短时时频值的自适应端点检测方法
【技术领域】
[0001]本发明涉及说话人识别系统中的语音检测技术,具体涉及一种利用短时时频值的自适应端点检测方法。
【背景技术】
[0002]语音端点检测技术是说话人识别系统中面临的第一个关键技术。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起点和结束点。作为一个完整的说话人识别系统,其最终效果不仅取决于识别算法的优劣,其他许多相关因素都会直接影响着系统应用的成功与否。在说话人识别系统中,处理的对象是语音信号,但是实际环境下的语音信号都存在一定的背景噪声。如何有效地区分背景噪声和语音,并尽可能地去除不含语音成分的背景噪声,提高识别的鲁棒性,是本发明要解决的问题。另外,在实际应用系统中,有效的语音端点检测技术不仅能减少系统的处理时间、提高系统处理的实时性,而且能排除无声段噪声的干扰,从而提高系统的整体性能。因此,端点检测的准确性在一定程度上决定了整个系统的成败。
[0003]目前,端点检测大体上可以分为两类:基于模型的检测算法和基于特征的检测算法。
[0004]基于模型的方法是以数据统计分析为基础建立一个能够更好刻画语音信号内部联系的模型,常见的有基于隐马尔科夫模型(HMM)、矢量量化(vector quantization, VQ)和支持向量机(support vector machine, SVM)等端点检测方法。该方法过程比较复杂、运算量大,并且实际应用环境复杂多变,噪声多种多样,建立的语音和噪声模型对环境的适应性比较差,检测准确率达不到实际应用的需求。
[0005]基于特征的端点检测方法均依据语音信号的时域特性和频域特性。常用的时频域特征主要有短时能量、短时平均过零率、短时信息熵和短时频谱等。然后通过判断这些特征参数是否超过一个阈值,而后再通过“与”和“或”运算来做出是否是语音起止点的判断。
[0006]如 Lu Lie 等 人(Lu Lie, Jiang Hao, Zhang Hong-jiang.A robust audioclassification and segmentation method[C].Proc.0f the 9 th ACM International
Conference on Multimedia.2001)提出了一种基于时域特征参数端点检测方法-用短时
能量变化率来进行端点检测。这种方法采用的不是短时能量而是短时能量的变化率,该方法具有一定的鲁棒性,但不能解决信噪比检测准确率的问题。
[0007]如张仁志和崔慧娟(张仁志,崔慧娟.基于短时能量的语音端点检测方法研究[J].电声技术,2005(7):52-54)提出了一种改进的短时能量端点检测方法,在采用短时全带能量为特征的基础上,将短时高频能量作为辅助特征,同时使用了最优边沿检测滤波以及双门限——三态转化判决机制,从而保证该方法在噪声环境下检测的准确性和对信号绝对幅度变化的稳健性,能够在信噪比下保持良好的性能。
[0008]如苏伟博(苏伟博.一种语音端点检测方法及装置.天津市亚安科技电子有限公司,CN 102097095A, 2011)提出的一种语音端点检测方法及装置。该发明专利中应用了频谱熵作为语音和非语音的区分特征,可以有效的区分语音帧和非语音帧。对于低信噪比环境也有较好的检测结果。
[0009]在实际应用中,往往综合时域和频域的几种特征参数来进行端点检测,如郭继云等人(郭继云,王守觉,刘学刚.一种改进的基于能频比的端点检测算法[J].计算机工程与应用,2005,41 (29):91-93)提出的一种改进的基于能频比的端点检测算法。该方法结合时域和频域的特征参数,发挥各自特征参数优势的同时还规避了自身的不足。
[0010]如李祺、马华东等人(李祺,马华东,郑侃彦等.一种自适应的语音端点检测方法.新奥特(北京)视频技术有限公司,CN 101625857A,2010)提出的一种自适应的语音端点检测方法。该发明专利利用了短时能量、短时平均过零率和短时信息熵三个音频特征参数,有效的结合了时域和频域的特征参数,并能够根据背景噪声的变化做出及时的反馈,从而提高在复杂噪声背景下的语音端点检测效率。所以将时频特征参数相结合能得到很好的效果。
[0011]理想的端点检测算法需要满足可靠性、精确性、自适应性、鲁棒性、实时性等。针对复杂环境下的语音信号端点检测算法的关键就在于对噪声的有效抑制处理。目前主要从以下两方面来考虑:第一,将输入的语音信号进行语音增强处理。例如,小波去噪、谱减法、滤波器组去噪等语音增强算法,减少噪声的影响,提高信噪比。然后用传统的端点检测算法进行起止点的判断;第二,选择具有抗噪性好的语音特征参数组合成一个新的特征来进行端点检测。端点检测的判决方法也由原来单一门限发展到多门限以至于自适应门限,从而不断提高算法的鲁棒性。
[0012]因此,有必要引入一种新的语音特征参数,能够在多种复杂的噪声环境下准确的反应出语音段和非语音段。本发明提出一种新的语音端点检测方法,通过计算语音信号的短时时频值特征可保证能够对语音的起止点做出高效的判断。

【发明内容】

[0013]本发明的目的在于针对说话人识别系统中的短语音特点以及现有端点检测方法的缺陷,提供一种利用短时时频值的自适应端点检测方法。
[0014]本发明包括如下步骤:
[0015]I)语音信号输入后,解析语音文件并提取采样值,对获取到的语音采样序列进行预处理;
[0016]2)将步骤I)预处理后的信号分成了固定长度的帧,并形成一个帧序列,针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数;
[0017]3)根据步骤2)中的三个语音信号特征参数计算每一帧信号的短时时频值,并形成一个短时时频值序列;
[0018]4)从信号第一帧开始,分析短时时频值序列,寻找语音的起点和终点,并输出语音端点检测结果。
[0019]在步骤I)中,所述预处理包括预加重、加窗分帧及带通滤波;所述预加重可采用一阶数字滤波器H(Z) =1-Uz'其中,μ接近于I ;所述加窗分帧的窗函数可为汉宁窗,分巾贞后巾贞长为20ms,巾贞移位IOms ;所述带通滤波采用的带通滤波器的带宽可为400?3500Hz ο[0020]在步骤2)中,每一帧数据提取短时能量为:
[0021]
【权利要求】
1.一种利用短时时频值的自适应端点检测方法,其特征在于包括如下步骤: 1)语音信号输入后,解析语音文件并提取采样值,对获取到的语音采样序列进行预处理; 2)将步骤I)预处理后的信号分成了固定长度的帧,并形成一个帧序列,针对每一帧数据提取短时能量、短时信息熵和短时幅度相对值三个语音信号特征参数; 3)根据步骤2)中的三个语音信号特征参数计算每一帧信号的短时时频值,并形成一个短时时频值序列; 4)从信号第一帧开始,分析短时时频值序列,寻找语音的起点和终点,并输出语音端点检测结果。
2.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤1)中,所述预处理包括预加重、加窗分帧及带通滤波; 所述预加重采用一阶数字滤波器H(Z) = l-μζ—1,其中,μ接近于I ; 所述加窗分帧的窗函数可为汉宁窗,分帧后帧长为20ms,帧移位IOms ; 所述带通滤波采用的带通滤波器的带宽可为400~3500Hz。
3.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时能量为:

4.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时信息熵的具体方法为: 步骤一:对每一帧信号进行短时傅里叶变换(FFT),将信号由时域向频域转换:

5.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤2)中,每一帧数据提取短时幅度相对值的计算过程如下: (1)计算每一帧中样本点幅度值Ai与某一阈值Atto比较,统计一帧中大于阈值的样点个数Ni ; (2)根据每一帧的Ni数是否大于阈值Ntto,来判断样本幅度是否过小,将大于阈值的Ni保留下来,并将这个值称为短时幅度相对值。
6.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤3)中,所述每一帧信号的短时时频值为:
EHRi = (E1-E0).(H1-H0).(R1-R0) 其中,EHRi表示第i帧的短时时频值,Ei表示第i帧的短时能量,Hi表示第i帧的短时信息熵,Ri表示第i帧的短时幅度相对值,E0, H0, R0分别表示当前背景噪声估计的短时能量值、短时信息熵、短时幅度相对值;当前背景噪声通过选择语音信号的前几帧进行分析计算,通过迭代取平均值的方式来计算背景噪声参数。
7.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤3)中,所述每一帧信号的短时时频值进行平滑处理,处理中对短时能量、短时信息熵和短时幅度相对值三个语音特征参数分别进行平滑,采用5帧的平滑方式; 对于某一帧信号Xn的某一特征参数Fn进行平滑处理的方法为: 首先,找到信号Xn的前后相邻的4帧Xn_2、Xn_1、Xn+1、Xn+2,并计算相应的音频特征参数Fn-2、L、Fn+1> Fn+2 ;进行5帧平滑后的特征参数F
8.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤4)中,所述寻找语音的起点的步骤如下: (I)假设从第t帧开始,对应的短时时频值值为Xt,检测第t帧之后每一帧的短时时频值,直到找到一帧j使得Xt ( Xt+1 ( Xt+2 ^ ≤Xj且Xj+1≤Xj+2,即寻找充第t帧开始的短时时频值序列的上升区间,记为ASt ;(2)计算上升区间ASt的短时时频值序列波形的平均斜率:
9.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤4)中,所述寻找语音的终点的步骤如下: (1)终点的寻找方式与起点类似,假设从第t帧开始倒着寻找,检测第t帧之前每一帧的短时时频值,知道找到一帧J,使得Xt≥Xt-1≥Xt_2≥...≥Xj且Xj-1 ≤Χj-2,即寻找从第t帧开始的短时时频值序列下降区间,记为DSt ; (2)计算该下降区间DSt的短时时频值序列波形的平均斜率
10.如权利要求1所述一种利用短时时频值的自适应端点检测方法,其特征在于在步骤4)中,寻找语音的起点和终点时,确定门限阈值Rm的步骤如下: 步骤一:找出短时时频值序列中的最小值EHRjnin和最大值EHR_max,然后计算EHR_max/100 ; 步骤二:比较HlR_max/100和EHR_min,取其中的较大者,记作EHR_slope ; 步骤三:门限阈值设定为=Rni = EHR_slopeX2。
【文档编号】G10L17/02GK104021789SQ201410292519
【公开日】2014年9月3日 申请日期:2014年6月25日 优先权日:2014年6月25日
【发明者】洪青阳, 雷文钿, 童峰 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1