一种噪声环境下声纹识别的语音特征处理方法

文档序号：9912674阅读：1268来源：国知局

一种噪声环境下声纹识别的语音特征处理方法
【技术领域】
[0001] 本发明涉及语音信号处理领域，提出一种基于基音特性和噪声特性的语音特征提取方法。
【背景技术】
[0002] 随着语音科学与信息通信技术的发展，作为更加便捷的身份验证技术，声纹识别技术取得了显著的进步。语言作为人类最基础的自然属性之一，是人类之间信息传递最直接便捷的方式。作为个体的人的发声器官不仅与先天因素有关，而且受后天发育环境等因素的影响较大，因此语音有十分显著的个体色彩。这种个体上的特点同时衍生了一个科学研究热点一一声纹识别。当一个个体在说话人时，所产生的语音与个体的发声习惯、发声器官等因素有关，这些因素是相对稳定的，一般情况下差异较小，因此个体之间的声纹图谱都存在差异。因此人的声音可以作为人的身份标识，是一个相对稳定的生命信号。声纹识别就是将人的发声特性作为标识，对人的身份进行验证的一项科学技术。
[0003] 语音信号中的基音周期是语音的一大特性，它描述了语音激励源的一个特征。但由于人的基音周期的范围很宽，且同一个体在不同的情感环境中发音的基音周期也不相同，加之基音周期还会受到发音音调的影响，因此将基音作为声纹特征是比较困难的事情，而且基音也会通过影响语音特征参数，影响声纹识别的结果。因此本发明的谱包络平滑法正是基于这一特性，去除了基音的影响。
[0004] 鲁棒性是声纹识别技术的关键，一个训练好的声纹识别系统通常需要在各种日常的环境下工作。声学模型只使用语音样本库中的数据进行训练，而语音的采集通常在低噪声的环境下，往往很难与多种噪声环境相匹配，环境噪声造成的特征扭曲降低了声纹识别的鲁棒性。环境噪声根据其特性可以分为加性噪声和减性噪声两种，如何有效的去除这两种噪声的干扰是关键所在。语音特征的后处理算法在前期特征的基础上进行处理，不仅减小了算法的复杂性，而且有利于提高语音的声纹特性。

【发明内容】

[0005] 针对以上现有技术的不足，提出了一种方法。本发明的技术方案如下:一种噪声环境下声纹识别的语音特征处理方法，该方法包括以下几个步骤：
[0006] 步骤1:获取噪声环境下的语音信号，根据语音的特点对信号进行前期处理，包括预加重处理，加窗处理和端点检测；
[0007]步骤2:估算发声个体的基音周期，并以此为依据对语音信号进行谱平滑处理，得到新的谱包络，计算通过梅尔滤波器的能量，最终通过DCT倒谱计算得到中间信号SFCC;
[0008] 步骤3:结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理，得到最终语音特征MVDA。
[0009] 进一步的，步骤1对信号进行前期处理，具体为:步骤A1:根据口腔的辐射响应接近于一阶高通函数的特性，采用的预加重滤波器为xlrOiWrO-ahU-l)，公式中a是常数，X (η)为原信号，V (η)为预加重信号，η为时域内语音的采样点。
[0010]步骤Α2:采用汉明窗对语音信号进行加窗处理；
[0011]步骤A3:采用短时平均能量和短时平均过零率的双门限法对语音信号进行端点检测。
[0012] 进一步的，所述步骤2,具体步骤如下：
[0013] 步骤Β1:首先利用倒谱法基音检测估算每一帧语音的基音周期；
[0014] 步骤Β2:对每一帧信号进行快速傅里叶变换，计算谱线能量；
[0015] 步骤Β3:对得到的能量谱求其谱包络，利用谱包络平滑函数对谱包络进行平滑处理；
[0016] 步骤Μ:计算通过Mel滤波器组的能量，计算DCT倒谱得到SFCC。
[0017]进一步的，所述步骤B3利用谱包络平滑函数对谱包络进行平滑处理具体为：对于一帧语音信号，首先通过在步骤B1中求得的基音频率wo;根据基音频率wo的频域数据X[w]，在信号区间[wo/2，3 WQ/2]内找到波峰六!及其对应的频率W11;同样在信号区间[wo/2+wn，3wo/ 2+W11]内找到波峰A2及其对应的频率W12;循环此步骤依次发现{[Ak，wik]}，k=l，2,...，一直找到频域信号的末端；同样根据其频域数据X[w]，在信号区间[ WQ/2,3WQ/2]内找到波峰也及其对应的频率w21;同样在信号区间[wo/2+w 21，3wo/2+w21]内找到波峰B2及其对应的频率w22; 循环此步骤依次发现{[B k，W2k]}，k=l，2,...，一直找到频域信号的末端;根据Ak和B k求得二者的中间值Ck及其对应的频率wk;根据两个相邻的中间值插值重新估算谱线能量，公式为
，得到新的能量谱包络。
[0018] 进一步的，所述步骤3,结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理，具体步骤如下：
[0019] 步骤C1:利用均值消减法对语音信号特征进行处理，用C(T)表示第τ帧语音信号的特征，则均值消减表示为fW = 表示经步骤C1后得到的语音信号，其中μ是根据样本数据估计的均值项；
[0020] 步骤C2:利用方差归一化法对步骤C1均值消减后的语音信号特征进行处理;方差归一化法表示为1 2斤_)|>/]，其中Γ是均值消减和方差归一化之后的特征，〇2[d]是SFCC第d维的估计方差；
[0021] 步骤C3:利用时间序列滤波法对步骤C2方差归一后的语音信号特征进行处理；
，其中d是均值消减、方差归一化和时间序列滤波之后的特征，K代表时间序列的宽度，m为其最大宽度；
[0022] 步骤C4:利用加权自回归移动平均滤波法对语音信号特征进行处理，
[0023]
[0024] 其中￡是1^^滤波之后的特征，m代表加权自回归移动平均滤波法深度和权重，m = 1时表示没加权自回归移动平均滤波处理，里T为给定语句中的帧数。
[0025]进一步的，所述步骤B1:首先利用倒谱法基音检测估算每一帧语音的基音周期具体为；
[0026] 已知基音频率范围为40~600Hz之间，当采样频率为fs时，在到频率域上40Hz对应的基因周期样值点IW = fs/40,而600Hz对应的基音周期样值点为Pmin = fs/600,所以在计算出倒谱后，就在到频率为Pmin和Pmax之间寻找倒谱函数的最大值，倒谱函数最大值对应的样点数就是该i帧语音信号的基音周期T〇(i)。
[0027] 进一步的，所述步骤B2对每一帧信号进行快速傅里叶变换，计算谱线能量具体为；
[0028] 当假设语音信号序列为x(n)，对应的傅里叶变换为X(w)=FT[x(n)]，则序列又(n) = FT 'In | X(\v) |j为倒谱，FT和FT-1分别表示傅里叶变换和傅里叶逆变换，根据语音的特性，X(η)是由声门脉冲激励u(η)经声道响应u( n)滤波而得到，可以表示为X(n) = u(η) (η)，设这三个量的倒谱分别为场3)、％)及，则可得到·§(η) = t(n) + ，看出和 6(η)是相对分离的，因而可行倒谱分离?(η)恢复u(n)，从中求出基音周期。
[0029]本发明的优点及有益效果如下：
[0030]本发明是针对声纹识别中，语音信号特征的个体因素和环境因素，提出了一种有效去除基音和噪声干扰的特征处理方法，保证声纹识别的灵敏性和准确性。具体优点是： (1)对语音信号进行预处理，针对噪声环境特性选取合适的预加重方法、加窗分帧方法和端点检测方法，降低了噪声对语音预处理造成的误差，保证了声纹识别的系统性能；（2)在特征提取时，通过对语音信号进行谱平滑处理，得到更能代表声纹特性的谱包络，弱化了基音周期的不稳定性；（3)在后处理算法中，利用MVDA滤波法去除卷积噪声和加性噪声影响，同时保证了语音系统的灵敏性。
[0031] 本发明所有语音特征处理步骤，都采取了针对声纹特性的方法，综合考虑了声纹识别的外部噪声环境和发声个体自身的不稳定因素，在保证声纹识别系统的同时，降低了算法的复杂性，保证了声纹识别的灵敏性。
【附图说明】
[0032] 图1是本发明提供优选实施例能量谱包络图；
[0033]图2:谱包络平滑法流程图；
[0034] 图3 :MVDA处理法流程图。
【具体实施方式】
[0035]以下结合附图，对本发明作进一步说明：
[0036]如图1所示，假设语音信号为x(n)。
[0037] 步骤1:采用的预加重滤波器，（1〇=奴11)-&奴11-1)，其中a取常数0.95,对语音信号进行预处理;采用汉明窗对语音信号进行加窗处理;首先根据短时能量包络线选取一个较大的阈值Ti(根据语音信号能量统计，设为9.58)进行粗判，高于该阈值确定为语音信号，语音信号的起止点位于该阈值与短时能量包络交点所对应时间点之外。在平均能量上确定一个较低的阈值τ2(根据语音信号能量统计，设为5.56)，并从Ti的交点分别往信号的两侧搜索，找到与^的交点就是短时能量判定的语音信号起止点。以短时过零率为准向语音信号两侧寻找，找到低于设定过零率阈值T 3(根据语音短时过零率统计，设为7.56)的点即为语音信号的起止点。根据两级判决的结果各取起点和终点的中间值作为最后的起止点。步骤 2:首先

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张毅;谢延义;徐晓东;萧红;罗久飞;黄超;王可佳;倪雷;
技术所有人：重庆邮电大学;
我是此专利的发明人