一种基于小波包变换的声纹特征提取算法的制作方法

文档序号：11459425阅读：642来源：国知局

本发明涉及语音特征参数提取和识别领域，具体是一种利用小波包的变换将声纹特征进行提取的设计系统。

背景技术：

在生物学和信息科学高度发展的今天,生物认证技术作为一种便捷、先进的信息安全技术开始在全球电子商务时代崭露头角；这是一种根据人自身的生理特征如：指纹、手形、脸部、虹膜、视网膜、气味等和行为特征：声音、签名、击键方式等来识别身份的技术；它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术，能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求；在生物认证技术中，说话人识别技术以其独特的方便性、经济性、和准确性受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安全验证方式。

在众多的生物技术中，说话人识别技术表现出很多应用上的优势；首先，说话人识别技术有着天然的优点：以声音作为识别特征，因其不接触性和自然性，用户很容易接受，不存在心理上的障碍；在说话人识别过程中，用户不用刻意的去将手指放在传感器上，或者把眼睛靠上摄像头，只需随意的说几句话即可完成识别；其次，说话人识别所用的设备成本低廉；如：输入设备麦克风、电话送话机等没有特征别的要求；声音采样与量化对芯片的要求也很低；特征提取、模型训练和匹配只需普通的计算机即可；另外，现在的电子设备很多都是集麦克风，计算机为一体，所以识别系统所需的硬件成本会很低。

语音特征提取方面：从1963年到1973年的十年间，研究人员先后采用带通滤波器组、基因频率、倒谱特征、共振峰、线性预测系数、语音对数域比例、时域音栓配合法的语音响度、mel频率倒谱系数、小波变换系数、mel频率倒谱系数与pca混合参数、mel频率倒谱系数与delta混合参数等特征参数进行说话人识别；1974年，阿尔塔通过对线性预测系数、自相关系数、声道的冲激响应和面积函数以及倒谱系数的比较，得出在当时实验条件下倒谱系数的识别效果最好的结论，从七十年代末起，研究人员对识别方法和匹配度等方面展开了深入研究。

技术实现要素：

本发明要解决的技术问题是提出一种语音特征参数提取的算法，具有良好的鲁棒性和低复杂度，且识别出的结果很好。

一种基于小波包的变换将声纹特征进行提取的算法，具体步骤：

(1)、将采样频率为8000hz的一帧语音信号x(n)进行5层小波包分解，但只取其中的17个节点，17个节点分别为(5,i),i＝1,2,3,4,5,6,7,12,13，(3,j),j＝4,5,6,7，(4,k),k＝4,5,7，(i,j)代表第i层第j+1节点处的小波包系数，取这17个节点处的小波包系数的原则是根据语音的频谱能量集中区间划分；

(2)、计算一帧语音信号所取各节点处的小波包系数，分别为：

wpcn＝[cb,m(0),cb,m(1),…,cb,m(k)](1)

式(1)中wpcn表示在节点(b，m)节点下的小波包系数，k表示在节点(b，m)下的小波包系数维数(或长度)，n为第几个小波包系数，且n＝1,2,3,…,17；当b＝3时，m＝4,5,6,7；k＝257，n＝1,2,3,4。当b＝4时，m＝4,5,7；k＝133；n＝5,6,7。当b＝5时，m＝1,2,3,4,5,6,7,12,13；k＝66；n＝8到17；

(3)、对第二步所求出的各小波包系数进行求能量之和，公式为：

en＝∑[wpcn²(1),wpcn²(2),…,wpcn²(k)](2)

式中n＝1,2,3,…,17；

(4)、第三步得到的en进行取对数，得：

q(n)＝log(en)(3)

(5)、求一帧语音的dwpt参数：

dwpt＝dct[q(0),q(1),…,q(n)](4)

本发明与现有的声纹提取技术相比，采用了最近几年研究最火的小波变换，将时间序列的语音信息进行高频和低频信息的5层分解，在通过对分解的具体节点处的语音信息进行能量求和，取对数计算，形成声纹特征提取的算法；该算法的优势在于小波包对语音信息分解的频带能很好的模拟人耳的听觉特性，提取出的特征在lbg-vq识别模型下识别效果很好。

附图说明

图1为本发明的系统框图；

图2为本发明的识别框图；

图3为小波包分解的结构和17处节点代表的频带带宽图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围；

如图2所示，该基于小波包变换的声纹特征提取算法的识别系统，主要分为以下几部分：

语音信号的采集，预处理，dwpt特征参数提取，识别模型测试和训练，说话人声纹匹配；

基于小波包变换的声纹特征提取的识别方法具体步骤如下：

1语音信号的采集：语音信号是由audacity软件录制，信号的采样频率为8000hz，单通道，16bit；

2语音信号的预处理：预加重，其加重权系数为0.96；分帧，256个采样点为一帧，且帧移为64个采样点；加窗，窗函数用的是汉明窗；端点检测，端点检测利用的是频带方差法；

(1)加汉明窗

k为窗口长度

(2)频带方差的端点检测

设带噪语音信号为x(n)，然后经过加窗分帧处理，得到第i帧语音信号为xi(m)，对得到的该语音信号进行fft变换，如下：

其中n为帧长，让xi＝{xi(1),xi(1),…,xi(n)}，为求第i帧的语音信号的频带方差，先求出第i帧语音信号的均值和方差di如下：

将上式中的求得的多帧前导无话语音信号的均值和方差di进行取平均值，作为2个阈值，将此阈值取代双门限语音端点检测中的短时能量和短时过零率的阈值，便得到基于频带方差的端点检测方法。

3如图1所示的小波包变换的声纹特征提取算法框图，具体文字表述为：

(2)、计算一帧语音信号所取各节点处的小波包系数，分别为：

wpcn＝[cb,m(0),cb,m(1),…,cb,m(k)](8)

(3)、对第二步所求出的各小波包系数进行求能量之和，公式为：

en＝∑[wpcn²(1),wpcn²(2),…,wpcn²(k)](9)

式中n＝1,2,3,…,17；

(4)、第三步得到的en进行取对数，得：

q(n)＝log(en)(10)

(5)、求一帧语音的dwpt参数：

dwpt＝dct[q(0),q(1),…,q(n)](11)

4lbg-vq训练样本

有m个语音信号训练样本的训练序列t＝{x1,x2,x3,…xm}，源矢量是k＝17维的：xm＝(xm,1,xm,2,…,xm,k)m＝1,2…m；码矢的数目是n＝16，码书表示为：c＝{c1,c2,…,cn}；每一个码矢是个k维向量cn＝(xn,1,xn,2,…,xn,k)n＝1,2…n：与码矢cn对应的编码区域表示为sn，然后将空间的划分表示为：

p＝{s1,s2,…,sn}；如果源矢量xm在sn内，其近似是cn，即q(xm)＝cn，如果xm属于sn假设我们采用平均均方差失真度量，那么平均失测度表示如下：

其中||…||表示欧式距离。

lbg算法：

(1)确定测试集t和正数ξ，本发明为0.01；

(2)令n＝1，将这一个码矢设置为所有训练样本的平均值：

总失真度为：

(3)进行分裂算法：对i＝1,2…n，其码矢按照下式进行分裂：

由上可知码矢是按原码矢的2倍增长；

(4)开始迭代：初始失真测度确定为：dave^(q)＝dave^*，其中q为迭代次数索引，初次令q＝0；

1)对于训练集t中的每一个训练样本m＝1,2…m，在训练样本和哪个码矢距离最近所有码矢中寻找的，即min||xm-cn^(q)||²，令n*表示该最小值的标记，用此码矢来近似这个训练样本：

2)更新码矢：

n＝1,2…n，也就是将所有属于cn所在的编码区域sn的训练样本取平均作为这个编码区域的新的码矢。

3)迭代计数器加1：q＝q+1.

4)计算在现阶段的c和p基础上的总失真度：

5)如果失真度相比上一次的失真度(相对失真改进量)还大于可以接受的失真阈值ε，那么继续迭代，返回步骤1)，否则转入6)步

6)最终失真度为对n＝1,2…n，最终码矢为：

(5)重复步骤(3)和(4)到n＝16停止。

5说话人识别

对说话人语音样本进行步骤1-3步骤得到说话人的声纹特征，将其与步骤4所取得到的多个训练人语音信息得到的码本进行匹配，将匹配距离最小的作为识别结果，本发明采用的是欧氏距离的平均距离测度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求；

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄金杰;张厚振;贾海阳;潘晓真;张青春
技术所有人：哈尔滨理工大学
我是此专利的发明人

上一篇：一种对服务质量进行质检的方法及装置与流程
上一篇：主动降噪方法、系统及汽车与流程