一种基于多因素频率位移不变特征的鲁棒说话人辨别方法

文档序号：2833114阅读：230来源：国知局

专利名称：一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
技术领域：
本发明涉及一种用于提高说话人身份辨别性能的特征提取方法，属于语音信号处理技术领域。
背景技术：
随着计算机和人工智能技术的不断发展，各种各样的智能机器参与到人类的生产活动和社会活动当中，因此如何改善人们与这些机器之间的关系，使人对机器的操纵更加便利就显得越来越重要，而语言是人与机器进行交流的最好方式。语音信号处理是语言学和数字信号处理技术相结合的交叉学科，是计算机智能接口与人机交互的重要手段之一，而说话人辨别是一种高效的的人机交互手段，其特点是信号采集方便，系统设备成本低，可以广泛应用于身份辨别、公安司法鉴定、语音信号检索、军事、电子商务等领域。说话人辨别一般包括特征提取、参考模型生成和判别分类三部分组成。常用的说话人辨别特征提取方法主要包括语音信号倒谱系数、特征补偿和正则化技术等。大量的实践表明，语音帧能量、基频、短时谱、线性预测系数、倒谱稀疏特征等能够表征说话人个性特征。线性预测倒谱系数(LPCC)利用线性预测对声道转移函数进行建模，获取声道和激励源的时间变化特性，具有计算复杂度小，便于实现等特点，但是鲁棒性较差。美尔频率倒谱系数(MFCC)考虑人耳的听觉特性，对频谱进行滤波，变换到具有非线性特性的美尔频谱域，利用倒谱分析语音特征，具有较好的鲁棒性。感知加权线性预测系数 (PLP)是重要的说话人信号特征参数，它利用自回归全极点模型近似听觉谱，在纯净和噪声环境下取得了较好的识别结果。很多情况下，各种环境噪声和信道失真造成识别性能下降，如果在特征提取过程中去掉这些稳定和变换缓慢的噪声，可以提高识别的鲁棒性和性能。谱均值减(CMS)是一种简单而有效的特征补偿方法，用于去除卷积噪声。RASTA滤波技术是CMS方法的一种推广，主要用于解决缓慢时变的线性信道带来的失真问题，消除了较低和较高的调制频率成分。说话人辨别中参考模型的建立通常采用隐马尔科夫模型(HMM)、高斯混合模型 (GMM)和GMM-UBM等完成，一般HMM模型是针对文本相关的说话人辨别任务，而GMM模型是针对文本无关的说话人辨别，这些模型都属于概率统计模型。此外还有一些其他的参考模型建立方法，比如人工神经网络(ANN)，支持向量机(SVM)等，这些都是属于模式识别的分类模型。如

图1所示，传统的基于PLP和GMM的说话人辨别方法通常采用以下步骤1)对输入语音信号信号进行短时傅立叶变换，获得信号的短时能量谱；2)进行临界频带分析，利用Bark尺度的频率Q进行Bark_Hertz频带变换，将卷曲之后的能量谱与临界频带遮掩曲线v (Q)进行卷积，得到临界频带能量谱0 (Q)；3)经过下采样之后，对e (Q)进行等响度曲线预加重来模拟等响度曲线，得到处理结果 (Q)，然后进行响度压缩；4)经过对频谱进行修正之后，利用全极点谱建模的自相关方法对 (Q)进行近似，获得对应阶数的自相关系数；5)通过离散余弦变换(DCT)对自相关系数计算倒谱，计算一阶和二阶差分系数；6)利用高斯混合模型(GMM)对已有说话人数据进行训练，获得不同说话人的模型；7)根据训练得到的说话人模型，对测试数据进行识别，得到说话人辨别的准确率。目前文本无关说话人辨别系统中信号的特征系数，在相对安静的环境下，可以得到较好的识别准确率，但是当周围环境复杂，干扰和噪声比较多的情况下，会造成说话人辨别性能的下降，其主要原因是单一因素特征(如频谱)的鲁棒性较差，说话人模型的训练模型与测试数据不匹配。因此如何提高特征的鲁棒性，考虑多种因素的特征组合，使得训练模型与测试数据的特征尽量匹配，是提高说话人辨别系统性能的关键。

发明内容
在噪声环境下，传统文本无关说话人辨别系统的鲁棒性较差，一般只提取时频特征，未考虑频率的位移不变特性，特征的可分性不高。本发明提出一种考虑语音中多因素的频率位移不变特征提取方法，利用卷积型非负张量分解方法提取频率的位移不变稀疏特征，降低噪声成分的干扰，用于复杂环境下文本无关的说话人辨别，提高了识别的准确率。本发明的考虑语音中多因素的频率位移不变特征提取方法，是利用人脑听觉系统中语音信号的处理机制，考虑频率、时间、尺度和相位多因素特征，通过二维复数小波变换进行多因素的表征，考虑频率的位移不变特性，利用卷积非负张量分解的方法进行特征提取，求解频率位移不变特征投影矩阵，计算多因素的鲁棒特征，通过离散余弦变换计算倒谱系数，最后获得具有较好鲁棒性的一阶和二阶差分特征参数用于说话人辨别。具体包括以下步骤( 1)通过采集设备得到语音信号x (t)，并进行加窗和预加重，利用短时傅里叶变换计算x (t)的能量谱S (f, t)；(2)利用不同尺度和相位的二维复数小波变换对能量谱S(f，t)进行滤波，得到语音信号的张量多因素表征^ ;利用美尔尺度变换对！的频率阶滤波得到一个4阶张量多因素表征S ；(3)采用张量分解的方法对得到的张量多因素表征S进行处理，估计移位投影矩阵H(1)和不同阶上的投影矩阵A(i)，i = 2，3，4，采用以下卷积非负张量分解的模型
权利要求
1.一种考虑语音中多因素的频率位移不变特征提取方法，其特征是考虑语音信号中包括时间、频率、尺度和相位信息的多重因素，利用卷积型非负张量分解方法计算频率阶上的特征投影，提取频率的位移不变稀疏特征，降低噪声成分的干扰，经过离散余弦变换对特征去相关，计算特征的一阶和二阶差分系数，用于复杂环境下文本无关的说话人辨别，具体包括以下步骤 (1)通过采集设备得到语音信号X(t)，并进行加窗和预加重，利用短时傅里叶变换计算x(t)的能量谱S(f，t)； (2)利用不同尺度和相位的二维复数小波变换对能量谱S(f，t)进行滤波，得到语音信号的张量多因素表征！;利用美尔尺度变换对^的频率阶滤波得到一个4阶张量多因素表征S； (3 )采用张量分解的方法对得到的张量多因素表征S进行处理，估计移位投影矩阵H(1)和不同阶上的投影矩阵A(i)，i = 2，3，4，采用以下卷积非负张量分解的模型
2.根据权利要求I所述的考虑语音中多因素的频率位移不变特征提取方法，其特征是所述步骤(3)中卷积型非负张量分解方法计算移位投影矩阵H(1)和投影矩阵A(i)，i =2，…，I的具体过程如下，其中1=4: ①引入中间矩阵A(1)，使得分解
全文摘要
本发明公开了一种考虑语音中多因素的频率位移不变特征提取方法，用于复杂环境下的文本无关说话人辨别，该方法考虑了语音的时间、频率、尺度和相位信息，通过不同尺度和相位的二维复数小波变换对语音信号能量谱进行多因素表征，考虑频率的位移不变特性，利用卷积型非负张量分解方法，计算频率阶上的位移不变特征投影矩阵，得到多因素的稀疏特征，通过离散余弦变换对特征去相关，计算特征的一阶和二阶差分系数，最终获得具有较好鲁棒性的说话人特征。本发明考虑语音信号多因素频率位移不变特征提取方法，利用卷积型非负张量分解方法计算具有鲁棒性的多因素频率位移不变特征，用于噪声环境下的文本无关说话人辨别，具有较好的识别准确率。
文档编号G10L17/00GK102664010SQ20121013735
公开日2012年9月12日申请日期2012年5月4日优先权日2012年5月4日
发明者刘琚, 吴强, 孙建德申请人:山东大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴强;刘琚;孙建德
技术所有人：山东大学
我是此专利的发明人

上一篇：用于编码模拟信号的方法、通信终端设备、通信系统的制作方法
上一篇：语音信号的发送、接收装置及方法