一种与说话内容无关的声纹鉴别认证方法

文档序号：2830182阅读：376来源：国知局

专利名称：一种与说话内容无关的声纹鉴别认证方法
技术领域：
本发明为一种与说话内容无关的声纹鉴别认证方法，属于模式识别和身份认证技术领域。
背景技术：
在已有的技术中，基于通用背景模型(Universal Background Model，以下简称UBM)的一种与说话内容无关的声纹鉴别认证(Voiaprint Identification Certification)方法，包括通用背景模型训练方法，样本声纹模型自适应方法，及检材声纹鉴别认证方法三个部分。通用背景模型UBM训练方法(1)从大量说话人的声纹信号中提取出声纹特征，形成多个说话人的特征矢量序列；(2)使用提取出的特征矢量序列训练出一个大型的、能够表征人类声纹信息的背景空间模型。方法是对所有说话人的声纹特征矢量采用某种聚类方法(如K-均值算法、EM 算法)进行聚类，得到M个高斯分量，其中第m个高斯分布均值向量为μ m，协方差矩阵为 Σ m，第m个高斯分布聚类中涵盖的特征矢量数目占总体特征矢量数目的百分比称为ω m，则通用背景模型可表征为UBM =、μ,, Σ, ,ω""1 \l< m < Μ} ^样本声纹模型自适应方法(1)从样本语音信号中提取出声纹信息特征，形成样本特征矢量序列；(2)将通用背景模型UBM根据样本特征矢量序列，自适应调整成符合样本特性的样本模型，自适应方法可采用现有的自适应方法得到(如MAP自适应方法)，最终形成的样本声纹模型为&￥ = {αΓ"，Σ:Τ， Γ Κ^^Μ}，其与通用背景模型的高斯分量具有
一一对应关系。检材声纹鉴别认证方法(1)从待鉴别认证的检材语音中提取声纹信息特征，形成待鉴别认证的声纹特征矢量序列；(2)将检材的声纹特征矢量序列与样本声纹模型比较，得到一个匹配平均得分，再与背景模型比较，得到另一个匹配平均得分，最终将前者得分减去后者得分即得到最终得分结果，根据得分的高低给出鉴别认证结果。缺点(1)声纹信息特征并不完全符合高斯分布，与高斯模型不够吻合；(2)高斯模型各高斯分量间正交性差，区分性不够强；C3)缺少信道补偿能力，抗噪、抗信道干扰能力有限；(4)结果得分为似然比得分，难于被认证人员理解和掌握。

发明内容
本发明的目的在于提山一种与说话内容无关的声纹鉴别认证方法(1)通过对声纹信息特征的高斯化处理方法，使特征和模型间吻合，并能克服部分噪声干扰；(2)通过使用集内、集外区分性分析方法，使模型各分量间更具区分性；C3)通过信道补偿方法，使信道干扰减轻；(4)使用非线性弯折投影方法，将似然比得分折算成更加符合认证需要的百分比形式。本发明的一种与说话内容无关的声纹鉴别认证方法，包括以下步骤(1)从大量说话人的声纹信号中提取声纹特征信息，形成背景特征矢量序列；(2)将背景特征矢量序列做短时高斯化处理；(3)将处理后的背景特征矢量序列通过异质线性区分性分析方法得到区分性矩阵和最终背景特征矢量序列；(4)将最终背景特征矢量序列聚类成M类高斯混合空间背景模型；(5)从大量不同信道、不同说话人的声纹信号中提取声纹特征信息，形成信道背景特征矢量序列，并将该特征矢量序列做高斯化处理及区分性处理，再通过因子分析技术得到信道信息矩阵；(6)从样本说话人声纹信号中提取其声纹特征信息，形成样本特征矢量序列，并通过短时高斯化处理、区分性矩阵处理得到最终样本特征矢量序列；(7)将样本特征矢量序列通过自适应模型调整方法从高斯混合空间背景模型调整为含有其个性信息的样本说话人模型；(8)从检材说话人声纹信号中提取其声纹特征信息，形成检材特征矢量序列，并通过短时高斯化处理、区分性矩阵处理得到最终检材特征矢量序列；(9)将最终检材特征矢量序列通过信道背景矩阵和样本说话人模型，调整为符合样本信道特征的个人特征矢量序列；(10)计算检材调整后的特征矢量序列与样本说话人模型、背景模型的平均似然比得分的差，作为结果得分；(11)将结果得分通过分数投影方法映射成为概率分数作为最终认证结果返回；上述方法中的⑵、(5)、(6)、(7)、⑶步骤中的特征高斯化处理，该方法包括以下步骤①建立长度为N的高斯表；②对每一维特征取长度为N的特征矢量序列，计算N/2处特征值的排序值，按照排序值查找高斯表中的值作为新特征值；③移动到下一个长度为N的特征矢量序列(每次移动1帧)，重复步骤( ，直到所有特征矢量序列完成高斯化处理；上述方法中的(3)、(5)、(6)、⑶中异质线性区分性分析及其相应特征矢量序列处理方法，该方法包括以下步骤①将背景特征矢量序列聚类成M类，并记录每帧特征所属类别；②通过背景特征矢量序列和分类结果，计算类内矩阵W，和类间矩阵B ；③利用公式
权利要求
1.一种与说话内容无关的声纹鉴别认证方法，其特征在于该方法包括以下步骤(1)从大量说话人的声纹信号中提取声纹特征信息，形成背景特征矢量序列；(2)将背景特征矢量序列做规整处理，如去均值处(CMS)、短时高斯化(ShortTime Gausianization)、特征映身寸(Feature Mapping)等；(3)将规整处理后的背景特征矢量序列通过特征分解技术，如主分量分析(PCA)、核-主分量分析(KPCA)、线性分量分析(LDA)、异质线性分量分析(HLDA)等，得到区分性分析矩阵和降维的最终的背景特征矢量序列；(4)将最终的背景特征矢量序列聚类成M类高斯混合空间背景模型；(5)从大量不同信道、不同说话人的语音信号中提取声纹特征信息，形成信道背景特征矢量序列，并将该特征矢量序列做规整处理及区分性处理，再通过因子分析技术得到信道信息背景矩阵；(6)从样本说话人语音信号中提取其声纹特征信息，形成样本特征矢量序列，并通过规整处理、区分性处理得到最终样本特征矢量序列；(7)将样本特征矢量序列通过自适应模型调整方法从高斯混合空间背景模型调整为含有其个性信息的样本说话人模型；(8)从检材说话人语音信号中提取其声纹特征信息，形成检材特征矢量序列，并通过规整处理、区分性处理得到最终检材特征矢量序列；(9)将最终检材特征矢量序列通过信道背景矩阵和样本说话人模型，调整为符合样本信道特性的特征矢量序列；(10)计算调整后的检材特征矢量序列与样本说话人模型、背景模型的平均似然比得分的差，作为结果得分；(11)将结果得分通过分数投影方法映射成为概率分数作为最终鉴别结果返回；
2.如权力要求1所述方法，其特征在于步骤0)、(5)、(6)、(7)、(8)中的特征规整处理，以短时高斯化为例，该方法包括以下步骤(1)建立长度为N的高斯表；(2)对每一维特征取长度为N的特征矢量序列，计算N/2处特征值的排序值，按照排序值查找高斯表中的值作为新特征值；(3)移动到下一个长度为N的特征矢量序列(每次移动1帧)，重复步骤(2)，直到所有特征矢量序列完成高斯化处理；
3.如权力要求1所述方法，其特征在于步骤(3)中特征分解技术，以异质线性分量分析及其相应特征矢量序列处理方法为例，该方法包括以下步骤(1)将背景特征矢量序列聚类成M类，并记录每帧特征所属类别；(2)通过背景特征矢量序列和分类结果，计算类内矩阵W，和类间矩阵B；(3)利用公式，求解使得类内矩阵差异最小，类间矩阵差异最大θ \u W u\的特征矩阵g ；(4)在求解样本和检材特征后，经过特征规整处理，然后均乘以该矩阵，得到最终特征矢量序列；
4.如权力要求1所述方法，其特征在于步骤(5)、(9)中因子分析技术，该方法包括以下步骤(1)提取出大量不同信道、不同说话人的声纹信息特征，使用模型自适应方法(如MAP) 将每个人在每个信道下的特征通过背景模型调整成个人模型(只需要均值向量)；(2)提取出所有人所有信道下的模型均值，组成超向量矩阵S，计算其特征向量矩阵V；(3)通过自适应模型调整方法从背景模型训练出样本的个人模型；(4)将提取的样本声纹特征，通过特征向量矩阵V，使用ML或MAP准则，训练出符合样本信道信息的信道补偿因子；(5)对提取出的检材声纹特征做信道信息补偿处理；
5.如权力要求1所述方法，其特征在于步骤(11)中分数的非线性投影技术，该方法包括以下步骤(1)通过背景模型训练集外大量语音数据测试，得到两类错误率(错误接受率和错误拒绝率)的统计规律；(2)设计一种非线性弯折函数，依据(1)中得到的统计规律设计函数参数；(3)将得到的似然得分通过弯折函数，得到相似性得分。
全文摘要
本发明属于模式识别和身份认证技术领域，特别涉及通过人类声纹信息进行鉴别与认证的方法。本发明包括人类声纹信息的提取和处理，声纹特征信息的抗噪、抗信道干扰处理，个人声纹信息模型建立，个人声纹信息的检测与认证，声纹信息背景库建立及调整方法，似然得分投影方法。本发明具有鉴别认证准确率高、鉴别认证速度快、对声纹信号要求低等优点，可广泛应用于司法、公安、银行、国防等需要声纹鉴别、认证的部门和单位。
文档编号G10L15/02GK102194455SQ201010126049
公开日2011年9月21日申请日期2010年3月17日优先权日2010年3月17日
发明者不公告发明人申请人:博石金(北京)信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：博石金(北京)信息技术有限公司
我是此专利的发明人

上一篇：一种利用水晶板制成的吉他及其制造工艺的制作方法
上一篇：一种运用人工神经网络进行前端处理的语音检错方法