一种基于联合因子分析模型的移动设备声纹识别方法

文档序号：2826587阅读：282来源：国知局

一种基于联合因子分析模型的移动设备声纹识别方法
【专利摘要】本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法，包括背景模型库训练、用户声纹模型训练（说话人训练）和声纹确认（说话人确认）三大部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间，利用联合因子分析模型技术，将声纹识别系统移植到移动设备端，使其成为一款可代替密码的身份确认应用产品。本发明对声纹识别在移动端应用的短板不足进行补充和改进，对说话人识别中的易变性干扰，包括信道易变性和会话易变性进行估计和补偿，使用户可以通过较短的语音进行训练和识别，并在不同背景环境下也能取得良好的识别效果。
【专利说明】一种基于联合因子分析模型的移动设备声纹识别方法
【技术领域】
[0001]本发明公开了一种基于联合因子分析模型的移动设备声纹识别方法，涉及声纹识别【技术领域】。
【背景技术】
[0002]随着模式识别技术的发展突破和电子设备运算速度和性能的提高，生物信息识别技术近年来在用户身份确认领域中得到了飞速的发展。相较于传统的密码和PIN码具有容易被窃取和复制的硬伤，生物信息(指纹、声纹等)对于每一个用户来说都具有唯一性，并且极难窃取复制。指纹识别由于其稳定、不易变化、不受外界条件影响等优点，已经被广泛的应用在了打卡器和手持设备等电子产品中。声纹识别技术也被应用在了保险箱解锁、声控门锁和高档轿车发动机启动确认等领域。但在移动设备上，尤其是智能手机端，声纹识别在实用化过程中仍然有许多问题需要解决，主要有以下因素:
[0003]1.考虑到效率和便捷等因素，用户用作训练模型的语音不能多于30s，识别时的语音不能多于10s，这就带来训练数据不足的问题。
[0004]2.手机设备的易变性。由于不同型号智能手机的音频处理芯片和算法的差异，读取的音频质量会有差别。
[0005]3.传输信道的易变性。由于蜂窝通信和VOIP等传输语音的技术对于语音的编解码方式存在差异等。传输信道对语音的质量也有一定程度的畸变和损伤。
[0006]4.背景环境的易变性。由于移动设备采集语音的地点无法固定。密闭环境、车厢、机场、户外等，语音不可避免地会携带背景环境的信息，对声纹模型(说话人模型)会有不同程度的影响。
[0007]5.声纹的差异。同一用户，说话时的语气、感情、说话的内容和语种的不同也会对说话人模型带来影响。
[0008]以上这些因素统称为说话人识别中的易变性(variability)干扰，其中，2、3、4统称为信道易变性(channel variability), 5 称为会话易变性(session variability)。
[0009]为了降低和消除以上这些干扰对声纹识别系统性能的影响，Patrick Kenny等研究者提出了一种在传统的GMM-UBM (高斯混合模型-通用背景噪声模型)声纹识别系统基础上的改进模型算法，称为联合因子分析(Joint Factor Analysis, JFA),如图1所示。该方法在NIST2008说话人识别评比中取得了最优的成绩，并且能够有效处理易变性对声纹模型带来的干扰。
[0010]JFA模型是一种两层模型，基于经典的GMM-UBM框架。传统的GMM-UBM模型已经验证，不同声纹模型的差异只在于每个高斯的均值向量，而每个高斯模型的权重和方差都可以直接来源于UBM的取值。传统的UBM-GMM模型抛弃了训练语音中大量的信道信息和会话信息。而JFA模型构建了三个子空间:说话人空间、信道空间和残差空间，最终的高斯均值向量表征为:
[0011]
【权利要求】
1.一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于:包括背景模型库训练、用户声纹模型训练和声纹确认三部分，并采用联合因子分析模型构建说话人空间、信道空间和残差空间三个子空间；所述联合因子分析模型的高斯均值向量表征为:
Mki — mk+Ukxi+VkY s (i) +Dkzks (i) 其中，k代表第k个高斯模型，i代表某一个语音段，s(i)表不说话人s的某一语音段，mk表示独立于说话人和会话内容的均值向量，Uk特征信道矩阵，Vk表示特征说话人矩阵，Dk表示残差空间矩阵；Xi表示信道因子向量，ys(i)表示依赖于说话人的声纹因子向量，zksW表示依赖于说话人和单个高斯模型的残差因子向量；所述背景模型库训练、用户声纹模型训练和声纹确认，具体如下: 一、背景模型库训练包括以下步骤: (1)采集移动设备端的语料作为训练数据； (2)对采集的语料进行平衡性分析，保持语音的长度相似，保证信道易变性和会话易变性的平衡； (3)对步骤(2)处理后的语料进行前端预处理，包括: (301)将语音信号分段加窗后经过计算得出梅尔幅倒谱系数的特征参数流； (302)以特征参数流数据训练通用背景模型(UBM)； (303)将每一个语料利用最大后验准则将其自适应到说话人模型上，再用构建特征音空间的方法对表征特定说话人模型的参数进行降维处理； (304)通过稀疏数据的EM算法最大化所有训练数据中的整体似然度，针对所有说话人的语音段求统计量，构建特征说话人矩阵Vk ； (4)构建特征信道矩阵Uk，针对语料中某个固定说话人的语音段求统计量，特征信道矩阵的维度固定为移动设备端型号类型的数量； (5)构建残差空间矩阵Dk，完善移动设备端的声纹识别背景模型库建；二、用户声纹模型训练包括: 用户由移动设备端向服务器端上传一段训练语音，移动设备端对训练语音进行预处理:服务器端对训练语音所对应的声纹模型进行训练和识别，服务器端接收到训练语音后，通过最大似然的办法训练模型，对信道因子向量X1、依赖于说话人的声纹因子向量ys(i)、依赖于说话人和单个高斯模型的残差因子向量zks(i)进行最大后验概率估计，其中，ys(i)用以表征该移动设备端所对应的用户的特征向量，Xi和zks(i)用以补偿信道易变性和会话易变性的干扰；服务器端为移动设备端所对应的用户建立用户声纹模型，并将用户声纹模型返回到用户的移动设备端，用户再上传一段测试语音至服务器端作为测试，并在服务器端进行T-Norm和Z-Norm分数规整，用以放大用户和其他人的分数区别，以此来设定门限值；三、声纹确认包括: 用户输入自己的一段解锁语音至移动设备，移动设备端进行前端预处理之后将用户解锁语音信息发到服务器端，服务器端采用通用背景模型作为说话人的特征向量，使用用户的解锁语音对残差因子向量zks(i)和信道因子向量Xi进行估计，将估计后的参数与该移动设备对应的注册用户的特征向量ys(i)进行结合，计算解锁语音对应的分数；如果分数高于步骤二得到的门限值则确认用身份，解锁移动设备的使用权限，如果分数低于步骤二得到的门限值则拒绝解锁移动设备。
2.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于:所述移动设备端为手机或平板电脑。
3.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于:在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的训练语音长度大于30秒。
4.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于:在进行用户声纹模型训练时，用户由移动设备端向服务器端上传的测试语音长度为10秒。
5.如权利要求1所述的一种基于联合因子分析模型的移动设备声纹识别方法，其特征在于:在进行用户声纹确认时，用户输入的解锁语音长度为5秒至10秒。
【文档编号】G10L15/30GK103730114SQ201310751242
【公开日】2014年4月16日申请日期:2013年12月31日优先权日:2013年12月31日
【发明者】李为, 朱杰, 姚国勤, 钱传根, 杭乐申请人:上海交通大学无锡研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李为;朱杰;姚国勤;钱传根;杭乐
技术所有人：上海交通大学无锡研究院
我是此专利的发明人

上一篇：监控环境声音的方法及系统的制作方法
上一篇：一种基于似然比测试的噪声鲁棒性端点检测方法