一种基于音素信息的声纹认证系统及方法与流程

文档序号:12274067阅读:312来源:国知局
一种基于音素信息的声纹认证系统及方法与流程
本发明涉及声纹认证系统
技术领域
,具体来说,涉及一种基于音素信息的声纹认证系统及方法。
背景技术
:生物特征识别是一种根据人体自身所固有的生理特征和行为特征来识别身份的技术,具有不易遗忘、防伪性能好、不易伪造或被盗、随身具备和随时随地可用等优点。随着互联网快速发展,传统身份认证技术手段越来越无法满足用户使用体验和安全能力的需求。简单易用的声纹识别技术,由于其阔的应用前景、巨大的社会效益和经济效益,已引起各行各业的广泛关注和高度重视。声纹识别,又称说话人识别,是生物识别技术的一种。该技术通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份。具有安全性高、数据采集方便等特点。近年来,文本相关(Text-dependent)的说话人识别成为用户认证领域的热点。由于文本无关(Text-independent)说话人识别领域的重大进展,很多研究人员尝试将文本无关说话人识别算法应用到文本相关领域,例如数字串声纹识别。在数字串认证条件下,有研究人员使用联合因子分析(JointFactorAnalysis,JFA)、高斯混合模型-干扰属性映射(GaussianMixtureModel-NuisanceAttributeProjection,GMM-NAP)和隐马尔科夫模型-干扰属性映射(HiddenMarkovModel-NuisanceAttributeProjection,HMM-NAP)进行比较。相比JFA而言,基于NAP的算法表现更好,原因在于训练JFA需要大量的带标记数据,而JFA矩阵的训练数据和数字串测试数据之间存在失配。在文本无关说话人识别中,JFA和基于概率线性判别分析(ProbabilisticLinearDiscriminantAnalysis,PLDA)的总体方差建模因子(iVector)算法均依赖于大量的开发集数据。越来越多的工作致力于处理受限的领域内开发集数据向领域外应用数据的迁移问题,例如词汇差异的自适应和补偿算法。通过安卓系统(Android)和苹果系统(iOS)的手机,录制并构造了包含536人的数字串语音集合。分为两种场景:global条件和rand-n条件。global条件表示注册和验证采用完全相同的数字串内容;rand-n条件表示每个数字串语音是长度为n的随机数字串,这在某些防录音攻击的应用系统中比global条件更为安全。本发明中涉及如表1所示的三种注册/认证条件:固定全部数字密码、动态8位数字密码和动态6位数字密码。每种场景划分开发集和评测集。开发集用于训练全局背景模型(UniversalBackgroundModel,UBM)、总体方差建模矩阵(iVectorTmatrix)和线性区分分析矩阵(LinearDiscriminantAnalysis,LDA)等等。评测集的三种条件中,每人包含三条注册语音和一条测试语音,每条测试语音与所有说话人模型进行比对。表1:密码数字的几种形式示例表2为GMM-NAP和采用iVector的声纹认证系统的等错误率(EqualErrorRate,EER)对比。结果表明,随着数字串长度的增加,声纹认证系统的性能得到了明显地一致地提升。但GMM-NAP和iVector系统均没有考虑音素(Phone/Phoneme)信息的利用,是基于文本无关声纹识别在文本相关场景下的直接应用。数字串声纹应用中,忽略音素信息或者没有音素信息的有效利用,将会限制文本无关识别算法在实际应用中的效果。表2:GMM-NAP和iVector系统在不同测试条件下的等错误率对比固定全部数字密码动态8位数字密码动态6位数字密码GMM-NAP2.09%2.64%3.76%iVector1.87%2.40%3.32%技术实现要素:本发明的目的在于提出一种基于音素信息的声纹认证系统及方法,能够在实现音素信息切分、音素建模和音素相关(Phone-dependent)模型区分能力分析的同时,解决了数字串音素缺失的问题,并提高了数字串声纹认证系统的性能。为实现上述技术目的,本发明的技术方案是这样实现的:一种基于音素信息的声纹认证系统,包括基于汉语普通话语音识别器的音素强制对齐模块、音素相关的模型创建模块和基于dropout策略的神经网络分类器模块;所述基于汉语普通话语音识别器的音素强制对齐模块用于对数字串的十六个音素类别进行切分;所述音素相关的模型创建模块用于建立音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,刻画了说话人的区分特点,而不是词汇之间差异;所述基于dropout策略的神经网络分类器模块用于融合音素相关模型的互补信息。一种基于音素信息的声纹认证方法,包括如下步骤:S01:定义汉语普通话数字串声纹的十六个音素类别,显式利用数字串的各个发音类别信息;S02:基于汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,即语音特征向量到音素的映射关系,得到属于音素的特征向量子集合,每个特征子集合可看作是独立的数据流进行后续处理;S03:采用文本无关算法建立音素相关模型,音素相关的模型建立过程降低了每个音素相关模型的参数量,避免模型过训练;S04:计算音素相关模型,得到分数向量。进一步的,步骤S04中采用神经网络算法中的dropout策略训练后端融合分类器。本发明的有益效果:(1)本发明采用基于典型的汉语普通话语音识别器,采用维特比强制对齐算法获取每个对应数字串文本内容的音素边界,完成对语音内容的音素切分,相比于通常的基于动态时间规整(DynamicTimeWarping,DTW)等算法的切分效果更有优势;(2)本发明对汉语普通话的数字串发音定义了十六个发音类别,避免所属音素类特征向量过少引起的模型过训练问题,建立了音素相关模型,并分析每个音素相关模型对声纹认证的区分能力,音素相关模型刻画了说话人的区分特点,而非词汇之间的差异;(3)为了进一步提高音素相关模型的信息利用效果,并考虑到实际应用中认证语音只包含音素集合的部分内容,可能存在向量维度缺失的问题,采用dropout策略训练神经网络后端分类器,实现音素相关分数向量的融合判决,并明显提升了声纹认证的系统性能。附图说明图1是本发明中基于音素相关的分数向量的后端分类器处理流程图;图2是本发明中针对不同音素相关模型的等错误率的实验结果图。具体实施方式下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。本发明提出将音素信息显式利用与神经网络分类相结合的数字串声纹认证方法,对于每条数字串语音,利用汉语普通话语音识别器的维特比强制对齐算法完成对语音内容的音素切分;降低音素相关模型的训练参数量,避免每个音素模型的训练语音特征较少可能引起的过训练问题,分析每个音素模型对声纹识别的区分能力;对音素相关模型的分数向量可能存在维数缺失的问题,采用神经网络算法中的dropout策略训练后端融合分类器,提高了音素相关信息的利用效果,进一步提升了数字串声纹认证的系统性能。表3给出了十个汉语普通话数字发音的音素表示。注意到,数字“1”有“yi”和“yao”两种发音,因此对应十个汉语普通话数字发音共有十六个音素。表3:十个数字的汉语普通话发音音素“固定全部数字密码”条件中,音素内容固定不变。“动态8位数字密码”和“动态6位数字密码”的音素内容也是已知的,因为数字文本通常基于后台系统的随机算法推送或基于OTP动态口令(One-timePassword)根据专门的算法生成。基于汉语普通话语音识别系统,采用维特比强制对齐算法获取每个对应文本内容的音素边界,完成对语音内容的音素切分,即语音特征向量到音素的映射。因此,给定一段数字串语音的声学特征向量序列χ=x1,...,xT,可切分成离散的子集合χ1,...,χ16。其中x∈χi表示属于第i个音素的特征向量子集合。每个子集合可看作是独立的数据流进行后续处理。声纹注册阶段,十六个音素相关的模型(说话人s的第i个音素子集合)通过文本无关算法训练得到。需要说明的是,注册语音需要覆盖十个数字。本发明中,注册阶段使用三条数字串注册语音,保证每个人的注册语音中每个数字至少出现一遍。声纹认证过程中,针对“固定全部数字密码”条件,获取十六维的分数向量ξ,可通过对分数向量ξ取平均值或者逻辑回归等方法训练后端分类器进行判决。然而对于“动态8位数字密码”和“动态6位数字密码”等rand-n条件,分数向量ξ可能存在缺失,因为测试语音只包含音素集合的部分内容。为了解决该问题,采用神经网络算法中的dropout策略,这是一种有效提升泛化能力的实现方法。神经网络的dropout训练算法是标准的随机梯度下降(StandardStochasticGradientDescent),只是在前向计算过程中以一定概率γ随机忽略某些输入单元和隐层单元。只有激活单元参与反向传播(Back-propagation)和梯度计算。因为dropout并不用于识别,在训练过程中,对每层的输出进行重新调整:其中δ(·),Wl和bl分别是激活函数,第l层的权重和第l层的偏置。bm是二元掩码(Binarymask)表示哪些维被剔除了,*表示向量乘法。上述过程可看成一种有效的模型平均方法,即通过训练大量的共享权重的缺失向量得到的不同网络的平均表示。如图1所示,训练包含一个隐层的神经网络分类器。其中输入是分数向量,输出包含两个单元,分别代表目标认证类别和冒仿认证类别。针对“动态8位数字密码”和“动态6位数字密码”等rand-n条件下的向量维数缺失问题,对输入层以概率γ应用dropout策略进行网络训练。在验证阶段,计算如下的对数似然比作为系统输出:其中p(ξ|目标验证类)和p(ξ|冒仿验证类)是分数向量ξ的似然度。通过贝叶斯公式,似然度可转换为后验表示,p(ξ|目标验证类)=p(目标验证类|ξ)p(ξ)/p(目标验证类)p(ξ|冒仿验证类)=p(冒仿验证类|ξ)p(ξ)/p(冒仿验证类)其中p(目标验证类|ξ)和p(冒仿验证类|ξ)是分数向量ξ通过网络前向计算得到的后验。p(目标验证类)和p(冒仿验证类)是从训练集合估计得到的目标验证类的先验和冒仿验证类的先验。p(ξ)与任何模型无关,可以在计算LLR过程中忽略。首先分析每个音素模型对声纹识别的区分能力。考虑到每个音素模型的训练语音特征较少,为了避免过训练问题,减少了每个音素相关模型的训练参数量。图2给出了每个音素相关模型的等错误率对比。从图2中可以看出,首先,在所有音素相关模型中,iVector都以较小幅度优于GMM-NAP模型。其次,性能最差的辅音“w”的EER数值是性能最好的元音“an”的EER的五倍左右。这个实验结果对实际应用具有指导作用,在线系统可以限制推送性能不好的数字,例如“5[wu]”。通过训练dropout神经网络后端分类器,对音素相关的分数向量进行融合输出。表4给出了音素相关模型使用不同后端分类器的等错误率对比。为了方便比较,这里也给出了对GMM-NAP和iVector系统的音素相关分数取平均值的认证性能。分数平均公式如下:表4:音素相关模型使用不同后端分类器的等错误率对比从表4可以看出,本发明所述的基于音素信息显式利用和神经网络后端融合的算法可以有效的提升数字串声纹认证的系统性能。相比于分数平均的结果,神经网络后端分类器的等错误率更低,性能更优。与表2的GMM-NAP和iVector结果对比,在三种不同注册/认证条件下,音素相关模型和神经网络后端分类器的算法均取得了约20%左右的相对EER下降。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1