基于得分差加权融合的多模态身份识别方法

文档序号:6543852阅读:370来源:国知局
专利名称:基于得分差加权融合的多模态身份识别方法
技术领域
本发明涉及分类器融合技术,主要是一种基于得分差加权融合的多模态身份识别方法。
背景技术
在现实生活的应用中,身份的鉴别是一项很复杂的工作,因为它需要达到很高的性能并且要求具有很强的鲁棒性。生物认证技术以人们自身的物理特征作为身份认证依据,从根本上区别于传统的基于“你所拥有的东西”或者“你所知道的东西”的认证技术,真正以人自身作为身份认证的依据,自己真正代表了自己。
在众多的生物认证技术中,基于声音和图像的身份鉴别是当前比较流行的两种方法。声纹识别,即说话人识别,具有不会遗失、无需记忆和使用方便、经济、准确等优势;而人脸识别则具有主动性、非侵犯性和用户友好等许多优点。当这几种方法单独使用时,其各自性能总是会受到一定极值的约束或是表现出不稳定性。所以,采用信息融合来综合各个子模式的优点,是提高身份识别的可靠性是一条有效的途径。
目前几乎所有的多模态识别方法,都是在决策级的融合级别上进行的。根据融合规则,决策层融合一般有两种策略。一种是参数固定的融合方法,如平均法,投票法,加法等等;另一种是需要参数训练的方法,如Dempster-Shafer,知识行为空间和朴素贝叶斯法等等。
固定参数的融合方法在很大程度上会因为分类器的成对效应影响了性能。而训练集的质量和大小使得参数训练的决策级融合方法往往不能达到理论上的融合效果。

发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于得分差加权融合的多模态身份识别方法。通过对单个分类器的识别得分的研究,把识别类与所属类得分差作为权值依据,得到了一种新的加权参数训练方法“基于得分差加权”SDWS(Scores Difference-BasedWeightedSum Rule)来融合声纹分类器和人脸分类器,从而提高说话人识别的性能。
本发明解决其技术问题所采用的技术方案这种基于得分差加权融合的多模态身份识别方法,首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模板中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。
本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的传统单模态分类器为声纹识别分类器和人脸识别分类器。所述的得分为分类器对输入的数据属于某个类别的这一猜想的支持度。所述的得分差为在分离器判别错误情况下,此时输入数据原所属类别与分类器假设的输入数据的类别不一致时,分类器对上述两个类别的支持度的差值。所述的分类器的得分差为单个分类器中所有说话人判别错误情况下的样本属于的说话人模型的得分与最高得分的差值的和。所述的分类器基于得分差的权重为单个分离器得分差的倒数对所有分离器得分差的倒数和的比值。
本发明有益的效果是利用多生物特征(声纹,人脸)进行交叉身份认证,并采用一种修正的基于得分差的加权算法SDWS对两个生物认证模态进行融合,把两种身份认证的结果加以综合。利用两种生物特征信息识别的优点及适用的领域,提高容错性,降低不确定性,克服单个生物特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛安全性和适应性。


图1是本发明的基于得分差加权融合SDWS的多模态身份识别系统框架图;图2是本发明的动态贝叶斯模型的拓扑结构示意图。
具体实施例方式
下面结合附图和实施例对本发明作进一步介绍本发明的方法共分三步。
第一步、声纹识别说话人识别分为语音预处理,特征提取,模型训练,识别四个部分。
1.语音预处理语音预处理分为采样量化,去零漂,预加重和加窗三个部分。
A)、采样量化I.用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;II.设置音频采样率F=2FN;
III.对音频信号Sa(t)按周期进行采样,得到数字音频信号的振幅序列s(n)=sa(nF);]]>IV.用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
B)、去零漂I.计算量化的振幅序列的平均值s;II.将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
C)、预加重I.设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取比1稍小的值;II.s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
D)、加窗I.计算语音帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足NF=0.032]]>TF=0.010]]>这里F是语音采样率,单位为Hz;II.以帧长为N、帧移量为T,把s(n)划分成一系列的语音帧Fm,每一音频帧包含N个语音信号样本;III.计算哈明窗函数 IV.对每一语音帧Fm加哈明窗2.MFCC的提取A)、设置梅尔倒谱系数的阶数p;B)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
C)、计算梅尔域刻度Mi=ip×2595log(1+8000/2.0700.0),(i=0,1,2,...,p)]]>D)、计算对应的频域刻度
fi=700×eMi2595ln10-1,(i=0,1,2,...,p)]]>E)、计算每个梅尔域通道φj上的对数能量谱Ej=Σk=0K2-1φj(k)|X(k)|2]]>其中Σk=0K2-1φj(k)=1.]]>F)、做离散余弦变换DCT3.DBN模型训练动态贝叶斯网络模型(DBN)类似于HMM,是一个生成模型,它仅需要一个人的语音数据就可以对它进行建模,完成识别过程。
训练的目的是为了使在给定的语音数据下,模型的参数能够更好的描述语音在特征空间中的分布情况。这里DBN训练主要侧重于对模型参数的训练,并不针对网络拓扑进行学习。
A)、如果似然度没有收敛,并且迭代次数小于预设次数,转B)步;否则,转E)。
这里收敛的定义是Converged=TRUE,if|PreLogLik-CurLogLik|<θFALSE,otherwize]]>这里的PreLogLik是指前一步迭代的似然度,CurLogLik是指当前迭代的似然度,它们都是通过步骤C)中的前向后向遍历得到的。θ是预设的阀值。预设的最大迭代次数MAXITER可以任意设定。这一步的判断是使得迭代不至于无限制的进行。
B)、每一个节点的相关统计值清空。
在前向后向遍历之前要对统计值进行清空,这里所说的统计值是指对节点的CPD(条件概率分布)进行学习时所需要的数据.
C)、综合观测值,进行前向后向遍历,输出似然度。
对网络进行前向后向遍历,使得观测值对某些节点的更新能使网络中的其他节点也能得到更新,满足局部一致性和全局一致性条件,这一步实现了邻接算法,并对帧内结构用COLLECT-EVIDENCE(收集证据)和DISTRIBUTE-EVIDENCE(发布证据)进行概率扩散。这一步遍历,将输出Log似然度,在A)中将被用到。识别中所用到的概率输出也是通过这个遍历得到的。
D)、根据观测值,计算相关统计值,更新相关节点的概率分布,转A).
根据观测值,计算相关统计值,更新节点的概率分布,这是由EM学习算法决定的。
E)、保存模型。
4.识别用户语音输入后,经特征提取,得到一特征向量序列C。按贝叶斯规则,在给定数据C下,符合模型Mi的似然度为,P(Mi|C)=P(C|Mi)*P(Mi)P(C)]]>因为没有任何先验的知识,所以我们认为对所有的模型,P(Mi)是相同的,即P(Mi)=1/N,i=1,2,...,N,而对所有的说话者来说,P(C)是无条件概率,也是相同的,即P(Mi|C)∝P(C|Mi)我们把求模型的后验概率转化为求模型对数据的先验概率。如此,说话人的识别测试就是计算下面的式子,i*=argmaxiP(C|Mi)]]>第二步人脸识别2维人脸识别系统主要包括图像预处理、特征提取和分类器分类三个部分。
1.图像预处理图像预处理的一般目的是调整原始图像在光照和几何上的差异,得到归一化的新图像。预处理包括图像的对齐和缩放。
2.PCA特征提取通过主元变换,用一个低维子空间(主元子空间)来描述人脸图像,力图在剔除分类干扰分量的同时保留有利于分类的判别信息。
以预处理过后的标准图像作为训练样本集,并以该样本集的协方差矩阵作为主元变换的产生矩阵
Σ=1MΣi=0M-1(xi-μ)(xi-μ)T]]>其中xi为第i个训练样本的图像向量,μ为训练样本集的平均图像向量,M为训练样本的总数。若图像大小为K×L,则矩阵∑有KL×KL维。图像很大时,直接计算产生矩阵的特征值和特征向量将有一定困难。当样本数M小于KL×KL时,可用奇异值分解定理(SVD)转换为M维矩阵的计算。
将特征值从大到小排序λ0≥λ1≥…λr-1,并设它们对应的特征向量为ui。这样,每一幅人脸图像都可以投影到由u0,u1,…,uM-1张成的子空间中。总共得到了M个特征向量,选取最大的前k个特征向量,使得Σi=0kλiΣi=0M-1λi=α]]>其中α称为能量比,为样本集在前k个轴上的能量占整个能量的比值。
3.分类器分类以最近邻分类方法作为分量分类器。距离度量使用的是欧几里德距离公式。
第三步基于得分差加权的分类器融合基于得分差加权的分类器融合算法分为分类器形式化描述,训练和识别三个部分。
1.分类器形式化描述A)、分类器描述设D={D1,D2,...,DL}代表一组分量分类器;B)、类别描述设Ω={ω1,...,ωc)代表一组类别标识,即所有可能的分类结果C)、输入特征向量 D)、输出长度为c的向量Di(x)=[di,1(x),di,2(x),...,di,c(x)]T,其中di,j(x)代表Di对于x属于 这一猜想的支持度.di,j(x)是被归一化到
区间内的分量分类器输出,且Σj=1cdi,j(x)=1]]>
E)、所有分类器的输出可以合成一个DP(Decision Profile)矩阵DP(x)=d1,1(x),d1,2(x),...,d1,c(x)...di,1(x),di,2(x),...,di,c(x)...dL,1(x),dI,2(x),...,dI,c(x)]]>在这个矩阵中,第i行元素代表分量分类器Di的输出Di(x);第j列元素代表每个分量分类器对 的支持度。
2.训练A)、训练样本有N个元素的训练集合X={x1,x2,...,xN}B)、分类器对样本的识别结果S(X)=s1,1(X),...,S1,L(X)...sj,1(X),...,sj,L(X)...sN,1(X),...,sN,L(X)]]>其中sj,i为分类器Di对样本元素xj所标识的类,当且仅当sj,i=Di(xj)=s⇔di,s(xj)=maxo=1,2,..,c{di,o(xj)}]]>这里j=1,...,N是训练集合中元素的数目;i=1,...L是分类器的数目.C是分类的数目,此处为待识别的人数。
C)、样本原始所属类别L(X)=[k1,...,kN]T, D)、第i个分类器的得分差SDi(X)为SDi(X)=Σj=1NSDij(xj)]]>=Σj=1NΣsj,i≠kj|di,kj(xj)-di,sj,i(xj)|]]>SDi(X)为在分离器判别错误情况下,此时输入数据原所属类别与分类器假设的输入数据的类别不一致时sj,i≠kj,分类器对上述两个类别的支持度的差值。其中di,j(x)为DP(x)矩阵中的元素.
E)、分类器基于得分差的权值Wi=SDi(X)-1Σi=1LSDi(X)-1]]>3.判决根据权值,重新计算多模态状态下,每个类别的支持度D(x)=[d1(x),d2(x),...,dc(x)]T=[Σi=1LWi*di,1(x),Σi=1LWi*di,2(x),...Σi=1LWi*di,c(x),]T]]>多个分类器对测试向量x的分类结果为ωs当且仅当s=maxi=1,...cdi(x).]]>实验结果本系统在一个包括54位用户声纹与语音信息的多模态语音数据库上进行了实验。该数据库采集了浙江大学54名学生(37名男同学,17名女同学)的人脸与声纹信息。整个数据库的采集工作在光线充足,低噪的环境中进行。语音部分中,每人被要求讲个人信息3遍;普通话数字串,方言数字串,英语数字串,普通话词语串,看图说话各10句,短文一段。语音文件格式为wav/nist格式,全部规范成8000Hz采样率,16bit数据。实验采用短文和个人信息作为训练,其余50句语音作为测试。人脸图像部分中,每个人各摄制正面以及侧面人脸照共4张,其中正面照两张,侧面照两张。实验采用其中一张正面照作训练,另一张作测试。
我们同时在这个库上用单模态声纹识别,单模态人脸识别以及加法,加权,投票法和基于行为知识空间的方法这几种常见的决策层融合算法进行了同样的实验,用于和本系统(SDWS,基于得分差加权的融合算法)进行对比。其中声纹识别基于人的语音特征,人脸识别基于人的脸部特征。融合算法将这两种特征结合起来,加法和投票法属于参数固定的融合方法;加权和基于行为知识空间的方法属于需要参数训练的融合算法。
单模态声纹说话人识别方法基于本说明的第一步,对语音进行预处理以后,对其提取梅尔倒谱特征,利用动态贝叶斯模型对说话人建模。动态贝叶斯模型的拓扑采用结构如图2所示,其中qij,i=1,2,3,j=1,2,…T表示隐节点变量,每个节点假设有两个离散值,oij,i=1,2,3,j=1,2,…T是观测节点,对应于观测向量,具有离散分布的父节点qij,满足高斯分布。同样的,测试语音在经过预处理和梅尔倒谱特征提取的过程之后,与建好的说话人模型进行匹对,取得分最高的模型所对应的说话人为识别者。
单模态人脸识别基于本说明的第二步,对人脸图像根据眼睛进行手动定位以后,对其提取PCA特征,通过比较PCA特征之间的欧式距离,取距离最近的特征所对应的说话人为识别者。
对于加法,其思想可由以下公式表示μi(x)=F(d1,i(x),...,dL,i(x)),i=1,...,c其中F代表了加法操作(Sum),最终的分类结果是使得μi最大的i对应的ωi。
加权算法是在加法的基础上发展起来的,通过权重来体现各个分类器之间优劣的差别。这里采用每个分类器的等错误率作为其权重。
投票法的基本思想是“少数服从多数”。其中,投票人是所有分量分类器,候选人是所有可能的分类结果。由投票人给它所支持的候选人投票,票数最多的候选人胜出。
基于行为知识空间的方法是在知道分量分类器分类结果的情况下估计后验概率。它需要统计每一类样本落在行为知识空间各单元的个数。使用该方法时,训练集中的样本被划分到不同的单元,这些单元是由所有分量分类器分类结果的不同组合来定义的。当一个未知样本需要进行分类时,所有分量分类器对分类结果的组合都是可以知道的,可以由此找到对应的单元。然后,根据该单元中的样本实际类别,把未知样本归入出现次数最多的类别。
我们在不同于语音内容和语种的语音集下,对单模态身份识别和以上几种融合算法进行了评估。
为了对说话人识别系统的性能进行评估,选用识别率(IR,Identification Rate)来作为实验结果的评估标准。
识别率IR的计算公式是 实验结果如下

实验结果表明,单模态的生物认证方法无法达到较好的识别率,不能满足安全性和鲁棒性的要求。
在两个分类器融合的情况下,加法和加权的方法,往往会因为没有考虑到分类器的得分分布情况,反而使得两个分类器的优势相消。
投票法只考虑了每个分类器输出的类别标号,而没有考虑它们的错误率,这在一定程度上浪费了训练样本的信息。
行为知识空间方法虽然是对多个分类器决策结果之多维分布的直接统计,可以组合分量分类器的决策以获得最好的结果。然而,由于行为知识空间相对训练样本数量来说过于庞大,很容易出现训练不足的情况,这是因为训练集无法庞大到把每个单元填充到足够的密度。
本识别算法能通过对分类器得分的分析,根据在分类器识别错误的情况下,收集到的分类器所判定的模型的得分与样品所属的模型的得分之间的差异,以此作为分类器的权重,通过简单有效的加权方法对分类器在决策层上进行融合,使得两种分类器优势互补,对系统性能上有很大的提高,远远超出了其他的融合方法,比单模态的方法提高了约7.8-13.3%。从而提高了说话人识别的识别性能。
权利要求
1.一种基于得分差加权融和的多模态身份识别方法,其特征在于首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模版中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。
2.根据权利要求1所述的基于得分差加权融和的多模态身份识别方法,其特征在于所述的传统单模态分类器为声纹识别分类器和人脸识别分类器。
3.根据权利要求1所述的基于得分差加权融和的多模态身份识别方法,其特征在于所述的得分为分类器对输入的数据属于某个类别的这一猜想的支持度。
4.根据权利要求1所述的基于得分差加权融和的多模态身份识别方法,其特征在于所述的得分差为在分离器判别错误情况下,此时输入数据原所属类别与分类器假设的输入数据的类别不一致时,分类器对上述两个类别的支持度的差值。
5.根据权利要求1所述的基于得分差加权融和的多模态身份识别方法,其特征在于所述的分类器的得分差为单个分类器中所有说话人判别错误情况下的样本属于的说话人模型的得分与最高得分的差值的和。
6.根据权利要求1所述的基于得分差加权的多模态身份识别方法,其特征在于所述的分类器基于得分差的权重为单个分离器得分差的倒数对所有分离器得分差的倒数和的比值。
7.根据权利要求1或2或3或4或5或6所述的基于得分差加权的多模态身份识别方法,其特征在于基于得分差加权的分类器融合算法分为分类器形式化描述,训练和识别三个部分;1)、分类器形式化描述A)、分类器描述设D={D1,D2,...,DL}代表一组分量分类器;B)、类别描述设Ω={ω1,...,ωc}代表一组类别标识,即所有可能的分类结果;C)、输入特征向量 D)、输出长度为c的向量Di(x)=[di,1(x),di,2(x),...,di,c(x)]T,其中di,j(x)代表Di对于x属于 这一猜想的支持度,di,j(x)是被归一化到
区间内的分量分类器输出,且Σj=1cdi,j(x)=1;]]>E)、所有分类器的输出合成一个DP矩阵DP(x)=d1,1(x),d1,2(x),···,d1,c(x)···di,1(x),di,2(x),···,di,c(x)···dL,1(x),dl,2(x)···,dl,c(x)]]>在这个矩阵中,第i行元素代表分量分类器Di的输出Di(x);第j列元素代表每个分量分类器对 的支持度;2)、训练A)、训练样本有N个元素的训练集合X={x1,x2,...,xN};B)、分类器对样本的识别结果S(X)=s1,1(X),···,s1,L(X)···sj,i(X),···,sj,L(X)···sN,1(X),···,sN,L(X)]]>其中sj,i为分类器Di对样本元素xj所标识的类,当且仅当sj,i=Di(xj)=s⇔di,s(xj)=maxo=1,2,···,c{di,o(xj)}]]>这里j=1,...,N是训练集合中元素的数目i=1,...L是分类器的数目,C是分类的数目,此处为待识别的人数;C)、样本原始所属类别L(X)=[k1,...,kN]T, D)、第i个分类器的得分差SDi(X)为SDi(X)=ΣJ=1NSDij(xj)=Σj=1NΣsj,i≠kj|di,kj(xj)-di,sj,i(xj)|]]>SDi(X)为在分离器判别错误情况下,此时输入数据原所属类别与分类器假设的输入数据的类别不一致时sj,i≠kj,分类器对上述两个类别的支持度的差值。其中di,j(x)为DP(x)矩阵中的元素;E)、分类器基于得分差的权值Wi=SDi(X)-1Σi=1LSDi(X)-1]]>3)、判决根据权值,重新计算多模态状态下,每个类别的支持度D(x)=[d1(x),d2(x),···,dc(x)]T=[Σi=1LWi*di,1(x),Σi=1LWi*di,2(x),···Σi=1LWi*di,c(x),]T]]>多个分类器对测试向量x的分类结果为ωs当且仅当s=maxi=1,···cdi(x).]]>
全文摘要
本发明涉及一种基于得分差加权融合的多模态身份识别方法,首先利用一组说话人样本数据,通过原有的传统单模态分类器每个样本相对模板中每个说话人模型的得分;如果得分最高的那个模型和样本属于不同的说话人,则记录下两者的得分差;然后把单个分类器中所有这些差值都累加起来;最后利用各分类器的得分差来确定各个模态的权重。本发明有益的效果是利用多生物特征进行交叉身份认证,并采用一种修正的基于得分差的加权算法SDWS对两个生物认证模态进行融合,把两种身份认证的结果加以综合。利用两种生物特征信息识别的优点,提高容错性,降低不确定性,克服单个生物特征信息的不完整性,增强识别决策结果的可靠性,使其具有更广泛安全性和适应性。
文档编号G06K9/00GK1758263SQ200510061359
公开日2006年4月12日 申请日期2005年10月31日 优先权日2005年10月31日
发明者吴朝晖, 杨莹春, 李东东 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1