说话人认证的验证方法和装置以及说话人认证系统的制作方法

文档序号：2837541阅读：241来源：国知局

专利名称：说话人认证的验证方法和装置以及说话人认证系统的制作方法
技术领域：
本发明涉及信息处理技术，具体地涉及说话人认证(speaker authentification )的技术。
背景技术：
利用每个人说话时的发音特点可以识别出不同的说话人，从而可以进行说话人的认证。在K. Yu， J. Mason， J. Oglesby发表的文章"Speaker recognition using hidden Markov models, dynamic time warping and vector quantisation" ( Vision, Image and Signal Processing, IEE Proceedings, Vol. 142， Oct. 1995， pp. 313-318 )中介绍了常见的三种说话人识别引擎技术HMM( Hidden Markov Model,隐马尔可夫模型)，DTW
(Dynamic Time Warping,动态时间弯折)和VQ ( Vector Quantization ，矢量量化)(以下称为参考文献l)，在此通过参考引入其整个内容。
通常，一个说话人认证系统包括注册(enrollment)和验证
(verification)两个部分。在注册阶段，根据说话人(用户)本人说出的包含密码的语音，生成该说话人的说话人模板；在验证阶段，根据说话人
模板判断测试语音是否为该说话人本人说出的相同密码的语音。具体地，在验证过程中通常应用DTW算法对测试语音的声学特征向量序列与说话人模板进行DTW匹配，从而得到匹配得分，并将匹配得分与在测试阶段得到的分辨阔值进行比较，来判断测试语音是否为该说话人本人说出的相同密码的语音。在DTW算法中，计算测试语音的声学特征向量序列和说话人模板的全局匹配得分的方法通常是直接沿着最优的匹配路径将所有节点距离相加求和。基于DTW的说话人验证的具体细节参见S. Furui的文章"Cepstral analysis technique for automatic speaker verification", Acoustics, Speech, and Signal Processing, (1981), Vol. 29, No. 2, pp. 254-271，在此通过参考引入其整个内容。
通常，在说话人说出的密码的语音中，某些帧对于该说话人来说可能比其它帧更具有分辨力，因此与这些帧相关的帧级距离将会在验证该说话人时更为重要。可以通过在计算上述全局匹配得分时强调这些帧^J巨离来改善系统的性育巨。
目前，较常见的为帧加权的方法是使用大量用户本人语音和冒充者语音对说话人模板的测试来判断每帧的分辨力，具体细节参见X. Wen和R. Liu 的文章"Enhancing the stability of speaker verification with compressed templates", 2002， ISCSLP2002, pp. 111-114,在此通过参考引入其这个内容。本发明的发明人也曾经在中国专利申请No. 200510114卯1.4中提出了基于音素(或子词单元)识别的为帧加权的方法。即，输入语音首先被音素识别器(或分类器)解析成音素文本，然后根据关于各音素或各类音素的说话人分辨力的先验知识为输入语音的每帧设置权重。基于音素为帧加权的方法的具体细节参见中国专利申请No. 200510114901.4，在此通过参考引入其这个内容。
在前一方法中，需要大量的开发数据(development data)(用户本人及用户以外的其他人朗读该密码的大量语音数据)用于测试说话人模板。因此，注册要花费很多时间，而且没有开发商的参与用户不可能独立地自由更改密码。这样，用户在使用这样的系统时非常不方便。在后一方法中，，所述音素识别器在前端中是必需的。因此，该方法适用于基于HMM的系统，因为HMM自身就可以是音素的有效模型。然而，对于基于DTW的系统来说，所述音素识别器必然将引起额外的存储需求和计算量。
因此，需要一种为密码语音中的每帧自动地评价其说话人分辨力而无需额外的开发数据的方法。

发明内容
10为了解决上述现有技术中存在的问题，本发明提供了说话人认证的验
证方法，说话人iU正的验证装置以及说话人认证系统。
根据本发明的一个方面，提供了一种说话人认证的验证方法，包括输入说话人说出的包含密码的测试语音；从上述输入的测试语音提取声学特征向量序列；获得上述提取出的声学特征向量序列与注册说话人所注册的说话人才莫板的匹配路径；考虑上述测试语音的频语变化和/或上述说话人模板的频镨变化，计算上述获得的匹配路径的匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面，提供了一种说话人认证的验证方法，包括输入说话人说出的包含密码的测试语音；从上述输入的测试语音提取声学特征向量序列；考虑上述测试语音的频语变化和/或注册说话人所注册的说话人模板的频谦变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径；计算上述获得的匹配路径的匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括测试i吾音输入单元(test utterance inputting unit)，用于输入i兌话人i兌出的包含密码的测试语音；声学特征向量序列提取单元(acoustic feature vector sequence extractor)，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元(matching path obtaining unit)，用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径；匹配得分计算单元(matching score calculator)，用于考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算上述获得的匹配路径的匹配得分；以及比较单元(comparing unit)，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括:
ii测试语音输入单元，用于输入说话人说出的包含密码的测试语音；声学特征向量序列提取单元，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元，用于考虑上述测试语音的频镨变化和/或注册说话人所注册的说话人模板的频镨变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径；匹配得分计算单元，用于计算上述获得的匹配路径的匹配得分；以及比较单元，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
根据本发明的另一个方面，提供了一种说话人认证系统，包括注册装置，用于注册说话人模才反；以及前面所述的说话人认证的验证装置，用于根据注册装置注册的说话人模板，对测试语音进行验证。

相信通过以下结合附图对本发明具体实施方式
的说明，能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的第一实施例的说话人认证的验证方法的流程图；图2是根据本发明的第二实施例的说话人认证的验证方法的流程图；图3示出了测试语音和说话人模板的DTW匹配实例；
图4是根据本发明的第三实施例的说话人认证的验证装置的方框图；图5是根据本发明的第四实施例的说话人认证的验证装置的方框以及
图6是根据本发明的第五实施例的说话人认证系统的方框图。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
i兌话人i人证的IH^方法
<第一实施例>
图1是根据本发明的第一实施例的说话人认证的验证方法的流程图。
12下面就结合该图，对本实施例进行描述。
如图l所示，首先在步骤ioi，由进行IHi的用户输入包含密码的测试语音。其中，密码是用户在注册阶段设定的用于验证的特定短语或发音序列。
接着，在步骤102，从步骤IOI中输入的测试语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制，可以采用例如， MFCC ( Mel-scale Frequency Cepstral Coefficients,梅尔倒频i普系数)、 LPCC (Linear Prediction Cepstrum Coefficient,线性预测倒i昝系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等，只要是能够表现说话人的个人语音特点即可；但是，应当与在注册阶段用于表示声学特征的方式相对应。
接着，在步骤103，对步骤102中提取出的声学特征向量序列与注册说话人所注册的说话人模板进行匹配，获得最优匹配路径。具体地，对于 HMM模型，可以利用概率进行匹配，具体细节参见上述参考文献1。对于DTW模型，可以采用DTW算法进行匹配，下面参考图3详细描述DTW 算法。
图3示出了测试语音和说话人模板的DTW匹配实例。如图3所示，横轴为说话人才莫々反的帧节点，纵轴为测试语音的帧节点。在进行DTW匹配时，计算说话人模板的一个帧节点与对应的测试语音的帧节点和其相邻的帧节点之间的节点距离，选择节点距离最小的测试语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤，找出与说话人模板的每个帧节点相对应的输入语音的帧节点，从而获得最优匹配路径，其中最优匹配路径是在输入语音的声学特征向量序列和说话人模板之间具有最小距离的匹配路径，而匹配路径是沿图3所示的网格从点(1, l)到点(I, J)的路径，其中I是输入语音的帧节点数，J是说话人模板的帧节点数。应该理解，本实施例的方法可以采用除上述HMM模型和DTW模型之外的任何公知的模型，只要能够获得步骤102中提取出的声学特征向量序列与说话人才莫板的最优匹配路径即可。本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板，其中至少包含与密码语音对应的声学特征和分辨阈值。在此，对说话人认证的注册过程进行简要描述。首先，输入说话人说出的包含密码的语音。接着，从输入的密码语音提取声学特征。然后，生成说话人模板。为了提高说话人模板的质量，可以采用多个训练语音来构建一个说话人模
板。首先选定一个训练语音作为初始模板，然后用DTW的方法将第二个训练语音与之时间对齐，并用两段语音中相对应的特征向量的平均来生成一个新的才莫板，然后再将第三个训练语音与新才莫板时间对齐，如此循环直到所有的训练语音都结合到一个独立的模板中，即所谓的模板合并。详细内容可以参考W. H. Abdulla、 D. Chow和G. Sin发表的文章"Cross-words reference template for DTW画based speech recognition systems" (IEEE TENCON 2003 ， pp.1576-1579 )。
此外，在说话人认证的注册过程中，说话人模板中包含的分辨阈值可以如下确定。首先，通过采集大量说话人和他人对同一密码发音的语音数据，分别与训练出的说话人模板进行DTW匹配，得到说话人和他人的匹配得分分布。然后，至少可以通过以下三种方法来估计该说话人模板的分辨阈值
将两条分布曲线的交叉点，即，错误接受率(FAR， False Accept Rate)
和错误拒绝率(FRR， False Reject Rate)的和最小处的值作为阈值；将等误识率(EER, Equal Error Rate )对应的值作为阈值；或者将错误接受率在某个值(如0.1%)时对应的值作为阈值。返回到图1，接着，在步骤104，考虑上述测试语音的频谱变化和/或
上述说话人模板的频i普变化，计算步骤103中获得的匹配路径的匹配得分。在步骤104,首先，根据上述测试语音的频谱变化和/或注册说话人所
注册的说话人模板的频谱变化，计算在上述匹配路径上每帧的权重。
具体地，在本实施例中，给频谱变化速度较快的帧赋予较大的权重，
而给频谱变化速度较慢的帧赋予较小的权重，也就是说，在本实施例中，
旨在强调那些处于快速频镨变化期间的帧。下面将通过实例1-3详细描述本实施例的步骤104中利用频镨变化计算匹配路径上每帧的权重的方法。<实例1>
在实例l中，基于目标帧与它在时间序列上的相邻帧之间的特征距离度量匹配路径上每帧的权重。
首先，分别为说话人模板X和测试语音Y的各帧度量频镨变化。具体地，利用公式(1)计算说话人模板X的频语变化dx(i):
《(0 = W^(X, ^一i) + t^(:x:, ， )) / 2 ( 1 )
其中i是说话人模板X的帧的指数，x是说话人模板X中的特征向量，dist是指两个向量之间的特征距离，例如，欧几里德距离。
应该理解，这里虽然采用公式(1)利用目标帧与它在时间序列上的相邻帧之间的特征距离dist(Xi， xw)和dist(Xi， xw)的算术平均值来度量说话人才莫板X的频镨变化，但是本发明并不限与此，也可以利用特征距离dist(Xi，
和dist(Xi， xi+1)的几4可平均值Vdist(x,,xM)xdist(x,,x,+1)、调和平均值1/(1/dist(Xi， xw)+l/dist(Xi， xw))等等来度量，只要能够充分体现说话人模板X的频镨变化即可。
此外，应该理解，这里虽然只利用目标帧与它在时间序列上最相邻的两个帧的特征距离来度量目标帧的频谱变化，但是本发明并不限与此，也可以利用相邻的更多个特征距离来度量目标帧的频谱变化。
同样，可以利用计算说话人模板X的频谱变化dx(i)的方法，根据在步骤102中提取出的声学特征向量序列，计算测试语音Y的频镨变化dy(j),其中j是测试语音Y的声学特征向量序列的帧的指数。
然后，利用计算出的话人模板X的频谱变化dx(i)和测试语音Y的频谱变化dy(j)的单调递增函数计算匹配路径上每帧的权重，例如可以利用如下公式(2)至公式(4)计算匹配路径上每帧的权重w(k):
w(""(" + c (2)
w(" = ,。+c (3)
w(" = log,) + c) (4)
15其中，k是匹配路径的帧对的指数，其与说话人模板X的帧i和测试
语音Y的帧j--对应，a和c是常数，d(k)可以是d"i)、 dy①或者它们的
《壬何组合，例如，(d力')+ d力》/2， W)xd力)，min(d力'),d力.》，max(d,(/),d力.》等等。
<实例2>
在实例2中，基于使用码本的分段处理度量匹配路径上每帧的权重。在本实施例中使用的码本是在整个应用的声学空间中训练出的码本，例如，对于中文语言应用环境来说，该码本需要能够涵盖中文语音的声学
空间；对于英文语言应用环境来说，该码本则需要能够涵盖英文语音的声学空间。当然，对于一些特殊用途的应用环境，也可以相应的改变码本所涵盖的声学空间。
本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下，码字的数量
越小，压缩比例越高；码字的数量越大，压缩的模板质量越高。根据本发
明的一个优选实施例，在普通中文语音的声学空间下，码字的数量优选为256至512。当然，根据不同需要，可以适当调节码本的码字数量和涵盖的
声学空间。
在实例2中，首先用码本中最接近的码字为测试语音的声学特征向量序列的每帧做标记，然后根据这些标记对测试语音进行分段，使得一段中的所有帧都有相同的标记。因为一段中的帧都互相相似，因此可以将每段的长度认为是一种频谱变化的度量，较长的段说明该处语音变化速度慢。同样，可以使用码本为说话人模板的每帧进行标记，并进行分段，从而利用每段的长度度量说话人冲莫板的频谱变化。
在实例2中，可以利用实例1中的公式(2)至公式(4)来计算匹配路径上每帧的权重，只是其中dx(i)和dy(j)是目标帧所在段的长度，因而是一个离散值。在这种情况下，可以使用分段函数作为将频谱变化转换成在匹配路径上每帧的4又重的函数。
16在本实施例中，可以使用任何类型的分段函数，例如d(k)^ 10时，w(k)-l; d(k)为其它时，w(k)=0.5,其中k是匹配路径的帧对的指数，其与说话人模板X的帧i和测试语音Y的帧j——对应，d(k)可以是dx(i)、
dy(j)或者它们的任何组合，例如，(d力')+ d力〕)/2， ^/d,(/)xd力.)，min(d力),d力'》，max(d力),d,(力)等等，本发明对此没有任何限制。<实例3>
在实例3中，基于目标帧与它在匹配路径上的相邻节点的帧之间的特征距离度量匹配路径上每帧的权重。
具体地，利用公式(5)计算说话人模板X的频谱变化d"i):
《(i)="無(k)) = —(、(k),、M) +酬、("，、阔))/2( 5 )
其中i是说话人模板的帧的指数，k是沿着匹配路径cp的帧对的指数，cp"k)是说话人模;f反X的与匹配路径q>的第k个帧对相对应的帧的指数，即与i相对应，x是说话人模板X中的特征向量，dist是指两个向量之间的特征距离，例如，欧几里德距离。
应该理解，这里虽然采用公式(5)利用目标帧与它在匹配路径上的相邻节点的帧之间的特征距离的算术平均值来度量说话人模板X的频谱变化，但是本发明并不限与此，也可以利用特征距离的几何平均值、调和平均值等等来度量，只要能够充分体现说话人模板X的频谱变化即可。
此外，应该理解，这里虽然只利用目标帧与它在匹配路径上的两个最相邻节点的帧的特征距离来度量目标帧的频谱变化，但是本发明并不限与此，也可以利用更多个相邻节点的帧的特征距离来度量目标帧的频谱变化。
同样，可以利用采用公式(5)计算说话人模板X的频谱变化d"i)的方法，根据在步骤102中提取出的声学特征向量序列，计算测试语音Y的频谱变化dy(j)，其中j是测试语音Y的声学特征向量序列的帧的指数。
然后，利用计算出的话人4莫板X的频^普变化dx(i)和测试语音Y的频谱变化dy(j)的单调递增函数计算匹配路径上每帧的权重，例如可以利用上述公式(2)至公式(4)计算权重w(k)，在此不再赘述。
以上虽然通过实例1-3描述的方法利用频谱变化计算匹配路径上每帧
17的权重，但是本发明并不限于实例1-3描述的方法，可以采用任何利用频谱变化度量匹配路径上每帧的权重的方法，只要能够将频语变化的快慢转换为权重的大小即可，本发明对此没有任何限制。
应该理解，在上述实例1-3描述的方法中，在计算匹配路径上每帧的权重时，可以只考虑话人模板X的频谱变化dx(i)，或只考虑测试语音Y的频谱变化d y(j)，或结合考虑话人模板X的频谗变化dx(i)和测试语音Y的
频谱变化dy(j)，本发明对此没有任何限制。
此外，应该理解，利用频谱变化度量权重的方法不限于上述公式(2)至公式(4)，可以利用频谱变化的任何单调递增函数来度量权重，只要能够给频镨变化较快的帧赋予较大的权重，而给频傳变化较慢的帧赋予较小的4又重即可。
返回到图1中的步骤104，在根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频傳变化，计算出上述匹配路径上每帧的权重之后，使用计算出的匹配路径上每帧的权重，计算匹配路径的匹配得分。具体地，例如，可以将匹配路径上每帧的节点距离乘以该帧的权重，然后相加，并将相加得到的总和作为该匹配路径的匹配得分。
最后，在步骤105,判断上述步骤104中计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是，则在步骤106认定上述测试语音是同一说话人说出的密码，验证成功；如果否，则在步骤107认定验证失败。
通过以上描述可知，本实施例的说话人认证的验证方法是一种基于频谦变化速度为帧加权的有效方法，该方法计算量低，尤其适用于大多数使用频谱特征的系统。因此，将本实施例的验证方法应用在与文本相关的说话人验证系统中，可以显著提高系统的性能。
此外，本实施例的基于频谱变化速度为帧加权的方法和其它现有的加权方法，例如基于音素的方法没有冲突，因此，将它们结合使用可以进一步提高性能。
<第二实施例>在同一发明构思下，图2是根据本发明的第二实施例的说话人认证的验证方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
如图2所示，在第二实施例中，步骤201和步骤202分别与第一实施例中的步骤101和步骤102相同，在此省略其说明。在步骤201中输入包含密码的测试语音并在步骤202中从步骤201中输入的测试语音提取出声学特征向量序列之后，接着，在步骤203，考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化，对步骤202中提取出的声学特征向量序列与说话人模板进行匹配，获得最优匹配路径。
在步骤203，首先，根据上述测试语音的频谱变化和/或说话人模板的频语变化，计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重。本实施例的说话人模板与第一实施例中的类似，在此省略其说明。
具体地，在本实施例中，给频谱变化速度较快的帧赋予较大的权重，而给频谱变化速度较慢的帧赋予较小的权重，也就是说，在本实施例中，旨在强调那些处于快速频谱变化期间的帧。
下面将通过实例4-5详细描述本实施例的步骤203中利用频谱变化计算帧对的权重的方法。
<实例4>
在实例4中，基于目标帧与它在时间序列上的相邻帧之间的特征距离度量帧对的权重。
首先，分别利用上述公式(1)计算说话人模板X的频谱变化d"i)和测试语音Y的频谱变化dy(j)，具体细节与上述实例1相同，在此不再赘述。
然后，利用计算出的话人才莫板X的频谱变化dx(i)和测试语音Y的频语变化dy(j)的单调递增函数计算帧对的权重，例如可以利用如下公式(6 )至公式(8)计算帧对的权重w(g):
w(g) = + c ( 6)
w(g)"(g)。+c (7)H<g) ) + C) (8)
其中，g是与说话人模板X的帧i和测试语音Y的帧j——对应的帧对的指数，a和c是常数，d(g)可以是dx(i)、 dy(j)或者它们的任何组合，例
如，(d力〕+ d力.))/2， ^d"/)xd力)，min(d,(/),d力.》，max(d力'),d力'))等等。<实例5>
在实例5中，基于使用码本的分段处理度量帧对的权重。在本实施例中使用的码本是在整个应用的声学空间中训练出的码本，例如，对于中文语言应用环境来说，该码本需要能够涵盖中文语音的声学
空间；对于英文语言应用环境来说，该码本则需要能够涵盖英文语音的声
学空间。当然，对于一些特殊用途的应用环境，也可以相应的改变码本所涵盖的声学空间。
本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下，码字的数量
越小，压缩比例越高；码字的数量越大，压缩的模板质量越高。根据本发明的一个优选实施例，在普通中文语音的声学空间下，码字的数量优选为256至512。当然，根据不同需要，可以适当调节码本的码字数量和涵盖的声学空间。
在实例5中，首先用码本中最接近的码字为测试语音的声学特征向量序列的每帧做标记，然后根据这些标记对测试语音进行分段，使得一段中的所有帧都有相同的标记。因为一段中的帧都互相相似，因此可以将每段的长度认为是一种频谱变化的度量，较长的段说明该处语音变化速度慢。同样，可以使用码本为说话人模板的每帧进行标记，并进行分段，从而利用每段的长度度量说话人模板的频谱变化。
在实例5中，可以利用实例4中的公式(6)至公式(8)来计算帧对的权重，只是其中dx(i)和dy(j)是目标帧所在段的长度，因而是一个离散值。在这种情况下，可以使用分段函数作为将频谱变化转换成帧对的每帧的权重的函数。
20在本实施例中，可以使用任何类型的分段函数，例如d(g)S10时， w(g)=l; d(g)为其它时，w(g)=0.5,其中g是与说话人模板X的帧i和测试语音Y的帧j 一一对应的帧对的指数，d(g)可以是dx(i)、 dy(j)或者它们的 <壬何组合，例如，(d力')+ d力'))/2， ^/d力')xd少C/) ， min(d力'),d少(力)，max(d,①,^C/)) 等等，本发明对此没有任何限制。
以上虽然通过实例4-5描述的方法利用频镨变化计算帧对的权重，但是本发明并不限于实例4-5描述的方法，可以采用任何利用频谱变化度量帧对的权重的方法，只要能够将频镨变化的快慢转换为权重的大小即可，本发明对此没有任何限制。
应该理解，在上述实例4-5描述的方法中，在计算帧对的权重时，可以只考虑话人模板X的频镨变化dx(i)，或只考虑测试语音Y的频谱变化d y(j)，或结合考虑话人模板X的频镨变化dx(i)和测试语音Y的频镨变化d y(j)，本发明对此没有任何限制。
此外，应该理解，利用频镨变化度量权重的方法不限于上述公式(6) 至公式(8)，可以利用频谱变化的任何单调递增函数来度量权重，只要能够给频镨变化较快的帧赋予较大的权重，而给频谱变化较慢的帧赋予较小的斥又重即可。
返回到图2中的步骤203，在根据上述测试语音的频语变化和/或说话人模板的频谱变化，计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重之后，使用计算出的帧对的权重，对步骤加2 中提取出的声学特征向量序列与说话人模板进行匹配，获得最优匹配路径。
具体地，对于HMM模型，可以利用概率进行匹配，具体细节参见上述参考文献l。对于DTW模型，可以采用DTW算法进行匹配，具体参见上述笫一实施例中参考图3进行的详细描述，在此省略其说明。
接着，在步骤204，计算在步骤203中获得的匹配路径的匹配得分。具体地，例如，可以将匹配路径上每帧的节点距离相加，并将相加得到的总和作为该匹配路径的匹配得分。
最后，在步骤205，判断上述步骤204中计算出的匹配得分是否小于上述说话人模板中设定的分辨阔值。如果是，则在步骤206认定上述测试语音是同一说话人说出的密码，验证成功；如果否，则在步骤207认定验证失败。
通过以上描述可知，本实施例的说话人认证的验证方法是一种基于频谱变化速度为帧加权的有效方法，该方法计算量低，尤其适用于大多数使用频谱特征的系统。因此，将本实施例的验证方法应用在与文本相关的说话人验证系统中，可以显著提高系统的性能。
此外，本实施例的基于频语变化速度为帧加权的方法和其它现有的加权方法，例如基于音素的方法没有沖突，因此，将它们结合使用可以进一步提高性能。
此外，与第一实施例的验证方法相比，本实施例的验证方法在搜索最优匹配路径时考虑了测试语音的频i普变化和说话人才莫板的频i普变化，可以更加准确地搜索到最优匹配路径，从而能够进一步提高系统的性能。
说话人认证的验证装置
<笫三实施例>
在同一发明构思下，图4是根据本发明的第三实施例的说话人认证的验证装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
如图4所示，本实施例的说话人认证的验证装置400包括测试语音输入单元401，用于输入说话人说出的包含密码的测试语音；声学特征向量序列提取单元402，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元403，用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径；匹配得分计算单元404，用于考虑上述测试语音的频镨变化和/或上述说话人模板的频镨变化，计算上述获得的匹配路径的匹配得分；以及比较单元405，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
在本实施例中，由进行验证的用户利用测试语音输入单元401输入包含密码的测试语音。其中，密码是用户在注册阶段设定的用于验证的特定短语或发音序列。
在本实施例中，声学特征向量序列提取单元402从测试语音输入单元 401输入的测试语音提取声学特征向量序列。本发明对于表示声学特征的方式并没有特别的限制，可以釆用例如，MFCC (Mel-scale Frequency Cepstral Coefficients,梅尔倒频i瞽系数)、LPCC (Linear Prediction C印strum Coefficient,线性预测倒语系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等，只要是能够表现说话人的个人语音特点即可；但是，应当与在注册阶段用于表示声学特征的方式相对应。
在本实施例中，匹配路径获得单元403对声学特征向量序列提取单元 402提取出的声学特征向量序列与注册说话人所注册的说话人模板进行匹配，获得最优匹配路径。具体地，对于HMM模型，可以利用概率进行匹配，具体细节参见上述参考文献l。对于DTW模型，可以采用DTW算法进行匹配，下面参考图3详细描述DTW算法。
图3示出了测试语音和i兌话人才莫板的DTW匹配实例。如图3所示，横轴为说话人模板的帧节点，纵轴为测试语音的帧节点。在进行DTW匹配时，计算说话人才莫板的一个帧节点与对应的测试语音的帧节点和其相邻的帧节点之间的节点距离，选择节点距离最小的测试语音的帧节点作为与说话人模板的所述帧节点相对应的帧节点。重复上述步骤，找出与说话人模板的每个帧节点相对应的输入语音的帧节点，从而获得最优匹配路径。应该理解，本实施例的方法并不限于HMM模型和DTW模型，只要能够获得声学特征向量序列提取单元402提取出的声学特征向量序列与说话人模板的最优匹配路径即可。
本实施例中的说话人模板是利用说话人认证的注册方法生成的说话人模板，其中至少包含与密码语音对应的声学特征和分辨阈值。在此，对说话人认证的注册过程进行简要描述。首先，输入说话人说出的包含密码的语音。接着，从输入的密码语音提取声学特征。然后，生成说话人模板。为了提高说话人才莫板的质量，可以采用多个训练语音来构建一个说话人才莫
23板。首先选定一个训练语音作为初始冲莫板，然后用DTW的方法将第二个训练语音与之时间对齐，并用两段语音中相对应的特征向量的平均来生成一个新的才莫^1,然后再将第三个训练语音与新才莫板时间对齐，如此循环直到所有的训练语音都结合到一个独立的模板中，即所谓的模板合并。详细内容可以参考W. H. Abdulla、 D. Chow和G. Sin发表的文章"Cross-words reference template for DTW-based speech recognition systems" (IEEE TENCON2003, pp.1576-1579 )。
此外，在说话人认证的注册过程中，说话人模板中包含的分辨阈值可以如下确定。首先，通过采集大量说话人和他人对同一密码发音的语音数据，分别与训练出的说话人模板进行DTW匹配，得到说话人和他人的匹配得分分布。然后，至少可以通过以下三种方法来估计该说话人才莫板的分辨阔值
将两条分布曲线的交叉点，即，错误接受率(FAR， False Accept Rate) 和错误拒绝率(FRR， False Reject Rate)的和最小处的值作为阈值；将等误识率(EER， Equal Error Rate )对应的值作为阈值；或者将错误接受率在某个值(如0.1%)时对应的值作为阈值。返回到图4，在本实施例中，匹配得分计算单元404考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算匹配路径获得单元 403获得的匹配路径的匹配得分。
在本实施例中，匹配得分计算单元404包括权重计算单元4041,用于
根据上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化，计算在上述匹配路径上每帧的权重。
具体地，在本实施例中，权重计算单元4041给频谱变化速度较快的帧赋予较大的权重，而给频谱变化速度较慢的帧赋予较小的权重，也就是说，在本实施例中，旨在强调那些处于快速频谱变化期间的帧。
具体地，权重计算单元4041包括频谱变化计算单元，用于计算上述测试语音的频谱变化和上述说话人模板的频谱变化，其中，权重计算单元 4041根据上述频谱变化计算单元计算出的频谱变化，计算匹配路径上每帧
24的权重。频谱变化计算单元计算频镨变化的过程和权重计算单元4041利用频谱变化单元计算出的频谱变化计算匹配路径上每帧的权重的过程与第一实施例中通过实例l-3详细描述的过程相同，在此省略其说明。
在权重计算单元4041根据上述测试语音的频镨变化和/或说话人模板的频谱变化，计算出上述匹配路径上每帧的权重之后，匹配得分计算单元 404使用权重计算单元4041计算出的匹配路径上每帧的权重，计算匹配路径的匹配得分。具体地，例如，可以将匹配路径上每帧的节点距离乘以该帧的权重，然后相加，并将相加得到的总和作为该匹配路径的匹配得分。
在本实施例中，比较单元405判断匹配得分计算单元404计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是，则认定上述测试语音是同一说话人说出的密码，验证成功；如果否，则认定验证失败。
通过以上描述可知，本实施例的说话人认证的验证装置400是一种基于频谱变化速度为帧加权的有效装置，该装置计算量低，尤其适用于大多数使用频谱特征的系统。因此，将本实施例的验证装置400应用在与文本相关的说话人验证系统中，可以显著提高系统的性能。
此外，本实施例的基于频语变化速度为帧加权的装置400和其它现有的加权装置，例如基于音素的装置没有沖突，因此，将它们结合使用可以进一步提高性能。
<第四实施例>
在同一发明构思下，图5是根据本发明的第四实施例的说话人认证的验证装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
如图5所示，本实施例的说话人认证的验证装置500包括测试语音输入单元501，用于输入说话人说出的包含密码的测试语音；声学特征向量序列提取单元502，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元503，用于考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谦变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径；匹配得分计算单元504，用于计算上述获得的匹配路径的匹配得分；以及比较单元505，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
在第四实施例中，测试语音输入单元501和声学特征向量序列提取单元502分别与第三实施例中的测试语音输入单元401和声学特征向量序列提取单元402相同，在此省略其说明。在测试语音输入单元501输入包含密码的测试语音并且声学特征向量序列提取单元502从测试语音提取出声学特征向量序列之后，匹配路径获得单元503考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频镨变化，对声学特征向量序列提取单元502提取出的声学特征向量序列与说话人模板进行匹配，获得最优匹配路径。
在本实施例中，匹配路径获得单元503包括权重计算单元5031，用于根据上述测试语音的频谦变化和/或说话人才莫板的频镨变化，计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重。本实施例的说话人才莫板与上述实施例中的类似，在此省略其说明。
具体地，在本实施例中，权重计算单元5031给频谱变化速度较快的帧赋予较大的权重，而给频谱变化速度较慢的帧赋予较小的权重，也就是说，在本实施例中，旨在强调那些处于快速频谱变化期间的帧。
具体地，权重计算单元5031包括频谱变化计算单元，用于计算上述测试语音的频谱变化和上述说话人模板的频谱变化，其中，权重计算单元 5031根据上述频谱变化计算单元计算出的频谱变化，计算帧对的权重。频谦变化计算单元计算频谱变化的过程和权重计算单元som利用频谱变化单元计算出的频谱变化计算帧对的权重的过程与第二实施例中通过实例 4-5详细描述的过程相同，在此省略其说明。
在本实施例中，在权重计算单元5031根据上述测试语音的频谱变化和 /或说话人冲莫板的频谱变化，计算与测试语音的声学特征向量序列的每帧和说话人模板的每帧对应的帧对的权重之后，匹配路径获得单元503使用计算出的帧对的权重，对声学特征向量序列提取单元502提取出的声学特征向量序列与说话人模板进行匹配，获得最优匹配路径。
具体地，对于HMM模型，可以利用概率进行匹配，具体细节参见上述参考文献l。对于DTW模型，可以采用DTW算法进行匹配，具体参见上述第一实施例中参考图3进行的详细描述，在此省略其说明。
在本实施例中，匹配得分计算单元504计算匹配路径获得单元503获得的匹配路径的匹配得分。具体地，例如，可以将匹配路径上每帧的节点距离相加，并将相加得到的总和作为该匹配路径的匹配得分。
在本实施例中，比较单元505判断匹配得分计算单元504计算出的匹配得分是否小于上述说话人模板中设定的分辨阈值。如果是，则认定上述测试语音是同一说话人说出的密码，验证成功；如果否，则认定验证失败。
通过以上描述可知，本实施例的说话人认证的验证装置500是一种基于频谱变化速度为帧加权的有效装置，该装置计算量低，尤其适用于大多数使用频镨特征的系统。因此，将本实施例的!Hi装置500应用在与文本相关的说话人验证系统中，可以显著提高系统的性能。
此外，本实施例的基于频谱变化速度为帧加权的装置500和其它现有的加权装置，例如基于音素的装置没有冲突，因此，将它们结合使用可以进一步提高性能。
此外，与第三实施例的验证装置400相比，本实施例的验证装置500 在搜索最优匹配路径时考虑了测试语音的频谱变化和说话人模板的频谱变化，可以更加准确地搜索到最优匹配路径，从而能够进一步提高验证装置 400的性能。
说话人认证系统
<第五实施例>
在同一发明构思下，图6是根据本发明的第五实施例的说话人认证系统的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。
如图6所示，本实施例的说话人i人证系统600包括注册装置601，用于注册说话人模板；以及前面所述的说话人认证的验证装置400或500，用于根据注册装置601注册的说话人模板，对测试语音进行验证。由注册装置601生成的说话人模板通过任意的通信方式，例如，网络、内部信道、磁盘等记录媒体等，传递给验证装置400或500。
通过以上描述可知，本实施例的说话人认证系统600是一种基于频语变化速度为帧加权的有效系统，该系统计算量低，尤其适用于大多数使用频谦特征的系统。因此，将本实施例的说话人认证系统600应用在与文本相关的说话人认证系统中，可以显著提高系统的性能。
此外，本实施例的说话人认证系统600和其它现有的加权系统，例如基于音素的系统没有冲突，因此，将它们结合使用可以进一步提高性能。
以上虽然通过一些示例性的实施例对本发明的说话人认证的验证方法，说话人认证的验证装置以及说话人认证系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。
优选，在上述说话人认证的验证方法中，上述考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算上述获得的匹配路径的匹配得分的步骤包括根据上述测试语音的频谱变化和/或上述说话人模板的频镨变化，计算在上述匹配路径上每帧的权重；以及根据上述计算出的权重，计算上述匹配路径的匹配得分。
优选，在上述说话人认证的-验证方法中，上述根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算在上述匹配路径上每帧的权重的步骤包括根据上述提取出的声学特征向量序列，计算上迷测试语音的频谦变化；以及根据上述计算出的测试语音的频谱变化，计算上述权重。
优选，在上述说话人认证的验证方法中，上述根据上述提取出的声学特征向量序列，计算上述测试语音的频谱变化的步骤包括根据上述测试
语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述测试语音的频谱变化。
优选，在上述说话人认证的验证方法中，将上述测试语音的声学特征
28向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据上述提取出的声学
特征向量序列，计算上述测试语音的频谦变化的步骤包括根据上述测试语音的声学特征向量序列的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离，计算上述测试语音的频镨变化。
优选，在上述说话人认证的验证方法中，将上述测试语音的声学特征向量序列的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据上述提取出的声学特征向量序列，计算上述测试语音的频语变化的步骤包括根据码本计算上述测试语音的频语变化。
优选，在上述说话人认证的验证方法中，上述根据码本计算上述测试语音的频谱变化的步骤包括用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记；根据上述标记对上述测试语音分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算在上述匹配路径上每帧的权重的步骤包括根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频谱变化；以及根据上述计算出的说话人模板的频谱变化，计算上述权重。
优选，在上述说话人认证的验证方法中，上述根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频谱变化的步骤包括根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述说话人模板的频谱变化。
优选，在上述说话人认证的验证方法中，将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人才莫板在该帧的频语变化。
优选，在上述说话人认证的验证方法中，上述根据上述说话人模板的
声学特征向量序列，计算上述说话人模板的频i普变化的步骤包括
根据上迷说话人模板的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离，计算上述说话人模板的频谱变化。
优选，在上述说话人认证的验证方法中，将上述说话人模板的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述说话人模板在该帧的频镨变化。
优选，在上述说话人认证的验证方法中，上述根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频语变化的步骤包括
根据码本计算上述说话人模板的频谦变化。
优选，在上迷说话人认证的验证方法中，上述根据码本计算上迷说话人才莫板的频i普变化的步骤包括用上述码本中最接近的码字为上述说话人模板的每帧做标记；根据上述标记对上述说话人模板分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据上述测试语音的频镨变化和/或上述说话人模板的频谱变化，计算在上述匹配路径上每帧的权重的步骤包括根据上述测试语音的频谱变化、上述说话人模板的频谱变化、或者上述测试语音的频谱变化和上述说话人才莫板的频谱变化的组合的单调递增函数，计算上述匹配路径上每帧的权重。
优选，在上述说话人认证的验证方法中，其中，上述获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径的步骤包括对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
优选，在上述说话人认证的验证方法中，上述考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径的步骤包括根据上述
30测试语音的频谱变化，计算上述测试语音的声学特征向量序列的每帧的权
重；以及考虑上述计算出的权重，对上述提取出的声学特征向量序列与上述说话人模板进行匹配。
优选，在上述说话人认证的验证方法中，上述根据上述测试语音的频谱变化，计算上述测试语音的声学特征向量序列的每帧的权重的步骤包括根据上述提取出的声学特征向量序列，计算上述测试语音的频语变化；以及根据上述计算出的测试语音的频i普变化，计算上述测试语音的声学特征向量序列的每帧的权重。
优选，在上述说话人认证的验证方法中，上述根据上述提取出的声学特征向量序列，计算上述测试语音的频谱变化的步骤包括根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述测试语音的频镨变化。
优选，在上述说话人认证的验证方法中，将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据上述提取出的声学特征向量序列，计算上述测试语音的频谱变化的步骤包括根据码本计算上述测试语音的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据码本计算上述测试语音的频谱变化的步骤包括用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记；4艮据上述标记对上述测试语音分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频谱变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径的步骤包括根据上述说话人模板的频镨变化，计算上述说话人模板的每帧的权重；以及考虑上述计算出的权重，对上述提取出的声学特征向量序列与上述说话人模板进4亍匹配。
优选，在上述说话人认证的验证方法中，上述根据上述说话人才莫板的
频谱变化，计算上述说话人模板的每帧的权重的步骤包括根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频语变化；以及根据上述计算出的说话人模板的频谱变化，计算上述说话人模板的每帧的权重。
优选，在上述说话人认证的验证方法中，上述根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频语变化的步骤包括根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述说话人才莫板的频镨变化。
优选，在上述说话人认证的验证方法中，将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人才莫板在该帧的频i脊变化。
优选，在上迷说话人认证的验证方法中，上迷根据上述说话人才莫板的声学特征向量序列，计算上述说话人模板的频谱变化的步骤包括
根据码本计算上述说话人模板的频谱变化。
优选，在上述说话人认证的验证方法中，上述根据码本计算上述说话人才莫板的频语变化的步骤包括用上述码本中最接近的码字为上述说话人模板的每帧做标记；根据上述标记对上述说话人模板分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频谱变化。
优选，在上述说话人认证的验证方法中，上述获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径的步骤包括对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
3权利要求
1. 一种说话人认证的验证方法，包括输入说话人说出的包含密码的测试语音；从上述输入的测试语音提取声学特征向量序列；获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径；考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算上述获得的匹配路径的匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
2. —种说话人认证的验证方法，包括输入说话人说出的包含密码的测试语音；从上述输入的测试语音提取声学特征向量序列；考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频语变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径；计算上述获得的匹配路径的匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
3. —种说话人认证的验证装置，包括测试语音输入单元，用于输入说话人说出的包含密码的测试语音；声学特征向量序列提取单元，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元，用于获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径；匹配得分计算单元，用于考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算上述获得的匹配路径的匹配得分；以及比较单元，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
4. 根据权利要求3所述的说话人认证的验证装置，其中，上述匹配得分计算单元包括权重计算单元，用于根据上述测试语音的频i瞽变化和/或上述说话人模板的频谱变化，计算在上述匹配路径上每帧的权重，其中，上述匹配得分计算单元根据上述权重计算单元计算出的权重，计算上述匹配路径的匹配得分。
5. 根据权利要求4所述的说话人认证的验证装置，其中，上述权重计算单元包括频谦变化计算单元，用于根据上述提取出的声学特征向量序列，计算上述测试语音的频语变化，其中，上述权重计算单元根据上述频谙变化计算单元计算出的测试语音的频谱变化，计算上述权重。
6. 根据权利要求5所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述测试语音的频谱变化。
7. 根据权利要求6所述的说话人认证的验证装置，其中，将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
8. 根据权利要求5所述的说话人认证的验证装置，其中，上述频谦变化计算单元用于根据上述测试语音的声学特征向量序列的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离，计算上述测试语音的频谱变化。
9. 根据权利要求8所述的说话人认证的验证装置，其中，将上述测试语音的声学特征向量序列的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
10. 根据权利要求5所述的说话人认证的验证装置，其中，上述频镨变化计算单元用于根据码本计算上述测试语音的频谦变化。
11. 根据权利要求10所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记；根据上述标记对上述测试语音分段，其中使一段中的所有帧都具有相同的标i己；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频镨变化。
12. 根据权利要求4或5所述的说话人认证的验证装置，其中，上述权重计算单元包括频谱变化计算单元，用于根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频谱变化，其中，上述权重计算单元根据上述频镨变化计算单元计算出的说话人模板的频语变化，计算上述权重。
13. 根据权利要求12所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于根据上述说话人才莫板的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述说话人模板的频语变化。
14. 根据权利要求13所述的说话人认证的验证装置，其中，将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人才莫板在该帧的频谱变化。
15. 根据权利要求12所述的说话人认证的!Hi装置，其中，上述频谱变化计算单元用于根据上述说话人模板的每帧与它在上述匹配路径上的相邻节点的帧之间的特征距离，计算上述说话人模板的频谱变化。
16. 根据权利要求15所述的说话人认证的验证装置，其中，将上述说话人模板的每帧与它在匹配路径上的相邻节点的帧之间的特征距离的平均值度量为上述说话人模板在该帧的频镨变化。
17. 根据权利要求12所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于根据码本计算上述说话人模板的频谦变化。
18. 根据权利要求17所述的说话人认证的验证装置，其中，上述频 i普变化计算单元用于用上述码本中最接近的码字为上述说话人模板的每帧做标记；根据上述标记对上述说话人模板分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频i普变4匕。
19. 根据权利要求4所述的说话人认证的验证装置，其中，上述权重计算单元用于根据上述测试语音的频i脊变化、上述说话人模板的频谱变化、或者上述测试语音的频谱变化和上述说话人模板的频谱变化的组合的单调递增函数，计算上述匹配路径上每帧的权重。
20. 根据权利要求3-19中任何一项所述的说话人认证的验证装置，其中，上述匹配路径获得单元用于对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
21. —种说话人认证的验证装置，包括测试语音输入单元，用于输入说话人说出的包含密码的测试语音；声学特征向量序列提取单元，用于从上述输入的测试语音提取声学特征向量序列；匹配路径获得单元，用于考虑上述测试语音的频谱变化和/或注册说话人所注册的说话人模板的频i普变化，获得上述提取出的声学特征向量序列与上述说话人模板的匹配路径；匹配得分计算单元，用于计算上述获得的匹配路径的匹配得分；以及比较单元，用于比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
22. 根据权利要求21所述的说话人认证的验证装置，其中，上述匹配路径获得单元包括权重计算单元，用于根据上述测试语音的频谱变化，计算上述测试语音的声学特征向量序列的每帧的权重，其中，上述匹配路径获得单元考虑上述计算出的权重，对上述提取出的声学特征向量序列与上述说话人模板进行匹配。
23. 根据权利要求22所述的说话人认证的验证装置，其中，上述权重计算单元包括频语变化计算单元，用于根据上述提取出的声学特征向量序列，计算上述测试语音的频i普变化，其中，上述权重计算单元根据上述计算出的测试语音的频谱变化，计算上述测试语音的声学特征向量序列的每帧的权重。
24. 根据权利要求23所述的说话人认证的验证装置，其中，上述频镨变化计算单元用于根据上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述测试语音的频谱变化。
25. 根据权利要求24所述的说话人认证的验证装置，其中，将上述测试语音的声学特征向量序列的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述测试语音在该帧的频谱变化。
26. 根据权利要求23所述的说话人认证的验证装置，其中，上述频谦变化计算单元用于根据码本计算上述测试语音的频镨变化。
27. 根据权利要求26所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于用上述码本中最接近的码字为上述测试语音的声学特征向量序列的每帧做标记；根据上述标记对上述测试语音分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频镨变化。
28. 根据权利要求21或22所述的说话人认证的验证装置，其中，上述匹配路径获得单元包括权重计算单元，用于根据上述说话人模板的频语变化，计算上述说话人模板的每帧的权重，其中，上述匹配路径获得单元考虑上述计算出的权重，对上述提取出的声学特征向量序列与上述说话人模板进行匹配。
29. 根据权利要求28所述的说话人认证的验证装置，其中，上述权重计算单元包括频谱变化计算单元，用于根据上述说话人模板的声学特征向量序列，计算上述说话人模板的频i普变化，其中，上述权重计算单元根据上述计算出的说话人模板的频谱变化，计算上述说话人模板的每帧的权重。
30. 根据权利要求29所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于根据上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离，计算上述说话人模板的频谱变化。
31. 根据权利要求30所述的说话人认证的验证装置，其中，将上述说话人模板的每帧与它在时间序列上的相邻帧之间的特征距离的平均值度量为上述说话人模板在该帧的频谱变化。
32. 根据权利要求29所述的说话人认证的验证装置，其中，上述频语变化计算单元用于根据码本计算上述说话人模板的频镨变化。
33. 根据权利要求32所述的说话人认证的验证装置，其中，上述频谱变化计算单元用于用上述码本中最接近的码字为上述说话人模板的每帧做标记；根据上述标记对上述说话人模板分段，其中使一段中的所有帧都具有相同的标记；以及计算每一段的长度，其中将每一段的长度度量为与该段对应的各帧的频谱变化。
34. 根据权利要求21-33中任何一项所述的说话人认证的验证装置，其中，上述匹配路径获得单元用于对上述提取出的声学特征向量序列与上述说话人模板进行DTW匹配。
35. —种说话人认证系统，包括注册装置，用于注册说话人模板；以及根据权利要求3-34中任何一项所述的说话人认证的验证装置，用于根据注册装置注册的说话人纟莫板，对测试语音进行m^。
全文摘要
本发明提供了说话人认证的验证方法，说话人认证的验证装置以及说话人认证系统。根据本发明的一个方面，提供了一种说话人认证的验证方法，包括输入说话人说出的包含密码的测试语音；从上述输入的测试语音提取声学特征向量序列；获得上述提取出的声学特征向量序列与注册说话人所注册的说话人模板的匹配路径；考虑上述测试语音的频谱变化和/或上述说话人模板的频谱变化，计算上述获得的匹配路径的匹配得分；以及比较上述匹配得分和预先定义的分辨阈值，以确定上述输入的测试语音是否为上述注册说话人说出的包含密码的语音。
文档编号G10L17/00GK101465123SQ20071019919
公开日2009年6月24日申请日期2007年12月20日优先权日2007年12月20日
发明者剑栾, 杰郝申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：栾剑;郝杰
技术所有人：株式会社东芝
我是此专利的发明人