基于Rnorm得分归一化的说话人确认方法

文档序号:10614119阅读:355来源:国知局
基于Rnorm得分归一化的说话人确认方法
【专利摘要】本发明公开了一种基于Rnorm得分归一化的说话人确认方法,包括如下步骤:获取训练阶段的目标说话人的身份认证矢量ωtar和通用背景模型的身份认证矢量WUBM;获取测试阶段的被测试语音的身份认证矢量ωtest;通过目标说话人的身份认证矢量ωtar、通用背景模型的身份认证矢量WUBM和被测试语音的身份认证矢量ωtest通过Rnorm得分归一化计算得分Λ6(ωtest,ωclm);判断所述得分Λ6(ωtest,ωclm)是否高于一阈值,如果是,表示确认,则接收;否则,拒绝。采用本发明,在保证确认准确率较高的基础上,大大简化了计算的复杂度和节省了计算的时间。
【专利说明】
基于Rnorm得分归一化的说话人确认方法
技术领域
[0001]本发明属于说话人识别技术领域,具体涉及一种基于Rnorm得分归一化的说话人 确认方法。
【背景技术】
[0002] 说说话人确认的最后一步是做判决,这个过程实际上就是将输入语音信号与声称 说话人模型相比较得出的似然值与一个事先设定的判决门限进行比较,若似然值高于判决 门限,则接受声称的说话人,否则拒绝。调整判决门限是非常困难的,一般判决门限的选取 是根据经验来决定的。
[0003] 得分的变化受很多因素的影响:
[0004] ?说话人发音有差异,受心情、年龄、健康状况和本身声道的影响;
[0005] ?不同说话人训练数据质量不同、内容不同、持续时间不同;
[0006] ?训练数据和测试数据获取时的环境噪声不匹配、信道不匹配。
[0007] 传统的得分归一化方法 211〇1'111、1'11〇1'111、21'11〇1'111、1211〇1'1]1是面向基于6]\1]\1-1]13]\1的说话 人确认系统而提出的,并且这些得分归一化方法已经成功的应用在了基于GMM-UBM的说话 人确认系统,但是对于基于身份认证矢量ivector的说话人确认(i-SV)系统来说,基于 ivector的说话人确认系统,其中训练阶段的主要目的是为每一个说话人tar,根据其训练 语音,训练得到一个相应的ivector模型。测试阶段的主要目的是给定一段语音test和声称 说话人clm,判断test语音是否为说话人elm发出的,判断条件即为计算声称说话人模型 和被测试语音模型之间的相似度。训练语音会带很多的噪音,例如信 道噪音等,而这些噪音会造成训练好的ivector矢量模型的偏移。例如声称说话人模型 是根据声称说话人的训练语音训练得到的,而ω 'test是被测试语音去除信道噪 声之后得到的ivector模型,如图1所示,定义0clm,切扣为ω山与ω test之间的夹角,0clm, test'为 〇 elm与 〇 testZ?间的夹角,9non-elm, test为 〇 non-elm与 〇 testZ?间的夹角。
[0008] 理论上ω 'tesi^p 近,如果0clm,test足够小,小于我们所设置的阈值,SV系统则 认为test语音为说话人elm发出的,但是实际情况是会存在信道噪声的,所以ω 'test则会有 可能偏离到《test。则最后进行判断的夹角为0cim, test,如图2(a)可以看出9clm,test较大,大于 阈值,则在这种情况下,说话人确认系统就不认为test语音为说话人elm发出的,这便是信 道失配造成的判断错误。
[0009] 同时,图2(b)给出了模型即非声称说话人的ivector模型,可以看出c〇test 距离《__。^也很远,对不同的说话人会存在着不同的影响,这种影响会带来阈值设置的问 题,但是对不同说话人存在着不同的影响,所以需要对每个人设置不同的阈值,这样就大大 增加了确认系统的复杂度。

【发明内容】

[0010]为了解决上述问题,本发明的目的提供一种基于Rnorm得分归一化的说话人确认 方法,在保证确认准确率较高的基础上,大大简化了计算的复杂度和节省了计算的时间。
[0011] 为实现上述目的,本发明按以下技术方案予以实现的:
[0012] 本发明所述的基于Rnorm得分归一化的说话人确认方法,其特征在于,包括如下步 骤:
[0013]获取训练阶段的目标说话人的身份认证矢量ω tar和通用背景模块的身份认证矢 mffuBM ;
[0014]获取测试阶段的被测试语音的身份认证矢量cotest;
[00?5]通过目标说话人的身份认证矢量ω tar、通用背景模块的身份认证矢量Wubm和被测 试语音的身份认证矢量ω test通过Rnorm得分归一化计算得分Λ 6( ω test,ω clm);
[0016] 判断所述得分Λ6(ω?(^,ω。^)是否高于一阈值,如果是,表示确认,则接收;否则, 拒绝。
[0017] 进一步地,所述获取训练阶段的目标说话人的身份认证矢量C0tar具体步骤如下:
[0018] 计算任意说话人J的任意一段语音yj (t)的Baume-We 1 ch的统计量;
[0019] 通过已经训练好的全局差异空间矩阵T,利用如下公式计算J的语音yj(t)的身份 认证矢量ivector模型;
[0020] 所述公式为:
[0021 ] 进一步地,所述全局差异空间矩阵T计算步骤如下:
[0022] 计算训练语音中每个说话人S所对应的Baum-We 1 ch统计量;
[0023] 随机产生全局差异空间矩阵T的初始值;
[0024]计算ω的后验分布;
[0025] 最大似然值重估,更新全局差异空间矩阵Τ;
[0026] 全局差异空间矩阵Τ更新公式如下:
[0027] Τ?ΦΓ=
[0028]
[0029] J h ο
[0030] 其中?\表示T的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重复"计算ω的后验分 布"步骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训 练完毕。
[0031 ] 进一步地,计算训练语音中每个说话人S所对应的Baum-Welch统计量具体如下: [0032]给定说话人s,s=l,2,…,S和它的第h段语音ys,h(t),h=l,2, . . .,NS,提取出特征 序列
[0033] X = {Xt 11 = 1,2,. . .,P},对于每一个高斯分量c,本文定义权重、均值和协方差矩 阵所对应的Baum-Welch统计量如下:
[0034]
[0035]
[0036]
[0037] 其中,对于任意一帧t,yt(c)代表特征矢量Xt相对每个高斯分量c的状态占有率, 即第t帧的特征xt落入c状态的后验概率,表示为:
[0038]
[0039] w。为通用背景UBM模型中第c个高斯模型所对应的混合权值;[0040] 定义一阶中心统计量ff〇)和二阶中心统计量为:
[0041]
[0042]
[0043]
[0044] 其中m。为通用背景UBM模型中第c个高斯模型所对应的均值矢量;
[0045] 令N(s)为CPXCP的对角阵,它的对角块为Nc(s)I,c = l,. . .为 ¥fXs)^RCPxl e = 1,2,...,C拼接成的超矢量,§⑷为对角阵,对角块的组成为 e = l,2,...,C 对角元素。 ,+
[0046] 进一步地,所述计算ω的后验分布具体步骤如下:
[0047]给定说话人s,s = l,2,…,S和它的第h段语音ys,h(t),h=l,2, . . .,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM协方差矩阵的超矢 量,则《s,h的后验分布是均值⑷,协方差矩阵为尸⑷的高斯分布,则:
[0048]
[0049] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
[0050] 进一步地,所述训练阶段的通用背景模型的身份认证矢量WUBM是通过最大期望EM 算法获取。
[0051 ]进一步地,所述获取测试阶段的被测试语音的身份认证矢量ω test的步骤如下:
[0052 ] 计算测试语音y test (t)的Baume-We 1 ch的统计量;
[0053] 通过已经训练好的全局差异空间矩阵T,利用如下公式计算测试的语音ytest(t)的 身份认证矢量ivector模型;
[0054] 所述公式为
[0055] 进一步地,所述全局差异空间矩阵T计算步骤如下:
[0056] 计算测试语音所对应的Baum-Welch统计量;
[0057]随机产生全局差异空间矩阵T的初始值;
[0058]计算ω的后验分布;
[0059] 最大似然值重估,更新全局差异空间矩阵Τ;
[0060] 全局差异空间矩阵Τ更新公式如下:
[0062]
[0061] ΤιΦ0= Ω?
[0063] J " D:.
[0064] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重复"计算ω的后验分 布"步骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训 练完毕。
[0065] 进一步地,计算测试语音ytest(t)所对应的Baum-Welch统计量具体如下:
[0066] 给定测试语音和它的第h段语音ys,h(t),h = l,2, . . .,NS,提取出特征序列
[0067] X={Xt|t = l,2,...,P},对于高斯分量c,本文定义权重、均值和协方差矩阵所对 应的Baum-Welch统计量如下:
[0068]
[0069]
[0070] t
[0071] 其中,对于任意一帧t,Yt(c)代表特征矢量xt相对每个高斯分量c的状态占有率, 即第t帧的特征xt落入c状态的后验概率,表示为:
[0072] fcnf ; -1
一 * ' e "
[0073] w。为通用背景UBM模型中第c个高斯模型所对应的混合权值;
[0074] 定义一阶中心统计量氧.〇)和二阶中心统计量艮⑷为:
[0075]
[0076]
[0077]
[0078] 其中m。为通用背景UBM模型中第c个高斯模型所对应的均值矢量;
[0079] 令N(s)为CPXCP的对角阵,它的对角块为Nc(s)I,c = l,. . . ⑷eRCM,r = !,2,…,C拼接成的超矢量,%)eRCft<fP为对角阵,对角块的组成为 t ⑴ eR"' r = 对角元素;
[0080] 所述计算ω的后验分布具体步骤如下:
[0081] 测试语音和它的第h段语音ys,h(t) ,h = l ,2, . . . ,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)Τ,其中Σ代表UBM协方差矩阵的超矢量,则ω s,h的后验 分布是均值为P⑷τ?Λ0),协方差矩阵为lls)的高斯分布,则:
[0082]
[0083] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。
[0084]进一步地,所述通过Rnorm得分归一化计算得分的公式具体为:
[0085]
[0086] 与现有技术相比,本发明的有益效果是:
[0087]本发明所述的基于Rnorm得分归一化的说话人确认方法,通过首先获取训练结算 的目标说话人、通用背景模型和测试测试阶段的被测试语音的身份认证矢量,然后通过 Rnorm得分归一化计算得分来与设定的阈值进行比较,如果得分高于阈值,则表示确认,则 接受,否则拒绝。
[0088] 本发明所述的一种基于Rnorm得分归一化的说话人确认方法,首先结合身份认证 矢量的说话人确认系统的优势,再通过直接采用通用背景模型来代表非声称说话人模型, 解决无需每一个说话人建立一个对应的非声称说话人模型,从而也就简化了计算的复杂 度,也相应节省了时间,并且在确认准确率上也是很高的。
【附图说明】
[0089]下面结合附图对本发明的【具体实施方式】作进一步详细的说明,其中:
[0090 ]图1是本发明所述的基于Rnorm得分归一化的说话人确认方法的【背景技术】中Rnorm 算法设计思想示意图;
[0091]图2(a)是本发明所述的基于Rnorm得分归一化的说话人确认方法的【背景技术】中测 试语音是声称说话人发出的评分原理示意图;
[0092]图2(b)是本发明所述的基于Rnorm得分归一化的说话人确认方法的【背景技术】中测 试语音不是声称说话人发出的评分原理示意图;
[0093]图3是本发明所述的基于Rnorm得分归一化的说话人确认方法的流程图;
[0094]图4是本发明所述的基于Rnorm得分归一化的说话人确认方法在??ΜΙΤ数据库下 DET曲线图;
[0095]图5是本发明所述的基于Rnorm得分归一化的说话人确认方法在"3convs-lconv" 任务下的DET曲线图。
【具体实施方式】
[0096]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实 施例仅用于说明和解释本发明,并不用于限定本发明。
[0097] 本发明所述的基于Rnorm(Ratio normalization)得分归一化的说话人确认方法, 是建立在传统得分归一化的基础上,利用其优势,并且基于身份认证矢量的说话人确认系 统结合,可以做到比较高的确认率。但是在利用身份认证矢量确认系统结合时,在最后进行 归一化得分计算后,对于不同的说话人需要设置不同的阈值来进行判别,因此会造成最后 判别过程中的复杂度,以及耗费大量时间。为了解决该问题,通过直接采用通过背景模型代 替非声称说话人模型,进而也就只需设置一个阈值,即可完成最后的判别,因此大大降低了 计算的复杂度,节省了时间。
[0098]本发明所述的基于Rnorm得分归一化的说话人确认方法,如图3所示的流程图,其 具体步骤如下:
[0099] S01:获取训练阶段的目标说话人的身份认证矢量c〇tar的具体步骤如下:
[0100 ] (1)计算任意说话人J的任意一段语音yj (t)的Baume-We 1 ch的统计量;
[0101] (2)通过已经训练好的全局差异空间矩阵T,利用如下公式计算J的语音yj(t)的身 份认证矢量ivector模型;
[0102] 所述公式为
[0103] 所述全局差异空间矩阵T计算步骤如下:
[0104] (a)计算训练语音中每个说话人S所对应的Baum-Welch统计量:给定说话人s,s = 1,2,~,5和它的第11段语音70(〇,11 = 1,2,...,队,提取出特征序列乂={以卜=1,2,..., P},对于每一个高斯分量c,本文定义权重、均值和协方差矩阵所对应的Baum-Welch统计量 如下:
[0105]
[0106]
[0107] ?
[0108] 其中,对于任意一帧t,yt(c)代表特征矢量Xt相对每个高斯分量c的状态占有率, 即第t帧的特征xt落入c状态的后验概率,表示为:
[0109] ^^1 = 1
-· *
[0110] W。为通用背景UBM模型中第c个高斯模型所对应的混合权值;
[0111] 定义一阶中心统计量(6:(.、)和二阶中心统计量⑶为:
[0112]
[0113]
[0114]
[0115] 其中m。为通用背景UBM模型中第c个高斯模型所对应的均值矢量;
[0116] 令N(s)为CPXCP的对角阵,它的对角块为Nc(s)I,c = l,. . .,C,iXdeR#1, 氧.⑷e R^1s c = 1,2,...,Γ拼接成的超矢量,e为对角阵,对角块的组成为 ⑴ e R"'" c = 1,2,:·.:.,C对角元素。
[0117] (b)随机产生全局差异空间矩阵T的初始值;
[0118] (c)计算ω的后验分布:
[0119] 给定说话人s,s = l,2,…,S和它的第h段语音ys,h(t),h=l,2, . . . ,NS提取出的特 征序列X={xt|t = l,2,...,P},令1(8) = 1+1^+1(8)1%其中Σ代表UBM协方差矩阵的超矢 量,则c〇s,h的后验分布是均值为r1⑷⑷,方差矩阵为尸(8)的高斯分布,则:
[0125]
[0120]
[0121] E[ c0s,hcos,hT]=E[ c0s,h]E[ c0s,hT][0122] (d)最大似然值重估,更新全局差异空间矩阵T;[0123] 全局差异空间矩阵T更新公式如下:[0124] ΤιΦ0= Ω?
[0126]
[0127] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重复"计算ω的后验分 布"步骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训 练完毕。
[0128] S02:获取通用背景模型的身份认证矢量Wubm:
[0129] 所述通用背景模型的身份认证矢量WUBM通过最大期望EM算法获取。
[0130] S03:获取测试阶段的被测试语音的身份认证矢量cotest;
[0131 ] (1)计算测试语音ytest(t)的Baume-Welch的统计量;
[0132] (2)通过已经训练好的全局差异空间矩阵T,利用如下公式计算测试的语音ytest (t)的身份认证矢量i vector模型;
[0133] 所述公式为
V 。 .·· .· \ Q
[0134] 其中,所述全局差异空间矩阵T计算步骤如下:
[0?35] (a)计算测试语音所对应的Baum-We 1 ch统计量;
[0136] 给定测试语音和它的第h段语音ys,h(t),h=l,2, . . .,NS,提取出特征序列X={xt|t =1,2, . . .,P},对于高斯分量c,本文定义权重、均值和协方差矩阵所对应的Baum-Welch统 计量如下:
[0137]
[0138]
[0139]
[0140] 其中,对于任意一帧t,yt(c)代表特征矢量Xt相对每个高斯分量c的状态占有率, 即第t帧的特征x t落入c状态的后验概率,表示为:
[0142] wc73旭用苜京LMV1候型屮弟CT尚斯模型所对应的混合权值;[0143] 定义一阶中心统计量?;(5)和二阶中心统计量为:
[0141]
[0144]
[0145]
[0146]
[0147] 其中m。为通用背景UBM模型中第c个高斯模型所对应的均值矢量;
[0148] 令N(s)为CPXCP的对角阵,它的对角块为Nc(S)I,C = l,. . .为 f(⑷e RW,d,2,C:拼接成的超矢量,RCPxCP为对角阵,对角块的组成为 r 二 对角元素。
[0149] (b)随机产生全局差异空间矩阵T的初始值;
[0150] (c)计算ω的后验分布;
[0151] 测试语音和它的第h段语音ys,h(t),h = l,2, . . .,NS提取出的特征序列X= {xt 11 = 1,2,. . .,P},令1 (s) = Ι+Ττ Σ Id s)T,其中Σ代表UBM协方差矩阵的超矢量,则ω s,h的后验 分布是均值为卜⑷Τ7Σ?,⑷协方差矩阵为尸(3)的高斯分布,则:
[0152]
[0153] E[ c0s,hcos,hT]=E[ c0s,h]E[ c^h^+l-ks)。[0154] (d)最大似然值重估,更新全局差异空间矩阵T;[0155] 全局差异空间矩阵Τ更新公式如下:[0156] ΤιΦ0= Ω?
[0157]
[0158]
[0159] 其中?\表示Τ的第i行,Ω,代表Ω的第i行,i = l,2,…,CP,重复"计算ω的后验分 布"步骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训 练完毕。
[0160] S04:通过目标说话人的身份认证矢量ω tar、通用背景模型的身份认证矢量Wubm和 被测试语音的身份认证矢量ω test通过Rnorm得分归一化计算得分Λ 6( ω test,ω clm);
[0161] 其中
其中wclm与ω tar属于同一概念,只是cotar 是在训练阶段,wclm是在测试阶段,也就是说二者在计算方法也是一致的。
[0162] S05 :判断所述得分Λ 6( ω test,ω elm)是否高于一阈值,如果是,表示确认,则接收; 否则,拒绝。
[0163]本文利用了 MSR-toolbo工具包实现了基于ivector的文本无关的说话人确认系统 作为基线系统,实验中使用的语音数据库有两个,一个是TIMIT,一个是NIST SRE 2004。 MFCC维数为20维,其中第一维为对数能量,对20维的MFCC求一阶差分和二阶差分,最后特征 维数为60维。对60维的特征进行特征弯折和倒谱均值归一化处理。训练UBM的数据来自NIST SRE2004数据库下8sides和16个sides中的792句话,每句话约为3min~5π?η,??ΜΙΤ数据库 中的4620句话,每句话约为3s~5s,Noise-92中的15中噪声语音,训练的UBM是一个2028维 的性别相关(gender-dependent)的GMM模型。I vector的维数取400 〇
[0164] 其中,国际LDC组织发布的语音数据库??ΜΙΤ是第一个拥有大量说话人的可用的语 音数据库,是由MIT、SRI国际研究所和德克萨斯仪器公司共同开发,因而广泛的应用于说话 人识别的研究。TIMIT的录音环境为公共场所,录音人员有630人(男438人,女192人),这些 说话人的语音中包含了英语的八种方言,每个说话人读10个句子,每个句子发音长度约3s ~5s,录音方式和传输信道为固定麦克风,录音内容为英语句子,无录音时间间隔。??ΜΙΤ语 音数据库采样率为16ΚΗζ,量化率为16b i t。
[0165] 从1996年开始NIST SRE评测以来,NIST后续每一次评测使用的数据库都是在前面 几年评测的基础上,根据当前研究水平及实际应用情况进行适当的调整录制的,从而逐渐 积累了大量的数据库。NIST SRE 2004数据库为8k采样,8bit量化,μ压缩的sph文件格式,主 要来源于Mixerl库,总共包含616个说话人,其中女性370人,男性246人。NIST SRE 2004中 的数据均为日常生活中的通话数据,录音设备主要包括无绳电话、固定电话和移动电话,同 时该数据库考虑了多语种以及说话人双语问题,其中该数据库的语种平均分布在阿拉伯 语、英语、俄语、法语、汉语上。由于NIST SRE 2004的设计综合考虑了语种和信道,所以该数 据库常被用于训练UBM模型或信道空间等。从表一中可知,NIST SRE 2004包括7种训练情况 和4种测试情况。
[0166]
[0167] 表一 NIST SRE 2004评测任务情况
[0168] 为了检验本发明所述的基于Rnorm得分归一化的说话人确认方法在无信道失配情 况下的性能,??ΜΙΤ数据库是一个标准的语音数据库,录制方式单一,录音内容为英语,录音 环境干净。取ΤΙΜΙΤ测试数据库中的108人,训练9句话,测试1句话,用60〇 sentenCes作为仿 冒者语音。
[0169]
[0170] 表二TIMIT数据库下在i-SV系统上不同评分方法的EER和minDCF
[0171] 从图4和表二中可以看出本发明所述的基于Rnorm得分归一化的说话人确认方法 比原始的余弦相似度CSS评分方法在i-SV系统的EER上降低了0.4%,比CSS-Znorm、CSS-Tnorm和CSS-ZTnorm、CSS-TZnorm评分方法都要优秀,但是最小检测代价相对来说变化较 小。但是从图4中可以看出基于CSS-Rnorm和CSS-ZTnorm评分方法的i-SV系统整体的变化趋 势相似、性能相近,原因是由于TIMIT语音本身就是很干净、无信道失配的语音,在基础的 CSS评分之下已经能取得很好的结果,所有各种归一化方法对??ΜΙΤ数据库测试结果的影响 不大,但是仍能改变系统的性能。
[0172] 为了检验本发明所述的基于Rnorm得分归一化的说话人确认方法提出的i-CSS-Rnorm-SV系统的在有信道失配情况下的性能,本发明所述的基于Rnorm得分归一化的说话 人确认方法选择了NIST SRE 2004数据库。NIST SRE 2004数据库拥有多种语音信道,包括 麦克风信道、电话信道等,同时采集环境具有多样性。取NIST SRE2004中的任务"3conVS-lconvs",其中每个人的训练语音为3句话,均为电话语音对话,双声道录制,约为5min,测试 为1句话,共22899条测试样例。
[0173] 从图5中可以看出,对于NIST SRE 2004数据库中"3convs-lconv"任务来说,基于 CSS-Rnorm评分方法的i-SV系统取得了最优秀的结果,比起基于CSS评分方法的i-SV系统降 低了 4 · 5 % 的EER,CSS-Tnorm 优于 CSS-Znorm,但是基于 CSS-ZTnorm 和 CSS-TZnorm 的 i-SV 系 统的EER和minDCF指标很相近,差别不大。但是从表三中可以看出,i-CSS-Znorm-SV取得了 最好的最小检测代价,i-CSS-Znorm-SV在系统的复杂度和速度上展示了自身的优势。存在 该现象的原因是因为Znorm得分归一化的计算是离线完成的,所以能实现最小的minDCF,而 Tnorm得分归一化的计算是在测试的时候完成的,所以minDCF比Znorm要差,由于本发明所 述的基于R η 〇 r m得分归一化的说话人确认方法提出的R η 〇 r m得分归一化方法综合考虑了 ivector模型评分的特征以及对阈值设置的影响,所以在信道失配条件下EER能达到最小。
[0174]
[0175] 表三"3convs_lconv"任务下在i_SV系统上不同评分方法的EER和minDCF
[0176]以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,故 凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何修改、 等同变化与修饰,均仍属于本发明技术方案的范围内。
【主权项】
1. 一种基于化orm得分归一化的说话人确认方法,其特征在于,包括如下步骤: 获取训练阶段的目标说话人的身份认证矢量ω tar和通用背景模型的身份认证矢量 WuBM; 获取测试阶段的被测试语音的身份认证矢量ω test; 通过目标说话人的身份认证矢量ω tar、通用背景模型的身份认证矢量WuBM和被测试语 音的身份认证矢量ω test通过化orm得分归一化计算得分Λ 6( ω test,ω elm); 判断所述得分A 6( ?test, ω Elm)是否高于一阔值,如果是,表示确认,则接收;否则,拒 绝。2. 根据权利要求1所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述获取训练阶段的目标说话人的身份认证矢量ω tar具体步骤如下: 计算任意说话人J的任意一段语音yj (t)的Baume-We 1 ch的统计量; 通过已经训练好的全局差异空间矩阵T,利用如下公式计算J的语音yj(t)的身份认证矢 量ivector模型; 所述公式为3. 根据权利要求2所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述全局差异空间矩阵T计算步骤如下: 计算训练语音中每个说话人S所对应的Baum-We 1 ch统计量; 随机产生全局差异空间矩阵T的初始值; 计算ω的后验分布; 最大似然值重估,更新全局差异空间矩阵Τ; 全局差异空间矩阵Τ更新公式如下:其中Τι表示Τ的第i行,Ωι代表Ω的第i行,i = l,2,…,CP,重复"计算ω的后验分布"步 骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训练完 毕。4. 根据权利要求3所述的基于化orm得分归一化的说话人确认方法,其特征在于: 计算训练语音中每个说话人S所对应的Baum-We 1 ch统计量具体如下: 给定说话人s,s = l,2,…,S和它的第h段语音ys,h(t),h=l,2,. . .,Ns,提取出特征序列X ={xt 11 = 1,2,. . .,P},对于每一个高斯分量C,本文定义权重、均值和协方差矩阵所对应的 Baum-We Ich统计量如下:其中,对于任意一帖t,丫 t(C)代表特征矢量Xt相对每个高斯分量c的状态占有率,即第t 帖的特征Xt落入C状态的后验概率,表示为:Wc为通用背景UBM模型中第C个高斯模型所对应的混合权值; 定义一阶中屯、统计量F的和二阶中屯、统计量§心)为:其中m。为通用背景UBM模型中第C个高斯模型所对应的均值矢量; 令N(s)为CPXCP的对角阵,它的对角块为Ne(s)I,c = l,. . .,C为二=1,2,. . .,C拼接成的超矢量,为对角阵,对角块的组成为c = l,2,. . .,C对角元素。5. 根据权利要求3所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述计算ω的后验分布具体步骤如下: 给定说话人s,s = l,2,…,S和它的第h段语音ys,h(t),h=l,2,...,化提取出的特征序列 X={xt|t = l,2,..,,P},令1(s) = I+tT5:-i化(s)T,其中S代表UBM协方差矩阵的超矢量,贝IJ ws,h的后验分布是均值为的,协方差矩阵为ri(s)的高斯分布,则:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。6. 根据权利要求1所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述训练阶段的通用背景模型的身份认证矢量WUBM是通过最大期望EM算法获取。7. 根据权利要求1所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述获取测试阶段的被测试语音的身份认证矢量ω test的步骤如下: 计算测试语音ytest (t)的Baume-We 1 ch的统计量; 通过已经训练好的全局差异空间矩阵T,利用如下公式计算测试的语音ytest(t)的身份 认证矢量ivector模型; 所述公式为:8. 根据权利要求7所述的基于化orm得分归一化的说话人确认方法,其特征在于: 所述全局差异空间矩阵T计算步骤如下: 计算测试语音所对应的Baum-We 1 ch统计量; 随机产生全局差异空间矩阵T的初始值; 计算ω的后验分布; 最大似然值重估,更新全局差异空间矩阵Τ; 全局差异空间矩阵τ更新公式如下:其中Ti表示Τ的第i行,Ω i代表Ω的第i行,i = 1,2,…,CP,重复"计算ω的后验分布"步 骤和"最大似然值重估,更新全局差异空间矩阵Τ"步骤十次,则全局差异空间矩阵Τ训练完 毕。9.根据权利要求7所述的基于化orm得分归一化的说话人确认方法,其特征在于: 计算测试语音ytest(t)所对应的Baum-Welch统计量具体如下: 给定测试语音和它的第h段语音ys, h(t),h = 1,2,. . .,Ns,提取出特征序列X = {xt 11 = 1, 2, . . .,P},对于高斯分量c,本文定义权重、均值和协方差矩阵所对应的Baum-Welch统计量 如下:其中,对于任意一帖t,丫 t(c)代表特征矢量xt相对每个高斯分量C的状态占有率,即第t 帖的特征xt落入C状态的后验概率,表示为:wc为通用背景UBM模型中第C个高斯模型所对应的混合权值; 定义一阶中屯、统计量iUs)和二阶中屯、统计量§。树为:其中m。为通用背景UBM模型中第C个高斯模型所对应的均值矢量; 令N ( S )为CP X CP的对角阵,它的对角块为N。( S ) I,C = 1,. . .,C,电的E Rcw为 FCy)G民cw>c = l,2,. . .,C拼接成的超矢量,为对角阵,对角块的组成为 客山)e民fxf,〇 = 1,2,...,(:对角元素; 所述计算ω的后验分布具体步骤如下: 测试语音和它的第h段语音ys,h(t),h=l,2,...,Ns提取出的特征序列X={xt|t = l, 2,. . .,P},令1 (S) = Ι+ΤΤ Σ -1饰(S)T,其中Σ代表UBM协方差矩阵的超矢量,则ω S,h的后验分 布是均值为(诗ΤΤΣ-1|;杉),协方差矩阵为ri (s)的高斯分布,则:E[ c〇s'hWs'hT]=E[ c〇s'h]E[ c〇s'hT]+ri(s)。10.根据权利要求1所述的基于化orm得分归一化的说话人确认方法,其特征在于:所述 通过化orm得分归一化计算得分的公式具体为:
【文档编号】G10L17/02GK105976819SQ201610172918
【公开日】2016年9月28日
【申请日】2016年3月23日
【发明人】陈昊亮
【申请人】广州势必可赢网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1