基于先验知识规整协方差的概率线性鉴别说话人识别方法

文档序号:9418684阅读:400来源:国知局
基于先验知识规整协方差的概率线性鉴别说话人识别方法
【技术领域】
[0001] 本发明涉及声纹识别领域,具体涉及一种基于先验知识规整协方差的概率线性鉴 别分析说话人识别方法。
【背景技术】
[0002] 说话人识别技术是利用语音信号中所包含的说话人特征信息,对其背后的真实身 份做出判决和识别的技术。说话人识别技术目前已在身份识别、视频会议、访问控制、军事 刑侦等诸多领域得到了广泛的应用,发展成为越来越重要的现代生物特征认证技术。近 年来,基于总变化因子的说话人识别方法成为说话人识别领域的主流方法,它不严格区分 说话人和信道,将它们当作一个整体来建模。通过该技术,每句语音在混合高斯背景模型 (UBM)上的一阶统计超矢量被映射为固定长度的低维向量,与此同时,较大程度上地保留了 说话人信息,因此该低维向量也被称作身份向量(ivector)。针对这个低维的总变化因子, 学界提出了许多基于有监督学习的信道补偿和后端建模技术,概率线性鉴别分析(PLDA) 因其优异的性能得到了广泛的关注。
[0003] PLDA是一个典型的生成式模型,它把总变化因子分解为描述不同说话人的类间差 异的说话人分量以及描述同一说话人的类内差异的信道分量,如下所示:
[0004] Tilj= Φ β ,+ e
[0005] 其中n u表示训练语音数据中第i个说话人的第j个ivector,Φ是说话人空间 矩阵,β i是第i个说话人的低维说话人向量,e u则是不能被说话人空间捕获到的残差项。
[0006] -般来说,都假定β JPe u两个分量统计独立,并且服从高斯分布。残差项的分 布用一个统一的全局协方差矩阵Σ来描述。φ和Σ是未知量,需要通过大量有标注的训 练数据去得到最优的Φ和Σ,然后将其用在注册数据和测试数据之上,得到注册数据和测 试数据在该空间内两两之间的似然度评分,并以此来判断测试语音与注册语音是否来自同 一个人。
[0007] 然而,上述算法框架的局限在于,每句语音的帧长、信噪比等各类物理特性不尽相 同,用全局协方差矩阵去描述残差分布所训练出来的概率线性鉴别分析模型显然会与真实 模型有一定偏差,并且会把每句语音固有的可以帮助提升识别性能的有用信息抹去。

【发明内容】

[0008] 为了上述克服说话人识别当中现有的概率线性判别模型训练过程中的局限性,经 过大量的实验以及性能调优后,本发明提供一种基于先验知识规整协方差的概率线性鉴别 说话人识别方法。该方法能够根据训练语音中任意有用的先验知识,如语音时长、信噪比, 甚至是上一轮训练出的模型或其它模型得出的评分信息,来对当前概率线性鉴别分析模型 进行规整训练。
[0009] 为达到上述目的,本发明采用的技术方案是:
[0010] -种基于先验知识规整协方差的概率线性鉴别说话人识别方法,是利用训练语音 的有效已知信息去规整概率线性鉴别分析模型的协方差假设以及迭代过程,包括以下步 骤:
[0011] 1)采集每条训练语音固有的物理信息或者主客观评分信息,记作信息Cllj,下标i、 j表示该信息属于第i个说话人的第j条训练语音;
[0012] 2)用信息Clu对概率线性鉴别分析模型中刻画残差项的协方差矩阵进行规整;
[0013] 3)利用规整后的协方差矩阵,获取第i个说话人的身份向量ivector的平均的条 件分布;
[0014]
[0015] 其中,F1表示第i个训练说话人的所有身份向量ivector的平均向量,它的均值向 量是Φ β y
是协方差,Φ是说话人空间矩阵,M1是第i个训练说话人的语音 总条数,β i是第i个说话人的低维说话人向量,是一个隐含变量;
[0016] 根据贝叶斯公式,得出隐含变量P1在给定平均向量F1下的后验概率,均值向量 为:
[0017] 其中,I为单位矩阵,X i为第i个人的所有身份向量ivector的加和向量;
[0018] 根据EM算法,得出已知后验概率PW1IF1)的均值向量E(P 1)下的每次说话人空 间矩阵Φ以及协方差矩阵Σ的更新公式如下:
[0019]
[0020]
[0021] 通过交替更新E(P1)和Φ、Σ的值迭代直至收敛,取得最优的φ和Σ值,完成 说话人识别中的概率线性鉴别分析模型的训练,得到训练好的概率线性鉴别分析模型;
[0022] 4)采用由步骤3)得到的训练好的概率线性鉴别分析模型对待鉴别的是语音进行 鉴别。
[0023] 上述步骤1)中的信息Cl1,可以是该语音的帧长,信噪比,其它模型识别后得出的评 分信息或者本模型上一轮识别后得出的评分信息等等。
[0024] 进一步的,所述步骤2)的规整方法如下: CN 105139856 A 仇叱卞> 3/5 页
[0025]
[0026] 其中Σ是全局的协方差矩阵,!!和¥是规整系数,通过不断调整找到最优取值,
整体构成一个规整项,其将全局的协方差矩阵映射为针对每条训练语音自适应的 独立项。
[0027] 与现有技术相比,本发明的有益效果是:能够根据任意关于训练语音的有用信息 去规整概率线性鉴别分析模型的协方差假设以及迭代过程,最终训练出更具有区分性、更 能反映真实情况的概率线性鉴别分析模型。同时,引入两个规整系数使得模型可调,能针对 各类不同的规整信息进行自适应达到最优。
[0028] 采用本发明训练得出的模型比传统模型在相同数据集上得出的说话人识别评 测效果有明显提升,在国际权威说话人识别评测数据库中能使等错误率(EER)相对下降 10% -20%〇
【附图说明】
[0029] 图1为本发明中选取训练语音固有的物理信息的流程图。
[0030] 图2为本发明中选取上一次训练模型得出的评分信息作为本次模型训练先验知 识的迭代规整流程图。
【具体实施方式】
[0031] 附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附 图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0032] 对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解 的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0033] 图1为本发明中选取训练语音固有的物理信息如时长、信噪比以及其它模型得出 的评分信息作为本次模型训练先验知识的一次规整过程本实施例选取训练语音的时长作 为先验知识进行协方差规整。
[0034] 图2为本发明中选取上一次训练模型得出的评分信息作为本次模型训练先验知 识的迭代规整过程。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1