基于自适应调整的高斯混合模型的人声识别方法

文档序号：9826931阅读：451来源：国知局

基于自适应调整的高斯混合模型的人声识别方法
【技术领域】
[0001] 本发明涉及一种人声识别技术，特别涉及一种基于自适应调整的高斯混合模型的人声识别方法。
【背景技术】
[0002] 人声识别技术是利用信号处理和概率论的方法，根据说话人的语音对说话人身份进行识别的技术，主要包括两个步骤:说话人模型的训练和说话人语音的识别。
[0003] 人声识别主要采用的特征参数主要包括美尔倒谱系数(MFCC)、线性预测编码系数 (LPCC)、感知加权的线性预测系数(PLP)。人声识别的算法主要包括支持向量机(SVM)、高斯混合模型(GMM)、矢量量化法(VQ)等等。其中高斯混合模型在语音识别领域应用非常广泛。
[0004] 传统的高斯混合模型的混合度是固定的，而人声的语音特征呈现的是多样性，特征分布中的某些高斯子分量携带的信息量是较少的，而某一些高斯子分量携带的信息量是比较多的，这种情况下会导致过拟合或欠拟合的现象，从而导致说话人确认的识别率的降低。

【发明内容】

[0005] 本发明是针对传统的高斯混合模型识别人声存在的问题，提出了一种基于自适应调整的高斯混合模型的人声识别方法，在传统高斯混合模型的基础上自适应调节混合度和高斯子分量，以此来提高人声识别的概率。
[0006] 本发明的技术方案为:一种基于自适应调整的高斯混合模型的人声识别方法，具体包括如下步骤：
[0007] 1)用说话人的语音特征参数训练生成该说话人对应的传统高斯混合模型；
[0008] 2)计算高斯混合模型中每一帧数据由每一个高斯子分量生成的概率，再计算互异的高斯子分量生成同一帧数据的概率差值的绝对值之和；
[0009] 3)取步骤2)所得到的多个和值的最小值，与设定的低阈值θ3做比较，如果小于θ 3，则将最小值对应的两个高斯子分量进行合并，得到新的高斯子分量；
[0010] 4)取得到的多个和值的最大值，与设定的高阈值Θ:做比较，如果大于阈值，则将最大值对应的两个高斯子分量进行权重重配，得到两个新的高斯子分量；
[0011] 5)取高斯子分量的权重的最大值，与设置的门限值θ2做比较，如果大于0 2时，对这个高斯子分量进行拆分，得到两个新的高斯子分量；
[0012] 6)用新获得的高斯子分量代替原高斯子分量，通过多次迭代得到最后优化后的高斯模型，输入待识别的语音特征参数，计算该语音信号由每一个高斯混合模型拟合生成的概率，判定最大者为对应的目标说话人，即为测试语音的真正说话人。
[0013] 所述步骤2)生成同一帧信号的概率差值的绝对值计算表达式为：
[0015]用λη= {πη，μη，ση}表示第η个高斯子分量，:πη为第η个高斯子分量的权重，μ η和ση表示第η个高斯子分量的期望和协方差矩阵，每一帧数据分别由Κ个高斯子分量拟合生成的概率，共有L帧数据，^(1 = 1，2，一丄)为输入的第1帧语音信号，&和13为指互异的高斯子分量的序号，:为第a个高斯子分量的权重，N(xi | ya, 〇a)为第a个高斯子分量的概率密度，表不第a个高斯子分量的期望和协方差矩阵，公式中下标j表不第j个高斯子分量的序号；下标b表不第b个高斯子分量的序号。
[0016]所述的步骤3)中合并处理方式如下：
[0018] 其中，a表示第a个高斯子分量的序号;b表示第b个高斯子分量的序号；T为合并后新的高斯子分量的序号，用新增加的高斯子分量λτ来代替原来的高斯子分量λ4Ρ&。
[0019] 所述的步骤4)中对这两个高斯子分量a、b进行重新分配权重，得到两个新的高斯子分量，处理方式如下：
[0021]
两个高斯分布的期望和协方差矩阵保持不变。
[0022]所述的步骤5)中高斯子分量进行拆分，拆分的处理方式如下：
[0024]
为〇3对角线上的最大值;E=[l，l，···，l]是全l矩阵
新的两个尚斯子分量λτ,λτ+i代替原来的尚斯子分量λ3。
[0025] 本发明的有益效果在于：本发明基于自适应调整的高斯混合模型的人声识别方法，利用概率差值的绝对值之和对传统的高斯混合模型进行改进，对每一个高斯子分量在拟合语音信号的特征时所作的贡献，进行动态的调整高斯子分量，最大限度的利用每一个高斯子分量，充分表达有用信息，从而提高说话人确认的识别性能。
【附图说明】
[0026]图1为本发明自适应调整高斯混合模型训练流程示意图；
[0027] 图2为本发明高斯子分量权重重配的流程示意图；
[0028] 图3为本发明高斯子分量拆分改进的流程示意图；
[0029] 图4为本发明高斯子分量合并改进的流程示意图。
【具体实施方式】
[0030] 本实施方式中的实验数据是采集了43个参与者的录制语音，采样率为8000Hz，43 人中23个女的，20个男的，每一个人都录制5段语音，每一段录音都在安静的环境下进行的，每一段语音都是一个四字成语。
[0031] 利用不同说话者的一定量语音进行训练得到不同说话者对应的传统的高斯混合模型，并根据自适应调整规则对不同的传统高斯混合模型进行优化。
[0032] 在训练过程中，先任意选取不同说话者的三段语音进行训练得到不同说话者对应的优化后的尚斯混合t旲型。
[0033]在测试过程中，利用不同说话者的其他语音段进行每一个优化高斯混合模型的识别率测试。
[0034]如图1所示自适应调整高斯混合模型训练流程图，训练过程如下：
[0035]对语音信号进行预处理，预处理的步骤包括端点检测，分帧，加窗，提取特征参数--美尔倒谱系数，本实验选用12维的美尔倒谱系数(MFCC)。
[0036 ]将提取到的MFCC参数通过EM算法进行训练，得到与说话者相对应的传统高斯混合模型。传统高斯混合模型的混合度为K，其由K个高斯子分量线性叠加而成，高斯混合模型的概率密度的计算如下：
[0039]其中，Jin为第n个高斯子分量的权重，Ν(χ|μη，σ η)表示第η个高斯子分量的概率密度函数，本实施方式中Κ取16^和〇表示高斯子分量的期望和协方差矩阵，D是数据X的维数，用 λη={πη，μη，ση}表示第η个高斯子分量，η可取1到Κ的任何整数值。通过求取ρ(χ)得到待识别说话人属于当前模型的概率。
[0040] 设说话人的第i帧数据为11，（1 = 1，2，一〇41算法的具体的估计步骤如下：
[0041] 第一步，若第一次执行，则对高斯混合模型的参数{>，μ，σ}进行初始化;若非第一次执行，则高斯混合模型的参数为上一轮迭代计算得到的结果。然后估算每一帧数据分别由这Κ个高斯子分量生成的

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈希忠;包玲玲;
技术所有人：上海应用技术学院;
我是此专利的发明人