一种基于情感gmm模型权重合成的情感说话人识别方法

文档序号：2826203阅读：379来源：国知局

一种基于情感gmm模型权重合成的情感说话人识别方法
【专利摘要】本发明公开了一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下：（1）针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；（2）采集待识别说话人的语音并提取语音特征，将得到的语音特征在步骤（1）中得到的所有情感GMM模型中进行得分计算；（3）将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。本发明基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。
【专利说明】一种基于情感G圖模型权重合成的情感说话人识别方法
【技术领域】
[0001]本发明涉及信号处理和模式识别，更具体地，本发明涉及一种基于情感GMM模型权重合成的情感说话人识别方法。
【背景技术】
[0002]说话人识别技术是指利用信号处理技术和模式识别方法，通过采集说话人的语音来识别其身份的技术，主要包括两个步骤:说话人模型训练和测试语音识别。情感说话人识别是为了解决注册说话人的训练语音和测试语音存在情感不一致引起的说话人识别系统性能下降问题。本专利提出的方法就是通过建立说话人的虚拟情感模型，提高系统的识别性能。
[0003]目前，说话人识别采用的主要短时语音特征包括梅尔倒谱系数(MFCC)，线性预测编码倒谱系数(LPCC)，感觉加权的线性预测系数(PLP)。说话人识别的算法主要包括矢量量化(VQ)，通用背景模型方法(GMM-UBM)，支持向量机(SVM)等等。其中，GMM-UBM在整个说话人识别领域应用非常广泛。
[0004]在情感说话人识别中，训练语音通常为中性情感语音，因为在现实应用中，一般情况下用户只会提供中性发音下的语音训练自己的模型。而测试时，语音可能包括各种情感的语音，如高兴，悲伤等。然而，传统的说话人识别系统并不能处理这种训练和测试环境的失配。

【发明内容】

[0005]本发明提供了一种基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。
[0006]一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下:
[0007](I)针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；
[0008]本发明所说的情感可以有多种选择，例如高兴、愤怒、惊慌、悲伤、压抑等，选择的情感的种类越多，则最终的识别结果越精确，但相应的计算量也会增加，因此，使用时可以依据需要选择适当数目的情感种类，相应每种情感建立情感GMM模型。
[0009](2)采集待识别说话人的语音并提取语音特征，将得到的语音特征在步骤(I)中得到的所有情感GMM模型中进行得分计算；
[0010]该步骤中待识别的说话人均已在步骤(I)中建立相应的中性GMM模型以及情感GMM模型，即对于某一个待识别说话人来说，如果在步骤(I)中没有建立过相应的中性GMM模型以及情感GMM模型，则不能对该待识别说话人进行识别。
[0011](3)将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。[0012]每个说话人的中性模型与情感模型之间的权重之间存在映射关系，利用这种映射关系，即可通过中性模型直接计算得到情感模型，中性情感权重参数变换模型的建立方法可以采用现有技术中的各种算法，只要能够在中性模型与情感模型之间建立起映射关系即可，优选地，所述中性情感权重参数变换模型利用径向基神经网络或者稀疏表达建立。
[0013]作为优选，所述中性情感权重参数变换模型的建立过程，具体包括以下步骤:
[0014]1-1、在开发库中，提取所有情感状态下的不同说话人的短时语音特征，通过EM算法训练出情感无关的高斯混合背景模型；
[0015]1-2、利用该高斯混合背景模型，通过自适应均值和自适应权重，得到开发库中每个说话人的中性GMM模型；
[0016]1-3、利用步骤1-2的中性GMM模型，通过自适应权重的方法，得到各种情感状态下的情感GMM模型；
[0017]1-4、利用步骤1-2的中性GMM模型中的权重和步骤1_3的情感GMM模型中的权重，训练径向基神经网络或者稀疏表达模型，得到中性情感权重参数变换模型。
[0018]本发明中的开发库是指，在实现本发明之前，先任意选取若干说话人组成开发库，后续识别过程中的说话人与开发库中的说话人不一定相同，即可以相同，也可以不同。
[0019]作为优选，采用径向基神经网络得到中性情感权重参数变换模型时，具体包括以下步骤:在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，通过正交最小二乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系，即中性情感权重参数变换模型。
[0020]作为优选，采用稀疏表达得到中性情感权重参数变换模型时，具体包括以下步骤:在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，得到中性情感对齐字典，即中性情感权重参数变换模型。
[0021]本发明基于情感GMM模型权重合成的情感说话人识别方法，通过建立说话人的中性情感权重模型，在仅仅采集说话人中性语音的基础上，提高对说话人情感变化识别的鲁棒性，提高说话人识别的准确性。
【专利附图】

【附图说明】
[0022]图1是本发明基于情感GMM模型权重合成的情感说话人识别方法的流程图；
[0023]图2为本发明基于情感GMM模型权重合成的情感说话人识别方法中径向基神经网络的结构图；
[0024]图3为本发明基于情感GMM模型权重合成的情感说话人识别方法中中性情感对齐字典的结构图。
【具体实施方式】
[0025]下面结合附图，对本发明基于情感GMM模型权重合成的情感说话人识别方法做详细描述。
[0026]本发明中的实验数据中采用的是中文情感语音数据库(MASC)，该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的，该数据库由68个母语为汉语的68个说话人组成，其中男性说话人45人，女性说话人23人。本发明所提供的识别方法中，可以有多种选择，本实施例中为了便于描述以及提供具体的测试结果，选取了 5种情感状态，分别是中性、生气、高兴、愤怒和悲伤，即每个说话人共有5种情感状态下的语音。每个说话人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语句各3遍，在其余每种情感状态下各朗读5个单词和20句语句各3遍，针对每个说话人，在中性以及其他情感状态下朗读的单词和语句都相同；针对所有说话人，朗读的单词和语句都相同。
[0027]本发明中的测试数据是在联想工作站进行的，其配置为:CPU E5420，主频2.5GHz，内存为4G，实验是在Visual Studio环境下实现的。
[0028]如图1所示，一种基于情感GMM模型权重合成的情感说话人识别方法，步骤如下:
[0029](I)针对每个说话人，建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型；
[0030]在测试过程中，任意选取若干个说话人的语音作为开发库，通常情况下，选取的说话人个数不少于10个，例如选取前18个说话人的语音作为开发库，该开发库中记录前18个说话人在中性以及其余五种情感状态下的所有语音，训练得到UBM模型(即现有技术中的高斯混合背景模型)。
[0031]在测试过程中，除去开发库中的说话人，将其余说话人组成评测集，在评测集中，每个说话人的中性GMM模型利用开发库中训练得到的UBM模型，通过自适应均值和自适应权重得到。
[0032]该步骤中的中性情感权重参数变换模型的建立过程，具体包括以下步骤:
[0033]1-1、在开发库中，提取所有情感状态下的不同说话人的短时语音特征，通过EM算法训练出情感无关的高斯混合背景模型；
[0034]对开发库中不同的说话人在中性以及其余情感状态下的语音信号进行预处理，预处理的步骤包括采样量化，去零漂，预加重(加重信号的高频部分)和加窗(将一段语音信号分为若干段)，并对每段语音信号提取短时语音特征。
[0035]将所有说话人的短时语音特征通过EM算法训练出情感无关的高斯混合背景模型UBMλ (X),表达式如下；
[0036]
【权利要求】
1.一种基于情感GMM模型权重合成的情感说话人识别方法，其特征在于，步骤如下: (1)针对每个说话人,建立说话人的中性GMM模型，并依据对应的中性情感权重参数变换模型，得到不同的情感GMM模型； (2)采集待识别说话人的语音并提取语音特征，将得到的语音特征在步骤(I)中得到的所有情感GMM模型中进行得分计算； (3)将所有得分进行比较，得分最高的情感GMM模型所对应的说话人即为待识别说话人。
2.如权利要求1所述的基于情感GMM模型权重合成的情感说话人识别方法，其特征在于，所述中性情感权重参数变换模型利用径向基神经网络或者稀疏表达建立。
3.如权利要求2所述的基于情感GMM模型权重合成的情感说话人识别方法，其特征在于，所述中性情感权重参数变换模型的建立过程，具体包括以下步骤: 1-1、在开发库中，提取所有情感状态下的不同说话人的短时语音特征，通过EM算法训练出情感无关的高斯混合背景模型； 1-2、利用该高斯混合背景模型，通过自适应均值和自适应权重，得到开发库中每个说话人的中性GMM |吴型； 1-3、利用步骤1-2的中性GMM模型，通过自适应权重的方法，得到各种情感状态下的情感GMM模型； 1-4、利用步骤1-2的中性GMM模型中的权重和步骤1-3的情感GMM模型中的权重，训练径向基神经网络或者稀疏表达模型，得到中性情感权重参数变换模型。
4.如权利要求3所述的基于情感GMM模型权重合成的情感说话人识别方法，其特征在于，采用径向基神经网络得到中性情感权重参数变换模型时，具体包括以下步骤:在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，通过正交最小二乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系，即中性情感权重参数变换模型。
5.如权利要求3所述的基于情感GMM模型权重合成的情感说话人识别方法，其特征在于，采用稀疏表达得到中性情感权重参数变换模型时，具体包括以下步骤:在开发库中，利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列，得到中性情感对齐字典，即中性情感权重参数变换模型。
【文档编号】G10L17/04GK103456302SQ201310394533
【公开日】2013年12月18日申请日期:2013年9月2日优先权日:2013年9月2日
【发明者】杨莹春, 陈力, 吴朝晖申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨莹春;陈力;吴朝晖
技术所有人：浙江大学
我是此专利的发明人