一种基于流形的语音情感识别方法

文档序号：2826182阅读：558来源：国知局

一种基于流形的语音情感识别方法
【专利摘要】本发明提供一种基于流形的语音情感识别方法，包含以下步骤：提取测试语句语音特征：MFCC、LPCC、LFPC、ZCPA、PLP和RASTA-PLP；计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，并将它们串接，构成测试语句的局部统计特征；采用通用背景模型UBM和测试语句的局部统计特征，生成测试语句的特定高斯混合模型GMM，再将GMM的所有均值连接成向量作为该测试语句的特征向量；通过集成特征选择算法和多集群特征选择算法MCFS选择的特征，变换测试语句的特征向量；采用支持向量机分类模型，以特征选择后的测试语句的特征向量为输入，分类测试语句的情感类别。本发明的方法，其语音情感识别的准确度高。
【专利说明】一种基于流形的语音情感识别方法
【技术领域】
[0001]本发明涉及语音信号处理和识别领域，具体涉及一种基于流形的语音情感识别方法。
【背景技术】
[0002]随着信息技术的不断发展，人们对计算机的智能化提出了更高的要求。在人机交互方面，一个拥有情感识别能力的计算机能够对人类情感进行识别并根据识别的结果来执行相应的动作，这样能够方便使用者对设备进行操作，给用户带来良好的体验。例如采用情感识别技术可以探测司机的精力是否集中、感受到的压力水平等，并根据识别结果决定是否发出警报，提高驾驶的安全性；同时，情感识别还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，帮助构造更加拟人化的风格和更加逼真的场景；另外，通过情感识别也可以监控人们的心理健康情况，可以有效地帮助人们避免不良情绪、保持健康心理。
[0003]语音信息包含了丰富的情感信息，能够在很大程度上反映人们的情感，故通过对语音信息进行分析来实现对人们的情感识别是一种非常有效的方法。目前广泛使用的语音情感识别方法大致都包含以下四个步骤:语音信息的特征提取、特征统计、特征选择和最终的情感识别。
[0004]其中特征提取部分，主要的语音特征参数有:美尔频率倒谱系数(MFCC，MelFrequency Cestrum Coefficients)、线性预测倒谱系数(LPCC, Linear PredictorCepstral Coefficients) > LOG 频率功率系数(LFPC, Log Frequency PowerCoefficients)、过零峰值幅度(ZCPA, Zero Crossings with Peak Amplitudes)、感知线性预测系数(PLP, Perceptual Linear Predictive)和相对光谱感知线性预测系数(RASTA-PLP, RelAtive SpecTrA Perceptual Linear Predictive)。
[0005]其中特征统计部分，目前主要使用以下两种统计方法:
[0006]第一种:通过全局统计量生成统计特征，其缺点是忽略了语音信号的局部信息。
[0007]第二种:仅仅通过高斯混合模型-通用背景模型GMM-UBM (Gaussian MixtureModel-Universal Background Model)生成统计特征,该方法虽然能反映每一巾贞语音的信息，但是却忽略了相邻帧之间的关系，并且其提取的局部信息反映到每一帧上，粒度太细。
[0008]其中特征选择部分，目前主要有以下几种选择方法:最小冗余最大相关特征选择(MRMR, Minimum Redundancy Maximum Relevance Feature Selection)、有条件的冗余(C0NDRED, conditional redundancy)、顺序前进的特征选择(SFS, Sequential ForwardFeature Selection)和顺序前进浮动特征选择(SFFS, Sequential Forward float FeatureSelection)。这些特征选择方法都是选择或去掉一个特征，使得某些目标方程最小，并没有考虑高维语音数据的内在结构，难以在高维语音数据中选择到合适的特征子集，这些局限降低了语音情感识别的准确率。

【发明内容】
[0009]本发明的目的在于克服现有技术存在的缺点与不足，提供一种基于流形的语音情感识别方法，其语音情感的识别准确率高。
[0010]本发明的目的通过下述技术方案实现:
[0011]一种基于流形的语音情感识别方法，包含以下顺序的步骤:
[0012](I)提取测试语句的以下语音特征:MFCC、LPCC、LFPC、ZCPA、PLP 和 RASTA-PLP ；
[0013](2)计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，并将它们串接，构成测试语句的局部统计特征；
[0014](3)采用在所有训练样本局部统计特征向量集合中学习获得的通用背景模型UBM和测试语句的局部统计特征，生成测试语句的特定高斯混合模型GMM，再将GMM的所有均值连接成向量作为该测试语句的特征向量；
[0015](4)通过集成特征选择算法和多集群特征选择算法MCFS选择的特征，变换测试语句的特征向量；
[0016](5)采用支持向量机分类模型，以特征选择后的测试语句的特征向量为输入，分类测试语句的情感类别。
[0017]所述的步骤(2)具体过程为:计算每个语音的所有特征的一阶差分D，D中的F分别取第一步所述的6种特征，然后计算所有F和D的局部均值、方差，获得LDM、LDS、LM和LS的局部统计结果，再将这些局部统计结果组合成最终的帧局部统计特征:
【权利要求】
1.一种基于流形的语音情感识别方法，包含以下顺序的步骤: (1)提取测试语句的以下语音特征:MFCC、LPCC,LFPC, ZCPA, PLP和RASTA-PLP ； (2)计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，并将它们串接，构成测试语句的局部统计特征； (3)采用在所有训练样本局部统计特征向量集合中学习获得的通用背景模型UBM和测试语句的局部统计特征，生成测试语句的特定高斯混合模型GMM，再将GMM的所有均值连接成向量作为该测试语句的特征向量； (4)通过集成特征选择算法和多集群特征选择算法MCFS选择的特征，变换测试语句的特征向量； (5)采用支持向量机分类模型，以特征选择后的测试语句的特征向量为输入，分类测试语句的情感类别。
2.根据权利I所述的基于流形的语音情感识别方法，其特征在于，所述的步骤(2)具体过程为:计算每个语音的所有特征的一阶差分D，D中的F分别取第一步所述的6种特征，然后计算所有F和D的局部均值、方差，获得LDM、LDS、LM和LS的局部统计结果，再将这些局部统计结果组合成最终的帧局部统计特征:
3.根据权利I所述的基于流形的语音情感识别方法，其特征在于，步骤(3)中，所述的通用背景模型UBM通过以下步骤获得: a、提取所有语句的以下语音特征:MFCC、LPCC,LFPC, ZCPA, PLP和RASTA-PLP ； b、计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，将它们连接成局部统计特征； c、采用所有语句所有帧的局部统计特征训练获得局部统计特征UBM。
4.根据权利I所述的基于流形的语音情感识别方法，其特征在于，所述的步骤(4)具体包含以下顺序的步骤: a、提取所有语句的以下语音特征:MFCC、LPCC,LFPC, ZCPA, PLP和RASTA-PLP ； b、计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，将它们连接成局部统计特征； C、采用所有语句所有帧的局部统计特征来训练UBM，并通过训练获得的UBM，生成每条语音的特定GMM，再将每条语音的GMM的所有均值连接成一个向量作为该语音的特征向量； d、特征选择时，将训练语音数据按说话人分成与说话人个数相同的份数，每次留下一个说话人的数据，而将其余数据用作训练数据，采用多集群特征选择算法MCFS在训练数据上选择特征，循环直至所有说话人均被留下一次，然后将所有选择的特征按出现的次数从高到底排序，选择前η个作为最终选择的特征。
5.根据权利4所述的基于流形的语音情感识别方法，其特征在于，步骤(4)中，所述MCFS算法具体如下所示: 第I步:构造P近邻图，边之间的权重设为:如果两个点相邻，则边之间的权重为1，若两个点不相邻，则边之间的权重为零，这里P为近邻参数；第2步:计算式Ly=ADy的特征值，式中L=D-Wjii= Σ J-Wij, W为第I步求得的权重，Y=Ly1,…，yk]为最小的k个特征值对应的特征向量；第3步:使用Least Angel Regression算法解决
6.根据权利I所述的基于流形的语音情感识别方法，其特征在于，步骤(5)中，所述的支持向量机通过以下步骤获得: a、提取所有语句的以下语音特征:MFCC、LPCC,LFPC, ZCPA, PLP和RASTA-PLP ； b、计算所提取语音特征的局部均值、方差，并计算所提取语音特征一阶差分的局部均值、方差，将它们连接成局部统计特征； C、采用所有语句所有帧的局部统计特征来训练UBM，并通过训练获得的UBM，生成每条语音的特定GMM，再将每条语音的GMM的所有均值连接成一个向量作为该语音的特征向量； d、特征选择时，将训练语音数据按说话人分成与说话人个数相同的份数，每次留下一个说话人的数据，而将其余数据用作训练数据，采用多集群特征选择算法MCFS在训练数据上选择特征，循环直至所有说话人均被留下一次，然后将所有选择的特征按出现的次数从高到底排序，选择前η个作为最终选择的特征； e、根据选择的特征对所有训练语音数据进行特征选择，形成新的训练语音数据，训练支持向量机，获得支持向量机分类模型； f、以M倍交叉验证方式选择支持向量机分类模型的合适参数，进而获得对应参数的支持向量机分类模型。
【文档编号】G10L15/06GK103440863SQ201310383093
【公开日】2013年12月11日申请日期:2013年8月28日优先权日:2013年8月28日
【发明者】文贵华, 孙亚新, 李辉辉申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：文贵华;孙亚新;李辉辉
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种基于计算听觉场景分析的单通道语音盲分离方法
上一篇：行进鼓中圈的制作方法