一种识别语音情感的装置和方法

文档序号：9845053阅读：533来源：国知局

一种识别语音情感的装置和方法
【技术领域】
[0001] 本发明涉及语音信号处理领域，尤其涉及一种识别语音情感的装置和方法。
【背景技术】
[0002] 语音情感的识别技术是指机器通过语音信号智能识别人类的不同情感状态，根据人在不同情感下的语音信号非平稳性特征等比较明显的特点，通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化。语音情感识别是人工智能、心理学和生物学等多学科交叉的新兴领域，其目的就是通过计算机技术将蕴含在语音中的情感信息识别出来（同样一句话，说话人在不同的环境和情感状态时所表达的含义会截然不同）。语音信号具有便携性好和采集方便等优势，因此情感识别技术在智能人机交互、人机交互教学、娱乐业、医学、刑侦与安全领域可以得到广泛的应用。
[0003]对人员情绪状态的评价具有很高的应用价值，特别是在航空航天等军事应用领域中，长时间的、枯燥的、高强度的任务会使相关人员面临严酷的生理以及心理考验，引发一些负面的情绪。探讨负面情绪对于人类认知活动的作用机制和影响因素，研究提高个体认知和工作效率的方法、避免影响认知和工作能力的因素，具有重大的实际意义。
[0004] -般情况下，语音的情感相关性的表示形式可以通过说话人模型或者声学模型来实现。已有的研究成果表明，针对情感识别所采用的特征大多是韵律特征，也就是超音段特征，如基音、强度、持续时间、以及它们的衍生参数。然而，语音音质听觉方面的信息也是常常需要考虑的因素。
[0005] 非专利文献Alter，E.Tank，and S.Kotz，〃Accentuation and Emotions-two different systems/'presented at ISCA Workshop (ITRff)on Speech and Emotion， Newcastle，Northern Ireland，2000,Alter等人通过对韵律和音质之间关系的研究，发现生气和高兴时的发音在喘气和沙哑等方面是不同的。其他的研究表明，语音信号的韵律特征与三个情感维度(效价维、激活维和控制维)之间的具有一定关联性，其中激活维和韵律特征之间具有明显关联，激活维相近的情感状态具有相似的韵律特征且易混淆。

【发明内容】

[0006] 发明的目的就在于解决现有技术的缺陷，设计、研究一种高性能的识别语音情感的装置和方法。
[0007] 本发明的技术方案是:一种识别语音情感的装置，包括，训练部，用于对预处理语音数据进行语音特征提取，通过特征提取和高斯建模，对高斯建模得到的结果进行SVM分类；
[0008] 识别部，用于识别语音的情感状态，对待识别语音进行语音特征提取，通过特征选择，进行高斯似然度计算，对计算结果与SVM分类进行对比，得到待识别语音的情感类别。
[0009] 进一步的，所述训练部包括，训练语音数据库，用于训练情感识别方法的语音数据，包括多种情感类型的语音数据；
[0010]语音特征提取模块，用于提取训练语音数据库中每一条语音数据的基本声学特征，基本声学特征包括基音及其一阶、二阶差分的统计特征，共振峰及其统计特征，以及 MFCC特征及其统计特征；
[0011]特征选择模块，对任意两种情感类型进行组合，选择其声学特征，得到训练数据；
[0012] 高斯建模模块，对训练数据采用高斯混合模型建模，得到数据分布；
[0013] SVM分类器，对训练语音数据库中的每一条语音数据，在任意两种情感类型的组合模式下，根据高斯模型得到该语音数据属于这两个情感类型的似然度。
[0014] 进一步的，所述识别部包括，特征提取模块，用于提取待识别语音的基本声学特征；
[0015] 选择模块，用于对待识别语音的任一两种情感类型进行组合，选择其声学特征，得到待识别数据；
[0016] 高斯似然度计算模块，对待识别数据进行似然度计算；
[0017] 情感匹配部，对待识别数据的似然度输入SVM分类器进行匹配，得到待识别语音的情感类别。
[0018] -种识别语音情感的方法，包括如下步骤，训练，用于对预处理语音数据进行语音特征提取，通过特征提取和高斯建模，对高斯建模得到的结果进行SVM分类；
[0019] 识别，对待识别语音进行语音特征提取，通过特征选择，进行高斯似然度计算，对计算结果与SVM分类进行对比，得到待识别语音的情感类别。
[0020] 与现有技术相比，本发明的优点是:采用本发明的技术方案，精度高，不受语言语种控制，处理速度快，能够进行实时处理。
【附图说明】
[0021] 下面结合附图及实施例对本发明作进一步描述：
[0022] 图1为识别语音情感装置的结构框图；
[0023]图2为训练示意图。
[0024]图3为识别示意图。
【具体实施方式】
[0025] 如图1所示，一种识别语音情感的装置，包括，训练部和识别部，训练部用于对预处理语音数据进行语音特征提取，通过特征提取和高斯建模，对高斯建模得到的结果进行SVM 分类；
[0026] 识别部用于识别语音的情感状态，对待识别语音进行语音特征提取，通过特征选择，进行高斯似然度计算，对计算结果与SVM分类进行对比，得到待识别语音的情感类别。
[0027] 训练部包括，训练语音数据库、语音特征提取模块、特征选择模块、高斯建模模块、 SVM分类器。
[0028] 如图2所示，训练语音数据库，用于训练情感识别方法的语音数据，包括多种情感类型的语音数据。假设我们要识别的情感类型共有N种，那么训练语音数据库中应该包含所有这N种情感类型的语音数据。例如，如果我们要识别高兴、生气、伤心、平静4种情感类型的话，那么，训练语音库中应该包含与这4种情感类型对应的语音数据。
[0029] 语音特征提取模块，用于提取训练语音数据库中每一条语音数据的基本声学特征，基本声学特征包括基音及其一阶、二阶差分的统计特征，共振峰及其统计特征，以及 MFCC特征及其统计特征。
[0030] 对每一条语音数据，提取的声学特征形成一个D维的特征向量，其中D为特征的数目F。
[0031] a)对训练语音数据库中的每一条语音数据进行处理，生成D维的特征向量；
[0032] b)对所有的特征进行归一化。按下式对各个维度k(k=l. . .D)上的特征逐一进行归一化处理：
[0033]
[0034] 上式中，k表示特征向量的某一个维度，k = l. . .DJk和Λ分别为归一化前和归一化后第k维的特征的数值。ak、bk表示维度k上的最小值和最大值，即从所有训练语音提取的声学特征向量中第k维特征的最小值和最大值。
[0035] 特征选择模块，对任意两种情感类型进行组合，选择其声学特征，得到训练数据；高斯建模模块，对训练数据采用高斯混合模型建模，得到数据分布。
[0036] 对任意两种情感类型进行组合，执行特征选择和高斯建模的步骤。假如我们的分类任务中包含N种情感类型，那么，组合的数

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑洪亮;
技术所有人：郑洪亮;
我是此专利的发明人

上一篇：语音检测方法及装置的制造方法
上一篇：一种语音情感维度区域的自动识别方法