基于压缩感知的鲁棒性语音情感识别方法

文档序号:2829107阅读:984来源:国知局
专利名称:基于压缩感知的鲁棒性语音情感识别方法
技术领域
本发明涉及语音处理、模式识别领域,特别是涉及一种基于压缩感知的鲁棒性语音情感识别方法。
背景技术
人类的语言不仅包含了文字符号信息,同时也携带着人们的感情和情绪等信息。如何让计算机通过语音信号自动分析和判断说话人的情感状态,即所谓的“语音情感识别”方面的研究已成为语音处理、模式识别等领域的热点。该研究的最终目的就是要赋予计算机情感智能,使得计算机像人一样能进行自然、亲切和生动地交互。该研究在人工智能、机器人技术、自然人机交互技术等领域具有重要的应用价值。目前,对于语音情感识别的研究基本上是以安静环境中录制的情感语料作为情感分析和研究对象。然而,自然环境中的情感语音通常都会受到噪声的干扰,包含了不同程度的噪声。因此,对于噪声背景下的鲁棒性语音情感识别方面的研究更接近实际,更具有应用价值。但对于噪声背景下的鲁棒性语音情感识别研究,目前这方面的研究文献甚少。语音情感自动识别技术主要包括两个问题一是情感特征提取问题,即提取何种有效的语音特征参数用于情感识别;二是情感识别方法问题,即采用何种有效的模式识别方法对包含某种情感的语句所属的情感类别进行分类(见专利邹采荣,一种基于支持向量机的语音情感识别方法-申请号/专利号2006100973016)。目前,在情感特征提取方面,语音情感识别中常用的情感特征参数是韵律特征和音质特征,前者包括基频、振幅和发音持续时间,后者包括共振峰、频带能量分布、谐波噪声比以及短时抖动参数等。但是,这些特征参数本身所表现出来的抗噪声效果非常有限。因此,仅仅使用韵律特征和音质特征,难以在噪声背景下获得较好的语音情感识别性能。为了提高特征参数的抗噪声效果,有必要提取其它类型的特征参数如谱特征,将其与韵律特征和音质特征相融合。一种代表性的谱特征就是能够反映人耳听觉特性的梅尔频率倒谱系数(MFCC)0在情感识别方法方面,现已经成功应用于语音情感识别的方法主要包括线性判别分类器(LDC)、K近邻法(KNN)、人工神经网络(ANN)和支持向量机(SVM)。但这些识别方法对噪声比较敏感,难以获得较好的鲁棒性语音情感识别性能。因此,有必要发展新的高性能的鲁棒性语音情感识别方法。再介绍压缩感知(CS)技术。压缩感知(CS)(见文献E.J. Candes, M. B. ffakin. An introduction tocompressive sampling.1EEE Signal Processing Magazine, 2008, 25(2): 21-30)作为一种全新的信号处理和采样理论,其核心思想是,只要信号是可以压缩的,或者在某个变换域是稀疏的,则就可以采用一个与变换基不相关的观测矩阵将变换所得到的高维信号投影到一个低维空间上,然后通过求解一个最优化问题就可从这些少量的投影当中以高概率重构出原信号。在该理论框架下,采样速率不再决定于信号的带宽,而决定于信息在信号中的结构和内容。压缩感知(CS)研究的初衷是用于信号的压缩和表不,但其最稀疏的表不具有很好的判别性,可用于构建分类器(见文献Guha T, Ward RK. Learning SparseRepresentations for Human Action Recognition.1EEE Transactions on PatternAnalysis and Machine Intelligence, 2012,34(8): 1576-1588·)。目前,在已有的语音情感识别研究文献中,还未见采用压缩感知理论中的稀疏表示的判别性作为语音情感识别的鲁棒性识别方法。本发明就是利用压缩感知理论中的稀疏表示的判别性来实现噪声背景下的鲁棒性语音情感识别。

发明内容
本发明的目的就是为了克服上述现有情感识别技术的不足,提供一种基于压缩感知的鲁棒性语音情感识别方法,用于实现噪声背景下的鲁棒性语音情感识别。本发明所采用的技术方案是一种基于压缩感知的鲁棒性语音情感识别方法,该方法包含如下步骤产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表不分类器模型、输出语音情感识别结果;(I)产生含噪声的情感语音样本,包括将情感语音样本库的所有语音样本,分为训练样本和测试样本两部分,然后对每一个训练样本和测试样本都添加高斯白噪声,从而产生含噪声的情感语音样本;(2)建立声学特征提取模块,包括将含噪声的情感语音样本进行声学特征提取,该声学特征提取模块包括三部分韵律特征参数提取、音质特征参数提取、梅尔频率倒谱系数MFCC提取;(2-1)韵律特征参数提取,包括基频、振幅和发音持续时间;(2-2)音质特征参数提取,包括共振峰、频带能量分布、谐波噪声比和短时抖动参数;(2-3)梅尔频率倒谱系数MFCC提取,包括提取13维MFCC特征及其一阶和二阶导数参数,然后计算出它们的平均值和标准差;(3)构建稀疏表示分类器模型,包括通过声学特征提取模块,每一个情感语音样本都对应着一个由提取的声学特征参数所构成的特征矢量;将所有情感语音样本所对应的特征矢量都输入到稀疏表示分类器中,用于构建稀疏表不分类器模型;构建稀疏表示分类器的方法是,首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作为一组基,通过求解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类;(4)输出语音情感识别结果,包括通过稀疏表示分类器的训练和测试,输出语音情感识别结果,情感识别测试中采用10次交叉检验技术,即所有语句被平分为10份,每次使用其中的9份数据用于训练,剩下的I份数据用于测试,这样的识别实验过程相应重复10次,最后取10次的平均值作为识别结果。
所述的基频采用自相关法提取出情感语音的基频轨迹曲线,然后计算出该基频曲线的10个统计学参数,包括最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值、平均值、标准差、平均绝对斜度;所述的振幅采用平方求和方法求取,提取振幅相关的9个统计学参数,包括平均值、标准差、最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值;所述的发音持续时间发音持续时间表征不同情感语音的说话时间构造上的差异性,提取发音持续时间相关的参数6个,包括发音持续总时间、有声发音持续时间、无声发音持续时间、有声与无声时间的比值、有声与发音总时间的比值、无声与发音总时间的比值。所述共振峰采用伯格Burg法计算出情感语音的14阶线性预测系数LPC,再用峰值检出法计算出第一、第二、第三共振峰F1、F2、F3的平均值、标准差、中位数以及这三个共振峰的中位数所占的带宽,共提取出12个共振峰相关特征参数;所述频带能量分布提取出5个不同频带的能量分布参数SED,即O — 500Hz的频带能量平均值SED5(i(1、500 - 1000Hz的频带能量平均值SED_、1000 — 2500Hz的频带能量平均值SED25(i(1、2500 - 4000Hz的频带能量平均值SED4citltl、4000 — 5000Hz的频带能量平均
值 SED5000 ;所述谐波噪声比提取谐波噪声比HNR的平均值、标准差、最小值、最大值、变化范围,其计算公式为
权利要求
1.一种基于压缩感知的鲁棒性语音情感识别方法,其特征在于,该方法包含如下步骤 产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果; (1)产生含噪声的情感语音样本,包括 将情感语音样本库的所有语音样本,分为训练样本和测试样本两部分,然后对每一个训练样本和测试样本都添加高斯白噪声,从而产生含噪声的情感语音样本; (2)建立声学特征提取模块,包括 将含噪声的情感语音样本进行声学特征提取,该声学特征提取模块包括三部分韵律特征参数提取、音质特征参数提取、梅尔频率倒谱系数MFCC提取; (2-1)韵律特征参数提取,包括基频、振幅和发音持续时间; (2-2)音质特征参数提取,包括共振峰、频带能量分布、谐波噪声比和短时抖动参数;(2-3)梅尔频率倒谱系数MFCC提取,包括提取13维MFCC特征及其一阶和二阶导数参数,然后计算出它们的平均值和标准差; (3)构建稀疏表不分类器模型,包括 通过声学特征提取模块,每一个情感语音样本都对应着一个由提取的声学特征参数所构成的特征矢量;将所有情感语音样本所对应的特征矢量都输入到稀疏表示分类器中,用于构建稀疏表不分类器模型; 构建稀疏表示分类器的方法是,首先采用稀疏分解的方法,用训练样本对测试样本进行最稀疏表示,即把训练样本看作为一组基,通过求解1-范数最小化的方法得到测试样本的最稀疏表示系数,最后用测试样本与稀疏表示后的残差来进行分类; (4)输出语音情感识别结果,包括 通过稀疏表示分类器的训练和测试,输出语音情感识别结果,情感识别测试中采用10次交叉检验技术,即所有语句被平分为10份,每次使用其中的9份数据用于训练,剩下的I份数据用于测试,这样的识别实验过程相应重复10次,最后取10次的平均值作为识别结果O
2.如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是 所述的基频采用自相关法提取出情感语音的基频轨迹曲线,然后计算出该基频曲线的10个统计学参数,包括最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值、平均值、标准差、平均绝对斜度; 所述的振幅采用平方求和方法求取,提取振幅相关的9个统计学参数,包括平均值、标准差、最大值、最小值、变化范围、上四分位数、中位数、下四分位数、内四分极值; 所述的发音持续时间发音持续时间表征不同情感语音的说话时间构造上的差异性,提取发音持续时间相关的参数6个,包括发音持续总时间、有声发音持续时间、无声发音持续时间、有声与无声时间的比值、有声与发音总时间的比值、无声与发音总时间的比值。
3.如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是, 所述共振峰采用伯格Burg法计算出情感语音的14阶线性预测系数LPC,再用峰值检出法计算出第一、第二、第三共振峰Fl、F2、F3的平均值、标准差、中位数以及这三个共振峰的中位数所占的带宽,共提取出12个共振峰相关特征参数;所述频带能量分布提取出5个不同频带的能量分布参数SED,即O — 500Hz的频带能量平均值SED5(i(1、500 — 1000Hz的频带能量平均值SEDiciciciUOOO — 2500Hz的频带能量平均值SED25(i(1、2500 - 4000Hz的频带能量平均值SED4citltl、4000 — 5000Hz的频带能量平均值SED5000 ; 所述谐波噪声比提取谐波噪声比HNR的平均值、标准差、最小值、最大值、变化范围,其计算公式为
4.如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是,所述构建稀疏表示分类器的方法,具体步骤如下 给定某一类的训练样本,测试样本看作为同类训练样本的线性组合,即
5.如权利要求1所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是 所述稀疏表示分类器的训练和测试,包括以下步骤 (4-1)用训练样本的特征矢量对每一类情感测试样本进行最稀疏表示,即给定一类情感的测试样本,通过求解(式7)的L-1范数最优化问题获取其权向量a ; (4-2)对每一类情感(i=l, 2,…,7)的测试样本ytest,先近似重构出一个新样本,将其记为
6.如权利要求1-6任一项所述的基于压缩感知的鲁棒性语音情感识别方法,其特征是,所述的情感语音样本库中选取生气、高兴、悲伤、害怕、讨厌、厌烦以及无情感七种情感语音样本。
全文摘要
本发明公开了一种基于压缩感知的鲁棒性语音情感识别方法,包含如下步骤产生含噪声的情感语音样本、建立声学特征提取模块、构建稀疏表示分类器模型、输出语音情感识别结果;有益效果是充分考虑到自然环境中的情感语音通常会受到噪声的影响,提供一种噪声背景下的鲁棒性语音情感识别方法;充分考虑到不同类型特征参数的有效性,将特征参数的提取从韵律特征和音质特征两方面,扩充到梅尔频率倒谱系数MFCC,进一步提高特征参数的抗噪声效果;利用压缩感知理论中的稀疏表示的判别性,提供一种高性能的基于压缩感知理论的鲁棒性语音情感识别方法。
文档编号G10L25/63GK103021406SQ20121055158
公开日2013年4月3日 申请日期2012年12月18日 优先权日2012年12月18日
发明者赵小明, 张石清 申请人:台州学院, 赵小明, 张石清
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1