联合惩罚稀疏表示字典学习的语音情感识别方法及系统的制作方法

文档序号：2826369阅读：332来源：国知局

联合惩罚稀疏表示字典学习的语音情感识别方法及系统的制作方法
【专利摘要】本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统，该方法包括：S1、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A；S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典；S3、对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y；S4、将测试样本特征向量y在字典上进行稀疏编码得到编码系数S5、根据字典学习的识别准则进行识别。本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别，使得识别结果更准确。
【专利说明】联合惩罚稀疏表示字典学习的语音情感识别方法及系统
【技术领域】
[0001]本发明涉及语音信号处理、信号的稀疏表示和模式识别【技术领域】，尤其涉及一种基于联合惩罚稀疏表示字典学习的语音情感识别方法及系统。
【背景技术】
[0002]语音信息在人类交流中扮演重要的角色，有研究表明，人类40%的情感信息都是通过说话进行传递的。准确理解人的情感有助于促进和谐的人机交互。因此，如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。近年来，稀疏表示技术在图像识别中取得很好的效果，例如人脸识别，数字和文本识别等。
[0003]现有技术一采用训练样本作为原子组成一个结构化的字典，对人脸特征进行稀疏表示，稀疏表示后的特征具有很好的识别能力，并具有较好的鲁棒性。但该技术简单地将训练样本作为原子组成一个结构化的字典，得到的字典的性能过分依赖训练样本。现有技术二通过在字典学习目标函数中加入与类别标签信息相关的线性分类器惩罚函数的方法进行字典学习，该技术能得到一个具有较强识别力的字典，但该技术学习得到的字典是一个被所有类别共享的字典，即学习后字典中的原子没有与之对应的类别标签信息，该技术不能用 SRC (Sparse Representation based Classification)的重构误差识别准则来识另IJ，失去了重构误差识别准则的优势。
[0004]然而，现有技术中未同时考虑子编码和全编码惩罚函数，而且未发现基于稀疏表示的语音情感识别技术。
[0005]为了解决现有技术的缺陷，因此，本发明提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统。在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函数，学习后能同时得到两个具有较高识别力的识别准则，即子编码识别准则和全编码识别准则(对应着字典学习中两个有识别力的惩罚函数)。其中的子编码识别准则不但可以用每个子字典的重构误差来识别，还可以用每个子字典上的编码系数大小来识别，全编码识别准则根据整个字典上的编码系数来识别。联合这两个识别准则设计出基于子编码和全编码联合惩罚的字典学习识别准则，可有效提高语音情感的识别率。

【发明内容】

[0006]本发明针对【背景技术】中字典学习未同时考虑子编码和全编码惩罚函数，而且未发现基于稀疏表示的语音情感识别技术的缺陷，提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统，将基于子编码和基于全编码的惩罚函数相结合进行联合惩罚的稀疏表示字典学习方法，并提供了基于联合惩罚稀疏表示字典学习的语音情感识别技术，最终提高语音情感的识别率。
[0007]为了实现上述目的，本发明实施例提供的技术方案如下:
[0008]一种联合惩罚稀疏表示字典学习的语音情感识别方法，所述方法包括:
[0009]S1、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A ；
[0010]S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典D ;
[0011]S3、对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量I ;
[0012]S4、将测试样本特征向量y在字典?上进行稀疏编码得到编码系数& ；
[0013]S5、根据字血/)学习的识别准则进行识别。
[0014]作为本发明的进一步改进，所述步骤SI具体包括:
[0015]对训练样本库中的每个情感语音信号进行预处理，预处理包括预加重、加窗处理、分帧、端点检测；
[0016]对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征，并在情感语音信号上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征；
[0017]将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。
[0018]作为本发明的进一步改进，所述步骤S2中子编码和全编码联合惩罚的字典学习
方法的目标函数为:
[0019]
【权利要求】
1.一种联合惩罚稀疏表示字典学习的语音情感识别方法，其特征在于，所述方法包括: 51、对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A ； 52、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典； 53、对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量y ； 54、将测试样本特征向量y在字典?上进行稀疏编码得到编码系数?; 55、根据字典?学习的识别准则进行识别。
2.根据权利要求1所述的方法，其特征在于，所述步骤SI具体包括: 对训练样本库中的每个情感语音信号进行预处理，预处理包括预加重、加窗处理、分帧、端点检测；对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征，并在情感语音信号上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征；将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。
3.根据权利要求1所述的方法，其特征在于，所述步骤S2中子编码和全编码联合惩罚的字典学习方法的目标函数为:
4.根据权利要求3所述的方法，其特征在于，所述步骤S2具体为: 对训练样本特征矩阵A进行预处理；初始化A'和D'，将A'和D'的每一列都归一化；固定字典D'更新编码系数X'，目标函数简化为
5.根据权利要求3所述的方法，其特征在于，所述标量参数λ，η，μ采用5倍交叉验证方法获得。
6.根据权利要求1所述的方法，其特征在于，所述步骤S3具体为: 对测试样本库中的每个情感语音信号进行预处理，预处理包括预加重、加窗处理、分帧、端点检测；对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征，并在情感语句上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征，每个情感语音信号得到各自的测试样本特征向量I。
7.根据权利要求1所述的方法，其特征在于，所述步骤S4具体为: 对学习得到的字典D'进行预处理；将测试样本特征向量I在字典0上进行`稀疏编码。
8.根据权利要求1所述的方法，其特征在于，所述步骤S5中字Ad学习的识别准则为:
9.一种如权利要求1所述的联合惩罚稀疏表示字典学习的语音情感识别系统，其特征在于，所述系统包括: 字典学习模块，用于: 对训练样本库中每个情感语音信号进行特征提取和处理，得到训练样本特征矩阵A ;用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典? ；稀疏表不模块，用于: 对测试样本库中的情感语音信号进行特征提取和处理，每个测试样本得到各自的测试样本特征向量I ; 将测试样本特征向量I在字典? ―上进行稀疏编码得到编码系数? ; 识别模块，用于: 根据字典6学习的识别准则进行识别。
【文档编号】G10L25/63GK103594084SQ201310503631
【公开日】2014年2月19日申请日期:2013年10月23日优先权日:2013年10月23日
【发明者】毛启容, 董俊健, 黄正伟, 王新宇, 邢玉萍, 詹永照申请人:江苏大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛启容;董俊健;黄正伟;王新宇;邢玉萍;詹永照
技术所有人：江苏大学
我是此专利的发明人