一种语音情绪识别算法的制作方法

文档序号:24405192发布日期:2021-03-26 16:52阅读:333来源:国知局

1.本发明涉及情绪识别领域,具体地说,是一种语音情绪识别算法。


背景技术:

2.语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出其类别。目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分,将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等;另一种是基于连续维度情感划分,主要通过不同的效价度和激活程度来对不同情感进行区分的。那么作为一个分类任务,特征选择是最关键的一步。
3.casia汉语情感语料库由中国科学院自动化所(institute of automation, chinese academy of sciences)录制,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral),这些语料可以用来对比分析不同情感状态下的声学及韵律表现;这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表现出情感。


技术实现要素:

4.为了解决上述技术问题,本发明提供了一种语音情绪识别算法,基于cnn+mfcc的语音情感识别,利用casia的语音情感数据库进行识别计算,提高计算的精度与可靠性,同时也能便于录音人更准确地变现处情感。
5.为实现上述目的,本发明提供如下技术方案:一种语音情绪识别算法,基于cnn+mfcc的语音情感识别,利用casia的语音情感数据库进行识别计算,其特征在于,主要包括以下步骤:(1)加载声音:getnearestlen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换,然后通过librosa.feature.mfcc函数提取mfcc特征,并将其可视化;(2)从数据集中把语音的mfcc特征提取出来,并对每帧的mfcc取平均,将结果保存为文件;(3)打乱数据集并划分训练数据和测试数据;(4)使用keras定义模型;(5)训练模型;(6)最后对训练好的模型进行测试。
6.本发明进一步改进,所述步骤2中的mfcc的提取主要包括以下几个步骤:1)预滤波:前端带宽为300

3400hz的抗混叠滤波器;2)a/d变换:8khz的采样频率,12bit的线性量化精度;3)预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;4)分帧:通常语音识别所采用语音信号的采样频率为8khz或16khz,以8khz来说,
若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms;5)加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;6)快速傅立叶变换(fast fourier transformation, fft): 对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;7)三角窗滤波: 用一组mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;8)求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;9)离散余弦变换(discrete cosine transformation, dct): 去除各维信号之间的相关性,将信号映射到低维空间;10)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数;11)倒谱均值减(cepstrum mean subtraction, cms):cms可以有效地减小语音输入信道对特征参数的影响;12)差分参数: 在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能;13)短时能量:语音的短时能量也是重要的特征参数,短时归一化对数能量及其一阶差分、二阶差分参数。
7.本发明的有益效果:基于cnn+mfcc的语音情感识别,利用casia的语音情感数据库进行识别计算,提高计算的精度与可靠性,同时也能便于录音人更准确地变现处情感。
具体实施方式
8.下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
9.实施例:一种语音情绪识别算法,基于cnn+mfcc的语音情感识别,利用casia的语音情感数据库进行识别计算,主要包括以下步骤:(1)加载声音:getnearestlen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换,然后通过librosa.feature.mfcc函数提取mfcc特征,并将其可视化;(2)从数据集中把语音的mfcc特征提取出来,并对每帧的mfcc取平均,将结果保存为文件;(3)打乱数据集并划分训练数据和测试数据;(4)使用keras定义模型;(5)训练模型;(6)最后对训练好的模型进行测试。
10.本发明进一步改进,所述步骤2中的mfcc的提取主要包括以下几个步骤:1)预滤波:前端带宽为300

3400hz的抗混叠滤波器;
2)a/d变换:8khz的采样频率,12bit的线性量化精度;3)预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;4)分帧:通常语音识别所采用语音信号的采样频率为8khz或16khz,以8khz来说,若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms;5)加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;6)快速傅立叶变换(fast fourier transformation, fft): 对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;7)三角窗滤波: 用一组mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;8)求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;9)离散余弦变换(discrete cosine transformation, dct): 去除各维信号之间的相关性,将信号映射到低维空间;10)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数;11)倒谱均值减(cepstrum mean subtraction, cms):cms可以有效地减小语音输入信道对特征参数的影响;12)差分参数: 在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能;13)短时能量:语音的短时能量也是重要的特征参数,短时归一化对数能量及其一阶差分、二阶差分参数。
11.以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何标记视为限制所涉及的权利要求。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1