一种建立语音情感识别模型的方法及语音情感识别方法与流程

文档序号：20154338发布日期：2020-03-24 20:24阅读：785来源：国知局

本发明涉及语音信号处理领域，尤其涉及一种建立语音情感识别模型的方法及语音情感识别方法。

背景技术：

随着人工智能技术的发展，计算机变得越来越智能，小爱同学、苹果siri以及更多的智能对话系统走进人们的生活，人们通过智能对话系统与各种各样的机器进行交流互动，但是几乎所有的智能对话系统都无法能够对人的情感进行识别，作出足够智能的反馈。语音中的情绪信息是反应人类情绪的一个十分重要的行为信号，同时识别语音中所包含的情绪信息是实现自然人机交互的重要一环。而目前的人脸识别技术，可以通过对人类的表情进行判断分析，却无法适用于智能外呼场景，在目前的智能外呼领域中情绪识别还是一个比较空白的领域。

技术实现要素：

本发明要解决的技术问题，在于提供一种建立语音情感识别模型的方法及语音情感识别方法，以实现智能外呼领域识别语音所携带的情绪，提高语义的理解精度。

第一方面，本发明提供一种建立语音情感识别模型的方法，所述方法包括：

使用opensmile提取出1584维的情感声学特征；

利用所述情感声学特征作为自然情绪状态的语音训练生成一个ubm通用背景模型；

针对每一类自然情绪状态，在所述ubm通用背景模型的基础上生成每一类自然情绪状态对应的gmm模型；

将所述生成的每一类自然情绪状态对应的gmm模型作为语音情感识别模型。

在上述方案中，所述自然情绪状态包括高兴、悲伤、愤怒和中性。

第二方面，本发明提供一种基于第一方面任一项所述的一种建立语音情感识别模型的方法的语音情感识别方法，包括：

获取语音文件，对语音文件进行vad预处理，根据静音部分将语音文件切分为至少一份音频，同时将至少一份音频转换成声学特征；

将所述声学特征输入语音情感识别模型，获得gmm超向量；

所述gmm超向量作为所述至少一份音频的embedding输入xgboost模型中获得所述至少一份音频的标签；

所述至少一份音频的标签采用bagging算法进行投票，获得所述至少一份音频的标签的投票结果；

将占据多数的投票结果作为最终的输出结果，对语音文件进行情绪打标。

在上述方案中，所述方法还包括：在时间频域上，切除语音文件的静音部分，获得切分后的至少一份音频。

本发明的有益效果是：基于上述技术方案，本发明实施例提供一种建立语音情感识别模型的方法及语音情感识别方法，只需通过少量语料即可训练出一个基于gmm-ubm的语音情感识别模型，做到用户语音情感的正确识别；同时该模型能够做到实时识别，在线上使用，可做到毫秒响应；其次该模型维护成本低，只需收集badcase重新训练模型即可实现对各种语音情绪的识别。

附图说明

图1为本发明提供的一种建立语音情感识别模型的方法的流程示意图；

图2为本发明提供的一种语音情感识别方法的流程示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例将对本发明提供的一种建立语音情感识别模型的方法及语音情感识别方法进行具体说明。

参考图1,如附图1所示为本发明提供的一种建立语音情感识别模型的方法的流程示意图，包括：

s101，使用opensmile提取出1584维的情感声学特征；

opensmile(开源媒体大型特征空间提取工具包)是一个模块化的、灵活的特征提取器，基于opensmile提取的情感特征集合包括1582维情感声学特征，包括34个低级描述符(lld)和34个相应的差分作为68个lld轮廓值，在此基础上应用21个函数得到1428个情感声学特征，另外，对4个基于音高的lld及其4个delta系数应用了19个函数得到152个情感声学特征，最后附加音高(伪音节)的数量和总数输入的持续时间(2个特征)。

具体地，所提取的低级描述符(lld)包括：

基频特征，包括均值，方差，差分及平滑轮廓曲线等；均方根信号能量特征及其平滑的轮廓线；梅尔倒谱系数mfcc；线性预测系数(lpc)；差分帧间抖动(jitter)。

可以理解，基于上述opensmile(开源媒体大型特征空间提取工具包)提取出1584维的情感声学特征作为训练数据以涵盖各种环境的语音对ubm通用背景模型进行训练。

s102，利用所述情感声学特征作为自然情绪状态的语音训练生成一个ubm通用背景模型；

可以理解，在缺少情绪语料的情况下，数据无法有效刻画说话人情绪特征空间的概率分布，因此引入ubm通用背景模型以自适应出每个情绪对应的情绪识别模型，ubm通用背景模型的训练数据为基于opensmile(开源媒体大型特征空间提取工具包)提取出的1584维的情感声学特征。

在一个示例中，采用em算法对ubm通用背景模型进行训练，ubm通用背景模型为混合阶数为m的高斯混合模型，ubm通用背景模型使用模型参数λ＝{ωi，μi，∑i}，i＝1,2…m来表示。

s103，针对每一类自然情绪状态，在所述ubm通用背景模型的基础上生成每一类自然情绪状态对应的gmm模型；

可以理解，上述的每一类自然情绪状态包括高兴、悲伤、愤怒和中性，或是还包括恐惧或惊奇中的任意一种或两种。

在一个示例中，根据已经给定的ubm通用背景模型和上述四种自然情绪状态的训练矢量，对ubm通用背景模型进行参数微调确定gmm模型，包括计算出训练矢量在ubm通用背景模型中的概率分布；利用训练矢量的概率分布和混合加权值，平均值向量，方差进行充分统计；最后将新的充分统计量用以更新ubm通用背景模型的充分统计量获得gmm模型。

s104，将所述生成的每一类自然情绪状态对应的gmm模型作为语音情感识别模型。

参考图2，如附图2所示为本发明提供的一种基于建立语音情感识别模型的方法的语音情感识别方法的流程示意图，包括：

s201，获取语音文件，对语音文件进行vad预处理获得至少一份音频并转换成声学特征；

针对步骤s201，根据静音部分将语音文件切分为至少一份音频，同时将至少一份音频转换成声学特征。

在一个示例中，在时间频域上，切除语音文件的静音部分，获得切分后的至少一份音频。

将语音文件的时域作为x轴，语音文件的声压作为y轴建立一个二维的坐标系，由于语音信号是持续波动的信号，一段语音信号在二维坐标系的表现形式为存在至少一份音频以及大于等于0个的静音段，将语音文件中大于等于0个的静音段进行切除，获得至少一份音频，并将至少一份音频转换成声学特征。

s202，将所述声学特征输入语音情感识别模型，获得gmm超向量；

s203，所述gmm超向量作为所述至少一份音频的embedding输入xgboost模型中获得所述至少一份音频的标签；

具体的，所述极限梯度增强(extremegradientboosting，xgboost)模型是一种用于分类与回归问题的机器学习模型，其主要思想是通过整合较多的弱分类器(如决策树)从而实现一个强分类器的功能。也就是说，xgboost模型由多个弱分类器构成，将一个输入数据分别输入至多个弱分类器后得到多个输出结果，并将多个数据结果进行叠加，以得到最终输出数据。

在一个示例中，将gmm超向量作为至少一份音频的embedding(向量空间的映射)输入xgboost模型中获得所述至少一份音频的标签。

s204，所述至少一份音频的标签采用bagging算法进行投票，获得所述至少一份音频的标签的投票结果；

针对步骤s204，上述的投票结果为语音自然情绪状态包括高兴、悲伤、愤怒和中性中的任意一种。

s205，将占据多数的投票结果作为最终的输出结果，对语音文件进行情绪打标。

针对s205，例如投票结果中高兴的票数为1，悲伤票数为0，愤怒票数为0，中性票数为0，占据多数票数的高兴作为最终语音文件的情绪识别结果，对该语音文件进行高兴的情绪打标。

基于上述技术方案，本发明实施例基于gmm-ubm实现建立语音情感识别模型的方法及语音情感识别方法，只需少量的情绪语料训练ubm通用背景模型，再基于ubm通用背景模型自适应生成gmm模型作为语音情感识别模型，同时基于上述语音情感识别模型实现实时的语音情感识别。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王磊
技术所有人：浙江百应科技有限公司
我是此专利的发明人

上一篇：一种直升机多舱双制式环境控制系统的制作方法
上一篇：一种消炎面膜的制作方法