本发明涉及语音处理,具体指一种基于预训练模型的多模态语音情感识别方法及系统。
背景技术:
1、情感识别的过程一般涉及数据集收集、预处理、特征提取、模型开发和评估等阶段,其中特征提取与混合是任务模型设计的核心环节。在传统的语音情感识别中,无论是采用基于物理信号变化的频谱特征、韵律特征、梅尔频率倒谱系数,还是gemaps、llds等基于统计的特征,这些方法通常面临情感语义表达不足的问题。而在文本特征提取方面,基于预训练的语言模型(如bert)已经逐渐取代了传统的word2vector,bow等方法。
2、现有的语音情感识别方法及系统依然存在诸多缺陷:
3、1.参与融合的特征本身来自于一些过时的传统方法,本身语义有限。
4、2.模型混合策略过于简单,没有考虑到到多模态特征之间的相关性
5、3.有的模型虽然使用了注意力机制来希望模型关注到指定的信息,但往往忽略了不同层次特征之间的关联性,导致模型的情感分析能力不强。
6、4.当前已有的融合模块侧重于关注于不同模态的特征之间的相关性,而没有一个主导的特征在模型的特征的融合过程中充当导向作用。
技术实现思路
1、本发明针对现有技术的缺陷提供了一种基于预训练模型的多模态语音情感识别方法及系统,分别利用语音情感预训练模型,文本预训练模型和音频预训练模型提取多模态特征,并基于注意力机制提出了一种以语音情感为导向的融合策略,显著提高了语音情感的预测准确率。
2、为了解决上述技术问题,本发明的技术方案为:
3、一种基于预训练模型的多模态语音情感识别方法,包括如下步骤:
4、步骤1、获取数据集,所述数据集中包括若干数据对,所述数据对包括相对应的文本的数据和音频数据,每个所述数据对设置有情感标签;
5、步骤2、从文本数据中获取文本语义特征,从同一数据对中的音频数据获取音频声学特征和语音情感特征;
6、步骤3、将文本语义特征、音频声学特征和语音情感特征进行特征融合,获得融合特征;
7、步骤4、将融合特征输入至线性分类器当中,通过softmax层后将其输出作为每一种情感的得分,取得分最大值对应的情感标签所对应的情感作为识别结果。
8、作为优选,所述步骤2中,利用文本预训练模型roberta从文本数据中提取文本语义特征;
9、作为优选,所述步骤2中,利用音频预训练模型wav2vec2.0模型提取音频声学特征;
10、作为优选,所述步骤2中,利用语音情感预训练模型emotion2vec提取语音情感特征。
11、作为优选,所述特征融合的方法为:
12、首先,分别将文本语义特征、音频声学特征和语音情感特征作为输入,通过transformer架构中的查询、键、值生成策略,得到基于文本语义特征t的查询qt、键kt、值vt;基于音频声学特征a的查询qa、键ka、值va;得到基于语音情感特征e的查询qe、键ke和值ve;
13、将语音情感特征e的查询qe作为cae模块的查询输入,把文本语义特征的键kt和值vt,作为cae模块的键和值输入,如下式所示,
14、
15、由此得到了基于情感指导的语音特征,把最终输出表示为g=(g1,g2,…,gm-1),gi∈rd;
16、将语音情感特征e的查询qe作为cae模块的查询输入,把音频声学特征的键ka和值va,作为cae模块的键和值输入,如下式所示,
17、由此得到了基于情感指导的文本特征,把最终输出表示为h=(h1,h2,…,hm-1),hi∈rd;
18、然后,将基于情感指导的语音特征和基于情感指导的文本特征进行级联,获得了基于情感指导的混合特征p:
19、p=contact(avg(h),avg(g))
20、其中p∈r2d,
21、最后,将原始语音情感特征e池化之后再与混合情感特征p级联,得到:
22、pcontext=contact(p,avg(e))。
23、作为优选,所述步骤4中,融合过后的融合特征pcontext,通过线性变换和softmax激活函数输出预测标签表达式如下:
24、
25、其中wc∈r2d×4,表示线性层的权重矩阵,是添加的偏置。
26、作为优选,所述线性分类器采用交叉熵lce,表达式如下:
27、
28、本发明还提供了一种基于预训练模型的多模态语音情感识别系统,包括:
29、特征提取模块,用于提取文本语义特征、音频声学特征和语音情感特征;
30、特征融合模块,用于将提取的文本语义特征、音频声学特征和语音情感特征进行特征融合;
31、线性分类器,用于输入融合特征,通过softmax层后将其输出作为每一种情感的得分,取得分最大值对应的情感标签所对应的情感作为识别结果。
32、作为优选,所述特征提取模块包括
33、文本预训练模型roberta,用于提取文本语义特征;
34、音频预训练模型wav2vec2.0模型,用于提取音频声学特征;
35、语音情感预训练模型emotion2vec,用于提取语音情感特征。
36、作为优选,所述特征融合模块包括前馈神经网络、第一交叉感知注意力编码结构、第二交叉感知注意力编码结构和特征连接模块,
37、所述前馈神经网络,用于调整特征形状,作为交叉感知注意力编码器的输入;
38、所述第一交叉感知注意力编码结构,用于提取文本语义特征与语音情感相关的部分得到语音情感为导向的文本语义特征;
39、所述第二交叉感知注意力编码器,用于提取音频声学特征与语音情感相关的部分得到语音情感为导向的音频声学特征;
40、所述特征连接模块,用于连接语音情感为导向的文本语义特征、语音情感为导向的音频声学特征和语音情感特征。
41、本发明具有以下的特点和有益效果:
42、采用上述技术方案,本发明基于预训练模型的多模态融合语音情感识别方法,使用不同的预训练模型提取文本、音频、语音情感三种信息丰富的多模态特征,利用以语音情感为导向的交叉注意力构建融合网络,充分考虑不同模态在语音情感识别中的贡献差异性,有效利用多模态数据的互补性来优化识别性能。提高了最终语音情感识别结果的准确度。
1.一种基于预训练模型的多模态语音情感识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述步骤2中,利用文本预训练模型roberta从文本数据中提取文本语义特征。
3.根据权利要求1所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述步骤2中,利用音频预训练模型wav2vec2.0模型提取音频声学特征。
4.根据权利要求1所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述步骤2中,利用语音情感预训练模型emotion2vec提取语音情感特征。
5.根据权利要求1所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述特征融合的方法为:
6.根据权利要求5所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述步骤4中,融合过后的融合特征pcontext,通过线性变换和softmax激活函数输出预测标签表达式如下:
7.根据权利要求6所述的一种基于预训练模型的多模态语音情感识别方法,其特征在于,所述线性分类器采用交叉熵lce,表达式如下:
8.一种基于预训练模型的多模态语音情感识别系统,其特征在于,包括:
9.根据权利要求8所述的一种基于预训练模型的多模态语音情感识别系统,其特征在于,所述特征提取模块包括
10.根据权利要求9所述的一种基于预训练模型的多模态语音情感识别系统,其特征在于,所述特征融合模块包括前馈神经网络、第一交叉感知注意力编码结构、第二交叉感知注意力编码结构和特征连接模块,