1.本技术涉及信号处理技术领域,具体涉及一种基于多模态的情感识别方法及相关设备。
背景技术:
2.随着科学技术的飞速发展,越来越多的it学者将日益发达的计算机及网络通讯技术应用到人员信息分析中,实际应用中,情感识别也成为研究热点,但是,目前来看,情感分析结果精准度较差,因此,如何提升情感识别精准度的问题亟待解决。
技术实现要素:
3.本技术实施例提供了一种基于多模态的情感识别方法及相关设备,可以提升情感识别精准度。
4.第一方面,本技术实施例提供一种基于多模态的情感识别方法,应用于电子设备,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,所述方法包括:
5.获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据;
6.将所述语音数据输入到所述语音识别模型,得到语音特征;
7.将所述心电图数据输入到所述心电图识别模型,得到心电图特征;
8.将所述自然语言数据输入到所述自然语言识别模型,得到文本特征;
9.将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
10.第二方面,本技术实施例提供了一种基于多模态的情感识别装置,应用于电子设备,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,所述装置包括:获取单元、提取单元和识别单元,其中,
11.所述获取单元,用于获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据;
12.所述提取单元,用于将所述语音数据输入到所述语音识别模型,得到语音特征;将所述心电图数据输入到所述心电图识别模型,得到心电图特征;以及将所述自然语言数据输入到所述自然语言识别模型,得到文本特征;
13.所述识别单元,用于将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
14.第三方面,本技术实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本技术实施例第一方面中的步骤的指令。
15.第四方面,本技术实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。
16.第五方面,本技术实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本技术实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
17.实施本技术实施例,具备如下有益效果:
18.可以看出,本技术实施例中所描述的基于多模态的情感识别方法及相关设备,应用于电子设备,电子设备配置有多模态网络模型,多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,获取目标对象的多模态数据,多模态数据包括:语音数据、心电图数据、自然语言数据,将语音数据输入到语音识别模型,得到语音特征,将心电图数据输入到心电图识别模型,得到心电图特征,将自然语言数据输入到自然语言识别模型,得到文本特征,将语音特征、心电图特征和文本特征输入到模态融合模型,得到情感识别结果,将同一个对象的语音、心电图以及文本方面的三个维度的特征进行模态融合,再识别相应的情感,能够提升情感识别精准度。
附图说明
19.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1a是本技术实施例提供的一种基于多模态的情感识别方法的流程示意图;
21.图1b是本技术实施例提供的一种多模态网络模型的结构意图;
22.图1c是本技术实施例提供的另一种基于多模态的情感识别方法的流程示意图;
23.图2是本技术实施例提供的另一种基于多模态的情感识别方法的流程示意图;
24.图3是本技术实施例提供的一种电子设备的结构示意图;
25.图4是本技术实施例提供的一种基于多模态的情感识别装置的功能单元组成框图。
具体实施方式
26.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包
括对于这些过程、方法、产品或设备固有的其他步骤或单元。
28.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
29.本技术实施例所描述电子设备可以包括智能手机(如android手机、ios手机、windows phone手机等)、平板电脑、掌上电脑、行车记录仪、服务器、笔记本电脑、移动互联网设备(mid,mobile internet devices)或穿戴式设备(如智能手表、蓝牙耳机)等,上述仅是举例,而非穷举,包含但不限于上述电子设备。
30.本技术实施例中,锚点样本(anchor example)可以理解为用于构建正样本和负样本的基准样本。正样本(positive example)可以理解为与锚点样本属于同一类的样本。负样本(negative example)可以理解为与锚点样本不属于同类的样本。正样本对(anchor-positive)可以理解为锚点样本和正样本组成的样本对。负样本对(anchor-negative)可以理解为锚点样本和负样本组成的样本对。
31.下面对本技术实施例进行详细介绍。
32.请参阅图1a,图1a是本技术实施例提供的一种基于多模态的情感识别方法的流程示意图,如图所示,应用于电子设备,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,本基于多模态的情感识别方法包括:
33.101、获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据。
34.本技术实施例中,目标对象可以为人,可以获取目标对象的多模态信号,多模态数据可以包括:语音数据、心电图数据、自然语言数据,其中,语音数据、心电图数据、自然语言数据可以为同一时间段的数据,自然语言数据可以为语音数据对应的文本数据。
35.具体实现中,如图1b所示,多模态网络模型可以包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型。
36.具体实现中,可以通过麦克风采集语音数据,可以通过可穿戴设备采集心电图数据。可以将语音数据转化为自然语言数据。
37.102、将所述语音数据输入到所述语音识别模型,得到语音特征。
38.本技术实施例中,语音识别模型可以预先设置或者系统默认。语音识别模型可以包括以下至少一种:卷积神经网络模型(cnn)、全连接神经网络模型、循环神经网络模型、wav2vec2.0网络模型等等,在此不做限定。
39.具体实现中,可以通过wav2vec2.0和cnn网络模型提取语音特征,可以将语音数据输入到wav2vec2.0和cnn网络模型,得到语音特征。
40.103、将所述心电图数据输入到所述心电图识别模型,得到心电图特征。
41.本技术实施例中,心电图识别模型可以预先设置或者系统默认。心电图识别模型可以用于对心电图数据进行特征提取,以得到心电图特征,心电图识别模型可以包括以下至少一种:卷积神经网络模型、全连接神经网络模型、循环神经网络模型、2drcn模块等等,在此不做限定。具体实现中,可以针对心电图数据利用sift特征得到光谱图,然后,利用
2dcnn学习空间域的视觉表示,并应用lstm对心电图的光谱图建模,得到心电图特征。
42.104、将所述自然语言数据输入到所述自然语言识别模型,得到文本特征。
43.本技术实施例中,自然语言识别模型可以预先设置或者系统默认。自然语言识别模型可以用于对自然语言数据进行特征提取,得到文本特征,自然语言识别模型可以包括以下至少一种:卷积神经网络模型、全连接神经网络模型、循环神经网络模型、自然语言处理模型(natural language processing,nlp)等等,在此不做限定。具体实现中,可以将自然语言数据输入到自然语言识别模型,得到文本特征。例如,可以利用nlp对文本进行嵌入得到128维向量,当然,以上每个单模态嵌入后的特征维数均可以为128。
44.105、将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
45.本技术实施例中,情感识别结果用于描述情绪类型,情感识别结果可以包括以下至少一种:高兴、悲伤、忧郁、生气、担忧、恐惧、惊吓、平静等等,在此不做限定。
46.具体实现中,如图1c所示,可以基于语音数据、心电图数据、自然语言数据输入对应的模型中,得到相应的语音特征、心电图特征和文本特征,可以将语音特征、心电图特征和文本特征输入到所述模态融合模型,得到情感识别结果。
47.本技术实施例中,可以用于识别人物的情绪活动。
48.可选的,上述步骤105,将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果,可以包括如下步骤:
49.51、将所述语音特征划分为a等份,得到a份语音特征,a为大于1的整数;
50.52、将所述心电图特征划分为a等份,得到a份心电图特征;
51.53、将所述自然语言数据划分为a等份,得到a份文本特征;
52.54、将所述a份语音特征、所述a份心电图特征和所述a份文本特征进行特征混合,得到a份混合特征,每一份混合特征包括一份语音特征、一份心电图特征和一份文本特征;
53.55、确定所述a份混合特征中每一份混合特征中的各种模态不确定度比重作为权重,再根据权重确定相应的加权特征,将各种模态的加权特征作为待选特征,得到a个待选特征;
54.56、将所述a个待选特征进行拼接,得到融合特征;
55.57、根据所述融合特征确定所述情感识别结果。
56.本技术实施例中,将语音特征划分为a等份,得到a份语音特征,a为大于1的整数,将心电图特征划分为a等份,得到a份心电图特征,将自然语言数据划分为a等份,得到a份文本特征,将a份语音特征、a份心电图特征和a份文本特征进行特征混合,得到a份混合特征,每一份混合特征包括一份语音特征、一份心电图特征和一份文本特征,确定a份混合特征中每一份混合特征中的各种模态不确定度比重作为权重,再根据权重确定相应的加权特征,将各种模态的加权特征作为待选特征,得到a个待选特征,将a个待选特征进行拼接,得到融合特征,使得不同模态的特征得以融合,再根据融合特征确定情感识别结果,具体的,可以将融合特征输入到一个神经网络模型中,得到对应的情感识别结果。
57.具体实现中,可以将语音和文本、心跳数据进行mixup操作,能够更新融合后的特征,以及提升融合特征效果,例如,可以将3个模态的xi特征均分成四等份为x
i,1
,x
i,2
,x
i,3
,x
i,4
,接着,再计算每等份的融合特征,根据不确定度公式计算每个模态特征的不确定度di,1
,根据不确定度计算不同模态的特征不确定度所占的比重作为权重,每种模态的权重和特征进行加权和,得到相应的加权特征,将其作为待选特征s1,再者,将每个特征拼接到一起,得到总的特征s=concat(s1,s2,s3,s4)。
58.可选的,上述步骤57,根据所述融合特征确定所述情感识别结果,可以按照如下方式实施:
59.将所述融合特征依次输入翻译编码器、翻译解码器和全连接模块,得到所述情感识别结果。
60.本技术实施例中,可以将融合特征依次输入翻译编码器、翻译解码器和全连接模块,得到情感识别结果,如此,可以识别情感识别。
61.可选的,在步骤101之前,还可以包括如下步骤:
62.采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型;
63.所述预设损失函数由模态内对比学习损失函数和跨模态对比学习损失函数构成。
64.本技术实施例中,预设损失函数可以预先设置或者系统默认。
65.智能设备的广泛应用使数据的多模态融合成为可能性。多模态模型的数据挑选策略可以提升模型的精度和稳定性。另外正负样本对的配对机制可以提升泛化性能,减少数据集的负面影响。因此设计有效的样本挖掘策略至关重要。
66.本技术实施例中,在训练阶段,可以进行数据收集,例如,可以通过管理部门获取多个社区矫正人员的电子手环中的信号、心电信号,录音等连续信号信息,再对这些数据进行预处理,具体的,可以将收集的数据中语音信号,利用语音识别模型,将语音翻译为文字,经人工检查纠正文本信息后,将这段语音、文本和对应的心电信号组成一条数据,再筛选出合格的数据作为初始的训练集与测试集,还可以根据设计的正负样本对选择机制,在训练集中选择正负样本对作为训练集,将生成好的数据输入到多模态模型网络中,利用模型学习各模态的数据特征,充分探索跨模式交互,学习样本间和类间关系,并减少模态差距。然后将多模态特征根据一定策略融合在一起,通过监督方法,使模型学习到情绪分类(快乐、愤怒)。
67.本技术实施例中,可以采用语音与心跳的n-pair联合损失,以优化模型训练。具体的,可以将生成好的数据输入到多模态网络模型中,利用模型学习各模态的数据特征,充分探索跨模式交互,学习样本间和类间关系,并减少模态差距,再将多模态特征根据一定策略融合在一起,通过监督方法,使模型学习到情绪分类(快乐、愤怒)等等。
68.本技术实施例中,针对混合对比学习,本技术实施例中提供了两种在编码单模态表示上操作的对比损失,以在训练阶段执行模式内/模式间学习。通过设计的损失,该模型可以充分了解模态内部和之间的动态,探索类间关系,并最小化模态差距。
69.其中,对比学习的设计方法如下可以包括两部分,分别为:模态内对比学习和跨模态对比学习。其中,模态内对比学习:以有监督的方式执行模态内学习方法,以学习不同样本之间的模态内动力学,在小批量中考虑多个正对和负对。跨模态对比学习:该方式也以监督方式进行,以学习跨模态动力学,这两种方式都探索类间关系。
70.具体实现中,iamcl模态内对比学习方法:即模态内对比学习方法是有监督的,学习模态内动力学和类间的关系。正对为同一模态同一类别的两个不同样本的两个单模态表
示;负对为同一模态不同类别的两个样本的单模态表示。
71.具体的,可以用锚点样本am生成一个大小为k的批次,集合具体如下:
72.s={p
1m
,p
2m
,...,p
nm
,n
1m
,n
2m
,...,n
mm
}
73.其中,上述集合可以由一个锚点生成n个正例和m个负例(n个中没包括锚点),所以k是固定的,但n和m数随机,即正负对数量不固定。则iamcl模态内的损失具体如下:
[0074][0075][0076][0077]
其中,am为锚点样本,pm为与锚点样本同类的正样本,ni为与锚点不同类的负样本。l代表文本,a代表语音,b代表心电图波形。lr为细化损失,使am和pm的向量尽可能相似。es为一个小批次数据s的期望。α为不同模态之间的模态裕度。最终损失为:l
iamcl
和
[0078]
具体实现中,n_pair每次使用n-1个负类样本,一个正类样本。本技术实施例中,可以使用内积运算表示两个向量之间的距离,具体的,可以采用余弦距离算法实现,距离越大说明两个向量越靠近,越小说明越远。
[0079]
具体实现中,当n=2的时候,是近似triplet loss的。triplet loss的痛点在于每次只看一个负类的距离,没有考虑其他所有负类的情况,这就导致了在随机产生的数据对中,每一个数据对并不能有效的保证当前优化的方向能够拉远所有负类样本的距离,这就导致了往往训练过程中的收敛不稳定或者陷入局部最优。
[0080]
本技术实施例中,iemcl:跨模态对比学习,其主要原理是:跨模态对比学习是有监督,跨模态动力学,在不同样本不同模态间交互作用。正对:同一类别不同样本的两个不同模态的单模态表示;负对:不同类别不同样本的两个不同模态的单模态表示。
[0081]
本技术实施例中,由于有三种模态,与iamcl相比,对于尺寸为k的小批量锚点,其正负对的数量是iamcl的两倍。在对所有单峰表示进行softmax归一化后,iemcl损耗可公式化为:
[0082][0083]
在此基础上添加细化损失其定义如下:
[0084][0085][0086]
其中am为锚点样本,pm为与锚点样本同类的正样本,ni为与锚点不同类的负样本。l代表文本,a代表语音,b代表心电图波形。lr为细化损失,使am和pm的向量尽可能相似。es为
一个小批次s的期望。α为不同模态之间的模态裕度,模态间得损失为:l
iemcl
与之和。
[0087]
本技术实施例中,针对模态融合,即经过多个模态提取样本特征后,需要进行融合,以训练模型。本方法设计一种有效的夸模态mixup方法。根据每个模态特征的熵的权重来决定每个样本的mixup概率。假设经过模态提取后,某个单模态的特征为n*1维,将该n维向量xm每一维特征看做一个评价指标。3个模态特征看成3个人的评分。n默认为128维,将向量xm切分成4份,分别设为x
m,1
,x
m,2
,x
m,3
,x
m,4
。接着计算每等份的融合特征,以第一份特征为例:根据不确定度公式计算每个模态的不确定度d
m,l
,取最大的不确定度对应的特征作为待选特征s
m,1
。依次获取第二,第三,第四等份的特征为:s
m,1
,s
m,2
,s
m,3
,s
m,4
。每一份特征的不确定度计算方式如下:
[0088][0089][0090]
其中,l为每个向量xi的特征维数,再此取32。为第m个模态的特征向量x
m,i
的l个维度的平均值,d
m,i
为第m个模态,在x
m,i
向量上的不确定度。m属于文本,语音,心电图波形中的一种。i的取值范围为1,2,3,4即某个模态的128特征向量平均分成第i部分。获取到某个模态的不确定度后,计算多模态融合的特征:
[0091]
λ
m,i
=d
m,i
/(d
a,i
+d
b,i
+d
l,i
)
[0092]
si=λ
a,i
*x
a,i
+λ
b,i
*x
b,i
+λ
l,i
*x
l,i
i∈(1,2,3,4)
[0093]
其中,λ
m,i
代表第m个模态特征第i部分的权重,si为三种模态特征的i部分的加权和,最终多模态融合后特征为:
[0094]
s=concat(s1,s2,s3,s4)
[0095]
整个模型的最终loss值为:l
hybird
=λ1*l
iamcl
+λ2*li
amcl
。其中,λ1、λ2为超参数,控制两个损失的比例。默认λ1,λ2取0.5。
[0096]
可选的,上述步骤,采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型,可以包括如下步骤:
[0097]
s1、构建每个模态内的正负样本对,得到多个第一正负样本对集,每一第一正负样本对集包括多个正负样本对;
[0098]
s2、构建每个模态间的正负样本对,得到多个第二正负样本对集,每一第二正负样本对集包括多个正负样本对;
[0099]
s3、基于所述预设损失函数,采用所述多个第一正负样本对集和所述多个第二正负样本对集对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型。
[0100]
本技术实施例中,可以构建每个模态内的正负样本对,得到多个第一正负样本对集,每一第一正负样本对集包括多个正负样本对,构建每个模态间的正负样本对,得到多个第二正负样本对集,每一第二正负样本对集包括多个正负样本对,基于预设损失函数,采用多个第一正负样本对集和多个第二正负样本对集对多模态网络模型进行训练,得到训练好的多模态网络模型,根据设计的正负样本对选择机制,在训练集中选择正负样本对作为训练集,能够提升每个模态的特征提取效率,有助于提升情感识别精准度。
[0101]
可选的,上述步骤s1,构建每个模态内的正负样本对,可以包括如下步骤:
[0102]
s11、获取第一模态的样本b的n个正样本和m个负样本,第一模态为所述多模态中的任一模态,样本b为所述第一模态的任一样本,n、m均为正整数;
[0103]
s12、确定所述n个正样本对应的nc个正样本聚类中心和所述m个负样本对应的mc个负样本聚类中心,其中nc小于n/2,mc小于m/2;
[0104]
s13、基于所述nc个正样本聚类中心确定n个硬正对;
[0105]
s14、基于所述mc个负样本聚类中心确定m个硬负对;
[0106]
s15、根据所述n个硬正对和所述m个硬负对确定所述第一模态的正负样本对。
[0107]
本技术实施例中,获取第一模态的样本b的n个正样本和m个负样本,第一模态为多模态中的任一模态,样本b为第一模态的任一样本,n、m均为正整数,确定n个正样本对应的nc个正样本聚类中心和m个负样本对应的mc个负样本聚类中心,其中nc小于n/2,mc小于m/2;基于nc个正样本聚类中心确定n个硬正对,基于mc个负样本聚类中心确定m个硬负对,根据n个硬正对和m个硬负对确定第一模态的正负样本对,可以保证数据集中的均匀采样,保证样本的丰富度,又可以尽量选到较难样本,加速模型的训练。
[0108]
其中,配对生成:在模态对比生成阶段,本技术实施例中,利用配对方法生成相应的数据,具体的,假设k个样本组成每个批次,其中,每个样本均可以包括音频、心电图、语音等数据。则在训练阶段,为了加快模型收敛,构建正负样本对。在模型对比汇总时,采用了n个正例和m个负例,可以将k个样本根据同模态分类,同一模态的正类样本聚类成n个中心nc,距离中心nc较近的样本依次与锚点特征点积,以计算各样本与锚点样本的相似性。点积较小代表不太相似,选择最小的样本作为硬正样本pi,每个聚类中心nc选择与锚点点积最小的样本作为正样本;同一模态的负样本聚类成m个中心mc,找出与锚点特征点积较大的样本ni作为硬负样本。通过这种方法,既可以保证数据集中的均匀采样,保证样本的丰富度,又可以尽量选到较难样本,加速模型的训练。
[0109]
本技术实施例中,在同一模态构造正负样本对时,一个样本会对应n个正样本和m个负样本,其中n和m是随机的。从该批次样本,对数据聚类设计n个正样本聚类中心以及m个负样本中心,从正样本聚类中挑选相似度最小的样本组成硬正对,从负样本聚类中心中挑选相似度最大的样本组成硬负对,这种方法可以兼顾平均采样与难样本挖掘。
[0110]
可以看出,本技术实施例中所描述的基于多模态的情感识别方法,应用于电子设备,电子设备配置有多模态网络模型,多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,获取目标对象的多模态数据,多模态数据包括:语音数据、心电图数据、自然语言数据,将语音数据输入到语音识别模型,得到语音特征,将心电图数据输入到心电图识别模型,得到心电图特征,将自然语言数据输入到自然语言识别模型,得到文本特征,将语音特征、心电图特征和文本特征输入到模态融合模型,得到情感识别结果,将同一个对象的语音、心电图以及文本方面的三个维度的特征进行模态融合,再识别相应的情感,能够提升情感识别精准度。
[0111]
与上述图1a所示的实施例一致地,请参阅图2,图2是本技术实施例提供的另一种基于多模态的情感识别方法的流程示意图,应用于电子设备,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,如图所示,本基于多模态的情感识别方法包括:
[0112]
201、采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型;所述预设损失函数由模态内对比学习损失函数和跨模态对比学习损失函数构成。
[0113]
202、获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据。
[0114]
203、将所述语音数据输入到所述语音识别模型,得到语音特征。
[0115]
204、将所述心电图数据输入到所述心电图识别模型,得到心电图特征。
[0116]
205、将所述自然语言数据输入到所述自然语言识别模型,得到文本特征。
[0117]
206、将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
[0118]
其中,上述步骤201-步骤206的具体描述可以参照上述图1a所描述的基于多模态的情感识别方法的相应步骤,在此不再赘述。
[0119]
可以看出,本技术实施例中所描述的基于多模态的情感识别方法,一方面,可以利用模型学习各模态的数据特征,充分探索跨模式交互,学习样本间和类间关系,并减少模态差距,另一方面,可以将同一个对象的语音、心电图以及文本方面的三个维度的特征进行模态融合,再识别相应的情感,能够提升情感识别精准度。
[0120]
与上述实施例一致地,请参阅图3,图3是本技术实施例提供的一种电子设备的结构示意图,如图所示,该电子设备包括处理器、存储器、通信接口以及一个或多个程序,应用于电子设备,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,本技术实施例中,上述程序包括用于执行以下步骤的指令:
[0121]
获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据;
[0122]
将所述语音数据输入到所述语音识别模型,得到语音特征;
[0123]
将所述心电图数据输入到所述心电图识别模型,得到心电图特征;
[0124]
将所述自然语言数据输入到所述自然语言识别模型,得到文本特征;
[0125]
将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
[0126]
可选的,在所述将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果方面,上述程序包括用于执行以下步骤的指令:
[0127]
将所述语音特征划分为a等份,得到a份语音特征,a为大于1的整数;
[0128]
将所述心电图特征划分为a等份,得到a份心电图特征;
[0129]
将所述自然语言数据划分为a等份,得到a份文本特征;
[0130]
将所述a份语音特征、所述a份心电图特征和所述a份文本特征进行特征混合,得到a份混合特征,每一份混合特征包括一份语音特征、一份心电图特征和一份文本特征;
[0131]
确定所述a份混合特征中每一份混合特征中的各种模态不确定度比重作为权重,再根据权重确定相应的加权特征,将各种模态的加权特征作为待选特征,得到a个待选特征;
[0132]
将所述a个待选特征进行拼接,得到融合特征;
[0133]
根据所述融合特征确定所述情感识别结果。
[0134]
可选的,在所述根据所述融合特征确定所述情感识别结果方面,上述程序包括用于执行以下步骤的指令:
[0135]
将所述融合特征依次输入翻译编码器、翻译解码器和全连接模块,得到所述情感识别结果。
[0136]
可选的,上述程序还包括用于执行以下步骤的指令:
[0137]
采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型;
[0138]
所述预设损失函数由模态内对比学习损失函数和跨模态对比学习损失函数构成。
[0139]
可选的,在所述采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型方面,上述程序包括用于执行以下步骤的指令:
[0140]
构建每个模态内的正负样本对,得到多个第一正负样本对集,每一第一正负样本对集包括多个正负样本对;
[0141]
构建每个模态间的正负样本对,得到多个第二正负样本对集,每一第二正负样本对集包括多个正负样本对;
[0142]
基于所述预设损失函数,采用所述多个第一正负样本对集和所述多个第二正负样本对集对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型。
[0143]
可选的,在所述构建每个模态内的正负样本对方面,上述程序包括用于执行以下步骤的指令:
[0144]
获取第一模态的样本b的n个正样本和m个负样本,第一模态为所述多模态中的任一模态,样本b为所述第一模态的任一样本,n、m均为正整数;
[0145]
确定所述n个正样本对应的nc个正样本聚类中心和所述m个负样本对应的mc个负样本聚类中心,其中nc小于n/2,mc小于m/2;
[0146]
基于所述nc个正样本聚类中心确定n个硬正对;
[0147]
基于所述mc个负样本聚类中心确定m个硬负对;
[0148]
根据所述n个硬正对和所述m个硬负对确定所述第一模态的正负样本对。
[0149]
可以看出,本技术实施例中所描述的电子设备,该电子设备配置有多模态网络模型,多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,获取目标对象的多模态数据,多模态数据包括:语音数据、心电图数据、自然语言数据,将语音数据输入到语音识别模型,得到语音特征,将心电图数据输入到心电图识别模型,得到心电图特征,将自然语言数据输入到自然语言识别模型,得到文本特征,将语音特征、心电图特征和文本特征输入到模态融合模型,得到情感识别结果,将同一个对象的语音、心电图以及文本方面的三个维度的特征进行模态融合,再识别相应的情感,能够提升情感识别精准度。
[0150]
图4是本技术实施例中所涉及的一种基于多模态的情感识别装置400的功能单元组成框图。该基于多模态的情感识别装置400应用于电子设备,所述电子设备配置有多模态网络模型,所述多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,所述基于多模态的情感识别装置400可以包括:获取单元401、提取单元
402和识别单元403,其中,
[0151]
所述获取单元401,用于获取目标对象的多模态数据,所述多模态数据包括:语音数据、心电图数据、自然语言数据;
[0152]
所述提取单元402,用于将所述语音数据输入到所述语音识别模型,得到语音特征;将所述心电图数据输入到所述心电图识别模型,得到心电图特征;以及将所述自然语言数据输入到所述自然语言识别模型,得到文本特征;
[0153]
所述识别单元403,用于将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果。
[0154]
可选的,在所述将所述语音特征、所述心电图特征和所述文本特征输入到所述模态融合模型,得到情感识别结果方面,所述识别单元403具体用于:
[0155]
将所述语音特征划分为a等份,得到a份语音特征,a为大于1的整数;
[0156]
将所述心电图特征划分为a等份,得到a份心电图特征;
[0157]
将所述自然语言数据划分为a等份,得到a份文本特征;
[0158]
将所述a份语音特征、所述a份心电图特征和所述a份文本特征进行特征混合,得到a份混合特征,每一份混合特征包括一份语音特征、一份心电图特征和一份文本特征;
[0159]
确定所述a份混合特征中每一份混合特征中的各种模态不确定度比重作为权重,再根据权重确定相应的加权特征,将各种模态的加权特征作为待选特征,得到a个待选特征;
[0160]
将所述a个待选特征进行拼接,得到融合特征;
[0161]
根据所述融合特征确定所述情感识别结果。
[0162]
可选的,在所述根据所述融合特征确定所述情感识别结果方面,所述识别单元403具体用于:
[0163]
将所述融合特征依次输入翻译编码器、翻译解码器和全连接模块,得到所述情感识别结果。
[0164]
可选的,所述装置400还具体用于:
[0165]
采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型;
[0166]
所述预设损失函数由模态内对比学习损失函数和跨模态对比学习损失函数构成。
[0167]
可选的,在所述采用预设损失函数对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型方面,所述装置400具体用于:
[0168]
构建每个模态内的正负样本对,得到多个第一正负样本对集,每一第一正负样本对集包括多个正负样本对;
[0169]
构建每个模态间的正负样本对,得到多个第二正负样本对集,每一第二正负样本对集包括多个正负样本对;
[0170]
基于所述预设损失函数,采用所述多个第一正负样本对集和所述多个第二正负样本对集对所述多模态网络模型进行训练,得到训练好的所述多模态网络模型。
[0171]
可选的,在所述构建每个模态内的正负样本对方面,所述装置400具体用于:
[0172]
获取第一模态的样本b的n个正样本和m个负样本,第一模态为所述多模态中的任一模态,样本b为所述第一模态的任一样本,n、m均为正整数;
[0173]
确定所述n个正样本对应的nc个正样本聚类中心和所述m个负样本对应的mc个负样本聚类中心,其中nc小于n/2,mc小于m/2;
[0174]
基于所述nc个正样本聚类中心确定n个硬正对;
[0175]
基于所述mc个负样本聚类中心确定m个硬负对;
[0176]
根据所述n个硬正对和所述m个硬负对确定所述第一模态的正负样本对。
[0177]
可以看出,本技术实施例中所描述的基于多模态的情感识别装置,应用于电子设备,电子设备配置有多模态网络模型,多模态网络模型包括:语音识别模型、心电图识别模型、自然语言识别模型和模态融合模型,获取目标对象的多模态数据,多模态数据包括:语音数据、心电图数据、自然语言数据,将语音数据输入到语音识别模型,得到语音特征,将心电图数据输入到心电图识别模型,得到心电图特征,将自然语言数据输入到自然语言识别模型,得到文本特征,将语音特征、心电图特征和文本特征输入到模态融合模型,得到情感识别结果,将同一个对象的语音、心电图以及文本方面的三个维度的特征进行模态融合,再识别相应的情感,能够提升情感识别精准度。
[0178]
可以理解的是,本实施例的基于多模态的情感识别装置的各程序模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0179]
本技术实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
[0180]
本技术实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
[0181]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0182]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0183]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
[0184]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0185]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0186]
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0187]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
[0188]
以上对本技术实施例进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。