本技术涉及情绪识别,具体而言,本技术涉及一种多模态情绪识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术:
1、随着深度学习技术的不断突破,情绪识别技术近年来取得了长足的进步,基于深度学习的模型,如循环神经网络和卷积神经网络等,能够从视频的图像中识别出面部表情、肢体语言和头部姿态等多模态信息,对音视频中进行情绪识别和判断。
2、现有的情绪识别方法,多用单一的图像识别或声音识别,将图像和声音输入同一个模型得到识别结果,但是单独依赖音频或视频都存在信息不完整的局限,导致情绪识别错误,可信度和准确度较低。
技术实现思路
1、本技术实施例提供了一种多模态情绪识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,旨在解决单独的图像或音频识别得到的情绪结果不够准确的技术问题。
2、第一方面,提供了一种多模态情绪识别方法,该方法包括:
3、获取待识别音视频;待识别音视频包括音频流和视频流;
4、对音频流进行分段,得到至少一个音频段;
5、将各音频段输入音频识别模型,得到音频识别结果;
6、根据音频识别结果为情绪结果的目标音频段,在视频流中确定对应的视频段;
7、将视频段输入视频识别模型,得到视频识别结果;
8、基于音频识别结果和视频识别结果,确定待识别音视频的目标情绪结果。
9、可选的,将各音频段输入音频识别模型,得到音频识别结果,包括:
10、对各音频段进行特征工程,得到各音频段对应的音频特征向量;音频特征向量包含音频段的频率变化、幅度变化、音调和音色;
11、将各音频段对应的音频特征向量逐个输入音频识别模型,得到各音频段对应的音频识别结果。
12、可选的,对各音频段进行特征工程,得到各音频段对应的音频特征向量,包括:
13、对各音频段进行分帧,得到多个音频帧;
14、对各音频帧进行频率分析,得到频率特征向量;频率特征向量包括频谱质心数据、频谱离散度数据、频谱坡度数据和频谱滚动数据;
15、对各音频帧进行幅度分析,得到幅度特征向量;幅度特征向量包括瞬时幅度、幅度包络、能量数据、过零率数据和响度数据;
16、对各音频帧进行音调分析,得到音调特征向量;音调特征向量包括基频数据、基频时序数据和谐波数据;
17、对各音频帧进行音色分析,得到音色特征向量;音色特征向量包括梅尔频率倒谱系数数据、色度特征数据和线性预测系数数据;
18、将各音频帧对应的频率特征向量、幅度特征向量、音调特征向量和音色特征向量进行聚合,得到各音频段对应的音频特征向量。
19、可选的,将视频段输入视频识别模型,得到视频识别结果,包括:
20、对各视频段进行特征工程,得到各视频段对应的视频特征向量;视频特征向量包含视频段的人脸变化特征、动作变化特征和场景变化特征;
21、将各视频段对应的视频特征向量逐个输入视频识别模型,得到各视频段对应的视频识别结果。
22、可选的,视频段包括多个图像帧;
23、将视频段输入视频识别模型,得到视频识别结果之后,还包括:
24、将各图像帧输入图像识别模型,得到图像识别结果和对应的置信度;
25、基于图像识别结果和对应的置信度,得到视频段的图像识别结果和对应的图像识别置信度;
26、获取视频识别结果的视频识别置信度;
27、若图像识别置信度大于视频识别置信度,则基于图像识别结果更新视频识别结果。
28、可选的,将各图像帧输入图像识别模型,得到图像识别结果,包括:
29、对各图像帧进行特征工程,得到各图像帧对应的图像特征向量;图像特征向量包含图像帧的人脸特征、动作特征和场景特征;
30、将各图像帧对应的图像特征向量逐个输入图像识别模型,得到图像识别结果。
31、可选的,基于音频识别结果和图像识别结果,确定待识别音视频的目标情绪结果,包括:
32、确定音频识别结果的第一置信度和视频识别结果的第二置信度;
33、若音频识别结果与视频识别结果不一致,则对比第一置信度和第二置信度,将置信度较高的识别结果作为目标情绪结果。
34、可选的,根据音频识别结果为情绪结果的目标音频段,在视频流中确定对应的视频段,包括:
35、确定音频识别结果为情绪结果的目标音频段;
36、根据目标音频段对视频流进行分段,得到对应的视频段;视频段的起止时间与音频段的起止时间对应。
37、可选的,方法还包括:
38、基于目标情绪结果,确定对应音频段和/或视频段的标记样式;
39、基于对应的标记样式,将目标情绪结果标记在待识别音频段和/或视频段的对应位置上。
40、可选的,方法还包括:
41、响应于用户针对标记后的音视频的查看请求,显示标记后的音视频的音频段标记列表或视频段标记列表;标记列表包括按照时间排序的目标情绪结果标记;
42、响应于用户针对目标情绪结果的标记的选择,播放对应的音频段和/或视频段。
43、第二方面,提供了一种多模态情绪识别装置,该装置包括:
44、音视频获取模块,用于获取待识别音视频;待识别音视频包括音频流和视频流;
45、分段模块,用于对音频流进行分段,得到至少一个音频段;
46、第一识别模块,用于将各音频段输入音频识别模型,得到音频识别结果;
47、视频段确定模块,用于根据音频识别结果为情绪结果的目标音频段,在视频流中确定对应的视频段;
48、第二识别模块,用于将视频段输入视频识别模型,得到视频识别结果;
49、结果确定模块,用于基于音频识别结果和视频识别结果,确定待识别音视频的目标情绪结果。
50、第三方面,提供了一种电子设备,该电子设备包括:
51、存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本技术第一方面中任一项方法的步骤。
52、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本技术第一方面中任一项所示的多模态情绪识别方法。
53、第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本技术第一方面中任一项方法的步骤。
54、本技术实施例提供的技术方案带来的有益效果是:
55、本技术提供的多模态情绪识别方法,通过获取待识别音视频,对待识别音视频中的音频流进行音频情绪识别,若音频识别结果为存在情绪,则确定视频流中对应的视频段,并对视频段进行情绪识别,得到视频识别结果,分别对音频和视频识别设置对应的识别模型,能够更加贴合具体音频或视频的特征,这样得到的音频识别结果和视频识别结果也能够更加准确,基于音频识别结果和视频识别结果得到的目标情绪结果更加可靠且准确。