本发明涉及情绪识别技术及多模态学习领域,具体涉及一种情景上下文辅助的多模态情绪识别方法。
背景技术:
1、随着人工智能技术的快速发展,情绪识别技术逐渐成为个性化服务、心理健康监测和人机交互等领域的重要组成部分。多模态情绪识别技术借助于结合视觉、语音和文本等多种信息源,可以有效捕捉情绪的多样性和复杂性,从而为相关应用提供更为精准的情绪分析工具。
2、情景上下文这种包含情景语义、社交互动和环境线索的复合信息,为情绪识别提供了关键的语义背景。然而,现有情绪识别研究对情景上下文的联合建模仍缺乏相关探索,相关情绪识别技术仍面临诸多挑战,限制了其实际应用效果。具体表现在以下几个方面:
3、情景上下文的标注与建模难题:当前情绪识别研究中,对于情景上下文的标注过程复杂且成本高昂,往往依赖人工进行标注,无法实现大规模的数据处理。
4、数据驱动的情景上下文建模稳定性问题:许多情绪识别方法主要基于数据驱动的全局建模技术,但在实际应用中,数据常常受到外界噪声和环境变化的影响,在复杂或动态的环境中,情景上下文信息稳定性不足影响了识别的准确率和模型的适应性。
5、跨模态互补信息的协同利用不足:现有方法在多模态融合方面未能有效协调情景上下文信息与人物主体之间的关系,这导致情绪识别系统整体性能受限,如对情绪的判断过于片面化。
6、因此,需要新的融合策略,以充分挖掘不同模态间的信息关联,形成更全面且一致的情绪表征。
技术实现思路
1、发明目的:本发明的目的是提供一种情景上下文辅助的多模态情绪识别方法,旨在通过大语言模型整合视觉、语音和文本三种模态的信息,提高情绪分类的准确性和有效性。
2、技术方案:为实现上述目的,本发明所述的情景上下文辅助的多模态情绪识别方法,包括以下步骤:
3、s1、构建情绪数据集,其中每组数据si中包括视频帧数据ii、语音数据ai和文本数据ti,i表示数据的情绪类别;
4、s2、提取视频帧数据ii中人物眼动序列信号ei,并利用动态时空提取网络gi1提取人物眼动序列信号ei的动态时空视图下的特征dii1;
5、s3、利用静态局部提取网络gi2、全局上下文提取网络gi3,提取视频帧数据ii的静态局部视图下的特征dii2与全局上下文视图下的特征dii3;
6、s4、利用语音特征提取网络ga提取语音数据ai的语音模态特征dai;
7、s5、对文本数据ti进行分词处理,获得词语序列向量dti;
8、s6、将特征dti、dii1、dii2、dii3、dai进行concat拼接,得到特征di(dti,dii1,dii2,dii3,dai);
9、s7、利用训练好的大语言网络模型对特征di(dti,dii1,dii2,dii3,dai)进行情绪分类,获得数据si情绪分类结果。
10、优选地,所述人物眼动序列信号ei的提取方法为:利用工具retinaface库对视频帧数据ii进行人脸检测,定位到人脸边界框及面部关键点,从面部关键点中提取眼动帧级特征,将眼动帧级特征按时间对齐后构成时序信号ei。
11、优选地,所述动态时空视图下的特征dii1提取方法为:将序列信号ei输入动态时空提取网络gi1,网络gi1中时空块嵌入层先获取序列信号ei位置信息,输出的特征向量经过掩码处理后,依次进入编码层、mlp层、解码层、mlp层处理,输出为含有有效时空信息的原始时空视觉特征,原始时空视觉特征输入一个参数可训练的一维线性映射层,得到动态时空视图下的特征dii1。
12、优选地,所述静态局部视图下的特征dii2提取方法为:将视频帧数据ii输入静态局部提取网络gi2,在网络gi2中依次经过卷积映射层、编码层、mlp层处理,输出为含有有效静态局部信息的原始静态局部视图特征,原始静态局部视图特征输入一个参数可训练的一维线性映射层,得到静态局部视图下的特征dii2。
13、优选地,所述全局上下文视图下的特征dii3提取方法为:将视频帧数据ii作为视觉数据输入全局上下文提取网络gi3中的视觉编码模块,在视觉编码模块中依次经过卷积映射层、编码层、mlp层处理,输出为原始全局上下文视图特征;将视频帧数据ii的分类标签数据y作为文本数据输入全局上下文提取网络gi3,在网络gi3中经过mlp层处理后,输出的特征向量进入clip网络的预训练文本编码器模块,获得文本编码,计算文本编码与原始全局上下文视图特征的余弦相似度,将余弦相似度作为指导信息指导视觉编码模块的训练;最终将训练好的视觉编码模块的输出特征输入一个参数可训练的一维线性映射层,得到全局上下文视图下的特征dii3。
14、优选地,所述语音模态特征dai提取方法为:将语音数据ai输入语音模态特征提取网络ga,在网络ga中经过位置编码层提取语音的时空位置信息,输出的特征向量进入vit编码层、mlp层处理,输出为原始语音模态特征,原始语音模态特征输入一个参数可训练的一维线性映射层,得到语音特征dai。
15、优选地,所述词语序列向量dti获取方法为:利用预训练分词工具bert tokenizer预定义的规则和词汇表对文本数据ti进行基础切分,通过双向最大匹配算法对基础切分后可能存在的歧义词语进行修正,修正后再过滤停用词与低频词,得到规范化的词语序列向量dti。
16、优选地,所述大语言网络模型的训练过程为:训练数据为特征di及情绪标签,训练过程中,冻结模型其它参数,对最后一层进行微调训练,并迭代更新最后一层参数,直到模型收敛;
17、所述网络gi1~gi3,以及网络ga训练数据为数据si及标签,在训练过程不断网络参数,直至模型收敛。
18、优选地,网络gi1~gi3、网络ga以及大语言网络最后一层参数迭代更新方法为:利用ε-greedy策略进行决策选择来更新,表达式如下:
19、
20、其中,θg为gi1~gi2、网络ga中训练的网络的参数,为网络gi3的参数,θb为大语言网络的参数,α为学习率,为gi1~gi2、网络ga中训练的网络梯度,为大语言网络的梯度,为大语言网络的梯度,lossb为网络b的输出逻辑交叉熵损失,为网络gi3中的视觉编码特征与文本编码特征的相似度损失。
21、优选地,网络gi1~gi3、网络ga以及大语言网络最后一层参数迭代更新方法为:通过最小化全连接层输出值与真实类别值的交叉熵lossb,并利用梯度下降优化算法来进行更新,表达式如下:
22、
23、其中,x包括网络gi1~gi2、网络ga以及大语言网络,是大语言网络对第i个样本的情绪类别输出概率,yi为第i个样本的真实情绪类别,fimage(i)表示数据i输入视觉编码模块fimage后得到的视觉特征,ftext(t)是标签数据t输入文本编码模块ftext后得到的文本特征,|| ||表示正则化操作。
24、有益效果:本发明具有如下优点:1、本发明通过将情绪识别过程分解为视觉模态、语音模态和文本模态三个层次化的情境感知模块,并引入深度学习特征提取与动态融合机制,有效解决了多模态情绪识别中常见的特征冗余和语义缺失问题;
25、2、创新性地构建了上下文-人物交互的动态表征空间,能够自适应地捕捉场景语义与个体情绪表达之间的关联性,显著提高了对复杂情感状态的判别能力;
26、3、通过对多模态特征的上下文感知融合,实现了更精确的情绪语义理解,使系统在保持高鲁棒性的同时,对微妙情绪变化的敏感度得到明显提升,从而为构建更加人性化的智能情绪识别系统提供了有效解决方案。
27、4、解决了现有研究在多模态情绪识别中面临的数据驱动全局建模的稳定性不足以及情景表征与人物主体互补关系的融合低效问题,有效推进了"以人物为中心、情景上下文辅助"的多模态情绪识别理论体系的完善,为复杂现实场景下的情绪分析提供了更可靠的解决方案,特别是在医疗监护、智能教育等对情绪识别鲁棒性要求严格的领域展现出重要的实用价值。