一种基于图神经网络的多模态对话情感识别方法及系统与流程

文档序号:34885651发布日期:2023-07-25 15:36阅读:71来源:国知局
一种基于图神经网络的多模态对话情感识别方法及系统与流程

本发明涉及情感计算,具体涉及一种基于图神经网络的多模态对话情感识别方法及系统。


背景技术:

1、对话情感识别任务(emotion recognition in conversation,erc)旨在使机器能够利用多感官数据(包括文本、视觉和听觉信息等)检测对话中交互的人类情感。与在单一模态(例如文本、语音或面部图像)下或在非对话场景中进行的传统情感计算任务不同,erc任务中存在一项独特且关键的挑战,即跨模态和上下文维度的多变量复杂关系。

2、研究人员一直在探索如何更有效地捕捉这其中复杂的关系。在现有的erc模型中,一个主要的方式是使用上下文感知模块(如循环单元或transformer)来捕获上下文关系,同时通过各种融合方法对多模态关系进行建模。尽管取得了一些进展,但这种方式往往低估了模态和上下文之间的多变量关系,因为它以松散耦合的方式编码多模态和上下文关系,限制了其中的自然相互作用,导致关系的学习不够充分。

3、最近,图神经网络(graph neural network,gnn)在捕获数据关系方面显示出一定优势,为对话情感识别提供了新的解决方案。一种通常的解决方法是构建一个异构图,其中将话语的每个模态视为一个节点,并与同一话语的其他模态连接以及与同一对话中相同模态的话语连接。通常会遵循精心调整的边缘加权策略。在此基础上,可以通过消息传递同时对话语之间的多模态和上下文依赖关系进行建模,从而提供更紧密的纠缠和更丰富的交互。尽管这些基于gnn的方法非常强大,但它们仍然存在两个局限性:

4、i)多变量关系建模不充分。传统的gnn假定感兴趣对象拥有成对关系,并且只能通过多个成对组合提供高阶和多变量关系的近似。然而,将这些多变量关系退化为成对组合可能会损害表达能力。因此,现有的基于gnn的方法可能无法充分建模erc中复杂的多变量关系。

5、ii)低估高频率信息。研究已经表明,gnn的传播规则(即聚合和平滑来自邻居节点的消息)类似于固定的低通滤波器,并且图中流动的主要是低频消息,而高频信息的效果大幅减弱。此外,有研究表明低频消息能保留节点特征的共性,且在同配图上表现更好(同配图即是图中相链接的节点往往具有相似的特征并共享相同的标签)。相比之下,反映差异和不一致的高频信息在异配图中更为重要。对于erc,构建的图通常具有高度异配性,其中模态或短距离上下文之间可能存在不一致的情感信息。因此,高频信息可能会提供关键的指导,但是以前基于gnn的erc模型严重忽略了这一点,从而导致性能提升的瓶颈。


技术实现思路

1、本发明的目的在于提供一种基于图神经网络的多模态对话情感识别方法及系统,通过研究模态和上下文之间的多元关系,充分利用反映情感差异和情感共性的不同频率信息,以能够提高对话情感识别的准确性和效率。

2、本发明解决上述技术问题的技术方案如下:

3、本发明提供一种基于图神经网络的多模态对话情感识别方法,所述基于图神经网络的多模态对话情感识别方法包括:

4、s1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;

5、s2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;

6、s3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;

7、s4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;

8、s5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。

9、可选择地,所述s1包括:

10、s11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;

11、s12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;

12、s13:计算说话人的嵌入表征;

13、s14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。

14、可选择地,所述s11包括:

15、

16、所述s12包括:

17、

18、

19、其中,表示文本编码数据,表示听觉编码数据,表示视觉编码数据,表示双向门控循环单元函数,表示输入对话的文本特征,表示或即输入双向门控循环单元的文本下文或上文,w1表示第一全连接网络,表示输入对话的听觉特征,表示听觉偏置,w2表示第二全连接网络,表示输入对话的视觉特征,表示视觉偏置;

20、所述s13包括:

21、si=wssi

22、其中,si为第i轮对话的说话人的嵌入特征,ws为可训练的权重,si为独热向量表示每个说话人;

23、所述s14包括:

24、

25、其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,表示文本编码数据;当x=a时,表示听觉编码数据;当x=v时,表示视觉编码数据,si表示说话人嵌入表征。

26、可选择地,所述s2包括:

27、s21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;

28、s22:构建各第一节点的多模态超边和上下文超边;

29、s23:分别为各超边和各第一节点分配权重;

30、s24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;

31、s25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;

32、s26:重复s25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。

33、可选择地,所述s25包括:

34、

35、其中,v(l)表示第l层的输入且表示超图神经网络中第l层的某节点,vh表示超图中的节点集合,dh表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,we为超边权重矩阵且diag()表示对角矩阵,w()表示权重,e1表示第1条超边,表示|εh|超边,εh表示超图中超边的集合,和分别是节点度矩阵和超边度矩阵,h表示超图节点与边连接的关联矩阵且表示加权关联矩阵且t表示转置操作。

36、可选择地,所述s3包括:

37、s31:根据所述说话人和上下文感知的单模态表示,确定多个第二节点;

38、s32:根据所有第二节点,构建无向图;

39、s33:分别利用所述高通滤波器和所述低通滤波器提取所述无向图中当前节点节点特征的高频消息和低频消息;

40、s34:利用加权和组合所述高频消息和所述低频消息;

41、s35:根据邻居节点的高频信号和所述低频消息对当前节点的权重贡献,考虑当前节点和邻居节点之间的相关性,确定当前节点的主导信息以及是否接收当前节点和邻居节点之间的差异信息;

42、s36:将所述主导信息和差异信息传播至整张无向图上,通过堆叠k层,以使各第二节点接收来自k跳邻居节点的多频率信号;

43、s37:将最后一层的输出作为多频率表征数据。

44、可选择地,所述s32中,所述无向图的邻接矩阵为:

45、所述无向图的归一化图拉普拉斯矩阵为:其中,dg是一个对角线度矩阵,i为单位矩阵,a为无向图的邻接矩阵,vg为节点;

46、所述s34包括:

47、

48、其中,f(k)为第k层的输入且rl,分别是低频信息和高频信息的权重矩阵,因此上式可以改写为:

49、

50、ni是节点i的邻居节点,nj是节点j的邻居节点,和分别是节点j的低频信息和高频信息对节点i的贡献,满足约束

51、可选择地,所述s4包括:

52、

53、所述s5包括:

54、

55、其中,为输入对话的预测标签,pi表示且w4为可训练的权重矩阵,为归一化后的情感表征且ei表示输入对话的情感特征,pi[τ]表示第τ个类别的概率值,τ表示第τ个类别,b4表示可训练的权重矩阵的偏置,表示多变量表征数据,fix,i∈[1,n],x∈{t,a,v}表示多频率表征数据。

56、可选择地,所述基于图神经网络的多模态对话情感识别方法的损失函数l为:

57、

58、其中,num是对话数量,c(i)是对话i中的语句数量,pij和yi,j分别是对话i中语句j的预测标签概率分布和真实标签,λ是l2的正则化权重,θ表示模型中的所有可训练参数,c(s)表示对话s中的语句数量。

59、本发明还提供一种基于上述的基于图神经网络的多模态对话情感识别方法的多模态对话情感识别系统,所述多模态对话识别系统包括:

60、模态编码模块,所述模态编码模块用于获取说话人和上下文感知的单模态表示;

61、多变量传播模块,所述多变量传播模块用于根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;

62、多频率传播模块,所述多频率传播模块用于提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;

63、情感分类模块,所述情感分类模块用于对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;并根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。

64、本发明具有以下有益效果:

65、1)本发明通过研究模态和上下文之间的多元关系,充分利用反映情感差异和情感共性的不同频率信息,以能够提高对话情感识别的准确性和效率;

66、2)本发明超图中的超边可以连接任意数量的节点,因此可以自然地编码更多元的关系;同时,通过采用一组频率滤波器从节点特征中提取不同的频率成分,在无向图网络上对多频率信息进行建模,从而能够自适应地整合不同的频率信号以捕捉局部邻域中情感差异和情感共性的不同重要性,进而实现自适应的信息共享模式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1