基于多视角的双极性相似融合网络的多模态情感分析方法

文档序号:37823915发布日期:2024-04-30 17:33阅读:9来源:国知局
基于多视角的双极性相似融合网络的多模态情感分析方法

本发明涉及多模态情感分析,具体涉及基于多视角的双极性相似融合网络的多模态情感分析方法。


背景技术:

1、在实体级多模态情感分析中,实体特征发挥着重要的作用,实体在整个特征融合流程扮演着指引者的作用,引导其他模态特征挖掘有效信息。因此,在设计模型的时候应该将关注点更多的放在实体特征与其他特征的交互行为上。

2、现有的模型使用了实体引导生成文本特征和视觉特征,前者使用了低秩双线性池算子模型获得引导信息,后者使用transformer编码器作为引导器。此外,还通过深度过滤器对视觉特征进行过滤,去除了视觉特征中存在的噪声。

3、但是,在视觉特征提取过程中,现有的模型在视觉特征提取过程中,仅通过一种视角来理解图像,这可能导致对图像的理解过于片面,因此对于某些具有丰富内容的图像来说将会损失掉部分信息。此外,现有的模型重点关注实体特征的引导作用,而轻视了其他特征之间的交互作用。

4、综合上述,现有多模态情感分析对图像的理解过于片面,影响多模态情感分析的识别精度,亟需提出基于多视角的双极性相似融合网络的多模态情感分析方法,提升多模态情感分析的识别精度。


技术实现思路

1、为解决上述问题,本发明提供基于多视角的双极性相似融合网络的多模态情感分析方法,用于充分理解图像,提升图文多模态情感分析的识别精度。

2、为了实现上述目的,本发明的技术方案如下:基于多视角的双极性相似融合网络的多模态情感分析方法,包括如下步骤:

3、s1:将上下文内容和实体内容输入到预训练模型bert中,得到文本上下文特征hc和实体特征he;

4、s2:提取面向对象的图像特征ho,以及面向场景的图像特征hs;

5、s3:构建跨模态双极相似性计算模块,通过跨模态双极相似性计算模块得到视觉特征hvisual;

6、s4:构建视觉相关的文本表示模块,通过视觉相关的文本表示模块得到文本特征htext;

7、s5:构建多模态表示模块,通过多模态表示模块得到多模态特征hfinal;

8、s6:使用一个非线性转换层和softmax分类器计算多模态特征hfinal的情感概率取值,计算过程如下:

9、p(y|hfinal)=softmax(wthfinal+b)

10、其中,wt和b分别为权重矩阵和偏置项,p即为模型预测的情感标签。

11、进一步,提取面向对象的图像特征ho,步骤如下:

12、s211:使用faster r-cnn来提取每个区域的视觉特征;

13、s212:选择提取图像中具有最高置信度的候选框作为图像对象的内容表示;

14、s213:使用平均池化卷积特征作为该区域的特征向量;

15、s214:使用非线性变换,使图像对象特征对其齐到文本特征,具体表示如下:

16、o=faster rcnn(x)

17、ho=woo

18、其中,wo为可学习参数;由此得到面向对象的图像特征ho。

19、进一步,提取面向场景的图像特征hs,步骤如下:

20、s221:使用vgg模型来提取每个区域的视觉特征;

21、s222:选择提取图像中具有最高置信度的候选框作为图像对象的内容表示;

22、s223:使用平均池化卷积特征作为该区域的特征向量;

23、s224:使用非线性变换,将场景图像特征转换到文本特征的语义空间中,具体表示如下:

24、s=vgg(x)

25、hs=wss

26、其中,ws为可学习参数;由此得到了面向场景的图像特征hs。

27、进一步,跨模态双极相似性计算模块得到视觉特征hvisual,步骤如下:

28、s301:通过计算得到相似矩阵s∈rm*n,其中,m和n分别表示场景特征数和文本上下文特征数;

29、s302:计算正极相似性得分,将正极相似性得分进行softmax计算分别得到正极文本上下文特征和正极图像场景特征计算过程如下:

30、

31、

32、s303:计算负极相似性得分,通过负极相似矩阵分别计算出负极文本上下文特征和负极图像场景特征计算过程如下:

33、

34、

35、其中,c为任意常数;

36、s304:使用全连接层聚合正、负极特征,得到最终的双极上下文特征和双极场景特征计算过程如下:

37、

38、

39、其中,wc和ws均属于可学习参数,bi和bj是两个偏置项;

40、s305:将双极场景特征和图像对象特征ho进行拼接,得到最终的视觉特征hvisual:

41、

42、进一步,相似性得分的计算为:

43、加法计算:s=wstanh(hs+hc)

44、或缩放点积计算:

45、其中,ws属于可学习参数,d表示维度数,相似矩阵s中的第i行表示第i个图像场景特征与所有文本上下文特征的相似度得分,第j列表示第j个文本上下文特征与所有图像场景特征的相似度得分。

46、进一步,视觉相关的文本表示模块得到文本特征htext,步骤如下:

47、s401:将实体特征作为查询向量,将文本上下文特征作为被查询向量和内容向量,通过transformer编码器计算注意力向量,得到实体引导的文本上下文特征hec;

48、s402:将图像对象特征作为查询向量,将文本上下文特征作为被查询向量和内容向量,通过transformer编码器计算注意力向量,得到图像对象引导的文本上下文特征hoc;

49、s403:将实体引导的文本上下文特征hec、图像对象引导的文本上下文特征hoc、实体特征he和双极上下文特征进行拼接,得到最终的文本特征htext:

50、

51、进一步,多模态表示模块得到多模态特征hfinal,步骤如下:

52、s501:使用低秩双线性池算子模型来捕获最终特征之间的交互信息:

53、

54、其中,wt、wv和pt是可学习参数,bf是偏置项,σ是非线性变换函数tan h,表示矩阵之间的对应元素相乘;

55、s502:将文本特征和视觉特征拼接到交互信息中,从而得到最终的多模态特征:

56、

57、进一步,构建基于权利要求1-7中任意一项所述的基于多视角的双极性相似融合网络的多模态情感分析方法的神经网络模型,并对神经网络模型进行训练:

58、采用带有l2正则化的交叉熵作为损失函数对模型进行训练,具体表示如下:

59、

60、其中,代表实验文本的实际标签,i表示的是总训练样本的第i个样本,j是情感类别的数目,值设置为3,具体对应积极、消极和中立;p为模型分析出来的情感标签;λ是l2正则项系数;θ代表参数集。

61、采用上述方案有以下有益效果:

62、本发明,在初始化单词嵌入向量时使用了事先训练好的bert、faster r-cnn和vgg预训练模型,它们使向量进行了良好的初始化。其次,多视角的处理可以从图像中挖掘到更隐蔽且有效的信息。然后,注意力机制的加持使得有用信息被更多的关注到。最后,双极性相似矩阵可以使模型更好的利用文本和图像模态之间的正相关信息与非正相关信息。相较于现有技术,充分理解图像,提升图文多模态情感分析的识别精度。

63、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1