一种基于模态特征的方面级细粒度情感分析方法

文档序号:35009965发布日期:2023-08-04 04:45阅读:21来源:国知局
一种基于模态特征的方面级细粒度情感分析方法

本发明属于自然语言处理领域,尤其适用于中文方面级细粒度情感分析领域。


背景技术:

1、网络公共情绪研究已成为情绪研究中一个重要的组成部分。在大数据时代背景下,计算机处理信息的能力大大提高,公众进行信息交流的实时性、复杂性日益增强。借助数据处理、文本挖掘、文本情感分析等计算机关键技术逐渐成为如今网络舆情分析的重点研究方向。

2、基于网络公众平台的舆情研究成为重点,目前关于中文细粒度情感分析技术是计算机领域的一大方向,由于社交媒体的激增和发布消息的低门槛,随着用户倾向于在文本基础上添加表达情感的图片以强调他们的体验和观点,基于网络平台的多模态情感信息研究逐渐成为重要方向之一。目前,在社交网络和电商平台上,用户通常使用文本、图片、视频、音频等多种表达方式来发布观点。因此,传统的基于文本的方面级情感分析任务已经不能满足日益增长的多模态数据情感分析需求。

3、面对舆情数据数据量大、数据种类多、数据价值密度低以及数据产生和处理速度快的显著特征,利用信息化技术辅助分析舆情信息是重要趋势。由于网络舆情信息分布广而散,足量且有效的舆情信息获取难度较大,且由于特定场景下的舆情信息数据丰富度较低的限制,面向特定时期、特定地区的舆情分析工作较难实现。作为以语料数据为主要输入,在不同领域的表现存在差异性。网络文本数据本身存在偏见和分歧,得到的输出并不是公正而中立的。3月份最新发布的gpt-4在训练规模、多模态输入输出和交互体验等方面有所突破,但并未从根本上解决上述问题。此外,基于人类反馈的强化学习是其基础,但成本高昂,且人类注释者的分歧,给训练数据增加了不确定性。

4、现有相关研究仍存在一些不足之处。例如,在处理以文本为主、图片为辅的多模态信息时,需要进一步控制模态之间的融合程度,同时考虑如何利用单一模态内和模态间的信息。在情感分类的实现方面,虽然一些特征方法利用一系列设计的规则和外部资源,仍然取得了不错的效果,但如何避免劳动密集性问题并进一步提升性能,仍需要深入研究。此外,虽然融合方法是基于不同的动机对多模态数据进行融合,但其本质是挖掘多模态特征之间的关联性。在特征融合之前,多粒度特征的噪声过滤问题研究较为欠缺,如何有效地降低噪声并广泛地挖掘多模态特征之间的作用也是需要解决的问题。

5、对此,本发明提出一种针对中文领域下的多模态方面级情感分析方法。通过充分挖掘多模态特征的方面级情感分析研究中现存的不足进行改进。基于优化的bert模型实现了多模态方面级细粒度情感分析的多分类任务。通过该方法,可以帮助研究人员在短时间内分析细粒度文本情感分类,预测情感发展,减少研究人员的决策时间,从而有效提高中文文本情感研究工作的效率。本发明目的在于为自然语言处理研究人员在研究中文特定环境下多模态方面级情感分析提供指导,是一种帮助研究人员在有限时间内实现细粒度多模态中文情感需求的方法。


技术实现思路

1、本发明通过一种基于模态特征的方面级细粒度情感分析方法,来有效解决目前存在的中文领域多模态细粒度情感分析的难题,在多模态信息中以文本为主、图片为辅的情况下,需要更好地控制模态间的融合程度,同时利用单一模态内和模态间的信息。在实现方面级情感分类时,目前仍然行之有效的特征方法是利用一系列设计的规则,并将它们与外部资源结合起来,但存在劳动密集性问题。如何避免这些问题并进一步利用这些方法仍然值得深入研究。进而帮助研究人员制订合理的舆情研究计划,帮助研究人员在有限的时间内构建分析,提供细粒度情感预测。

2、为达成上述目标,本发明提出一种基于模态特征的方面级细粒度情感分析方法。该方法经过应用基于预训练模型的细粒度分析方法构建预测模型,并采用几种改进方法,可以满足中文多模态方面级细粒度情感分析任务的准确度需求。这些改进方法包括:基于领域偏移度的注意力机制修正方法、基于高斯混合模型的标签修正方法以及基于分布调整的类别标签不均衡调优。最后,利用基于字符元信息和相关度判别器的多模态编码器,对输入序列进行编码并进行多模态方面级情感分析预测。具体而言,该方法包括下列步骤。

3、1)中文拼写容错,由于拼写错误绝大多数是由拼音输入的音近字错误和五笔或手写输入的形近字错误导致,为了缓解输入文本中的拼写错误对输入序列语义理解的干扰,提出一种基于字符元信息的字符编码子模块,模型利用不同的编码模块获取到输入序列的字符元模态信息,其中包含利用循环神经网络编码的字符字音嵌入以及利用卷积神经网络编码的字符字型嵌入,并利用后续的transformer block对其进行层次化及句子维度编码,最终的字符元信息e将被k层相同的编码层进行编码,这样就降低了拼写错误带来的语义理解问题。

4、本步骤的目的是减少因文本内容中存在着较多的拼写错误输入,从而缓解其影响语义理解的准确性。中文拼写容错的实现逻辑如下:模块对输入中蕴含的字符序列进行嵌入处理,并获取到字符所对应的字音和字形序列。对于一个给定的输入序列x={x_1,x_2,...,x_n},模型首先利用原始的字符嵌入层获取到字符的嵌入表示e_t={e_t1,e_t2,...,e_tn},其中融合字符的词嵌入信息、位置信息以及词类型信息。与此同时,模型利用不同的编码模块获取到输入序列的字符元模态信息,其中包含利用循环神经网络编码的字符字音嵌入以及利用卷积神经网络编码的字符字型嵌入。

5、2)噪声标签修正,为了缓解标注噪声对模型的误导,提出了一种基于损失分布指导的标签噪声判别与平滑方法,旨在修正类别标签以减少标注噪声对模型的影响,避免传统的交叉熵损失函数直接拟合条件概率所带来的标签不平衡问题和类别性能差异,进而可以提高模型的泛化能力,计算公式可以表示为:

6、logpθ(y|x)=f(x;θ)y+logp(y)

7、y表示不同类别,x表示模型的预测,log p(y)表示数据集中各个类别标签出现的频率,f表示类别上产生的概率值。其次利用训练集中标签的分布信息来调整模型的参数,构建噪声伪数据集合u^,并根据最小化损失原则选择干净样本数据。在训练过程中,深度神经网络将优先学习简单且合乎逻辑的样本并降低其损失值,因此噪声样本往往具有更高的损失。我们将其建模为高斯混合模型,最后使用期望最大值算法求解参数,是对数据损失值的估计能够在二元高斯混合模型的条件下服从观测值。假设训练数据集x={x1,x2,...,xn},其似然函数可以表示为:

8、

9、其中l是似然函数,xi是第i个样本的文本,μ是均值向量,∑是协方差矩阵,φ是高斯分布的权重。

10、为了训练噪声标签判别器,我们利用构建的数据集u^和d^对其进行二分类任务训练。噪声标签判别器需要判定输入数据来自哪一个分布,当输入数据采样自u^或d^时,模型需要判定其属于u^的概率。形式化地,模型对输入样本需要预测:

11、pi=pd(gi=1|x)=σ(wdhi+bd)

12、其中pd(gi=1|x)表示判别网络给出的条件概率,σ表示sigmoid函数,wd和bd表示判别器分类头参数。每个类别中的损失尺度差异可能较大,某些类别作为常见类别,其损失可能倾向于服从较低的分布,而部分类别作为长尾类别可能普遍产生较高的损失分布。因此对不同的类型设计一个噪声系数进行修正,修正公式如下:

13、

14、本方法达到了缓解噪声标注样本对模型训练的影响的目的。

15、3)注意力修正,基于transformer编码器架构的预训练语言模型,其由若干相同的层堆叠组成。每个编码器层都由两个主要部分组成:一个多头自注意力机制和一个前馈神经网络。为了在词级别上对齐两个领域的分布,我们通过控制各个词之间的信息交互来减少偏离度较大的词对上下文的影响。具体来说,我们对注意力分数进行修正,以减少领域偏离度较大的词在上下文中的注意力分数。对于查询query qwt和键key kw1,...,kwm,我们可以计算修正后的注意力分数。需要注意的是,由于d(wi)∈[0,∞],域外词的注意力分数会得到一个负数修正,因此上下文对域外词的注意力分数会更小,从而减少了域外信息的影响,减小了两个领域的差异。此外,我们还引入了一个超参数λ来控制修正的强度,以避免修正的影响过大,进而影响语义的表示。

16、4)模态相关度判别,多模态联合编码的模型在信息融合阶段被较多的无关信息所干扰,进而影响模型对情感极性的正确判断,因此提出一种多模态相关度判别器模块。该模块旨在过滤图像模态中的无关冗余信息,其主要原理基于文本信息和图像信息之间的相关性预测,从而在模态融合过程中实现图像输入的自适应过滤。

17、5)模态融合分析预测,得到输入序列的字符元信息以及多模态相关度之后,利用基于字符元信息和相关度判别器的多模态编码器对输入序列进行编码,并利用最终编码的隐层表示作为输入序列的最终表示,利用方面描述短语的向量表示与全句的池化向量表示作为情感分类器的输入向量,并利用mlp层对其情感极性进行分类。训练过程结束,输出训练后的情感分析模型mmaem。

18、进一步,其中上述步骤1)的具体步骤如下:

19、步骤1)-1:起始状态;

20、步骤1)-2:gru进行表层嵌入;

21、步骤1)-3:resnet字形嵌入处理;

22、步骤1)-4:层归一化操作对其进行归一化;

23、步骤1)-5:堆叠的transformer编码器层对序列进行层次化编码;

24、步骤1)-6:提取出语义空间上的字音和字形隐层表示;

25、步骤1)-7:结束状态。

26、进一步,其中上述步骤2)的具体步骤如下:

27、步骤2)-1:起始状态;

28、步骤2)-2:构建噪声伪数据集合u^,将y^i为非训练集标签中随机采样的噪声标签;

29、步骤2)-3:基于em算法求解,对数似然函数收敛或达到最大迭代次数时停止迭代;

30、步骤2)-4:选取损失服从较小均值高斯分布的样本作为干净样本,表示为d^;

31、步骤2)-5:利用构建的数据集u^和d^对其进行二分类任务训练;

32、步骤2)-6:得到每个样本的噪声概率,该概率将用来对原始数据标签进行平滑;

33、步骤2)-7:调整模型训练阶段的最终loss计算;

34、步骤2)-8:结束状态。

35、进一步,其中上述步骤3)的具体步骤如下:

36、步骤3)-1:起始状态;

37、步骤3)-2:统计不同领域数据集每个词的pmi数据;

38、步骤3)-3:基于kl散度计算每个词w和上下文c在分布p与分布q的领域偏移度;

39、步骤3)-4:基于上下文一阶依赖关系简化计算wt+1与wt-1;

40、步骤3)-5:修改注意力分数ai,超参数λ用于控制修正程度,n(·)表示·的维度;

41、步骤3)-6:进行softmax处理;

42、步骤3)-7:输出修正后的attention分数;

43、步骤3)-8:建模引入先验概率前后的两个分布的互信息;

44、步骤3)-9:softmax归一化操作,将分布计算转化为概率分布;

45、步骤3)-10:进行标签分布加权,依据不用的类别分布信息对原始的损失值进行调整;

46、步骤3)-11:通过对估计的p(y)引入可调节权重,改进模型的损失计算

47、步骤3)-12:结束状态。

48、进一步,其中上述步骤4)的具体步骤如下:

49、步骤4)-1:起始状态;

50、步骤4)-2:albert作为文本端的编码;

51、步骤4)-3:resnet50作为图像端的编码;

52、步骤4)-4:通过投影层将二者转化为具有相同维度的表示;

53、步骤4)-5:进行拼接处理,以便后续相似度模块的计算;

54、步骤4)-6:基于强化学习指导训练多模态相关度判别器;

55、步骤4)-7:利用基于多模态编码器和单模态编码器在给定数据上的情感分析任务指标作为偏好模型的奖励分数;

56、步骤4)-8:进行多模态相关度判别的参数更新;

57、步骤4)-9:结束状态。

58、进一步,其中上述步骤5)的具体步骤如下:

59、步骤5)-1:起始状态;

60、步骤5)-2:融合字符的元信息以及经过相关度判别器过滤的多模态图片信息;

61、步骤5)-3:拼接方面描述短语;

62、步骤5)-4:融合模块的自注意力机制处理;

63、步骤5)-5:多模态信息输入门控机制;

64、步骤5)-6:mlp层对其情感极性进行分类;

65、步骤5)-7:结束状态。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1