一种基于DualGCN的文本情感分析方法

文档序号:34735578发布日期:2023-07-12 19:09阅读:47来源:国知局
一种基于DualGCN的文本情感分析方法

本发明属于文本分析领域,涉及一种基于dualgcn的文本情感分析方法。


背景技术:

1、方面级情感分析通过识别句子中的特定实体对实体进行分析,是一种细粒度的情感分析,可以更加准确地判断句子中朝向特定实体的情感极性,传统情感分析模型采用情感词典进行情感分析,需要大量的先验知识,过于依赖情感词典的构建,耗费大量的人工,侧重于提取情绪词汇特征和词汇袋特征来训练情绪分类器,性能在很大程度上取决于特征工程工作的有效性,推广能力较差。而深度神经网络方法可以自动生成句子特征,在很大程度上提升了情感分析模型的推广性和泛化性。但长文本中往往包含有多个方面和多种情感,解决这种长文本的长距离依赖问题仍然存在很大缺陷,同时限制于一定的语法规则,忽略了上下文词以及语义对情感极性的影响。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于dualgcn的文本情感分析方法。

2、为达到上述目的,本发明提供如下技术方案:

3、一种基于双重图卷积神经网络dualgcn结合组成树和多跳信息的文本情感分析模型,包括如下步骤:

4、s1:使用预训练的glove词嵌入,获得每个此相对应的向量以及词向量,通过bert(一种预训练语言表征模型)作为encoder来得到句子的隐藏状态向量。

5、s2:利用依赖解析器来得到句子的依赖树(dep.tree),根据依赖树构造其相应的邻接矩阵da,以此提供所有潜在的句法结构来捕获丰富的结构信息在syngcn模块中,同时引入组成树(con.tree),根据组成树的每一层由几个短语组成,根据这些短语来设计它的邻接矩阵ca,将这两种句法信息进行融合,对矩阵da和ca进行融合处理,得到矩阵asyn,同时包含短语级别的句法信息和从句级别的句法信息,能更精确的利用句法信息。

6、s3:构造基于卷积神经网络模型的语法模块(syngcn)和语义模块(semgcn)中,分别挖掘出句子的语法信息和语义信息,为减缓gcn模型普遍出现的过渡平滑现象,在两个子卷积神经网络中引入多跳信息,代替原有的仅进行从邻居点而获取信息,从邻居节点扩展到非邻居节点,减缓了过度平滑现象。将s1)获得的隐藏向量分别输入到syngcn和semgcn中;将s2)融合了con.tree和dep.tree信息构成的特征矩阵asyn输入到syngcn模块中,得到句子对应的第一语法图特征;在semgcn模块中,通过自注意力机制来构造其邻接矩阵asem,对待分析的句子进行语义特征提取,将矩阵asem输入到相应的模块中,得到句子的第一语义图特征。

7、s4:将所得到语法图特征和语义图特征输入到dualgcn中的双仿射模块,分别对第一语法图特征和第一语义图特征来进行特征交换,融合了语义和语法信息,得到了第二语法图特征和第二语义特征。

8、s5:将第二语法图特征和第二语义图特征分别输入到dualgcn的池化层,对提取到的节点特征进行平均池化和拼接处理的操作,可以得到第一拼接特征。

9、s6:利用dualgcn的全连接层对第一拼接特征进行概率分析,得到不同方面词对应的情感极性结果。最后通过softmax函数来进行分类。

10、s31:在构造semgcn模块中的邻接矩阵时,为增强语义表示,提出一个正则化器orthogonal regularizer来鼓励所有单词得分向量之间的正交性,正交正则表示为i是单位矩阵,下标f表示frobenius范数,asem表示基于自注意力机制的语义图卷积子神经网络中自注意力机制对所述样本句子进行注意力计算,得到的注意力得分矩阵。因此,asemasemt的每个非对角线元素被最小化,以保持矩阵asem的正交。本发明期望从syngcn和semgcn模块中学习到的两种类型的特征表示表示包含在语法依赖树和语义相关性中的不同信息。因此,本发明在syngcn和semgcn模块的两个邻接矩阵之间采用微分正则化。微分正则化为rd=1/||asem-asyn||f,asyn表示依赖弧概率矩阵。

11、s32:定义模型的损失函数loss;在更新过程中,将第二语法图特征作为隐藏状态特征输入,执行隐藏状态特征和样本句子对应的上一次更新的第一语法特征特征输入卷积神经网络中,得到更新后的第一语法特征图;同时将第二语义图特征作为隐藏状态输入,执行基于注意力机制的语义卷积神经网络,得到更新后的第一语义图特征。其中损失函数表达为lt=lc+λ1r0+λ2rd+λ3||θ||2,lt表示损失函数,lc表示交叉熵损失,λ1、λ2和λ3表示正则项权重系数,ro表示正交正则损失值,rd表示差异正则损失值,θ表示所述双重图卷积神经网络模型中所有可训练参数。

12、本发明的有益效果在于:本发明考虑到卷积神经网络容易出现过度平滑现象,从而使用多跳信息,代替原有的仅进行从邻居点而获取信息,从邻居节点扩展到非邻居节点,减缓了过度平滑现象,同时为更能理解不同语境中的情感极性,提高对上下文词的关注度,融合了句子的组成树关系,替代了原来的仅从依赖树的角度出发,结合了句子组成树短语级别的句法信息以及依赖树中的从句级别的句法信息,从而提高了情感极性判断的精度。

13、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。



技术特征:

1.一种基于dualgcn的文本情感分析方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的一种基于dualgcn的文本情感分析方法,其特征在于:所述待分析的句子表示为s={w1,w2,…,wn},其中wn为每个词在句子中第n个词,以及获取句子中的方面词,构造出应该句子-方面对(s,a),其中a={a1,a2,…,am};即a是句子s中的方面词,am为句子s中第m个方面词,利用预训练的glove将待分析的句子中的每个词转换为相应的词向量和词性信息;表示为x={x1,x2,…,xn},xn为第n个词相对应的词向量;将词向量和词性信息分别输入到bert编码器和依赖解析器中,获得bert序列中子词的索引集,根据表达句子的句法结构的组成树以及表达句子中词与词的依赖关系的依赖树,对于组成树来说,其只有叶子结点与输入句子中的词语相关联,其他中间结点都是标记短语成分;对于依赖树来说,其用来表达句子中词与词的依赖关系,分析识别句子中的“主谓宾”、“定状补”的语法成分,每个结点都是一个词语;利用组成树和依赖树来进行图的构造,根据组成树的每一层l有句子的几个短语{phlu}组成,根据短语构造它的邻接矩阵ca,根据依赖树的依赖关系,构造其邻接矩阵da;再根据语法编码器将ca与da特征矩阵进行融合,语法编码器有几个设计的层次图注意块堆叠而成,在组成树和依赖树的语法信息的指导下构造相应的图,融合后asyn作为syngcn模块的输入;同时,bert输出的隐藏状态向量输入到semgcn模块中,在基于自注意力机制并行地计算每一对元素的注意力得分,将计算得到的注意力得分矩阵asem作为semgcn模块的邻接矩阵,其注意力得分矩阵其中q和k为semgcn前一层的图表示,wq和wk表示可学习的参数权重矩阵,d是输入结点特征的维度,g是注意力通道数,dk为缩放系数;在构造semgcn模块中的邻接矩阵时,为增强语义表示,提出正则化器orthogonalregularizer来鼓励所有单词得分向量之间的正交性。

3.根据权利要求1所述的一种基于dualgcn的文本情感分析方法,其特征在于:将矩阵asem和asyn输入到带有多跳信息的gcn中,多跳信息缓解dualgcn中过度平滑现象,通过从邻居结点扩展到非邻居结点,增加每一层的感受野;在syngcn和semgcn模块的两个邻接矩阵之间采用微分正则化。

4.根据权利要求1所述的一种基于dualgcn的文本情感分析方法,其特征在于:所述syngcn将bert的隐藏状态向量作为句法图中初始节点表示,通过syngcn模块获得语法图表示hnsyn表示为第n个隐藏节点表示,以及同理,semgcn模块获得语义图表示双仿射模块交换过程为:其中w1w2为可控制的参数。

5.根据权利要求1所述的一种基于dualgcn的文本情感分析方法,其特征在于:所述对提取到的节点特征进行平均池化和拼接处理的操作具体为:其中f是应用方面节点表示上的平均池化函数,γ表示拼接后的特征,[,]表示拼接操作;将拼接后的特征输入线性层,再用softmax函数得到情感概率分布p,具体操作表示为p(a)=softmax(wpγ+bp),其中wp和bp是可学习权值和偏差。


技术总结
本发明涉及一种基于DualGCN的文本情感分析方法,属于文本分析领域。该方法为:首先对文本进行预处理,使用预训练的Glove词嵌入,利用BERT作为encoder来挖掘句子的隐藏状态向量,利用生成树提供的短语级语法结构和依赖树从句语法结构的信息,替代以往仅从依赖树获取语法结构信息,考虑到方面之间的影响,将依赖树结构和组成树结构的融合,解决了方面级情感分析长距离依赖问题;增加了GCN中每一层的感受野。最后通过语法模块和语义模块的信息交流,由softmax来输出分类结果。该方法利用了语法结构的信息,缓解了GCN容易出现的过度平滑现象,能有效提高分类的精度。

技术研发人员:袁正午,徐水英,徐发鹏,邵文,王秋粮
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1