一种情感分类方法及系统与流程

文档序号:13110011阅读:695来源:国知局
技术领域本发明属于计算机技术领域,尤其涉及一种情感分类方法及系统。

背景技术:
由于循环神经网络(RNN,RecurrentNeuralNetworks)存在梯度消失问题,所以近年来,一种链式结构的长短记忆网络(LSTM,Longshort-termmemory)被提出并得到广泛的研究。它是在原RNN上增加了一个记忆细胞(memorycell)结构用来存放信息,这一改进使得LSTM具有很强的随时间的推移保护序列信息的能力,因此能够捕获长时间,长距离依赖关系,解决了RNN的梯度消失问题。但是先前对LSTM的研究都是基于时间序列的线性链式结构,后来经过研究,将链式LSTM拓展到树结构,通过语法解析树结构来构建,提高了语义特征表达,这些研究也说明基于序列结构的LSTM网络对结构依赖更强,但是基于先进的话语解析进行文本挖掘仍然是不普遍的,这些方法都是基于简单的加权计算的,分类效果最好的也只有百分之七十多。

技术实现要素:
本发明的目的在于提供一种情感分类的方法及系统,旨在解决现有技术中学习到的语义特征不够充分、准确,导致情感分类效果较差的问题。一方面,本发明提供了一种情感分类方法,所述方法包括下述步骤:根据修辞结构理论对待分类的文本进行解析,得到修辞结构解析树;获取所述修辞结构解析树中的每个结点的初始向量,所述结点包括:输入门、输出门、记忆细胞、隐藏状态以及忘记门;根据所述结点的输出门与记忆细胞的双曲线正切函数值进行点乘,得到所述结点的隐藏状态;根据所述结点的隐藏状态,通过分类器函数进行情感分类。另一方面,本发明提供了一种情感分类系统,所述系统包括:解析单元,用于根据修辞结构理论对待分类的文本进行解析,得到修辞结构解析树;初始向量获取单元,用于获取所述修辞结构解析树中的每个结点的初始向量,所述结点包括:输入门、输出门、记忆细胞、隐藏状态以及忘记门;隐藏状态获取单元,用于根据所述结点的输出门与记忆细胞的双曲线正切函数值进行点乘,得到所述结点的隐藏状态;以及情感分类单元,用于根据所述结点的隐藏状态,通过分类器函数进行情感分类。在本发明实施例中,将待分类的文本构建成修辞结构解析树,在修辞结构解析树中每层有两个结点片段,每个结点有自身的忘记门,在学习过程中,通过忘记门来选择孩子结点信息,不断更新细胞状态,丢弃不重要的信息,添加核心内容,提高语义特征表达,从而提高分类准确率。附图说明图1是本发明实施例一提供的情感分类方法的实现流程图;图2是本发明实施例二提供的情感分类系统的结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合具体实施例对本发明的具体实现进行详细描述:实施例一:图1示出了本发明实施例一提供的情感分类方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:在步骤S101中,根据修辞结构理论对待分类的文本进行解析,得到修辞结构解析树。在本发明实施例中,修辞结构理论(RST)是一种基于文本局部之间关系的关于文本组织的描述理论。修辞结构理论一共提出了23个修辞关系,包括详述、对照、证明等。修辞结构关系将一段文本分为中心片段和周边片段,称为核心和外围,修辞结构解析树中每一层结点之间的关系包括:主从关系以及并列关系,其中,所述主从关系包括:核心结点以及外围结点,具有同等重要作用的结点都为核心结点。根据修辞结构理论对待分类的文本进行解析,首先把文本基于修辞关系逐层拆分成片段,每个片段不是核心就是外围。例如“女朋友说,她不喜欢看动画片,但很喜欢这部电影”,这句话应该是正向的,但是如果是基于情感词进行计算,那么就会因为正向词和负向词相抵消,使得分类结果有误。在该例句中,前半段却是外围,如果单考虑前半段,那么捕获的信息则影响句子情感倾向的判断。在步骤S102中,获取修辞结构解析树中的每个结点的初始向量,该结点包括:输入门、输出门、记忆细胞、隐藏状态以及忘记门。在本发明实施例中,对于任意一个结点t,它包含输入门it,输出门ot,记忆细胞ct,隐藏状态ht以及忘记门ft,使得有选择地整合孩子结点信息,通过训练保留富含核心信息的片段而减弱不重要的外围信息。优选地,通过随机初始化获取每个结点的初始向量,通过对每个片段进行随机初始化,保存到一个向量矩阵中,从而初始向量。优选地,利用词向量字典获取每个词语的向量,通过简单的线性组合,片段内的词语的向量进行相加,得到初始向量。优选地,根据修辞结构理论对待分类的文本进行解析时,由于修辞结构解析树主要基于依赖关系树(dependencytree)和结构树(constituencytree),那么基于dependencytree构建的网络的输入向量相当于中心词,基于constituencytree构建的网络的输入向量为叶子结点向量。具体地,对于基于dependencytree构建的网络,适合孩子结点无序的树结构和孩子分支多的结构,假设结点t的孩子结点集合为C(t),通过如下公式计算:其中,ht-1为结点t-1的隐藏状态,hk为孩子结点k的隐藏状态,k为属于孩子结点集合C(t)的结点;it=σ(W(i)xt+U(i)ht-1+b(i)),其中,it为结点t的输入门,xt为结点t的向量,W(i)为xt的权值,ht-1为结点t-1的隐藏状态,U(i)为ht-1的权值,b(i)为偏置项;ot=σ(W(o)xt+U(o)ht-1+b(o)),其中,ot为结点t的输出门,xt为结点t的向量,W(o)为xt的权值,ht-1为结点t-1的隐藏状态,U(o)为ht-1的权值,b(o)为偏置项;ftk=σ(W(f)xt+U(f)ht-1+b(f)),其中,ftk为结点t的第k个孩子结点的忘记门,xt为结点t的向量,W(f)为xt的权值,ht-1为结点t-1的隐藏状态,U(f)为ht-1的权值,b(f)为偏置项;ut=tanh(W(u)xt+U(u)ht-1+b(u)),其中,ut为状态候选值,xt为结点t的向量,Wu为xt的权值,ht-1为结点t-1的隐藏状态,U(u)为ht-1的权值,b(u)为偏置项;其中,ct为结点t记忆细胞,ut为状态候选值,ck为孩子结点k记忆细胞;ht=ot⊙tanh(ct),其中,ht为结点t的隐藏状态。具体地,对于基于constituencytree构建的网络,适合树结构的分支至少有N个,并且是有序的,可以按照从1到N进行标记,对于任意一个结点t,它的第k个孩子结点的隐藏状态记为htk,它的第k个孩子结点的记忆细胞记为ctk,通过如下公式计算:其中,it为结点t的输入门,xt为结点t的向量,W(i)为xt的权值,htε为结点t第ε个孩子结点的隐藏状态,为htε的权值,b(i)为偏置项;其中,ftk为第k个孩子结点的忘记门,xt为结点t的向量,W(f)为xt的权值,htε为第ε个孩子结点的隐藏状态,为htε的权值,b(f)为偏置项;其中,ut为状态候选值,xt为结点t的向量,W(u)为xt的权值,htε为第ε个孩子结点的隐藏状态,为htε的权值,b(u)为偏置项;其中,ct为结点t的记忆细胞,ctε为第ε个孩子结点的记忆细胞,ut为状态候选值,ftk为第ε个孩子结点的忘记门;ht=ot⊙tanh(ct),其中,ht为结点t的隐藏状态。在步骤S103中,根据结点的输出门与记忆细胞的双曲线正切函数值进行点乘,得到所述结点的隐藏状态。在本发明实施例中,结点的隐藏状态的计算公式为:ht=ot⊙tanh(ct),其中,t为结点,ht为结点t的隐藏状态,ot为结点t的输出门,ct为结点t的记忆细胞,tanh(ct)为结点t的记忆细胞的双曲线正切函数值。其中,结点的输出门ot的计算公式为:其中,xn为孩子结点n的向量,为xn的权值,xs为孩子结点s的向量,Ws(o)为xs的权值,htn为核心结点的隐藏状态,为htn的权值,hts为外围结点的隐藏状态,为hts的权值,b(o)为偏置项。结点的记忆细胞ct的计算公式为:ct=it⊙ut+ftn⊙ctn+fts⊙cts,其中,it为结点的输入门,ut为状态候选值,ftn为核心结点的忘记门,ctn为核心结点的记忆细胞,fts为外围结点的忘记门,cts为外围结点的记忆细胞。结点的输入门it的计算公式为:其中,xn为孩子结点n的向量,为xn的权值,xs为孩子结点s的向量,Ws(i)为xs的权值,htn为核心结点的隐藏状态,为htn的权值,hts为外围结点的隐藏状态,为hts的权值,b(i)为偏置项。核心结点的忘记门ftn的计算公式为:其中,xn为孩子结点n的向量,为xn的权值,xs为孩子结点s的向量,Ws(f)为xs的权值,htn为核心结点的隐藏状态,为htn的权值,hts为外围结点的隐藏状态,为hts的权值,b(f)为偏置项。外围结点的忘记门fts的计算公式为:其中,xn为孩子结点n的向量,为xn的权值,xs为孩子结点s的向量,Ws(f)为xs的权值,htn为核心结点的隐藏状态,为htn的权值,hts为外围结点的隐藏状态,为hts的权值,b(f)为偏置项。状态候选值ut的计算公式为:其中,xn为孩子结点n的向量,为xn的权值,xs为孩子结点s的向量,Ws(u)为xs的权值,htn为核心结点的隐藏状态,为htn的权值,hts为外围结点的隐藏状态,为hts的权值,b(u)为偏置项。在步骤S104中,根据所述结点的隐藏状态,通过分类器函数进行情感分类。在本发明实施例中,通过分类器函数进行情感分类的计算公式为:pθ(y|{x
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1