一种情感分类方法及系统的制作方法

文档序号:10569938阅读:167来源:国知局
一种情感分类方法及系统的制作方法
【专利摘要】本发明适用计算机技术领域,提供了一种情感分类方法及系统,该方法包括:在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的向量,所述结点的向量为基于短语级的向量;通过与基准词的相似度计算,确定结点的情感标签,所述基准词为具有极强正负性的情感词,所述情感标签为情感倾向值;从根结点逐层向下递归,计算得到每个结点的反馈向量,该结点的反馈向量为基于短语级的向量;根据结点的向量、反馈向量、及情感标签,通过分类器函数进行情感分类。本发明通过构建短语二叉树结构,短语级的运算,同时获取每个结点的情感标签,进而根据结点的向量、反馈向量、及情感标签进行分类,通过双向传播实现了全文信息的捕获,提高了分类准确率。
【专利说明】
一种情感分类方法及系统
技术领域
[0001 ]本发明属于计算机技术领域,尤其涉及一种情感分类方法及系统。
【背景技术】
[0002] 文本情感分类是对持有情感色彩的主观性文本进行分析和处理,归纳总结并推理 出文本情感倾向,根据粒度的不同可以分为篇章级,段落级,句子级,词语级。目前针对英文 文本情感分析的研究较多,例如Turney运用无监督学习方法对产品评论数据进行极性探 测;Pang采用机器学习方法对电影评论进行情感分类,这两个工作都是对文档级的文本数 据进行二分类。
[0003] 传统的情感分析方法主要基于词语级的特征表达方式,词嵌入表示方式被用于进 行句子级或文档级情感分析。但是,由于词嵌入表示方式仅能表示单独的词,所以在进行更 大粒度的情感分析时,需要考虑语义组合问题。目前应用于自然语言处理都存在一定的缺 陷:1、现有技术都是针对词语级语法树结构进行构建深度学习网络,使得训练层级过深,时 间和计算复杂度过高;2、现有技术在对分类器训练时,非终端结点情感标签的处理主要有2 种方式:1)内部结点无标签,只有整个句子的标签,导致影响分类准确率,2)人工标注,花费 大量劳力,而且标注人过少,容易存在主观偏差;3、在特征训练过程中采用单向传播的方 法,即只能从叶子结点(词语级)向上传播,而不能从根结点(整个句子)向下传播,导致不能 捕获全文信息。

【发明内容】

[0004] 本发明的目的在于提供一种情感分类的方法及系统,旨在解决由于现有技术针对 词语级训练导致计算复杂度过高、内部结点无标签影响准确率、及单向传播导致不能捕获 全文信息的问题。
[0005] -方面,本发明提供了一种情感分类方法,所述方法包括下述步骤:
[0006] 在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的向量,所述结点 的向量为基于短语级的向量;
[0007] 通过与基准词的相似度计算,确定结点的情感标签,所述基准词为具有极强正负 性的情感词,所述情感标签为情感倾向值;
[0008] 从根结点逐层向下递归,计算得到每个结点的反馈向量,所述结点的反馈向量为 基于短语级的向量;
[0009] 根据结点的向量、反馈向量、及情感标签,通过分类器函数进行情感分类。
[0010] 另一方面,本发明提供了一种情感分类系统,所述系统包括:
[0011] 向量计算单元,用于在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结 点的向量,所述结点的向量为基于短语级的向量;
[0012] 情感标签确定单元,用于通过与基准词的相似度计算,确定结点的情感标签,所述 基准词为具有极强正负性的情感词,所述情感标签为情感倾向值;
[0013] 反馈向量计算单元,用于从根结点逐层向下递归,计算得到每个结点的反馈向量, 所述结点的反馈向量为基于短语级的向量;
[0014] 情感分类单元,用于根据结点的向量、反馈向量、及情感标签,通过分类器函数进 行情感分类。
[0015] 在本发明实施例中,构建短语二叉树结构,进行短语级的运算,双向传播,先从叶 子结点逐层向上递归,计算得到每个结点的向量,再从根结点逐层向下递归,计算得到每个 结点的反馈向量,同时获取每个结点的情感标签,根据结点的向量、反馈向量、及情感标签 进行分类,通过双向传播实现全文信息的捕获,提高分类准确率。
【附图说明】
[0016] 图1是本发明实施例一提供的情感分类方法的实现流程图;
[0017] 图2是本发明实施例一提供的情感分类方法中计算结点向量的实现流程;
[0018] 图3是本发明实施例二提供的情感分类方法的实现流程;
[0019] 图4示出了本发明实施例二提供的情感分类方法中转换短语二叉树的实现流程;
[0020] 图5是本发明实施例三提供的情感分类系统的结构示意图;以及
[0021] 图6是本发明实施例四提供的情感分类系统的结构示意图。
【具体实施方式】
[0022]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0023]以下结合具体实施例对本发明的具体实现进行详细描述:
[0024] 实施例一:
[0025] 图1示出了本发明实施例一提供的情感分类方法的实现流程,为了便于说明,仅示 出了与本发明实施例相关的部分,详述如下:
[0026] 在步骤S101中,在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的 向量,所述结点的向量为基于短语级的向量。
[0027] 在本发明实施例中,短语二叉树的叶子结点是短语而非词语,因此,需要获取到短 语级的向量作为初始输入数据。首先,需要得到词语级的向量,然后由词语向量通过一定的 组合方式计算得到短语向量,该短语向量即为短语二叉树的结点的向量。在实际应用中,可 以通过随机初始化、或无监督深度学习工具W 〇rd2VeC学习语义词嵌入表示,通过随机初始 化可以不需要任何预训练方法去学习词嵌入表示,而使用无监督深度学习工具W 〇rd2VeC学 习语义词嵌入表示可以有效地在大量文本数据中学习到高质量的词嵌入表达。
[0028] 具体地,图2示出了本发明实施例一提供的情感分类方法中计算结点向量的实现 流程,在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的向量包括:
[0029] 在步骤S201中,在短语二叉树中,计算孩子结点的向量;
[0030] 其中,在短语二叉树中,计算孩子结点的向量,包括:
[0031] 获取结点中每个词语的初始词语向量,将所有词语的初始词语向量映射形成一词 嵌入矩阵,所述词嵌入矩阵中每一列表示一个词语;
[0032]根据每个词语的索引,在词嵌入矩阵中检索对应的词语向量;
[0033 ]将每个结点中所有词语的词语向量进行求和、或点积运算,得到每个结点的向量。
[0034] 在本发明实施例中,短语二叉树中每个结点都是一个短语,短语由词语组成,对于 词语而言,所有的词语都保存在一个词典中,每个词语通过随机初始化、或无监督深度学习 工具W 〇rd2VeC学习语义词嵌入表示都得到一个初始词语向量wGRN,其中,R为实数,N为向 量维度,w是实数一维向量,把所有词语的初始词语向量映射到一个词嵌入矩阵LGR NXV中, 其中,R为实数,N为向量维度,V为词语的数量,词嵌入矩阵LGRNXV的每一列表示一个词语, 每个词语都有一索引i,索引i可以用来检索词语对应的特征向量。在进行检索时,我们需要 乘上一二值向量P,二值向量P除了第i个位置之外,其余位置的数值都为〇,对应检索的公式 为:wi = LPi〇
[0035] 在得到词语向量后,通过线性组合函数计算短语向量,可以对词语向量进行求和 或点积运算得到短语向量,即为结点的向量。具体地,若一短语V = ( Wl,W2,…,w。)由若干个 词语组成,将所有的词语向量求和:V = SLiW),或将所有的词语向量进行点积运算:v = W10W20~ 0W。,得到短语向量,即为孩子结点的向量。通过上述这两种方法得到的词语向 量不仅捕获了语法信息,而且减少了训练复杂度。
[0036] 在步骤S202中,根据所述孩子结点的向量,计算父结点的向量。
[0037] 其中,根据所述孩子结点的向量,计算父结点的向量,包括:
[0038] 获取左孩子结点的向量、及右孩子结点的向量;
[0039] 通过公式
1:,计算出父结点P的向量,其中,P为父结点的向量, vi为左孩子结点的向量,V2为右孩子结点的向量,b为偏置项。
[0040] 在本发明实施例中,在步骤S201中得到了短语向量,即孩子结点的向量,根据孩子 结点的向量和短语二叉树,可以实现逐层的计算任意长度的语义组合向量。具体地,基于短 语二叉树结构通过孩子结点的向量( V1,V2)利用深度学习网络计算出父结点的向量表示P, 其公式为:
,其中,P为父结点的向量,V1为左孩子结点的向量,v 2为右 孩子结点的向量,b为偏置项。
[0041] 进一步地,由父结点的向量p,可以得到重构层,该重构层计算公式为 g + I/),其中,vS为重构层的左孩子结点的向量,vS为重构层的右孩子结 点的向量,t/为偏置项。
[0042] 在本实施例中,实现了通过计算重构层复现了短语二叉树初始的左、右孩子结点 的向量,理想状态下,重构层的左、右孩子结点的向量与短语二叉树初始的左、右孩子结点 的向量相等,但是在实际运算中会出现不可避免的误差,其误差值可以通过如 下公式计算
[0043]在步骤S102中,通过与基准词的相似度计算,确定结点的情感标签,所述基准词为 具有极强正负性的情感词,所述情感标签为情感倾向值。
[0044] 在本发明实施例中,通过计算和基准词的相似度得到情感倾向值,基准词的相似 度计算涉及到"语法"、"语义"、"句法"、"概念"和"义原"等单位,计算到"义原"使得计算更 准确。"概念"描述了一个词语的语义,每一个词语可以表达为一个或多个概念,而"义原"是 描述概念的一种知识表示语言,是更小的单位,细化到"义原"层次,通过上下位关系组成树 状结构层次。对两个义原〇U和〇#,它们的相似度等于树状结构层次中的路径距离长度 diSlj,公式如下
其中,a为一个可以调节的参数,diSlj表示两个 义原和〇#在义原层次结构体系中的距离长度,diSlj>0。通过该等式计算得到所有概念下 的义原相似度,两个概念仏和山的相似度就是所有义原相似度的最大值,而词语相似度则取 所有概念相似度的最大值。假设给定两个词语Wp和Wq,如果Wp包含了 g个概念:Upl,Upl,…, Upg,wq有h个概念:uql,uql,…,u qh,那么这两个词的相似度就是包含的所有概念的相似度最 大值,等式如下抑),概念相似度则通过取其 包含的义原相似度的最大值:仰~⑷/,%) = 如巧/〇。要通过计算 与基准词的相似度获取结点的情感标签,预先选出a对具有极强正负极性的情感词作为基 准词,再计算结点的词语与基准词之间的相似度,相似度值作为度量该结点的词语的情感 倾向度。结点的词语的情感倾向值Glabel (W)将会通过以下等式计算: w) - W?V &?饥 w(nZ, w)),其中,其中 Pi 表示正向 基准词,m表示负向基准词,如果Giabt3i(w)>0,则表示词语w的情感倾向是正向;如果Giabt3i(w) 〈0,则表示词语w的情感倾向是负向;如果Giabei(w) = 0,则表示词语w的情感倾向是中立。
[0045] 利用下面的规则,基于树结构获取树中所有结点的情感倾向:
[0046] 对于程度副词,能够很大程度地加强情感倾向的程度,基于这个理论,当短语包含 程度副词时,其修饰的词语的情感倾向值Glabel(W)就翻倍,即为2Gl abel(W)。例如,如果情感 词"喜欢"被词语"很"修饰组成"很喜欢"这个短语V,那么该短语V的情感倾向值为G label(v) zSGlabdwiike),翻倍后需要做检查,即如果Glab(3l(V)>l,则该短语的情感倾向值设置为 Glabel ( V ) = 1,由于预设情感倾向值的取值范围为[-1,1 ]。
[0047] 对于反意词,当情感词被具有反意作用的词语修饰时,这个短语的意思将会发生 转折。这种情况下,需要将情感倾向值反向计算。例如,情感词"喜欢"如果被连接上词语 "不"而变为"不喜欢",那么这个短语的情感倾向值就会变为G label(v)=-Glabel(Wllke)。
[0048] 除了上述两种情况,基于词语的情感倾向值利用线性组合的方法结合树结
[0049] 在本发明实施例中,结合结点的向量、反馈向量、及情感标签,通过分类器函数进 行情感分类,计算公式如下:>'(p;0) f j,其中,y(p;0)为结点P处的 预测分布,0是参数、Wi为权值、p为结点的向量、p1为结点的反馈向量。
[0050] 通过构建短语二叉树结构,进行短语级的运算,先从叶子结点逐层向上递归,计算 得到每个结点的向量,再从根结点逐层向下递归,计算得到每个结点的反馈向量,同时获取 每个结点的情感标签,根据结点的向量、反馈向量、及情感标签进行分类,通过双向传播实 现了全文信息的捕获,提高分类准确率。
[0051 ] 实施例二:
[0052]图3示出了本发明实施例二提供的情感分类方法的实现流程,为了便于说明,仅示 出了与本发明实施例相关的部分,详述如下:
[0053]在步骤S301中,将短语依存树转换为短语二叉树。
[0054]图4示出了本发明实施例二提供的情感分类方法中转换短语二叉树的实现流程, 将短语依存树转换为短语二叉树,包括:
[0055]在步骤S401中,对所述短语依存树从低端逐层向上解析,获取每一层中的三元组 结构。
[0056] 在本实施例中,在构建短语二叉树过程中,存储短语依存树中的每一个内嵌结构 h,根据短语依存树结构,我们从低端开始逐层向上进行解析,对于每一层以三元组形式存 在的结构Troot-Tlrft Tright,其中,Tr。。*为短语依存树的根结点、Tlrft为短语依存树的左孩子 结点、Tright为短语依存树的右孩子结点。
[0057] 在步骤S402中,将所述三元组结构中的根结点存储为短语二叉树的左孩子,所述 三元组结构中的右孩子存储为短语二叉树的右孩子,并连接所述短语二叉树的左孩子、右 孩子,生成所述短语二叉树的父结点。
[0058] 在本实施例中,短语依存树的根结点Tr。。*存储为短语二叉树的左孩子,短语依存 树的右孩子Tright仍然为短语二叉树的右孩子,连接它们并存储生成的父结点P。
[0059]在步骤S403中,将所述短语二叉树的父结点存储为短语二叉树的右孩子,所述三 元组结构中的左孩子存储为短语二叉树的左孩子。
[0060] 在本实施例中,再将所述短语二叉树的父结点P存储为短语二叉树的右孩子,所述 三元组结构中的左孩子!^^存储为短语二叉树的左孩子。
[0061] 在步骤S302中,在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的 向量,所述结点的向量为基于短语级的向量。
[0062] 在步骤S303中,通过与基准词的相似度计算,确定结点的情感标签,所述基准词为 具有极强正负性的情感词,所述情感标签为情感倾向值。
[0063] 在步骤S304中,从根结点逐层向下递归,计算得到每个结点的反馈向量,所述结点 的反馈向量为基于短语级的向量。
[0064] 在步骤S305中,根据结点的向量、反馈向量、及情感标签,通过分类器函数进行情 感分类。
[0065]在本发明实施例中,步骤S302到S305的实施方式可参考前述实施例一中步骤S101 到S104的描述,在此不再赘述。
[0066]在本实施例中,短语依存树因为词语的组合,层次已经减少了许多,当转换成短语 二叉树的时候,层级会变得更浅,进一步地减少了训练复杂度。
[0067]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以 通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中, 所述的存储介质,如R0M/RAM、磁盘、光盘等。
[0068] 实施例三:
[0069] 图5示出了本发明实施例三提供的情感分类系统的结构示意图,为了便于说明,仅 示出了与本发明实施例相关的部分,其中包括:向量计算单元51、情感标签确定单元52、反 馈向量计算单元53以及情感分类单元54,其中:
[0070] 向量计算单元51,用于在短语二叉树中,从叶子结点逐层向上递归,计算得到每个 结点的向量,所述结点的向量为基于短语级的向量。
[0071] 情感标签确定单元52,用于通过与基准词的相似度计算,确定结点的情感标签,所 述基准词为具有极强正负性的情感词,所述情感标签为情感倾向值。
[0072] 反馈向量计算单元53,用于从根结点逐层向下递归,计算得到每个结点的反馈向 量,所述结点的反馈向量为基于短语级的向量。
[0073] 情感分类单元54,用于根据结点的向量、反馈向量、及情感标签,通过分类器函数 进行情感分类。
[0074] 在本发明实施例中,情感分类系统的各单元可由相应的硬件或软件单元实现,各 单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。 该系统各单元的实施方式具体可参考前述实施例一的描述,在此不再赘述。
[0075] 实施例四:
[0076] 图6示出了本发明实施例四提供的情感分类系统的结构示意图,为了便于说明,仅 示出了与本发明实施例相关的部分。
[0077] 在本发明实施例中,情感分类系统其中包括:转换单元50、向量计算单元51、情感 标签确定单元52、反馈向量计算单元53以及情感分类单元54,其中:
[0078]转换单元50,用于将短语依存树转换为短语二叉树。
[0079] 向量计算单元51,用于在短语二叉树中,从叶子结点逐层向上递归,计算得到每个 结点的向量,所述结点的向量为基于短语级的向量。
[0080] 情感标签确定单元52,用于通过与基准词的相似度计算,确定结点的情感标签,所 述基准词为具有极强正负性的情感词,所述情感标签为情感倾向值。
[0081] 反馈向量计算单元53,用于从根结点逐层向下递归,计算得到每个结点的反馈向 量,所述结点的反馈向量为基于短语级的向量。
[0082] 情感分类单元54,用于根据结点的向量、反馈向量、及情感标签,通过分类器函数 进行情感分类。
[0083] 在本发明实施例中,情感分类系统的各单元可由相应的硬件或软件单元实现,各 单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。 该系统各单元的实施方式具体可参考前述实施例一、实施例二的描述,在此不再赘述。
[0084] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种情感分类方法,其特征在于,所述方法包括下述步骤: 在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的向量,所述结点的向 量为基于短语级的向量; 通过与基准词的相似度计算,确定结点的情感标签,所述基准词为具有极强正负性的 情感词,所述情感标签为情感倾向值; 从根结点逐层向下递归,计算得到每个结点的反馈向量,所述结点的反馈向量为基于 短语级的向量; 根据结点的向量、反馈向量、及情感标签,通过分类器函数进行情感分类。2. 如权利要求1所述的方法,其特征在于,在短语二叉树中,从叶子结点逐层向上递归, 计算得到每个结点的向量的步骤之前,所述方法还包括: 将短语依存树转换为短语二叉树。3. 如权利要求2所述的方法,其特征在于,将短语依存树转换为短语二叉树的步骤,包 括: 对所述短语依存树从低端逐层向上解析,获取每一层中的三元组结构; 将所述三元组结构中的根结点存储为短语二叉树的左孩子,所述三元组结构中的右孩 子存储为短语二叉树的右孩子,并连接所述短语二叉树的左孩子、右孩子,生成所述短语二 叉树的父结点; 将所述短语二叉树的父结点存储为短语二叉树的右孩子,所述三元组结构中的左孩子 存储为短语二叉树的左孩子。4. 如权利要求1所述的方法,其特征在于,在短语二叉树中,从叶子结点逐层向上递归, 计算得到每个结点的向量的步骤,包括: 在短语二叉树中,计算孩子结点的向量; 根据所述孩子结点的向量,计算父结点的向量。5. 如权利要求4所述的方法,其特征在于,在短语二叉树中,计算孩子结点的向量的步 骤,包括: 获取结点中每个词语的初始词语向量,将所有词语的初始词语向量映射形成一词嵌入 矩阵,所述词嵌入矩阵中每一列表示一个词语; 根据每个词语的索引,在词嵌入矩阵中检索对应的词语向量; 将每个结点中所有词语的词语向量进行求和、或点积运算,得到每个结点的向量。6. 如权利要求4所述的方法,其特征在于,根据所述孩子结点的向量,计算父结点的向 量的步骤,包括: 获取左孩子结点的向量、及右孩子结点的向量;,计算出父结点P的向量,其中,P为父结点的向量,VI为 左孩子结点的向量,V2为右孩子结点的向量,b为偏置项。7. 如权利要求1所述的方法,其特征在于,从根结点逐层向下递归,计算得到每个结点 的反馈向量的步骤,包括: 在短语二叉树中,根据父结点的向量,计算父结点的反馈向量; 根据所述父结点的反馈向量,计算孩子结点的反馈向量。8. 如权利要求1所述的方法,其特征在于,根据所述父结点的反馈向量,计算孩子结点 的反馈向量的步骤,包括: 通过公SpizfXVp),计算父结点的反馈向量,其中,P为父结点的向量,pi为父结点的反 馈向量,V为转换矩阵,VeRnXN,其中,R为实数;nXN表示η行N列的矩阵;计算出孩子结点的反馈向量,其中,Ρ为父结点的 向量,Ρ%父结点的反馈向量,<为左孩子结点的反馈向量,为右孩子结点的反馈向量, 以为偏置项。9. 一种情感分类系统,其特征在于,所述系统包括: 向量计算单元,用于在短语二叉树中,从叶子结点逐层向上递归,计算得到每个结点的 向量,所述结点的向量为基于短语级的向量; 情感标签确定单元,用于通过与基准词的相似度计算,确定结点的情感标签,所述基准 词为具有极强正负性的情感词,所述情感标签为情感倾向值; 反馈向量计算单元,用于从根结点逐层向下递归,计算得到每个结点的反馈向量,所述 结点的反馈向量为基于短语级的向量; 情感分类单元,用于根据结点的向量、反馈向量、及情感标签,通过分类器函数进行情 感分类。10. 如权利要求9所述的系统,其特征在于,所述系统还包括: 转换单元,用于将短语依存树转换为短语二叉树。
【文档编号】G06F17/30GK105930368SQ201610226987
【公开日】2016年9月7日
【申请日】2016年4月13日
【发明人】傅向华, 徐莹莹
【申请人】深圳大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1