一种情感分类方法及系统的制作方法

文档序号：10569938阅读：167来源：国知局

一种情感分类方法及系统的制作方法
【专利摘要】本发明适用计算机技术领域，提供了一种情感分类方法及系统，该方法包括：在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量；通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值；从根结点逐层向下递归，计算得到每个结点的反馈向量，该结点的反馈向量为基于短语级的向量；根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。本发明通过构建短语二叉树结构，短语级的运算，同时获取每个结点的情感标签，进而根据结点的向量、反馈向量、及情感标签进行分类，通过双向传播实现了全文信息的捕获，提高了分类准确率。
【专利说明】
一种情感分类方法及系统
技术领域
[0001 ]本发明属于计算机技术领域，尤其涉及一种情感分类方法及系统。
【背景技术】
[0002] 文本情感分类是对持有情感色彩的主观性文本进行分析和处理，归纳总结并推理出文本情感倾向，根据粒度的不同可以分为篇章级，段落级，句子级，词语级。目前针对英文文本情感分析的研究较多，例如Turney运用无监督学习方法对产品评论数据进行极性探测;Pang采用机器学习方法对电影评论进行情感分类，这两个工作都是对文档级的文本数据进行二分类。
[0003] 传统的情感分析方法主要基于词语级的特征表达方式，词嵌入表示方式被用于进行句子级或文档级情感分析。但是，由于词嵌入表示方式仅能表示单独的词，所以在进行更大粒度的情感分析时，需要考虑语义组合问题。目前应用于自然语言处理都存在一定的缺陷：1、现有技术都是针对词语级语法树结构进行构建深度学习网络，使得训练层级过深，时间和计算复杂度过高;2、现有技术在对分类器训练时，非终端结点情感标签的处理主要有2 种方式：1)内部结点无标签，只有整个句子的标签，导致影响分类准确率，2)人工标注，花费大量劳力，而且标注人过少，容易存在主观偏差；3、在特征训练过程中采用单向传播的方法，即只能从叶子结点（词语级）向上传播，而不能从根结点(整个句子)向下传播，导致不能捕获全文信息。

【发明内容】

[0004] 本发明的目的在于提供一种情感分类的方法及系统，旨在解决由于现有技术针对词语级训练导致计算复杂度过高、内部结点无标签影响准确率、及单向传播导致不能捕获全文信息的问题。
[0005] -方面，本发明提供了一种情感分类方法，所述方法包括下述步骤：
[0006] 在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量；
[0007] 通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值；
[0008] 从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量；
[0009] 根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。
[0010] 另一方面，本发明提供了一种情感分类系统，所述系统包括：
[0011] 向量计算单元，用于在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量；
[0012] 情感标签确定单元，用于通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值；
[0013] 反馈向量计算单元，用于从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量；
[0014] 情感分类单元，用于根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。
[0015] 在本发明实施例中，构建短语二叉树结构，进行短语级的运算，双向传播，先从叶子结点逐层向上递归，计算得到每个结点的向量，再从根结点逐层向下递归，计算得到每个结点的反馈向量，同时获取每个结点的情感标签，根据结点的向量、反馈向量、及情感标签进行分类，通过双向传播实现全文信息的捕获，提高分类准确率。
【附图说明】
[0016] 图1是本发明实施例一提供的情感分类方法的实现流程图；
[0017] 图2是本发明实施例一提供的情感分类方法中计算结点向量的实现流程；
[0018] 图3是本发明实施例二提供的情感分类方法的实现流程；
[0019] 图4示出了本发明实施例二提供的情感分类方法中转换短语二叉树的实现流程；
[0020] 图5是本发明实施例三提供的情感分类系统的结构示意图；以及
[0021] 图6是本发明实施例四提供的情感分类系统的结构示意图。
【具体实施方式】
[0022]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0023]以下结合具体实施例对本发明的具体实现进行详细描述：
[0024] 实施例一:
[0025] 图1示出了本发明实施例一提供的情感分类方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：
[0026] 在步骤S101中，在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量。
[0027] 在本发明实施例中，短语二叉树的叶子结点是短语而非词语，因此，需要获取到短语级的向量作为初始输入数据。首先，需要得到词语级的向量，然后由词语向量通过一定的组合方式计算得到短语向量，该短语向量即为短语二叉树的结点的向量。在实际应用中，可以通过随机初始化、或无监督深度学习工具W 〇rd2VeC学习语义词嵌入表示，通过随机初始化可以不需要任何预训练方法去学习词嵌入表示，而使用无监督深度学习工具W 〇rd2VeC学习语义词嵌入表示可以有效地在大量文本数据中学习到高质量的词嵌入表达。
[0028] 具体地，图2示出了本发明实施例一提供的情感分类方法中计算结点向量的实现流程，在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量包括：
[0029] 在步骤S201中，在短语二叉树中，计算孩子结点的向量；
[0030] 其中，在短语二叉树中，计算孩子结点的向量，包括：
[0031] 获取结点中每个词语的初始词语向量，将所有词语的初始词语向量映射形成一词嵌入矩阵，所述词嵌入矩阵中每一列表示一个词语；
[0032]根据每个词语的索引，在词嵌入矩阵中检索对应的词语向量；
[0033 ]将每个结点中所有词语的词语向量进行求和、或点积运算，得到每个结点的向量。
[0034] 在本发明实施例中，短语二叉树中每个结点都是一个短语，短语由词语组成，对于词语而言，所有的词语都保存在一个词典中，每个词语通过随机初始化、或无监督深度学习工具W 〇rd2VeC学习语义词嵌入表示都得到一个初始词语向量wGRN，其中，R为实数，N为向量维度，w是实数一维向量，把所有词语的初始词语向量映射到一个词嵌入矩阵LGR NXV中，其中，R为实数，N为向量维度，V为词语的数量，词嵌入矩阵LGRNXV的每一列表示一个词语，每个词语都有一索引i，索引i可以用来检索词语对应的特征向量。在进行检索时，我们需要乘上一二值向量P，二值向量P除了第i个位置之外，其余位置的数值都为〇,对应检索的公式为:wi = LPi〇
[0035] 在得到词语向量后，通过线性组合函数计算短语向量，可以对词语向量进行求和或点积运算得到短语向量，即为结点的向量。具体地，若一短语V = ( Wl，W2，…，w。）由若干个词语组成，将所有的词语向量求和:V = SLiW)，或将所有的词语向量进行点积运算:v = W10W20~ 0W。，得到短语向量，即为孩子结点的向量。通过上述这两种方法得到的词语向量不仅捕获了语法信息，而且减少了训练复杂度。
[0036] 在步骤S202中，根据所述孩子结点的向量，计算父结点的向量。
[0037] 其中，根据所述孩子结点的向量，计算父结点的向量，包括：
[0038] 获取左孩子结点的向量、及右孩子结点的向量；
[0039] 通过公式
1:，计算出父结点P的向量，其中，P为父结点的向量， vi为左孩子结点的向量，V2为右孩子结点的向量，b为偏置项。
[0040] 在本发明实施例中，在步骤S201中得到了短语向量，即孩子结点的向量，根据孩子结点的向量和短语二叉树，可以实现逐层的计算任意长度的语义组合向量。具体地，基于短语二叉树结构通过孩子结点的向量( V1，V2)利用深度学习网络计算出父结点的向量表示P，其公式为：
，其中，P为父结点的向量，V1为左孩子结点的向量，v 2为右孩子结点的向量，b为偏置项。
[0041] 进一步地，由父结点的向量p，可以得到重构层，该重构层计算公式为 g + I/)，其中，vS为重构层的左孩子结点的向量，vS为重构层的右孩子结点的向量，t/为偏置项。
[0042] 在本实施例中，实现了通过计算重构层复现了短语二叉树初始的左、右孩子结点的向量，理想状态下，重构层的左、右孩子结点的向量与短语二叉树初始的左、右孩子结点的向量相等，但是在实际运算中会出现不可避免的误差，其误差值可以通过如下公式计算
[0043]在步骤S102中，通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值。
[0044] 在本发明实施例中，通过计算和基准词的相似度得到情感倾向值，基准词的相似度计算涉及到"语法"、"语义"、"句法"、"概念"和"义原"等单位，计算到"义原"使得计算更准确。"概念"描述了一个词语的语义，每一个词语可以表达为一个或多个概念，而"义原"是描述概念的一种知识表示语言，是更小的单位，细化到"义原"层次，通过上下位关系组成树状结构层次。对两个义原〇U和〇#，它们的相似度等于树状结构层次中的路径距离长度 diSlj，公式如下
其中，a为一个可以调节的参数，diSlj表示两个义原和〇#在义原层次结构体系中的距离长度，diSlj>0。通过该等式计算得到所有概念下的义原相似度，两个概念仏和山的相似度就是所有义原相似度的最大值，而词语相似度则取所有概念相似度的最大值。假设给定两个词语Wp和Wq，如果Wp包含了 g个概念:Upl，Upl，…， Upg，wq有h个概念:uql，uql，…，u qh，那么这两个词的相似度就是包含的所有概念的相似度最大值，等式如下抑)，概念相似度则通过取其包含的义原相似度的最大值：仰~⑷/,%) = 如巧/〇。要通过计算与基准词的相似度获取结点的情感标签，预先选出a对具有极强正负极性的情感词作为基准词，再计算结点的词语与基准词之间的相似度，相似度值作为度量该结点的词语的情感倾向度。结点的词语的情感倾向值Glabel (W)将会通过以下等式计算： w) - W?V &?饥 w(nZ, w))，其中，其中 Pi 表示正向基准词，m表示负向基准词，如果Giabt3i(w)>0,则表示词语w的情感倾向是正向；如果Giabt3i(w) 〈0，则表示词语w的情感倾向是负向；如果Giabei(w) = 0，则表示词语w的情感倾向是中立。
[0045] 利用下面的规则，基于树结构获取树中所有结点的情感倾向：
[0046] 对于程度副词，能够很大程度地加强情感倾向的程度，基于这个理论，当短语包含程度副词时，其修饰的词语的情感倾向值Glabel(W)就翻倍，即为2Gl abel(W)。例如，如果情感词"喜欢"被词语"很"修饰组成"很喜欢"这个短语V，那么该短语V的情感倾向值为G label(v) zSGlabdwiike)，翻倍后需要做检查，即如果Glab(3l(V)>l，则该短语的情感倾向值设置为 Glabel ( V ) = 1，由于预设情感倾向值的取值范围为[-1，1 ]。
[0047] 对于反意词，当情感词被具有反意作用的词语修饰时，这个短语的意思将会发生转折。这种情况下，需要将情感倾向值反向计算。例如，情感词"喜欢"如果被连接上词语 "不"而变为"不喜欢"，那么这个短语的情感倾向值就会变为G label(v)=-Glabel(Wllke)。
[0048] 除了上述两种情况，基于词语的情感倾向值利用线性组合的方法结合树结
[0049] 在本发明实施例中，结合结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类，计算公式如下：>'(p;0) f j，其中，y(p;0)为结点P处的预测分布，0是参数、Wi为权值、p为结点的向量、p1为结点的反馈向量。
[0050] 通过构建短语二叉树结构，进行短语级的运算，先从叶子结点逐层向上递归，计算得到每个结点的向量，再从根结点逐层向下递归，计算得到每个结点的反馈向量，同时获取每个结点的情感标签，根据结点的向量、反馈向量、及情感标签进行分类，通过双向传播实现了全文信息的捕获，提高分类准确率。
[0051 ] 实施例二:
[0052]图3示出了本发明实施例二提供的情感分类方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：
[0053]在步骤S301中，将短语依存树转换为短语二叉树。
[0054]图4示出了本发明实施例二提供的情感分类方法中转换短语二叉树的实现流程，将短语依存树转换为短语二叉树，包括：
[0055]在步骤S401中，对所述短语依存树从低端逐层向上解析，获取每一层中的三元组结构。
[0056] 在本实施例中，在构建短语二叉树过程中，存储短语依存树中的每一个内嵌结构 h，根据短语依存树结构，我们从低端开始逐层向上进行解析，对于每一层以三元组形式存在的结构Troot-Tlrft Tright，其中，Tr。。*为短语依存树的根结点、Tlrft为短语依存树的左孩子结点、Tright为短语依存树的右孩子结点。
[0057] 在步骤S402中，将所述三元组结构中的根结点存储为短语二叉树的左孩子，所述三元组结构中的右孩子存储为短语二叉树的右孩子，并连接所述短语二叉树的左孩子、右孩子，生成所述短语二叉树的父结点。
[0058] 在本实施例中，短语依存树的根结点Tr。。*存储为短语二叉树的左孩子，短语依存树的右孩子Tright仍然为短语二叉树的右孩子，连接它们并存储生成的父结点P。
[0059]在步骤S403中，将所述短语二叉树的父结点存储为短语二叉树的右孩子，所述三元组结构中的左孩子存储为短语二叉树的左孩子。
[0060] 在本实施例中，再将所述短语二叉树的父结点P存储为短语二叉树的右孩子，所述三元组结构中的左孩子!^^存储为短语二叉树的左孩子。
[0061] 在步骤S302中，在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量。
[0062] 在步骤S303中，通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值。
[0063] 在步骤S304中，从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量。
[0064] 在步骤S305中，根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。
[0065]在本发明实施例中，步骤S302到S305的实施方式可参考前述实施例一中步骤S101 到S104的描述，在此不再赘述。
[0066]在本实施例中，短语依存树因为词语的组合，层次已经减少了许多，当转换成短语二叉树的时候，层级会变得更浅，进一步地减少了训练复杂度。
[0067]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如R0M/RAM、磁盘、光盘等。
[0068] 实施例三:
[0069] 图5示出了本发明实施例三提供的情感分类系统的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：向量计算单元51、情感标签确定单元52、反馈向量计算单元53以及情感分类单元54,其中：
[0070] 向量计算单元51，用于在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量。
[0071] 情感标签确定单元52,用于通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值。
[0072] 反馈向量计算单元53,用于从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量。
[0073] 情感分类单元54，用于根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。
[0074] 在本发明实施例中，情感分类系统的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。该系统各单元的实施方式具体可参考前述实施例一的描述，在此不再赘述。
[0075] 实施例四:
[0076] 图6示出了本发明实施例四提供的情感分类系统的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分。
[0077] 在本发明实施例中，情感分类系统其中包括:转换单元50、向量计算单元51、情感标签确定单元52、反馈向量计算单元53以及情感分类单元54，其中：
[0078]转换单元50,用于将短语依存树转换为短语二叉树。
[0079] 向量计算单元51，用于在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量。
[0080] 情感标签确定单元52,用于通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值。
[0081] 反馈向量计算单元53,用于从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量。
[0082] 情感分类单元54，用于根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。
[0083] 在本发明实施例中，情感分类系统的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。该系统各单元的实施方式具体可参考前述实施例一、实施例二的描述，在此不再赘述。
[0084] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种情感分类方法，其特征在于，所述方法包括下述步骤：在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量；通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值；从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量；根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。2. 如权利要求1所述的方法，其特征在于，在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量的步骤之前，所述方法还包括：将短语依存树转换为短语二叉树。3. 如权利要求2所述的方法，其特征在于，将短语依存树转换为短语二叉树的步骤，包括：对所述短语依存树从低端逐层向上解析，获取每一层中的三元组结构；将所述三元组结构中的根结点存储为短语二叉树的左孩子，所述三元组结构中的右孩子存储为短语二叉树的右孩子，并连接所述短语二叉树的左孩子、右孩子，生成所述短语二叉树的父结点；将所述短语二叉树的父结点存储为短语二叉树的右孩子，所述三元组结构中的左孩子存储为短语二叉树的左孩子。4. 如权利要求1所述的方法，其特征在于，在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量的步骤，包括：在短语二叉树中，计算孩子结点的向量；根据所述孩子结点的向量，计算父结点的向量。5. 如权利要求4所述的方法，其特征在于，在短语二叉树中，计算孩子结点的向量的步骤，包括：获取结点中每个词语的初始词语向量，将所有词语的初始词语向量映射形成一词嵌入矩阵，所述词嵌入矩阵中每一列表示一个词语；根据每个词语的索引，在词嵌入矩阵中检索对应的词语向量；将每个结点中所有词语的词语向量进行求和、或点积运算，得到每个结点的向量。6. 如权利要求4所述的方法，其特征在于，根据所述孩子结点的向量，计算父结点的向量的步骤，包括：获取左孩子结点的向量、及右孩子结点的向量；，计算出父结点P的向量，其中，P为父结点的向量，VI为左孩子结点的向量，V2为右孩子结点的向量，b为偏置项。7. 如权利要求1所述的方法，其特征在于，从根结点逐层向下递归，计算得到每个结点的反馈向量的步骤，包括：在短语二叉树中，根据父结点的向量，计算父结点的反馈向量；根据所述父结点的反馈向量，计算孩子结点的反馈向量。8. 如权利要求1所述的方法，其特征在于，根据所述父结点的反馈向量，计算孩子结点的反馈向量的步骤，包括：通过公SpizfXVp)，计算父结点的反馈向量，其中，P为父结点的向量，pi为父结点的反馈向量，V为转换矩阵，VeRnXN，其中，R为实数;nXN表示η行N列的矩阵；计算出孩子结点的反馈向量，其中，Ρ为父结点的向量，Ρ%父结点的反馈向量，<为左孩子结点的反馈向量，为右孩子结点的反馈向量，以为偏置项。9. 一种情感分类系统，其特征在于，所述系统包括：向量计算单元，用于在短语二叉树中，从叶子结点逐层向上递归，计算得到每个结点的向量，所述结点的向量为基于短语级的向量；情感标签确定单元，用于通过与基准词的相似度计算，确定结点的情感标签，所述基准词为具有极强正负性的情感词，所述情感标签为情感倾向值；反馈向量计算单元，用于从根结点逐层向下递归，计算得到每个结点的反馈向量，所述结点的反馈向量为基于短语级的向量；情感分类单元，用于根据结点的向量、反馈向量、及情感标签，通过分类器函数进行情感分类。10. 如权利要求9所述的系统，其特征在于，所述系统还包括：转换单元，用于将短语依存树转换为短语二叉树。
【文档编号】G06F17/30GK105930368SQ201610226987
【公开日】2016年9月7日
【申请日】2016年4月13日
【发明人】傅向华, 徐莹莹
【申请人】深圳大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅向华;徐莹莹;
技术所有人：深圳大学;
我是此专利的发明人

上一篇：一种快速分析Web信息的方法
上一篇：智能聊天机器人控制方法及控制装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。