一种基于中文语义结构和细分词库结合的情感分析方法_3

文档序号：9375578阅读：来源：国知局

，E(Sp)为单独的否定词、反转词之后的情感单元（可能不止一个）的情感值之和，并将其称为当前情感值；E(S q)为当前情感值E(Sp)经过下述处理后得到的情感值，用于和否定词、反转词之前的情感单元（可能不止一个）的情感值进行累加，形成该语句的情感值。当句子中出现无模式匹配的TURN和NOT类词汇时，将当前情感值做一处理：如果是 TURN类词语，当前情感值乘以2,即情感加倍，重在强调TURN后的情感；如果是NOT类词语，当前情感值乘以-1，即当前情感值取反。
[0044] 当文本由两条或两条以上语句组成，例如分别在文本中间部分和结尾处出现END 类句子结束符，即这个文本包括了由两个句子结束符分割形成的两段话。这样文本的情感值计算方式可以为：先计算后一段话的情感值，并将该情感值乘以1，然后继续向左扫描属性词、匹配语义模式得到前面一段话的情感值，并做后续的叠加计算。
[0045] 当同时对多个首尾连接的待测文本进行情感分析（即在由多个待测文本组成的长文本的除结尾的其它部位会出现句子结束符）时，先通过本发明中对于单个待测文本的情感分析方法，分析单个待测文本的情感值并将该单个待测文本的情感值X1，然后将多个待测文本的情感值累加（优选从后往前、从右往左依次累加），从而得到多个待测文本的情感值。
[0046] 基于语义模式的中文财经新闻评论文本情感分析算法描述如下：输入：中文财经新闻评论文本，以句子为单位；输出：文本情感倾向值（1、0、-1); 1) 文本预处理（分词和词类标注，根据表1和表2的词语分类进行标注）； 2) 语义模式匹配（根据表3匹配句子模式），按照最右匹配的原则； 3) 根据表3和式1、2,计算情感句中每个情感单元的情感值并求得该情感句的情感加和； 4) 根据情感加和的结果折算最终情感值，折算公式如式3。
[0047] 式 3 :
O
[0048] 解释：当句子无语义模式匹配或叠加情感单元后情感值为0,取中性情感值；当情感值大于〇时，情感倾向值判为1，取正面情感值；当情感值小于〇时，情感倾向值判为-1，即取负面情感值。
[0049] 下面进一步例举实施例以详细说明本发明。同样应理解，以下实施例只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限制，本领域的技术人员根据本发明的上述内容作出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围中的一个示例，即本领域技术人员可以通过本文的说明做合适的范围内选择，而并非要限定于下文示例的具体数值。
[0050] 实施例1 使用四个句子进行分析，其中句1中模式匹配反转词、否定词，句2为正常陈述句，句3 中无模式匹配反转词、否定词，句4含有比较词、独立否定词和多个句子结束符。
[0051] 1.然而在完成金地源地块抵押后，浦发银行贷款并未如期下放，宋元刚的企业也遭到了金融机构抽贷。
[0052] 2.该方案采用中国移动和浦发银行的系统对接，利用各自强大的电子化信息处理手段，实现业务全流程在线处理，提高业务办理效率。
[0053] 3.今天中国多项重要经济数据密集公布，但各项数据基本上都显示出了经济并没有如预期那样稳步回暖。
[0054] 4.绿盟科技（300369)8月13日晚间公告，上半年业绩同比大幅下滑，亿赛通未来经营业绩存在重大不确定性。绿盟科技表示，如亿赛通2015年完不成业绩承诺，公司将无法达到于2014年9月所做业绩预测。
[0055] 第一步，上述四个句子在分词模块分词标注后，句子的格式如下。
[0056] 1.然而[turn]在完成[vp]金地源地块抵押[vn]后，[comma]浦发银行[stock] 贷款并未[not]如期[vp]下放，[co_a]宋元刚的企业也遭到[vns] 了金融机构抽贷[vn]。 [end]
[0057] 2.该方案采用[vps]中国移动[stock]和浦发银行[stock]的系统对接，[comma] 利用[vns]各自强大的[vp]电子化信息处理手段[nn]，[comma]实现[vps]业务全流程在线处理，[comma]提高[vp]业务办理效率[np]。[end]
[0058] 3.今天中国多项重要[vp]经济数据密集公布，[comma]但[turn]各项数据基本上都显示出了经济并没有[not]如预期那样稳步[vp]回暖[np]。[end]
[0059] 4.绿盟科技[stock] (300369[stock])8月13日晚间公告，[comma]上半年业绩 [np]同比[comp]大幅下滑[vnc]，[comma]亿赛通未来经营[vps]业绩[np]存在[vn]重大[vp]不确定性[nn]。[end]绿盟科技[stock]表不，[comma]如亿赛通2015年完不成 [vns]业绩[np]承诺，[comma]公司将无法[not]达到[vps]于2014年9月所做业绩[np] 预测。[end]
[0060] 第二步，在语义模式匹配模块匹配后，分别满足下列模式： 1. 【VNS:VN】+【N0T:VP】+【VN】+【TURN:VP】； 2. 【VP :NP】+【VPS】+【VP :NN】+【VNS】+【VPS】； 3. 【VP:NP】*【NOT】*【TURN】+【VP】； 4. (【VPS :NP】*【NOT】 +【VNS :NP】）*【END】 +【VP :NN】+【NP :VN】+【VPS】 +【NP : COMP : VNC 】；注：[stock]类关键字词汇是本发明的后续应用，与此处实施例无关。
[0061] 第三步，情感分析模块的计算过程与结果如下： 1. 【VNS :VN】+【NOT :VP】+【VN】+【TURN :VP】=-1-1-1+1 = -2〈0,句子最终情感值为_1 ; 2. 【VP:NP】+【VPS】 +【VP:NN】+【VNS】+【VPS】 = 1+1-1-1+1 = 1>0,句子最终情感值为1 ; 3. 【VP :NP】*【NOT】*【TURN】 +【VP】=1*(-1)*2+1 = _1〈0,句子最终情感值为-1 ; 4. (【VPS :NP】*【NOT】 +【VNS :NP】）*【END】 +【VP :NN】+【NP :VN】+【VPS】 +【NP : COMP :VNC】=(1*(-1)-1)*1-1-1+1-1 = -4〈0,句子最终情感值为-1。
[0062] 上述4个基于本发明的语义情感单元叠加最终结果对比常见的基于大规模情感语料库的情感词汇统计算法，情况如下：常见的基于大规模情感语料库的情感词汇统计算法，思想是叠加句子中的情感词，投票表决或以多取胜最终情感偏好，简单地可理解为正负面情感词汇比多少的问题，因此我们将统计算法简化，即采用直接叠加上述1. 2. 3. 4四个示例句子中的情感词，得到结果如下： 1. 完成[VP]+抵押[vn]+如期[vp]+遭到[vns]+抽贷[vn 卜 1 一 1+1 -1一1 =一 1〈0,情感偏负面； 2. 采用[vps] +利用[vns] +强大的[vp] +手段[nn] +实现[vps] +提高[vp] +效率[叩卜 1 一 1+1 - 1+1+1+1 = 3>0,情感偏正面； 3. 重要[vp]+稳步[vp] +回暖[叩卜1+1+1 = 3>0,情感偏正面； 4. 业绩[叩]+大幅下滑[vnc] +经营[vps] +业绩[叩]+存在[vn] +重大[vp] +不确定性[nn] +完不成[vns] +业绩[叩]+达到[vps] +业绩[叩卜1 一 1+1+1 - 1+1一1 一 1+1+1+1 = 3>0,情感偏正面。
[0063] 可见，采用统计思想在一股无转折的语句中可以达到基本正确计算句子情感值的目的，但是在带有否定词或反转词的句子中，如第3、4两句，得到的统计情感值有可能会与实际情感相反。而本发明中对于反转词和否定词等的算法处理可以在一定情况下避免情感错判，效果

完整全部详细技术资料下载

当前第3页1 2 3 4