一种基于语义的汉语网络文本情感提取方法

文档序号:6652888阅读:785来源:国知局
专利名称:一种基于语义的汉语网络文本情感提取方法
技术领域
本发明涉及一种网络文本情感信息提取方法,主要涉及自然语言处理领域以及情 感计算领域。
背景技术
自然语言是人类特有的交流手段之一,而随着互联网的发展,自然语言也成为网 络交流的重要手段,并逐渐衍生出一种新兴的语言方式网络语言。网络文本信息蕴含着丰 富的情感信息,对应着用户相应的心理状态,因此文本情感提取的研究在情感计算和智能 交互领域有着重要意义。它使计算机能够从文本信息中体会人类的喜怒哀乐并做出恰当的 反应,可用于人机对话系统、仿生代理交互系统。而如何能够准确有效的对用户输入语言进 行情感识别并分类,已成为人机交互和个性化计算机领域面临的一个巨大挑战。而现在汉语自然语言处理技术涉及到情感信息的领域只有语义倾向计算,即褒贬 二义识别。这对于准确分析用户行为及理解用户情感是远远不够的。此外,网络语言具有 如下特征(1)无复杂的句式( 重在速度而非正确拼写C3)多使用网络流行语(4)频繁使 用情感符、缩写、缩略,针对这些特征必须建立起相应的文本处理模型才能准确识别用户表 达的情感。情感计算模型是人机情感交互的关键组成部分,其基础和根本是对自然情绪实 质的理解和表示。Ekman受到达尔文理论的影响,提出包含六种基本情感的计算模型“气 愤”、“厌恶”、“恐惧”、“高兴”、“悲伤”和“惊讶”。而这六种情感在文化传统间的差异很小, 具有很强的通用性。在汉语言文本情感信息研究方面,目前大多数的研究只限定在褒贬二种情感极 性,而且缺乏对网络语言处理的相应模型,这极大的制约了中文人机情感交互的发展。而针 对网络语言的文本处理模型结合Ekman六种基本情感模型的情感提取方法可以有效地解 决汉语文本情感信息匮乏、识别率不高等问题。因此,提出一种高效的、细致的汉语文本情 感信息提取方法具有很强的现实意义。

发明内容
本发明要解决的技术问题是提供一种能够准确提取汉语网络文本情感信息的方 法。本发明提供了一种基于语义及情感计算的网络文本情感信息提取方法,包括以下 几个步骤(1)检测文本中的情感符,缩写,缩略,感叹词等特殊符号;(2)利用汉语词法分析系统ICTCLAS2011对文本进行预处理,得到句子基本句法 关系;(3)对句子中分离出来的词进行分析,从情感语料库中获取相应的六维情感向 量;
(4)根据不同短语的类型,制定相应的情感规则,得到短语六维情感向量;(5)根据句子的不同类型,结合短语情感向量,得到句子最终的六维情感向量。在上述方法中,步骤(1)中的特殊符号的分类及处理规则如下所述I情感符在人机交互中,情感符的使用越来越广泛。情感符所包含的情感信息也 是最直接,最准确的。因此,对情感符的单独处理对检测文本情感信息具有重要的意义。对 于情感符首先将其进行情感分类,然后采用手动标注的方法对其赋予相应的情感系数,即<emotion type, emotional coefficient)
权利要求
1.一种基于语义及情感计算的网络文本情感信息提取方法,包括以下步骤(1)检测文本中的情感符、缩写、缩略、感叹词等特殊符号;(2)利用汉语词法分析系统ICTCLAS2011对文本进行预处理,得到句子基本句法关系;(3)对句子中分离出来的词进行分析,从情感语料库中获取相应的六维情感向量;(4)根据不同短语的类型,根据相应的情感规则,得到短语六维情感向量;(5)根据句子的不同类型,结合短语情感向量,得到句子最终的六维情感向量。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)包括对常用情感符及重复标 点的情感系数赋值,用于表征其对情感向量的影响程度。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)对于情感符的处理规则如下情感规则1 如果检测到情感符,则认为情感符所代表的情感即是该文本的情感,而不 再对文本进行下一步的分析;情感符的情感类型即是句子的情感类型,而情感符的强度系 数为情感向量中相应情感类型的值;情感规则2 如果出现多个情感符,且属于同一个类别,则选择情感强度系数最大的; 情感规则3 如果情感符属于不同的类别,则选择最后一个出现的情感符的情感类型 作为主导情感。
4.根据权利要求1所述的方法,其特征在于,所述步骤C3)包括对词语进行六维情感向 量赋值,用于表征词语所表达的情感类型及情感强度。
5.根据权利要求1所述的方法,其特征在于,所述步骤(4)对于短语的处理规则如下 情感规则4 对于形容词短语即形如修饰语+形容词结构的短语,用修饰语的情感系数调整形容词的情感向量;情感规则5 对于由两种不同词性的词语构成的短语如形容词+名词、动词+名词、副 词+动词;首先根据两种不同词性词语的情感向量α,β计算其相关系数r,利用两个向量 的夹角得出其相关系数"W如果r < 0. 5,说明两个词的词性相关程度不大,这时候选择输出短语中占主导地位的 词的情感向量;如果r > = 0. 5,说明两个词的词性有一定的相关性,在这种情况下,对于每 种情感类型,分别选择两组情感向量中较大的值,这样得到最终情感向量;情感规则6 如果有否定的词语出现,则要将其修饰的词语的情感向量中的情感值置O0
6.根据权利要求1所述的方法,其特征在于,所述步骤(5)对于整个句子的处理规则如下情感规则7 —般性人称代词如他,她,它等和中性名词如苹果,大地,天空等,因为其 本身不含感情色彩,所以认为其对整个句子的情感向量不产生影响;情感规则8 对于含感情色彩的名词(坏蛋,恶棍,天使等),则对比其情感向量与短语 的情感向量;若对于某种特定情感类型,两者的情感值都不为0,则将取其最大值作为最终 结果;若两者的情感值有一个为0或都为0,则将情感值置0。
全文摘要
本发明要提供一种能够准确提取网络文本情感信息的方法。包括以下几个步骤(1)检测文本中的情感符,缩写,缩略,感叹词等特殊符号;(2)用专业句法分析器对纯文本进行预处理,得到句子的基本句法关系;(3)对句子中分离出来的词进行分析,赋予情感向量;(4)根据不同短语的类型,根据相应的情感规则,得到短语情感向量;(5)根据句子的不同类型,结合短语情感向量,得到句子最终的情感向量。基于本发明的网络文本情感提取方法能够全面、细化的识别情感类型,并且具有较高的准确率。
文档编号G06F17/30GK102122297SQ20111005211
公开日2011年7月13日 申请日期2011年3月4日 优先权日2011年3月4日
发明者毛峡, 江琳 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1