一种基于情感值的网络文本情感分析方法

文档序号:6547597阅读:1493来源:国知局
一种基于情感值的网络文本情感分析方法
【专利摘要】本发明涉及一种基于情感值的网络文本情感分析方法。本方法的操作步骤如下:第一,对文本进行预处理,段落拆分,标点替换等。第二,句式分析,判断分段文本中疑问句式和感叹句式,对情感值进行加权处理。第三,情感值匹配,根据预定义好情感值的情感词典对文本的每一个分段进行情感词匹配,将情感值带入。第四,对匹配到的情感词进行情感赋值,得到分段情感值。第五,情感值计算,将各个分段情感值相结合计算,得到整句情感值。第六,情感值修正,对每一分段进行情感值处理完毕后,将所有情感值按照一定规则进行修正。第七,情感倾向分析,得出情感值后根据情感值进行情感极性分析。该分析方法能比较准确的分析出中文文本的情感信息。
【专利说明】一种基于情感值的网络文本情感分析方法
【技术领域】
[0001]本发明涉及自然语言处理、数据挖掘领域和语言学,尤其涉及一种基于情感值的网络文本情感分析方法。
【背景技术】
[0002]目前,文本倾向性分析技术正逐渐被应用到许多的领域中。例如,微软公司开发的商业智能系统Pulse,它能够从大量的评论文本数据中,利用文本聚类技术提取出用户对产品细节的看法;产品评论挖掘系统Opinion Observer,利用网络上丰富的顾客评论资源,对评论的主观内容进行分析处理,提取产品各个特征及消费者对其的评价并给出一个可视化结果。
[0003]国内针对汉语网络文本的情感分析主要集中在情感倾向性分析,一般分为褒义、贬义和中性三种,还包括倾向性的强烈程度,包括:主观性分类(subjectivityclassification),情感极性(polarity 或者 valence),语义倾向(semantic orientation),观点挖掘(opinion mining),观点抽取(opinion extractive),情感分析(sentimentanalysis),情感摘要(sentiment summarization)等。
[0004]情感分析,也被称为观点挖掘、观点分析、主客观分析等。情感分析的目的是从文本中挖掘用户表达的观点以及情感极性。挖掘用户观点意义重大,既能吸引潜在用户,帮助用户做决策,又能得到产品反馈,还能对政治选举等重大事件进行预测。除此以外,情感分析的技术还有助于自然语言处理领域其他研究方面的发展,例如,自动文本摘要以及问答系统等。在情感分析方面,主要使用的技术分两大类:一类是采用情感词典与规则相结合的方法,根据文本中所包含的正向情感词和负向情感词的个数来进行情感分类;另一类是采用机器学习的方法,选择文本中的一些特征,标注训练集和测试集,使用朴素贝叶斯(NaiveBayes)、最大熵(Max Entropy)、支持向量机(Support Vector Machine)等分类器来进行情感分类。
[0005]所谓词汇的情感倾向,即对于词汇的褒贬程度计算出一个度量值。为了便于统计和比较,目前比较常用的做法是将度量值规定为位于±1之间的实数。当度量值高于某阈值时,判别为褒义倾向;反之,则判为贬义倾向。研究显示:大多数的形容词和副词,以及一部分的名词和副词都具有语义倾向性。而词汇作为语言学的一个基本语义单位,其情感倾向的判别对更大语言粒度的情感倾向性分析有着非常重要的作用。国内关于汉语词汇、短语的情感倾向研究主要分两类方法:基于统计方法和基于语义词典的方法。

【发明内容】

[0006]本发明的目的是针对已有技术存在的不足,提供一种基于情感值的网络文本情感分析方法对中文文本进行情感分析,能准确的分析得到文本的情感倾向性以及情感程度(情感值)。根据上述发明的目的,本发明的构思是:
本发明的基于情感值的网络文本情感分析方法采用的是情感词典与规则相结合的方法,这种方法的优势是对语法句法敏感,更容易表现出语言的细微之处。另外采用权威的情感值词典和权值词典,情感分析的结果更加准确。情感分析结果是一种情感倾向和情感程度,一篇文本或者一段话是正面、中性或者负面情感,情感值(情感程度)是多少。
[0007]根据上述发明构思,本发明采用下述技术方案:
一种基于情感值的网络文本情感分析方法,其特征在于分析步骤如下:
(I)文本预处理:主要是对标点符号进行处理以及句子分段。
[0008](2)句式分析:判断分段文本中疑问句式和感叹句式,对情感值进行加权处理。
[0009](3)情感词匹配:对各个分段逐个进行分析,匹配情感值词典,将未匹配到的单词当作中性词语处理。
[0010](4)情感词赋值:对匹配到的情感词进行情感赋值,并进行连接,得到分段情感值。
[0011](5)情感值计算:将各个分段情感值相结合计算,得到整句情感值。
[0012](6)情感值修正:对整个文本根据文本长度进行情感值修正。
[0013](7)情感倾向判断:根据情感值区间对情感倾向进行判断,包括正面、中性和负面。
[0014]本发明与已有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:针对中文文本,提出一种基于情感值词典的文本情感分析方法,对于细致的情感计算以及情感倾向性分析,在文本分析准确率和分析结果的参考价值上都有显著的提升,对于信息挖掘也有相当大的现实意义。
【专利附图】

【附图说明】
[0015]附图1为本发明基于情感值的文本情感分析方法流程图。
[0016]附图2为本发明情感值匹配流程图 附图3为本发明句式分析流程图。
【具体实施方式】
[0017]本发明的优选实施例结合附图详述如下:
实施例一:
参见图1,本基于情感值的网络文本情感分析方法,其特征在于分析步骤如下:
(1)文本预处理:主要是对标点符号进行处理以及句子分段;
(2)句式分析:判断分段文本中疑问句式和感叹句式,对情感值进行加权处理;
(3)情感词匹配:对各个分段逐个进行分析,匹配情感值词典,将未匹配到的单词当作中性词语处理;
(4)情感词赋值:对匹配到的情感词进行情感赋值,并进行连接,得到分段情感值;
(5)情感值计算:将各个分段情感值相结合计算,得到整句情感值;
(6)情感值修正:对整个文本根据文本长度进行情感值修正;
(7)情感倾向判断:根据情感值区间对情感倾向进行判断,包括正面、中性和负面。
[0018]实施例二:本实施例与实施例一基本相同,特别之处如下:
参见图2和图3,所述: 步骤(I)文本预处理规则要求:对文本进行基本处理,包括句子按标点符号分段,特征分段提取,标点符号识别分类。
[0019]步骤(2)句式分析规则要求:分析步骤(I)中对句子的标点符号识别,根据句式列表,对整个分段情感值进行加权处理;其中,加权的权值从句式权值表中取出。
[0020]步骤(3)情感词匹配规则要求:匹配情感值词典规则如下:
匹配规则1:定义不同的情感值词典,其中包括以下四种类型情感词典:权值词典weight,负面词词典negative,程度词词典degree,姓氏词典family name ;
匹配规则2:以weight词典为主,negative、degree和family name作为辅助词典对词语进行情感值匹配;对weight的匹配拥有最高优先级,其次为negative和degree词典;family name词典为特殊用途,在匹配weight词典之后进行姓名排除;
匹配规则3:将所有匹配到的结果存储,并按顺序存储下来,作为中间结果;
匹配规则4:对上述中间结果进行处理,分析所有可能的句式结果,选取最优结果;选取最优结果的方法为挑选最佳句式匹配的方法,对于句式相近的多结果匹配则根据程度词和情感词之间的距离判断,距离小的一种句式作为结果;
匹配规则5:利用weight、negative和degree中的情感值和权重,进行情感值计算。
[0021]步骤(4)情感词赋值规则要求如下:
a)根据步骤(3)得出的情感值匹配结果,对分段的情感词赋值;其中赋值包括情感值赋值和权重值赋值;
b)按照特定的句法进行整合:根据中文句法构成,分析句子的组成结构,将负面词语、权重词语以及情感词语进行排列以便进行情感值计算。
[0022]步骤(5)情感值计算规则要求:不同分段之间的情感值按照加法进行统一计算。
[0023]步骤(6)情感值修正规则要求:计算方法:按照字数进行加权平均,以使整个情感值处于一个相对平稳的区间内,避免过高或者过低这种不适宜的值出现。
[0024]步骤(7)情感倾向判断规则要求:于结果倾向性分析,以情感值区间划分:低于-2为负面文本,高于2为正面文本,-2和2之间为中性文本;情感值区间根据目标文本领域进行适当调整。
[0025]实施例三:
参见图f图3,本基于情感值的网络文本情感分析方法的具体操作步骤如下:
步骤(I)文本预处理:对标点符号进行处理以及句子分段。现今的大多数中文文本,尤其是微博、论坛的文本,都含有大量的标点符号和表情符号。这些符号大多伴随在一段话之后,用来表不情感,由于符号表情复杂多样且不规则,同时一个表情又可以表达多种情感,不适宜作为参考。一部分文本中存在多个符号重叠的现象,这些文本和发表文本的用户使用习惯有关,也是千差万别,都需要进行统一的规格化。规则如下:
1)对整句进行预处理,根据定义好的终结词表stoplist(终结词表就是部分情感词的非情感词集合),将所有终结词识别出来并替换为统一字符“O” ;
2)对整句进行分段,一般为按标点符号(括号和书名号除外)隔开,同时保留每个分段结尾的标点符号,供步骤(4)使用;
3)将每个分段连同其结尾标点符号保存起来,以此作为文本预处理最终结果。
[0026]步骤(2)句式分析:判断分段文本中疑问句式和感叹句式,对情感值进行加权处理。。在进行情感值计算之前的文本预处理结果对计算结果影响较大,所以对分段和标点处理方法的选择比较重要。本发明所采用的方法是:
根据汉语特征,通常一句话都会有特定的语法特定的句法,定义一个规则来为特殊情感句式加权。得到分段结果之后,就要对每个分段进行处理,针对每一段,进行如下步骤的处理操作:
a)判断是否含有疑问句式,如“难道……吗”;
b)判断是否含有感叹句式,如“……啊”;
c)判断分段结尾标点符号,是否为“?”和“ ! ”,并断定句式;
d)为整段情感值附加权值,暂不参与运算,待句式分析计算完毕后再进行加权计算。
[0027]本发明对于疑问句式采用以枚举为主的方法,同时以关键字“不,是否,?”作为最关键的处理对象。首先判断句子中是否有“不”字,如果有则获得“不”字所在的位置,然后依次向后寻找是否有“不……不……”的句式,对于这样的句式不会对情感的倾向性产生影响因此对情感值不加权,否则判断为反向情感,情感值取反,如果有“不……吗”这样的疑问句式,则加权提升情感值的绝对值大小。其次判断句子中是否含有“是否”,同样地,这个关键字不会影响情感倾向,只做轻微加权提升情感值。之后处理疑问句最重要的一步是对各种特殊疑问句式的处理,因为疑问句一般以“? ”结尾,因此首先判断是否含有“?”,然后判断是否还有以下样式的疑问句式,然后加权处理,见下表:
【权利要求】
1.一种基于情感值的网络文本情感分析方法,其特征在于分析步骤如下: (1)文本预处理:主要是对标点符号进行处理以及句子分段; (2)句式分析:判断分段文本中疑问句式和感叹句式,对情感值进行加权处理; (3)情感词匹配:对各个分段逐个进行分析,匹配情感值词典,将未匹配到的单词当作中性词语处理; (4)情感词赋值:对匹配到的情感词进行情感赋值,并进行连接,得到分段情感值; (5)情感值计算:将各个分段情感值相结合计算,得到整句情感值; (6)情感值修正:对整个文本根据文本长度进行情感值修正; (7)情感倾向判断:根据情感值区间对情感倾向进行判断,包括正面、中性和负面。
2.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(I)文本预处理规则要求:对文本进行基本处理,包括句子按标点符号分段,特征分段提取,标点符号识别分类。
3.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(2)句式分析规则要求:分析步骤(1)中对句子的标点符号识别,根据句式列表,对整个分段情感值进行加权处理;其中,加权的权值从句式权值表中取出。
4.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(3)情感词匹配规则要求:匹配情感值词典规则如下: 匹配规则1:定义不同的情感值词典,其中包括以下四种类型情感词典:权值词典weight,负面词词典negative,程度词词典degree,姓氏词典family name ; 匹配规则2:以weight词典为主,negative、degree和family name作为辅助词典对词语进行情感值匹配;对weight的匹配拥有最高优先级,其次为negative和degree词典;family name词典为特殊用途,在匹配weight词典之后进行姓名排除; 匹配规则3:将所有匹配到的结果存储,并按顺序存储下来,作为中间结果; 匹配规则4:对上述中间结果进行处理,分析所有可能的句式结果,选取最优结果;选取最优结果的方法为挑选最佳句式匹配的方法,对于句式相近的多结果匹配则根据程度词和情感词之间的距离判断,距离小的一种句式作为结果; 匹配规则5:利用weight、negative和degree中的情感值和权重,进行情感值计算。
5.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(4)情感词赋值规则要求如下: a)根据步骤(3)得出的情感值匹配结果,对分段的情感词赋值;其中赋值包括情感值赋值和权重值赋值; b)按照特定的句法进行整合:根据中文句法构成,分析句子的组成结构,将负面词语、权重词语以及情感词语进行排列以便进行情感值计算。
6.根据权利要求1所述方法,其特征在于:所述步骤(5)情感值计算规则要求:不同分段之间的情感值按照加法进行统一计算。
7.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(6)情感值修正规则要求:计算方法:按照字数进行加权平均,以使整个情感值处于一个相对平稳的区间内,避免过高或者过低这种不适宜的值出现。
8.根据权利要求1所述基于情感值的网络文本情感分析方法,其特征在于:所述步骤(7)情感倾向判断规则要求:于结果倾向性分析,以情感值区间划分:低于-2为负面文本,高于2为正面 文本,-2和2之间为中性文本;情感值区间根据目标文本领域进行适当调整。
【文档编号】G06F17/27GK104008091SQ201410224628
【公开日】2014年8月27日 申请日期:2014年5月26日 优先权日:2014年5月26日
【发明者】武星, 卓少剑 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1