一种面向中文Web评论的文本情感分类方法

文档序号:6399353阅读:306来源:国知局
专利名称:一种面向中文Web评论的文本情感分类方法
技术领域
本发明属于数据处理技术领域,具体地涉及一种面向中文Web评论的文本情感分类方法。
背景技术
文本作为一种重要的信息交互媒介,主要的功能是传情达意,基于内容的研究已经很成熟,近些年来越来越多的研究开始集中到“传情”上即情感分析,主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。对一篇文档而言,能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以,对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前,不论是英语还是汉语,都没有一个完整的涵盖词语语义倾向的词典,也不可能有这样的一个完备的词典,因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向,他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束,知道其中一个词的语义倾向,就可以推测出另一个。如“excellent and X”,可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析,他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法:PMI2IR和LSA。Esuli通过对一个词语的注释(从词典中获得)进行训练和分类,从而判断其他词语的语义倾向。基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法,利用前面提到的PMI2IR方法计算出文本中出现的符合规则的短语的语义倾向,通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。PangBo最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好,分类准确率最高达到约80%。事实上,对一篇文章而言,它表达的情感的正面或负面是通过主观语句体现出来的,如“产品质量好!”。但是像“它的售价刚好是50元!”这样的客观语句,虽然有“好”这一特征词,但并不应该能起到任何作用。但是如果能区分一篇文章中的主观语句和客观语句,只对主观语句进行特征选择,会对分类的准确率有很大提高。Brucejiebe等利用贝叶斯分类器对句子的主客观性进行分类。PangBo把主客观语句分类转换成求图的最小截问题,实现一个Cut2based分类器,对主客观语句进行分类。

近年,基于情感的文本分类逐渐被应用到更多的领域中。例如,微软公司开发的商业智能系统Pulse,它能够从大量的评论文本数据中,利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统OpinionObserver,利用网络上丰富的顾客评论资源,对评论的主观内容进行分析处理,提取产品各个特征及消费者对其的评价,并给出一个可视化结果;Sanjiv从网络上的股评信息中获取某只股票的市场评价,对股票的价格进行预测。中文的基于情感的文本分类研究还不是很多。基于HowNet,朱嫣岚在其论文中提出了两种词语语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。Yuen通过计算词语和具有强烈感情色彩的语素或单个汉字之间在LI2VAC文集上的统计关系来判定词语语义倾向。T’ sou利用词语的语义倾向来计算新闻文本的语义倾向,衡量公众对名人的评价。

发明内容
1、本发明的目的。本发明的目的在于提出一种面向中文Web评论的文本情感分类方法,有效地应用于中文评论文本的情感分析。2、本发明所采用的技术方案
1.一种面向中文Web评论的文本情感分类方法,整个过程可分为两个部分:训练过程和分类过程;
训练过程按照以下步骤进行:
步骤一、训练文本预处理;
步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合;
步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数;
步骤四、训练分类器。分类过程按照以下步骤进行:
测试文本预处理一特征选择一分类器分类一输出分类结果,具体处理如下:
步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量;
步骤二、特征选择;
步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类;
步骤四、输出分类结果。优选的,所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。优选的,所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量。优选的,所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。优选的,所述的特征选择方法和权重计算方法如下:
步骤一、使用文档频率的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率。步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重。步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。3、本发明的有益效果。本发明提出了一种面向中文Web评论的文本情感分类方法,通过训练过程和分类过程将文本情感进行有效的分类,为使用者提供有效的数据挖掘从而进行分析处理。


图1是文本分类流程图。 图2是文本预处理流程图。
具体实施例方式实施例1
文本情感分类的总体过程如图1所示。整个过程可分为两个部分:训练过程和分类过程。训练过程的基本流程为:训练文本预处理一特征选择一文本的向量化表示一训练分类器。具体处理如下:
1、 给定经过人工分类的训练文本集
对其进行一些预处理,如中文分词,停用词过滤等。2、用频数等统计量来计算文本中的词条在类别C I中的分布情况,经过特征选择,得到该类别的局部特征.设所选特征词的集合
权利要求
1.一种面向中文Web评论的文本情感分类方法,其特征在于:整个过程可分为两个部分:训练过程和分类过程; 训练过程按照以下步骤进行: 步骤一、训练文本预处理; 步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合; 步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数; 步骤四、训练分类器; 分类过程按照以下步骤进行: 测试文本预处理一特征选择一分类器分类一输出分类结果;具体处理如下: 步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量; 步骤二、特征选择; 步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类; 步骤四、输出分类结果。
2.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。
3.根据权利要求1或2所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量。
4.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。
5.根据权利要求3所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的特征选择方法和权重计算方法如下: 步骤一、使用文档频率的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率; 步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重; 步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。
全文摘要
本发明属于数据处理技术领域,公开了一种面向中文Web评论的文本情感分类方法。本发明包括训练过程和分类过程,训练过程为训练文本预处理→特征选择→文本的向量化表示→训练分类器;分类过程为测试文本预处理→特征选择→分类器分类→输出分类结果。本方法在原始文档分类方法的基础上加入使用文档频率(DF)、信息增益(IG)以及建立否定词、程度副词和动态情感词的情感词典判别各特征中文词语的情感倾向进行选取特征词、计算特征权值并构建特征向量,并使用NaiveBayes分类算法来训练得到分类器,对文本进行情感分类,为使用者提供有效的数据挖掘从而进行分析处理。
文档编号G06F17/30GK103116637SQ201310050250
公开日2013年5月22日 申请日期2013年2月8日 优先权日2013年2月8日
发明者李千目, 倪铭, 印杰, 侯君 申请人:无锡南理工科技发展有限公司, 江苏警官学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1