一种文本的情感分类方法及装置的制作方法

文档序号:6369734阅读:101来源:国知局
专利名称:一种文本的情感分类方法及装置的制作方法
技术领域
本发明涉及自然语言处理技术领域,更具体的说,是涉及一种文本的情感分类方法及装置。
背景技术
伴随着计算机的日益普及和互联网的迅速发展,网络已成为许多领域的用户发表和反馈个人观点、评论的主要途径。这些共享的评论信息不仅为用户提供了产品使用体验 交流的平台,也可以作为其他用户使用产品前的借鉴。但是,网络中的这些评论信息量非常大,如果对每一条评论信息都人工阅读分析评论好坏,会浪费用户大量的时间。因此,如何让用户在短时间内就能够客观的了解某个产品的评论信息所反映出的总体评价好坏情况,即对网络中的评论文本进行情感分析分类,是非常必要的。文本情感分析,就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分类是利用底层情绪信息抽取的结果将情感文本分为了若干类别,例如分为褒贬两类。现有技术中,情感分类是基于整篇待分类文本或整条待分类评论信息来判断其情感倾向性,即褒贬态度。例如一条评论信息为“酒店的房间很大,我很喜欢,但是服务人员态度很差,希望下次改进。”。这条评论信息中包括“房间”和“服务人员”两个评价对象,按照现有技术将整条评论信息作为评价对象进行情感分类,利用分词工具识别出该评论信息中含有情感转折词“但是”,且“但是”后识别出“差”、“改进”等词,那么对这条评论信息的情感分类结果就为贬义。可是,这样的情感分类结果忽略了 “酒店的房间很大,我很喜欢”所表达的褒义情感。综上所述可以看出,现有技术对文本进行情感分类是将整篇文本视为一个评价对象来进行情感分类,这种方法对待分类文本中包含多个评价对象的文本并不适用。因此现有技术的对文本进行情感分类的方法存在不准确性。

发明内容
有鉴于此,本发明提供了一种文本的情感分类方法及装置,以克服现有技术中由于将整篇文本视为一个评价对象来进行情感分类而造成的文本情感分类不准确的问题。为实现上述目的,本发明提供如下技术方案一种文本的情感分类方法,包括预处理过程选取待分类文本对应领域的情感语料;对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;以所述标注有不同评价对象类别的句子为训练集构建多类分类器;分类过程利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。可选的,所述评价对象类别包括整体、硬件和软件。 可选的,所述对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子,包括采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注;根据分词和词性标注的结果和预设的评价对象对应关系表为每一个句子标注评价对象类别,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系。可选的,所述构建多类分类器,包括采用机器学习分类方法中的最大熵分类方法来构建多类分类器。可选的,所述利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,包括利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;将分好的句子中后验概率大的评价对象类型标注在所述句子中。可选的,所述融合每一个基情感分类器的分类结果,包括分别融合每一个基情感分类器的分类结果中对所述句子表示褒义情感和贬义情感的后验概率。可选的,所述根据融合的结果判断出待分类文本的情感等级,包括选取后验概率融合结果大的褒义情感或贬义情感为待分类文本的情感类别。一种文本的情感分类装置,包括预处理模块和分类模块;所述预处理模块包括语料选取模块,用于选取待分类文本对应领域的情感语料;句子标注模块,用于对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;多类分类器构建模块,用于以所述标注有不同评价对象类别的句子为训练集构建多类分类器;所述分类模块包括分句标注模块,用于利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;基情感分类器构建模块,用于从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;概率获取模块,用于采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;概率融合模块,用于根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;类别确定模块,用于选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。可选的,所述多类分类器构建模块包括构建子模块,用于采用机器学习分类方法中的最大熵分类方法来构建多类分类器。可选的,所述分句标注模块包括分句模块,用于利用分句、分词和词性标注工具将待分类文本分句、分词及词性标 注;类型标注模块,用于将所述句子中后验概率大的评价对象类型标注在所述句子中。经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种文本的情感分类方法及装置,所述方法包括预处理过程和分类过程。所述预处理过程首先从待分类文本对应的领域选取情感语料,经过对所述情感语料的分析处理得到标注有不同评价对象类别的句子,并以所述标注有不同评价对象类别的句子为训练集构建多类分类器;所述分类过程首先利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,再以带有每一类评价对象的句子为训练集构建一个对应的基情感分类器,采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,并分别得到划分的多个情感等级对应的后验概率,最后根据乘法融合规则融合每一个基情感分类器的分类结果并根据所述结果判断出待分类文本的情感分类。通过本发明实施例公开的文本的情感分类方法及装置,将待分类文本根据评价对象类别进行细化,然后分别对每一个评价对象类别的句子的情感倾向进行分析,最后将不同评价对象类别的情感倾向进行融合,提高了文本的情感分类的准确性。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图I为本发明实施例公开的文本的情感分类方法流程图;图2为本发明实施例公开的为情感语料标注评价对象类别的流程图;图3为本发明实施例公开的标注待分类文本的流程图;图4为本发明实施例公开的文本的情感分类装置结构示意图;图5为本发明实施例公开的分句标注模块结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例一图I为本发明实施例公开的文本的情感分类方法流程图,参见图I所示,所述方法可以包括步骤101 :选取待分类文本对应领域的情感语料;由于不同领域相关的评价对象不同,因此,本发明实施例公开的文本的情感分类方法虽然适用于各个领域,但是也需要针对领域的不同选取不同领域的情感语料;例如酒店领域的评价对象一般为设施、环境、服务价格等;笔记本领域的评价对象一般为硬盘、显示器、操作系统等;
步骤102 :对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子;往往某个领域的评价对象会很多,例如酒店领域的评价对象除了服务和价格等这些抽象的评价对象外,酒店房间内的任何设施都可以是评价对象;为了使得评价对象不会过细粒度化而使得文本的情感分类变得异常复杂,本发明实施例中将每一个评价对象都归属于某几个特定的类别;可以将评价对象类别分为整体、硬件和软件三类;不管在什么领域,凡是具体的设施、设备及部件,可以归为硬件类、而一些抽象的评价对象,例如客服、速度、价格等可以统一归为软件类;在情感语料的句子中出现总之、总体、整体等词语时,可以将相关句子归为整体类;当然,评价对象类别也可以根据实际情况从不同的角度划分为不同个数的类别;图2为本发明实施例公开的为情感语料标注评价对象类别的流程图,参见图2所示,在将评价对象分为整体、硬件和软件三大类的情况下,为情感语料标注评价对象类别的步骤可以包括步骤201 :采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注;例如一个分好的句子是“键盘很好按”,那么利用分词工具就会将此句分为“键盘”、“很好”和“按”三个词,词性标注工具会将“键盘”标注为名词;将“很好”标注为形容 词;将“按”标注为动词;步骤202 :根据分词和词性标注的结果和预设的评价对象对应关系表为每一个句子标注评价对象类别;在预设的评价对象对应关系表中查找步骤201中标注出的名词或动词,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系;如果查找到,将评价对象对应关系表中与所述名词或动词对应的评价对象类别标注在所述名词所在的句子中;步骤103 :以所述标注有不同评价对象类别的句子为训练集构建多类分类器;本发明实施例中,采用机器学习分类方法中的最大熵分类方法来构建多类分类器;最大熵分类方法最大熵分类方法是基于最大熵信息理论,其基本思想是在满足系统当前提供的所有条件下寻求分别最均匀的模型,将已知事实作为制约条件,求的可使熵最大化的概率分布作为正确的概率分布;该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响;在最大熵模型中,通常用二值特征函数表示特征函数,定义如下
[1,//7 g a
|0,others在最大熵模型下,预测条件概率p* (a I b)的公式如下
*I*,P (a I b) = —— exp( V IfAaJi))
雄)
k其中,Ji (b)是归一化因子,;T(A) = ^exp(f; A J是参数,可以通过
a/=1
GIS算法求出;步骤104 :利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子;图3为本发明实施例公开的标注待分类文本的流程图,参见图3所示,所述标注待分类文本可以包括步骤301 :利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注;步骤302 :将分好的句子中后验概率大的评价对象类型标注在所述句子中;后验概率是指在得到结果的信息后重新修正的概率;为了便于理解,举例如下待分类文本中一个句子是“前台服务很周到”,句子中会识别出“前台”、“服务”等词,这里可以将前台归为硬件类,将服务归为软件类,那么就无法判断此句的评价对象类别,但是,句子中还识别出了 “周到”这个形容词,而这个词只能是用来形容“服务”这一特定的评价对象,不能用来形容“前台”,那么此时,这个句子包含的评价对象类别为软件的后验概率就高一些,这个句子被标注上的评价对象类别就为“软件”;步骤105 :从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合,并分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器;如果评价对象类别包括整体、硬件和软件三类,那么相应的会有三个训练集,并对应的生成三个基情感分类器;步骤106 :采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率;可以将评价对象类别的情感等级分为褒义和贬义两种,并分别得到待分类文本三个评价对象类别(整体、硬件和软件)为褒义和贬义的后验概率;例如整体评价为褒义的后验概率为0. 6,为贬义的后验概率为0. 4 ;硬件评价为褒义的后验概率为0. 3,为贬义的后验概率为0. 7 ;软件评价为褒义的后验概率为0. 8,为贬义的后验概率为0. 2 ;步骤107 :根据乘法融合规则融合每一个基情感分类器的分类结果中同一情感等级的后验概率;乘法融合规则假设有个参加组合的分类器fk(k = 1,. . . R),这些分类器给样本X的分类结果为Lk (Lk = C1, ... Cffl);另外,他们提供出了属于每个类别的概率信息为Pk =< p (C11 dk), . . . , P (cm I dk) > t,其中P (Ci I dk)表示样本dk属于类别Ci的后验概率;乘法规则是通过将每个基分类器的后验概率相乘,然后使用相乘后的概率来决定测试样本属于哪一类,具体的乘法规则可以描述为乘法规则的条件assign y — Cj

规则
权利要求
1.一种文本的情感分类方法,其特征在于,包括 预处理过程 选取待分类文本对应领域的情感语料; 对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子; 以所述标注有不同评价对象类别的句子为训练集构建多类分类器; 分类过程 利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子; 从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合; 分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器; 采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,并分别得到与所述多个情感等级对应的后验概率; 根据乘法融合规则融合每ー个基情感分类器的分类结果中同一情感等级的后验概率; 选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。
2.根据权利要求I所述的方法,其特征在于,所述评价对象类别包括整体、硬件和软件。
3.根据权利要求2所述的方法,其特征在于,所述对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子,包括 采用分句、分词和词性标注工具对所述情感语料进行分句、分词和词性标注; 根据分词和词性标注的结果和预设的评价对象对应关系表为每ー个句子标注评价对象类别,所述评价对象对应关系表中记录了所述待分类文本对应领域的所有评价对象与评价对象类别中整体、硬件或软件的对应关系。
4.根据权利要求I所述的方法,其特征在于,所述构建多类分类器,包括 采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
5.根据权利要求I所述的方法,其特征在于,所述利用所述多类分类器将待分类文本分为带有不同评价对象类别的句子,包括 利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注; 将分好的句子中后验概率大的评价对象类型标注在所述句子中。
6.根据权利要求I所述的方法,其特征在于,所述融合每ー个基情感分类器的分类结果,包括 分别融合每ー个基情感分类器的分类结果中对所述句子表示褒义情感和贬义情感的后验概率。
7.根据权利要求6所述的方法,其特征在干,所述根据融合的结果判断出待分类文本的情感等级,包括 选取后验概率融合结果大的褒义情感或贬义情感为待分类文本的情感类别。
8.一种文本的情感分类装置,其特征在于,包括预处理模块和分类模块;所述预处理模块包括语料选取模块,用于选取待分类文本对应领域的情感语料; 句子标注模块,用于对所述情感语料进行分析处理,获取标注有不同评价对象类别的句子; 多类分类器构建模块,用于以所述标注有不同评价对象类别的句子为训练集构建多类分类器; 所述分类模块包括 分句标注模块,用于利用所述多类分类器将待分类文本分为标注有不同评价对象类别的句子; 基情感分类器构建模块,用于从获得的标注有不同评价对象类别的句子中,确定包含标注有同一评价对象类别的句子的集合;分别以所述包含标注有同一评价对象类别的句子的集合为训练集,构建与其对应的基情感分类器; 概率获取模块,用于采用所述基情感分类器对与其对应的评价对象类别的情感等级进行划分,得到多个情感等级,井分别得到与所述多个情感等级对应的后验概率; 概率融合模块,用于根据乘法融合规则融合每ー个基情感分类器的分类结果中同一情感等级的后验概率; 类别确定模块,用于选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。
9.根据权利要求8所述的装置,其特征在于,所述多类分类器构建模块包括 构建子模块,用于采用机器学习分类方法中的最大熵分类方法来构建多类分类器。
10.根据权利要求8所述的装置,其特征在于,所述分句标注模块包括 分句模块,用于利用分句、分词和词性标注工具将待分类文本分句、分词及词性标注; 类型标注模块,用于将所述句子中后验概率大的评价对象类型标注在所述句子中。
全文摘要
本发明公开了一种文本的情感分类方法及装置,所述方法经过对相关领域情感语料的分析处理,构建了一个多类分类器,再利用多类分类器将待分类文本分为多种评价对象类别的句子,利用不同评价对象的句子集合分别构建一个基情感分类器,以判断评价对象类别句子的情感倾向,最后融合不同评价对象类别中表示相同情感等级的后验概率,选取后验概率融合结果大的情感等级为所述待分类文本的情感类别。通过本发明实施例公开的文本的情感分类方法及装置,将评价对象归为固定的几个类别,分别分析每一个评价对象类别的句子的情感倾向,再将不同评价对象类别的情感倾向融合,根据融合结果判断待分类文本的情感类别;这种方法大大提高了文本情感分类的准确率。
文档编号G06F17/27GK102682124SQ20121015157
公开日2012年9月19日 申请日期2012年5月16日 优先权日2012年5月16日
发明者周国栋, 张慧, 李寿山 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1