基于集成学习的中文评论文本的情感分类方法与系统的制作方法

文档序号：6373335阅读：197来源：国知局

专利名称：基于集成学习的中文评论文本的情感分类方法与系统的制作方法
技术领域：
本发明是针对评论文本的情感分类方法的研究，涉及模式识别领域，特别是涉及一种基于集成学习的中文评论文本的情感分类方法与基于该方法的系统。
背景技术：
互联网的普及以及多种新型网络媒体的出现不仅给人们带来了海量的信息，同时也给人们提供了各种表达自己情感的舞台，比如BLOG, BBS,新闻评论等在线评论平台。于是如何科学高效的管理这些包含个人情感色彩的网络的在线评论对个人、企业、社会安全都尤为重要。然而，这些评论文本相比普通文本有明显的不同一是评论文本没有固定的语法结构，长度短，甚至随着时间的推移不断地出现新词汇，也称之为新型文本；二是对其管理的首要任务是了解网民对评论主体的情感态度，比如酒店经理最关心的是顾客对酒店的服务满意与否。·现有的评论文本的情感分类方法可以分为两类。一类是借鉴传统文本分类的方法，利用特征表示文本，利用机器学习的方法预测情感倾向。但由于没有考虑特征之间的关系，分类性能不够好。另一类方法分别累计文本中的积极(Pos)情感和消极(Neg)情感，从而判断文本的整体情感倾向。这类方法更适合情感分类问题。其中两个关键问题是情感特征之间的关系的描述和所表达情感的累加方式。现有技术表明定量描述特征的模糊性可以提高分类效果。然而，现有方法均只利用特征对文本属于某类别的支持程度，直接忽视特征对文本不属于某类别的支持程度，没有充分利用从语料库中提取的信息。在具体的情感分类技术中，主要需要解决的问题有两个特征选择与分类算法。这两个问题都是相对于传统的文本分类而言的。特征选择方法有n-gram(unigram, bigram, trigram)、词性、语义树等，但这些方法孰优孰劣尚在争论之中。分类算法的研究已经从传统的机器学习算法转向基于总体情感倾向合成的方法，即先确定每个特征的情感倾向，然后集结文本中的所有特征的情感倾向，得到文本的情感倾向，而这种方法都可以用一定形式的集结算子来表示。名称为“Ensemble of feature setsand classification algorithms for sentiment classification”,作者为 Rui Xia,Chengqing Zong, Shoushan Li 发表于〈〈Information Science〉〉的文献(一下称为文献 I)首次提出了利用分类器集成的方法来提高分类器集成的效果。然而，现有的研究在以下方面有待改进(I)文献I提出的基于集成学习的解决方案中基分类器的类型为NaiveBayes分类器、最大熵分类器和支持向量机。当基分类器数量较大时，这些传统的分类器将给系统带来很大的时间和空间的开销。这在很大程度上限制了该技术的应用范围。(2)集成学习虽然能很好的改善单分类器的不稳定性，但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度，忽视了分类器输出同时还包含着样本不属于类别的程度，没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。
(3)现有技术中的分类器训练过程均为一次性完成的，这就要求在系统开始运行时就准备好一个足够充分的训练语料库。然而语料库的准备是很困难的。更重要的是，一次性训练好的分类器无法捕捉一些新兴词汇在表达情感时的作用。

发明内容
为了解决上述问题，提高中文评论文本的情感倾向的辨识率，为企业管理者以及潜在客户提供更有效的决策支持，本发明公开了一种基于集成学习的中文评论文本的情感分类方法及基于该方法的系统，该方法主要通过序列学习来训练多个基分类器，再通过直觉模糊集结算子集成多个基分类器的分类结果，进而预测评论文本的情感倾向。为了实现上述发明目的，本发明采用的技术方案如下基于集成学习的中文评论文本的情感分类方法，包括以下步骤步骤101 :从网页中获取中文评论文本，并进行预处理；·步骤102 :并行地序列训练多分类器系统；步骤103 :用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊矩阵；步骤104 :结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并作出分类决策。本发明还提供了一种基于上述情感分类方法的系统，包括初始化模块Ml、基分类器训练模块M2和分类模块M3，其中初始化模块Ml、基分类器训练模块M2和分类模块M3依次串行连接，同时初始化模块Ml和分类模块M3串行连接。a)初始化模块Ml :从网页中获取评论文本，并初始化。包含评论获取单元U11、文本向量初始化单元U12 ；b)基分类器训练模块M2 :按训练语料准备就绪的时间顺序，并行地序列训练多个ELM (Extreme Learning Machine)分类器，并计算相关参数值。包含基分类器训练单元U21、权重、引导变量获取单元U22 ；c)分类模块M3 :用基分类器训练单元U22中训练的分类器模型对待分类样本分类，其输出汇总为分类器输出矩阵，将基分类器输出矩阵转换为直觉模糊矩阵，结合分类器权重和引导变量融合直觉模糊信息并做出分类决策。包含基分类器调用单元U31、输出转换单元U32、基分类器融合单元U33和分类决策单元U34 ；相比本领域的现有技术，本发明的适用于中文评论文本的情感分类方法具有以下优点(I)本发明采用的基分类器为ELM分类器，比文献I的基分类器具有更好的辨识率和稳定性，而且训练速度极其迅速，能够满足对时间敏感的网络应用的需求。(2)本发明技术在融合多分类器的输出时采用直觉模糊集的引导型加权融合方法，该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度，量化了分类器的不确定性，并融入分类器的融合过程中，降低了系统的不确定性，提高集成学习的效率。(3)本发明采用序列学习策略，一方面降低了对语料库的初始准备的要求，另一方面通过及时补充新的训练语料来捕获新兴词汇对表达情感倾向的影响。

图I是本发明基于集成学习的中文评论文本的情感分类方法的流程图。图2是本发明分类方法中多分类器系统训练的流程图。图3是本发明分类方法中分类器输出转换与融合的流程图。图4是本发明实施例在第一个语料库上的测结果图。图5是本发明实施例在第二个语料库上的测试结果图。图6是本发明实施例在第三个语料库上的测试结果图。图7是实现本发明分类方法的模块的结构图。
具体实施例方式以下结合附图和具体实施例对本发明作具体说明。本发明的基于集成学习的中文评论文本的情感分类方法如图I所示，包括以下步骤步骤101 :从网络中获取中文评论文本，并进行预处理；步骤102 :并行地序列训练多分类器系统；步骤103 :用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊数；步骤104 :结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并做出分类决策。以下进一步详细的说明本发明中的各个细节问题。评论文本的情感分类是将文本按其表达的情感倾向分为若干类别。分类的粒度根据实际应用需要大小不一，可以粗略的分为2类(褒义(P0S类)、贬义(NEG类))，也可以分为3类(褒义(P0S类)、贬义(NEG类)和中性(NEUTRAL类))，还可以更详细地分为5类(将POS类和NEG类分别按其程度各分为2类)。本发明对情感类别的粒度不做具体的限制，根据集体的应用环境的需要进行设置。同时本发明技术可以适用于任何粒度级别的类别。设将样本记为(x;y)或X，其中X是一个向量，包含样本所有特征的取值，y为类标号。记类别总数为C，若C = 3,则当X属于POS类,y = I ;当X属于NEG类，y = -I,当x属于NEUTRAL类，y = O。I、评论文本获取与预处理网民将自己关于产品或服务的主观感受以文字的形式发表在网页上。由于网页都是格式化的，从中将每一篇评论截取下来保存为一篇文本。选取同一种(或同一类)评论对象，如酒店评论，的所有评论文本经人工标注后形成训练语料库。不论是语料库中的已标注的评论文本，还是新的待分类的评论文本，都需要进行预处理，其任务是将评论文本转化为一个向量X。首先利用bi-gram方法获得特征，并利用基于Fisher判别的特征约简算法从中提取Nfeatuke个特征,然后利用Binary-based方法获得评论文本对应的向量的每个特征的值。对于已标注评论文本，类标号y已知；对于待分类评论文本，类标号I未知。2、多分类器系统训练
本发明区采用集成学习的策略提高分类精度，同时通过序列学习策略来训练多个ELM分类器，如图2所示，包含如下步骤步骤201 :初始训练阶段。只有少量的初始训练样本
权利要求
1.基于集成学习的中文评论文本的情感分类方法，其特征在于，所述方法包括步骤101 :从网页中获取中文评论文本，并进行预处理；步骤102 :并行地序列训练多分类器系统；步骤103 :用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊数；步骤104 :结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并做出分类决策。
2.如权利要求I所述的基于集成学习的中文评论文本的情感分类方法，其特征在于，所述步骤101包括从格式化的网页中截取评论内容保存为文本，利用bi-gram方法获得分类特征，并利用基于Fisher判别的特征约简算法从中提取Nfeatuke个特征，然后利用Binary-based方法获得评论文本对应的向量的每个特征的值。
3.如权利要求I所述的基于集成学习的中文评论文本的情感分类方法，其特征在于，所述步骤102包括如下步骤步骤201 :只有少量的初始训练样本Ne准备就绪，其中Ntl彡L，L为ELM分类器的隐层节点数，Q为系统中的ELM分类器的数量，对每个ELM分类器，记为ELMq Cq =I,2，…，Q),执行 Ca)随机生成参数a产和Zf)，i = 1，2，…，L ; (b)计算隐层输出矩阵Hf:
4.如权利要求I所述的基于集成学习的中文评论文本的情感分类方法，其特征在于，所述步骤103和步骤104包含如下步骤步骤301 :将待分类评论文本(x;y)输入到Q个基分类器，输出汇总成矩阵
5.一种基于如权利要求I所述的情感分类方法的系统，其特征在于，所述系统包括初始化模块Ml、基分类器训练模块M2和分类模块M3，其中初始化模块Ml、基分类器训练模块M2和分类模块M3依次串行连接，同时初始化模块Ml和分类模块M3串行连接。
6.如权利要求5所述的系统，其特征在于，所述初始化模块Ml包括评论获取单元Ull :用于从格式化的网页中自动获取特点领域的评论内容并保存为独立的文本；文本向量初始化单元U12 :利用特征抽取及表示方法将评论文本转化为向量形式；其中评论获取单元Ul I，文本向量初始化单元U12依次串行连接。
7.如权利要求5所述的系统，其特征在于，所述基分类器训练模块M2包括基分类器训练单元U21 :序列地训练一个包含多个ELM分类器的多分类器系统；权重、引导变量获取单元U22:计算每个基分类器的输出向量的范数作为引导变量值，并确定权重向量的值；其中基分类器训练单元U21，权重、引导变量获取单元U22依次串行连接。
8.如权利要求5所述的系统，其特征在于，所述分类模块M3包括基分类器调用单元U31 :调用M2中训练的基分类器对经过初始化的待分类评论文本，汇总各个基分类器的输出；输出转换单元U32 :将基分类器的输出的每一项转化为对应的直觉模糊数；基分类器融合单元U33 :结合基分类器的引导变量与权重，融合待分类评论文本属于以及不属于各类别的程度；分类决策单元U34 :比较U33的融合结果的大小，并做出分类决策；其中基分类器调用单元U31，输出转换单元U32，基分类器融合单元U33，和分类决策单元U34依次串行连接。
全文摘要
本发明涉及模式识别领域，公开了一种基于集成学习的中文评论文本的情感分类方法和基于该方法的系统。包括a)从网页中获取中文评论文本，并进行预处理，b)并行地序列训练多分类器系统，c)用基分类器对待分类的评论文本分类，将分类输出转化为直觉模糊数，d)结合基分类器的权重和引导变量，融合待分类的评论文本的情感倾向，并做出分类决策。本发明具有以下优点训练和分类速度极快；采取序列学习策略，便于发现新兴词汇，降低对语料库的要求；通过集成学习来提高分类准确率，因而基于该方法的系统能更好地支持管理或购买决策。
文档编号G06F17/30GK102789498SQ20121024526
公开日2012年11月21日申请日期2012年7月16日优先权日2012年7月16日
发明者乔爱萍, 沈玲玲, 王海, 钱钢申请人:钱钢

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：钱钢;王海;沈玲玲;乔爱萍
技术所有人：钱钢
我是此专利的发明人

上一篇：多屏拼接触控方法和系统的制作方法
上一篇：信息处理设备、信息处理方法及程序的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。