一种篇章级情感分类方法及装置制造方法

文档序号:6513255阅读:250来源:国知局
一种篇章级情感分类方法及装置制造方法
【专利摘要】本申请提供了一种篇章级情感分类方法,通过收集篇章级文本和已标注极性的句子级文本,确定已标注极性的句子级文本为已分类句子级文本,从篇章级文本中的子句中获取与已分类句子级文本极性相同的待分类子句,以对篇章级文本的极性进行标注。相比于直接对篇章级文本进行人工标注所需时间短,因此减少了人工的劳动时间,节约了人力,且缩短了训练过程的时间,提高了对待分类文本进行分类的效率。在本申请中得到篇章级基分类单元和句子级基分类单元两种分类单元,分别对待分类文本进行分类,并将分类后的结果进行相加,得到最终分类结果。由于使用了两种分类单元对待分类文本进行分类,提高了分类结果的准确率。
【专利说明】一种篇章级情感分类方法及装置
【技术领域】
[0001]本申请涉及自然语言处理【技术领域】及模式识别领域,特别涉及一种篇章级情感分类方法及装置。
【背景技术】
[0002]随着互联网的快速发展,互联网所倡导“以用户为中心,用户参与”的开放式构架理念,使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变。因此,互联网(如博客和论坛)上产生了大量用户参与的、对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了用户的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。用户可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。越来越多的用户乐于在互联网上分享自己的观点或体验,导致评论信息量迅速增加,仅靠人工的方法难以应付网上海量信息的收集和处理,因此文本情感分析技术应运而生。
[0003]文本情感分析技术利用计算机快速获取和整理相关评价信息,其可以对带有情感色彩的主观性文本进行分析、处理、归纳和推理。
[0004]情感分类是文本情感分析技术的一项子任务,其利用底层情感信息抽取的结果将情感文本分为若干情感类别,如分为褒贬两类情感类别,其中,褒类情感类别对应的文本为正面文本,贬类情感类别对应的文本为负面文本。
[0005]目前,对篇章级文本进行分类的方法主要采用基于机器学习的监督分类方法。基于机器学习的监督分类方法包括训练分类器过程和使用分类器对待分类文本进行分类过程。其中,在训练分类器过程中,需要人工标注大量篇章级正面文本和篇章级负面文本作为训练样本。由于人工标注大量篇章级正面文本和篇章级负面文本需要很长时间,因此需要人工进行长时间劳动,极大的耗费了人力,且延长了训练过程的时间,从而降低了对待分类文本进行分类的效率。且训练得到的分类器只有一种,导致使用分类器对待分类文本进行分类的结果的准确率较低。
[0006]由上可见,目前对篇章级文本进行分类的方法存在耗费人力、效率低且分类结果的准确性存在较大误差的缺点。

【发明内容】

[0007]为解决上述技术问题,本申请实施例提供一种篇章级情感分类方法及装置,以达到节约人力,且缩短训练过程的时间,提高对待分类文本进行分类的效率,及提高分类结果的准确率的目的,技术方案如下:
[0008]一种篇章级情感分类方法,包括:
[0009]收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本;
[0010]拆分所述篇章级文本,获取所述篇章级文本中的子句;
[0011]从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负;
[0012]将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1;
[0013]分别将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元;
[0014]分别使用所述篇章级基分类单元和所述句子级基分类单元对待分类文本进行分类,得到第一分类结果和第二分类结果,其中所述第一分类结果包括:第一正概率和第一负概率;所述第二分类结果包括:第二正概率和第二负概率;
[0015]依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
[0016]优选的,所述从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句的过程,包括:
[0017]使用公式
【权利要求】
1.一种篇章级情感分类方法,其特征在于,包括: 收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本; 拆分所述篇章级文本,获取所述篇章级文本中的子句; 从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负; 将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1; 分别将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元; 分别使用所述篇章级基分类单元和所述句子级基分类单元对待分类文本进行分类,得到第一分类结果和第二分类结果,其中所述第一分类结果包括:第一正概率和第一负概率;所述第二分类结果包括:第二正概率和第二负概率; 依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
2.根据权利要求1所述的方法,其特征在于,所述从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句的过程,包括:
使用公式
3.根据权利要求1所述的方法,其特征在于,所述依据所述篇章级文本的极性值确定所述篇章级文本的极性包括: 判断所述篇章级文本的极性值是否为零; 若是,确定所述篇章级文本不具有极性; 若否,确定所述篇章级文本具有极性; 判断所述篇章级文本的极性值是否大于零; 若是,确定所述篇章级文本的极性为正;若否,确定所述篇章级文本的极性为负。
4.根据权利要求1所述的方法,其特征在于,所述分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类器和句子级基分类器的过程,包括: 使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类器,其中,所述正篇章级文本和所述负篇章级文本数量相等; 从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类器,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
5.根据权利要求1所述的方法,其特征在于,依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性包括: 对所述第一正概率和第二正概率进行加运算,得到待分类正概率; 对所述第一负概率和第二幅概率进行加运算,得到待分类负概率; 比较所述待分类正概率和所述待分类负概率的大小; 在所述待分类正概率大于所述待分类负概率的情况下,确定所述待分类文本的极性为正; 在所述待分类负概率大于所述待分类正概率的情况下,确定所述待分类文本的极性为负。
6.一种篇章级情感分类装置,其特征在于,包括: 收集单元,用于收集篇章级文本和已标注极性的句子级文本,并确定所述已标注极性的句子级文本为已分类句子级文本; 拆分单元,用于拆分所述篇章级文本,获取所述篇章级文本中的子句; 第一获取单元,用于从所述篇章级文本中的子句中,获取与所述已分类句子级文本的极性相似的待分类子句,并将所述已分类句子级文本的极性作为所述待分类子句的极性,其中,所述极性包括正或负; 第一确定单元,用于将每个待分类子句的极性值之和作为所述篇章级文本的极性值,并依据所述篇章级文本的极性值确定所述篇章级文本的极性,其中,所述极性值在所述极性为正的情况下,为1,所述极性值在所述极性为负的情况下,为-1 ; 第一训练单元,用于分别将将具有极性的篇章级文本和所述已分类句子级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元和句子级基分类单元; 篇章级基分类单元,用于对待分类文本进行分类,得到第一分类结果,所述第一分类结果包括:第一正概率和第一负概率; 句子级基分类单元,用于对待分类文本进行分类,得到第二分类结果,所述第二分类结果包括:第二正概率和第二负概率; 第二确定单元,用于依据所述第一分类结果和第二分类结果,确定所述待分类文本的极性。
7.根据权利要求6所述的装置,其特征在于,所述第一获取单元包括:
8.根据权利要求6所述的装置,其特征在于,所述第一确定单元包括: 第一判断单元,用于判断所述篇章级文本的极性值是否为零,若是,执行第四确定单元,若否,执行第五确定单元; 第四确定单元,用于确定所述篇章级文本不具有极性; 第五确定单元,用于确定所述篇章级文本具有极性,并执行第二判断单元; 第二判断单元,用于判断所述篇章级文本的极性值是否大于零,若是,执行第六确定单元,若否,执行第七确定单元; 第六确定单元,用于确定所述篇章级文本的极性为正; 第七确定单元,用于确定所述篇章级文本的极性为负。
9.根据权利要求6所述的装置,其特征在于,所述第一训练单元包括: 第二训练单元,用于使用欠采样方法从具有极性的篇章级文本中选取出正篇章级文本和负篇章级文本作为训练样本训练最大熵分类器,得到篇章级基分类单元,其中,所述正篇章级文本和所述负篇章级文本数量相等; 第三训练单元,用于从所述已分类句子级文本中选取出正已分类句子级文本和负已分类句子级文本作为训练样本训练最大熵分类器,得到句子级基分类单元,其中所述正已分类句子级文本和所述负已分类句子级文本数量相等。
10.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括: 第三计算单元,用于对所述第一正概率和第二正概率进行加运算,得到待分类正概率; 第四计算单元,用于对所述第一负概率和第二幅概率进行加运算,得到待分类负概率; 比较单元,用于比较所述待分类正概率和所述待分类负概率的大小,在所述待分类正概率大于所述待分类负概率的情况下,执行第八确定单元,在所述待分类负概率大于所述待分类正概率的情况下,执行第九确定单元; 第八确定单元,用于确定所述待分类文本的极性为正;第九确定单元,用于确定所述待分类文本的极性为负 。
【文档编号】G06K9/62GK103473356SQ201310444957
【公开日】2013年12月25日 申请日期:2013年9月26日 优先权日:2013年9月26日
【发明者】李寿山, 王志皓, 周国栋 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1