一种双语情感分类方法及装置制造方法

文档序号:6521010阅读:182来源:国知局
一种双语情感分类方法及装置制造方法
【专利摘要】本申请提供了一种双语情感分类方法及装置,方法包括:翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档;组合待分类的源语言文档和待分类的翻译文档,得到待分类的双语文档,组合训练样本集的源语言文档和训练样本集的翻译文档,得到训练样本集的双语文档;构建待分类的双语特征向量空间和训练样本集的双语特征向量空间;利用最大熵模型在样本集的双语特征向量空间上训练分类器;通过训练后的分类器对待分类的双语特征向量空间进行情感极性分类。本申请结合两种语言特征,为情感分类提供了额外的分类信息,提高了分类正确率,从双语特征向量空间中提取较为重要的特征项,提高了分类效率。
【专利说明】一种双语情感分类方法及装置
【技术领域】
[0001]本发明涉及信息处理【技术领域】,尤其涉及一种双语情感分类方法及装置。
【背景技术】
[0002]近年来,情感分类技术在电子商务、舆情分析、信息安全等领域表现出巨大的应用需求和应用前景。情感分类技术可以帮助了解用户的消费习惯与产品的优缺点,自动对产品评论进行分析和决策;了解民众的满意度与诉求,及时发现社会特点问题;分析当前社会的热点舆情信息,给用户、企业、政府等提供重要的决策参考依据。现有技术中的情感分类方法主要针对一种语言,并且只要针对英文。
[0003]发明人在实现本发明创造的过程中发现:现有技术中的情感分类方法会使分类结果产生误差,影响分类正确率,例如,“It looks like a book”,在英文中,“like”可能会被认为是一个褒义词(与“enjoy”同义),如果被认为褒义词,就会使分类结果产生误差。

【发明内容】

[0004]有鉴于此,本发明提供了一种双语情感分类方法及装置,用以解决现有技术中的情感分类方法会使分类结果产生误差,影响分类正确率的问题,其技术方案如下:
[0005]一种双语情感分类方法,包括:
[0006]翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档;
[0007]组合所述待分类的源语言文档和所述待分类的翻译文档,得到待分类的双语文档,组合所述训练样本集的源语言文档和所述训练样本集的翻译文档,得到训练样本集的双语文档;
[0008]构建待分类的双语特征向量空间和训练样本集的双语特征向量空间;
[0009]利用最大熵模型在所述样本集的双语特征向量空间上训练分类器;
[0010]通过训练后的分类器对所述待分类的双语特征向量空间进行情感极性分类,得到所述待分类的源语言文档的情感分类结果。
[0011]其中,利用最大熵模型在所述样本集的双语特征向量空间上训练分类器包括:
[0012]确定所述样本集的双语特征向量空间中每个特征项的权重值;
[0013]利用最大熵模型在权重值大于预设值的特征项组成的双语特征向量空间上训练分类器。
[0014]其中,确定所述样本集的双语特征向量空间中每个特征项的权重值的过程包括:
[0015]利用CHI特征提取方法计算所述样本集的双语特征向量空间中每个特征项的权重值。
[0016]其中,构建待分类的双语特征向量空间和训练样本集的双语特征向量空间的过程包括:
[0017]对所述待分类的双语文档和训练样本集的双语文档进行分词处理;[0018]选取词的一元特征组成待分类的双语特征向量空间和训练样本集的双语特征向
量空间。
[0019]其中,翻译待分类的源语言文档和训练样本集的源语言文档的过程包括:
[0020]利用机器翻译系统Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。
[0021]一种双语情感分类装置,包括:
[0022]翻译单元,用于翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档;
[0023]组合单元,用于组合所述待分类的源语言文档和所述待分类的翻译文档,得到待分类的双语文档,组合所述训练样本集的源语言文档和所述训练样本集的翻译文档,得到训练样本集的双语文档;
[0024]构建单元,用于构建待分类的双语特征向量空间和训练样本集的双语特征向量空间;
[0025]训练单元,用于利用最大熵模型在所述样本集的双语特征向量空间上训练分类器;
[0026]分类单元,用于通过训练后的分类器对所述待分类的双语特征向量空间进行情感极性分类,得到所述待分类的源语言文档的情感分类结果。
[0027]其中,所述训练单元包括:
[0028]确定子单元,用于确定所述样本集的双语特征向量空间中每个特征项的权重值;
[0029]训练子单元,用于利用最大熵模型在权重值大于预设值的特征项组成的双语特征向量空间上训练分类器。
[0030]其中,所述确定子单元包括:
[0031]计算子单元,用于利用CHI特征提取方法计算所述样本集的双语特征向量空间中每个特征项的权重值。
[0032]其中,所述构建单元包括:
[0033]分词子单元,用于对所述待分类的双语文档和训练样本集的双语文档进行分词处理;
[0034]构建子单元,用于选取词的一元特征组成待分类的双语特征向量空间和训练样本集的双语特征向量空间。
[0035]其中,所述翻译单元包括:
[0036]翻译子单元,用于利用机器翻译系统Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。
[0037]上述技术方案具有如下有益效果:
[0038]本发明提供的双语情感分类方法及装置,将源语言文档和翻译文档组合成双语文档,通过特征扩展构成了双语特征向量空间,采用最大熵方法在双语特征向量空间上训练分类器,根据后验概率进行情感分类。本申请在情感分类中加入了两种语言特征,弥补了单一语言分类信息不足的问题,两种语言结合能够消除歧义,提高情感分类的正确率。另外,从双语特征向量空间中提取较为重要的特征项,使得双语特征向量空间的维度降低,缩短了情感分类时间,提高了分类效率。【专利附图】

【附图说明】
[0039]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0040]图1为本发明实施例一提供的双语情感分类方法的流程示意图;
[0041]图2为本发明实施例二提供的双语情感分类方法的流程示意图;
[0042]图3为采用本发明实施例提供的双语情感分类方法对四个领域的评论进行情感分类的实验结果图;
[0043]图4为采用本发明实施例提供的双语情感分类方法对四个领域的文档进行情感分类的实验结果图;
[0044]图5为本发明实施例三提供的双语情感分类装置的结构示意图;
[0045]图6为本发明实施例四提供的双语情感分类装置的结构示意图。
【具体实施方式】
[0046]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]实施例一
[0048]请参阅图1,为本发明实施例一提供的一种双语情感分类方法的流程示意图,该方法包括:
[0049]步骤SlOl:翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档。
[0050]在本实施例中,可采用机器翻译系统如Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。例如,源语言文档为中文文档,可利用Google Translate将中文文档翻译成英文文档。
[0051]步骤S102:组合待分类的源语言文档和待分类的翻译文档组合,得到待分类的双语文档,组合训练样本集的源语言文档和训练样本集的翻译文档,得到训练样本集的双语文档。
[0052]步骤S103:构建待分类的双语特征向量空间和训练样本集的双语特征向量空间。
[0053]在本实施例中,构建待分类的双语特征向量空间和训练样本集的双语特征向量空间的过程可以包括:对待分类的双语文档和训练样本集的双语文档进行分词处理;选取词的一元特征(unigram)组成待分类的双语特征向量空间和训练样本集的双语特征向量空间。
[0054]双语特征向量空间可表示为=F=G1,e2,...en, C1, c2,...,cn),其中,e1; e2,...en 为源语言文档的特征项,C1, C2,..., cn为对应的翻译文档的特征项。
[0055]步骤S104:利用最大熵模型在样本集的双语特征向量空间上训练分类器。[0056]步骤S105:通过训练后的分类器对待分类的双语特征向量空间进行情感极性分类,得到待分类的源语言文档的情感分类结果。
[0057]双语特征向量输入分类器后,根据返回的后验概率判定情感极性,取后验概率大的类别作为最终的分类结果。
[0058]本发明实施例一提供的双语情感分类方法,将源语言文档和翻译文档组合成双语文档,通过特征扩展构成了双语特征向量空间,采用最大熵方法在双语特征向量空间上训练分类器,根据后验概率进行情感分类。本实施例在情感分类中加入了两种语言特征,弥补了单一语言分类信息不足的问题,两种语言结合能够消除歧义,提高情感分类的正确率。
[0059]实施例二
[0060]请参阅图2,为本发明实施例一提供的一种双语情感分类方法的流程示意图,该方法包括:
[0061]步骤S201:翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档。
[0062]在本实施例中,可采用机器翻译系统如Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。
[0063]步骤S202:组合待分类的源语言文档和待分类的翻译文档组合,得到待分类的双语文档,组合训练样本集的源语言文档和训练样本集的翻译文档,得到训练样本集的双语文档。
[0064]步骤S203:构建待分类的双语特征向量空间和训练样本集的双语特征向量空间。
[0065]在本实施例中,构建待分类的双语特征向量空间和训练样本集的双语特征向量空间的过程可以包括:对待分类的双语文档和训练样本集的双语文档进行分词处理;选取词的一元特征(unigram)组成待分类的双语特征向量空间和训练样本集的双语特征向量空间。
[0066]例如,源语言文档为中文文档,翻译文档为英文文档。双语特征向量空间可表示为=F=Ce1, e2,...en, C1, c2,..., cn),其中,e” e2,...en 为中文文档的特征,C1, c2,..., Cn 为对应的英文文档的特征。
[0067]步骤S204:确定样本集的双语特征向量空间中每个特征项的权重值,利用最大熵模型在权重值大于预设值的特征项组成的双语特征向量空间上训练分类器。
[0068]考虑到双语特征向量空间的维度较大,会导致分类时间较长,分类效率较低,本实施例通过特征提取过程,从样本集的双语特征向量空间中确定权重值大于预设值的特征项组成双语特征向量,通过该双语特征向量训练分类器。特征提取方法在保证分类效果的前提下降低特征向量的维度,缩短了分类时间,提高了分类效率。
[0069]在本实施例中,可利用CHI特征提取方法计算样本集的双语特征向量空间中每个特征项的权重值,权重值越大,表示对应的特征越重要。在确定出权重值后,可基于权重值但从大到小的顺序对进行排序,依次选取权重值大于预设值的前N个特征项组成用于训练分类器的双语特征向量。
[0070]另外,本实施例中的训练样本集中部分样本是褒义的,部分样本是贬义的,最大熵模型在训练集上学习出二元分类模型。
[0071]需要说明的是,CHI统计量计算特征项与类别的独立性,它基于如下假设:在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的。CHI方法定义如下:
[0072]
【权利要求】
1.一种双语情感分类方法,其特征在于,包括: 翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档; 组合所述待分类的源语言文档和所述待分类的翻译文档,得到待分类的双语文档,组合所述训练样本集的源语言文档和所述训练样本集的翻译文档,得到训练样本集的双语文档; 构建待分类的双语特征向量空间和训练样本集的双语特征向量空间; 利用最大熵模型在所述样本集的双语特征向量空间上训练分类器; 通过训练后的分类器对所述待分类的双语特征向量空间进行情感极性分类,得到所述待分类的源语言文档的情感分类结果。
2.根据权利要求1所述的方法,其特征在于,利用最大熵模型在所述样本集的双语特征向量空间上训练分类器包括: 确定所述样本集的双语特征向量空间中每个特征项的权重值; 利用最大熵模型在权重值大于预设值的特征项组成的双语特征向量空间上训练分类器。
3.根据权利要求2所述的方法,其特征在于,确定所述样本集的双语特征向量空间中每个特征项的权重值的过程包括: 利用CHI特征提取方法计算所述样本集的双语特征向量空间中每个特征项的权重值。
4.根据权利要求1所述的方法,其特征在于,构建待分类的双语特征向量空间和训练样本集的双语特征向量空间的过程包括: 对所述待分类的双语文档和训练样本集的双语文档进行分词处理; 选取词的一元特征组成待分类的双语特征向量空间和训练样本集的双语特征向量空间。
5.根据权利要求1所述的方法,其特征在于,翻译待分类的源语言文档和训练样本集的源语言文档的过程包括: 利用机器翻译系统Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。
6.一种双语情感分类装置,其特征在于,包括: 翻译单元,用于翻译待分类的源语言文档和训练样本集的源语言文档,得到待分类的翻译文档和训练样本集的翻译文档; 组合单元,用于组合所述待分类的源语言文档和所述待分类的翻译文档,得到待分类的双语文档,组合所述训练样本集的源语言文档和所述训练样本集的翻译文档,得到训练样本集的双语文档; 构建单元,用于构建待分类的双语特征向量空间和训练样本集的双语特征向量空间; 训练单元,用于利用最大熵模型在所述样本集的双语特征向量空间上训练分类器; 分类单元,用于通过训练后的分类器对所述待分类的双语特征向量空间进行情感极性分类,得到所述待分类的源语言文档的情感分类结果。
7.根据权利要求6所述的装置,其特征在于,所述训练单元包括: 确定子单元,用于确定所述样本集的双语特征向量空间中每个特征项的权重值;训练子单元,用于利用最大熵模型在权重值大于预设值的特征项组成的双语特征向量空间上训练分类器。
8.根据权利要求7所述的装置,其特征在于,所述确定子单元包括: 计算子单元,用于利用CHI特征提取方法计算所述样本集的双语特征向量空间中每个特征项的权重值。
9.根据权利要求6所述的装置,其特征在于,所述构建单元包括: 分词子单元,用于对所述待分类的双语文档和训练样本集的双语文档进行分词处理;构建子单元,用于选取词的一元特征组成待分类的双语特征向量空间和训练样本集的双语特征向量空间。
10.根据权利要求6所述的装置,其特征在于,所述翻译单元包括: 翻译子单元,用于利用机器翻译系统Google Translate翻译待分类的源语言文档和训练样本集的源语言文档。
【文档编号】G06F17/30GK103617245SQ201310616753
【公开日】2014年3月5日 申请日期:2013年11月27日 优先权日:2013年11月27日
【发明者】李寿山, 苏艳, 周国栋 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1