多种语言文本数据分类处理方法

文档序号:6510200阅读:450来源:国知局
多种语言文本数据分类处理方法
【专利摘要】本发明公开了一种自学习的涉及多语言数据处理分类方法,包括通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类;通过半监督学习构建情感分类器,先从聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。本发明提出的面向多语言倾向性分析的方法是语言无关的,无需借助机器翻译系统和大规模双语词典,直接在目标语言上学习情感分类器,具有最小资源依赖性,对于每种目标语言,仅仅需要三个种子词而不需要其他先验知识。
【专利说明】多种语言文本数据分类处理方法
【技术领域】
[0001]本发明涉及数据处理领域,涉及海量文本数据倾向性分析,尤其是面向多语言(不熟悉语言)的自动情感分类方法。
【背景技术】
[0002]随着互联网的快速发展和全球化进程的加快,因特网所提供的信息资源呈现出多语言化的特点。全球标准互联网用户调查和分析权威机构Nielsen Net Ratings的调查数据显示,从2000年到2008年的9年间,全世界各种语言的网络使用增长率达到305. 5%。因特网资源的多语言性及用户对母语和非母语熟悉程度的差异性,不可避免地给用户利用网络信息带来了语言障碍。
[0003]网络正悄然无息地影响着人们的生活习惯,随着论坛、博客、评论、微博等网络交流平台不断涌现,人们越来越习惯于在网上发表主观性的言论,这些言论用于表达自己对于日常事件、产品、政策等的观点和看法,使得网上存在大量带有情感倾向性的文本。情感分析是一种重要的信息组织方式,研究的是自动挖掘和分析文本中的立场、观点、看法、情绪、好恶等主观信息。
[0004]多语言情感分析具有极其重要的研究意义:
[0005]从理论上看,情感倾向性分析是自然语言处理、人工智能、甚至认知科学领域所面临的重要研究课题之一。情感倾向性研究所取得的每一个进步,都有助于加深我们对人类的智能、语言、思维等问题的了解。
[0006]网络因其开放性和虚拟性,已经成为民意表达的重要通道和空间。利用多语言的情感倾向性分析技术,可以更加及时地了解世界各地网络社会民意。
[0007]同时,多数产品生产、销售厂商希望通过跟踪用户对产品的回馈意见来获得改进产品质量的针对性意见;潜在的消费者也希望通过网上真实的评价信息来调整个人的购买意向。利用多语言情感倾向性分析技术对多语言的产品评论观点进行组织和分类,有利于人们更全面地了解产品,培育潜在消费群体。
[0008]综上所述,多语言情感倾向性分析研究不但具有深远的理论价值,而且有着广阔的应用前景,可以创造较大的社会和经济效益。
[0009]近年来,特定语言(比如英文或中文)的情感倾向性研究取得了很大的进步,然而多语言(非特定语言或不熟悉语言)的情感倾向性研究却没有太大突破。
[0010]通常情况下,多语言的情感分类主要通过跨语言的思路来解决,大致归纳为以下二种:
[0011]米用 KCCA (Kernel Canonical Correlation Analysis)、LSI (Latent SemanticIndexing)等方法,不依赖于翻译资源,以平行语料为基础完成源和目标语言的空间转换。LSI方法是跨语言信息检索领域常用的仅依据平行语料就可以进行源和目标语言空间转换的方法。但是,双语平行语料依然是稀缺资源,大规模的双语平行语料获取不易,而且每切换一种语言就需要一批双语平行语料,代价太高。[0012]借助统计机器翻译系统来进行跨语言情感分类器迁移。一方面,可以将有标注的源语言数据集翻译成目标语言,然后在翻译后的训练语料上训练分类器对测试集进行判别;另一方面,可以将目标语言测试集翻译成源语言,然后直接应用在源语言上训练的分类器。然而,基于机器翻译的方法会损失跨语言情感分析的精度。一方面,机器翻译系统生成唯一解,所以翻译未必正确;另一方面,机器翻译系统依赖于训练集,当目标语言的领域与训练集相差较大时性能不佳。
[0013]借助双语词典来进行跨语言情感分类器迁移。在有监督学习中,可以先在源语言上学习情感分类器,然后借助双语词典将特征空间翻译成目标语言;在无监督学习中,可以将源语言的情感词典通过双语词典翻译成目标语言。然而,大部分基于双语词典的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。此外,情感词的极性(支持或反对)具有领域依赖性,面对不同实体会表现出不同极性,所以将通用的情感词典用于特定领域往往性能不佳。
[0014]综上所述,多语言的情感倾向性分析主要存在以下两个问题:
[0015](I)多语言情感分析过于依赖外部资源
[0016]大部分多语言情感分析技术是依赖于机器翻译或者双语词典的。如果没有机器翻译系统或编纂好的双语词典,多语言情感分析的工作将很难进行。
[0017](2)多语言情感分析性能差强人意
[0018]首先,基于机器翻译的方法会损失跨语言情感分析的精度。其次,大部分基于双语词典的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。最后,不同语言的情感表达差异很大,从原始空间导出的模型被转换到目标语言空间时存在信息损失。

【发明内容】

[0019]为了解决上述问题,本发明的目的在于公开多种语言文本数据分类处理方法及系统,在既不借助外部资源(统计机器翻译系统和双语词典),也没有任何标注数据的情况下,仅仅用三个种子词去完成多语言的自动情感分类,这种语言无关的解决方案不仅具有最少的资源依赖性,而且实际分类性能可以接近或超过基于翻译的方法。
[0020]具体地讲,本发明公开了一种自学习的涉及多语言数据处理分类方法,包括如下步骤:
[0021]步骤1,通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;
[0022]步骤I具体包括:
[0023]步骤21,统计语料库中所有词的词频,将超过一定阈值的高频词看作停用词,自动获得停用词表;
[0024]步骤22,如果停用词表中出现情感词(情感词通过“很”自动获取后),则将情感词自动滤除,只保留非情感词的停用词,得到非情感词集合。
[0025]步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好” “差”对情感词和情感文本同时进行支持或反对聚类;
[0026]步骤2具体包括:
[0027]步骤31,对情感词和情感文本进行粗略标注为正/负;文本中所包含的所有情感词均被赋予相同的倾向性;
[0028]步骤32,对每个情感词指定一个唯一的极性,引入KL距离法对极性模糊的情感词进行消歧;
[0029]步骤33,对情感词和情感文本进行迭代聚类;
[0030]步骤34,用消歧后的情感词来重新标注情感文本作为标注集,然后再用该标注集重新标注情感词,如此反复,迭代进行。
[0031]步骤3,通过半监督学习构建情感分类器,先从步骤2聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。
[0032]步骤3具体包括:
[0033]步骤41,从标注集中挑选最确信的样本作为初始训练集,然后在初始训练集上训练分类器;
[0034]步骤42,从分类器的预测结果中挑选最确信的样本加入训练集重新训练分类器,迭代进行。
[0035]步骤41具体包括:
[0036]步骤51,将所有的文本按照情感词得分进行排序,然后挑选得分最高的文本作为初始集,用于提闻初始训练集的准确率;
[0037]步骤52,新机制将分类器生成的后验概率和文本的情感得分相加,用于防止自学习过程中的分类偏移。
[0038]所述的涉及多语言数据处理分类方法,步骤2还包括步骤24,对于集合S中的每一个词统计“很”的出现频率,并根据公式计算权重:
[0039]
【权利要求】
1.一种自学习的涉及多语言数据处理分类方法,其特征在于,包括如下步骤: 步骤1,通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取; 步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好” “差”对情感词和情感文本同时进行支持或反对聚类; 步骤3,通过半监督学习构建情感分类器,先从步骤2聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。
2.如权利要求1所述的涉及多语言数据处理分类方法,其特征在于,所述步骤I包括: 步骤21,统计语料库中所有词的词频,将超过一定阈值的高频词看作停用词,自动获得停用词表; 步骤22,如果停用词表中出现情感词,则将情感词滤除,只保留非情感词的停用词,得到非情感词集合。
3.如权利要求2所述的涉及多语言数据处理分类方法,其特征在于,所述步骤2包括: 步骤31,对情感词和情感文本进行粗略标注为正/负;文本中所包含的所有情感词均被赋予相同的倾向性; 步骤32,对每个情感词指定一个唯一的极性,引入KL距离法对极性模糊的情感词进行消歧; 步骤33,对情感词和情感文本进行迭代聚类; 步骤34,用消歧后的情感词 来重新标注情感文本作为标注集,然后再用该标注集重新标注情感词,如此反复,迭代进行。
4.如权利要求3所述的涉及多语言数据处理分类方法,其特征在于,所述步骤3包括: 步骤41,从标注集中挑选最确信的样本作为初始训练集,然后在初始训练集上训练分类器; 步骤42,从分类器的预测结果中挑选最确信的样本加入训练集重新训练分类器,迭代进行。
5.如权利要求3所述的涉及多语言数据处理分类方法,其特征在于,所述步骤3包括: 步骤43,将所有的文本按照情感词得分进行排序,然后挑选得分最高的文本作为初始集,用于提高初始训练集的准确率; 步骤44,新机制将分类器生成的后验概率和文本的情感得分相加,用于防止自学习过程中的分类偏移。
6.如权利要求2所述的涉及多语言数据处理分类方法,其特征在于,步骤2还包括步骤24,对于集合S中的每一个词统计“很”的出现频率,并根据公式计算权重:
Σ /..I., (“o’,/)
7.如权利要求2所述的涉及多语言数据处理分类方法,其特征在于,所述KL距离法,用于衡量两个分布的差距; 假设有两个概率分布,P代表正类文本和Q代表负类文本,它们的KL距离被定义为:
8.如权利要求2所述的涉及多语言数据处理分类方法,其特征在于,所述步骤33中,在每一轮的迭代过程中,文本的极性由当前最新的情感词来判定,每一篇文档d的情感得分被定义为:
【文档编号】G06F17/27GK103488623SQ201310397617
【公开日】2014年1月1日 申请日期:2013年9月4日 优先权日:2013年9月4日
【发明者】程学旗, 林政 , 张瑾, 谭松波, 徐学可 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1