一种跨语言情感分类方法

文档序号:6517540阅读:499来源:国知局
一种跨语言情感分类方法
【专利摘要】本发明提供一种跨语言情感分类方法,包括以下步骤。S1、从语料库获取预设数目的已标注英文语料以及未标注的中文语料,将已标注的英文语料翻译成中文语料,并进行标注。S2、从所述中文语料中提取已标注部分,将所述中文语料中剩余的未标注部分进行情感分类。S3、根据已标注中文语料中正类分类正确的样本数P、已标注中文语料中负类分类正确的样本数N,以及中文语料的总样本数A,计算分类准确率。
【专利说明】一种跨语言情感分类方法
【技术领域】
[0001]本发明涉及自然语言处理【技术领域】及机器学习领域,具体涉及一种跨语言情感分类方法。
【背景技术】
[0002]随着网络技术的高速发展,互联网上产生了大量对于人物、事件、产品等进行评论的文本信息,这些海量的观点信息蕴藏着巨大的利用价值。此外,网络媒体的日益发达,舆情监督也显得日益重要,政府或机构迫切需要了解公众的看法以做出合理的决策等。
[0003]文本情感分类是指对用户发出的主观性文本进行分析和挖掘,从而对文本的情感倾向做出类别判断,判断其是表达褒义的(Positive)或贬义的(Negative)情感。目前相关领域中,对于单一语言的文本情感分类已成为业界讨论的热点,但对于不同语言间的情感分类研究并不多。
[0004]由于英文情感分类研究起步较早,目前已有大量成熟的情感词典和大量语料等可用资源。随着信息技术的高速发展,网络中逐渐出现不同语言表示的文本,例如,中文、德语、法语、日语等。这些大规模的文本包括产品评论、新闻、博客、微博等,同样蕴含着大量有价值的信息。因此,构建多语言情感分类系统有很重要的理论研究意义和实用价值。
[0005]鉴于上述原因,本发明提供一种从多语言的角度出发,充分考虑不同语言间的差距的跨语言的情感分类方法。
[0006]为了便于理解,首先对本发明涉及的常用名词定义作出介绍:情感分类(Sentiment Classification),即一种将文本按照所表达的情感极性分为褒贬的分类任务;跨语言情感分类(Mult1-class Classification),是指利用源语言对其他语言进行情感分类;机器学习分类方法(Classification Methods Based on Machine Learning),是用于构建分类器的统计学习方法,输入是表示样本的向量,输出是样本的类别标签。

【发明内容】

[0007]本发明提供一种跨语言情感分类方法,包括以下步骤:
[0008]S1、从语料库获取预设数目的已标注英文语料以及未标注的中文语料,将已标注的英文语料翻译成中文语料,并进行标注;
[0009]S2、从所述中文语料中提取已标注部分,将所述中文语料中剩余的未标注部分进行情感分类;
[0010]S3、根据已标注中文语料中正类分类正确的样本数P、已标注中文语料中负类分类正确的样本数N,以及中文语料的总样本数A,计算分类准确率。
[0011]优选的,所述步骤SI中,所述英文语料及中文语料是从电子领域的语料库获取,同时还获取中文测试语料。
[0012]优选的,所述步骤SI中,使用计算机将已标注的英文语料翻译成中文语料,并进行标注。[0013]优选的,所述步骤S2中,使用self-traning方法将所述中文语料中剩余的未标注部分进行半监督的情感分类。
[0014]优选的,在所述self-traning方法中,使用最大熵分类器对所述中文语料进行分类。
[0015]优选的,所述步骤S3中,计算分类准确率的公式为准确率=(P+N)/A。
[0016]优选的,所述英文语料及中文语料均为已知情感极性的语料。
[0017]根据本发明提供的跨语言情感分类方法,由计算机将已标注的英文语料翻译成中文语料后再进行标注,并提取已标注部分,有效利用了已标注的英文语料。接下来,将中文语料中剩余的未标注部分进行情感分类,并计算分类准确率。如此,有效解决了中文分类中已标注语料缺乏的问题,提高了中文分类的效果。
【专利附图】

【附图说明】
[0018]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本发明较佳实施例提供的跨语言情感分类方法流程图。
【具体实施方式】
[0020]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0021]图1是本发明较佳实施例提供的跨语言情感分类方法流程图。如图1所示,本发明较佳实施例提供的跨语言情感分类方法包括步骤SI?S3。
[0022]步骤S1:从语料库获取预设数目的已标注英文语料以及未标注的中文语料,将已标注的英文语料翻译成中文语料,并进行标注。
[0023]具体而言,所述英文语料及中文语料是从电子领域的语料库获取,同时还获取中文测试语料。本实施例中,中英文语料取自于wanxiaojun语料的电子领域,其中包括已标注的英文语料,未标注的中文语料以及中文测试语料。本实施例中所有英文语料及中文语料均为已知情感极性的语料。
[0024]接下来,使用计算机将已标注的英文语料翻译成中文语料,并进行标注。本实施例中,使用谷歌翻译将英文已标注语料翻译成中文已标注语料。由于英文已标注语料资源丰富,并且内容更新也比较快,从英文至中文的转换保障了语料收集的规模和时效性。同时,由计算机翻译保证了英文语料和中文语料交互信息的可能性。
[0025]步骤S2:从所述中文语料中提取已标注部分,将所述中文语料中剩余的未标注部分进行情感分类。
[0026]具体而言,除中文语料中已标注部分外,其余是未标注的部分,对该部分语料使用self-traning方法半监督的情感分类。在self-traning方法中,使用最大熵分类器对所述中文语料进行分类。
[0027]其中,self-traning方法利用英文已标注语料翻译成的中文文本,对中文未标注文本进行最大熵分类,根据分类器对未标注中文预料的结果,选取可信度高的进行标注,并加入到已标注文本,同时将对应文本从未标注文本剔除。本实施例中,为保证分类效果,可设置一次选取的文本数量,进行多次循环选择。
[0028]下面对最大熵分类器的工作原理作出介绍。最大熵分类方法是基于最大熵信息理论,其基本思想是在满足系统当前提供的所有条件下寻求分布最均匀的模型,将已知事实作为制约条件,求可使熵最大化的概率分布作为正确的概率分布。
[0029]在最大熵模型中,通常用二值特征函数表示特征函数,定义如下:
【权利要求】
1.一种跨语言情感分类方法,其特征在于,包括以下步骤: 51、从语料库获取预设数目的已标注英文语料以及未标注的中文语料,将已标注的英文语料翻译成中文语料,并进行标注; 52、从所述中文语料中提取已标注部分,将所述中文语料中剩余的未标注部分进行情感分类; 53、根据已标注中文语料中正类分类正确的样本数P、已标注中文语料中负类分类正确的样本数N,以及中文语料的总样本数A,计算分类准确率。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI中,所述英文语料及中文语料是从电子领域的语料库获取,同时还获取中文测试语料。
3.根据权利要求1所述的方法,其特征在于,所述步骤SI中,使用计算机将已标注的英文语料翻译成中文语料,并进行标注。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2中,使用self-traning方法将所述中文语料中剩余的未标注部分进行半监督的情感分类。
5.根据权利要求4所述的方法,其特征在于,在所述self-traning方法中,使用最大熵分类器对所述中文语料进行分类。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3中,计算分类准确率的公式为准确率=(P+N) /A。
7.根据权利要求1所述的方法,其特征在于,所述英文语料及中文语料均为已知情感极性的语料。
【文档编号】G06F17/30GK103530286SQ201310533688
【公开日】2014年1月22日 申请日期:2013年10月31日 优先权日:2013年10月31日
【发明者】李寿山, 汪蓉, 周国栋 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1