基于AdaBoost的跨语言情感资源数据识别方法

文档序号:6638484阅读:401来源:国知局
基于AdaBoost的跨语言情感资源数据识别方法
【专利摘要】本发明公开了一种基于AdaBoost的跨语言情感资源数据识别方法,包括如下步骤:步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于类别的后验概率,由此判断原始数据d的类别;步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。
【专利说明】基于AdaBoost的跨语言情感资源数据识别方法

【技术领域】
[0001] 本发明涉及计算机领域,尤其涉及一种基于AdaBoost的跨语言情感资源数据识 别方法。

【背景技术】
[0002] 随着微博等社交网络平台的快速发展,文本情感分类技术已成为文本信息处理的 热点。有标注的情感资源为文本情感识别研究提供了基础。目前,英文领域的语料资源有 SentiWordNet,细粒度情感分析语料MPQA等;中文领域有HowNet情感词典,大连理工情感 词汇本体等。然而,有标注的语料在不同语言下的分布是不均衡的。当缺乏某种语言的有 标注语料时,利用其它语言的有标注语料来辅助进行情感识别已成为一个热门课题。
[0003] 跨语言情感分析(Cross Lingual Sentiment Analysis,CLSA)是指利用已有 语言的有标注语料,辅助另一种语言来进行情感倾向性分析。现有的CLSA技术有利用双 语词典或对齐语料库建立两种语言的对应关系,再运用相似技术进行目标语言的情感分 析。也有利用机器翻译技术,先将不同语言翻译成同一种语言,再在单语上应用情感分析 方法。Wan等人利用机器翻译技术将有标注的英文文本与未标注的中文文本互译,再运用 Co-Training算法进行中文情感识别。徐军针对机器翻译的不准确性问题提出了一种迁移 自学习算法,通过自动标记训练集中的高置信度翻译样本,对分类器进行迭代训练。上述研 究都是基于不同语料背景的。当已有语料资源的背景不同时,CLSA策略也有所区别。另外, 情感资源迁移的策略与情感识别的方法密切相关,不能抛开情感识别方法而单独研究情感 迁移策略。
[0004] 本发明提出了一种基于AdaBoost算法的情感资源迁移方法。首先将小规模的目 标语言训练集翻译成源语言,再与大规模源语言训练集合并构建初始弱分类器;接着运用 AdaBoost算法训练多分类器;经过多分类器协同实现了跨语言的情感识别。


【发明内容】

[0005] 本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于 AdaBoost的跨语言情感资源数据识别方法。
[0006] 为了实现本发明的上述目的,本发明提供了一种基于AdaBoost的跨语言情感资 源数据识别方法,其关键在于,包括如下步骤:
[0007] 步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d 对于类别的后验概率,由此判断原始数据d的类别;
[0008] 步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用 AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器;
[0009] 步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标 语言情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。
[0010] 所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤1包 括: toon] 计算原始数据的先验概率;再提取原始数据的情感特征,计算特征的条件概率; 最后以后验概率最大的类别作为情感资源数据识别初步判断结果。
[0012] 所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤2包 括:
[0013] 步骤2-1,构造多个弱分类器协同工作,通过AdaBoost情感资源数据识别算法 不断调整样本分布,训练新的弱分类器,经过反复迭代产生一个包含各弱分类器权值的向 量;
[0014] 步骤2-2,通过AdaBoost情感资源数据识别算法训练源语言训练集和目标语言训 练集。
[0015] 所述的基于AdaBoost的跨语言情感资源数据识别方法,优选的,所述步骤2还包 括:
[0016] 步骤2-3,进行初始化,令迭代轮次k = 1 ;
[0017] 步骤2-4,建立联合训练集,令联合训练集CRk = R U Ts,如下公式:
[0018] Cl* ,叫⑷於广,对WieCI^, yi为其类别标注;Wi(k)为Cli在第k 轮迭代中的权值,其中Cli为原始数据;将源语言训练集记为R ;目标语言训练集记为T ; I T << IrI,即τ的样本数远小于r。τ翻译后形成源语言训练集记为Ts;情感类别记为γ = {0, 1} ;AdaB〇〇st迭代次数记为K ;弱分类器权值向量记为W ;
[0019] 步骤 2-5,初始化权重,令 k = 1 时,WiQO = 1/(TS| + |R|);
[0020] 步骤2-6,当(k= 1···Κ),在CRk的当前权重分布下,训练最优弱分类器hk:CRk -Y ; 用hk对CRk的所有样本分类;计算分类误差ε k,如下公式:
[0021]

【权利要求】
1. 一种基于AdaBoost的跨语言情感资源数据识别方法,其特征在于,包括如下步骤: 步骤1,建立情感资源数据识别模型,通过先验概率和条件概率来估计原始数据d对于 类别的后验概率,由此判断原始数据d的类别; 步骤2,将目标语言训练集翻译成源语言训练集,然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练,构造弱分类器; 步骤3,通过设置滑动窗口更新训练集,训练最优弱分类器;最后得到适用于目标语言 情感资源数据识别的分类器,形成最优分类器,从而识别特定语言情感资源数据。
2. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,其特征在 于,所述步骤1包括: 计算原始数据的先验概率;再提取原始数据的情感特征,计算特征的条件概率;最后 以后验概率最大的类别作为情感资源数据识别初步判断结果。
3. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,其特征在 于,所述步骤2包括: 步骤2-1,构造多个弱分类器协同工作,通过AdaBoost情感资源数据识别算法不断调 整样本分布,训练新的弱分类器,经过反复迭代产生一个包含各弱分类器权值的向量; 步骤2-2,通过AdaBoost情感资源数据识别算法训练源语言训练集和目标语言训练 集。
4. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,其特征在 于,所述步骤2还包括: 步骤2-3,进行初始化,令迭代轮次k= 1 ; 步骤2-4,建立联合训练集,令联合训练集CRk =RUTs,如下公式: CRk -?.对εC/?A+,为其类别标注;Wi ⑵为(Ii 在弟k轮 ? 迭代中的权值,其中Cii为原始数据;将源语言训练集记为R;目标语言训练集记为τ;|τ<<Ir|,即τ的样本数远小于r。τ翻译后形成源语言训练集记为ts;情感类别记为Y= {0, 1} ;AdaB〇〇st迭代次数记为K;弱分类器权值向量记为W; 步骤 2-5,初始化权重,令k= 1 时,Wi (k) =I/(ITsI+1RI); 步骤2-6,当(k= 1···Κ),在CRk的当前权重分布下,训练最优弱分类器hk:CRk -Y;用hk对CRk的所有样本分类;计算分类误差εk,如下公式:
步骤2-7,如果(εk> 1/2),那么{k=k-1;break;},计算弱分类器hk的权值ak,如 下公式: ak = (1/2)Χ1η(1_εk/εk); 步骤2-8,记录弱分类器权值:令W(k) =Cik ;更新每个样本的权值,如下公式:
lCMk\ 其中,以e为幂的指数函数为exp,Zk是归一化因子:? = 的 M * ? 步骤2-9,分类结果为如下公式: 待选弱分类器集合琳/> .v_(ltA\ H)) S
5.根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法,其特征在 于,所述步骤3包括: 步骤3-1,采用滑动窗口更新训练集的方法,通过多次迭代训练最优弱分类器; 步骤3-2,训练最优弱分类器,对联合训练集CRk按样本权值大小降序排序,其中,设第k轮迭代的分类器为hk,用hk为CRk添加分类标记,分类正确样本数为cnum,分类错误样本 数为enum;设滑动窗口大小为scale;窗口滑动步长为st印;窗口中的样本为集TNk ;H为待 选弱分类器集合;生成最优弱分类器hk+1的训练集为C队, 步骤3-3,令pos=ICRkI-cnum;Η= {Φ} ;pos代表滑动窗口的起始位置, 步骤3-4,训练集= , CNr =CNrUTNr ; 步骤3-5,在训练集C队上训练弱分类器用匕对CRk进行分类,计算分类错误率ep如下公式: er =X你办) LhrUii br,- · 步骤3-6,待选弱分类器集合H=HU{hr (er)}; pos=pos-step; 如果(pos-scale) < 0然后{break;},即为当余下的数据集的样本个数小于一个滑动 窗口大小时,停止训练; 步骤3-7,最优弱分类器'=3^啦U O
【文档编号】G06F17/30GK104462409SQ201410766618
【公开日】2015年3月25日 申请日期:2014年12月12日 优先权日:2014年12月12日
【发明者】卢玲, 杨武, 刘恒洋 申请人:重庆理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1