基于AdaBoost的跨语言情感资源数据识别方法

文档序号：6638484阅读：401来源：国知局

基于AdaBoost的跨语言情感资源数据识别方法
【专利摘要】本发明公开了一种基于AdaBoost的跨语言情感资源数据识别方法，包括如下步骤：步骤1，建立情感资源数据识别模型，通过先验概率和条件概率来估计原始数据d对于类别的后验概率，由此判断原始数据d的类别；步骤2，将目标语言训练集翻译成源语言训练集，然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练，构造弱分类器；步骤3，通过设置滑动窗口更新训练集，训练最优弱分类器；最后得到适用于目标语言情感资源数据识别的分类器，形成最优分类器，从而识别特定语言情感资源数据。
【专利说明】基于AdaBoost的跨语言情感资源数据识别方法

【技术领域】
[0001] 本发明涉及计算机领域，尤其涉及一种基于AdaBoost的跨语言情感资源数据识别方法。

【背景技术】
[0002] 随着微博等社交网络平台的快速发展，文本情感分类技术已成为文本信息处理的热点。有标注的情感资源为文本情感识别研究提供了基础。目前，英文领域的语料资源有 SentiWordNet，细粒度情感分析语料MPQA等；中文领域有HowNet情感词典，大连理工情感词汇本体等。然而，有标注的语料在不同语言下的分布是不均衡的。当缺乏某种语言的有标注语料时，利用其它语言的有标注语料来辅助进行情感识别已成为一个热门课题。
[0003] 跨语言情感分析（Cross Lingual Sentiment Analysis，CLSA)是指利用已有语言的有标注语料，辅助另一种语言来进行情感倾向性分析。现有的CLSA技术有利用双语词典或对齐语料库建立两种语言的对应关系，再运用相似技术进行目标语言的情感分析。也有利用机器翻译技术，先将不同语言翻译成同一种语言，再在单语上应用情感分析方法。Wan等人利用机器翻译技术将有标注的英文文本与未标注的中文文本互译，再运用 Co-Training算法进行中文情感识别。徐军针对机器翻译的不准确性问题提出了一种迁移自学习算法，通过自动标记训练集中的高置信度翻译样本，对分类器进行迭代训练。上述研究都是基于不同语料背景的。当已有语料资源的背景不同时，CLSA策略也有所区别。另外，情感资源迁移的策略与情感识别的方法密切相关，不能抛开情感识别方法而单独研究情感迁移策略。
[0004] 本发明提出了一种基于AdaBoost算法的情感资源迁移方法。首先将小规模的目标语言训练集翻译成源语言，再与大规模源语言训练集合并构建初始弱分类器；接着运用 AdaBoost算法训练多分类器；经过多分类器协同实现了跨语言的情感识别。

【发明内容】

[0005] 本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于 AdaBoost的跨语言情感资源数据识别方法。
[0006] 为了实现本发明的上述目的，本发明提供了一种基于AdaBoost的跨语言情感资源数据识别方法，其关键在于，包括如下步骤：
[0007] 步骤1，建立情感资源数据识别模型，通过先验概率和条件概率来估计原始数据d 对于类别的后验概率，由此判断原始数据d的类别；
[0008] 步骤2,将目标语言训练集翻译成源语言训练集，然后在联合训练集上运用 AdaBoost的情感资源数据识别算法进行情感资源数据的训练，构造弱分类器；
[0009] 步骤3,通过设置滑动窗口更新训练集，训练最优弱分类器；最后得到适用于目标语言情感资源数据识别的分类器，形成最优分类器，从而识别特定语言情感资源数据。
[0010] 所述的基于AdaBoost的跨语言情感资源数据识别方法，优选的，所述步骤1包括： toon] 计算原始数据的先验概率；再提取原始数据的情感特征，计算特征的条件概率；最后以后验概率最大的类别作为情感资源数据识别初步判断结果。
[0012] 所述的基于AdaBoost的跨语言情感资源数据识别方法，优选的，所述步骤2包括：
[0013] 步骤2-1，构造多个弱分类器协同工作，通过AdaBoost情感资源数据识别算法不断调整样本分布，训练新的弱分类器，经过反复迭代产生一个包含各弱分类器权值的向量；
[0014] 步骤2-2,通过AdaBoost情感资源数据识别算法训练源语言训练集和目标语言训练集。
[0015] 所述的基于AdaBoost的跨语言情感资源数据识别方法，优选的，所述步骤2还包括：
[0016] 步骤2-3,进行初始化，令迭代轮次k = 1 ;
[0017] 步骤2-4,建立联合训练集，令联合训练集CRk = R U Ts，如下公式：
[0018] Cl* ,叫⑷於广，对WieCI^, yi为其类别标注；Wi(k)为Cli在第k 轮迭代中的权值，其中Cli为原始数据；将源语言训练集记为R ;目标语言训练集记为T ; I T << IrI，即τ的样本数远小于r。τ翻译后形成源语言训练集记为Ts;情感类别记为γ = {0, 1} ;AdaB〇〇st迭代次数记为K ;弱分类器权值向量记为W ;
[0019] 步骤 2-5,初始化权重，令 k = 1 时，WiQO = 1/(TS| + |R|);
[0020] 步骤2-6,当（k= 1···Κ)，在CRk的当前权重分布下，训练最优弱分类器hk:CRk -Y ; 用hk对CRk的所有样本分类；计算分类误差ε k，如下公式：
[0021]

【权利要求】
1. 一种基于AdaBoost的跨语言情感资源数据识别方法，其特征在于，包括如下步骤：步骤1，建立情感资源数据识别模型，通过先验概率和条件概率来估计原始数据d对于类别的后验概率，由此判断原始数据d的类别；步骤2,将目标语言训练集翻译成源语言训练集，然后在联合训练集上运用AdaBoost的情感资源数据识别算法进行情感资源数据的训练，构造弱分类器；步骤3,通过设置滑动窗口更新训练集，训练最优弱分类器；最后得到适用于目标语言情感资源数据识别的分类器，形成最优分类器，从而识别特定语言情感资源数据。
2. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法，其特征在于，所述步骤1包括：计算原始数据的先验概率；再提取原始数据的情感特征，计算特征的条件概率；最后以后验概率最大的类别作为情感资源数据识别初步判断结果。
3. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法，其特征在于，所述步骤2包括：步骤2-1，构造多个弱分类器协同工作，通过AdaBoost情感资源数据识别算法不断调整样本分布，训练新的弱分类器，经过反复迭代产生一个包含各弱分类器权值的向量；步骤2-2,通过AdaBoost情感资源数据识别算法训练源语言训练集和目标语言训练集。
4. 根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法，其特征在于，所述步骤2还包括：步骤2-3,进行初始化，令迭代轮次k= 1 ; 步骤2-4,建立联合训练集，令联合训练集CRk =RUTs，如下公式： CRk -?.对εC/?A+，为其类别标注；Wi ⑵为(Ii 在弟k轮 ? 迭代中的权值，其中Cii为原始数据；将源语言训练集记为R;目标语言训练集记为τ;|τ<<Ir|，即τ的样本数远小于r。τ翻译后形成源语言训练集记为ts;情感类别记为Y= {0, 1} ;AdaB〇〇st迭代次数记为K;弱分类器权值向量记为W; 步骤 2-5,初始化权重，令k= 1 时，Wi (k) =I/(ITsI+1RI); 步骤2-6,当（k= 1···Κ)，在CRk的当前权重分布下，训练最优弱分类器hk:CRk -Y;用hk对CRk的所有样本分类；计算分类误差εk，如下公式：
步骤2-7,如果（εk> 1/2)，那么{k=k-1;break;}，计算弱分类器hk的权值ak，如下公式： ak = (1/2)Χ1η(1_εk/εk); 步骤2-8,记录弱分类器权值：令W(k) =Cik ;更新每个样本的权值，如下公式：
lCMk\ 其中，以e为幂的指数函数为exp，Zk是归一化因子：? = 的 M * ? 步骤2-9,分类结果为如下公式：待选弱分类器集合琳/> .v_(ltA\ H)) S
5.根据权利要求1所述的基于AdaBoost的跨语言情感资源数据识别方法，其特征在于，所述步骤3包括：步骤3-1，采用滑动窗口更新训练集的方法，通过多次迭代训练最优弱分类器；步骤3-2,训练最优弱分类器，对联合训练集CRk按样本权值大小降序排序，其中，设第k轮迭代的分类器为hk，用hk为CRk添加分类标记，分类正确样本数为cnum，分类错误样本数为enum;设滑动窗口大小为scale;窗口滑动步长为st印；窗口中的样本为集TNk ;H为待选弱分类器集合；生成最优弱分类器hk+1的训练集为C队，步骤3-3,令pos=ICRkI-cnum;Η= {Φ} ;pos代表滑动窗口的起始位置，步骤3-4,训练集= ， CNr =CNrUTNr ；步骤3-5,在训练集C队上训练弱分类器用匕对CRk进行分类，计算分类错误率ep如下公式： er =X你办） LhrUii br,- · 步骤3-6,待选弱分类器集合H=HU{hr (er)}; pos=pos-step；如果（pos-scale) < 0然后{break;}，即为当余下的数据集的样本个数小于一个滑动窗口大小时，停止训练；步骤3-7,最优弱分类器'=3^啦U O
【文档编号】G06F17/30GK104462409SQ201410766618
【公开日】2015年3月25日申请日期:2014年12月12日优先权日:2014年12月12日
【发明者】卢玲, 杨武, 刘恒洋申请人:重庆理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢玲;杨武;刘恒洋;
技术所有人：重庆理工大学;
我是此专利的发明人

上一篇：用于显示控件中显示体位置的数据处理方法和装置制造方法
上一篇：一种移动终端软件的管理方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。