基于自适应提升算法的中文微博观点句识别特征的提取方法

文档序号:6543005阅读:136来源:国知局
基于自适应提升算法的中文微博观点句识别特征的提取方法
【专利摘要】本发明公开了一种基于自适应提升算法的中文微博观点句识别特征的提取方法,首先设定与识别微博观点句相关的特征,将具有单个特征的弱分类器构建成具有多个特征的强分类器,并且在强分类器的构建过程中进行关键识别特征的选择,最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器,通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。
【专利说明】基于自适应提升算法的中文微博观点句识别特征的提取方法
【技术领域】
[0001]本发明涉及一种基于自适应提升算法的中文微博观点句识别特征的提取方法。
【背景技术】
[0002]在中文微博中有效地判别是否包含人们对事物的观点,意见或倾向等信息,是自动收集和分析网络中文舆论数据的重要基础。从文本挖掘的角度看,识别主观语句能够提高观点分类的准确性,减小非主观语句对观点摘要、倾向统计和情感分析等后续自然语言处理相关任务的干扰。
[0003]随着互联网的迅速发展和Web2.0的普及,信息的发布不再是报刊、杂志社、电视台和新闻网站的专利,微博网站已成为公众信息的发布媒体。相比于传统博客,微博最大的特点在于其“微”,即单篇博客长短一般限制在140字之内。微博中不仅可以包含新闻,还可能包含微博用户个人对事物的观点或意见等信息。
[0004]观点句是基于断言或评论并且带有个人情感和意向的抒发。关于观点句的分类可以追溯到意见挖掘中的主客观句子的分类,其大多是在商品评论的媒体数据上进行的分类,而在微博上进行观点句判别的最大特点在于其字数的限制和语言结构的自由。因为字数的限制,其词语及其词性、依存关系的频率相对于普通文本大大减少;因为语言结构的自由,句法结构上的分析进行得就相对困难。对于中文微博这种短文本的主观成分特征识别,目前还缺乏系 统有效的分类方法与特征提取的组合优化方法。
[0005]自适应提升算法是一种组合多个弱分类器成为一个强分类器的方法。弱分类器是误差概率小于0.5的两类分类器,使用它判别两类问题比误差概率为0.5的随机猜测要好,而强分类器H的误差概率可以任意小。参照自适应提升算法的组合多分类器的思想,我们针对中文微博中主观句识别提出了一种有效的特征选择方法。

【发明内容】

[0006]本发明提供了一种基于自适应提升算法的中文微博观点句识别特征的提取方法,其克服了【背景技术】中所述的不足。
[0007]本发明解决其技术问题的所采用的技术方案是:
[0008]基于自适应提升算法的中文微博观点句识别特征的提取方法,它包括:
[0009]步骤1,具有带是否为观点句标记的微博训练样本,输入该微博训练样本集合S=Kxi, Yi), 1=1,…,η},其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征,Y是每一个微博训练样本对应的分类结果,若该微博训练样本Xi是观点句,则该微博训练样本标记为ye+l,否则为Yi=-1 ;
[0010]设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β,其中,β可根据情况自行设定;[0011 ] 设定微博训练样本集的初始权重分布D1为平均分布,即
【权利要求】
1.基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:包括:步骤1,具有带是否为观点句标记的微博训练样本,输入该微博训练样本集合S=Kxi, Yi), 1=1,…,η},其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征,Y是每一个微博训练样本对应的分类结果,若该微博训练样本Xi是观点句,则该微博训练样本标记为ye+l,否则为Yi=-1 ; 设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β,其中,β可根据情况自行设定; 设定微博训练样本集的初始权重分布D1为平均分布,即D1 = 1/N 设定被选择的初始特征集合为空集; 设定迭代变量初始值j=l,最大迭代次数为m ; 步骤2,按以下步骤21-27进行循环迭代,包括:步骤21,在权重分布为Dj的微博训练样本集中,找到以特征&为单一特征的弱分类器tV该弱分类器比对该微博训练样本集的分类误差^与0.5的差距最大
2.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:该分类误差ε ^与0.5的差距β能够被设定。
3.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:中文微博观点句的识别特征包括中文微博语句中的词性。
4.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:中文微博观点句的识别特征包括情感词典中的情感词语集合。
5.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:中文微博观点句的识别特征包括词与词之间的依存特征。
6.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:中文微博观 点句的识别特征包括词与词之间的位置特征。
【文档编号】G06F17/30GK103886097SQ201410135746
【公开日】2014年6月25日 申请日期:2014年4月4日 优先权日:2014年4月4日
【发明者】陈锻生, 吴扬扬, 方圆 申请人:华侨大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1