基于自适应提升算法的中文微博观点句识别特征的提取方法

文档序号：6543005阅读：136来源：国知局

基于自适应提升算法的中文微博观点句识别特征的提取方法
【专利摘要】本发明公开了一种基于自适应提升算法的中文微博观点句识别特征的提取方法，首先设定与识别微博观点句相关的特征，将具有单个特征的弱分类器构建成具有多个特征的强分类器，并且在强分类器的构建过程中进行关键识别特征的选择，最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器，通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。
【专利说明】基于自适应提升算法的中文微博观点句识别特征的提取方法
【技术领域】
[0001]本发明涉及一种基于自适应提升算法的中文微博观点句识别特征的提取方法。
【背景技术】
[0002]在中文微博中有效地判别是否包含人们对事物的观点，意见或倾向等信息，是自动收集和分析网络中文舆论数据的重要基础。从文本挖掘的角度看，识别主观语句能够提高观点分类的准确性，减小非主观语句对观点摘要、倾向统计和情感分析等后续自然语言处理相关任务的干扰。
[0003]随着互联网的迅速发展和Web2.0的普及，信息的发布不再是报刊、杂志社、电视台和新闻网站的专利，微博网站已成为公众信息的发布媒体。相比于传统博客，微博最大的特点在于其“微”，即单篇博客长短一般限制在140字之内。微博中不仅可以包含新闻，还可能包含微博用户个人对事物的观点或意见等信息。
[0004]观点句是基于断言或评论并且带有个人情感和意向的抒发。关于观点句的分类可以追溯到意见挖掘中的主客观句子的分类，其大多是在商品评论的媒体数据上进行的分类，而在微博上进行观点句判别的最大特点在于其字数的限制和语言结构的自由。因为字数的限制，其词语及其词性、依存关系的频率相对于普通文本大大减少；因为语言结构的自由，句法结构上的分析进行得就相对困难。对于中文微博这种短文本的主观成分特征识别，目前还缺乏系统有效的分类方法与特征提取的组合优化方法。
[0005]自适应提升算法是一种组合多个弱分类器成为一个强分类器的方法。弱分类器是误差概率小于0.5的两类分类器，使用它判别两类问题比误差概率为0.5的随机猜测要好，而强分类器H的误差概率可以任意小。参照自适应提升算法的组合多分类器的思想，我们针对中文微博中主观句识别提出了一种有效的特征选择方法。

【发明内容】

[0006]本发明提供了一种基于自适应提升算法的中文微博观点句识别特征的提取方法，其克服了【背景技术】中所述的不足。
[0007]本发明解决其技术问题的所采用的技术方案是:
[0008]基于自适应提升算法的中文微博观点句识别特征的提取方法，它包括:
[0009]步骤1，具有带是否为观点句标记的微博训练样本，输入该微博训练样本集合S=Kxi, Yi), 1=1,…，η}，其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征，Y是每一个微博训练样本对应的分类结果，若该微博训练样本Xi是观点句，则该微博训练样本标记为ye+l，否则为Yi=-1 ；
[0010]设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β，其中，β可根据情况自行设定；[0011 ] 设定微博训练样本集的初始权重分布D1为平均分布，即
【权利要求】
1.基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:包括:步骤1，具有带是否为观点句标记的微博训练样本，输入该微博训练样本集合S=Kxi, Yi), 1=1,…，η}，其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征，Y是每一个微博训练样本对应的分类结果，若该微博训练样本Xi是观点句，则该微博训练样本标记为ye+l，否则为Yi=-1 ；设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β，其中，β可根据情况自行设定；设定微博训练样本集的初始权重分布D1为平均分布，即D1 = 1/N 设定被选择的初始特征集合为空集；设定迭代变量初始值j=l，最大迭代次数为m ；步骤2，按以下步骤21-27进行循环迭代，包括:步骤21，在权重分布为Dj的微博训练样本集中，找到以特征&为单一特征的弱分类器tV该弱分类器比对该微博训练样本集的分类误差^与0.5的差距最大
2.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:该分类误差ε ^与0.5的差距β能够被设定。
3.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:中文微博观点句的识别特征包括中文微博语句中的词性。
4.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:中文微博观点句的识别特征包括情感词典中的情感词语集合。
5.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:中文微博观点句的识别特征包括词与词之间的依存特征。
6.根据权利要求1所述的基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于:中文微博观点句的识别特征包括词与词之间的位置特征。
【文档编号】G06F17/30GK103886097SQ201410135746
【公开日】2014年6月25日申请日期:2014年4月4日优先权日:2014年4月4日
【发明者】陈锻生, 吴扬扬, 方圆申请人:华侨大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈锻生;吴扬扬;方圆
技术所有人：华侨大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。