一种基于svm的多标签主动学习分类方法及系统的制作方法

文档序号:6545516阅读:354来源:国知局
一种基于svm的多标签主动学习分类方法及系统的制作方法
【专利摘要】本申请公开了一种基于SVM的多标签主动学习分类方法及系统,所述方法包括:构建候选样本集;确定所述候选样本集内各样本所属的标签集;响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;将所述标注的样本加入训练样本集进行训练,更新分类器;利用所述分类器对获取的待分类样本进行分类。所述基于SVM的多标签主动学习分类方法,通过初步确定样本所属的标签集,从而在很大程度上节约了人力成本以及人工标注的时间,从而在节省人力的基础上,还解决了多标签样本的学习分类问题。
【专利说明】—种基于SVM的多标签主动学习分类方法及系统
【技术领域】
[0001]本申请涉及机器学习【技术领域】,更具体地说,涉及一种基于SVM的多标签主动学习分类方法及系统。
【背景技术】
[0002]信息时代的到来,使得大量的信息开始以计算机可读的形式存在,并且数量急剧增加。但是,这些信息鱼龙混杂,很多有意义的数据都被大量的垃圾信息所淹没,如何从这些信息中自动分类出有用的信息将是一个重要的课题。
[0003]现有的分类问题中,都是假定一个样本只属于一个类标签,然后通过监督的学习方法,利用支持向量机来对样本进行分类。支持向量机(SVM,Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法,是一种基于统计学习理论的新型的分类技术。但是,由于客观事物本身的复杂性,一个样本可以同时拥有多个标签,传统的单标签学习分类方法将不再适用于多标签的样本。因此,针对多标签的样本,研究一种学习分类方案是非常有意义的。

【发明内容】
[0004]有鉴于此,本申请提供了一种基于SVM的多标签主动学习分类方法及系统,用于解决现有的主动学习分类方法不适用于多标签样本的问题。
[0005]为了实现上述目的,现提出的方案如下:
[0006]—种基于SVM的多标签主动学习分类方法,包括:
[0007]构建候选样本集;
[0008]确定所述候选样本集内各样本所属的标签集;
[0009]响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;
[0010]将所述标注的样本加入训练样本集进行训练,更新分类器;
[0011]利用所述分类器对获取的待分类样本进行分类。
[0012]优选的,所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。
[0013]优选的,所述候选样本集的构建具体包括:
[0014]对部分训练样本进行训练得到多标签SVM分类器F= Lf1,…,fk];
[0015]利用所述多标签SVM分类器得到样本Xi的预测标签向量兑;
[0016]根据所述预测标签向量?,.计算出所述样本Xi的不确定性度量值u(Xi),具体计算公式为:
【权利要求】
1.一种基于SVM的多标签主动学习分类方法,其特征在于,包括: 构建候选样本集; 确定所述候选样本集内各样本所属的标签集; 响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本; 将所述标注的样本加入训练样本集进行训练,更新分类器; 利用所述分类器对获取的待分类样本进行分类。
2.根据权利要求1所述的多标签主动学习分类方法,其特征在于,所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。
3.根据权利要求2所述的多标签主动学习分类方法,其特征在于,所述候选样本集的构建具体包括: 对部分训练样本{X, Kl1进行训练得到多标签SVM分类器F= [f\,…,fk]; 利用所述多标签SVM分类器得到样本Xi的预测标签向量_^..根据所述预测标签向量L 4十算出所述样本Xi的不确定性度量值U (Xi),具体计算公式为:
sep—marg inCr,.) - min j).(Xj) — max /:(λ:)
keviSEvj

=min\fk ⑷ j + min\fs (Xi )|
kevjSevi u(x;) —-!-,
sep_ margin (λ:) 其中,y-和分别代表预测的正例和负例标签集; 选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
4.根据权利要求?所述的多标签主动学习分类方法,其特征在于,所述标签集具体为利用直推学习的方法确定的。
5.根据权利要求4所述的多标签主动学习分类方法,其特征在于,所述标签集的确定具体包括: 定义样本Xi的标签集组成结构为Cti= (α n, a i2,…,Ct ik) T,其中,a i为权重因数,a ,j代表样本Xi具有第j个标签的分数; 利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索; 计算各个所述近邻样本之间的相似性度量值; 将所述相似性度量值进行优化得到每个样本的最优α值; 将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
6.一种基于SVM的多标签主动学习分类系统,其特征在于,包括:构建单元、确定单元、标注单元、更新单元以及分类单元,其中: 所述构建单兀,用于构建候选样本集; 与所述构建单元相连的确定单元,用于确定所述候选样本集内各样本所属的标签集;分别与所述构建单元、确定单元相连的标注单元,用于响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本; 与所述标注单元相连的更新单元,用于将所述标注的样本加入训练样本集进行训练,更新分类器; 与所述更新单元相连的分类单元,用于利用所述分类器对获取的待分类样本进行分类。
7.根 据权利要求6所述的多标签主动学习分类系统,其特征在于,所述构建单元具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。
8.根据权利要求7所述的多标签主动学习分类系统,其特征在于,所述构建单元具体包括:多标签SVM分类器单元、预测标签向量单元、不确定性度量单元以及样本选择单元,其中: 所述多标签SVM分类器单元,用于对部分训练样本{X,进行训练得到多标签SVM分类器 F = If1,…,fk]; 与所述多标签SVM分类器单元相连的预测标签向量单元,用于利用所述多标签SVM分类器得到样本Xi的预测标签向量L ;; 与所述预测标签向量单元相连的不确定性度量单元,用于根据所述预测标签向量?,.计算出所述样本Xi的不确定性度量值u (Xi),具体计算公式为:
9.根据权利要求6所述的多标签主动学习分类系统,其特征在于,所述确定单元具体为利用直推学习的方法确定所述候选样本集内各样本所属的标签集。
10.根据权利要求9所述的多标签主动学习分类系统,其特征在于,所述确定单元具体包括:定义单元、搜索单元、相似性计算单元、优化单元以及标签集选择单元,其中: 所述定义单元,用于定义样本Xi的标签集组成结构为Cii= (an,Cii2,…,Ciik) Τ,其中,a i为权重因数,a Jj代表样本Xi具有第j个标签的分数; 与所述定义单元相连的搜索单元,用于利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索;与所述的搜索单元相连的相似性计算单元,用于计算各个所述近邻样本之间的相似性度量值; 与所述相似性计算单元相连的优化单元,用于将所述相似性度量值进行优化得到每个样本的最优α值; 与所述优化单元相连的标签集选择单元,用于将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
【文档编号】G06F17/30GK103927394SQ201410184086
【公开日】2014年7月16日 申请日期:2014年5月4日 优先权日:2014年5月4日
【发明者】赵朋朋, 焦阳, 鲜学丰, 吴健, 崔志明 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1