一种主动学习分类方法和系统的制作方法

文档序号:6523958阅读:211来源:国知局
一种主动学习分类方法和系统的制作方法
【专利摘要】本发明公开一种主动学习分类方法和系统,该方法首先从原始的未标注样本集中筛选出不确定性较高的各个样本,得到最不确定样本集;之后,利用样本间的相似性将最不确定样本集分为h个不同的聚类,相似性较高的样本被划分在同一个聚类中,并筛选出每个聚类中最具代表性的样本,构成最具代表性样本集;后续对该最具代表性样本集进行信息标注,利用标注的样本训练分类器,最终实现利用训练的分析器对目标对象进行分类。可见,本发明通过聚类,将较为相似的、冗余性较高的样本划分在同一类中,以及基于聚类进行筛选避免了最终所选的待标注样本之间的冗余性,降低了标注时间和工作量,提高了分类效率。
【专利说明】—种主动学习分类方法和系统
【技术领域】
[0001]本发明属于机器学习(Machine Learning)分类【技术领域】,尤其涉及一种主动学习分类方法和系统。
【背景技术】[0002]信息分类是信息处理、模式识别领域中一个非常重要的问题,分类方法的研究已成为当前研究的热门。各分类方法实现分类的关键问题是基于已标注的样本训练具有较高分类准确率的分类器。
[0003]分类器的分类准确率很大程度上依赖于已经标注过的样本集。现实情况下,对样本进行标注、获得标注样本的代价较高(需由领域专家进行人工标注),因此,为了在尽可能小的标注代价下获取较高的分类准确率,需要从原始的未标注样本集中筛选样本,且需筛选出对训练的分类器而言信息含量较高的样本进行标注。基于该情况,本领域提供了一种主动学习分类方法,该方法实现分类的过程具体如下:针对原始的未标注样本集中的所有样本,计算、衡量每个样本的不确定性和代表性,从中筛选出二者结合值较大的样本作为信息含量较高的样本进行标注,进而基于标注的样本训练分类器,并多次迭代该过程使分类器的正确率逐步提高,直至获取符合要求的分类器,最后采用该分类器实现对目标对象进行分类。
[0004]上述方法仅考虑样本的不确定性和代表性,未考虑筛选出的样本之间的冗余性,从而导致筛选出的样本之间冗余性较高,而对冗余样本进行标注费时费力,且由于其包含的信息为冗余信息不会对分类器的训练带来帮助,因此上述方法存在筛选出的样本之间冗余性较高的缺点,增加了标注的时间和代价,费时费力,进而降低了分类效率。

【发明内容】

[0005]有鉴于此,本发明的目的在于提供一种主动学习分类方法和系统,以克服上述问题,实现从原始的未标注样本集中选择出信息含量较高且相互之间不存在冗余的样本,降低标注时间和工作量,进而提高分类效率。
[0006]为此,本发明公开如下技术方案:
[0007]—种主动学习分类方法,包括:
[0008]从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于I的自然数;
[0009]依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,I ≤ k≤h,所述k为自然数,h为大于I的自然数;[0010]从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;
[0011 ] 对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
[0012]利用所述各个标注样本训练分类器;
[0013]利用所述分类器对目标对象进行分类。
[0014]上述方法,优选的,所述从原始的未标注样本集中获取包括至少一个样本的最不确定样本集具体包括:
[0015]分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
[0016]基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
[0017]获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
[0018]上述方法,优选的,所述预设聚类算法具体为kernel-kmeans聚类算法。
[0019]上述方法,优选的,所述从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk具体包括:
[0020]分析所述聚类Ck中每个样本Xi相对于剩余未标注样本集Ux,的代表性,并计算表
征样本Xi代表性程度的第二参数的参数值,所述剩余未标注样本集Ux,具体为所述聚类Ck中去掉所述样本Xi之后的集合,其中,I ^ i ^ M, i为自然数,M为所述聚类Ck中所包含的样本的个数;
[0021]获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本sk。
[0022]一种主动学习分类系统,包括第一采样模块、聚类模块、第二采样模块、标注模块、训练模块和分类模块,其中:
[0023]所述第一采样模块,用于从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于I的自然数;
[0024]所述聚类模块,用于依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,I ^ k ^ h,所述k为自然数,h为大于I的自然数;
[0025]所述第二采样模块,用于从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;[0026]所述标注模块,用于对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本;
[0027]所述训练模块,用于利用所述各个标注样本训练分类器;
[0028]所述分类模块,用于利用所述分类器对目标对象进行分类。
[0029]上述系统,优选的,所述第一采样模块具体包括:
[0030]第一分析单元,用于分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种;
[0031]第一计算单元,用于基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值;
[0032]第一获取单元,用于获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
[0033]上述系统,优选的,所述第二采样单元具体包括:
[0034]第二分析单元,用于分析所述聚类Ck中每个样本Xi相对于剩余未标注样本集Ux,的代表性,并计算表征样本Xi代表性程度的第二参数的参数值,所述剩余未标注样本集1^,具体为所述聚类Ck中去掉所述样本Xi之后的集合,其中,I < i SM,i为自然数,M为所述聚类Ck中所包含的样本的个数;
[0035]第二获取单元,用于获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样`本sk。
[0036]本发明实施例提供的方法,首先考虑样本的不确定性,从原始的未标注样本集中筛选出不确定性较高的各个样本,得到最不确定样本集;之后,依据预设聚类算法,利用样本间的相似性将最不确定样本集分为h个不同的聚类,相似性较高的样本、冗余样本被划分在同一个聚类中,并筛选出每个聚类中最具代表性的样本,构成最具代表性样本集;后续对该最具代表性样本集中的各样本进行信息标注,利用标注的样本训练分类器,最终实现利用训练的分析器对目标对象进行分类。
[0037]由于本发明方法利用样本间的相似性对筛选出的不确定性较高的各个样本进行分组,将较为相似的、冗余性较高的样本划分在同一类(即聚类)中,并从同一聚类中筛选出代表性最高的样本作为该类中信息含量最高的样本进行标注,不同聚类中分别选出的代表性最高的样本之间不存在冗余,可见,本发明通过聚类,以及基于聚类进行筛选避免了最终所选的待标注样本之间存在冗余性,从而本发明可以选择出信息含量较高且相互之间不存在冗余的样本,降低了标注时间和工作量,进而提高了分类效率。
【专利附图】

【附图说明】
[0038]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本发明实施例一提供的主动学习分类方法的流程示意图;[0040]图2是本发明实施例一提供的最不确定样本集的获取过程流程示意图;
[0041]图3是本发明实施例一提供的最具代表性样本集的获取过程流程示意图;
[0042]图4是本发明实施例二提供的主动学习分类系统的结构示意图;
[0043]图5是本发明实施例二提供的第一采样模块的结构示意图;
[0044]图6是本发明实施例二提供的第二采样模块的结构示意图。
【具体实施方式】
[0045]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046]本发明公开一种主动学习分类方法和系统,在对本发明的方法和系统进行详细说明之前,首先对本发明的核心思想进行介绍。本发明的核心思想可以概括为:(G,Q, S,L, U),其中,G是利用已标注样本得到的初始分类器(当前分类器),Q为查询、筛选策略,S为领域专家,L为训练样本集,U为样本池,也即原始的未标注样本集。利用查询、筛选策略Q从样本池U中选择一部分未标注样本,交由领域专家S进行标注,得到携带有标注信息的各标注样本;将该各标注样本加入训练样本集L中,并利用L对初始分类器G进行重新训练,得到分类精度更高的分类器,采样和训练重复迭代一定的次数,直到达到某些终止条件,后续可采用训练好的分类器进行分类。
[0047]实施例一
[0048]本发明实施例一公开一种主动学习分类方法,请参见图1,该方法包括:
[0049]S1:从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于I的自然数。
[0050]本实施例中,综合考虑样本的不确定性和代表性,将不确定性较高以及代表性较高的样本作为信息含量较高的样本,即对预设的X种对象类别最有价值的样本,在实际实施时,可具体将预设的X种对象类别实例化为包含了该X种对象类别的当前分类器。不确定性、代表性样本的筛选以对当前分类器的分类边界影响最大化为基准。
[0051]本发明具体采用基于BvSB (Best vs Second-Best,最优次优标号)准则的不确定性方法衡量样本的不确定性。
[0052]BvSB准则具体如下:
[0053]假设当前样本为x,y表示样本X所属的类别,Y表示样本X可能所属的类别集合,U表不原始的未标注样本集。贝U:
[0054]
【权利要求】
1.一种主动学习分类方法,其特征在于,包括: 从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于I的自然数; 依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,I≤k≤h,所述k为自然数,h为大于I的自然数; 从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集; 对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本; 利用所述各个标注样本训练分类器; 利用所述分类器对目标对象进行分类。
2.根据权利要求1所述的主动学习分类方法,其特征在于,所述从原始的未标注样本集中获取包括至少一个样本的最不确定样本集具体包括: 分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种; 基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值; 获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
3.根据权利要求2所述的主动学习分类方法,其特征在于,所述预设聚类算法具体为kernel-kmeans 聚类算法。
4.根据权利要求3所述的主动学习分类方法,其特征在于,所述从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk具体包括: 分析所述聚类Ck中每个样本Xi相对于剩余未标注样本隼L的代表性,并计算表征样本Xi代表性程度的第二参数的参数值,所述剩余未标注样本集Uxi具体为所述聚类Ck中去掉所述样本Xi之后的集合,其中,I ≤ i ≤ M, i为自然数,M为所述聚类Ck中所包含的样本的个数; 获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本Sk。
5.一种主动学习分类系统,其特征在于,包括第一采样模块、聚类模块、第二采样模块、标注模块、训练模块和分类模块,其中: 所述第一采样模块,用于从原始的未标注样本集中获取包括至少一个样本的最不确定样本集,所述最不确定样本集中的每个样本对应一个表征其相对于预设的X种对象类别的不确定性程度的第一参数,所述第一参数的参数值满足表征样本的不确定性较高的预设条件,其中,所述X为大于I的自然数; 所述聚类模块,用于依据预设聚类算法,利用样本间的相似性对所述最不确定样本集中的各个样本进行分组,得到所述最不确定样本集的h个不同的聚类Ck,所述聚类Ck包括至少一个样本,所述聚类Ck包括的各个样本互为相似样本,其中,I < k < h,所述k为自然数,h为大于I的自然数;所述第二采样模块,用于从每个聚类Ck中获取相对于该聚类Ck代表性最高的样本Sk,所述代表性最高的样本Sk对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征样本的代表性最高的预设条件;各个代表性最高的样本构成最具代表性样本集;所述标注模块,用于对所述最具代表性样本集中的各个样本进行信息标注,得到各个标注样本; 所述训练模块,用于利用所述各个标注样本训练分类器; 所述分类模块,用于利用所述分类器对目标对象进行分类。
6.根据权利要求5所述的主动学习分类系统,其特征在于,所述第一采样模块具体包括: 第一分析单元,用于分析所述原始的未标注样本集中每个样本所属的最优类别和次优类别,并获取所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,所述最优类别和所述次优类别分别为所述X种对象类别中的一种; 第一计算单元,用于基于所述样本属于所述最优类别的第一概率和属于所述次优类别的第二概率,计算所述样本的BvSB值; 第一获取单元,用于获取所述BvSB值小于第一预设阈值的各个样本,获取的所述各个样本构成最不确定样本集。
7.根据权利要求6所述的主动学习分类系统,其特征在于,所述第二采样单元具体包括: 第二分析单元,用于分析所述聚类Ck中每个样本Xi相对于剩余未标注样本集Ux,的代表性,并计算表征样本Xi代表性程度的第二参数的参数值,所述剩余未标注样本集Uxi具体为所述聚类Ck中去掉所述样本Xi之后的集合,其中,I < i SM,i为自然数,M为所述聚类Ck中所包含的样本的个数; 第二获取单元,用于获取所述第二参数的参数值最大的样本,将获取的所述样本标记为聚类Ck中代表性最高的样本sk。
【文档编号】G06K9/62GK103617429SQ201310688732
【公开日】2014年3月5日 申请日期:2013年12月16日 优先权日:2013年12月16日
【发明者】赵朋朋, 焦阳, 辛洁, 吴健, 崔志明 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1