一种基于非确定主动学习的多分类器训练方法及分类方法

文档序号:8339991阅读:118来源:国知局
一种基于非确定主动学习的多分类器训练方法及分类方法
【技术领域】
[0001] 本发明涉及一种基于非确定主动学习的多分类器训练方法及分类方法,属于软件 工程技术领域。
【背景技术】
[0002] 数据分类一直是人们的研宄热点,比如专利ZL 201010166225. 6"一种基于在线学 习的自适应级联分类器训练方法",专利ZL 200910076428. 3 "一种跨领域的文本情感分类 器的训练方法和分类方法",专利ZL 200810094208. 9 "文档分类器生成方法和系统"。
[0003] 在海量数据的分类问题中,"主动学习"(参考文献:McCallum and K.Nigam, "Employing EM in pool-based active learning for text classification, " in Proc.of the 15th International Conference on Machine Learning, 1998, pp. 350 - 358.)是一种高效利用专家标注的机器学习方法,其主要思想 是:由机器主动地、有针对性地选择最有信息的样本交给专家进行标注(向专家提出查 询),从而在有限的样本标注量下获得尽可能大的分类性能提升,比如参考授权专利:ZL 201210050383 "基于主动学习和半监督学习的多类图像分类方法";ZL200810082814. 9 "用 于使提升分类器适合于新样本的方法"。
[0004] 在样本标注代价高且数量有限、而未标注样本多且易于获得的应用情境下,主动 学习的优势尤为明显。选择性采样策略是主动学习的关键环节。现有选择性采样策略大 致包括以下几种类型一一(1)基于不确定度:将其当前模型最不确定如何进行分类的样 本提交给专家标注(参考文献:D. Lewis and W. Gale, "A sequential algorithm for training text classifiers, ''In Proc. of the ACM SIGIR Conference on Research and Development in Information Retrieval, 1994, pp. 3 - 12.) ; (2)基于组合决策:从不同 模型出发,采用投票模式,将分歧最大的样本提交给专家标注(参考文献:H. S. Seung,Μ. Opper, and H. Sompolinsky, "Query by committee, " In Proc. of theACM Workshop on Computational Learning Theory, 1992, pp. 287 - 294) ;(3)基于期望误差最小化:从决 策理论出发,估计未标注样本被标注之后模型的期望误差,最终选择能够获得最小期望 误差的样本提交给专家标注(参考文献:Y. Guo and R. Greiner, "Optimistic active learning using mutual information, " In Proc. of International Joint Conference on Artificial Intelligence, 2007, pp. 823 - 829.)〇
[0005] 本发明文档的符号表示如下:样本用特征向量x表示;标注用y e Cn = {1,2, ...,N}表示,其中N表示类别数目;未标注集和已标注集分别用U和L表示;分类模 型用后验概率表示,其中表示对应于已标注集L的N分类模型的参数。
[0006] 传统主动学习方法中,类别数目N可以通过经验分析或先验知识预先获知,从而 视为常量,这类方法称为"确定主动学习"(DeterminateActive Learning,简称D-AL)。根 据类别数目的不同(N= 2或N>2),相应的分类模型可以划分为两种一一二分类(binary) 和多分类(multi-class)。二分类模型将样本分到两类中的一类,是一种被广泛研宄和应用 的基本分类模型;多分类模型将样本分到多类中的一类,是二分类模型的一般化形式。多分 类模型的构建方式包括以下两种:
[0007] (1)-种直接的处理方法是将多分类模型转化为多个二分类模型。在训练阶段,针 对每个类别或每两个类别对,构建相应的二分类模型。在预测阶段,训练出的多个二分类模 型通过投票或融合的方式组合成一个总的分类模型。例如,对于每个类别C e Cn,利用标注 y。= {〇,1}指示样本X是否属于该类,逻辑回归可以用于二分类模型的构建:
[0008]
【主权项】
1. 一种基于非确定主动学习的多分类器训练方法,其步骤为: 1) 选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该 样本的总体信息量Info ;所述总体信息量为:模型变更信息量与模型调优信息量之和; 2) 对该未标注样本集进行聚类,得到J个子类; 3) 从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选未标注样 本中选取K个样本进行标注后加入到已标注样本集L ; 4) 将更新后的已标注样本集L作为训练数据重新训练该多分类器。
2. 如权利要求1所述的方法,其特征在于,所述模型变更信息量为:从该未标注样本集 中选取一样本a并将该样本的标注类别设定为新类别;然后利用该多分类器计算去除该样 本a后的该未标注样本集关于该新类别的信息熵,将该信息熵作为该样本a的模型变更信 息量;所述模型调优信息量的计算方法为:从该未标注样本集中选取一样本a并将该样本 的标注类别设定为该多分类器中的一个类别;然后利用更新后的该多分类器计算去除该样 本a的该未标注样本集关于每个已有类别的信息熵加权和,作为该样本a的模型调优信息 量。
3. 如权利要求2所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先根 据具有N个类别训练数据的已标注样本集L构建一个N+1多分类器;然后对于去除该样本 a后的该未标注样本集中每一样本X,将其不属于现有N个类别中任何一类的概率定义为该 样本x属于第N+1个类别的概率;然后利用该多分类器计算去除该样本a后的该未标注样 本集关于该新类别的信息熵,作为该样本a的模型变更信息量。
4. 如权利要求2所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先根 据具有N个类别训练数据的已标注样本集L构建一个二分类器,其中,将现有N个类别合并 为一个类别A,将现有N个类别以外的其它类别归为另一类别B ;然后对于去除该样本a后 的该未标注样本集中每一样本x,将其不属于现有N个类别中任何一类的概率定义为该样 本x属于类别B的概率;然后利用该多分类器计算去除该样本a后的该未标注样本集关于 该新类别的信息熵,作为该样本a的模型变更信息量。
5. 如权利要求2所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先根 据具有N个类别训练数据的已标注样本集L构建一个一元分类器;然后对于去除该样本a 后的该未标注样本集中每一样本x,将其不属于现有N个类别中任何一类的概率定义为样 本x为离群点的概率;然后利用该多分类器计算去除该样本a后的该未标注样本集关于该 新类别的信息熵,作为该样本a的模型变更信息量。
6. -种基于非确定主动学习的多分类器分类方法,其步骤为: 1) 选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该 样本的总体信息量Info ;所述总体信息量为:模型变更信息量与模型调优信息量之和; 2) 对该未标注样本集进行聚类,得到J个子类; 3) 从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选样本中选 取K个样本进行标注后加入到已标注样本集L ; 4) 将更新后的已标注集L作为训练数据重新训练该多分类器; 5) 迭代执行步骤1)~4)设定次数;然后利用最终得到的多分类器对未标注集进行分 类。
7. 如权利要求6所述的方法,其特征在于,所述模型变更信息量为:从该未标注样本集 中选取一样本a并将该样本的标注类别设定为新类别;然后利用该多分类器计算去除该样 本a后的该未标注样本集关于该新类别的信息熵,将该信息熵作为该样本a的模型变更信 息量;所述模型调优信息量的计算方法为:从该未标注样本集中选取一样本a并将该样本 的标注类别设定为该多分类器中的一个类别;然后利用更新后的该多分类器计算去除该样 本a的该未标注样本集关于每个已有类别的信息熵加权和,作为该样本a的模型调优信息 量。
8. 如权利要求7所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先根 据具有N个类别训练数据的已标注样本集L构建一个N+1多分类器;然后对于去除该样本 a后的该未标注样本集中每一样本X,将其不属于现有N个类别中任何一类的概率定义为该 样本x属于第N+1个类别的概率;然后利用该多分类器计算去除该样本a后的该未标注样 本集关于该新类别的信息熵,作为该样本a的模型变更信息量。
9. 如权利要求7所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先根 据具有N个类别训练数据的已标注样本集L构建一个二分类器,其中,将现有N个类别合并 为一个类别A,将现有N个类别以外的其它类别归为另一类别B ;然后对于去除该样本a后 的该未标注样本集中每一样本x,将其不属于现有N个类别中任何一类的概率定义为该样 本x属于类别B的概率;然后利用该多分类器计算去除该样本a后的该未标注样本集关于 该新类别的信息熵,作为该样本a的模型变更信息量。
10. 如权利要求7所述的方法,其特征在于,计算所述模型变更信息量的方法为:首先 根据具有N个类别训练数据的已标注样本集L构建一个一元分类器;然后对于去除该样本 a后的该未标注样本集中每一样本X,将其不属于现有N个类别中任何一类的概率定义为样 本x为离群点的概率;然后利用该多分类器计算去除该样本a后的该未标注样本集关于该 新类别的信息熵,作为该样本a的模型变更信息量。
【专利摘要】本发明公开了一种基于非确定主动学习的多分类器训练方法及分类方法。本方法为:1)选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该样本的总体信息量Info;所述总体信息量为:模型变更信息量与模型调优信息量之和;2)对该未标注样本集进行聚类,得到J个子类;3)从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选样本中选取K个样本进行标注后加入到已标注样本集L;4)将更新后的已标注集L作为训练数据重新训练该多分类器;5)迭代执行步骤1)~4)设定次数;然后利用最终得到的多分类器对未标注集进行分类。本发明实现样本信息量的综合评价,从而获得高效化、智能化的多分类器。
【IPC分类】G06K9-62
【公开号】CN104657744
【申请号】CN201510046879
【发明人】张晓宇, 王树鹏, 吴广君
【申请人】中国科学院信息工程研究所
【公开日】2015年5月27日
【申请日】2015年1月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1