一种有向链接式分类器构造方法及分类方法

文档序号:8498695阅读:247来源:国知局
一种有向链接式分类器构造方法及分类方法
【技术领域】
[0001] 本发明涉及一种有向链接式分类器构造方法及分类方法,属于计算机软件技术领 域。
【背景技术】
[0002] 在信息智能分析领域,许多典型应用本质上都可以归结为分类问题,如恶意代码 识别、入侵检测等。传统的分类方法或高度依赖于人工判定,或基于简单直接的经验性规 贝1J,分类的效果和效率都亟待提升。在这种情况下,智能化、自动化的分类方法被视为一种 有效的解决方案,而分类器的选择是一个至关重要的环节。Boosting算法因其构造简单、提 升效果明显等优点,成为一种被广泛应用的方法;其中,AdaBoost (Adaptive Boosting)最 具代表性。
[0003] 从机器学习的角度出发,传统的自动分类方法属于监督学习(supervised learning),这类方法完全基于已标注样本作为训练集构建分类模型。与之相对应的是非监 督学习(unsupervisedlearning),即从未标注样本出发挖掘数据中隐含的结构化信息的 过程。监督学习对于已标注样本集的规模依赖较大,已标注样本越多则分类模型越可靠。但 是在很多实际分类问题中,由于人力成本、时间代价高昂,往往无法获得模型训练所需的大 量而充分的样本类别信息;通常,只能得到一小部分已标注样本,而其余大部分样本都是未 标注的。因此,即便是诸如AdaBoost之类的高效分类器,在训练样本极为稀少的情况下,也 难以准确刻画与揭示出真实的分类模型。
【背景技术】 [0004] 的缺陷
[0005] 在传统AdaBoost分类器构造方法中,各个弱分类器仅仅通过由错误率而获得的 训练权重组合构成强分类器,但在弱分类器之间却不存在直接的联系。如果将各个弱分类 器看成是图模型中的节点,则在传统AdaBoost分类方法中这些节点之间并不存在相互链 接的边,换言之这些节点是相对孤立的。从信息流转角度看,也即不存在弱分类器之间的信 息交互,这就导致先前弱分类器中学习获得的知识无法直接为后续弱分类器的构造提供有 效指导,从而浪费了有价值信息。

【发明内容】

[0006] 本发明的目的在于提供一种有向链接式分类器构造方法及分类方法,通过在弱分 类器之间设计有向链接信息通路,实现模型知识的共享传递和协同指导。使用该方法,可以 充分利用有限已标注样本以获得更优的分类结果,为"已标注样本获取代价高、数量少而未 标注样本数量庞大、普遍存在"的数据分类应用场景提供了一种有效的解决方案。
[0007] 本发明针对传统AdaBoost框架的局限性,设计了一种弱分类器协同指导结构框 架,提出了一种有向链接式AdaBoost分类器构造方法。该方法在弱分类器之间设计有向链 接信息通路,通过有价值知识的共享传递与协同指导,充分挖掘与利用已标注和未标注这 两种样本,实现了模型信息的有效利用与融合增强。
[0008] 有向链接式AdaBoost分类器构造方法的核心思想是:利用先前训练出的弱分类 器对未标注集进行分类,并将预测置信度最高的若干样本推荐给后续弱分类器,利用这种 方式一方面把具有高可靠性的信息传递给后续弱分类器,指导后续弱分类器的构造,另一 方面也通过有价值信息的共享有效"扩充"了训练集,从而能够在充分利用有限训练数据的 同时提升整体分类性能。具体而言:在有向链接式AdaBoost分类方法的每一轮循环迭代 中,训练出的弱分类器Gm(X)除了作用于已标注集以求得融合权重系数之外,还作用于未标 注集以选取出其中预测置信度最高的前K个样本,将这些样本连同对应的预测标注构成增 量训练集△ ^并推荐给后续弱分类器,从而在扩展现有训练集的同时有针对性地指导后续 弱分类器的构建。有向链接式AdaBoost分类方法流程如图1所示。
[0009] 根据增量训练集的推荐范围,有向链接式AdaBoost分类方法可以进一步划分为 "更新型"和"累积型"两种模式。为表述清楚起见,本发明文档用AeJTGf表示样本输入 特征,用yie{-1,+1}表示其对应的类别标签;样本集X按照标注与否分为已标注集L和 未标注集U,其中已标注集L中的样本连同其对应标签构成模型学习的训练集T。
[0010] ?更新型:该模式下,当前增量训练集只推荐给下一个弱分类器,因此信息交互只 存在于相邻弱分类器之间(如图2所示)。用T(m)表示构建弱分类器Gm(x)所采用的扩展 训练集,用ATm表示弱分类器Gm(x)所生成的增量训练集,则公式化表示为:
[0011]
【主权项】
1. 一种有向链接式AdaBoost分类器构造方法,其步骤为: 1) 初始化一已标注训练数据集T的权值分布、一增量集和迭代截止条件; 2) 对于第m次迭代,采用已标注训练集Tw训练一弱分类器Gm(X),并用当前的弱分类 器Gm(X)的分类误差率和系数更新已标注训练集Tw的权值分布;并且利用当前的弱分类 器Gm(X)对一未标注集U进行预测,然后从预测结果中选出置信度最高的前K个样本及其 对应的预测标签放入所述增量集中,记为ATm;其中,T(m)=T+ATm; 3) 当满足迭代截止条件时,停止迭代并根据每次迭代得到的弱分类器构建一强分类器 G(x) 〇
2. 如权利要求1所述的方法,其特征在于,所述迭代截止条件为迭代M次。
3. 如权利要求1所述的方法,其特征在于,所述迭代截止条件为设定的收敛条件。
4. 如权利要求1或2或3所述的方法,其特征在于,所述强分类器G(X)的构建方法为: 将每次迭代得到的弱分类器线性进行加权叠加,构成所述强分类器G(X)。
5. -种有向链接式AdaBoost分类器构造方法,其步骤为: 1) 初始化一已标注训练数据集T的权值分布、一增量集和迭代截止条件; 2) 对于第m次迭代,采用已标注训练集Tw训练一弱分类器Gm(X),并用当前的弱分类 器Gm(X)的分类误差率和系数更新已标注训练集Tw的权值分布;并且利用当前的弱分类 器Gm(X)对一未标注集U进行预测,然后从预测结果中选出置信度最高的前K个样本及其 对应的预测标签更新所述增量集内的样本,记为ATm;其中,Tw=T+ATm; 3) 当满足迭代截止条件时,停止迭代并根据每次迭代得到的弱分类器构建一强分类器 G(x) 〇
6. 如权利要求1所述的方法,其特征在于,所述迭代截止条件为迭代M次。
7. 如权利要求1所述的方法,其特征在于,所述迭代截止条件为设定的收敛条件。
8. 如权利要求1或2或3所述的方法,其特征在于,所述强分类器G(X)的构建方法为: 将每次迭代得到的弱分类器线性进行加权叠加,构成所述强分类器G(X)。
9. 一种有向链接式AdaBoost分类方法,其特征在于,采用权利要求1或5所述方法构 造的强分类器G(X)对未标注集U进行预测,输出预测结果。
【专利摘要】本发明公开了一种有向链接式分类器构造方法及分类方法。本方法为:1)初始化一已标注训练数据集T的权值分布、一增量集和迭代截止条件;2)对于第m次迭代,采用已标注训练集T(m)训练一弱分类器Gm(x),并用当前的Gm(x)的分类误差率和系数更新已标注训练集T(m)的权值分布;并且利用当前的Gm(x)对一未标注集U进行预测,然后从预测结果中选出置信度最高的前K个样本及其对应的预测标签放入或更新到增量集中;3)当满足迭代截止条件时,停止迭代并根据每次迭代得到的弱分类器构建一强分类器G(x)。该方法通过有价值知识的共享传递与协同指导,充分挖掘与利用已标注和未标注这两种样本,实现了模型信息的有效利用与融合增强。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104820687
【申请号】CN201510192537
【发明人】张晓宇, 侯子骄, 王树鹏
【申请人】中国科学院信息工程研究所
【公开日】2015年8月5日
【申请日】2015年4月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1