一种基于主动学习的分类器构建方法

文档序号:6537337阅读:213来源:国知局
一种基于主动学习的分类器构建方法
【专利摘要】本发明公开了一种基于主动学习的分类器构建方法,充分考虑未标注样本的当前价值和预期价值,挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值,根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集,然后计算候选样本集中样本的预期价值,结合样本的当前价值,得到样本的总价值,最后根据样本的总价值,挑选高价值的未标注样本进行标注,添加到训练样本集中,更新分类器。根据不同数据集上的实验结果表明,本发明的方法能够在选择相同数量样本的条件下,得到较高分类正确率的分类器。
【专利说明】—种基于主动学习的分类器构建方法
【技术领域】
[0001]本发明涉及一种采用计算机进行数据分类的方法,具体涉及基于主动学习方法从大量样本中选择生成训练样本集,并构建经过训练的数据分类器的方法。
【背景技术】
[0002]数据的自动分类是计算机自动处理中的一项重要技术,广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法,通常包括构建分类器模型并采用训练样本集对分类器模型进行训练,获得经过训练的数据分类器。
[0003]数据分类方法中训练分类器模型是关键的难点,主要是原因是由于分类器模型需要用户标注大量的数据训练样本,而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中,有大量的图像标注工作比较困难,需要专家进行标注。
[0004]为了解决标注大量样本困难的问题,主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中,不是被动地接受训练样本,而是利用一定的准则主动选择有价值的样本去训练学习器。因此,主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能,减少人工标注的工作量,提高效率。
[0005]主动学习算法主要包括学习和采样两部分。学习即是利用得到的训练样本学习得到相应的学习器。采样策略就是从大量的未标注样本中挑选出少量的有价值的样本,降低分类算法的标记代价,利用少量的训练样本得到高性能的学习器。所以,采样策略是主动学习算法的关键部分。
[0006]现有技术中,提出了基于样本最优次优类别(Best vs Second Best, BvSB)的主动学习算法,该算法仅考虑对样本的不确定性影响较大的部分类别,较好地改进了信息熵的不足。但是,BvSB算法仅考虑对于当前分类器不确定的样本,实际使用中,当样本添加到训练样本集后,添加的样本的不确定性对于更新之后的分类器会产生影响,导致训练结果不能达到预期目标。因此,采用BvSB算法构建的分类器存在一定的缺陷。

【发明内容】

[0007]本发明的发明目的是提供一种基于主动学习生成训练样本集并构建数据分类器的方法,以解决现有技术中训练样本集生成中存在的缺陷,获得高价值的样本,提高数据分类器的分类性能。
[0008]为达到上述发明目的,本发明采用的技术方案是:一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:
(1)从未标注样本集中随机选择20-50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H? ;
(2)采用上一步获得的分类器Ηω计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
【权利要求】
1.一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤: (1)从未标注样本集中随机选择20-50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H? ; (2)采用上一步获得的分类器Ηω计算每一个未标注样本的BvSB值,BvSB值的计算方法是:
2.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(3)中,h为步骤(5)中选择的样本个数的2~3倍。
3.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(5)中,在候选样本集中选择2~5个Opt值最小的未标注样本进行人工标注。
4.根据权利要求1所述的基于主动学习的分类器构建方法,其特征在于:步骤(7)中,分类器训练的停止条件是,分类正确率>95%,或者训练样本集中的样本数>总样本数 X 70%ο
【文档编号】G06F17/30GK103793510SQ201410042498
【公开日】2014年5月14日 申请日期:2014年1月29日 优先权日:2014年1月29日
【发明者】吴健, 张宇, 徐在俊 申请人:苏州融希信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1