一种高效的svm主动半监督学习算法

文档序号:6629461阅读:5187来源:国知局
一种高效的svm主动半监督学习算法
【专利摘要】本发明公开了一种高效的SVM主动半监督学习算法,包括:(一)训练初始的SVM分类器(二)判断是否满足学习终止条件,若不满足则转到步骤(三);使用对未标记样本U进行预测标注;(四)对U中预测标注置信度大于/小于阈值的样本进行基于Tri-training的半监督学习/基于QBC的主动学习,将半监督学习/主动学习所选择的样本加入已标记训练样本集;(五)在更新的已标记训练样本集上训练(六)重复步骤(二)直至SVM分类器满足主动学习的终止条件。本发明的有益之处在于:在SVM训练学习的过程中根据学习进程,自主选择最有利于分类器性能的样本来训练分类器,把这些样本加入训练集之后能够最大程度提高半监督学习对未标注样本分类的准确性,从而提高SVM分类精度。
【专利说明】-种高效的SVM主动半监督学习算法

【技术领域】
[0001] 本发明涉及一种算法,具体涉及一种高效的SVM主动半监督学习算法,属于机器 学习算法【技术领域】。

【背景技术】
[0002] SVM(SupportVectorMachines,支持向量机)是在统计学习理论的VC维理论和 结构风险最小化原则基础上发展起来的一种新的模式识别方法。它可根据有限的样本信 息,在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意 样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。它在很大程度上解决了传统 模式识别技术存在的模型选择与过学习、非线性和维数灾难、局部极小点等问题,在解决小 样本、非线性及高维模式识别问题中表现出了许多特有的优势,成为当前国内外机器学习 领域新的研究热点。
[0003] SVM具有不依赖于经验、全局最优以及良好的泛化性能等优点,吸引了众多领域的 学者,对SVM的应用学者们也做了大量的研究。在模式识别领域,贝尔实验室率先对美国邮 政手写数字库识别研究方面应用了SVM方法,取得了较大的成功。在随后的几年内,有关 SVM的应用研究得到了很多的重视,在人脸检测、文本分类、目标识别、网络入侵检测、故障 诊断、图像处理、语音识别、回归分析、以及函数估计等应用研究方面取得了大量的研究成 果,从最初的简单模式输入的直接的SVM方法研究,进入到多种方法取长补短的联合应用 研究,如将半监督学习、主动学习等应用于SVM训练学习,对SVM训练学习方法也有了很多 改进。总之,SVM在多个领域的不俗表现使其已经成为一种被广泛使用的通用学习算法,正 在和即将深入到机器学习的各个应用领域。
[0004] 在机器学习领域,根据对学习样本处理方法的不同,可以将学习分为主动学习和 被动学习两类。被动学习(PassiveLearning)也称为从样本中学习,它是随机地选择训 练样本(randomlysampling),被动地接受这些样本的信息,通过学习生成一个分类器或分 类模型。主动学习算法由Lewis和Gale首先提出来。相对于被动学习,主动学习(Active Learning)是近年来机器学习领域新兴的学习方法。它与以往学习方法的不同之处在 于,主动学习的研究目标是寻找某种途径来选择对于学习过程最有用的、最具有代表性 (representative)或者说信息量最大的(informative)的样本,以在查询过程中得到尽可 能多信息的同时,利用所得信息尽快终止搜索过程。所谓最有用或最有利的样本是指能够 最大可能改善当前所得分类器性能的样本,以减少所需标记的样本数,同时最小化查询学 习所需的迭代次数,及提高所学概念的准确性。
[0005] SVM主动学习就是将主动学习策略应用于SVM训练学习中,以解决经典SVM在训练 学习中难以获得大量标记样本或对样本标记代价昂贵、枯燥乏味,甚至异常困难等局限性 问题,即在SVM训练学习中应用主动学习方法,根据SVM学习进程,主动选择最有利于分类 器的样本,然后交于领域专家对其标记,以此降低SVM训练学习中标记样本的规模,减少训 练学习的代价,从而以尽可能少的标记样本训练获得分类正确率尽可能高的SVM分类器。
[0006] 经典SVM最大的不足是训练速度比较慢,这是因为训练样本的数量决定了二次规 划问题目标函数中矩阵的维数,而大规模的训练样本使得求解规划问题的速度与维数呈指 数增长,同时,SVM训练和测试时所占用的计算机存储空间大,影响了SVM的性能。SVM主 动学习不仅可以减小训练学习中的标记样本规模,而且可以减少算法所需的计算机存储空 间,从而降低学习的空间复杂度。
[0007] 主动学习及主动学习在SVM训练学习中的出色性能,已经受到国内外很多从事机 器学习、统计学习的学者们的重视,并使得该领域成为了一个相当活跃的研究热点,如将 SVM与主动学习方法相结合运用于入侵检测中;文献1 (高新波,田春娜,张娜.一种基于 SVM主动学习的卡通视频检测方法[J].电子与信息学报,2007, 29(6) : 1338-1342)中将主 动学习的策略及相关反馈技术引入到SVM算法中,设计了一种基于SVM主动学习的卡通视 频检测分类方法,在检测性能上有较大的优势;针对实际应用中垃圾邮件种类繁多以及邮 件发送者不断变化,即未知类别标记样本较多的情况,文献2(胡磊.基于内容的垃圾邮件 过滤技术的研究[D].昆明:昆明理工大学,2005)、文献3(李笛,胡学钢,胡春玲.主动贝 叶斯分类方法研究[刀.计算机研究与发展,2007,44( 8此丨1.):44-51)、文献4(李笛,张玉 红,胡学钢.一种基于主动贝叶斯分类技术的垃圾邮件过滤方法[J].合肥工业大学学报, 2008,31(9) :1443-1446)、文献5(李笛.基于内容的垃圾邮件过滤方法研究[D].合肥:合 肥工业大学,2008)中将主动学习及SVM主动学习应用于垃圾邮件过滤,有效地减少了训练 样本质量数量,提高了过滤器性能,在各项评价指标上具有优越性;文献6(贺慧.基于主动 学习SVM的蒙文文本分类系统的设计与实现[D].内蒙古:内蒙古大学,2006)、文献7(刘 里.中文文本分类中特征描述及分类器构造构造方法研究[D].重庆:重庆大学,2006)、文 献8(孙国欣.基于主动学习的中文文本分类[D].兰州市:兰州大学,2006)中将SVM主动 学习应用于文本分类中,减少了标记样本的工作量,同时又保证了分类精度;文献9(赵悦, 穆志纯,董洁等.基于QBC主动学习方法建立电信客户信用风险等级评估模型[J].北京科 技大学学报,2007, 29(4) :442-445)、文献10 (梁爽,孙正兴.面向草图检索的小样本增量有 偏学习算法[刀.软件学报,2009,20(5):1301-1312)、文献11(周顺先,林亚平,王耀南.基 于主动学习隐马尔可夫模型的文本信息抽取[J].湖南大学学报,2007, 34(6) :74-77)给出 了SVM主动学习在图像检索、文本信息抽取、风险评估等方面的应用。
[0008] SVM主动学习综合了SVM算法优越性和主动学习的思想,所以对SVM主动学习的研 究同时涵盖了SVM和主动学习的内容。SVM主动学习直接提出的课题是如何构建较好的主 动学习样本选择策略,并将其与SVM增量学习、集成学习、多类分类、以及半监督学习学习 结合起来,通过将主动学习策略应用于SVM训练学习,以减少SVM训练学习中的标记样本集 规模,从而降低学习代价,期望以尽可能少的标记样本训练获得性能尽可能高的SVM分类 器。
[0009] SVM主动学习在不同分类问题中的应用会带来更广泛的研究内容,由于SVM主 动学习是个循环往复的过程,所以需要考虑主动学习何时停止学习,即主动学习终止策 略。这样一方面,可以减少样本选择的执行时间,避免标记了更多的样本,即浪费大量的 样本标记劳动力而学习器的性能却没有明显提升的保证,另一方面可以减少所标记的"无 用"样本加入训练后对学习器训练的负面影响,从而保证主动学习终止后,在所选择并标 记的样本集上进行训练能获得相对最佳的学习效果。如文献12(CohnDA,Ghahramani Z,JordanMI.Activelearningwithstatisticalmodels[J].JournalofArtificial IntelligenceResearch, 1996, 4(1/6) : 129-145)采用期望错误率小于某个阈值停止主 动学习的策略;文献13 (李洋,方滨兴,郭莉等.基于主动学习和TCM-KNN方法的有指导 入侵检测技术[J].计算机学报,2007,30(8) :1464-1472)采用最小均方预测误差(Mean SquaredpredictionError,MSE)小于某个阈值主动学习终止策略;文献14(Andreas Vlachos.Astoppingcriterionforactivelearning[J]?ComputerSpeechand Language,2008, 22:295-312)、文献15(交互支持向量机学习算法及其应用[J].卢增祥,李 衍达.清华大学学报自然科学版,1999,39(7) :93-97)亦对主动学习的终止策略进行探讨, 但具体如何将主动学习终止策略与SVM结合以及提出适合于SVM的主动学习终止策略还得 进一步研究。
[0010] 减少学习中标记样本数据量的另一种方法就是半监督学习(Semi-Supervised Learning,SSL),其出发点也是因为标记训练样本通常费时费力、成本较高,而未标记的样 本则相对容易获得,且未标记数据也包含了所要学习的目标函数的有关信息,如能有效地 利用未标记样本无疑将在一定程度上提高学习算法的性能。
[0011] 主动学习和半监督学习这两种机器学习领域中的方法,通过不同角度减少了学习 中标记样本量而降低了学习的代价。那么将半监督学习与主动学习结合起来,发挥二者各 自的优势,无疑将能极大的减少训练样本的标记代价,以尽可能少的标记样本训练获得性 能尽可能高的学习器,从而提高主动学习的性能。
[0012] 半监督学习(semi-supervisedlearning)是模式识别和机器学习中的重要研究 领域。半监督学习研究主要关注当训练数据的部分信息缺失,即数据的类别标记缺失或 者存在噪声、数据的部分特征缺失等情况下如何利用未标记的数据修正(modify)或重排 (reprioritize)从标记数据训练得到的假设(hypotheses)以获得具有良好性能和推广能 力的学习器。从样本的角度而言,半监督学习方法是利用少量标记的样本和大量未标记的 样本进行学习,从主动学习角度而言,半监督学习是减小标记样本规模,即减少训练学习中 样本标记代价的另一个方法。
[0013] 半监督学习通过标记数据和大量非标记数据辅助监督学习过程来改进分类器的 性能,其出色的性能使其成为机器学习领域中一个新的研究热点,学者们对其进行了大量 的研究,代表性的算法包括361;1!'-1'以;[11;[1^、£11、基于(]〇-1:以;[11;[1^设定下的(]〇-1:以;[11;[1^和 Co-EM、Co-Testing以及Co-EMT等。许多学者亦对经典的半监督学习算法做了拓展研究, 如确定性退火HV[算(DeterministicAnnealingEMalgorithm,DAEM)、分裂融合EM算法 (SplitandMergeEM,SMEM)等,这些拓展算法修改EM算法,使其能够尽量收敛到合理的 局部极值或使其在理论上能够收敛到全局最优值。如利用可逆的可跳转的MarkovMonte Carlo链采用基于随机采样的机制搜索全局最优;基于最小信息长度(MinimumMessage Length,MML)算法以及基于竞争机制的EM算法,对模型复杂度加入约束以使EM算法能够 自动选择有限混合模型的成分的数量,同时使其收敛到合理的局部极值。
[0014] SVM半监督学习算法就是半监督学习和SVM结合起来,在SVM训练学习过程中应用 半监督学习方法,利用大量未标记样本或者存在噪音、信息不完整的样本所包含的有用信 息来辅助SVM训练,提高分类正确率同时减小标记样本的规模。Bennett等人1998年就提 出了半监督SVM(semi-supervisedSupportVectorMachine,S3VM),利用半监督学习方法 辅助SVM训练以利用大量未标记样本所包含的有利于分类器的信息。但是S3VM训练学习 中随着未标记样本数目的增加,计算量迅速增加。为了解决计算量的问题,GlennFung等 人提出了VS3VM(concavesemi-supervisedSupportVectorMachine),将原来的非线性规 划寻优问题转化为线性规划的迭代寻优问题以减少计算代价,使得S3VM可以处理未标记 数据规模较大的问题。
[0015] 对主动学习与半监督学习各自优异性能,如何将二者有效结合起来,学者们也进 行了一些研究。如McCallum等将QBC方法进行改进以结合EM算法实现文本分类;文献 16 (IonMuslea,StevenMinton,CraigA.Knoblock.Active+Semi-SupervisedLearning =RobustMulti-ViewLearning[A].ProceedingsoftheNineteenthInternational ConferenceonMachineLearning[C]. 2002. 435-442)则扩展 了这种方法,提出将 Co-EM算法和主动学习相结合,提出类似QBC的Co-Testing算法即Co-EMT算法;文献 17 (G.Riccardi,D.Hakkani-Tftr.ActiveandUnsupervisedLearningforAutomatic SpeechRecognition[A].InProceedingsoftheEuropeanConferenceonSpeech CommunicationandTechnology(EUROSPEECH)[C] ?Geneva, 2003)和文献 18(Gokhan Tur,DilekHakkani-Tfir,RobertE.Schapire.CombiningActiveandSemi-supervised LearningforSpokenLanguageUnderstanding[J].SpeechCommunication, 2005, 45 ( 2) : 171-186)把基于不确定性的主动学习和半监督学习相结合并分别应用在语音识别和 电话类型分类;文献19(倪心强.SAR图像分类与自动目标识别技术研究[D].北京:中 国科学院研究生院,2007)中将基于池的主动学习与半监督学习相融合,提出了一种基 于半监督学习和主动学习融合的SAR图像地物分类方法;文献20(IonMuslea,Steven Minton,CraigA.Knoblock.Active+Semi-SupervisedLearning=RobustMulti-View Learning[A].ProceedingsoftheNineteenthInternationalConferenceonMachine Learning[C]. 2002. 435-442)和文献21 (徐杰,施鹏飞.图像检索中基于标记与未标记样 本的主动学习算法[J].上海交通大学学报,2004, 38(12) :2068-2072)提出了基于委员会 投票选择的主动学习方法和EM算法相融合的SVM学习算法;文献22 (赵悦,穆志纯,李霞丽 等.一种基于EM和分类损失的半监督主动DBN学习算法[J].小型微型计算机系统,2007, 28(4) :656-660)中提出了一种基于分类损失的主动学习方法与EM算法相结合的DBN分类 器,该算法能够在少量的迭代次数后快速而准确得到DBN分类模型。
[0016] 半监督学习和主动学习方法从两个不同的角度减轻标记样本的代价,将二者结合 以利用二者互补性进一步降低学习代价,虽然达到了预期的目的,但是由于半监督学习及 主动学习各自还有很多方法,以及针对不同数据集和实际应用,如何将半监督学习及主动 学习有效整合与集成还值得进一步研究。
[0017] 半监督学习和主动学习两种方法,分别从不同的角度减少了学习中标记样本量而 降低了学习的代价,实验及各种实际应用证明将两种方法分别应用于SVM训练中,相比经 典的SVM其性能得到了很大的提高。那么如将半监督学习与主动学习两种方法结合起来应 用于SVM,在SVM训练学习中发挥二者各自的优势,无疑将能很大提高SVM分类器的泛化推 广能力,并且能极大的减少训练样本的标记代价。
[0018] 目前将半监督学习和主动学习结合起来以及将二者结合起来应用于SVM的研究 还比较少。已有的探索性研究如McCallum等人将QBC方法进行改进以结合EM算法实现文 本分类,即在学习的每轮迭代过程中,首先利用基于委员会的主动学习方法选择"最有利" 的样本要求手工标记,然后在新的训练集上运行EM算法直到收敛。这样一方面,主动学习 可以给EM算法提供一个较好的起始点(StartingPoint),而不是随机选择的一个起始点, 有助于EM算法收敛到更好的局部最优点;另一方面,运行EM算法能提高当前学习器的性 能,有助于主动学习方法更有效地选择"最富有信息"的样本进行手工标记;Muslea等人则 拓展了文献 23(McCallumAK,NigamK.EmployingEMandpool-basedactivelearning fortextclassification[A].Proceedingofthe15thInternationalConferenceon MachineLearning[C].USA:MorganKaufmannPublishers,I"8.35O-358)的方法,将 Co-EM算法和主动学习相结合,提出了类似QBC的Co-Testing算法,称为Co-EMT算法。在 该算法中,主动学习和半监督学习都利用了"多视角"(multi-view)性质:(1)对于主动学 习,利用"多视角"(即把特征划分为几类)训练多个学习器,这样可以利用基于委员会的策 略来选择信息量较大的样本进行手工标记;(2)对于半监督学习,可以将基于不同特征的 学习器进行Co-EM训练,提高各个学习器的性能。
[0019] 主动学习与半监督学习相结合优异性能的表现,在实际应用中也得到了验证。如 将基于委员会投票选择的主动学习方法和EM算法相融合的SVM学习算法、将基于不确定性 的主动学习和半监督学习相结合分别应用在语音识别和电话类型分类、将半监督学习与主 动学习相融合应用于SAR图像分类、将基于不确定性的主动学习和半监督自我训练方法结 合应用于口语理解等。这些将两种学习方法融合应用于实际学习问题相比单一地应用于半 监督或主动学习方法其性能得到了极大的提高,都是因为主动学习和半监督学习相结合正 好可以利用两者的优点:
[0020] 其一,主动学习通常会抑制容易分类或者说被充分代表(wellrepresented)的数 据,会造成训练数据和测试数据的分布不一致。而相反,半监督学习则选择置信度高于某个 阈值的样本,通过分类器对其中的未标记样本自动标记,其选择标记的样本多数为容易分 类或者说被充分代表(wellrepresented)的数据。因此,两者的结合有助于缓解数据不平 衡的问题。
[0021] 其二,半监督学习的性能通常受初始标记数据集的影响比较大。比如,如果初始的 标记样本中某一类别的样本很少甚至没有,则与该类样本相关的模型参数将得不到充分地 训练。已有的半监督学习方法对于这种情况,很难改进其分类性能。而主动学习方法则可 能会选择该类型的样本,在手工正确标记后将其加入训练样本集。因此主动学习和半监督 学习的相结合可以修正初始标记数据不佳的情况。
[0022] 然而,现有技术也存在一定的缺点:
[0023] 1、现有SVM算法及已有的目标识别算法如神经网络法、模糊聚类分析法等都是在 假设训练样本数目足够多的前提下进行研究的,现代攻防对抗环境复杂,训练样本获取的 代价非常大。
[0024] 2、SVM主动学习在不同分类问题中的应用会带来更广泛的研究内容,由于SVM主 动学习是个循环往复的过程,所以需要考虑主动学习何时停止学习即主动学习终止策略。 这样一方面,可以减少样本选择的执行时间,避免标记了更多的样本,即浪费大量的样本标 记劳动力而学习器的性能却没有明显提升的保证,另一方面可以减少所标记的"无用"样本 加入训练后对学习器训练的负面影响,从而保证主动学习终止后,在所选择并标记的样本 集上进行训练能获得相对最佳的学习效果。如文献12采用期望错误率小于某个阈值停止 主动学习的策略;文献13采用最小均方预测误差(MeanSquaredpredictionError,MSE) 小于某个阈值主动学习终止策略;文献14和文献15亦对主动学习的终止策略进行探讨,但 具体如何将主动学习终止策略与SVM结合以及提出适合于SVM的主动学习终止策略还得进 一步研究。
[0025] 通过对已有研究结果分析可知,目前要在有限的标记样本集中进行SVM主动学 习,仍然存在大量问题有待解决,例如,如何将主动学习与SVM有效结合起来,以及如何将 SVM主动学习与SVM半监督学习结合起来充分利用二者的优点,都是需要进一步深入研究 的问题。
[0026] 主动学习在减小标记样本规模,即减少学习中样本标记代价方面具有出色的性 能,国内外学者对主动学习及其已有的方法做了大量的拓展研究,但现有的主动学习方法 还存在如下问题:
[0027] 1、计算量较大。如基于误差减少的主动学习方法,其在选择样本之前需要搜索整 个样本空间,对于大数据量的未带类标记样本集,这种样本选择策略直接计算加入样本后 分类器在测试数据集上的分类误差,其计算的复杂度相当高,实际并不可行;
[0028] 2、对于标签噪声以及数据分布不均衡等情况敏感,易采样到重复的、相似的、无意 义的样本。如基于不确定性采样的主动学习有可能采样到孤立点,并且对信息量大的样本 和异常的样本难以区分;
[0029] 3、误差传播影响。即在主动学习初始阶段训练的学习器如不准确,则主动学习过 程中选择的样本可能并非是对学习器训练"最有利"的样本,这样将影响主动学习的性能;
[0030] 4、主动学习不具备增量学习能力。主动学习是一个循环反复的过程,每次加入新 的样本都要重新训练分类器,而一般的主动学习方法不具备增量学习能力,而且主动学习 面临的一个问题是,重复的迭代运算带来很高的时间复杂度和空间复杂度;
[0031] 5、主动学习中存在对采样的样本需要较多的人工参与反馈问题。这可以通过提高 学习器进一步利用未标记样本的能力,降低学习的样本标记代价;
[0032] 6、经典的主动学习一般采用单一的主动学习策略,而没有将多种主动学习策略有 效地融合起来,以避免单一的主动学习方法在实际应用中可能存在对噪声或野点敏感、受 误差传播影响等问题。
[0033] 通过上述讨论分析可知,半监督学习方法与主动学习方法相结合应用于SVM训 练,其学习器性能都得到了一定的提高。然而现有的这些方法都存在一定的局限性。如 文献 23 和文献 24(BlumA,MitchellT.Combininglabeledandunlabeleddatawith co-training[A].InProceedingsoftheIlthAnnualConferenceonComputational LearningTheory[C].Madison,Wisconsin:MI, 1998. 92-100)中基于委员会的主动学习和 Co-EM半监督学习方法结合的方法以及Co-EMSVM算法,这些方法存在以下问题:
[0034] 其一,基于不确定性抽样或基于委员会投票选择的主动学习方法存在易于选择奇 异点样本--这些样本有较高的不确定性,奇异点样本的加入会使得分类器的分类误差加 大而产生误差传播的问题;
[0035] 其二,Co-EM算法只是从技术角度考虑,将一个视图上获得的概率标签应用于另一 个视图上分类器的设计,其合理性还仅仅是一种假设,从根本上说Co-EM只是在各个视图 中应用了EM,而从整体而言,并不符合EM框架,算法整体收敛性没有理论的保证,并且基于 基于Co-training设定的Co-training方法和Co-EM方法需要各个视图满足相容和不相关 两个条件,即将训练样本集的特征集自然分割成两个可以充分构造分类器的子集合,且要 求它们之间在给定的类别下相互条件独立。虽然相关文献也讨论了视图的划分方法,如以 独立性为前提的局部特征集分割方法、属性集充分大条件下的分割法以及基于I-DNF的视 图划分等,然而在大多数实际应用中这两个条件很难满足,甚至不可能给出特征集的自然 分割。


【发明内容】

[0036] 为克服特征样本数目有限、获取困难等对目标识别的不利因素,本发明的目的在 于提供一种高效的SVM主动半监督学习算法,将半监督学习与主动学习结合起来,发挥二 者各自的优势,通过不同角度减少学习中标记样本量而降低学习的代价,以尽可能少的标 记样本训练获得性能尽可能高的学习器,从而提高主动学习的性能。
[0037] 为了实现上述目标,本发明采用如下的技术方案:
[0038] 一种高效的SVM主动半监督学习算法,其特征在于,包括以下步骤:
[0039](一)、在已标记训练样本集L上训练初始的SVM分类器/1;
[0040](二)、判断初始的SVM分类器/1是否满足学习终止条件\_,若满足,则结束SVM训练学习;若不满足,则转到步骤(三);
[0041] (三)、使用初始的SVM分类器/1对未标记样本U进行预测标注;
[0042] (四)、对未标记样本U中预测标注置信度大于阈值的样本进行基于Tri-training 的半监督学习,并将半监督学习所选择的样本加入已标记训练样本集L;
[0043] 对未标记样本U中预测标注置信度小于阈值的样本进行基于QBC的主动学习,并 将主动学习所选择的样本加入已标记训练样本集L;
[0044] (五)、在更新的已标记训练样本集L上训练SVM分类器/1;
[0045](六)、重复步骤(二),直至训练的SVM分类器/1满足主动学习的终止条件Sstop。
[0046] 前述的高效的SVM主动半监督学习算法,其特征在于,在步骤(一)中,在训练学 习的初始阶段,训练初始的SVM分类器/1采用如下的加权SVM:
[0047] SVM分类器fsvm原始最优化问题为:
[0048]

【权利要求】
1. 一种高效的SVM主动半监督学习算法,其特征在于,包括以下步骤: (一) 、在已标记训练样本集L上训练初始的SVM分类器/1 5 (二) 、判断初始的SVM分类器/1是否满足学习终止条件Sstop,若满足,则结束SVM训 练学习;若不满足,则转到步骤(三); (三) 、使用初始的SVM分类器/1对未标记样本U进行预测标注; (四) 、对未标记样本U中预测标注置信度大于阈值的样本进行基于Tri-training的 半监督学习,并将半监督学习所选择的样本加入已标记训练样本集L; 对未标记样本U中预测标注置信度小于阈值的样本进行基于QBC的主动学习,并将主 动学习所选择的样本加入已标记训练样本集L; (五) 、在更新的已标记训练样本集L上训练SVM分类器/:L; (六) 、重复步骤(二),直至训练的SVM分类器/i满足主动学习的终止条件Ss_。
2. 根据权利要求1所述的高效的SVM主动半监督学习算法,其特征在于,在步骤(一) 中,在训练学习的初始阶段,训练初始的SVM分类器/1采用如下的加权SVM: SVM分类器fsvm原始最优化问题为:
式中,Si表示对不同样本的权重,λi为类yi的权重; SVM分类器f_对偶问题为:
SVM分类器fsvm分类决策函数为:
确定加权SVM的权重系数采取如下方法: 2a、在SVM主动学习训练的初始阶段,每个样本的权重参数Si都相同,取Si = 1/n,构 造初始分类器./1; 2b、在初始分类器_/!的基础上,随着SVM主动学习过程的进行,进行第k(k= 1,2,…) 次采样,对候选样本集U使用,分类器,从候选样本集中根据d=¥0选择距离超平面 J.L!IHI 最近的m个样本作为增量样本;标记后加入到训练集中,并对新的训练集使用分类 器,寻找此时分类间隔中的正负例样本,令分类间隔中的样本的权重参数大于分类间隔外 的样本的权重参数,正负例样本的类别权重参数与分类间隔中的正负例样本数成反比,然 后进行SVM主动学习进程,并训练./!。
3. 根据权利要求2所述的高效的SVM主动半监督学习算法,其特征在于,在步骤(一) 中,随着学习的进程,循环递推学习中的SVM分类器/i采用如下的加权SVM: SVM分类器/么原始最优化问题为:
其中,Spc;表不对不同样本的权重,λi为类的权重,Cs表不半监督学习所选择的未标 记样本对分类器训练的贡献,鳥为半监督学习中学习器对样本.< 的预测标记; SVM分类器/1对偶问题为:
求解上述最优化问题,得到:
SVM分类器义1分类决策函数为:g(x) =sign(f(X))式(13) Si、<的确定采用如下方法: 3a、假设三个SVM基分类器对某个样本Xi的类概率分别为Psvml(yIXi)、Psvm2(yIXi)、Psvm3(yIXi),则样本的权重预设为三个类概率中最大值与最小值的差: max{PsvmJ(y|Xi)}-min{PsvmJ(y|Xi)}(j= 1, 2, 3)式(14) 3b、对所有样本的权重进行归一化处理。
4. 根据权利要求1所述的高效的SVM主动半监督学习算法,其特征在于,在步骤(四) 中,未标记样本U的预测标注置信度采用下式确定:
5. 根据权利要求4所述的高效的SVM主动半监督学习算法,其特征在于,在步骤(四) 中,对样本进行基于Tri-training的半监督学习的过程如下: 5a、对已标记样本集进行可重复采样,训练获得三个有标记训练集; 5b、在每个有标记训练集上产生一个分类器; 5c、在未标记样本集中,选择与标记样本集相似性低、无重复的未标记样本记为sp,使 用5a步骤所训练的三个分类器中的两个分类器对样本Sp进行分类预测,如果这两个分类 器对样本Sp预测标记相同,并且此样本与第三个分类器中的标记训练样本集有较高的相似 度,则将该未标记样本Sp使用预测标记进行标记,同时将标记后的样本Sp加入第三个分类 器的标记训练样本集,形成第三个分类器的新的标记训练样本集。 5d、对三个分类器重新进行训练,如此反复迭代,直到三个分类器都不再变化。
6. 根据权利要求5所述的高效的SVM主动半监督学习算法,其特征在于,在步骤5c中, 选择未标记样本的过程为: ① 假设有两个样本Xi和\,经过非线性映射Φ,映射到某一特征空间H后对应的坐标 为Φ(Xi)和Φ(xp,则采用余弦函数来度量Xi与&之间的相似性,如下式:
式中,K( ·,·)是SVM核函数,Uxi,Xj)定义样本Xi与Xj的相似差异性, 定义主动学习中候选样本Xi与当前训练样本集L的差异性度量如下式:
式中,η表示样本集L的样本数; ② 设定一阈值Tdth, 0. 5彡Tdth;^ 1,如果Uxi,L)>Tdth,贝U判定样本Xi属于相应的类, 选定候选未标记样本Xi。
7. 根据权利要求5所述的高效的SVM主动半监督学习算法,其特征在于,在步骤5d中, 对三个分类器重新进行训练的过程为: ① 由初始标记样本集合L训练得到三个不同的初始分类器hph2以及h3 ; ② 使用三个分类器中的两个分类器如h2、h3对无标记样本集合U中的样本x进行分类, 分类结果h2 (X)和h3 (X)如果一致,那么将X标记为h2 (X),并将X加入到Ill的训练集,从而 形成Ii1 的新训练集S'i=LU{x|xeUΛh2(x) =h3(x)}; ③ 对h2和h3的训练样本集采用步骤②中的方法分别进行扩充; ④ 在新的训练样本集上对三个分类器4、h2以及h3进行SVM训练。
8. 根据权利要求5所述的高效的SVM主动半监督学习算法,其特征在于,在步骤(四) 中,对样本进行基于QBC的主动学习的过程为: 8a、执行步骤5a至5d,将训练得到的三个加权SVM分类器作为QBC学习训练中的SVM分类器,组成分类委员会; 8b、利用上述SVM分类委员会对预测样本进行标记投票,选择投票最不一致的样本作 为候选样本进行标记; 8c、对未标记样本集U预标记后,使用式(15)预选择分类置信度小于阈值Qth的部分 样本,0.5SQth <0.65,将这些样本作为QBC训练学习中的未标记样本,所述式(15)中的 f(Xi)使用三个基分类器的集成输出:/(?XA, (Λ-Χ% (I,) +?沐(X,),其中CT,1为三个分 类器在t轮迭代学习中对应的权重,-采用AdaBoost算法中权值的计算方法获得; 8d、在通过QBC方法选择候选样本时,首先选择投票熵VE大于阈值VEth的样本, 0. 5彡VEth彡1 ;而对选择投票熵VE小于阈值VEth或等于0的样本,则计算该样本相对熵 KL-d和已标记样本的相似度d_ (Xi,L),若相对熵大于给定的阈值KL-dth并且dras (Xi,L)小 于阈值Qdth,0 <Qdth < 0. 5,则将该样本加入候选样本集。
【文档编号】G06K9/62GK104318242SQ201410523303
【公开日】2015年1月28日 申请日期:2014年10月8日 优先权日:2014年10月8日
【发明者】徐海龙, 别晓峰, 龙光正, 冯卉, 吴天爱, 白东颖, 郭蓬松, 史向峰, 田野, 高歆 申请人:中国人民解放军空军工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1