基于支持向量机正则化路径的广义近似交叉验证方法

文档序号:6601931阅读:182来源:国知局

专利名称::基于支持向量机正则化路径的广义近似交叉验证方法
技术领域
:本发明涉及基于正则化路径的支持向量机模型选择,特别是应用广义近似交叉验证方法实现。
背景技术
:支持向量机(SVM)及其正则化路径支持向量机(supportvectormachine,SVM)是借助于最优化方法解决机器学习问题的新工具。它由Vapnik及其合作者发明,在1992年计算机学习理论的会议上介绍进入机器学习领域,之后受到了广泛的关注。近年来在其理论研究和算法实现方面都取得了突破性进展,并成为克服“维数灾难”和“过学习”等传统困难的有力手段。SVM的理论体系涵盖的对象极为广泛,如对偶表示、特征空间、学习理论、优化理论和算法等。SVM在文本分类、手写识别、图像分类、生物信息学等领域中获得了比较好的应用。对于2-分类支持向量机正则化模型,TrevorHastie及其学生在2004年发表的文章中给出了求解完整路径的方法,得出惩罚参数C的所有可能值,整个计算过程只需花费求解单个SVM模型的时间。1)支持向量机线性模型定义12-分类线性支持向量机正则化模型如下<formula>formulaseeoriginaldocumentpage5</formula><formula>formulaseeoriginaldocumentpage5</formula>建立拉格朗日原函数<formula>formulaseeoriginaldocumentpage5</formula>令各偏导数为零,得到<formula>formulaseeoriginaldocumentpage5</formula><formula>formulaseeoriginaldocumentpage5</formula><formula>formulaseeoriginaldocumentpage5</formula>(5)加上KKT条件,(l-yif(Xi)-ξj)=0,(6)YiIi=O.(7)由上可知0≤ai≤1。iliX)时,Cii=I,Yif(Xi)<1;当yif(Xi)>1,ξi=0时,αi=ο;当yif(Xi)=1时,αi落于O与1之间。记1+为属于yi=+l类的训练点,记n+=|1+|,即1+中训练点数目的总和。类似的可以定义I-和n_。下面讨论的算法在下列集合间来回切换。E={i:yif(Xi)=1,0^、<1},Ε表示拐点,L={i:yif(Xi)<1,αi=1},L表示拐点的左边,R={i:yif(Xi)>1,αi=0},R表示拐点的右边。2)支持向量机核函数模型对于一般的核情形,其f(x)=h+gOO,相对于(3)式,唯一的变化是<formula>formulaseeoriginaldocumentpage6</formula>η初始定义为形如z的表达式<formula>formulaseeoriginaldocumentpage6</formula>其中Cii*等于1。广义近似交叉验证(GACV)交叉验证方法主要用于建模应用中,在给定的建模样本中,拿出大部分样本用于建立模型,留小部分样本用刚建立的模型进行预报。交叉验证的目的是为了得到可靠稳定的模型。SVM算法一般采用K重交叉验证方法或留一法交叉验证方法,GACV是对交叉验证方法的近似模拟。定义2变分问题给定训练集{yi,tJ,其中属性向量tieT,Yi=士1取决于属性向量、属于分类A还是B。典型的SVM范型为从const+h中求解fA,其中heHkη<formula>formulaseeoriginaldocumentpage6</formula>(10)其中fi=f(ti),(τ)+=τ,τ>0;=0其它。若存在最小值,则称有解,对新的属性向量t,其决策规则为若fλ⑴>0,为A类;若fλ(t)<0,则为B类。设fA[i,χ]为变分问题的解,数据集为{y1;...,y^,χ,yi+1,...,yn}。由于没有要求χ=士1,因而/》+,·^](ΟΛ。为简化记号,令/Jz+,x](()=/』,x]=/jx]。对于μ(f)有如下性质/Γ=/』',"Γ](ο。设"Γ=χ,则Λ-/Γ7-PKΞ~7-χ~~^―O^-MiO(yt~x)^y1(11)不论/f]与A在区间(-⑴,-ι),或[-ι,1],或[1,⑴],都有-Μ/Γ])=ΜΛ)。因此,(只-/Κ只-),.=1^^y1(12)对g(τ)=(1-τ)+qq-ψ-(y,-)=-2,yj^<-1=^yiIxie[-l,l]=0,>^>1<formula>formulaseeoriginaldocumentpage7</formula>固定λ,求解变分问题中的,得到α=αλ,^=C1=^1Ya1,令fλ为厶第土部分的列向量,则=KCZ+ed=2^IKYaA+。由此可记<formula>formulaseeoriginaldocumentpage7</formula>如果Κ(·,·)为径向基函数,则Il足=足(0,0)。在TrevorHastie等的工作中,他们仅给出了求解支持向量机正则化路径的方法,没有对各分类器进行预测性能的测试、分析和评价。而且限制数据特征为2维,脱离了实际的应用。已有的SVM模型选择算法中最常用的是K重交叉验证法和留一法交叉验证法,而很少使用其它验证方法,比如GACV方法;不论是K重交叉验证法还是留一法,都需要对数据进行反复的训练和测试,在取得较高精度的同时耗费了较多的时间。
发明内容本发明的目的在于克服现有技术的缺陷,提供一种基于支持向量机正则化路径的广义近似交叉验证方法,本发明采用的技术方案如下基于支持向量机正则化路径的广义近似交叉验证方法,包括下列步骤在定义的支持向量机正则化模型中,开始时赋给λ—个很大的值,让λ递减并趋向0。随着λ的减少,IIβII增加,间隔的宽度减小。随着间隔的变窄,训练点从间隔里移到间隔外。与这些训练点对应的CIi值从CIi=1(此时训练点在间隔中,yif(Xi)<1)变为、=0(当它们移出间隔,yif(Xi)>1)。由连续性,当Qi从1减至0时,训练点必会落到间隔(yif(Xi)=1)上。然后,在得到的正则化路径上应用GACV方法,选出GACV值最小的分类器。所述基于支持向量机正则化路径的广义近似交叉验证方法,进一步细化为第1步初始化(1)初始化情形1:n_=n+对起始时值很大的λ,有β=、β*,其中<formula>formulaseeoriginaldocumentpage7</formula>为满足式I:Σα^=0'需一或多个正类和负类训练点同时击中拐点,随着λ的减少,有<formula>formulaseeoriginaldocumentpage8</formula>(18)<formula>formulaseeoriginaldocumentpage8</formula>(19)β02-I-Ai对所有ie1_,(20)取(=argmax过+β*τX1,i—=argmin对β*τX1。可以得至Ij=,/(气)=1禾口/(xj=_1,得出求解初始输入点、和β^的方程,^X1-广XiAn=-^―-2(21)_/χη+广Xi、Po=-^~)βA-(22)(2)初始化情形2:η+>η_当β=0时,β。的最优值是1,损失为YiJ1=L,同样要求满足式惫Σ^=0'引理对于设{a;}=argmin|I/*()112(23)S.t.对ieΙ+αiG;对ie1_,αi=1,且Σ!ε/+%=η(24)则对某些λ。,有对所有λ>λ。,%=<,且β=β*/λ,β*=Yjn^y1Oi-X1,设β*为对应于α广的系数(17式)β*=∑a*y1x1(25)因此存在下列两种可能的情形存在两个或多个元素在1+中,使得0<;<!,或者<formula>formulaseeoriginaldocumentpage8</formula>对第一种情形。假设<e(0,1),设i=argminβ*τXi,则点i+将留在间隔中直到有I—中的点到达,由此λ=β*Txi-β*Txi/2这与(21)式是一致的,同样,βQ与式(22)—致;对第二种情形,易知来自1_中的点与1+中的点必须同时到达间隔,能得到类似的情形,只需换用记号i_(=argmaxi∈Iβ*TXi、,I+1表示1+中满足a=1的子集;第2步求解λ1,a1和f1.考虑下列事件1).初始化事件,2或多个训练点开始时处于拐点处,即它们对应的初值αe,2).训练点从L进入E中,初始值Cii为1,3).训练点从R进入E中,初始值αi为0,4).一或多个训练点跳出集合E,进入R或L中,无论出现哪种情况,出于连续性,集合在事件发生前保持稳定,若某点经过E,它对应的αi必定从0变成1或者从1变成0。E中的点满足yif(Xi)=1,因而能建立α,的路径,事件4)说明当L不空时E可能变为空。若L不空时E为空,则表明L中+Is与-Is平衡。下标1记录发生第1次事件后的集合,设IE1I=m,且令αΛβJ和X1为该点在输入时参数值,类似的f1表示在该点处的函数值。为方便起见,令<formula>formulaseeoriginaldocumentpage9</formula>因而<formula>formulaseeoriginaldocumentpage9</formula><formula>formulaseeoriginaldocumentpage9</formula>(27)若X1>λ>λ1+1,则<formula>formulaseeoriginaldocumentpage9</formula><formula>formulaseeoriginaldocumentpage9</formula>(28)之所以能推出第二行,是因SL1中观察值在λ的范围内满足Cii=1,而在札中αi=0,对这m个训练点,XieE1都处于拐点处,因而<formula>formulaseeoriginaldocumentpage9</formula>(29)记-,由(28)有<formula>formulaseeoriginaldocumentpage9</formula>(30)此外,由于Σ二yr^=0因而<formula>formulaseeoriginaldocumentpage9</formula>(31)等式(30)和(31)对m+1个未知δ」确定了m+l个方程,能求解;对于E1中的i和j,用mXm的矩阵K广表示训练点第ij次进入yiyjK(Xi,Xj),由(30)式有<formula>formulaseeoriginaldocumentpage9</formula>(32)其中yi表示输入为yi的m维向量,ieE1,由(31)式有<formula>formulaseeoriginaldocumentpage9</formula>(33)将两部分组合在一个矩阵里,<formula>formulaseeoriginaldocumentpage9</formula>且<formula>formulaseeoriginaldocumentpage10</formula>(34)则(32)式与(33)式可写为A1Sa=(A1-A)Ia,(35)若A1满秩,则可ba=Ar1Ia(36)因而<formula>formulaseeoriginaldocumentpage10</formula>(37)对于λ1+1<λ<λi,拐点处的α」与λ满足线性关系,由(27)式,<formula>formulaseeoriginaldocumentpage10</formula>(38)苴中<formula>formulaseeoriginaldocumentpage10</formula>若A1不满秩,则解路径上的某些αi值不唯一;第3步求解λ1+1并更新在下面的某个事件发生前,路径将停留在(37)_(38)1)·αi达到边界值(0或1),ieE1,2).L1或R1中的训练点达到yif(Xi)=1,从(38)式知对点i,有<formula>formulaseeoriginaldocumentpage10</formula>(40)为检验这些条件,找出最大的λ<X1,当事件发生时,确立新的λ1+1值并更新集合;第4步终止,在可分的情形下,当L变为空时终止,此时,(17)式中的1全为零;在不可分的情况下,λ取遍所有的可能值并最后变为零;第5步根据
背景技术
2中的结论,计算分类器中GACV值,取最小值者作为最优分类器,前面各式中,X输入训练点y训练点对应的类别ξ表示松弛变量λ正则项系数β表示正则项βο:正则项初始值、,Yi:拉格朗日乘子f:表示学习器A,B表示类别μ(f)对给定f的预测器。与
背景技术
相比,本发明具有的有益效果是对支持向量机正则化路径的各分类器进行了预测性能的测试、分析和评价,RP-GACV算法在保持较高预测精确率的情况下,减少了运行时间,降低了操作复杂度。图1:R软件及svmpath程序包的安装;图2在svmpath程序包中mixture,data数据集(见表1中示例)上的运行结果,用最优分类器画出分类图;图2(a)在经过处理后的kernlab程序包中spirals数据集(见表1(a)中示例)上的运行结果;图2(b)数据集为500组时的情形;图3:alpha关于lambda的正则化路径,数据集为mixture,data,函数参数为γ=1,λ=0.5;图3(a):alpha关于lambda的正则化路径,数据集为经过处理后spirals,函数参数为γ=1,λ=10e-4;图3(b):alpha关于lambda的正则化路径,数据集为经过处理后spirals,函数参数为Y=1,λ=0.5;图3(c):alpha关于lambda的正则化路径,数据集为经过处理后spirals和mixture,data的组合,函数参数为γ=1,λ=0.5。具体实施例方式本发明是基于正则化路径的支持向量机模型选择,它通过在支持向量机2-分类模型的正则化路径上引入广义近似交叉验证(GeneralizedApproximateCrossValidation,GACV)方法,在较低的计算复杂度和较短的操作时间内选出预测能力强的分类器。首先,计算支持向量机2-分类模型的正则化路径;然后在此基础上应用广义近似交叉验证方法,并与十折交叉验证方法做验证误差和运行时间的比较。本发明应用于R软件平台,并要求系统安装svmpath软件包。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。在现实生活中,我们每天都要面对海量的数据,从中提取出对我们有利的信息有着重要的现实意义。数据挖掘就是这样一种方法,支持向量机作为数据挖掘的新技术,有着广泛的理论基础和应用价值。本发明主要有两个模块关于交叉验证的模块和GACV模块。对于交叉验证模块,在给定数据集上,可以实现一、求解模型的正则化路径,得出路径上的所有分类器;二、在各分类器上使用交叉验证方法,求解训练误差和预测误差,选出预测误差最小的分类器;三、对新训练点进行分类预测。对于GACV模块,功能与交叉验证模块类似,只是使用GACV方法代替了上面模块中的交叉验证方法。本发明采用的技术方案是RP-GACV算法算法的基本思想如下在上面定义的支持向量机正则化模型中,开始时赋给λ—个很大的值,让λ递减并趋向0。随着λ的减少,IIβII增加,间隔的宽度减小。随着间隔的变窄,训练点从间隔里移到间隔外。与这些训练点对应的CIi值从CIi=1(此时训练点在间隔中,yif(Xi)<1)变为、=0(当它们移出间隔,yif(Xi)>1)。由连续性,当Qi从1减至0时,训练点必会落到间隔(yif(Xi)=1)上。然后,在得到的正则化路径上应用GACV方法,选出GACV值最小的分类器。算法具体步骤如下第1步初始化(1)初始化情形1:n_=n+对起始时值很大的λ,有β=、,其中<formula>formulaseeoriginaldocumentpage12</formula>为满足(4)式,需一或多个正类和负类训练点同时击中拐点。因此随着λ的减少,有β*Τχ<formula>formulaseeoriginaldocumentpage12</formula>或<formula>formulaseeoriginaldocumentpage12</formula>对所有i∈l.(19)<formula>formulaseeoriginaldocumentpage12</formula>对所有i∈1_。(20)取<formula>formulaseeoriginaldocumentpage12</formula>可以得至<formula>formulaseeoriginaldocumentpage12</formula>。得出求解初始输入点λQ和βQ的方程,<formula>formulaseeoriginaldocumentpage12</formula><formula>formulaseeoriginaldocumentpage12</formula>(2)初始化情形2:η+>η_当β=0时,β。的最优值是1,损失为,同样要求满足⑷式。弓I理对于<formula>formulaseeoriginaldocumentpage12</formula>设S.t.对i∈Ι+αiG;对ie1_,αi=1,且Σ!ε/+%=η(24)则对某些<formula>formulaseeoriginaldocumentpage12</formula>,有对所有<formula>formulaseeoriginaldocumentpage12</formula>且<formula>formulaseeoriginaldocumentpage12</formula>设β*为对应于α广的系数(17式)<formula>formulaseeoriginaldocumentpage12</formula>因此存在下列两种可能的情形存在两个或多个元素在1+中,使得<formula>formulaseeoriginaldocumentpage12</formula>或者<formula>formulaseeoriginaldocumentpage12</formula>对第一种情形。假设<formula>formulaseeoriginaldocumentpage12</formula>。设<formula>formulaseeoriginaldocumentpage12</formula>,则点i+将留在间隔中直到有I-中的点到达,由此<formula>formulaseeoriginaldocumentpage13</formula>这与(21)式是一致的,同样,β。与式(22)—致。对第二种情形,易知来自1_中的点与1+中的点必须同时到达间隔。能得到类似的情形,只需换用记号(=ar§max!e/}矿、,I+1表示1+中满足<=1的子集。第2步求角军入”Ci1、禾口flt)考虑下列事件1).初始化事件,2或多个训练点开始时处于拐点处,即它们对应的初值αe。2).训练点从L进入E中,初始值Cii为1。3).训练点从R进入E中,初始值αi为0。4).一或多个训练点跳出集合E,进入R或L中。无论出现哪种情况,出于连续性,集合在事件发生前保持稳定,若某点经过E,它对应的αi必定从0变成1或者从1变成0。E中的点满足yif(Xi)=1,因而能建立α,的路径。事件4)说明当L不空时E可能变为空。若L不空时E为空,则表明L中+Is与-Is平衡。下标1记录发生第1次事件后的集合,设IE1I=m,且令αΛβJ和X1为该点在输入时参数值,类似的f1表示在该点处的函数值。为方便起见,令C^=λ^^,因而乂=々/^。<formula>formulaseeoriginaldocumentpage13</formula>若X1SXSXw,则<formula>formulaseeoriginaldocumentpage13</formula>之所以能推出第二行,是因为L1中观察值在λ的范围内满足Cii=1,而在R1中Qi=O0对这m个训练点,XieE1都处于拐点处,因而<formula>formulaseeoriginaldocumentpage13</formula>记,由(28)有<formula>formulaseeoriginaldocumentpage13</formula>此外,由于Σ二y^=0因而<formula>formulaseeoriginaldocumentpage13</formula>等式(30)和(31)对m+1个未知δj确定了m+l个方程,能求解。对于E1中的i和j,用mXm的矩阵K广表示训练点第ij次进入yiyjK(Xi,Xj),由(30)式有<formula>formulaseeoriginaldocumentpage14</formula>其中yi表示输入为yi的m维向量,ieE115由(31)式有yjs=0(33)将两部分组合在一个矩阵里,<formula>formulaseeoriginaldocumentpage14</formula>则(32)式与(33)式可写为A1Sa=(A1-A)Ia,(35)若、满秩,则可记ba=Ar1IaGe)因而(37)对于λ1+1<λ<X1,拐点处的α」与λ满足线性关系。由(27)式,<formula>formulaseeoriginaldocumentpage14</formula>(38)其中<formula>formulaseeoriginaldocumentpage14</formula>ye-B,若A1不满秩,则解路径上的某些αi值不唯一。第3步求解λ1+1并更新。在下面的某个事件发生前,路径将停留在(37)_(38)1)·αi达到边界值(0或1),ieE1152).L1或R1中的训练点达到yif(Xi)=1。从(38)式知对点i,有义=為-ll(、Iy1~h(x1)J(40)为检验这些条件,找出最大的λ<X1,当事件发生时,确立新的λ1+1值并更新集I=IO第4步终止。在可分的情形下,当L变为空时终止。此时,(17)式中的Ii全为零。在不可分的情况下,λ取遍所有的可能值并最后变为零。第5步根据
背景技术
2中的结论,计算分类器中GACV值,取最小值者作为最优分类器。RP-GACV算法的R语言伪码描述Data:X,YResult=GACVRP-GACV{if(length(+1)=length(-1))init<-Balanced.Init#数据初始化elseinit<-Unbalanced.InitIambdaO<_init$lambda#lambda0,alphaO禾口f(x)的初始化alphaO<-betaO*lambdaf(x)<-(K%*%(alpha[,l]*y)+init$alphaO)/lambdaO#K表示核函数k<-1while(lambda[k]>lambda,min){#循环,直到Elbow为空或lambda为0if(length(Elbow)==0){#lambda.min为给定值init<-Balanced.Initalpha0[k+l]<-init$alphaOf(χ)<-(lambda[k]/lambda[k+1])*(f(x)+(alphaO[k+1]-alphaO[k])/lambda[k])}else{g(x)<-K%*%(y[Elbow]*b)+bOd(χ)<-f(χ)-g(χ)lambda[k+l]<-lambda[k]alpha[,k+1]<-alpha[,k]f(χ)<-(lambda[k]/lambda[k+1])*(d(x))+g(x)k<-k+1}}trainerror<-coISums(y*f(x)<1)if(y*f(x)<-1)sun<-alpha/(2*n*lambda)elseif(y*f(x)in[-1,1])suk<-alpha/(2*n*lambda)gacv<-which,min(trainerror+2*sun+suk)/n#求出gacv值最小者}与
背景技术
相比,本发明具有的有益效果是对支持向量机正则化路径的各分类器进行了预测性能的测试、分析和评价,RP-GACV算法在保持较高预测精确率的情况下,减少了运行时间,降低了操作复杂度。表1fixture,data数据集示例,训练集中χ的特征都为2,y的取值为_1或1;表1(a)经过处理后spirals数据集示例,其它同上;表2交叉验证方法与GACV比较,其中,用Cross代表交叉验证方法,函数参数为Y=1,λ=10e-4;表2(a)交叉验证方法与GACV比较,其中,用Cross代表交叉验证方法,函数参数为γ=1,λ=0.5。下面结合附图和实施例进一步详细说明本发明。求解支持向量机完成正则化路径安装R软件和svmpath程序包,图1所示,准备要处理的数据,表1和表1(a)所示。表1规模为200组的数据集示例<table>tableseeoriginaldocumentpage16</column></row><table>表1(a)规模为300组的数据集示例<table>tableseeoriginaldocumentpage16</column></row><table>将数据集分成三个部分,比例为211,第一部分为训练数据,第二部分为测试数据,第三部分为验证数据。运行上面的RP-GACV算法。在训练数据上得到所有的alpha,lambda和分类器f(χ)的值,选择最优的分类器,在数据集mixture,data上画出图2,在经过处理后的数据集spirals上画出图2(a),在mixture,data和spirals的综合数据集上画出图2(b)。已经证明,alpha是关于lambda的分段线性函数,以lambda做横轴,alpha为纵轴,画出alpha关于lambda的折线图,得到图3,图3(a),图3(b)和图3(c)。GACV方法选择分类器GACV的基本思想是在训练过程中得出预测准确率高的分类器,即在上文介绍的第一部分数据上直接得出GACV值最小的分类器。交叉验证的方法是在训练数据上训练后,还需在测试数据上选出测试误差最小的分类器,并对数据集做多次划分,反复训练和测试。最后,对两种方法选出的分类器,在验证数据上做验证误差的比较,表2和表2(a)所示。表2γ=1,λ=10e-4<table>tableseeoriginaldocumentpage17</column></row><table>表2(a)γ=1,λ=0.5<table>tableseeoriginaldocumentpage18</column></row><table>由表2和表2(a)可知,与支持向量机十折交叉验证方法比,RP-GACV算法具有较高的效率。即RP-GACV是一种高效方便的近似交叉验证方法。在保证较高预测精确率的情况下,减少了运行时间和降低了操作复杂度。权利要求一种基于支持向量机正则化路径的广义近似交叉验证方法,其特征是,包括下列步骤在定义的支持向量机正则化模型中,开始时赋给λ一个很大的值,让λ递减并趋向0,随着λ的减少,||β||增加,间隔的宽度减小,随着间隔的变窄,训练点从间隔里移到间隔外,与这些训练点对应的αi值从αi=1,此时训练点在间隔中,yif(xi)<1,变为αi=0,当它们移出间隔,yif(xi)>1,由连续性,当αi从1减至0时,训练点必会落到间隔yif(xi)=1上,然后,在得到的正则化路径上应用GACV方法,选出GACV值最小的分类器。2.根据权利要求1所述的一种基于支持向量机正则化路径的广义近似交叉验证方法,其特征是,所述基于支持向量机正则化路径的广义近似交叉验证方法,进一步细化为第1步初始化(1)初始化情形1:n_=n+对起始时值很大的入,有,其中n,(17)n为满足式需一或多个正类和负类训练点同时击中拐点,随着入/=1的减少,有r*tx“、^或只+代(、V/^/(^)^1^(18)或代<i-f》对所有ie1+(19)AJ30>对所有iel_,(20)A取/+=argmax过+0"Tx%i_=argmin对0"Tx%,可以得到=a%,气)=i和/(xL)=-1,得出求解初始输入点、和^^的方程,/rXh-/rXl2P*Txi+P*Txi。j3Txi+-j3Txt(2)初始化情形2:n+>n_当3=o时,^的最优值是1,损失为同样要求满足式|Z19引理对于=Z二;^汽设{a:}=argmam||/r(a)l|29s.t.胃土GI+ajG;胃土GI_,a~n(24)则对某些xQ,有对所有\>、,%=<且日==Y,"=iy'a'x'设旦对应于a;的系数(17式)<formula>formulaseeoriginaldocumentpage3</formula>(25)因此存在下列两种可能的情形存在两个或多个元素在1+中,使得Q<*<!,或者<formula>formulaseeoriginaldocumentpage3</formula>对第一种情形,假设<e汐,1),<formula>formulaseeoriginaldocumentpage3</formula>,则点i+将留在间隔中直到有I-中的点到达,由此<formula>formulaseeoriginaldocumentpage3</formula>这与(21)式是一致的,同样,^与式(22)—致;对第二种情形,易知来自I-中的点与1+中的点必须同时到达间隔,能得到类似的情形,只需换用记号(=ar§max!e/}矿、,I+1表示1+中满足<=1的子集;第2步求解、、、和f1:考虑下列事件1).初始化事件,2或多个训练点开始时处于拐点处,即它们对应的初值aG,2).训练点从L进入E中,初始值、为1,3).训练点从R进入E中,初始值、为0,4).一或多个训练点跳出集合E,进入R或L中,无论出现哪种情况,出于连续性,集合在事件发生前保持稳定,若某点经过E,它对应的ai必定从0变成1或者从1变成0,E中的点满足yif(Xi)=1,因而能建立at的路径,事件4)说明当L不空时E可能变为空,若L不空时E为空,则表明L中+ls与-Is平衡,下标1记录发生第1次事件后的集合,设|Ej=m,且令cii1,和、为该点在输入时参数值,类似的f1表示在该点处的函数值,为方便起见,令入^^,因而乂义虎,<formula>formulaseeoriginaldocumentpage3</formula>若、>X>,则]GE‘(28)之所以能推出第二行,是因为b中观察值在入的范围内满足ai=l,而在&中、=0,对这m个训练点,x,GEx都处于拐点处,因而<formula>formulaseeoriginaldocumentpage3</formula>记,由(28)有<formula>formulaseeoriginaldocumentpage3</formula>(30)此外,由于∑yiai=0,因而<formula>formulaseeoriginaldocumentpage4</formula>(31)等式(30)和(31)对m+1个未知5j确定了m+l个方程,能求解;对于&中的i和j,用mXm的矩阵K广表示训练点第ij次进入yiyjK(Xi,Xj),由(30)式有<formula>formulaseeoriginaldocumentpage4</formula>其中h表示输入为yi的m维向量,iG&,由(31)式有yTi5=o将两部分组合在一个矩阵里,<formula>formulaseeoriginaldocumentpage4</formula>则(32)式与(33)式可写为Ax8a=(人f人)la,若、满秩,则可ba=Art因而=a\_(為-对于X1+1<X<^,拐点处的%与X满足线性关系,由(27)式,<formula>formulaseeoriginaldocumentpage4</formula>若&不满秩,则解路径上的某些ai值不唯一;第3步求解\1+1并更新在下面的某个事件发生前,路径将停留在(37)_(38)1).ai达到边界值(0或l),iGEx,之广!;或炉中的训练点达到yif(Xi)=1,从(38)式知对点i,有;<formula>formulaseeoriginaldocumentpage4</formula>(40)为检验这些条件,找出最大的\<Xi,当事件发生时,确立新的值并更新集合;第4步终止,在可分的情形下,当L变为空时终止,此时,(17)式中的I全为零;在不可分的情况下,X取遍所有的可能值并最后变为零;第5步根据
背景技术
2中的结论,计算分类器中GACV值,取最小值者作为最优分类器,前面各式中,X输入训练点y训练点对应的类别I表示松弛变量入正则项系数`3表示正则项0正则项初始值拉格朗日乘子f:表示学习器A,B表示类别y(f)对给定f的预测器。全文摘要本发明涉及基于正则化路径的支持向量机模型选择。为提供一种基于支持向量机正则化路径的广义近似交叉验证方法,本发明采用的技术方案如下基于支持向量机正则化路径的广义近似交叉验证方法,包括下列步骤在定义的支持向量机正则化模型中,开始时赋给λ一个很大的值,让λ递减并趋向0。随着λ的减少,||β||增加,间隔的宽度减小。随着间隔的变窄,训练点从间隔里移到间隔外。与这些训练点对应的αi值从αi=1(此时训练点在间隔中,yif(xi)<1)变为αi=0(当它们移出间隔,yif(xi)>1)。由连续性,当αi从1减至0时,训练点必会落到间隔(yif(xi)=1)上。然后,在得到的正则化路径上应用GACV方法,选出GACV值最小的分类器。本发明主要应用于机器学习场合。文档编号G06N99/00GK101833693SQ201010165610公开日2010年9月15日申请日期2010年5月7日优先权日2010年5月7日发明者廖士中,王梅,赵志辉申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1