一种模糊支持向量机隶属度函数的获取方法与流程

文档序号:12748492阅读:629来源:国知局
本发明属于信息
技术领域
,涉及一种隶属度函数,特别是一种模糊支持向量机隶属度函数的获取方法。
背景技术
:支持向量机(supportvectormachine,简称SVM)是一种分类器,与传统分类器相比,它具有更好的泛化能力,是当前最热门的机器学习算法之一,已在模式识别中得到了广泛的应用。尽管支持向量机方法具有较好的推广能力,但由于在构造最优分类面时所有的样本具有相同的作用,因此,当训练样本中含有噪声或野值样本时,这些含有“异常”信息的样本在特征空间中常常位于分类面附近,导致获得的分类面不是真正的最优分类面。针对这种情况,研究人员提出了模糊支持向量机方法(FSVM)。将模糊技术应用于支持向量机中,在采用模糊技术处理时,隶属度函数的设计是整个模糊算法的关键,这要求隶属度函数必须能够客观、准确地反映系统中样本存在的不确定性。同时,在构造隶属度函数的研究中还存在以下问题:构造隶属度函数的方法很多,但还没有一个可遵循的一般性准则;在传统方法中,常常将“支持向量”与“噪声点”同等对待来处理。然而,这两种样本点都是接近分类面的,无法区分,所以传统的消除“噪声点”的隶属度获取方法,在降低“噪声点”影响的同时也消除了“支持向量”在分类器中的作用,从而降低了分类器分类效果。由于存在上述的问题,对于本领域内的技术人员,还有待研发出一种能够有效的区分“支持向量”和“噪声点”,并对它们进行不同的隶属度计算的模糊支持向量机隶属度函数的获取方法。技术实现要素:本发明的目的是针对现有的技术存在上述问题,提出了一种模糊支持向量机隶属度函数的获取方法,本模糊支持向量机隶属度函数的获取方法可以有效区分“支持向量”和“噪声点”,并对它们进行不同的隶属度计算,提高“支持向量”,且降低“噪声点”的影响,从而提高整个分类器的分类效果。本发明的目的可通过下列技术方案来实现:一种模糊支持向量机隶属度函数的获取方法,其特征在于,包括以下步骤:(1)、样本数据输入:在支持向量机中的目标函数引入松弛变量ζ,建立软间隔分类器,并为了限制其取值加入了惩罚参数C,目标函数表示为:minγ,w,b12||w||2+CΣi=1mξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m支持向量机中的样本数据{x1,x2,x3,...},每个样本xi有一个标签yi,{(x1,y1),(x2,y2),...};(2)、利用k-means确定正负样本的类中心;(3)、引入系数消除样本不平衡:加入了一个隶属度值si(0<si≤1),对于样本数据则有{(x1,y1,s1),(x2,y2,s2),...},那么求解的目标函数则为:minγ,w,b12||w||2+CΣi=1msiξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m;(4)、区分“支持向量”和“噪声点”:计算每个正样本和负样本之间的距离,距离达到两类样本间最小距离的样本即为“支持向量”;(5)、判断隶属度大小:对于隶属度大小的判断,对于每一个正样本,计算其分别到正样本负样本类中心的距离,如果其距离正样本较近,则计算该样本到正样本的“支持向量”的距离,并认为该样本距离“支持向量”越近其隶属度越大,反之则越小;如果该样本距离负样本较近,则计算该样本到正样本类中心的距离,并认为该样本距离类中心越近其隶属度越大,反之则越小;同时,对于负样本采用同样的判断方法。(6)、获取隶属度,从而提高样本分类能力。在上述模糊支持向量机隶属度函数的获取方法中,所述的步骤(2)中,基于k-means的样本类中心选择算法包括以下步骤:a、计算两两样本之间的距离d(xi,xj);b、计算样本间距离的平均值:Meandist(S)=1n(n-1)×Σd(xi,xj);]]>c、计算每个样本的密度参数:density(xi)=Σj=1nu(MeanDist-d(xi,xj))]]>u(z)=1,z≥00.z<0;]]>d、具有最大密度参数的样本被选为样本类中心。在上述模糊支持向量机隶属度函数的获取方法中,所述的步骤(6)中,对“支持向量”和“噪声点”进行不同的隶属度计算:si=f(di+)if||Φ(xi+)-Φcen+||≥||Φ(xi+)-Φcen-||f(di*+)if||Φ(xi+)-Φcen+||<||Φ(xi+)-Φcen-||f(di-)if||Φ(xi-)-Φcen+||≤||Φ(xi-)-Φcen-||f(di*-)if||Φ(xi-)-Φcen+||>||Φ(xi-)-Φcen-||]]>f(di)=1-dimax(di)+β21+exp(βdi)]]>di=||Φ(xi+)-Φcen+||2||Φ(xi-)-Φcen-||2]]>di*=||Φ(xi+)-Φ*-||2||Φ(xi-)-Φ*-||2.]]>Φ(xi+)表示了特征空间中的正样本,Φ(xi-)表示了特征空间中的负样本;是特征空间中正样本中心,而表示了负样本中心;正样本中的支持向量,是负样本中的支持向量;di表示了样本与类中心的距离,表示了样本到类边缘的距离。且隶属度函数的计算均在特征空间下进行,这样可以提高高维度样本的分类效果。与现有技术相比,本模糊支持向量机隶属度函数的获取方法具有以下优点:利用k-means算法来分别寻找正负样本的类中心,通过计算每个正样本和负样本之间的距离,来区分“支持向量”和“噪声点”,并对于每一个正样本和负样本计算其分别到正样本类中心和负样本类中心的距离,判断隶属度大小,且利用隶属度函数对隶属度进行计算,提高“支持向量”,降低“噪声点”的影响,从而提高整个分类器的分类效果。附图说明图1是本发明的方法结构框图。具体实施方式以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。如图1所示,一种模糊支持向量机隶属度函数的获取方法,其特征在于,包括以下步骤:(1)、样本数据输入:在支持向量机中的目标函数引入松弛变量ζ,建立软间隔分类器,并为了限制其取值加入了惩罚参数C,目标函数表示为:minγ,w,b12||w||2+CΣi=1mξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m支持向量机中的样本数据{x1,x2,x3,...},每个样本xi有一个标签yi,{(x1,y1),(x2,y2),...};(2)、利用k-means确定正负样本的类中心,包括以下步骤:a、计算两两样本之间的距离d(xi,xj);b、计算样本间距离的平均值:Meandist(S)=1n(n-1)×Σd(xi,xj);]]>c、计算每个样本的密度参数:density(xi)=Σj=1nu(MeanDist-d(xi,xj))]]>u(z)=1,z≥00.z<0;]]>d、具有最大密度参数的样本被选为样本类中心;(3)、引入系数消除样本不平衡:加入了一个隶属度值si(0<si≤1),对于样本数据则有{(x1,y1,s1),(x2,y2,s2),...},那么求解的目标函数则为:minγ,w,b12||w||2+CΣi=1msiξi]]>s.t.y(i)(wTx(i)+b)≥1-ξi,i=1,...,mξi≥0,i=1,...,m;(4)、区分“支持向量”和“噪声点”:计算每个正样本和负样本之间的距离,距离达到两类样本间最小距离的样本即为“支持向量”;(5)、判断隶属度大小:对于隶属度大小的判断,对于每一个正样本,计算其分别到正负样本类中心的距离,如果其距离正样本较近,则计算该样本到正样本的“支持向量”的距离,并认为该样本距离“支持向量”越近其隶属度越大,反之则越小;如果该样本距离负样本较近,则计算该样本到正样本类中心的距离,并认为该样本距离类中心越近其隶属度越大,反之则越小;同时,对于负样本采用同样的判断方法。(6)、获取隶属度,从而提高样本分类能力:对“支持向量”和“噪声点”进行不同的隶属度计算:si=f(di+)if||Φ(xi+)-Φcen+||≥||Φ(xi+)-Φcen-||f(di*+)if||Φ(xi+)-Φcen+||<||Φ(xi+)-Φcen-||f(di-)if||Φ(xi-)-Φcen+||≤||Φ(xi-)-Φcen-||f(di*-)if||Φ(xi-)-Φcen+||>||Φ(xi-)-Φcen-||]]>f(di)=1-dimax(di)+β21+exp(βdi)]]>di=||Φ(xi+)-Φcen+||2||Φ(xi-)-Φcen-||2]]>di*=||Φ(xi+)-Φ*-||2||Φ(xi-)-Φ*+||2.]]>Φ(xi+)表示了特征空间中的正样本,Φ(xi-)表示了特征空间中的负样本;是特征空间中正样本中心,而表示了负样本中心;正样本中的支持向量,是负样本中的支持向量;di表示了样本与类中心的距离,表示了样本到类边缘的距离。且隶属度函数的计算均在特征空间下进行,这样可以提高高维度样本的分类效果。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属
技术领域
的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。尽管本文较多的术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1