基于最大球心距的支持向量描述方法

文档序号:6637784阅读:310来源:国知局
基于最大球心距的支持向量描述方法
【专利摘要】一种基于最大球心距的支持向量描述方法,是将类间距离最大化的目标加入到支持向量描述的目标优化函数中,得到在使每一个超球体半径最小的目标下,同时使不同超球体之间的距离最大的目标函数。本发明首次在支持向量描述的方法的基础上引入类间信息约束到多分类问题中,并在此基础上利用一个半径最小的超球体将同一类样本包围,并使超球体之间尽可能的远离。本发明可以避免传统多分类方法中存在的类别不平衡问题以及识别盲区问题,通过有拒识的开集人脸识别系统证明了该发明用于多分类问题的有效性。本发明与传统方法相比,具有鲁棒性强、分类效果好等优点。可以用于解决小样本集的监督学习多分类问题。
【专利说明】基于最大球心距的支持向量描述方法

【技术领域】
[0001] 本发明涉及一种支持向量描述方法。特别是涉及一种以所有超球半径的平方和最 小及超球体之间的距离最大为目标函数,在核空间中寻找一个超球体将同一类的样本约束 在超球体中,并将其他类的样本约束在超球体外,并且使所建立的超球体之间尽可能地分 离的基于最大球心距的支持向量描述方法。

【背景技术】
[0002] 随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信 息的重要途径之一。如何对获取的信息进行有效地分类是机器学习领域的一个重大挑战。 支持向量机(Support Vector Machine, SVM)是一种流行的分类方法,最初由Vapnik等人 提出,近年来在其理论研究和算法实现等方面都获得了很大的进展,成为克服"维数灾难" 和"过学习"等问题的强有力的手段。其主要思想是找到一个超平面,使其能够尽可能地将 两类数据点正确分开,同时使分开的两类数据点距离分类面最远。随着支持向量机和相关 支持域技术的提出和完善,二分类问题的理论基础和实现框架都已形成。
[0003] 然而,多分类技术仍然不甚成熟。目前对多分类的研究主要有两个方向:间接解 决和直接解决。间接解决多分类的方法是将多分类问题转化为二分类问题,即用多个二类 分类器组成一个多类分类器。这类方法主要有以下两种:一对多(〇ne-Vs-All,OVA)方法、 一对一(0ne-Vs-0ne,0V0)方法。OVA是一种很简单的多分类方法,是为每个类构建一个二 类分类器,对于N个类别的分类,则要构造 N个二类分类器。对第i个类的二类分类器来 说,其训练样本集的构成为属于i类的样本为正类,而不属于该类的其他所有样本都为负 类,但该方法训练时正负类数据分布不平衡,导致分类精度降低。OVO方法是对多类别数据 进行两两区分,为任意两个类构建分类超平面。对于N类数据集,则需要构造 Ν(Ν-1)/2 个二类分类器,这种方法不仅计算量庞大,而且只建立两两类别间的分类器,忽视了与其 他类别的信息,并且OVA和OVO多分类方法都存在识别盲区的问题。
[0004] 最近几年来,不少研究者试图通过设计直接解决多分类问题的SVM来解决多分类 问题,同时处理各类数据并考虑各类之间的关联信息。在这类方法中,最著名的是采用支 持向量描述(Support Vector Data Description, SVDD)的方法利用K个超球体对K类数 据同时进行描述,每个超球体包含同一类的样本数据。SVDD的基本思想是把所有样本映射 到特征空间,然后在特征空间中计算包含这组数据的最小超球体边界来获得数据的分布区 域,从而对该组数据进行描述,主要用来进行单类分类及去除噪声点或奇异点。和SVM不 同的是,SVDD不是寻找一个超平面而是通过计算包含同一类样本的最小超球体边界来对数 据的分布范围进行描述。通常位于超球体内部的数据被分类为目标类,位于超球体边界的 数据称为支持向量,超球体外的则是非目标样本。
[0005] 由于可以对每一类样本单独使用SVDD,得到各个类别样本的超球体,并以此作为 分类边界,因此SVDD可以很容易地扩展为多类分类器来处理处理多分类问题。例如:Zhu等 人利用SVDD对多类问题进行分类,提出了一种球结构支持向量机方法,该方法对每一类训 练样本求解问题构造一个包含该类样本的最小超球,然后根据测试样本离各个球心的距离 来判断测试样本属于哪一类。Lee等人基于贝叶斯决策准则提出了一种求解多类问题的区 域描述支持向量分类方法,该方法首先对每一类训练样本求解问题构造-个包含该类样本 的最小超球体,然后利用贝叶斯公式计算后验概率来判断测试样本该属于哪一类。Lei等 人对Zhu等人提出的方法的判别函数进行修改,当利用测试样本离各个球心距离进行类别 判断不明确时就在不明确区域使用最近邻方法进行判别。Hao等人提出了一个求解多分类 问题的球型支持向量机,该方法以所有超球体半径的平方和最小为目标函数对每个类构造 一个超球体以使该类样本约束在超球体里而将其他样本约束在超球体外,然后根据测试样 本离各个球心的距离来判断测试样本属于哪一类。Liu等提出一种基于核空间相对密度的 SVDD多类分类算法,该算法首先由SVDD确定包围每类数据的最小超球体,然后计算位于最 小超球体重叠区域中每个样本在其同类样本间的相对密度,最后以各类样本相对密度的均 值为标准,对重叠区域内的待测样本进行分类。Wang等提出了结构化一类分类(Structured One-Class Classification)算法,是在考虑数据分布的基础上,将一类目标数据用多个超 椭球来描述,以获得对目标数据更有效的描述。
[0006] 此外,当前的识别技术大都是针对无拒识的闭集识别,即测试样本一定能与训练 数据库中的样本相匹配,但这种情况不符合现实应用的真实情况,而开集识别技术排除了 闭集识别中"测试样本一定能与训练数据库的样本相匹配"的假设,能够对与目标库身份不 匹配的的异类样本进行拒识,更加符合现实应用中的真实情况。


【发明内容】

[0007] 本发明所要解决的技术问题是,提供一种为每一个类寻求一个包含所有或几乎所 有该类目标样本且体积最小的最优超球体,并使超球体之间的距离最大,从而实现多个类 别的有效分类,解决多分类问题以及类别之间数据不平衡问题的基于最大球心距的支持向 量描述方法。
[0008] 本发明所采用的技术方案是:一种基于最大球心距的支持向量描述方法,是将类 间距离最大化的目标加入到支持向量描述的目标优化函数中,得到在使每一个超球体半径 最小的目标下,同时使不同超球体之间的距离最大的目标函数。
[0009] 所述的目标函数的建立,首先设{χΓ|<?,= ι,...上= 为数据空间 X C炉中的一个已知训练数据集,其中T为类的个数,^为第m类的样本数,得到目标函 数:

【权利要求】
1. 一种基于最大球心距的支持向量描述方法,其特征在于,是将类间距离最大化的目 标加入到支持向量描述的目标优化函数中,得到在使每一个超球体半径最小的目标下,同 时使不同超球体之间的距离最大的目标函数。
2. 根据权利要求1所述的基于最大球心距的支持向量描述方法,其特征在于,所述的 目标函数的建立,首先设!<|.<、义./? = 1....丄/ = 1....人}为数据空间1〔炉中的一个已 知训练数据集,其中T为类的个数,、为第m类的样本数,得到目标函数:
其中:Rm为第m类的半径,cm第m类的球心,dmn为第m类的球心与第η类球心的距离, 二||cm -c"|f,m,ne{1,…,Τ},Κ为调节半径与分离间隔的参数,K彡0,χ卩为第m 类的第i个样本,C为惩罚参数,用来控制最小包围球半径和错分程度的一个折衷。
【文档编号】G06K9/62GK104463211SQ201410745860
【公开日】2015年3月25日 申请日期:2014年12月8日 优先权日:2014年12月8日
【发明者】冀中, 于云龙 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1