一种基于局部样条嵌入的核化分类器的制造方法

文档序号:10656145阅读:220来源:国知局
一种基于局部样条嵌入的核化分类器的制造方法
【专利摘要】本发明涉及一种基于局部样条嵌入的核化分类器。本发明选择训练数据和测试数据,训练数据的基于局部样条嵌入的非线性降维,根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形式,即获得测试数据在低维流形上的非线性嵌入,使用线性的支持向量机算法对降维后的测试数据进行分类。本发明克服了无法在非线性分类问题上达到很好的分类性能的缺陷。本发明采用局部样条嵌入的非线性降维算法对高维有标签数据降维,再对高维有标签数据进行了特征提取,然后将新的无标签高维测试数据的嵌入,最后根据数据特点使用SVM算法实现对新的测试数据的分类。
【专利说明】
-种基于局部样条嵌入的核化分类器
技术领域
[0001] 本发明应用于对高维数据的分类分析,特别设及一种基于局部样条嵌入的核化分 类器。
【背景技术】
[0002] 局部样条嵌入算法是一种优秀的流形降维算法,但它的目的主要是对数据进行降 维,所W,运一点就导致了它的降维结果并不一定利于对数据进行分类。
[0003] 在本发明提出之前,与本发明最相关的工作是由发明人提出的一种基于局部样条 嵌入的线性分类方法,该方法将局部样条嵌入算法与线性判别算法相结合,寻找能够最小 化训练数据在全局低维坐标种的重构误差并且能够具有最佳局部类判别性的最佳线性映 射,并将它应用于测试数据上,最后使用KNN算法对线性映射后的测试数据分类。但是,该线 性分类算法只能找到最佳的线性映射,其隐含的假设是数据线性可分,事实上运一假设也 普遍存在于其它基于局部样条嵌入的分类器设计中。在现实世界中,真实数据集绝大部分 都是非线性可分的。虽然基于局部样条嵌入的线性分类方法通过采用分类器的方法,能 够在一定程度上弥补运一缺陷,但是仍然无法在非线性分类问题上达到很好的分类性能。 要处理非线性的流形分类问题,最理想的方法就是设计一种非线性的降维分类方法。然而, 目前尚未有研究者提出过基于局部样条嵌入的非线性分类器。因此,如何设计一种基于局 部样条嵌入的非线性分类器,使之能够处理非线性可分的分类问题,运是亟待解决的重要 问题。
[0004] 核方法是一种用于解决线性不可分问题的方法,通过将原始数据经过隐式的非线 性变换,映射至一个高维特征空间中去,将在原本线性不可分的问题转化为线性可分的问 题。本发明将使用核方法,设计一种基于局部样条嵌入的非线性核化分类器

【发明内容】

[0005] 本发明的目的在于克服上述缺陷,充分发挥训练数据的类别信息的作用,设计一 种基于局部样条嵌入的核化分类器。
[0006] 本发明的技术方案是:
[0007] -种基于局部样条嵌入的核化分类器,其主要技术特征在于步骤如下:
[0008] (1)选择训练数据和测试数据;
[0009] (2)训练数据的基于局部样条嵌入的非线性降维,包括:
[0010] (2-1)分别构建类内图和类间图并选取邻域;
[00川 (2-2)根据所选取邻域的训练数据点的类内图和类间图分别构建测试点的类内局 部切空间和类间局部切空间;
[0012] (2-3)从类内局部切空间和类间局部切空间出发,借助核方法将训练数据在局部 切空间的坐标变换为全局低维坐标,计算出使得训练数据点映射至全局低维坐标时重构误 差最小并且具有最佳局部类判别性的目标函数,得到训练数据的最佳非线性嵌入;
[0013] (3)根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩 展形式,即获得测试数据在低维流形上的非线性嵌入;
[0014] (4)使用线性的支持向量机算法对降维后的测试数据进行分类。
[0015] 所述步骤(1)训练数据为高维有标签数据,测试数据为高维无标签数据。
[0016] 所述步骤(2)构建类内图和类间图邻域,对训练数据进行基于局部样条嵌入的非 线性降维,通过定义最优化目标并结合核方法,寻找能够使投影后的样本达到最大类间离 散度和最小类内离散度的全局最佳非线性嵌入。
[0017] 所述步骤(3)测试数据的低维嵌入是:根据已获得的训练样本的最佳非线性嵌入, 对测试数据使用核方法进行推导,获得测试数据的扩展形式,得到测试数据在训练数据的 低维流形上的非线性嵌入。
[0018] 本发明的优点和效果在于采用基于局部样条嵌入的核化分类器对高维无标签测 试数据进行降维分类分析,表现为:
[0019] (1)借鉴了局部样条嵌入算法、线性判别函数算法和核方法的思想,并融合了监督 信息,在最大化保持了样本局部特性的同时,提高了信息分类的准确度。
[0020] (2)在邻域内构建类内图和类间图,对类内近邻和类间近邻进行区分,并通过最大 化样条插值函数的类内近邻光滑度,同时最小化样条插值函数的类内近邻光滑度,来实现 映射类内紧凑、类间离散的效果。
[0021] (3)能够有效处理非线性流形分类问题,通过使用核方法寻找训练数据的非线性 嵌入,再使用核方法对测试数据推导其扩展形式,获得测试数据在低维目标流形中的非线 性嵌入,实现对高维无标签非线性数据的低维嵌入,有利于对真实数据的处理。
[0022] 本发明采用基于局部样条嵌入的非线性降维算法对高维有标签数据降维,再对高 维有标签数据进行了特征提取,然后将新的无标签高维测试数据的嵌入,最后根据数据特 点使用SVM算法实现对新的测试数据的分类。
【附图说明】
[0023] 图1--本发明流程示意图。
【具体实施方式】
[0024] 本发明的主要技术思路是:
[0025] 本发明采用基于局部样条嵌入的非线性降维算法加上线性SVM(线性的支持向量 机)分类算法对高维有标签的数据进行降维分类,融入监督信息克服了局部样条嵌入算法 对高维信息降维后的结果不一定利于分类处理的缺陷,同时,构建类内图和类间图对类内 近邻和类间近邻进行区分,对实现类内紧凑和类间离散的效果有极大的帮助,尤其是引入 了再生核希尔伯特空间,使用核方法寻找测试数据的最佳非线性嵌入,能够处理原本无法 处理非线性数据的分类问题。因为经过使用核方法,已经使得数据变为线性可分,所W最后 使用线性SVM算法对数据进行分类即可。
[00%] 本发明的步骤如下:
[0027] 1.选择训练数据和测试数据。训练数据为高维有标签的数据,测试数据为高维无 标签的数据。
[0028] 2.对训练数据进行基于局部样条嵌入非线性降维,运个步骤包括=个阶段:
[0029] (2.1)通过构建类内图、类间图来选取邻域。定义一个样本点X, E吸0并选其k个近 邻作为邻域Wx,),其邻域Xi可W分为此片,巧日A/;佔觸个部分,与它具有相同类标签的样 本点为M,,片表示在样本点Xi的邻域AAOr,)中具有同类标签的第j个样本点,与它具 有不同类标签的样本点为从批,),的I,,表示在样本点Xi的邻域Wx,冲具有不同类标签的第j 个样本点,对邻域和运两个样本点定义如下:
[0030] (1)
[0031] (2)
[0032] (3)
[0033] (4)
[0034] (2.2)假设切空间的维度为d(d<<D),分别用化Iw和化Ib表示NiIw(Xi)和NiIb(Xi)的 关于Xi的类内局部切空间坐标和类间局部切空间坐标:
[0035] 先构建类内图風。的)中每个类内点Xilw在低维局部切空间中的坐标。令 乂1…=的巧",…..部n,对Xiiw进行奇异值分解:
[0036]
(5)
[0037] 则样本中的点:??。在近局部切空间中的坐标为:
[00;3引
化)
[0039] 其中&|,,,二化堪(。1,。2,...,叫),啼|,,,表示类内点叫~的第^'个近邻在局部切空间中 的坐标,jG [1,ki|w],则有
[0040]
(7)
[0041 ]同理再对类间图尾知.)构建每个类间点X i I b的低维局部切空间坐标。令 义I,,=时,.却,扎对Xii地行奇异值分解,最后可得类间点近邻坐标分别为:
[0042]
(8)
[00创 (2.3)假设每个类内点的局部切空间IUIw的每个维度哨W都存在一个样条插值函数
是ruk的kilw个数据点在全局嵌入流形中的第r 维的坐标;同理,对于每个类间点的局部切空间化Ib,同样存在每个维度词6对应的样条插值 函数巧6:嗎6 4均。,均,,e化Axi是化Ib的kiib个数据点在全局嵌入流形中的第r维的坐标。
[0044] 定义一个目标函数用来最小化全局坐标重构误差如下:
[0045] (9)
[0046] 其中A为正则化权重系数,局部类内近邻坐标的重构误差用Il均W -.郁,,如I",) I信表 示,局部类间近邻坐标的重构误差用II;娜-诉Ib(刪.)II2F表示,詞,,在d维上的光滑度惩罚项 为说姑1,,,),巧庙d维上的光滑度惩罚项为说妃I,,)。
[0047] 9;i"郝而6相互独立,所W可W把式(9)分写为两个函数Qw和化的加和形式:
[004引
[0049] (11)
[0050] (12)
[0化1 ]
[00 对 (。)
[0053] Duchon已证明在Sovolev空间中的特定条件下,式(11) (12)的插值函数是能够最 小化的,巧。郝都的可W表示为
[0054] (14)
[0055] (15)
[0056] 其中的~、0非、叫~、叫6用来表示权重向量系数,口1|~和口非为化|~和叫迪(1维空间中 的多项式基矩阵,
则为ruiw在d维空间中的格林矩阵, 且
[0057]
(16)
[005引同理,屯,Ib巧)二悼!i|b闲,締闲,…,挪佩巧叫庙d维空间中的格林矩阵,且
[0059]
(17)
[0060] 很明显,运里可W用Oilw和Oilb来衡量IUIw和IUIb的局部类内离散度、局部类间离 散度,其值越大,离散度越大。
[0061 ] Duchon已证明式(14)(15)成立的前提条件是
[0062]
(18)
[0063]其中,巧,郝和Pilb的前k列。所W,将(Il)(I2)(I4)(I5)(IS)式联立,可得
[0064] 19)
[0069] 由于插值函数具有较强的拟合能力,可W假设挪。郝巧6可W完全恢复明"郝的6,式 (21)可W进一步的简写为
[00 化]
[0066] ))
[0067]
[006引 (21)
[0070]
(22)
[0071] Xiang等人已证明在式(19)成立的前提下,Va,:|,,,,〇,:|,,,下式也成立
[007^
似)
[007;3]其中,化I,,, E化叫"'xk和为心^的左上角矩阵,旨[
同理,存在
此时,将的和締扩展为締,,E吸"X叫'。和娜,e吸的多维向量,贝IJ 可将式(22)(23)合并写为
[0074]
(24)
[007引其中,Fe肢是训练数据的全局映射坐标,Sw是类内近邻的0-1选择矩阵, =
满足 yi|w = YSi|w。类似地,Sb 是类内近邻的 0-1 选 择矩阵,
满足y i I b = Y S i I b。此外,
妻中,
[0076] 此时,再将式(24)代入至式(9),可得
[0077] (巧)
[007引
[0079]
[0080] 现假设存在一个从X到Y的直接非线性映射,即:
[0081 ] Y = VTf(X) (27) 其中,/(义)=[/柄),/(的),...,/片0] G吸PXn为Xi映射到P维空间的非线性映射函数,P 维空间的维度非常高,远远大于数据的原始维度。
[0082] 在核方法中,一般假设V本身可W由f(X)中的基线性组合而成,即
[0083] V = f(X)0 (28)其中0 G股"Xd为从f(X)重构V的线性权重系数矩阵,先将式 (28)代入至式(27)可得:
[0084] Y= 0Tf (X)Tf (X) = 0? (29)在式(29)中,K为定义在再生核希尔伯特空间 的核函数(或者核矩阵),它满足
[00 化]K(i,j) = <f(Xi),f(Xj)> (30)
[0086] 关于核函数,可W由很多不同的选择,常用的有高斯核
或者多 项式核K(i,j) = (l + <x,y> )d,还有Si卵Oid核K(i,j) = tanh( <x,y>+a)。使用核函数主 要是因为我们不必知道非线性映射f( ?)的显式表达式,而是可W通过计算两两之间的关 系。直接减少了计算复杂度,避免了将Xi映射至的空间维度P过高所导致的维度灾难。
[0087] 此时,将(29)式代入(26)式可得
[008引 min Q = tr(目化0护目) (31)
[0089] 为了确保0的唯一解,需要在(31)式的基础上添加约束条件0T0 = 1,然后可W得到 (31)式的最优解为
[0090] 0 =[目 1,目 2,...,目 d] (32)
[00川如果V0,. ?: G [1,邱馬足
[0092] KQKT 白 i = 〇i 白 i (33)
[0093] 其中0<〇1《〇2《...《〇d,〇i为1(〇1(''的第1个最小特征值,01为〇1所对应的特征向 量。
[0094] 3.测试数据扩展
[0095] 给定任意的测试数据G吸n,根据式(28)(29)可知,它在d维空间的最佳映射为:
[0096] yt = yTf (Xt) = (f (Xs)目)Tf (Xt)=目 T(f (Xs)Tf (Xt)) =目TK(Xs'Xt) (34)
[0097] 其中,Xs为训练数据,由此可知,要得到测试数据在低维判别空间的最佳映射,只 需要计算训练数据与测试数据之间的核矩阵,再与上一步中获得的权重系数矩阵0相乘即 可。
[0098] 4.使用线性SVM算法分类.
[0099] 因为之前使用核方法使得待分类数据变为线性可分,所W就可W在嵌入后的目标 流形上使用线性SVM算法进行分类。通常SVM算法考虑的是二分类问题,它的优化目标就是 寻找一个能够最大化两类数据之间几何间隔的分割超平面:
[0100] f (x) =sgn(g(x)) (35) 根据返回的值来确定该点的分类,其中g(x)=wx+b即分割超平面。求解最佳的分割超 平面可W归结为二次规划问题 min 引 |?"||2
[0101] w'b (36) s.t.化(W正+ 6) > 1, i = 1,…,m
[0102] 通过求解与式(36)等价的拉格朗日对偶问题,可W将式(35)转变为
[0103]
(37)
[0104] 在本发明中,运里使用一对多法实现分类多类问题,任选一类与其他剩余的所有 类进行对比,即构建与类别数相同个数的两类分类器进行判别,最后在多个两类分类器中 选择f (X)值最大的类别作为测试数据的类别。
【主权项】
1. 一种基于局部样条嵌入的核化分类器,其特征在于步骤如下: (1) 选择训练数据和测试数据; (2) 训练数据的基于局部样条嵌入的非线性降维,包括: (2-1)分别构建类内图和类间图并选取邻域; (2-2)根据所选取邻域的训练数据点的类内图和类间图分别构建测试点的类内局部切 空间和类间局部切空间; (2-3)从类内局部切空间和类间局部切空间出发,借助核方法将训练数据在局部切空 间的坐标变换为全局低维坐标,计算出使得训练数据点映射至全局低维坐标时重构误差最 小并且具有最佳局部类判别性的目标函数,得到训练数据的最佳非线性嵌入; (3) 根据已获得的训练数据的最佳非线性嵌入对测试数据使用核方法推导出其扩展形 式,即获得测试数据在低维流形上的非线性嵌入; (4) 使用线性的支持向量机算法对降维后的测试数据进行分类。2. 根据权利要求1所述的基于局部样条嵌入的核化分类器,其特征在于步骤(1)训练数 据为高维有标签数据,测试数据为高维无标签数据。3. 根据权利要求1所述的基于局部样条嵌入的核化分类器,其特征在于步骤(2)构建类 内图和类间图邻域,对训练数据进行基于局部样条嵌入的非线性降维,通过定义最优化目 标并结合核方法,寻找能够使投影后的样本达到最大类间离散度和最小类内离散度的全局 最佳非线性嵌入。4. 根据权利要求1所述的基于局部样条嵌入的核化分类器,其特征在于步骤(3)测试数 据的低维嵌入是:根据已获得的训练样本的最佳非线性嵌入,对测试数据使用核方法进行 推导,获得测试数据的扩展形式,得到测试数据在训练数据的低维流形上的非线性嵌入。
【文档编号】G06K9/62GK106022361SQ201610316765
【公开日】2016年10月12日
【申请日】2016年5月10日
【发明人】何萍, 敬田禹, 徐晓华, 林惠惠
【申请人】扬州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1