基于类心间距的模糊带负类样本的支持向量数据描述方法

文档序号:10553380阅读:206来源:国知局
基于类心间距的模糊带负类样本的支持向量数据描述方法
【专利摘要】本发明提供一种基于类心间距的模糊带负类样本的支持向量数据描述方法,首先提供训练测试所需要的数据集,通过计算本类的所有样本的均值来得到本类的中心点;接着计算样本到另一类类中心的二范式距离,并计算样本到本类的类中心的二范式距离,求得这两个距离的比值得到该样本的分类能力值;然后利用每个样本的分类能力值,能够得到对应的模糊隶属度,添加模糊隶属度项到两类支持向量数据描述的目标函数,重构该目标函数能够得到本发明的算法目标函数;再次利用拉格朗日对偶形式对该目标函数求解得到二次规划形式函数,求解得到分类边界的圆心;最后对测试样本进行分类,得到分类精确度。相较于传统的支持向量数据描述算法,本发明的基于类心距离的模糊支持向量数据描述方法通过利用样本到另一类中心的二范式距离和到本类中心的二范式距离的比值能够得到该样本的分类能力值,通过添加模糊隶属度来区分不同样本的贡献度,强调边界样本的重要性,提高了分类准确性。
【专利说明】
基于类心间距的模糊带负类样本的支持向量数据描述方法
技术领域
[0001] 本发明属于模式识别领域,特别涉及一种基于类心间距的模糊带负类样本的支持 向量数据描述方法。
【背景技术】
[0002] 传统模式分类方法的训练样本一般需要多个类别的样本,从而设计两分类和多分 类的分类器。而在某些特殊的领域,例如机器故障诊断、疾病分析、入侵检测、敌我识别以及 信用卡欺诈,我们会遇到只有一类样本可以用来训练分类器,而没有其它类的样本参与。因 为在这些领域中我们较难获得多类的样本或者获得其它类的样本所需要付出的代价较大。 而两类分类器的边界需要两类实例样本来支撑,这样就会导致我们无法用两类实例样本来 训练我们的两类分类器边界。因只使用一类训练样本,所以称作单类分类。
[0003] 支持向量数据描述是一种被广泛运用的单类分类器。支持向量数据描述把原始空 间的数据映射到高维空间,找到一系列支持向量,通过这些支持向量构建能够最大包围正 类样本,排除尽量多负类样本的超球面。然而,只有一类训练样本的进行训练有时候并不能 得到最佳的分类效果,尝试往支持向量数据描述添加负类的训练样本,可以得到更优的分 类准确率,于是支持向量数据描述演变成为两类支持向量数据描述。跟单类支持向量数据 描述相同,两类支持向量数据描述也没有考虑到样本分布的问题,导致了丢失数据结构的 信息,因此并没有得到很好的分类效果。本发明的算法基于两类支持向量数据描述改进,利 用样本的结构化信息进行训练学习,提高了分类的精确度。

【发明内容】

[0004] 本发明为了解决现有的技术问题,既考虑到不同类别的数据样本具有不同位置信 息,又考虑到同一类别的数据样本对于决策边界的影响程度,强调不同样本的贡献性,设计 出一种能有效处理两类问题的基于类心间距的模糊带负类样本的支持向量数据描述方法。
[0005] 本发明的技术方案是:基于类心间距的模糊带负类样本的支持向量数据描述方 法,包括如下步骤:首先提供训练测试所需要的数据集,通过计算本类的所有样本的均值来 得到本类的中心点;接着计算样本到另一类类中心的二范式距离,并计算样本到本类的类 中心的二范式距离,求得这两个距离的比值得到该样本的分类能力值;然后利用每个样本 的分类能力值,能够得到对应的模糊隶属度,添加模糊隶属度项到两类支持向量数据描述 的目标函数,重构该目标函数能够得到本发明的算法目标函数;再次利用拉格朗日对偶形 式对该目标函数求解得到二次规划形式函数,求解得到分类边界的圆心;最后对测试样本 进行分类,得到分类精确度。
[0006] 本发明解决其技术问题所采用的技术方案还可以进一步完善。所述的基于类心距 离是通过比较样本到不同类心距离的比值来判断样本的分类能力。所述的模糊隶属度是通 过分类能力值来计算求得,反映的是样本的贡献度,与分类能力值成反比。
[0007] 综上所述,本发明的有益效果是:添加负类样本进行训练学习能够提高分类精度; 利用样本到另一类中心的二范式距离和到本类中心的二范式距离的比值能够得到该样本 的分类能力值;利用二范式形式能够准确描述样本间的结构信息;通过拉格朗日对偶形式 最优化支持向量数据描述的目标函数;通过添加模糊隶属度来区分不同样本的贡献度,强 调边界样本的重要性,提高了分类准确性。
【附图说明】
[0008] 图1是本发明的基于类心间距的模糊带负类样本的支持向量数据描述方法的流 程图。
【具体实施方式】
[0009] 下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分为四大步骤。 [0010]第一步:计算样本的分类能力值。
[0011]样本的分类能力值能够准确判断该样本是否容易被正确分类,当一个样本分类能 力值较高时说明该样本容易被正确分类,这些易分类的样本对于分类边界的确立贡献度不 高,具体如下几个步骤。
[0012] 1)计算数据集各类中心点:一个数据集有两类样本輪…鳥每杉…兩招】,其中前i 个样本为正类样本,后1个样本为负类样本;计算前i个的样本均值_为1类的样本中心,计 算后1个样本的样本均值_为1类的样本中心,则第i类第P个样本的样本具体做法
假设前i个样本为i类样本,计算i类样本的均值_,把该值当作是i类样本的类中心点, 具体做法
假设后1个样本为1类样本,计算1类样本的均值_,把该值当作是1类样本的类中心点, 具体做法
[0013] 2)计算样本的分类能力值:假设有第i类第p个样本的样本*$,计算其到另一类也 就是1类类中心的二范式距离和到本类也就是i类中心二范式距离的比值就能得到该样本 的分类能力值,具体做法:
[0014] 第二步:计算样本的模糊隶属度。
[0015] 样本的模糊隶属度是来判断样本对于分类边界的确立所表现的不同的贡献度,模 糊隶属度越高的样本,它对分类边界的贡献度越大。通过第一部分的分类能力值,本发明认 为分类能力值越大的样本贡献度越低,它的模糊隶属度也就越小。计算样本的模糊隶属度 可通过模糊隶属度公式求得:
其中知p表示的是第i类第P个样本的分类能力值,I:为模糊隶属度变化速度系数,用来 扩大样本的差异性J的取值范围在0-1之间。
[0016] 第三步:重构支持向量数据描述的目标函数。
[0017] 通过优化目标函数,我们能够得到分类边界,把模糊隶属度加入到支持向量数据 描述的目标函数中得到新的目标函数,使不同样本对于分类边界的影响是不同的,具体包 括几个步骤。
[0018] 1 )重构支持向量数据描述的目标函数:支持向量数据描述的目标函数是: | e'n+其中i表示超球面的半径f是用来平衡超球体积和误差,& 为超球面中心。在松弛因子振a上分别乘以样本的模糊隶属度知化得到新的目标函数: ?4)Q q S論 其中,约束条件为:丨_,:爾气'齡獻食..%:.:参:! 2)优化目标函数:需要通过拉格朗日函数来优化新的目标函数: 抑没:4' n 故 ' 其中拉格朗日因子%辦和丨vk都是大于〇; 对拉格朗日函数求其偏导,得到: S.=..I.i:衡% 一:獨:两裕; 0 < £r, '; |i;C.O < k; < I ; 把上述求得的值代入到拉格朗日函数,得到误差函数: £" 2: ":'*i ^ 2s:) + 2:S 0s::^;'fe:" ^ ~ 2j :a:S'%'fer: , £, r ij .:.:冰 其中样本的内积用核函数来替换,核函数有多种选择,例如若选用的核函数是高斯核 函数:则織i為}:緣___:-:_請:爾!,其中% !|表示的是两个样本,I为核参数;这是著名 的二次规划问题,优化拉格朗日因子曝爾可以得到最优的误差函数。
[0019] 第四步:测试数据集的分类效果。
[0020] 对未知标签的数据样本进行分类。上面我们已经得到超球面圆心的公式: a =兄巧七-乃句心。假设新来一个未知样本,我们能够通过判断它和圆心距离如果小于半 径R,判断此样本为正常样本,否则为异常类样本,于是得到决策函数: 淞-d!: = U ' 2) - 2 匕 % (2:: ?和:).:? 禹綠 W&液2, 其中半径R的公式是: 沪..士.為:?:S爲..(私 右} +..S 访
[0021] 不同情况的拉格朗日因子能够表明样本所处的位置的不同区间。我们发现只有样 本位于边界上或者边界外,其拉格朗日因子%%才是非0的,剩余其他的样本的拉格朗日因 子斗火值为〇,这些样本对于决策边界的确立没有影响。如我们所见,模糊支持向量数据描 述和传统支持向量数据描述的区别在于模糊支持向量数据描述的拉格朗日因子上界是动 态的,而传统支持向量数据描述则是固定的。这样我们才能使不同的样本对于决策边界的 作用是不相同的。
[0022]实验结果 为了验证我们所提方法的有效性,实验选取UCI数据集进行试验。实验环境为: CHJ1.80GHZ,8GRAM,Intel(R) Xeon(R),WIN7,Matlab2010b。试验中,选择高斯核函数
,其中縱取值为原始训练集中所有样本空间距离(即 = 1,2':…n)的均值。SVDD的目标函数中参数C从[10~-4,10~-3,10~-2,10~_ 1,10~0,10~ 1,10~ 2,10~3,10~4]中选择。权重变化速度系数|,其取值范围为、[0.mmSA7.i] ,每个值都进行实验,取最优的结果 利用UCI数据集进行比较,数据集可以从http ://ar chive.ics.uci.edu/ml/ index.html网站中下载获得,表1给出了实验数据特征属性。
[0023] 利用UCI数据集对本发明和原始支持向量数据描述方法进行分类效果比较。实验 通过对每个数据集的每一类样本分别进行10轮交叉验证训练学习,用G-means来评判算法 的分类效果。
[0024] 交叉验证是最为普遍的计算推广误差的方法之一。其过程为:将训练样本集随机 分为K个集合,通常分为K等份,对其中的K-1个集合进行训练,得到一个决策函数,并用决策 函数对剩下的一个集合进行样本测试。该过程重复K次,取K次过程中的测试错误的平均值 作为推广误差。
[0025] 下表为UCI数据集上的G-means
基准算法为支持向量数据描述,数据集后括号中的数字表示的是当前训练样本的为该 数据集的哪一类样本。训练样本是由正类样本也就是表格中括号内的数字所代表的类别的 样本和该数据集中剩余类别也就是负类样本各取一部分组成的。
[0026] 传统SVDD没有考虑到样本分布的问题,认为所有样本对于分类边界的贡献度相 同,致使其对噪声点相当敏感。噪声点的存在对于分类边界的影响较大,会降低分类准确 性。本发明提出的模糊SVDD算法主要关注于边界样本点,提升分类效果主要有下面两个原 因。其一,通过拉格朗日因子a我们知道对于SVDD分类边界有影响是支持向量,而绝大多数 的边界样本点都是支持向量,增高边界样本点的权重,提升了支持向量对于分类边界的贡 献度;其二,降低类内样本点的权重,也降低了类内噪声点对于分类边界的影响。
【主权项】
1. 基于类屯、间距的模糊带负类样本的支持向量数据描述方法,其特征在于:包括如下 步骤: 首先提供训练测试所需要的数据集,通过计算本类的所有样本的均值来得到本类的中 屯、点;接着计算样本到另一类类中屯、的二范式距离,并计算样本到本类的类中屯、的二范式 距离,求得运两个距离的比值得到该样本的分类能力值;然后利用每个样本的分类能力值, 能够得到对应的模糊隶属度,添加模糊隶属度项到两类支持向量数据描述的目标函数,重 构该目标函数能够得到本发明的算法目标函数;再次利用拉格朗日对偶形式对该目标函数 求解得到二次规划形式函数,求解得到分类边界的圆屯、;最后对测试样本进行分类,得到分 类精确度。2. 根据权利要求1所述的基于类屯、间距的模糊带负类样本的支持向量数据描述方法, 其特征在于:所述的类屯、距离是表示样本到不同类别的类中屯、点距离的比值。3. 根据权利要求1所述的基于类屯、间距的模糊带负类样本的支持向量数据描述方法, 其特征在于:所述的模糊表示的是对样本进行模糊化处理,通过对每个样本添加模糊隶属 度项ii来表示样本的贡献程度,編敎I过公式计算得到,其中I:为模糊隶 属度变化速度系数,可W用来扩大不同样本的差异性。4. 根据权利要求1所述的基于类屯、间距的模糊带负类样本的支持向量数据描述方法, 其特征在于:所述的类中屯、点是通过计算当前类的所有样本均值得到,是虚拟的样本点,实 际训练集中并不存在该样本点。5. 根据权利要求1所述的基于类屯、间距的模糊带负类样本的支持向量数据描述方法, 其特征在于:所述的样本到类中屯、的距离是通过二范式公式求得,能够更好地描述样本在 数据空间的位置关系。6. 根据权利要求1所述的基于类屯、间距的模糊带负类样本的支持向量数据描述方法, 其特征在于:所述的样本分类能力值通过样本到两类中屯、点的比值瑜吿的.能傲很好描述 样本是否处于边界的位置,计算第i个样本的聲赛分类能力值公式为其中计算 畴为正类的样本均值中必,计算晴为负类的样本均值中必。7. 根据权利要求3所述的模糊隶属度项,其特征在于:所述的模糊隶属度项必须通过与 松弛因子的乘积才能体现不同样本对于分类边界的确立的贡献度的区别性。
【文档编号】G06K9/62GK105913091SQ201610244145
【公开日】2016年8月31日
【申请日】2016年4月19日
【发明人】王喆, 李冬冬, 王敏光, 高大启
【申请人】华东理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1