基于点到局部特征空间距离的分类器模型建立方法

文档序号:6636211阅读:813来源:国知局
基于点到局部特征空间距离的分类器模型建立方法
【专利摘要】本发明涉及一种基于点到局部特征空间距离的分类器模型建立方法。其技术方案是:对于任一未知类别的样本点Xi,采用K近邻方法确定任一未知类别的样本点Xi的K个已知类别为cj(j=1,2,...L)的近邻点,再分别组成类别为cj(j=1,2,...L)的局部特征空间,计算未知类别的样本点Xi到每一个具有不同类别的局部特征空间的欧氏距离,然后选择到未知类别样本点Xi欧氏距离最小的局部特征空间的类别,作为未知类别样本点Xi的类别。本发明能有效地抑制噪声或奇异点对数据类别预测的干扰,增强了分类器模型的鲁棒性能,提高了未知类别的样本点的类别预测效果。
【专利说明】基于点到局部特征空间距离的分类器模型建立方法
[0001] 所属领域
[0002] 本发明属于分类器【技术领域】。具体涉及一种基于点到局部特征空间距离的分类器 模型建立方法。

【背景技术】
[0003] 数据挖掘的主要任务有分类分析、聚类分析、关联规则分析、序列模式分析等,其 中分类分析由于其特殊地位,一直是数据挖掘研究的热点。对于数据分类问题,通常采取 的流程是首先对数据进行预处理,然后采用线性或者非线性特征提取方法,从预处理的数 据中提取最有利于分类的特征,最后建立分类器模型,对所提取的特征进行类别预测。在整 个数据分类过程中,如何建立数据分类模型是关系到数据分类效果好坏的关键之一。分类 器模型的任务就是训练一个分类器,分析输入的样本集合,通过在训练集中的数据表现出 来的特性,为每一个类寻找一种准确的描述。由所生成的类描述对未来的测试数据进行分 类,尽管这些未来的测试数据的类别标签是未知的,但仍可以由此预测这些新数据所属的 类别。
[0004] 目前有许多方法和技术可以用于构造分类器模型,例如决策树、决策表、神经网 络、K近邻方法、遗传算法、贝叶斯方法以及支持向量机等。然而,这些单一的分类技术在应 用中常常会受到一定条件的限制。对于一些非线性分类方法,如神经网络和支持向量机,由 于算法复杂,造成计算代价很高。另外决策树、决策表,遗传算法和贝叶斯方法也因为计算 复杂,运算量大,给大数据分类带来很大的困扰。作为一种计算简单的数据分类方法,K近 邻采用一种以点到点的欧氏距离作为近邻点选择的度量,在K设置为1的情况下,K近邻方 法转化为最近邻方法,未知类别数据样本点的类别就可以预测为距离其最近的样本点的类 另IJ,因此计算成本相对较低。但是K近邻方法的鲁棒性能比较差,在数据中如果包含有噪声 或者奇异点的时候,特别是当噪声或者奇异点距离预测样本点比较近的时候,很容易影响 未知类别样本点的预测效果,对数据的分类结果造成很大的影响。


【发明内容】

[0005] 本发明目的在于提出一种基于点到局部特征空间距离的分类器模型建立方法,所 建立的分类器模型能有效地抑制噪声或奇异点对数据类别预测的干扰,能增强分类器模型 的鲁棒性能,能提高未知类别的样本点的类别预测效果。
[0006] 为实现上述目的,本发明采用的技术方案是,所述分类器模型建立方法的具体步 骤是:
[0007] 步骤一、计算任一未知类别的样本点Xi与类别为Cs的所有样本点之间的欧式距 离,取所述欧式距离由小到大排列的前k个类别为Cs的样本点,将所述 前k个类别为Cs的样本点作为任一未知类别样本点Xi的类别为Cs的局 部近邻点,构建类别为Cs的局部特征空间。i表示自然数,s G {1,2,...,L},L表 示所有样本点的类别总数。
[0008] 步骤二、重复步骤一,分别从类别为ct(t = 1,2, . . .,L-1)的所有样本点中,选取k 个类别为 Ct (t = 1,2, . . .,L-1)的局部近邻点 G = 1,2,".,1-1),构建相应 的类别为ct(t = 1,2, . . .,L-1)的局部特征空(/ = 1.2...1-】)。L表示所有样本 点的类别总数,所述的K为大于3的自然数。
[0009] 步骤三、分别计算任一未知类别的样本点Xi到类别为的局部特征空间 的欧氏距离
[0010] ^Xi-/c^(Xi)W (1)
[0011] 式⑴中:
[0012] Cj表示类别为C1, c2, --?,C1中的任一类;
[0013] /M(<)表示任一未知类别的样本点Xi到类别为C j的局部特征空间乂,本)的投 影,

【权利要求】
1. 一种基于点到局部特征空间距离的分类器模型建立方法,其特征在于所述分类器模 型建立方法的具体步骤是: 步骤一、计算任一未知类别的样本点Xi与类别为cs的所有样本点之间的欧式距离,取 所述欧式距离由小到大排列的前k个类别为cs的样本点,将所述前k个 类别为1的样本点;^;>,;^乂...,;^ 1>作为任一未知类别样本点\的类别为1的局部近邻 点,构建类别为(^的局部特征空间A1%.);i表示自然数,sG{1,2, ...,L},L表示所有 样本点的类别总数; 步骤二、重复步骤一,分别从类别为ct(t= 1,2,. . .,L-1)的所有样本点中,选取k个 类别为ct(t= 1,2,?…,L-1)的局部近邻点(t= 1,2,?…,L-1),构建相 应的类别为ct(t= 1,2, ? ? ?,L-1)的局部特征空间(牟)(t= 1,2, ? ? ?L-1),L表示所有 样本点的类别总数; 步骤三、分别计算任一未知类别的样本点\到类别为的局部特征空间的欧 氏距离
式⑴中: Cj表不类别为Cpc2, ? ? ?,q中的任一类, 广表示任一未知类别的样本点\到类别为&的局部特征空间#"(X,)的投影,
式⑵中: 表示任一未知类别的样本点Xi的类别为Cj的局部近邻点,aim(m=1,2,. . .,k)表 示是在类别为Cj的局部特征空间内,由类别为Cj的局部近邻点(m= 1,2,...,幻所线性表 示的任一未知类别的样本点\的线性系数,
步骤四、预测任一未知类别的样本点\的类别 将任一未知类别的样本点\到类别为的局部特征空间S(M(X,)的欧氏距离 '(义)按照由小到大的顺序进行排列,选择到任一未知类别的样本点\具有最小欧氏距 离的局部特征空间的类别,作为任一未知类别的样本点\的类别,其中&表示类别为Cl,c2, . . .,q中的任一类。
2. 根据权利要求1所述的基于点到局部特征空间距离的分类器模型建立方法,其特征 在于所述的K为大于3的自然数。
【文档编号】G06F17/30GK104408129SQ201410699884
【公开日】2015年3月11日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】李波, 王运庆, 张晓龙 申请人:武汉科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1