基于点到局部特征空间距离的分类器模型建立方法

文档序号：6636211阅读：813来源：国知局

基于点到局部特征空间距离的分类器模型建立方法
【专利摘要】本发明涉及一种基于点到局部特征空间距离的分类器模型建立方法。其技术方案是：对于任一未知类别的样本点Xi，采用K近邻方法确定任一未知类别的样本点Xi的K个已知类别为cj(j＝1,2,...L)的近邻点，再分别组成类别为cj(j＝1,2,...L)的局部特征空间，计算未知类别的样本点Xi到每一个具有不同类别的局部特征空间的欧氏距离，然后选择到未知类别样本点Xi欧氏距离最小的局部特征空间的类别，作为未知类别样本点Xi的类别。本发明能有效地抑制噪声或奇异点对数据类别预测的干扰，增强了分类器模型的鲁棒性能，提高了未知类别的样本点的类别预测效果。
【专利说明】基于点到局部特征空间距离的分类器模型建立方法
[0001] 所属领域
[0002] 本发明属于分类器【技术领域】。具体涉及一种基于点到局部特征空间距离的分类器模型建立方法。

【背景技术】
[0003] 数据挖掘的主要任务有分类分析、聚类分析、关联规则分析、序列模式分析等，其中分类分析由于其特殊地位，一直是数据挖掘研究的热点。对于数据分类问题，通常采取的流程是首先对数据进行预处理，然后采用线性或者非线性特征提取方法，从预处理的数据中提取最有利于分类的特征，最后建立分类器模型，对所提取的特征进行类别预测。在整个数据分类过程中，如何建立数据分类模型是关系到数据分类效果好坏的关键之一。分类器模型的任务就是训练一个分类器，分析输入的样本集合，通过在训练集中的数据表现出来的特性，为每一个类寻找一种准确的描述。由所生成的类描述对未来的测试数据进行分类，尽管这些未来的测试数据的类别标签是未知的，但仍可以由此预测这些新数据所属的类别。
[0004] 目前有许多方法和技术可以用于构造分类器模型，例如决策树、决策表、神经网络、K近邻方法、遗传算法、贝叶斯方法以及支持向量机等。然而，这些单一的分类技术在应用中常常会受到一定条件的限制。对于一些非线性分类方法，如神经网络和支持向量机，由于算法复杂，造成计算代价很高。另外决策树、决策表，遗传算法和贝叶斯方法也因为计算复杂，运算量大，给大数据分类带来很大的困扰。作为一种计算简单的数据分类方法，K近邻采用一种以点到点的欧氏距离作为近邻点选择的度量，在K设置为1的情况下，K近邻方法转化为最近邻方法，未知类别数据样本点的类别就可以预测为距离其最近的样本点的类另IJ，因此计算成本相对较低。但是K近邻方法的鲁棒性能比较差，在数据中如果包含有噪声或者奇异点的时候，特别是当噪声或者奇异点距离预测样本点比较近的时候，很容易影响未知类别样本点的预测效果，对数据的分类结果造成很大的影响。

【发明内容】

[0005] 本发明目的在于提出一种基于点到局部特征空间距离的分类器模型建立方法，所建立的分类器模型能有效地抑制噪声或奇异点对数据类别预测的干扰，能增强分类器模型的鲁棒性能，能提高未知类别的样本点的类别预测效果。
[0006] 为实现上述目的，本发明采用的技术方案是，所述分类器模型建立方法的具体步骤是：
[0007] 步骤一、计算任一未知类别的样本点Xi与类别为Cs的所有样本点之间的欧式距离，取所述欧式距离由小到大排列的前k个类别为Cs的样本点，将所述前k个类别为Cs的样本点作为任一未知类别样本点Xi的类别为Cs的局部近邻点，构建类别为Cs的局部特征空间。i表示自然数，s G {1，2，...，L}，L表示所有样本点的类别总数。
[0008] 步骤二、重复步骤一，分别从类别为ct(t = 1，2, . . .，L-1)的所有样本点中，选取k 个类别为 Ct (t = 1，2, . . .，L-1)的局部近邻点 G = 1，2，".,1-1)，构建相应的类别为ct(t = 1，2, . . .，L-1)的局部特征空(/ = 1.2...1-】）。L表示所有样本点的类别总数，所述的K为大于3的自然数。
[0009] 步骤三、分别计算任一未知类别的样本点Xi到类别为的局部特征空间的欧氏距离
[0010] ^Xi-/c^(Xi)W (1)
[0011] 式⑴中：
[0012] Cj表示类别为C1, c2, --?，C1中的任一类；
[0013] /M(<)表示任一未知类别的样本点Xi到类别为C j的局部特征空间乂，本）的投影，

【权利要求】
1. 一种基于点到局部特征空间距离的分类器模型建立方法，其特征在于所述分类器模型建立方法的具体步骤是：步骤一、计算任一未知类别的样本点Xi与类别为cs的所有样本点之间的欧式距离，取所述欧式距离由小到大排列的前k个类别为cs的样本点，将所述前k个类别为1的样本点；^;>，；^乂...，；^ 1>作为任一未知类别样本点\的类别为1的局部近邻点，构建类别为(^的局部特征空间A1%.);i表示自然数，sG{1，2, ...，L}，L表示所有样本点的类别总数；步骤二、重复步骤一，分别从类别为ct(t= 1，2,. . .，L-1)的所有样本点中，选取k个类别为ct(t= 1，2,?…，L-1)的局部近邻点(t= 1，2,?…，L-1)，构建相应的类别为ct(t= 1，2, ? ? ?，L-1)的局部特征空间(牟）（t= 1，2, ? ? ?L-1)，L表示所有样本点的类别总数；步骤三、分别计算任一未知类别的样本点\到类别为的局部特征空间的欧氏距离
式⑴中： Cj表不类别为Cpc2, ? ? ?，q中的任一类，广表示任一未知类别的样本点\到类别为&的局部特征空间#"(X,)的投影，
式⑵中：表示任一未知类别的样本点Xi的类别为Cj的局部近邻点，aim(m=1，2,. . .，k)表示是在类别为Cj的局部特征空间内，由类别为Cj的局部近邻点(m= 1,2，...，幻所线性表示的任一未知类别的样本点\的线性系数，
步骤四、预测任一未知类别的样本点\的类别将任一未知类别的样本点\到类别为的局部特征空间S(M(X,)的欧氏距离 '(义）按照由小到大的顺序进行排列，选择到任一未知类别的样本点\具有最小欧氏距离的局部特征空间的类别，作为任一未知类别的样本点\的类别，其中&表示类别为Cl，c2, . . .，q中的任一类。
2. 根据权利要求1所述的基于点到局部特征空间距离的分类器模型建立方法，其特征在于所述的K为大于3的自然数。
【文档编号】G06F17/30GK104408129SQ201410699884
【公开日】2015年3月11日申请日期:2014年11月26日优先权日:2014年11月26日
【发明者】李波, 王运庆, 张晓龙申请人:武汉科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李波;王运庆;张晓龙;
技术所有人：武汉科技大学;
我是此专利的发明人

上一篇：一种移动服务查询系统的隐私保护方法
上一篇：参数化渐开线齿形参数计算与绘图方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。