一种基于k近邻方法的加权收缩方法

文档序号:6604936阅读:156来源:国知局
专利名称:一种基于k近邻方法的加权收缩方法
技术领域
本发明涉及图像处理技术领域,特别涉及一种基于K近邻方法的加权收缩方法。
背景技术
近五十年来,模式识别和机器学习理论与技术得到了迅速的发展。近邻法作为模 式识别的一种典型分类方法,它最初在1968年被提出。这种方法虽然分类结果不是最好 的,但是它的计算复杂度小,便于实现,因此得到了广泛的应用。k近邻法是近邻法的直接拓 展方法,为了减少k近邻法的计算量和存储量,人们进行了不少研究,产生了例如剪辑近邻 法、压缩近邻法等方法。虽然这些方法在一定程度上减少了运算的复杂度,但是也对分类效 果有一定的负面影响。另外,这些方法中各个分类器中的样本点都是同级别的,因此比较重 要的样本在这些方法的分类过程中的作用不能体现出来。通常情况下,在进行模式分类的过程中,需要先将样本集划分为训练样本和测试 样本(有很多方法来进行划分),然后使用训练样本进行分类器的参数设计,再使用测试样 本测试分类器的错误率,以此分析分类算法的优劣。具体到k近邻方法上,就是要确定一组 训练样本,然后对每个测试样本,找到它最近的k个训练样本点,将它分到k个训练样本中 所属最多的那个类内,类似于多数投票的形式。

发明内容
本发明的目的旨在至少解决上述技术缺陷,提出了一种基于K近邻方法的加权收 缩方法。为达到上述目的,本发明一方面提出一种基于K近邻方法的加权收缩方法,包括 以下步骤划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样 本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个 样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所 述测试样本进行分类。其中,本发明不仅可用于两类,还可用于多类的分类。本发明在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的 正确率。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中图1为本发明实施例的基于K近邻方法的加权收缩方法的流程图;图2本发明实施例的产生训练集数据的流程图;图3为本发明实施例的样本集总体的示意图4为本发明实施例训练集收缩加权的过程和收缩后的坐标信息;图5为本发明实施例的分类过程示意图;图6为本发明实施例 中测试样本与训练样本的距离,权重值和分类信息示意图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。如图1所示,为本发明实施例的基于K近邻方法的加权收缩方法的流程图,包括以 下步骤步骤S101,划分样本集中的属于各个分类的训练样本和测试样本。具体可参考图 2,为本发明实施例的产生训练集数据的流程图。如图3所示,为本发明实施例的样本集总 体的示意图,在该实施例中,分为两类分类A类和B类,每个分类各有5个样本点,样本序 号为1到10,其中,使用每类前四个样本点作为训练样本,最后一个样本点作为测试样本。 需要说明的是,本发明实施例以两个分类举例描述,但是本发明还可采用多个分类,其原理 相同,在此不再赘述。步骤S102,对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个 分类对应的训练集数据,并计算收缩后各个样本点的权重值。参照图3具体包括,1)分别计算属于一类分类中各个训练样本之间的距离,并排序。其中,在本发明的 一个实施例中,各个训练样本之间的距离为欧式空间距离。由于每个样本都是由数据组成 的,因此可以通过计算其欧式空间距离(公式1)的方法得到两个样本点距离远近的度量。 本算法中就是用了欧式空间距离作为两个样本点之间的距离。
2其中,xt、xs分别表示训练集合中的第t、S个样本
点,η表示样本数据的分量数,例如对于有两个数据属性的样本点二样,η = 2。2)根据排序结果对距离最近的两个训练样本进行收缩,得到一个新的样本点。其 中,收缩加权是指,对两个样本点进行收缩,就是找一个新的样本点替代这两个样本点,选 择的样本点可以看作这两个样本点的一个收缩,本算法中使用中点作为两样本点的收缩结 果。在加权过程中,最初设定所有训练样本的权重(用w表示)为1,在运算中凡是收缩产 生的新样本点,其权重会增加,增加程度的计算见以下公式。经过这个过程,每个样本点都 会有不同的权值。Wnew = α (Wl+W2),其中,α是一个小于1的非负系数,可以根据数据集进行调整。 W1和W2分别为被收缩两点的权重。3)重复上述步骤,直至达到预定次数,以得到各个分类对应的训练集数据。例如如 图4为本发明实施例训练集收缩加权的过程和收缩后的坐标信息,其中,样本点的圆圈内 的数据为样本点的权值。其中,A类进行了点1和2以及点3和4的收缩,得到了点11和 12 ;Β类进行了点6和7以及它们收缩点和8的收缩,得到了点13,假设α =0.8,这样,就 可以得到各点的权值。
本发明具体实施的步骤是循环进行样本点之间的距离计算和收缩加权,直到循环 次数结束,这样不仅减少了训练集的样本个数,还能够兼顾运算量和准确性。
步骤S103,根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所 述测试样本进行分类。如图5所示,为本发明实施例的分类过程示意图。在分类过程中,根 据测试集合中每个样本点的数据找到离它最近的k个训练集中样本,分别计算分类A和分 类B的权重,最后将这个样本点分为权重较重的那一类即可。这样就可以将测试样本一一 分类。具体地,参考图6,为本发明实施例中测试样本与训练样本的距离,权重值和分类信 息示意图。例如,选K为3对先前选出的测试样本进行分类。首先对A类的测试样本进行 分类,如图6可知,它周围的三个点中,A类权重为3. 2,B类权重为2. 08,因此它属于A类。 同样地,B类中的测试样本周围三个点中,A类权重1. 6,B类权重3. 08,因此它属于B类。至此就完成了对数据集的分类。如果有更多的测试样本,遵照上面过程可以直接 进行数据分类。同样地,如果要进行多个类的划分,只需要进行多类的加权收缩即可,具体 过程与上面类似,在此不再赘述。本发明在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的 正确率。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换 和变型,本发明的范围由所附权利要求及其等同限定。
权利要求
一种基于K近邻方法的加权收缩方法,其特征在于,包括以下步骤划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类。
2.如权利要求1所述的基于K近邻方法的加权收缩方法,其特征在于,所述方法用于两 类或多类的分类。
3.如权利要求1所述的基于K近邻方法的加权收缩方法,其特征在于,所述对每个分类 分别进行预定次数的样本点收缩以得到各个分类对应的训练集包括分别计算属于一类分类中各个训练样本之间的距离,并排序;根据排序结果对距离最近的两个训练样本进行收缩,得到一个新的样本点;和重复上述步骤,直至达到预定次数,以得到各个分类对应的训练集数据。
4.如权利要求3所述的基于K近邻方法的加权收缩方法,其特征在于,根据以下公式计 算收缩后各个样本点的权重值wnew = a (w!+w2)其中,a为小于1的非负系数,Wl和w2分别为被收缩两个训练样本的权重。
5.如权利要求4所述的基于K近邻方法的加权收缩方法,其特征在于,所述a为 0. 5-0. 9。
6.如权利要求3所述的基于K近邻方法的加权收缩方法,其特征在于,其中,所述各个 训练样本之间的距离为欧式空间距离。
7.如权利要求6所述的基于K近邻方法的加权收缩方法,其特征在于,其中,通过以下 公式计算所述欧式空间距离d{xt,Xs) = 、4(Xti -xj2其中,xt、xs分别表示第t、s个样本点,n表示样本数据的分量数。
8.如权利要求1所述的基于K近邻方法的加权收缩方法,其特征在于,所述根据距离测 试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类包括 选择距离所述测试样本最近的训练集数据中K个样本点;根据所述K个样本点的权重值计算所述测试样本相对于各类分类的权重值,并选择权 重值大的分类作为所述测试样本的分类。
全文摘要
本发明提出一种基于K近邻方法的加权收缩方法,包括以下步骤划分样本集中的属于各个分类的训练样本和测试样本;对每个分类中的训练样本分别进行预定次数的样本点收缩以得到各个分类对应的训练集数据,并计算收缩后各个样本点的权重值;和根据距离所述测试样本最近的训练集数据中K个样本点的权重值对所述测试样本进行分类。本发明在考虑提高计算机运算速度、降低运算复杂度的同时,还能够保证分类的正确率。
文档编号G06K9/62GK101866426SQ20101021220
公开日2010年10月20日 申请日期2010年6月21日 优先权日2010年6月21日
发明者徐琨, 戴琼海 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1