一种快速精确的粒球近邻分类算法的制作方法

文档序号：12468824阅读：来源：国知局

技术特征：

1.本发明涉及一种快速精确近邻分类算法，其特征在于：该算法使用被查询点到少量的粒球的距离来替代样本点之间的距离的直接计算，使得该算法的算法效率远高于现有的精确k最近算法，并且还能够获得更好的算法分类精度，算法给定数据集D∈Rd，基于实验经验，如果算法在三次迭代后也没有得到一个更好的精度，则算法收敛。这也是本算法的收敛条件。算法具体步骤为：

1)选取两类样本点作为两个粒球；

2)计算所有粒球的标签；

3)计算每个样本点到各粒球的距离；

4)每个样本的标签等于其距离最近的粒球的标签；

5)如果训练精度达到截至条件则算法终止；否则转向步骤6；

6)生成更多的粒球数，并转向步骤2。

2.如权利要求1所述的粒球近邻算法，其特征在于：步骤3中，样本点到粒球的距离计算如图1所示，其值等于样本点到粒球球心的距离减去粒球的半径。

3.如权利要求1所述的粒球近邻算法，其特征在于：在步骤6中，粒球的分裂使用k-means聚类算法，因为k-means算法容易产生球类簇。k-means的时间复杂度为O(Nkt)。在大小为几百到上亿的数据集中，算法中k-means球体的生成总数没有超过50，所以算法中的球体生成步骤的时间复杂度可基本认为是近线性的。当所有粒球生成后，由于粒球的半径和球心构成的数据量很小，使用粒球进行分类或是回归预测的时间基本是可以忽略的。因此，本算法的时间复杂度可看成近线性的-O(n)，这种时间复杂度远低于现有的精度k近邻算法。由于算法中精确考虑了粒球的半径和中心，这种低复杂度并不是以牺牲精度为代价的，事实上，由于算法能够产生边界，使得粒球最近邻算法除了低时间复杂度外，算法能够具有更高的平均预测精度，且能够更好的容纳噪声点。

完整全部详细技术资料下载

当前第2页1 2 3