一种机器学习训练集缩减方法

文档序号:9631699阅读:819来源:国知局
一种机器学习训练集缩减方法
【技术领域】
[0001] 本发明涉及计算机技术领域,涉及机器学习,具体地说是一种用于缩减机器学习 中训练集的方法,可以提高机器学习的速度,减少内存开销。
【背景技术】
[0002] 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、 凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以 自动"学习"的算法。机器学习的具体过程是利用算法从一类数据或信息中自动分析并获 得该类数据或信息的规律(这些用来分析的数据就是训练集),并利用获取的规律对未知数 据进行预测。所以,机器学习可以应用在数据挖掘中,从海量的数据和信息中,找到有利用 价值的信息。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为 密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的 学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理 的近似算法。机器学习的应用也十分广泛,例如:数据挖掘、计算机视觉、自然语言处理、生 物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手 写识别、战略游戏和机器人运用等。同时与传统方法相比机器学习技术的应用可以大大降 低人工成本,并提高工作效率和精度。
[0003] 但是机器学习方法也有缺点。为了提高机器学习的精确度,往往需要使用较大的 训练集。而由于训练集过大,机器学习方法的学习效率就会降低,内存开销也会增大。
[0004] 作者为罗瑜、易文德、何大可、林宇等于2007年8月在刊名为《西南交通大学学报》 的期刊上发表了题名为"大规模训练集的快速缩减"论文,刊载在第42卷第4期。其主要内 容是"为了进一步减少支持向量机的训练时间,该论文提出了一种基于类别质心的训练集 缩减算法,该算法根据样本的几何分布去除训练集中大部分非支持向量,对样本规模在1〇 4 数量级的数据集进行了训练实验,结果显示,在基本不损失分类精度的情况下,训练时间 比直接用SM0(序贯最小优化)算法减少30%,说明该算法能有效地提高支持向量机的训练 速度。
[0005] 但以上述专利文献为代表的大规模训练集缩减方法,其仍然存在以下缺点: (1)该方法缩减训练集后,训练集中仍然有大量无用向量。众所周知支持向量机只需要 靠近其它类的边缘的向量即可,上述方法筛选后的向量却包含了大量靠近类中心远离边缘 的无用向量。
[0006](2)无法适用于多类分类的训练集的缩减。从文中我们不难知道,这是一个两类分 类专用的缩减方法,该方法的缩减一个类时依赖于其它类的辅助,在面对多类分类时,由于 类分布不定,故其缩减效果将大大下降,甚至可能不能缩减任何向量。

【发明内容】

[0007] 本发明旨在针对上述现有技术所存在的缺陷和不足,提供一种机器学习训练集缩 减方法,本方法可以弥补机器学习方法的上述缺点与不足,通过这种训练集压缩方法不仅 可以提高机器学习的学习速度,减少内存开销,同时也可以在一定程度上减少训练集中的 噪声,提高分类的精确度。
[0008] 本发明是通过采用下述技术方案实现的: 一种机器学习训练集缩减方法,其特征在于步骤如下: (1) 定义A类的中心公式为
,其中S是A类中样本的个数,Xl则是A类 中的样本的向量; (2) 计算A类的中心点p; (3) 从A类中取出一个向量点X,计算向量点X到中心点p的距离d,如果d小于筛选因 子λ,就将X从A类中删除; (4) 重复步骤(3)检验A类中的所有向量点,如果A类中剩余的向量点的个数S小于阀 值α,则进行步骤(6);如果A类中剩余的向量点的个数S大于阀值α,则进行步骤(5); (5) 重复步骤(2)、(3)、(4),完成后进行步骤(6); (6) 将Α中剩余的向量点作为新的训练集输出。
[0009] 本机器学习训练集缩减方法进行应用的步骤如下: a、 首先准备机器学习系统使用的训练集,训练集是由一类已知所属类别的数据或信息 组成; b、 将准备好的训练集放入机器学习训练集缩减方法中,机器学习训练集缩减方法挑选 有用的训练数据生成新的缩减后的训练集; c、 机器学习系统使用缩减后的训练集,训练机器学习系统中的算法模型如SVM模型, CBC(基于质心分类)模型等,最后生成分类器; d、 使用所述分类器从未知数据中分类,提取信息。
[0010] 与现有技术相比,本发明所达到的有益效果如下: 一、采用本发明所述的(1)- (6)的方式对训练集进行缩减,与以罗瑜、易文德、何大可、 林宇的"大规模训练集的快速缩减"论文为代表的现有技术相比,(1)本发明正是通过删除 类中心附近的无用向量,来缩减训练集。故本发明可以更有效的缩减训练集。(2)在面对多 类分类问题时,因为本发明从单个类出发,不需要其它类的辅助,所以仍然可以有效使用。
[0011] 二、本发明还具有如下技术效果: (1 )本发明可以极大的缩减机器学习中的训练集,同时有保存了支持向量,这既可以 提高机器学习方法的学习速度,减少内存的开销和机器学习训练过程中的工作量,又可以 不影响决策函数的推广能力。
[0012] ( 2 )本发明时间复杂度和空间复杂度较低,可以快速实现机器学习中的训练集 的缩减,提高了机器学习系统的整体工作效率。
[0013] ( 3 )本发明应用范围广,机器学习方法中大多数模型都可以使用,如SVM(支持 向量机)模型,CBC(基于质心分类)模型等模型,这使得本发明极易推广。
[0014]( 4 )本发明支持同时对多类训练集进行压缩,相比于只支持两类训练集压缩方 法具有明显优势。在面对复杂多类训练集时,处理速度更快。
【附图说明】
[0015] 下面将结合说明书附图和【具体实施方式】对本发明作进一步的详细说明,其中: 图1示出训练集缩减方法的工作过程图。
[0016] 图2示出训练集缩减方法的原理图。
[0017] 图3示出训练集缩减方法的步骤图。
【具体实施方式】
[0018] 实施例1 作为本发明的最佳实施方式,本发明公开了一种机器学习训练集缩减方法,其步骤如 下: (1) 定义A类的中心公式为
,其中S是A类中样本的个数,Xl则是A类 中的样本的向量; (2) 计算A类的中心点p; (3) 从A类中取出一个向量点X,计算向量点X到中心点p的距离d,如果d小于筛选因 子λ,就将X从A类中删除; (4) 重复步骤(3)检验A类中的所有向量点,如
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1