一种机器学习训练集缩减方法

文档序号：9631699阅读：819来源：国知局

一种机器学习训练集缩减方法
【技术领域】
[0001] 本发明涉及计算机技术领域，涉及机器学习，具体地说是一种用于缩减机器学习中训练集的方法，可以提高机器学习的速度，减少内存开销。
【背景技术】
[0002] 机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动"学习"的算法。机器学习的具体过程是利用算法从一类数据或信息中自动分析并获得该类数据或信息的规律(这些用来分析的数据就是训练集)，并利用获取的规律对未知数据进行预测。所以，机器学习可以应用在数据挖掘中，从海量的数据和信息中，找到有利用价值的信息。因为学习算法中涉及了大量的统计学理论，机器学习与统计推断学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。机器学习的应用也十分广泛，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。同时与传统方法相比机器学习技术的应用可以大大降低人工成本，并提高工作效率和精度。
[0003] 但是机器学习方法也有缺点。为了提高机器学习的精确度，往往需要使用较大的训练集。而由于训练集过大，机器学习方法的学习效率就会降低，内存开销也会增大。
[0004] 作者为罗瑜、易文德、何大可、林宇等于2007年8月在刊名为《西南交通大学学报》的期刊上发表了题名为"大规模训练集的快速缩减"论文，刊载在第42卷第4期。其主要内容是"为了进一步减少支持向量机的训练时间，该论文提出了一种基于类别质心的训练集缩减算法，该算法根据样本的几何分布去除训练集中大部分非支持向量，对样本规模在1〇 4 数量级的数据集进行了训练实验，结果显示，在基本不损失分类精度的情况下，训练时间比直接用SM0(序贯最小优化）算法减少30%，说明该算法能有效地提高支持向量机的训练速度。
[0005] 但以上述专利文献为代表的大规模训练集缩减方法，其仍然存在以下缺点： (1)该方法缩减训练集后，训练集中仍然有大量无用向量。众所周知支持向量机只需要靠近其它类的边缘的向量即可，上述方法筛选后的向量却包含了大量靠近类中心远离边缘的无用向量。
[0006](2)无法适用于多类分类的训练集的缩减。从文中我们不难知道，这是一个两类分类专用的缩减方法，该方法的缩减一个类时依赖于其它类的辅助，在面对多类分类时，由于类分布不定，故其缩减效果将大大下降，甚至可能不能缩减任何向量。

【发明内容】

[0007] 本发明旨在针对上述现有技术所存在的缺陷和不足，提供一种机器学习训练集缩减方法，本方法可以弥补机器学习方法的上述缺点与不足，通过这种训练集压缩方法不仅可以提高机器学习的学习速度，减少内存开销，同时也可以在一定程度上减少训练集中的噪声，提高分类的精确度。
[0008] 本发明是通过采用下述技术方案实现的：一种机器学习训练集缩减方法，其特征在于步骤如下： (1) 定义A类的中心公式为
，其中S是A类中样本的个数，Xl则是A类中的样本的向量； (2) 计算A类的中心点p; (3) 从A类中取出一个向量点X，计算向量点X到中心点p的距离d，如果d小于筛选因子λ，就将X从A类中删除； (4) 重复步骤（3)检验A类中的所有向量点，如果A类中剩余的向量点的个数S小于阀值α，则进行步骤（6);如果A类中剩余的向量点的个数S大于阀值α，则进行步骤（5); (5) 重复步骤（2)、（3)、（4)，完成后进行步骤（6); (6) 将Α中剩余的向量点作为新的训练集输出。
[0009] 本机器学习训练集缩减方法进行应用的步骤如下： a、首先准备机器学习系统使用的训练集，训练集是由一类已知所属类别的数据或信息组成； b、将准备好的训练集放入机器学习训练集缩减方法中，机器学习训练集缩减方法挑选有用的训练数据生成新的缩减后的训练集； c、机器学习系统使用缩减后的训练集，训练机器学习系统中的算法模型如SVM模型， CBC(基于质心分类）模型等，最后生成分类器； d、使用所述分类器从未知数据中分类，提取信息。
[0010] 与现有技术相比，本发明所达到的有益效果如下：一、采用本发明所述的（1)- (6)的方式对训练集进行缩减，与以罗瑜、易文德、何大可、林宇的"大规模训练集的快速缩减"论文为代表的现有技术相比，（1)本发明正是通过删除类中心附近的无用向量，来缩减训练集。故本发明可以更有效的缩减训练集。（2)在面对多类分类问题时，因为本发明从单个类出发，不需要其它类的辅助，所以仍然可以有效使用。
[0011] 二、本发明还具有如下技术效果： (1 )本发明可以极大的缩减机器学习中的训练集，同时有保存了支持向量，这既可以提高机器学习方法的学习速度，减少内存的开销和机器学习训练过程中的工作量，又可以不影响决策函数的推广能力。
[0012] ( 2 )本发明时间复杂度和空间复杂度较低，可以快速实现机器学习中的训练集的缩减，提高了机器学习系统的整体工作效率。
[0013] ( 3 )本发明应用范围广，机器学习方法中大多数模型都可以使用，如SVM(支持向量机）模型，CBC(基于质心分类）模型等模型，这使得本发明极易推广。
[0014]( 4 )本发明支持同时对多类训练集进行压缩，相比于只支持两类训练集压缩方法具有明显优势。在面对复杂多类训练集时，处理速度更快。
【附图说明】
[0015] 下面将结合说明书附图和【具体实施方式】对本发明作进一步的详细说明，其中：图1示出训练集缩减方法的工作过程图。
[0016] 图2示出训练集缩减方法的原理图。
[0017] 图3示出训练集缩减方法的步骤图。
【具体实施方式】
[0018] 实施例1 作为本发明的最佳实施方式，本发明公开了一种机器学习训练集缩减方法，其步骤如下： (1) 定义A类的中心公式为
，其中S是A类中样本的个数，Xl则是A类中的样本的向量； (2) 计算A类的中心点p; (3) 从A类中取出一个向量点X，计算向量点X到中心点p的距离d，如果d小于筛选因子λ，就将X从A类中删除； (4) 重复步骤（3)检验A类中的所有向量点，如

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘川;汪文勇;王蒙;
技术所有人：电子科技大学;
我是此专利的发明人

上一篇：火电厂采暖负荷的计算方法
上一篇：一种中医针灸领域实体关系自动抽取的实现方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。