一种有标签训练集的有效性评估方法

文档序号:8473081阅读:493来源:国知局
一种有标签训练集的有效性评估方法
【技术领域】
[0001] 本发明涉及大数据领域,涉及机器学习训练集评估方法,具体地说是一种衡量有 标签训练集内在规律大小的评估方法,该方法可取代交叉验证方法,用在机器学习的训练 集选择中,也可以作为特征选择算法性能以及特征降维算法性能的评价方法。
【背景技术】
[0002] 随着计算机技术全面融入社会生活,我们拥有的数据越来越多,种类也包括图片、 文本、视频等非结构化数据,信息的爆炸式增长已经积累到了一个开始引发变革的程度。它 不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致 了信息形态的变化,量变引发了质变。最先经历信息爆炸的学科,如天文学和基因学,创造 出了"大数据"这个概念。大数据的核心是利用数据的价值,机器学习是利用数据价值的关 键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会 越可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算 与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。大数据与机 器学习两者是互相促进,相依相存的关系。
[0003] 机器学习是目前业界最为火热的一项技术,从网上的每一次淘宝的购买东西,到 自动驾驶汽车技术,以及网络攻击抵御系统等等,都有机器学习的因子在内,同时机器学习 也是最有可能使人类完成Aldream的一项技术,各种人工智能目前的应用,如微软小冰聊 天机器人,到计算机视觉技术的进步,都有机器学习努力的成分。
[0004] 统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统 计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算 法,就是源自统计学科。机器学习中的"训练"与"预测"过程可以对应到人类的"归纳"和 "推测"过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在 生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程 不是因果的逻辑,而是通过归纳思想得出的相关性结论。从广义上来说,机器学习是一种能 够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上 来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
[0005] 机器学习方法是计算机利用已有的数据(经验),得出了某种模型(规律),并利 用此模型预测未来的一种方法。该方法的前提是已有的数据中包含某种规律,如果数据本 身就是杂乱无章的,无论使用什么高效的算法也不会有好的预测效果。实际上,随着我们掌 握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有 很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数 据的增多而指数级地增长。大数据时代的特征之一就是,"重大"发现的数量被数据扩张带 来的噪音所淹没。
[0006] 根据我们所能查阅和了解到资料分析认为,目前在机器学习中训练集的选择一般 采用交叉验证方法,该方法具有较高的时间复杂度和计算复杂度。

【发明内容】

[0007] 本发明旨在针对上述现有技术所存在的缺陷和不足,提供一种有标签训练集的有 效性评估方法,本方法直接计算训练集的LW指标,从而得出与交叉验证方法类似的结论, 且显著减少了计算复杂度,具有很高的实用价值。
[0008] 本发明是通过采用下述技术方案实现的:
[0009] -种有标签训练集的有效性评估方法,其特征在于步骤如下:
[0010] A:针对训练集中的每一种类别Ci,iG[1,n。],计算所述(^类别中所有样本点的均 值点〇i,ie[l,n。],其中n。为类别数;
[0011]B:针对训练集中的每一种类别Ci,ie[l,n。],计算所述Ci类别的半径
【主权项】
1. 一种有标签训练集的有效性评估方法,其特征在于步骤如下: A;针对训练集中的每一种类别C。iG[l,n。],计算所述C漢别中所有样本点的均值点 0。iG[1,n。],其中n。为类别数; B;针对训练集中的每一种类别C。iG[l,n。],计算所述Ci类别的半径
其中如,111£ [1,M]为类别C冲离其均值点0南远的M个样本点,M为 经验参数; C;针对训练集中的每一种类别C。iG[l,n。],计算所述C漢别的所有样本点的均值点 〇i到其余类别均值点0j,j声i&je[1,nj的距离d(〇i,Oj); D;针对训练集中的每一种类别Ci,iG[l,n。],计算Ci类别相对于其余类别的间 隔巫i|j,j声i&jE[l,n。],计算步骤为;若d(〇i,〇j)<Max(ri,;rj)成么转至D01步;若 d(〇i,Oj) ^MaxCr^fj)成立,转至D02步,其中MaxCr^fj)代表取r。之中最大的一个; D01 ;类别Ci相对于其余类别的间隔〇i|j=d(o^〇j)-("rj); D02 ;类别Ci相对于其余类别的间隔
其 中,片-,kG[1,口为类别C冲离类别Ci的均值点0i最近的K个样本点;托kG[1,口为 类别Ci中离类别Cj.的均值点0j.最近的K个样本点;iIj代表Ci类别相对于Cj.类别的意思; E;训练集W的LW指标计算为:
2. 根据权利要求1所述的一种有标签训练集的有效性评估方法,其特征在于;A步骤 中,所述样本点是指Ci类别中的一个实例。
【专利摘要】本发明公开了一种有标签训练集的有效性评估方法,是评价机器学习中训练集内部存在规律大小的一种方法。其步骤为A:针对训练集中的每一种类别,计算该类别中所有样本点的均值点;B:计算所述该类别的半径;C:计算所述该类别的所有样本点的均值点到其余类别均值点的距离;D:计算该类别相对于其余类别的间隔;E:训练集Ψ的LW指标计算为:该方法可以帮助我们识别有噪声的数据,指导我们有针对性地选择有价值的数据进行学习。同时,该方法也可以作为特征选择算法性能以及特征降维算法性能的评价方法。
【IPC分类】G06F17-30
【公开号】CN104794248
【申请号】CN201510249560
【发明人】刘川, 汪文勇, 黄鹂声, 唐勇
【申请人】电子科技大学
【公开日】2015年7月22日
【申请日】2015年5月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1