类噪音检测方法、装置和损失函数计算方法、装置的制造方法

文档序号:9887950阅读:271来源:国知局
类噪音检测方法、装置和损失函数计算方法、装置的制造方法
【技术领域】
[0001] 本申请涉及机器学习领域,尤其涉及一种类噪音检测方法、装置和损失函数计算 方法、装置。
【背景技术】
[0002] 在机器学习 (Machine learning)领域,主要有三类不同的学习方法:监督学习 (Supervised learning)、半监督学习(Semi-supervised learning)和非监督学习 (Unsupervised learning)。
[0003] 目前基于有标签数据的有监督学习方法是机器学习领域用于解决实际应用中分 类问题的主流方法。此类方法利用训练数据中有标注的样本训练分类器,用于预测未标注 样本的类别标签。
[0004] 但是,在实际应用问题中,来自人工标注或实验结果的样本标注,往往因为各种原 因,存在一定比例的误标注情况,即用于训练的有标注样本其标注标签有一定比例的错误。
[0005] 针对这一情况,目前基于统计权重边切割的方法在解决这一问题上显示出了一定 的能力。但是,这一方法往往依赖于先验知识,即数据的期望和方差的先验分布;其对噪音 的估计往往比实际噪音比例要高,而过高的估计了噪音的比例则会影响最终用于训练数据 的规模,这一现象往往比噪音本身对分类器性能的伤害更大。

【发明内容】

[0006] 为解决上述问题,本申请提供一种类噪音检测方法、装置和损失函数计算方法、装 置。
[0007] 根据本申请的第一方面,本申请提供一种类噪音检测方法,用于有监督学习中,包 括以下步骤:
[0008] 最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方 法选择训练集之中与其最相似的若干个样本0/,?),其中j = l、2、3、…、k,k为正整数;
[0009] 信号函数计算步骤:计算信号函数I&其中

[0010] 相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之 间的相似度wij,wij = sim(xi,xj);
[0011] ^范数计算步骤:计算|wi| |ι,其中
[0012]12范数计算步骤:计算12范数||¥川2,其中
[0013]噪音率计算步骤:计算所述训练样本(?灸)的噪音率Pc(Xl),其中矸(X,)=
[0014] 根据本申请的第二方面,本申请提供一种损失函数计算方法,包括以下步骤:
[0015] 使用如权利要求1至4中任一项所述的类噪音检测方法对所述优化学习方法中的 原损失函数KfOi),负)加权,以计算新损失函数〖(/(而),?),计算公式为
其中η为训练集之中训练样本的总 数。
[0016] 根据本申请的第三方面,本申请提供一种类噪音检测装置,用于有监督学习中,其 特征在于,包括:
[0017] 最相似样本选择模块,用于对于训练集之中任一训练样本使用无参数分 类方法选择训练集之中与其最相似的若干个样本h)其中j = l、2、3、…、k,k为正整 数;
[0018] 信号函数计算模块,用于计算信号函数I&其弓
[0019] 相似度计算模块,用于分别计算所述训练样本(%只)与选择出的最相似的各样本 之间的相似度wij,wij = simUi,xj);
[0020] li范数计算模块,用于计算li范数| |wi| |ι,其c
[0021] 12范数计算模块,用于计算12范数| |wi| h,其c
[0022] 噪音率计算模块,用于计算所述训练样本〇^,为)的噪音率Pc (Xl),其中
[0023] 根据本申请的第四方面,本申请提供一种损失函数计算装置,包括:
[0024] -模块,其用于使用如权利要求8至9中任一项所述的类噪音检测模块对原损失函 数只)加权,以计算新损失函数,计算公式为
其中η为训练集之中训练样本的总 数。
[0025]本申请的有益效果是:
[0026]依上述实施的类噪音检测方法和装置,计算训练样本的噪音率过程中不需要任何 先验知识,且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现 象,因而能更加准确的反应出标注的训练样本其标签错误的概率。
[0027] 依上述实施的损失函数计算方法和装置,由于对训练集的损失函数进行基于类噪 音的加权,因而所训练的分类器具有良好的抗类噪音性能。
【附图说明】
[0028] 图1为本申请一种实施例的类噪音检测方法的流程示意图;
[0029] 图2为本申请一种实施例的类噪音检测方法的结构示意图;
[0030] 图3为本申请一种实施例的结果性能说明图。
【具体实施方式】
[0031] 下面通过【具体实施方式】结合附图对本申请作进一步详细说明。
[0032] 实施例一:
[0033] 基于有标签数据的有监督学习方法,利用训练数据中有标注的样本训练分类器, 用于预测未标注样本的类别标签。这里样本可以看成是输入,样本的标签可以看成是输出, 有标注的样本,是指已知一个样本和它的标签,从数学角度上看,就是已知输入和输出,因 此,这些有标注的样本构成了训练集,利用已知的样本和其标签,可以训练分类器。这里的 一个关键是,有标注的样本的正确性,即样本和其标签的正确性,若不正确,都会极大影响 到所训练的分类器。对有监督学习中的分类问题,需要处理有标注的样本中,其中就可能存 在有标注的样本的标签错误的情况,对于半监督分类问题,需要先处理无标注的样本,对无 标注的样本的可能类别标签的判断可以会出现错误的情况;以上情况都需要识别出来。
[0034] 现有技术也尝试解决这一问题,但现有技术在解决此问题时,依赖于先验知识,即 训练样本的期望和方差的先验分布,并且其对噪音的估计往往比实际噪音比例要高,而过 高的估计了噪音的比例则会影响最终用于训练数据的规模,这一现象往往比噪音本身对分 类器性能的伤害更大。
[0035] 为此,本申请提出一种类噪音检测方法,具体地,提出一种有监督学习中的类噪音 检测方法。
[0036]请参照图1,本实施的有监督学习中的类噪音检测方法包括以下步骤:
[0037] S11、最相似样本选择步骤:对于训练集之中任一训练样本(%,%),使用无参数分 类方法选择训练集之中与其最相似的若干个样本为),其中j = 1、2、3、…、k,k为正整 数。在一实施例中,上述的无参数分类方法为k近邻图方法或帕森窗方法。这里所选取的若 干个样本以及k的值,依据所使用的无参数分类方法,有可能会有不同。
[0038] S13、信号函数计算步骤:计算信号函数I&其中
[0039] S15、相似度计算步骤:分别计算所述训练样本,於)与选择出的最相似的各样 本之间的相似度¥^,'\¥^ = 8;[1]1^,1」)。在一实施例中,可采用可标准化的连续且对称的相似 度计算方法来计算相似度Wij。例如,相似度计算方法为基于汉明距离的相似度计算方法、基 于余弦的相似度计算方法、基于欧几里得距离的相似度计算方法或基于In范数的相似度计 算方法等。
[0040] S17、li范数计算步骤:计算li范数I I Wi I 11,其中
[0041] S19、l2范数计算步骤:计算12范数| | Wi | 12,其中
[0042] S21、噪音率计算步骤:计算所述训练样本(X/,负)的噪音率Pc (Xl),其中
[0043] 相就地,本实施还提出一种类噪音检测装置,具体地,提出一种有监督学习中的类 噪音检测装置。
[0044] 请参照图2,本实施例的有监督学习中的类噪音检测装置包括最相似样本选择模 块11、信号函数计算模块13、相似度计算模块15、h范数计算模块17、1 2范数
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1