类噪音检测方法、装置和损失函数计算方法、装置的制造方法

文档序号：9887950阅读：271来源：国知局

类噪音检测方法、装置和损失函数计算方法、装置的制造方法
【技术领域】
[0001] 本申请涉及机器学习领域，尤其涉及一种类噪音检测方法、装置和损失函数计算方法、装置。
【背景技术】
[0002] 在机器学习（Machine learning)领域，主要有三类不同的学习方法：监督学习 (Supervised learning)、半监督学习（Semi-supervised learning)和非监督学习 (Unsupervised learning)。
[0003] 目前基于有标签数据的有监督学习方法是机器学习领域用于解决实际应用中分类问题的主流方法。此类方法利用训练数据中有标注的样本训练分类器，用于预测未标注样本的类别标签。
[0004] 但是，在实际应用问题中，来自人工标注或实验结果的样本标注，往往因为各种原因，存在一定比例的误标注情况，即用于训练的有标注样本其标注标签有一定比例的错误。
[0005] 针对这一情况，目前基于统计权重边切割的方法在解决这一问题上显示出了一定的能力。但是，这一方法往往依赖于先验知识，即数据的期望和方差的先验分布;其对噪音的估计往往比实际噪音比例要高，而过高的估计了噪音的比例则会影响最终用于训练数据的规模，这一现象往往比噪音本身对分类器性能的伤害更大。

【发明内容】

[0006] 为解决上述问题，本申请提供一种类噪音检测方法、装置和损失函数计算方法、装置。
[0007] 根据本申请的第一方面，本申请提供一种类噪音检测方法，用于有监督学习中，包括以下步骤：
[0008] 最相似样本选择步骤:对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本0/,?)，其中j = l、2、3、…、k，k为正整数；
[0009] 信号函数计算步骤:计算信号函数I&其中

[0010] 相似度计算步骤:分别计算所述训练样本与选择出的最相似的各样本之间的相似度wij，wij = sim(xi，xj);
[0011] ^范数计算步骤:计算|wi| |ι，其中
[0012]12范数计算步骤:计算12范数||￥川2，其中
[0013]噪音率计算步骤：计算所述训练样本(?灸）的噪音率Pc(Xl)，其中矸(X，）=
[0014] 根据本申请的第二方面，本申请提供一种损失函数计算方法，包括以下步骤：
[0015] 使用如权利要求1至4中任一项所述的类噪音检测方法对所述优化学习方法中的原损失函数KfOi)，负）加权，以计算新损失函数〖(/(而),?)，计算公式为
其中η为训练集之中训练样本的总数。
[0016] 根据本申请的第三方面，本申请提供一种类噪音检测装置，用于有监督学习中，其特征在于，包括：
[0017] 最相似样本选择模块，用于对于训练集之中任一训练样本使用无参数分类方法选择训练集之中与其最相似的若干个样本h)其中j = l、2、3、…、k，k为正整数；
[0018] 信号函数计算模块，用于计算信号函数I&其弓
[0019] 相似度计算模块，用于分别计算所述训练样本(％只）与选择出的最相似的各样本之间的相似度wij，wij = simUi，xj);
[0020] li范数计算模块，用于计算li范数| |wi| |ι，其c
[0021] 12范数计算模块，用于计算12范数| |wi| h，其c
[0022] 噪音率计算模块，用于计算所述训练样本〇^,为）的噪音率Pc (Xl)，其中
[0023] 根据本申请的第四方面，本申请提供一种损失函数计算装置，包括：
[0024] -模块，其用于使用如权利要求8至9中任一项所述的类噪音检测模块对原损失函数只）加权，以计算新损失函数，计算公式为
其中η为训练集之中训练样本的总数。
[0025]本申请的有益效果是：
[0026]依上述实施的类噪音检测方法和装置，计算训练样本的噪音率过程中不需要任何先验知识，且计算出来的结果不存在传统技术中对于训练样本的类噪音往往过高估计的现象，因而能更加准确的反应出标注的训练样本其标签错误的概率。
[0027] 依上述实施的损失函数计算方法和装置，由于对训练集的损失函数进行基于类噪音的加权，因而所训练的分类器具有良好的抗类噪音性能。
【附图说明】
[0028] 图1为本申请一种实施例的类噪音检测方法的流程示意图；
[0029] 图2为本申请一种实施例的类噪音检测方法的结构示意图；
[0030] 图3为本申请一种实施例的结果性能说明图。
【具体实施方式】
[0031] 下面通过【具体实施方式】结合附图对本申请作进一步详细说明。
[0032] 实施例一：
[0033] 基于有标签数据的有监督学习方法，利用训练数据中有标注的样本训练分类器，用于预测未标注样本的类别标签。这里样本可以看成是输入，样本的标签可以看成是输出，有标注的样本，是指已知一个样本和它的标签，从数学角度上看，就是已知输入和输出，因此，这些有标注的样本构成了训练集，利用已知的样本和其标签，可以训练分类器。这里的一个关键是，有标注的样本的正确性，即样本和其标签的正确性，若不正确，都会极大影响到所训练的分类器。对有监督学习中的分类问题，需要处理有标注的样本中，其中就可能存在有标注的样本的标签错误的情况，对于半监督分类问题，需要先处理无标注的样本，对无标注的样本的可能类别标签的判断可以会出现错误的情况;以上情况都需要识别出来。
[0034] 现有技术也尝试解决这一问题，但现有技术在解决此问题时，依赖于先验知识，即训练样本的期望和方差的先验分布，并且其对噪音的估计往往比实际噪音比例要高，而过高的估计了噪音的比例则会影响最终用于训练数据的规模，这一现象往往比噪音本身对分类器性能的伤害更大。
[0035] 为此，本申请提出一种类噪音检测方法，具体地，提出一种有监督学习中的类噪音检测方法。
[0036]请参照图1，本实施的有监督学习中的类噪音检测方法包括以下步骤：
[0037] S11、最相似样本选择步骤:对于训练集之中任一训练样本(％,%)，使用无参数分类方法选择训练集之中与其最相似的若干个样本为），其中j = 1、2、3、…、k，k为正整数。在一实施例中，上述的无参数分类方法为k近邻图方法或帕森窗方法。这里所选取的若干个样本以及k的值，依据所使用的无参数分类方法，有可能会有不同。
[0038] S13、信号函数计算步骤:计算信号函数I&其中
[0039] S15、相似度计算步骤:分别计算所述训练样本，於)与选择出的最相似的各样本之间的相似度￥^，'\￥^ = 8；[1]1^，1」）。在一实施例中，可采用可标准化的连续且对称的相似度计算方法来计算相似度Wij。例如，相似度计算方法为基于汉明距离的相似度计算方法、基于余弦的相似度计算方法、基于欧几里得距离的相似度计算方法或基于In范数的相似度计算方法等。
[0040] S17、li范数计算步骤:计算li范数I I Wi I 11，其中
[0041] S19、l2范数计算步骤:计算12范数| | Wi | 12,其中
[0042] S21、噪音率计算步骤：计算所述训练样本（X/,负）的噪音率Pc (Xl)，其中
[0043] 相就地，本实施还提出一种类噪音检测装置，具体地，提出一种有监督学习中的类噪音检测装置。
[0044] 请参照图2,本实施例的有监督学习中的类噪音检测装置包括最相似样本选择模块11、信号函数计算模块13、相似度计算模块15、h范数计算模块17、1 2范数

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐睿峰;桂林;杜嘉晨;陆勤;
技术所有人：哈尔滨工业大学深圳研究生院;
我是此专利的发明人

上一篇：互联网非药物干预多囊卵巢综合症的健康管理方法
上一篇：一种疾病因素数据处理方法和系统的制作方法