基于设置总的错分率的可控置信机器算法

文档序号：8259576阅读：323来源：国知局

基于设置总的错分率的可控置信机器算法
【技术领域】
[0001] 本发明属于机器学习领域，尤其涉及一种基于设置总的错分率的可控置信机器算法。
【背景技术】
[0002] 置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研宄时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。
[0003] 2005 年由 Vladimir Vovk，Alexander Gammerman，Glenn Shafer 出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研宄与发展期刊Vol. 41，No. 9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。
[0004] 现有的方案有以下几个问题：
[0005] (1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后总的错分率控制与当初预设值比较，有时差距会很大。
[0006] (2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

【发明内容】

[0007] 本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法，其解决现有技术的置信控制的精度不够，置信控制不够灵活的问题。
[0008] 本发明实施例是这样实现的，一方面，一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：
[0009] 确定待分类的未知二元样本；
[0010] 利用二类分类器对未知二元样本进行二元置信分类；
[0011] 将二元置信分类结果转换成未知二元样本的输出值（Output Score);
[0012] 根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围（-t，t);
[0013] 如未知二元样本的输出值（Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值（Output Score)不属于该阈值范围，将未知样本分配到接受域。
[0014] 可选的，所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围 (-t，t)的实现方法具体为：
[0015] 设定等距离步长和理想错分率，以原点为基准，以等距离步长向左、右一步步的移动阈值范围（-ti，ti)，当阈值（-ti，ti)满足已知二元样本的理想错分率时，确定阈值（-ti， ti)为未知二元样本的理想错分率对应的阈值范围（-t，t)。
[0016] 可选的，，所述以等距离步长向左、右一步步的移动阈值范围（-tp 具体为：
[0017] 如向左移动阈值范围的已知二元样本的错分率多，则先向左移动阈值，然后在向右移动阈值；
[0018] 如向右移动阈值范围的已知二元样本的错分率多，则先向右移动阈值，然后在向左移动阈值。
[0019] 在本发明实施例中，本发明提供的技术方案从原点出发，并设置等距离步长及总的错分率，向两边一步一步地寻求满足错分率的阈值，控制精度，实现灵活控制。
【附图说明】
[0020] 图1是本发明提供的一种基于设置总的错分率的可控置信机器算法的流程图。
【具体实施方式】
[0021] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0022] 本发明【具体实施方式】提供一种基于设置总的错分率的可控置信机器算法，上述方法由置信机器执行，该方法如图1所示，包括如下步骤：
[0023] 101、确定待分类的未知二元样本；
[0024] 102、利用二类分类器对未知二元样本进行二元置信分类；
[0025] 103、将二元置信分类结果转换成未知二元样本的输出值（Output Score);
[0026] 104、根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围（_t， t)；
[0027] 105、如未知二元样本的输出值（Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值（Output Score)不属于该阈值范围，将未知样本分配到接受域。
[0028] 本发明提供的具体方案通过理想输出值（Output Score)值计算该错分率的阈值范围，所以其能够根据实际情况调整阈值，所以其具有分类准确率高的优点，
[0029] 可选的，上述104的实现方法具体可以为：
[0030] 设定等距离步长和理想错分率，以原点为基准，以等距离步长向左、右一步步（即等距离逐步移动）的移动阈值范围（-tp h)，当阈值（-tp h)满足已知二元样本的理想错分率时，确定阈值（-tph)为未知二元样本的理想错分率对应的阈值范围
[0031] 可选的，上述以等距离步长向左、右一步步的移动阈值范围（-ti，ti)具体可以为：
[0032] 如向左移动阈值范围的已知二元样本的错分率多，则先向左移动阈值，然后在向右移动阈值；如向右移动阈值范围的已知二元样本的错分率多，则先向右移动阈值，然后在向左移动阈值。
[0033] 本发明提供的技术方案提高控制精度，实现灵活控制可控的置信机器以二元问题为基础，运用该种算法，具有适应不同场合的需要、满足不同应用需求的特点，同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点，在心脏病和糖尿病等多个实验数据集上进行了验证，取得了较好的实验效果。
[0034] 本发明提供的技术方案的软件算法流程如下：
[0035] 训练算法流程：
[0036] 输入
[0037] X:二元训练数据样本
[0038] Y:二元训练样本标签
[0039] Train Set ： (X, Y)
[0040] p:准确率
[0041] s :步长
[0042] 输出
[0043] 正例阈值：t
[0044] 负例阈值：_t
[0045] 过程
[0046] 1、用Train Set训练二类分类器，取得二元分类器的有关参数值
[0047] 2、用二类分类器在训练集Train Set上进行分类
[0048] 3、将分类结果转换成score输出
[0049] 4、四种情况判断
[0050] 5、计算准确率
[0051] 6、if 准确率 > =p
[0052] goto 9
[0053] endif
[0054] 7、增加步长s
[0055] 8、goto 4
[0056] 9、输出 t 和-t
[0057] 10、结束
[0058] 分类算法流程：
[0059] 输入
[0060] x :未知样本
[0061] 输出
[0062] 未知样本的类别
[0063] or
[0064] 人工处理未知样本
[0065] 过程
[0066] 1、用二元分类器对未知x进行分类
[0067] 2、将分类结果转换成score输出
[0068] 3、if score 值〈=_t or score 值 > =t
[0069] 输出未知样本的类别
[0070] else
[0071] 人工处理
[0072] endif
[0073] 4、结束
[0074] 采用本发明提供的方案进行实验情况
[0075] 表1实验使用数据集情况表
[0076]
【主权项】
1. 一种基于设置总的错分率的可控置信机器算法，其特征在于，所述方法包括如下步骤：确定待分类的未知二元样本；利用二类分类器对未知二元样本进行二元置信分类；将二元置信分类结果转换成未知二元样本的输出值（Ou化ut Score); 根据未知二元样本的理想错分率计算该理想错分率对应的阔值范围; 如未知二元样本的输出值（Ou化ut Score)属于该阔值范围，将未知样本分配到拒绝域，如未知二元样本的输出值（Ou化ut Score)不属于该阔值范围，将未知样本分配到接受域。
2. 根据权利要求1所述的方法，其特征在于，所述根据未知二元样本的理想错分率计算该理想错分率对应的阔值范围（-t，t)的实现方法具体为：设定等距离步长和理想错分率，W原点为基准，W等距离步长向左、右一步步的移动阔值范围当阔值满足已知二元样本的理想错分率时，确定阔值为未知二元样本的理想错分率对应的阔值范围
3. 根据权利要求2所述的方法，其特征在于，所述W等距离步长向左、右一步步的移动阔值范围（-ti，ti)具体为；如向左移动阔值范围的已知二元样本的错分率多，则先向左移动阔值，然后在向右移动阔值；如向右移动阔值范围的已知二元样本的错分率多，则先向右移动阔值，然后在向左移动阔值。
【专利摘要】本发明适用机器学习领域，提供了一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：确定待分类的未知二元样本；利用二类分类器对未知二元样本进行二元置信分类；将二元置信分类结果转换成未知二元样本的输出值(Output？Score)；根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)；如未知二元样本的输出值(Output？Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output？Score)不属于该阈值范围，将未知样本分配到接受域。本发明提供的技术方案具有控制精度，实现灵活控制的优点。
【IPC分类】G06K9-62
【公开号】CN104573709
【申请号】CN201410817003
【发明人】蒋方纯
【申请人】深圳信息职业技术学院
【公开日】2015年4月29日
【申请日】2014年12月24日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋方纯;
技术所有人：深圳信息职业技术学院;
我是此专利的发明人

上一篇：一种基于潜在空间平滑自表征的子空间聚类方法
上一篇：组合降采样极限学习机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。