基于设置总的错分率的可控置信机器算法

文档序号:8259576阅读:323来源:国知局
基于设置总的错分率的可控置信机器算法
【技术领域】
[0001] 本发明属于机器学习领域,尤其涉及一种基于设置总的错分率的可控置信机器算 法。
【背景技术】
[0002] 置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断 或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着 重要的现实意义。置信机器是机器学习领域中研宄时间不长的一个分支,实现置信机器学 习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过 设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信 度,实现置信分类,并对错分率可控。
[0003] 2005 年由 Vladimir Vovk,Alexander Gammerman,Glenn Shafer 出版了关于信任 机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算 机研宄与发展期刊Vol. 41,No. 9中发表了《基于算法随机性理论和奇异描述的置信学习机 器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习 机器的算法。
[0004] 现有的方案有以下几个问题:
[0005] (1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法 来计算错分率,并根据计算结果设置阈值,但最后总的错分率控制与当初预设值比较,有时 差距会很大。
[0006] (2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行 灵活多变的控制,满足不同的要求。

【发明内容】

[0007] 本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法,其 解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。
[0008] 本发明实施例是这样实现的,一方面,一种基于设置总的错分率的可控置信机器 算法,所述方法包括如下步骤:
[0009] 确定待分类的未知二元样本;
[0010] 利用二类分类器对未知二元样本进行二元置信分类;
[0011] 将二元置信分类结果转换成未知二元样本的输出值(Output Score);
[0012] 根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);
[0013] 如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒 绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接 受域。
[0014] 可选的,所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围 (-t,t)的实现方法具体为:
[0015] 设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步的移 动阈值范围(-ti,ti),当阈值(-ti,ti)满足已知二元样本的理想错分率时,确定阈值(-ti, ti)为未知二元样本的理想错分率对应的阈值范围(-t,t)。
[0016] 可选的,,所述以等距离步长向左、右一步步的移动阈值范围(-tp 具体为:
[0017] 如向左移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后在向 右移动阈值;
[0018] 如向右移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后在向 左移动阈值。
[0019] 在本发明实施例中,本发明提供的技术方案从原点出发,并设置等距离步长及总 的错分率,向两边一步一步地寻求满足错分率的阈值,控制精度,实现灵活控制。
【附图说明】
[0020] 图1是本发明提供的一种基于设置总的错分率的可控置信机器算法的流程图。
【具体实施方式】
[0021] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0022] 本发明【具体实施方式】提供一种基于设置总的错分率的可控置信机器算法,上述方 法由置信机器执行,该方法如图1所示,包括如下步骤:
[0023] 101、确定待分类的未知二元样本;
[0024] 102、利用二类分类器对未知二元样本进行二元置信分类;
[0025] 103、将二元置信分类结果转换成未知二元样本的输出值(Output Score);
[0026] 104、根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(_t, t);
[0027] 105、如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配 到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配 到接受域。
[0028] 本发明提供的具体方案通过理想输出值(Output Score)值计算该错分率的阈值 范围,所以其能够根据实际情况调整阈值,所以其具有分类准确率高的优点,
[0029] 可选的,上述104的实现方法具体可以为:
[0030] 设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步(即 等距离逐步移动)的移动阈值范围(-tp h),当阈值(-tp h)满足已知二元样本的理想错 分率时,确定阈值(-tph)为未知二元样本的理想错分率对应的阈值范围
[0031] 可选的,上述以等距离步长向左、右一步步的移动阈值范围(-ti,ti)具体可以为:
[0032] 如向左移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后在向 右移动阈值;如向右移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后在 向左移动阈值。
[0033] 本发明提供的技术方案提高控制精度,实现灵活控制可控的置信机器以二元问题 为基础,运用该种算法,具有适应不同场合的需要、满足不同应用需求的特点,同时也易于 推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点,在心脏病和糖尿 病等多个实验数据集上进行了验证,取得了较好的实验效果。
[0034] 本发明提供的技术方案的软件算法流程如下:
[0035] 训练算法流程:
[0036] 输入
[0037] X:二元训练数据样本
[0038] Y:二元训练样本标签
[0039] Train Set : (X, Y)
[0040] p:准确率
[0041] s :步长
[0042] 输出
[0043] 正例阈值:t
[0044] 负例阈值:_t
[0045] 过程
[0046] 1、用Train Set训练二类分类器,取得二元分类器的有关参数值
[0047] 2、用二类分类器在训练集Train Set上进行分类
[0048] 3、将分类结果转换成score输出
[0049] 4、四种情况判断
[0050] 5、计算准确率
[0051] 6、if 准确率 > =p
[0052] goto 9
[0053] endif
[0054] 7、增加步长s
[0055] 8、goto 4
[0056] 9、输出 t 和-t
[0057] 10、结束
[0058] 分类算法流程:
[0059] 输入
[0060] x :未知样本
[0061] 输出
[0062] 未知样本的类别
[0063] or
[0064] 人工处理未知样本
[0065] 过程
[0066] 1、用二元分类器对未知x进行分类
[0067] 2、将分类结果转换成score输出
[0068] 3、if score 值〈=_t or score 值 > =t
[0069] 输出未知样本的类别
[0070] else
[0071] 人工处理
[0072] endif
[0073] 4、结束
[0074] 采用本发明提供的方案进行实验情况
[0075] 表1实验使用数据集情况表
[0076]
【主权项】
1. 一种基于设置总的错分率的可控置信机器算法,其特征在于,所述方法包括如下步 骤: 确定待分类的未知二元样本; 利用二类分类器对未知二元样本进行二元置信分类; 将二元置信分类结果转换成未知二元样本的输出值(Ou化ut Score); 根据未知二元样本的理想错分率计算该理想错分率对应的阔值范围; 如未知二元样本的输出值(Ou化ut Score)属于该阔值范围,将未知样本分配到拒绝 域,如未知二元样本的输出值(Ou化ut Score)不属于该阔值范围,将未知样本分配到接受 域。
2. 根据权利要求1所述的方法,其特征在于,所述根据未知二元样本的理想错分率计 算该理想错分率对应的阔值范围(-t,t)的实现方法具体为: 设定等距离步长和理想错分率,W原点为基准,W等距离步长向左、右一步步的移动阔 值范围当阔值满足已知二元样本的理想错分率时,确定阔值为 未知二元样本的理想错分率对应的阔值范围
3. 根据权利要求2所述的方法,其特征在于,所述W等距离步长向左、右一步步的移动 阔值范围(-ti,ti)具体为; 如向左移动阔值范围的已知二元样本的错分率多,则先向左移动阔值,然后在向右移 动阔值; 如向右移动阔值范围的已知二元样本的错分率多,则先向右移动阔值,然后在向左移 动阔值。
【专利摘要】本发明适用机器学习领域,提供了一种基于设置总的错分率的可控置信机器算法,所述方法包括如下步骤:确定待分类的未知二元样本;利用二类分类器对未知二元样本进行二元置信分类;将二元置信分类结果转换成未知二元样本的输出值(Output?Score);根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);如未知二元样本的输出值(Output?Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output?Score)不属于该阈值范围,将未知样本分配到接受域。本发明提供的技术方案具有控制精度,实现灵活控制的优点。
【IPC分类】G06K9-62
【公开号】CN104573709
【申请号】CN201410817003
【发明人】蒋方纯
【申请人】深圳信息职业技术学院
【公开日】2015年4月29日
【申请日】2014年12月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1