置信分类方法及置信机器的制造方法

文档序号:6632910阅读:150来源:国知局
置信分类方法及置信机器的制造方法
【专利摘要】本发明适用机器学习领域,提供了一种置信分类方法,该方法包括:确定待分类的样例;用一类分类器对样例进行正例分类,分类结果为正例的表示为A,其余分类结果表示为B;用一类分类器再次对样例进行负例分类,分类结果为负例的表示为C,其余分类结果表示为D;如只属于A或C的样例称为可信样例,分配到接受域;属于A∩C或属于B∪D的样例称为不可信样例,分配到拒绝域。本发明的技术方案具有无需设置阈值,无需计算置信度的优点。
【专利说明】置信分类方法及置信机器

【技术领域】
[0001] 本发明属于机器学习领域,尤其涉及一种置信分类方法及置信机器。

【背景技术】
[0002] 置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断 或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重 要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习 的理论基础与方法并不多。有直接构造置信度的方法,有间接构造置信度的方法,有通过 设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信 度,实现置信分类。简捷有效的置信机器学习是置信机器研究的目标之一。
[0003] 2005 年由VladimirVovk,AlexanderGammerman,GlennShafer出版了关于信任 机器学习的专著《AlgorithmicLearninginaRandomWorld》。2004年邱德红等在计算 机研究与发展期刊Vol. 41,No. 9中发表了《基于算法随机性理论和奇异描述的置信学习机 器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习 机器的算法。
[0004] 在实现现有技术的方案中,发现现有技术存在如下的技术问题:
[0005] (1)需要计算置信度。目前现有的置信机器学习方法通常都要计算出每一个样例 的置信度值,然后根据置信度值的大小进行排序,来确定可靠性的高低。
[0006] (2)需要设置具体的阈值。如果需要划分接受域和拒绝域的话,则需要根据计算出 的置信度的排序结果,按照一定的要求,确定并设置具体的阈值。


【发明内容】

[0007] 本发明实施例的目的在于提供一种置信分类方法,其解决现有技术的置信度需要 计算置信度和设置阈值的问题。
[0008] 本发明实施例是这样实现的,一方面,一种置信分类方法,所述方法包括:
[0009] 确定待分类的样例;
[0010] 用一类分类器对样例进行正例分类,分类结果为正例的表示为A,其余分类结果表 示为B;
[0011] 用一类分类器再次对样例进行负例分类,分类结果为负例的表示为C,其余分类结 果表示为D;
[0012] 如只属于A或C的样例称为可信样例,分配到接受域;属于AnC或属于BUD的 样例称为不可信样例,分配到拒绝域。
[0013] 可选的,所述方法在分配到拒绝域之后还包括:对所述拒绝域的样例采用集成分 类器系统继续处理,所述继续处理的方法具体为:
[0014] 第二轮采用一类分类器对拒绝域的样例进行正例分类,分类结果为正例的表示为 A2,其余分类结果表不为B2;
[0015] 第二轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表 示为C2,其余分类结果表示为D2 ;
[0016] 如只属于八2或(32的样例称为可信样例,分配到接受域;属于A2nC2或属于B2UD2 的样例称为不可信样例,分配到第二拒绝域。
[0017] 可选的,所述方法在分配到第二拒绝域之后还包括:
[0018] 第三轮采用一类分类器对第二拒绝域的样例进行正例分类,分类结果为正例的表 示为A3,其余分类结果表示为B3 ;
[0019] 第三轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表 示为C3,其余分类结果表示为D3 ;
[0020] 如只属于^或(:3的样例称为可信样例,分配到接受域;属于A3nC3或属于B3UD3 的样例称为不可信样例,分配到第三拒绝域。
[0021] 可选的,所述方法在分配到第三拒绝域之后还包括:
[0022] 第n轮采用一类分类器对第n-1拒绝域的样例进行正例分类,分类结果为正例的 表示为An,其余分类结果表示为Bn ;
[0023] 第n轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表 示为Cn,其余分类结果表示为Dn ;
[0024] 如只属于4"或(;的样例称为可信样例,分配到接受域;属于AnnCn或属于BnUDn 的样例称为不可信样例,分配到第n拒绝域;其中n>3。
[0025] 另一方面,提供一种置信机器,所述机器包括:
[0026] 样例模块,用于确定待分类的样例;
[0027] -类分类器,用于对样例进行正例分类,分类结果为正例的表示为A,其余分类结 果表不为B ;
[0028] -类分类器,还用于再次对样例进行负例分类,分类结果为负例的表示为C,其余 分类结果表示为D;
[0029] 分配模块,用于如只属于A或C的样例称为可信样例,分配到接受域;属于A H C 或属于B U D的样例称为不可信样例,分配到拒绝域。
[0030] 可选的,一类分类器,用于第二轮采用一类分类器对拒绝域的样例进行正例分类, 分类结果为正例的表示为A2,其余分类结果表示为B2 ;
[0031] -类分类器,还用于第二轮再次采用一类分类器对拒绝域的样例进行负例分类, 分类结构为负例的表示为C2,其余分类结果表示为D2 ;
[0032] 分配模块,还用于如只属于A2或C2的样例称为可信样例,分配到接受域;属于 A2HC2或属于B2UD2的样例称为不可信样例,分配到第二拒绝域。
[0033] 可选的,一类分类器,用于第三轮采用一类分类器对第二拒绝域的样例进行正例 分类,分类结果为正例的表示为A3,其余分类结果表示为B3 ;
[0034] 一类分类器,还用于第三轮再次采用一类分类器对拒绝域的样例进行负例分类, 分类结构为负例的表示为C3,其余分类结果表示为D3 ;
[0035] 分配模块,还用于如只属于A3或C3的样例称为可信样例,分配到接受域;属于 A3nC3或属于B3UD3的样例称为不可信样例,分配到第三拒绝域。
[0036] 可选的,一类分类器,用于第n轮采用一类分类器对第n-1拒绝域的样例进行正例 分类,分类结果为正例的表示为An,其余分类结果表示为Bn ;
[0037] -类分类器,还用于第n轮再次采用一类分类器对拒绝域的样例进行负例分类, 分类结构为负例的表示为Cn,其余分类结果表示为Dn ;
[0038] 分配模块,还用于如只属于An或Cn的样例称为可信样例,分配到接受域;属于 AnnCn或属于BnUDn的样例称为不可信样例,分配到第n拒绝域;其中n>3。
[0039] 在本发明实施例中,本发明提供的技术方案的采用二次置信分类来实现置信度的 分类,无需计算置信度,也无需设置阈值,所以其具有省略置信度计算和设置阈值的优点。

【专利附图】

【附图说明】
[0040] 图1是本发明提供的一种置信分类方法的流程图;
[0041] 图2是本发明提供的一种置信机器的结构图;
[0042] 图3是本发明提供的三层置信集成分类示意图;
[0043] 图4(a)是本发明提供的分类后A与C不相交示意图;
[0044] 图4(b)是本发明提供的分类后A与C相交示意图。

【具体实施方式】
[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0046] 本发明【具体实施方式】提供一种置信分类方法,上述方法由置信机器执行,该方法 如图1所示,包括如下步骤:
[0047] 101、确定待分类的样例;
[0048] 102、用一类分类器对样例进行正例分类,分类结果为正例的表示为A,其余分类结 果表不为B;
[0049] 103、用一类分类器再次对样例进行负例分类,分类结果为负例的表示为C,其余分 类结果表示为D;
[0050] 104、如只属于A或C的样例称为可信样例,分配到接受域;属于AnC或属于BUD 的样例称为不可信样例,分配到拒绝域。
[0051] 需要说明的是,上述步骤102和103逻辑执行顺序上没有先后之分。
[0052] 本发明采用的置信分类通过区分可信样例与不可信样例、划分接受域与拒绝域, 达到对分类结果的预设分类处理,实现置信分类。并且此种方法仅仅只需要进行二次样例 分类,即不需要计算置信度,也无需设置阈值。
[0053] 可选的,上述方法在104之后还可以包括:对拒绝域的样例采用集成分类器系统 (EnsembleClassifierSystem)继续处理,继续处理的方法具体可以为:
[0054] 105、第二轮采用一类分类器对拒绝域的样例进行正例分类,分类结果为正例的表 示为A2,其余分类结果表示为B2 ;
[0055] 106、第二轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例 的表示为C2,其余分类结果表示为D2 ;
[0056] 107、如只属于A2或C2的样例称为可信样例,分配到接受域;属于A2nC2或属于 B2UD2的样例称为不可信样例,分配到第二拒绝域。
[0057] 可选的,上述方法在107之后还可以包括:
[0058] 第三轮采用一类分类器对第二拒绝域的样例进行正例分类,分类结果为正例的表 示为A3,其余分类结果表示为B3 ;
[0059] 第三轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表 示为C3,其余分类结果表示为D3 ;
[0060] 如只属于八3或(]3的样例称为可信样例,分配到接受域;属于A3nC3或属于B3UD3 的样例称为不可信样例,分配到第三拒绝域。
[0061] 可选的,上述方法还可以包括:
[0062] 第n轮采用一类分类器对第n-1拒绝域的样例进行正例分类,分类结果为正例的 表示为An,其余分类结果表示为Bn ;
[0063] 第n轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表 示为Cn,其余分类结果表示为Dn ;
[0064] 如只属的样例称为可信样例,分配到接受域;属于AnnCn或属于BnUDn 的样例称为不可信样例,分配到第n拒绝域,其中n>3,n为整数。
[0065] 上述每轮采用一类分类器的次数为二次。
[0066] 在继续处理中,就是使用多层集成分类的方法,对第一次拒绝域中的样例继续进 行置信分类处理,即第二次使用一类分类器对第一次拒绝域中的样例进行置信分类。如有 需要,可以第三次使用一类分类器对第二次拒绝域中的样例进行置信分类,从而实现同质 的多层集成分类,达到增强分类的目的。
[0067] 上述方法的原理具体如下:
[0068] 用一类分类器进行二兀置信分类(英文全称:TowClassConfidence ClassificationBasedonOneClassClassifier,英文简称:TCCC-OCC),就是首先使用一类 分类器进行正例的分类,分类的结果为正例的表示为A,其余的表示为B;然后再使用一类 分类器进行负例的分类,分类的结果为负例的表示为C,其余的表示为D。可能有两种情形 出现,一种是A与C不相交,如图4(a)所示;另一种情况是A与C相交,如图4(b)所示。经 过这样分类之后,某个样例可能出现在如下四种情况之一中:
[0069] ①该样例只属于A
[0070] ②该样例只属于C
[0071] ③该样例既属于A,又属于C,即属于A门C
[0072] ④该样例既不属于A,又不属于C,即属于BUD
[0073] 将上述情况用图表示出来,就如图4所示。把只属于A或只属于C的样例,称为可 信的样例,在图中为用坚线表示的部分;把既属于A又属于C的样例称为不可信样例,在图 中为用横线表示的部分;把既不属于A又不属于C,即属于BUD的样例也称为不可信样例, 在图中为用空白表示的部分。
[0074] 按照上述定义,把可信的样例划分到接受域,在图中用坚线表示的部分;把不可信 的样例划分到拒绝域,在图中用横线和空白表示的部分。
[0075] 在上述方法中,通过区分可信样例与不可信样例、划分接受域与拒绝域,达到对分 类结果的预设分类处理,实现置信分类。
[0076] 为了对实验的结果更好的进行对比与分析,对识别率(Recognitionrate)、拒绝 率(Rejectionrate)、可信性(Reliability)、错误率(Errorrate)分别定义如下:
[0077] 识别率Recognition rate (RR)=已正确识别的样例数/测试集样例数目
[0078] 拒绝率Rejection rate (ReR)=已拒绝的样例数/测试集样例数目
[0079] 可信性Reliability(RE)=(已正确识别的样例数+已拒绝的样例数)/测试集 样例数目
[0080] 错误率Errorrate(ER) = 100%-RE
[0081] 另外还定义正确率Correctrate(CR)=已正确识别的样例数/已识别的样例数
[0082]同理定义累计识别率(Recognitionrate)、累计正确率(Correctrate)、累计拒 绝率(Rejectionrate)、累计可信性(Reliability)、累计错误率(Errorrate)如下:
[0083] 累计识别率Recognition rate (RR)=累计已正确识别的样例数/测试集样例数 巨
[0084] 累计正确率Correctrate(CR)=累计已正确识别的样例数/累计已识别的样例 数
[0085] 累计拒绝率Rejection rate (ReR)=累计已拒绝的样例数/测试集样例数目
[0086] 累计可信性Reliability(RE)=(累计已正确识别的样例数+累计已拒绝的样例 数)/测试集样例数目
[0087] 累计错误率Errorrate(ER) = 100% -累计的RE
[0088] 从上述定义中可以看出,可信性等于识别率加上拒绝率,即Reliability= recognitionrate+rejectionrate,也就是说拒绝的选项只是置信程度比较低,并不代表 错误识别,可以继续做进一步的机器学习算法处理或人工处理。
[0089] 本发明巧妙的利用一类分类器,运用两次一元分类器对二元问题进行分类,并以 设置拒绝选项的方法,通过多层集成学习的方式进行二元分类的置信学习。该方法实现了 在省略置信度计算以及省略设置具体阈值的情况下,仍可进行置信分类,并在心脏病和糖 尿病等多个实验数据集上进行了验证,取得了较好的实验效果,其集成分类的图如图3所 /J、",〇
[0090] 软件算法流程如下:
[0091] 训练算法流程:
[0092] 输入
[0093] X:二元训练数据样本
[0094] Y:二元训练样本标签
[0095] TrainSet: (X,Y)
[0096] n = I
[0097] 输出
[0098] TCCC-OCC 1正:第一层正类分类器
[0099] TCCC-OCC 1负:第一层负类分类器
[0100] TCCC-OCC 2正:第二层正类分类器
[0101] TCCC-OCC 2负:第二层负类分类器
[0102]TCCC-OCC 3正:第三层正类分类器
[0103] TCCC-OCC 3负:第三层负类分类器
[0104] 过程
[0105] 1、用TrainSet训练一类分类器,取得一元分类器的有关参数值
[0106] 2、用一类分类器在训练集TrainSet上对正例进行训练,取得一类分类器正例识 别模型TCCC-OCCn正
[0107] 3、用一类分类器在训练集TrainSet上对负例进行训练,取得一类分类器负例识 别模型TCCC-OCCn负
[0108] 4、生成接受域TrainSetA,拒绝域TrainSetR
[0109] 5、ifn〈3
[0110] TrainSet=拒绝域TrainSetR
[0111] endif
[0112] 6、n=n+1
[0113] 7、ifn>3
[0114] goto8
[0115] else
[0116] gotoI
[0117] endif
[0118] 8、结束
[0119] 分类算法流程:
[0120] 输入
[0121] x:未知样本
[0122] 输出
[0123] 未知样本的类别
[0124] or
[0125] 人工处理未知样本
[0126] 过程
[0127] 1.使用TCCC-OCC 1正对未知样本X进行识别分类
[0128] 2.使用TCCC-OCC1负对未知样本X进行识别分类
[0129] 3.IfXG接受域thenreturn样本类别
[0130] 4.使用TCCC-OCC2正对未知样本X进行识别分类
[0131] 5.使用TCCC-OCC2负对未知样本X进行识别分类
[0132] 6.IfXG接受域thenreturn样本类别
[0133] 7.使用TCCC-OCC 3正对未知样本X进行识别分类
[0134] 8.使用TCCC-OCC3负对未知样本X进行识别分类
[0135] 9.IfXG接受域thenreturn样本类别
[0136] 10.return人工处理未知样本
[0137] 11.结束
[0138] 实验情况
[0139] 表1实验使用数据集情况表
[0140]

【权利要求】
1. 一种置信分类方法,其特征在于,所述方法包括: 确定待分类的样例; 用一类分类器对样例进行正例分类,分类结果为正例的表示为A,其余分类结果表示为 B ; 用一类分类器再次对样例进行负例分类,分类结果为负例的表示为C,其余分类结果表 示为D ; 如只属于A或C的样例称为可信样例,分配到接受域;属于Anc或属于BUD的样例 称为不可信样例,分配到拒绝域。
2. 根据权利要求1所述的方法,其特征在于,所述方法在分配到拒绝域之后还包括:对 所述拒绝域的样例采用集成分类器系统继续处理,所述继续处理的方法具体为: 第二轮采用一类分类器对拒绝域的样例进行正例分类,分类结果为正例的表示为A2, 其余分类结果表不为B2 ; 第二轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表示为 C2,其余分类结果表不为D2 ; 如只属于a2或c2的样例称为可信样例,分配到接受域;属于a2 n c2或属于b2 u d2的 样例称为不可信样例,分配到第二拒绝域。
3. 根据权利要求2所述的方法,其特征在于,所述方法在分配到第二拒绝域之后还包 括: 第三轮采用一类分类器对第二拒绝域的样例进行正例分类,分类结果为正例的表示为 A3,其余分类结果表不为B3 ; 第三轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表示为 C3,其余分类结果表不为D3 ; 如只属于a3或c3的样例称为可信样例,分配到接受域;属于a3 n c3或属于b3 u d3的 样例称为不可信样例,分配到第三拒绝域。
4. 根据权利要求3所述的方法,其特征在于,所述方法在分配到第三拒绝域之后还包 括: 第n轮采用一类分类器对第n-1拒绝域的样例进行正例分类,分类结果为正例的表示 为An,其余分类结果表不为Bn ; 第n轮再次采用一类分类器对拒绝域的样例进行负例分类,分类结构为负例的表示为 Cn,其余分类结果表不为Dn ; 如只属于An或Cn的样例称为可信样例,分配到接受域;属于An n Cn或属于Bn U Dn的 样例称为不可信样例,分配到第n拒绝域;其中n>3。
5. -种置信机器,其特征在于,所述机器包括: 样例模块,用于确定待分类的样例; 一类分类器,用于对样例进行正例分类,分类结果为正例的表示为A,其余分类结果表 示为B ; 一类分类器,还用于再次对样例进行负例分类,分类结果为负例的表示为C,其余分类 结果表不为D ; 分配模块,用于如只属于A或C的样例称为可信样例,分配到接受域;属于A n C或属 于B U D的样例称为不可信样例,分配到拒绝域。
6. 根据权利要求5所述的机器,其特征在于, 一类分类器,用于第二轮采用一类分类器对拒绝域的样例进行正例分类,分类结果为 正例的表示为A2,其余分类结果表示为B2 ; 一类分类器,还用于第二轮再次采用一类分类器对拒绝域的样例进行负例分类,分类 结构为负例的表示为c2,其余分类结果表示为D2 ; 分配模块,还用于如只属于a2或(:2的样例称为可信样例,分配到接受域;属于a2 n c2或属于b2 u d2的样例称为不可信样例,分配到第二拒绝域。
7. 根据权利要求5所述的机器,其特征在于, 一类分类器,用于第三轮采用一类分类器对第二拒绝域的样例进行正例分类,分类结 果为正例的表示为A3,其余分类结果表示为B3 ; 一类分类器,还用于第三轮再次采用一类分类器对拒绝域的样例进行负例分类,分类 结构为负例的表示为c3,其余分类结果表示为D3 ; 分配模块,还用于如只属于a3*c3的样例称为可信样例,分配到接受域;属于a3 n c3或属于b3 U 03的样例称为不可信样例,分配到第三拒绝域。
8. 根据权利要求5所述的机器,其特征在于, 一类分类器,用于第n轮采用一类分类器对第n-1拒绝域的样例进行正例分类,分类结 果为正例的表示为An,其余分类结果表示为Bn ; 一类分类器,还用于第n轮再次采用一类分类器对拒绝域的样例进行负例分类,分类 结构为负例的表示为Cn,其余分类结果表示为Dn ; 分配模块,还用于如只属于An或Cn的样例称为可信样例,分配到接受域;属于An n Cn或属于Bn U Dn的样例称为不可信样例,分配到第n拒绝域;其中n>3。
【文档编号】G06F19/00GK104361224SQ201410606984
【公开日】2015年2月18日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】蒋方纯, 田盛丰, 乐颖 申请人:深圳信息职业技术学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1