一种数据分类方法、系统和实现分类器的方法_2

文档序号:9708337阅读:来源:国知局
或多组数据,并训练该一组或多组数据。
[0020]以下描述根据本发明实施例的数据分类系统,包括:
第一装置,用于从数据集生成多组数据作为训练集合,其中该装置被配置成为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据;
第二装置,用于针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器;
第三装置,用于利用测试数据评估产生的多个子分类器,得到各子分类器的评估值;
第四装置,用于以所述评估值作为权重值的依据,通过加权投票的方式将所述多个子分类器组合成分类器来分类数据。
[0021]在一个实施例中,第一装置用于在相应的分布式节点上生成所述多组数据的每一组,使得由第二装置产生的所述多个子分类器被部署在多个分布式节点。
[0022]在一个实施例中,第一装置还为每组数据设定该组数据的规模。
[0023]在一个实施例中,第一装置根据该比例以有放回抽取的方式从数据集中抽取相应类型的数据。
[0024]在一个实施例中,所述相应的训练算法彼此不同。
[0025]在一个实施例中,其中每组数据中各类数据的比例不同。
[0026]在一个实施例中,所述评估值是分类精度。
[0027]本申请还公开一种实现分类器的方法,该分类器由多个子分类器通过加权投票的方式组合得到,其中,所述多个子分类器通过以下方式获得:从数据集生成多组数据作为训练集合,其中为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据;针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器。加权的权重值可以基于利用测试数据评估所述多个子分类器得到的各子分类器的评估值。
[0028]通过以上实施方式的描述,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的【具体实施方式】作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
【主权项】
1.一种数据分类方法,其特征在于,包括: 从数据集生成多组数据作为训练集合,其中为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据; 针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器; 利用测试数据评估产生的多个子分类器,得到各子分类器的评估值; 以所述评估值作为权重值的依据,通过加权投票的方式将所述多个子分类器组合成分类器来分类数据。2.如权利要求1所述的方法,其特征在于,还包括: 在相应的分布式节点上生成所述多组数据的每一组,使得产生的所述多个子分类器被部署在多个分布式节点。3.如权利要求1所述的方法,其特征在于, 还为每组数据设定该组数据的规模。4.如权利要求1所述的方法,其特征在于, 根据该比例以有放回抽取的方式从数据集中抽取相应类型的数据。5.如权利要求1所述的方法,其特征在于, 所述相应的训练算法彼此不同。6.如权利要求1所述的方法,其特征在于, 其中每组数据中各类数据的比例不同。7.如权利要求1所述的方法,其特征在于, 所述评估值是分类精度。8.一种数据分类系统,其特征在于,包括: 第一装置,用于从数据集生成多组数据作为训练集合,其中该装置被配置成为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据; 第二装置,用于针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器; 第三装置,用于利用测试数据评估产生的多个子分类器,得到各子分类器的评估值; 第四装置,用于以所述评估值作为权重值的依据,通过加权投票的方式将所述多个子分类器组合成分类器来分类数据。9.如权利要求8所述的系统,其特征在于, 第一装置用于在相应的分布式节点上生成所述多组数据的每一组,使得由第二装置产生的所述多个子分类器被部署在多个分布式节点。10.如权利要求8所述的系统,其特征在于, 第一装置还为每组数据设定该组数据的规模。11.如权利要求8所述的系统,其特征在于, 第一装置根据该比例以有放回抽取的方式从数据集中抽取相应类型的数据。12.如权利要求8所述的系统,其特征在于, 所述相应的训练算法彼此不同。13.如权利要求8所述的系统,其特征在于, 其中每组数据中各类数据的比例不同。14.如权利要求8所述的系统,其特征在于, 所述评估值是分类精度。15.一种实现分类器的方法,其特征在于,该分类器由多个子分类器通过加权投票的方式组合得到,其中,所述多个子分类器通过以下方式获得: 从数据集生成多组数据作为训练集合,其中为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据;针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器。16.如权利要求15所述的方法,其特征在于,所述加权的权重值基于利用测试数据评估所述多个子分类器得到的各子分类器的评估值。
【专利摘要】本发明公开一种数据分类方法、系统和实现分类器的方法。从数据集生成多组数据作为训练集合,其中为每组数据设定该组数据中各类数据的比例,并根据该比例从数据集中抽取相应类型的数据;针对多组数据的每一组数据利用相应的训练算法产生相应的子分类器;利用测试数据评估产生的多个子分类器,得到各子分类器的评估值;以所述评估值作为权重值的依据,通过加权投票的方式将所述多个子分类器组合成分类器来分类数据。
【IPC分类】G06F17/30
【公开号】CN105468638
【申请号】CN201410453804
【发明人】杨鸿超, 赵金涛
【申请人】中国银联股份有限公司
【公开日】2016年4月6日
【申请日】2014年9月9日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1