基于代价敏感决策树的信息物理融合系统数据分类方法

文档序号:6539504阅读:926来源:国知局
基于代价敏感决策树的信息物理融合系统数据分类方法
【专利摘要】基于代价敏感决策树的信息物理融合系统数据分类方法首先使用物理单元进行数据收集;然后再将收集到的数据传输至信息单元;最后在信息单元进行进一步的分析和处理。在本发明中,信息单元的操作包括以下几个步骤:一是信息单元根据分别存储的样本数据分别为这些物理单元建立相应的决策树;二是对建立的决策树进行测试,记录每棵决策树中错误分类数和总的测试数的比值,删除比值过大的决策树;三是基于余下的决策树结合此前记录的错误分类数和总的测试数的比值对数据进行分类。本发明所采用的方法利用决策树可以方便、快捷的建立树型结构对数据进行高效的分类,也易于使用者对于数据的了解,同时也无需使用者拥有很多的背景知识。
【专利说明】基于代价敏感决策树的信息物理融合系统数据分类方法
【技术领域】
[0001]本发明涉及一种基于代价敏感的决策树分类方法,主要用于解决信息物理融合系统中数据高效分类和在分类时产生的损失或代价总和为最小的问题,属于信息物理融合系统和数据挖掘的交叉技术应用领域。
【背景技术】
[0002]信息物理融合系统被认为是继计算机、互联网之后世界信息技术的第三次浪潮。信息物理融合系统可以理解为基于嵌入式设备的高效网络化智能信息系统,是具有高度自主感知、自主判断、自主调节和自治能力,能够实现虚拟世界和现实物理世界互联与协同的下一代智能系统。信息物理融合系统在功能上主要考虑性能优化,是集计算(Computat ion)、通信(Communi cat ion)与控制(Control) 3C于一体的智能技术。现在,信息物理融合系统技术已经得到了国际工商业界和许多大型国际公司的高度关注,发展速度极为迅速,已被应用于交通、医疗、能源等多个重要发展领域,具有广阔的应用前景。
[0003]数据挖掘是一个迭代过程,它从大量的数据中搜寻有价值的、非同寻常的新信息,是人和计算机合作的结果;它在人类专家描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得最好的结果。数据挖掘是计算机行业中发展最快的领域之一,以前它只是计算机科学和统计学中的一个主题,现如今,它已经迅速发展成为一个独立的领域。数据挖掘最强大的一个优势在于它可以把许多方法和技术应用与大量的问题集。数据挖掘是一个在大数据集上进行的自然行为,所以其最大的目标市场是整个数据仓库、数据集市和决策支持业界,包括诸如零售、制造、电信、医疗、保险、运输等行业。
[0004]分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的类标号。分类一般分为两个步骤:第一步,我们基于给出的数据建立一个分类模型;第二步,确定该模型的准确率是否可以接受,如果可以,则使用该模型对新的数据进行分类。大部分的分类算法是内存驻留的算法,通常假定数据量很小。随着现代技术的不断发展,数据挖掘研究建立在这些工作基础上,开发了可伸缩的分类和预测技术,能够处理大的、驻留磁盘的数据。分类有大量应用,包括欺诈检测、目标营销、性能预测、制造和医疗诊断等。
[0005]决策树是一种类似流程图的树结构,它是一种典型的分类方法。它首先对数据进行处理,利用归纳算法生成可读的规则并建立决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。在20世纪70年代后期和20世纪80年代初期,机器学习研究院J.RossQuinlan开发了决策树算法,称为迭代的二分器(IterativeDichotomiser, ID3)。Quinlan 后来又提出了 ID3 的后继 C4.5 成为了新的监督学习算法的性能比较基准。1984年,多位统计学家出版了《ClassificationandRegressionTreesMCART),介绍了二叉决策树的产生。传统的决策树算大多采用了贪心方法,并且使用了自顶向下递归的分治方法构造树结构。
[0006]代价敏感(Cost-SensitiveLearning, CSL)分类问题的原型是医疗诊断问题。在该问题中,医生得为病人种种医疗测试的可能性、测试代价以及期望得到的测试效果进行权衡。代价敏感的学习方法主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。不难看出,出现误判的可能性是很小的,但如果不能正确地判断一个潜在的误判,将会导致一系列的损失,因而以最终的损失作为衡量目标更有现实意义。
[0007]自从基于代价敏感的代价学习被提出以来,引起了很多专家的关注,提出了很多新颖的方法。总的来看,有两类基本思路:一种方法就是不改变经典的分类方法,而只是对原有的数据集作一定的处理,或者说是在经典的分类算法之外包裹一层算法,使之达到预定的对代价敏感的目的;另一种思路则是在经典分类算法基础之上,加入一些其它因素,达到代价敏感学习的目的。

【发明内容】

[0008]技术问题:本发明的目的是提供一种基于代价敏感决策树的信息物理融合系统数据分类方法,该方法在决策树建立的过程中增加了代价敏感的考虑,以解决信息物理融合系统中数据高效分类,以及在分类时将产生的损失或代价总和降至最小的问题。
[0009]技术方案:本发明所述的基于代价敏感决策树的信息物理融合系统数据分类方法,用户先在信息物理融合系统中构建多棵决策树,再将这些决策树组成一个组合决策树。在基于代价敏感的考虑下,通过对组合决策树错误率的计算,对数据进行分类。
[0010]本发明所述的信息物理融合系统由若干物理单元和一个信息单元组成,其中所述的物理单元用于收集数据;所述信息单元用于接收并存储物理单元发送的数据,以及对这些进行分析和处理。
[0011]基于代价敏感决策树的信息物理融合系统数据分类方法包括以下步骤:
[0012]步骤I)用户将信息物理融合系统的组成单元划分为多个物理单元和一个信息单元;所述物理单元用于收集数据,所述信息单元用于分析和处理数据;
[0013]步骤2)用户预先将训练样本和测试样本放置在系统中,所述训练样本和测试样本中的每个样本包括样本号、属性名称、对应的属性值和类别;
[0014]步骤3)用户启动每个物理单元收集训练样本数据;
[0015]步骤4)每个物理单元将收集到的训练样本数据发送至信息单元,信息单元对不同物理单元发送来的训练样本数据进行分别存储;
[0016]步骤5)信息单元根据分别存储的样本数据分别为这些物理单元建立相应的决策树,所述决策树为机器学习分类算法中的一种树型结构的分类器,分类器是一种计算机程序,作用是可自动将数据分到已知类别;
[0017]步骤6)信息单元将得到的决策树放置到一个列表中,组成一个决策树列表,所述列表为数据结构中按照线性顺序,排列而成的数据项的集合,可以在这种数据结构上进行基本操作包括对元素的的查找、插入和删除;
[0018]步骤7)信息单元对每个决策树进行测试。具体步骤如下:
[0019]步骤7.1)将一组准备好的测试样本输入到每个建立好的决策树中;[0020]步骤7.2)测试样本经过决策树的决策会得到相应的分类结果;
[0021]步骤7.3)将得到的分类结果和测试样本本身的类别进行比对,相同则分类正确,不同则分类错误;记录错误分类的样本数;
[0022]步骤7.4)如果错误分类的测试样本数和总的测试样本数的比值大于10%,则在决策树列表中删除此决策树,若否则将其保留在决策树列表中;其中将错误分类的测试样本数和总的测试样本数的比值记为wi,记录在信息单元中,i表示决策树列表里第i个决策树;
[0023]步骤8)经过上述步骤后,若决策树列表为空,则选取Wi最小的那棵决策树作为最终的决策树;
[0024]步骤9)如果决策树列表只含有一棵决策树,则这课决策树为最终的决策树;
[0025]步骤10)如果决策树列表含有两棵或两棵以上的决策树,则将决策树列表中的决策树作为组合决策树,所述组合决策树为多个决策树组成的分类器,每个决策树有相应的权值,该权值为错误分类的测试样本数和总的测试样本数的比值;
[0026]步骤11)计算组合决策树的错误分类率H,返回H值最小时所对应的类别作为数
据的分类结果;其中H通过
【权利要求】
1.一种基于代价敏感决策树的信息物理融合系统数据分类方法,其特征在于该方法包括以下步骤: 步骤I)用户将信息物理融合系统的组成单元划分为多个物理单元和一个信息单元;所述物理单元用于收集数据,所述信息单元用于分析和处理数据; 步骤2)用户预先将训练样本和测试样本放置在系统中,所述训练样本和测试样本中的每个样本包括样本号、属性名称、对应的属性值和类别; 步骤3)用户启动每个物理单元收集训练样本数据; 步骤4)每个物理单元将收集到的训练样本数据发送至信息单元,信息单元对不同物理单元发送来的训练样本数据进行分别存储; 步骤5)信息单元根据分别存储的样本数据分别为这些物理单元建立相应的决策树,所述决策树为机器学习分类算法中的一种树型结构的分类器,分类器是一种计算机程序,作用是可自动将数据分到已知类别; 步骤6)信息单元将得到的决策树放置到一个列表中,组成一个决策树列表,所述列表为数据结构中按照线性顺序,排列而成的数据项的集合,可以在这种数据结构上进行基本操作包括对元素的的查找、插入和删除; 步骤7)信息单元对每个决策树进行测试。具体步骤如下: 步骤7.1)将一组准备好 的测试样本输入到每个建立好的决策树中; 步骤7.2)测试样本经过决策树的决策会得到相应的分类结果; 步骤7.3)将得到的分类结果和测试样本本身的类别进行比对,相同则分类正确,不同则分类错误;记录错误分类的样本数; 步骤7.4)如果错误分类的测试样本数和总的测试样本数的比值大于10%,则在决策树列表中删除此决策树,若否则将其保留在决策树列表中;其中将错误分类的测试样本数和总的测试样本数的比值记为记录在信息单元中,i表示决策树列表里第i个决策树;步骤8)经过上述步骤后,若决策树列表为空,则选取Wi最小的那棵决策树作为最终的决策树; 步骤9)如果决策树列表只含有一棵决策树,则这课决策树为最终的决策树; 步骤10)如果决策树列表含有两棵或两棵以上的决策树,则将决策树列表中的决策树作为组合决策树,所述组合决策树为多个决策树组成的分类器,每个决策树有相应的权值,该权值为错误分类的测试样本数和总的测试样本数的比值; 步骤11)计算组合决策树的错误分类率H,返回H值最小时所对应的类别作为数据的分类结果;其中H通过
【文档编号】G06F17/30GK103886030SQ201410077291
【公开日】2014年6月25日 申请日期:2014年3月5日 优先权日:2014年3月5日
【发明者】陈志 , 朱超, 岳文静 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1