一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法

文档序号:6543431阅读:593来源:国知局
一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法
【专利摘要】公开了一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法。初步选定一些可能与目标因子具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果利用相关系数进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。通过在分类模型的基础上进行相关性判断,不仅可以使分类预测结果更加可靠,而且可以节约资源,提高算法的效率。
【专利说明】一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法
【技术领域】
[0001]本发明涉及一种基于Hadoop的贝叶斯分类数据挖掘方法,尤其涉及一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
技术背景
[0002]现有的贝叶斯分类数据挖掘方法。主要是对事先选定的一些预测因子和目标因子进行预处理、模型训练、精度评估等处理以达到分类预测的目的,既在已知预测因子的情况下,推断出目标因子最大可能出现的值。这种方法:
[0003]用户事先选定可能与目标因子具有相关性的预测因子,但当选取的预测因子和目标因子相关性不大或者不相关时,如果还按照原有的步骤进行处理,不仅分类预测结果不可靠,最终的精度评估也无法达到令人满意的结果,而且还浪费时间和影响算法的效率。
[0004]由此可见,现有的贝叶斯分类数据挖掘方法具有比较大的缺点及限制,无法满足人们的需要。
[0005]本
【发明内容】

[0006]为了解决现有技术中存在的问题,本发明提供了一种能够在分类预测结果的基础上利用相关系数分析预测因子和目标因子相关性的基于Hadoop的贝叶斯分类数据挖掘方法。
[0007]本发明解决现有技术的问题,所采用的技术方案是:提供一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,其包括以下步骤:初步选定一些可能与目标值具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
[0008]本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是该方法在Hadoop上利用其分布式文件系统HDFS和MapRe duce并行编程模型来实现。
[0009]Hadoop文件系统HDFS是分布式计算的存储基础,它具有高容错性,可以部署在廉价的硬件设备上,适合那些有大数据集的应用,并提供了对数据读写的高吞吐率。
[0010]MapReduce编程模型将运行大规模的集群上的复杂的并行计算抽象为两个函数:Map函数和Reduce函数。首先将一个大任务分割为多个并行的Map任务块,然后将Map分别给集群中的各个节点进行运算,最后Reduce把分解后的多个任务块的处理结果汇总起来,从而得到最终的结果。因此,MapReduce可处理的任务应满足:待处理的任务(或数据集)可以分割成许多个小任务(或小数据集),并且每一个小任务(或小数据集)都可以完全的并行计算。
[0011]本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对原始数据进行预处理,以去掉不正确或被损坏的无效数据和离散化原始数据。
[0012]预处理又可分为三个部分:第一是数据的选取,其目的是确定挖掘的操作对象;第二是数据的预处理,海量的原始数据一般都存在偏差和缺失的情况,这些数据若被用于数据挖掘,则在进行数据挖掘之前必须进行数据的预处理,去除数据中的噪声、冗余以及对缺省值进行填充等;第三是数据的转换,数据转换的方式也有所不同,针对特定的挖掘算法,将数据转换成相应的分析模型,建立的适合挖掘算法的分析模型是数据挖掘成功的关键。
[0013]本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案将原始数据分成两部分训练集和测试集,前者用来训练贝叶斯分类器模型,后者用来测试分类器的精度。
[0014]本发明一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法的进一步技术方案是对进行预处理后的训练集运行MapReduce实现的贝叶斯分类算法,得到贝叶斯分类模型。
[0015]朴素贝叶斯假设当给定类变量时,属性变量之间条件相对独立。设有限集合C,Cj是C的第j类决策属性,集合Ω中η个属性变量X1, X^Xn,其给定的描述属性值为X1, χ2...Xn, (X11X2-Xn, CjI是由已知类别的样本组成的集合。对C进行预测的分类器为朴素贝叶斯分类器.即
[0016]
【权利要求】
1.一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法,其包括以下步骤:初步选定一些可能与目标因子具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果利用相关系数进行相关性分析,如果预测因子和目标值相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。
2.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法在Hadoop上利用其分布式文件系统HDFS和MapReduce并行编程模型来实现。
3.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对原始数据进行预处理,以去掉不正确或被损坏的无效数据和离散化原始数据。
4.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法将原始数据分成两部分训练集和测试集,前者用来训练贝叶斯分类器模型,后者用来测试分类器的精度。
5.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对进行预处理后的训练集运行MapReduce实现的贝叶斯分类算法,得到贝叶斯分类模型。
6.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法对贝叶斯分类模型利用相关系数进行相关性分析, 根据分析结果决定是否进行精度评估还是立即终止以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子进行数据挖掘。
7.根据权利要求1所述的利用相关系数进行相关性分析的贝叶斯分类数据挖掘的方法,其特征在于:该方法当预测因子和目标值相关或者相关性比较大的时候,利用测试集对得到的贝叶斯分类器进行精度评估。
【文档编号】G06F17/30GK103942286SQ201410143640
【公开日】2014年7月23日 申请日期:2014年4月10日 优先权日:2014年4月10日
【发明者】张永军, 杨利娟 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1