1.一种数据相关性的识别方法,其特征在于,包括如下步骤:
A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
B)采取众数的方法对输入的所述数据进行缺失值补全;
C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
D)计算出每个所述离散型的影响变量中各个属性的信息熵;
E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
2.根据权利要求1所述的数据相关性的识别方法,其特征在于,所述步骤A)进一步包括:
A1)读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,执行步骤A2);否则,退出;
A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。
3.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述步骤E)中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
4.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述csv格式的数据文件的最后一列为所述目标变量。
5.根据权利要求1所述的数据相关性的识别方法,其特征在于,每个所述离散型的影响变量中属性的个数小于或等于6。
6.一种实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,包括:
文件读取单元:用于读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
缺失值补全单元:用于采取众数的方法对输入的所述数据进行缺失值补全;
离散化处理单元:用于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
信息熵计算单元:用于计算出每个所述离散型的影响变量中各个属性的信息熵;
相关程度计算单元:用于依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
排列输出单元:用于按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
7.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述文件读取单元进一步包括:
读取判断模块:用于读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,进入校验模块;否则,退出;
校验模块:用于校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述缺失值补全单元;否则,报错后返回所述读取判断模块。
8.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述相关程度计算单元中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
9.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述csv格式的数据文件的最后一列为所述目标变量。
10.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,每个所述离散型的影响变量中属性的个数小于或等于6。