数据相关性的识别方法及装置与流程

文档序号:12612298阅读:来源:国知局
技术总结
本发明公开了一种数据相关性的识别方法及装置,方法包括:读取csv格式的数据文件并输入数据;csv格式的数据文件包含影响变量和目标变量,影响变量分为连续型的影响变量和离散型的影响变量;采取众数的方法对输入的数据进行缺失值补全;采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量;计算出每个离散型的影响变量中各个属性的信息熵;依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。本发明能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

技术研发人员:江颖;黄仕玲;吴国斌;张馨;钟山
受保护的技术使用者:广州帷策智能科技有限公司
文档号码:201611202418
技术研发日:2016.12.23
技术公布日:2017.06.16

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1