一种自适应最近邻缺失数据的填充方法与流程

文档序号:12063507阅读:来源:国知局

技术特征:

1.一种自适应最近邻缺失数据的填充方法,其特征在于,包括如下步骤,

1)选定作为目标的原始数据集,通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据;

2)根据原数据集根据是否含有缺失数据,将其分为缺失数据集和完整数据集,然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序;

3)在缺失数据集中选择一个具有最小缺失率的数据,并使用KNN算法在完整数据集上进行填充,得到更新数据;

4)将所述更新数据移到完整数据集中用来估计下一个的缺失值;

5)若缺失数据集中没有含有缺失值的数据,则停止;否则返回步骤3);

6)比较更新的填充数据和旧的填充数据,如果收敛,则停止;否则使用更新的填写数据返回步骤3)。

2.根据权利要求1所述的自适应最近邻缺失数据的填充方法,其特征在于,所述步骤2)的数据排序具体方法如下:

a1)按照整个数据集原始数据的所有特征,计算出各个特征丢失数据的缺失率;

a2)将所有缺少一个特征的数据根据特征缺失率从小到大排序;

a3)将所有缺少两个或两个以上特征的数据放在一起,并按照丢失率大小,将具有相同的丢失率的数据放在一组,不用组按照丢失率从小到大排列;

对于每一组而言,其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序;

通过多次排序,最后得到一个具有最优填充顺序的缺失数据集。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1