1.一种自适应最近邻缺失数据的填充方法,其特征在于,包括如下步骤,
1)选定作为目标的原始数据集,通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据;
2)根据原数据集根据是否含有缺失数据,将其分为缺失数据集和完整数据集,然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序;
3)在缺失数据集中选择一个具有最小缺失率的数据,并使用KNN算法在完整数据集上进行填充,得到更新数据;
4)将所述更新数据移到完整数据集中用来估计下一个的缺失值;
5)若缺失数据集中没有含有缺失值的数据,则停止;否则返回步骤3);
6)比较更新的填充数据和旧的填充数据,如果收敛,则停止;否则使用更新的填写数据返回步骤3)。
2.根据权利要求1所述的自适应最近邻缺失数据的填充方法,其特征在于,所述步骤2)的数据排序具体方法如下:
a1)按照整个数据集原始数据的所有特征,计算出各个特征丢失数据的缺失率;
a2)将所有缺少一个特征的数据根据特征缺失率从小到大排序;
a3)将所有缺少两个或两个以上特征的数据放在一起,并按照丢失率大小,将具有相同的丢失率的数据放在一组,不用组按照丢失率从小到大排列;
对于每一组而言,其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序;
通过多次排序,最后得到一个具有最优填充顺序的缺失数据集。