一种自适应最近邻缺失数据的填充方法与流程

文档序号：12063507阅读：来源：国知局

技术特征：

1.一种自适应最近邻缺失数据的填充方法，其特征在于，包括如下步骤，

1)选定作为目标的原始数据集，通过使用由KNN算法计算的估计值填充原始数据集中的缺失值来初始化数据；

2)根据原数据集根据是否含有缺失数据，将其分为缺失数据集和完整数据集，然后根据最低缺失级别和缺失值属性对缺失数据集进行数据排序；

3)在缺失数据集中选择一个具有最小缺失率的数据，并使用KNN算法在完整数据集上进行填充，得到更新数据；

4)将所述更新数据移到完整数据集中用来估计下一个的缺失值；

5)若缺失数据集中没有含有缺失值的数据，则停止；否则返回步骤3)；

6)比较更新的填充数据和旧的填充数据，如果收敛，则停止；否则使用更新的填写数据返回步骤3)。

2.根据权利要求1所述的自适应最近邻缺失数据的填充方法，其特征在于，所述步骤2)的数据排序具体方法如下：

a1)按照整个数据集原始数据的所有特征，计算出各个特征丢失数据的缺失率；

a2)将所有缺少一个特征的数据根据特征缺失率从小到大排序；

a3)将所有缺少两个或两个以上特征的数据放在一起，并按照丢失率大小，将具有相同的丢失率的数据放在一组，不用组按照丢失率从小到大排列；

对于每一组而言，其中组内排序根据各个对应特征属性上的缺失率总和进行再次排序；

通过多次排序，最后得到一个具有最优填充顺序的缺失数据集。

完整全部详细技术资料下载

当前第2页1 2 3