数据处理的方法及装置与流程

文档序号:12667742阅读:来源:国知局

技术特征:

1.一种数据处理的方法,其特征在于,包括:

获取数据样本;

计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度;

根据所述相似度从所述未包括缺失值的数据样本中确定填充样本;

根据所述缺失值在所述填充样本中对应的属性值确定填充值,并根据所述填充值更新所述包括缺失值的数据样本。

2.根据权利要求1所述的方法,其特征在于,在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前,还包括:

根据缺失值对应属性获取所述数据样本各属性的初始化贡献度,所述各属性为所述缺失值对应属性的相关属性。

3.根据权利要求2所述的方法,其特征在于,所述相关属性以及所述缺失值对应属性的属性值均为连续型数值;

相应的,所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度,具体为:

根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

4.根据权利要求2所述的方法,其特征在于,所述相关属性或所述缺失值对应属性的属性值为离散型数值;

相应的,所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度,包括:

如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值,则将所述连续型数值进行离散化处理;

计算所述缺失值对应属性包含的各离散型数值在所述未包含缺失值的数据样本中的第一贡献度;

获取相关属性值与所述缺失值的相关属性值相同的未包含缺失值的数据样本为所述相关属性的子样本,并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度;

根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵;

根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

5.根据权利要求1所述的方法,其特征在于,在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前,还包括:

根据样本数确定规则确定填充所述缺失值所需的填充样本数。

6.根据权利要求5所述的方法,其特征在于,所述根据样本数确定规则确定填充所述缺失值所需的填充样本数,包括:

根据缺失值对应属性的非缺失率和未包括缺失值的数据样本的数量确定填充所述缺失值所需的第一样本数;

根据缺失值对应属性的相关属性的贡献率和所述未包括缺失值的数据样本的数量确定填充所述缺失值所需的第二样本数;

根据所述第一样本数与所述第二样本数确定填充所述缺失值所需的填充样本数。

7.一种数据处理的装置,其特征在于,包括:

数据样本获取模块,用于获取数据样本;

相似度计算模块,用于计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度;

填充样本确定模块,用于根据所述相似度从所述未包括缺失值的数据样本中确定填充样本;

填充值确定模块,用于根据所述缺失值在所述填充样本中对应的属性值确定填充值,并根据所述填充值更新所述包括缺失值的数据样本。

8.根据权利要求7所述的装置,其特征在于,还包括:

初始化贡献度获取模块,用于在所述计算包括缺失值的数据样本的属性值与未包括缺失值的数据样本的属性值之间的相似度之前,根据缺失值对应属性获取所述数据样本各属性的初始化贡献度,所述各属性为所述缺失值对应属性的相关属性。

9.根据权利要求8所述的装置,其特征在于,当所述相关属性以及所述缺失值对应属性的属性值均为连续型数值是,所述相似度计算模块具体用于:

根据所述相关属性的初始化贡献度与欧氏距离公式计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

当所述相关属性或所述缺失值对应属性的属性值为离散型数值时;所述相似度计算模块包括:

离散化处理单元,用于如果所述相关属性或所述缺失值对应属性的属性值包含连续型数值,则将所述连续型数值进行离散化处理;

第一贡献度计算单元,用于计算所述缺失值对应属性包含的各离散型数值在所述未包含缺失值的数据样本中的第一贡献度;

第二贡献度计算单元,用于获取相关属性值与所述缺失值的相关属性值相同的未包含缺失值的数据样本为所述相关属性的子样本,并计算所述缺失值对应属性包含的各离散型数值在所述相关属性的子样本中的第二贡献度;

综合贡献度矩阵生成单元,用于根据所述第一贡献度和所述第二贡献度生成所述缺失值的综合贡献度矩阵;

相似度计算单元,用于根据所述综合贡献度矩阵与所述相关属性的初始化贡献度计算包括缺失值的数据样本的相关属性值与未包括缺失值的数据样本的相关属性值之间的相似度。

10.根据权利要求6所述的装置,其特征在于,还包括:

填充样本数确定模块,用于在所述根据所述相似度从所述未包括缺失值的数据样本中确定填充样本之前,根据样本数确定规则确定填充所述缺失值所需的填充样本数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1