数据处理的方法和装置与流程

文档序号:12039176阅读:来源:国知局
数据处理的方法和装置与流程

技术特征:
1.一种数据处理的方法,其特征在于,所述方法包括:根据主键对样本进行排序,所述主键由特征序号和样本序号拼接而成,所述主键对应的列值为样本的特征值,样本按照类别存储,每种类别都有一个或者多个样本;以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。2.根据权利要求1所述的方法,其特征在于,根据主键对样本进行排序,包括:当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。3.根据权利要求1所述的方法,其特征在于,使用第一算法模型计算得到每个类别中的每个特征的统计量,包括:使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。4.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征值统计,包括:对每个类别,计算属于该类别的所有样本的特征值之和;和/或,对每个类别,计算属于该类别的所有样本的特征值的平方之和。5.根据权利要求3所述的方法,其特征在于,对每个类别的样本进行特征出现次数的统计,包括:在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。6.根据权利要求1所述的方法,其特征在于,使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,包括:使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。7.根据权利要求1所述的方法,其特征在于,根据所述贡献值进行特征选取,包括:按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定 的贡献值对应的特征。8.一种数据处理的装置,其特征在于,所述装置包括:排序模块,用于根据主键对样本进行排序,所述主键由特征序号和样本序号拼接而成,所述主键对应的列值为样本的特征值,样本按照类别存储,每种类别都有一个或者多个样本;第一处理模块,用于以所述主键和特征值为输入键值对,使用第一算法模型计算得到每个类别中的每个特征的统计量,并将特征序号和统计量作为输出键值对输出;第二处理模块,用于使用第二算法模型对所述输出键值对进行计算,得到每个特征对类别的贡献值,根据所述贡献值进行特征选取。9.根据权利要求8所述的装置,其特征在于,所述排序模块包括:第一排序单元,用于当所述主键由特征序号和样本序号拼接而成时,先按照特征序号对样本进行排序,然后对于相同特征序号的样本按照样本序号进行排序;或者,第二排序单元,用于当所述主键由样本序号和特征序号拼接而成时,先按照样本序号对样本进行排序,然后对于相同样本序号的样本按照特征序号进行排序。10.根据权利要求8所述的装置,其特征在于,所述第一处理模块包括:统计单元,用于使用第一算法模型,对每个类别的样本进行特征值统计,和/或,对每个类别的样本进行特征出现次数的统计。11.根据权利要求10所述的装置,其特征在于,所述统计单元用于:对每个类别,计算属于该类别的所有样本的特征值之和;和/或,对每个类别,计算属于该类别的所有样本的特征值的平方之和。12.根据权利要求10所述的装置,其特征在于,所述统计单元用于:在每个类别中,对每个特征记录所述特征在该类别的所有样本中特征值不为零的次数,作为所述特征在该类别的样本中出现的次数。13.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:计算单元,用于使用第二算法模型,统计所有类别的样本的特征值和/或统计所有类别的样本中特征出现的次数,并根据统计的结果计算每个特征对类别的贡献值。14.根据权利要求8所述的装置,其特征在于,所述第二处理模块包括:选取单元,用于按照贡献值从大到小确定指定个数个贡献值,在所有特征中选出所述确定的贡献值对应的特征。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1