数据处理方法及相关装置与流程

文档序号:35027469发布日期:2023-08-05 14:43阅读:29来源:国知局
数据处理方法及相关装置与流程

本技术涉及计算机,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。


背景技术:

1、在诸如金融领域、地图领域、交通领域等大数据场景中,特征筛选成为大数据场景中数据分析的重要一环。目前特征筛选方法主要是人工对训练数据集中的多个原始特征进行筛选以获取筛选后的目标特征。目前这种人工筛选的方式准确性较低,因此如何提高特征筛选的准确性是当前亟待解决的一个技术问题。


技术实现思路

1、本技术实施例提出了一种数据处理方法、装置、系统、计算机设备、计算机可读存储介质及计算机程序产品,可以提高特征筛选的准确性和效率。

2、一方面,本技术实施例提供了一种数据处理方法,该方法包括:

3、接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;

4、调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;

5、根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;

6、根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;

7、将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。

8、一方面,本技术实施例提供了一种数据处理方法,该方法包括:

9、获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;

10、将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;

11、接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。

12、一方面,本技术实施例提供了一种数据处理装置,该装置包括:

13、接收单元,用于接收管理节点发送的目标领域的目标训练数据集,目标训练数据集包括多个原始特征,目标训练数据集是k个训练数据集中的一个训练数据集,每个训练数据集对应一个时间周期,每个训练数据集包含的原始特征的特征标识相同,k为正整数;

14、处理单元,用于调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;

15、处理单元,还用于根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;

16、处理单元,还用于根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;

17、发送单元,用于将筛选出的目标特征发送至管理节点,以使管理节点根据k个时间周期的目标特征确定筛选特征。

18、在一种可能的实现方式中,特征类型包括接受特征类型、拒绝特征类型和待定特征类型;处理单元根据每个原始特征的特征类型从所述多个原始特征中筛选出目标特征,用于执行以下操作:

19、根据每个原始特征的特征类型,调整接受特征列表、拒绝特征列表以及待定特征列表,一个特征列表对应一种特征类型;

20、当满足迭代停止条件时,将接受特征列表和所述待定特征列表中记录的原始特征作为目标特征;

21、当不满足迭代停止条件时,将接受特征列表和待定特征列表中记录的原始特征组合为新的目标训练数据集。

22、在一种可能的实现方式中,当目标训练数据集的累积迭代次数达到预设迭代次数时,则确定满足迭代停止条件;或者,

23、当接受特征列表、拒绝特征列表以及待定特征列表均不发生变化时,则确定满足迭代停止条件。

24、在一种可能的实现方式中,处理单元根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型,用于执行以下操作:

25、对目标训练数据集中的多个原始特征的特征值进行随机重排,确定多个第二随机特征;

26、调用特征打分模型对第一随机特征、多个第二随机特征和目标训练数据集中的每个原始特征进行特征贡献评估处理,得到各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分;

27、根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型。

28、在一种可能的实现方式中,处理单元根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征校正处理,得到每个原始特征的特征类型,用于执行以下操作:

29、根据各个原始特征的评估分、各个第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数;

30、基于每个原始特征的试验成功次数,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果;

31、根据每个原始特征的校正结果,得到每个原始特征的特征类型。

32、在一种可能的实现方式中,处理单元根据各个原始特征的评估分、第一随机特征的评估分、以及各个第二随机特征的评估分,对每个原始特征进行特征重要性评估,得到每个原始特征的试验成功次数,用于执行以下操作:

33、根据第一随机特征的评估分、以及各个第二随机特征的评估分,确定出最高的目标评估分;

34、若任一个原始特征的评估分高于目标评估分,则调整任一个原始特征的试验成功次数。

35、在一种可能的实现方式中,处理单元基于每个原始特征的试验结果,对每个原始特征进行特征校正处理,得到每个原始特征的校正结果,用于执行以下操作:

36、获取目标训练数据集的累积迭代次数;

37、根据任一个原始特征的试验成功次数和累积迭代次数,确定任一个原始特征的待校正显著水平值;

38、对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果。

39、在一种可能的实现方式中,处理单元对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征的校正结果,用于执行以下操作:

40、按照第一校正方式对任一个原始特征的待校正显著水平值进行校正处理,得到任一个原始特征校正后的显著水平值;

41、按照第二校正方式对任一个原始特征校正后的显著水平值再次进行校正处理,得到任一个原始特征的校正结果。

42、在一种可能的实现方式中,任一个原始特征的校正结果包括参考校正累积分布值和参考校正生存函数值;

43、处理单元根据每个原始特征的校正结果,得到每个原始特征的特征类型,用于执行以下操作:

44、若参考校正累积分布值小于预设阈值,则将任一个原始特征的特征类型确定为接受特征类型;

45、若参考校正生存函数值小于预设阈值,则将任一个原始特征的特征类型确定为拒绝特征类型;

46、若任一个原始特征的参考校正累积分布值和参考校正生存函数值均大于预设阈值,则将任一个原始特征的特征类型确定为待定特征类型。

47、在一种可能的实现方式中,特定分布函数的数量为多个,任一个特定分布函数包括以下任一种:对数正态分布函数、二项式分布函数、伯努利分布函数、指数分布函数、均匀分布函数、正态分布函数。

48、一方面,本技术实施例提供了一种数据处理装置,该装置包括:

49、获取单元,用于获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;

50、发送单元,用于将k个训练数据集分别发送至k个工作节点,以使目标工作节点根据目标训练数据集中的每个原始特征的特征类型,从多个原始特征中筛选出目标特征,每个原始特征的特征类型是目标工作节点根据第一随机特征,对原始特征进行特征贡献评估处理后确定的,第一随机特征是调用目标领域对应的特定分布函数生成的特征,目标工作节点是k个工作节点中的任一工作节点,目标训练数据集是目标工作节点接收到的训练数据集;

51、处理单元,用于接收k个工作节点发送的目标特征,并将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。

52、一方面,本技术实施例提出了一种数据处理系统,数据处理系统包括管理节点和工作节点,包括如下步骤:

53、管理节点获取目标时间段内属于目标领域的样本数据集,目标时间段包括k个时间周期,样本数据集包括k个时间周期一一对应的训练数据集,一个训练数据集包括多个原始特征,每个训练数据集包含的原始特征的特征标识相同,k为正整数;

54、管理节点将目标训练数据集发送至工作节点,目标训练数据集是k个训练数据集中的一个训练数据集;

55、工作节点调用目标领域对应的特定分布函数,生成目标训练数据集的第一随机特征;

56、工作节点根据第一随机特征,对目标训练数据集中的每个原始特征进行特征贡献评估处理,得到每个原始特征的特征类型;

57、工作节点根据每个原始特征的特征类型从多个原始特征中筛选出目标特征;

58、工作节点将筛选出的目标特征发送至管理节点;

59、管理节点将接收到的目标特征进行汇总,得到筛选特征,输出筛选特征。

60、一方面,本技术实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的数据处理方法。

61、一方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。

62、一方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。

63、可见,本技术中,在对每个原始特征进行特征筛选的过程中,可以根据第一随机特征进行特征贡献评估处理。由于特征筛选既参考了训练数据集本身的原始特征,还额外增加了与原始特征的目标领域相关的第一随机特征,因此丰富了特征筛选的样本数据,从而可以提高特征筛选的准确性。进一步地,一个工作节点可以负责对一个周期的训练数据集的多个原始特征进行处理,从而筛选得到目标特征,可以理解的是,k个训练数据集可以由k个工作节点同步执行,最终将各自筛选得到的目标特征发送至管理结果汇总。相比于,单一的工作节点逐一处理一个训练数据集而言,本技术实施例可以分布式处理,从而可以提高特征筛选的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1