数据处理方法及装置与流程

文档序号:33711961发布日期:2023-04-01 00:15阅读:来源:国知局

技术特征:
1.一种数据处理方法,其特征在于,包括:调用数据处理系统中的调度管理模块对模型训练任务对应的样本数据集进行切片处理得到初始切片数据;所述初始切片数据包括一个或多个数据源的样本数据;调用所述数据处理系统中的数据处理引擎对所述初始切片数据进行混合处理和/或预处理得到符合模型训练模块的数据要求的目标切片数据;所述数据处理引擎支持读取不同数据源的数据以及对不同数据源的数据进行混合处理和预处理;所述混合处理用于指示打散所述初始切片数据中包含的样本数据的数据顺序;所述预处理用于指示对所述初始切片数据进行信息转换和/或样本过滤;通过将所述目标切片数据输入至所述模型训练模块进行模型训练,以得到满足训练结束条件的模型。2.根据权利要求1所述的方法,其特征在于,所述调用所述数据处理系统中的数据处理引擎对所述初始切片数据进行混合处理和/或预处理,包括:调用所述数据处理引擎对所述一个或多个数据源中的数据按照时间进行排序,将基于排序结果聚合所述初始切片数据包含的样本数据;针对各所述初始切片数据,调用所述数据处理引擎按行/按文件对所述初始切片数据包含的样本数据的数据顺序进行打散,得到混合后的初始切片数据。3.根据权利要求1所述的方法,其特征在于,所述调用所述数据处理系统中的数据处理引擎对所述初始切片数据进行混合处理和/或预处理得到符合模型训练模块的数据要求的目标切片数据,包括:调用所述数据处理引擎对所述初始切片数据中第一数据进行预处理得到符合模型训练模块的数据要求的第三数据;以及,检查所述初始切片数据中是否包括无需执行预处理的第二数据;调用所述数据处理引擎将所述第三数据与检查得到的无需执行预处理的第二数据合并得到所述目标切片数据,所述第二数据符合所述模型训练模块的数据要求。4.根据权利要求1所述的方法,其特征在于,所述通过所述调度管理模块调用数据处理引擎对所述初始切片数据进行混合处理和/或预处理得到符合模型训练模块的数据要求的目标切片数据,包括:基于预设并发数调用所述数据处理系统中相应数量的多个数据处理引擎并行地对多个所述初始切片数据进行混合处理和/或预处理得到各所述数据处理引擎分别输出的目标切片数据。5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:调用所述调度管理模块检查所述数据处理引擎的执行状态;检测到所述数据处理引擎的执行状态为失败状态时,基于预设重启策略确定重启所述数据处理引擎重新对相应的所述初始切片数据进行混合处理和/或预处理或者结束对相应的所述初始切片数据进行混合处理和/或预处理。6.根据权利要求5所述的方法,其特征在于,所述基于预设重启策略确定重启所述数据处理引擎重新对相应的所述初始切片数据进行预处理或者结束对相应的所述初始切片数据进行混合处理和/或预处理,包括:确定本次失败是否达到所述预设重启策略指示的最大失败次数;
若达到所述最大失败次数,则重启所述数据处理引擎重新对相应的所述初始切片数据进行混合处理和/或预处理;若未达到所述最大失败次数,则结束对相应的所述初始切片数据进行混合处理和/或预处理,并将失败结果传输至所述模型训练模块。7.根据权利要求4所述的方法,其特征在于,所述通过将所述目标切片数据输入至所述模型训练模块进行模型训练,包括:将多个所述数据处理引擎输出的目标切片数据按照切片处理得到多个初始切片数据的先后顺序依次输入至数据队列中;调用所述模型训练模块从所述数据队列中读取所述目标切片数据进行模型训练。8.根据权利要求1所述的方法,其特征在于,还包括:在训练过程中,将所述模型训练模块训练过的目标切片数据从所述数据处理系统中删除。9.一种数据处理装置,其特征在于,包括:调度管理模块,用于对模型训练任务对应的样本数据集进行切片处理得到初始切片数据;所述初始切片数据包括一个或多个数据源的样本数据;数据处理引擎,用于对所述初始切片数据进行混合处理和/或预处理得到符合模型训练模块的数据要求的目标切片数据;所述数据处理引擎支持读取不同数据源的数据以及对不同数据源的数据进行混合处理和预处理;所述混合处理用于指示打散所述初始切片数据包含的各样本数据的数据顺序;所述预处理用于指示对所述初始切片数据进行信息转换和/或样本过滤;模型训练模块,用于基于所述目标切片数据进行模型训练,以得到满足训练结束条件的模型。10.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器被配置为存储计算机程序指令;所述处理器被配置为执行所述计算机程序指令,使得所述电子设备实现如权利要求1至8任一项所述的数据处理方法。11.一种可读存储介质,其特征在于,包括:计算机程序指令;电子设备执行所述计算机程序指令,使得所述电子设备实现如权利要求1至8任一项所述的数据处理方法。12.一种计算机程序产品,其特征在于,电子设备运行所述计算机程序产品,使得所述电子设备实现如权利要求1至8任一项所述的数据处理方法。

技术总结
本公开涉及一种数据处理方法及装置,其中,该方法包括:调用数据处理系统中的调度管理模块对模型训练任务对应的样本数据集进行切片处理得到初始切片数据;调用数据处理系统中的数据处理引擎对初始切片数据进行混合处理和/或预处理得到符合模型训练模块的数据要求的目标切片数据;将目标切片数据输入至模型训练模块进行训练,以得到满足训练结束条件的模型。通过将功能丰富的数据处理引擎引入数据处理系统用于执行丰富类型的样本数据读取、数据混合及预处理,实现精细化的样本打散、混合及预处理功能,使模型训练框架能够支持对多种类型的数据源中的样本数据进行训练,提升模型训练效果;数据预处理和模型训练可以并行处理,提高模型训练效率。提高模型训练效率。提高模型训练效率。


技术研发人员:单既喜 钱瀚 郭洋 师锐
受保护的技术使用者:北京火山引擎科技有限公司
技术研发日:2022.12.27
技术公布日:2023/3/31
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1