一种数据处理方法及装置的制造方法_2

文档序号:8512492阅读:来源:国知局
该子 任务的能力预设的;
[0053] 分别以运行时间、资源消耗为目标特征,对所述训练样本集合中除运行时间、资源 消耗以外的其它特征进行训练,得到所述候选计算框架对应的预测模型。
[0054] 结合第二方面或第二方面的以上任一种可能的实现方式,在第四种可能的实现方 式中,所述处理单元,在筛选出执行该子任务的目标计算框架时,包括:
[0055] 在所述候选计算框架中,选择预测的资源消耗小于系统的可用资源的候选计算框 架作为第一候选计算框架;
[0056] 在所述第一候选计算框架中,筛选出预测的运行时间最小的第一候选计算框架作 为目标计算框架。
[0057] 结合第二方面的第三种可能的实现方式,在第五种可能的实现方式中,所述运行 单元,还用于:
[0058] 基于确定的执行所述子任务集中的每个子任务的目标计算框架,执行对应的子任 务之后,将在该子任务的目标计算框架中执行该子任务产生的各个特征,作为新的训练样 本;
[0059] 将所述新的训练样本添加至所述训练样本集合。
[0060] 采用本发明技术方案,在多个计算框架均可以执行同一子任务时,通过运行时间 和资源消耗在多个计算框架中选择目标计算框架执行该子任务,提高了数据处理效率,以 及系统的工作性能。
【附图说明】
[0061] 图1为本发明实施例提供的一种终端设备结构示意图;
[0062] 图2为本发明实施例提供的一种数据处理方法的具体流程图;
[0063] 图3为本发明实施例提供的一种任务分解示意图;
[0064] 图4为本发明实施例提供的一种数据处理装置的结构示意图。
【具体实施方式】
[0065] 采用本发明提供的数据处理方法,通过接收携带有用户提交的任务的任务请求 后,根据该任务,生成包含至少一个子任务的子任务集;并确定执行每个子任务的输入数 据,针对所述子任务集中的每个子任务执行以下操作,确定执行每个子任务的目标计算框 架:在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计 算框架,其中,所述候选计算框架的数目大于或等于2 ;根据该子任务的输入数据、以及每 个候选计算框架对应的预测模型,分别预测每个候选计算框架执行该子任务时对应的运行 时间和资源消耗;根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消 耗,在所述候选计算框架中,筛选出执行该子任务的目标计算框架;最终基于确定的执行所 述子任务集中的每个子任务的目标计算框架,执行对应的子任务。这样,资源管理系统通过 运行时间和资源消耗在多个计算框架中选择目标计算框架执行每个子任务,提高了数据处 理效率,以及系统的工作性能。
[0066] 本发明实施例提供了一种数据处理方法、装置及终端设备,应用于融合多种计算 框架的资源管理系统。下面结合附图对本发明优选的实施方式进行详细说明。
[0067] 本发明实施例还提供了一种终端设备,该终端设备为融合多种计算框架的计算机 等设备。参阅图1所示,该终端设备100包括:收发器101、处理器102、总线103以及存储 器104,其中:
[0068] 收发器101、处理器102以及存储器104通过总线103相互连接;总线103可以是 外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构 (extended industry standard architecture,EISA)总线等。所述总线可以分为地址总 线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总 线或一种类型的总线。
[0069] 收发器101用于与相连的其它设备进行通信,如接收任务请求等。
[0070] 处理器102用于实现本发明实施例图2所示的数据处理方法,包括:
[0071] 接收任务请求,任务请求中携带有用户提交的任务;
[0072] 根据任务请求中的任务,生成包含至少一个子任务的子任务集;
[0073] 确定执行每个子任务的输入数据;
[0074] 针对子任务集中的每个子任务执行以下操作:
[0075] 在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候 选计算框架,其中,候选计算框架的数目大于或等于2 ;
[0076] 根据该子任务的输入数据、以及每个候选计算框架对应的预测模型,分别预测每 个候选计算框架执行该子任务时对应的运行时间和资源消耗;
[0077] 根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗,在候 选计算框架中,筛选出执行该子任务的目标计算框架;
[0078] 基于筛选出的执行子任务集中的每个子任务的目标计算框架,执行对应的子任 务。
[0079] 可选的,任务请求中还携带有该任务的输入数据;
[0080] 确定执行每个子任务的输入数据,包括:
[0081] 根据任务请求中携带的该任务的输入数据,确定执行每个子任务的输入数据。
[0082] 可选的,接收任务请求之前,还包括:
[0083] 在系统配置的所有计算框架中,将具有执行相同任务类型的所有计算框架中的、 执行该相同任务类型的应用程序接口(,API)通过预设的编程语言进行封装,形成统一 API ;
[0084] 在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候 选计算框架,包括:
[0085] 确定该子任务的任务类型;
[0086] 确定该子任务的任务类型对应的统一 API ;
[0087] 根据确定的统一 API,确定具有执行该子任务的任务类型的所有计算框架,并将确 定的计算框架作为候选计算框架。
[0088] 可选的,获得候选计算框架对应的预测模型,包括:
[0089] 读取预设的训练样本集合,训练样本集合是针对该候选计算框架执行该子任务的 能力预设的;
[0090] 分别以运行时间、资源消耗为目标特征,对该训练样本集合中除运行时间、资源消 耗以外的其它特征进行训练,得到该候选计算框架对应的预测模型。
[0091] 可选的,根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消 耗,在候选计算框架中,筛选出执行该子任务的目标计算框架,包括:
[0092] 在候选计算框架中,选择预测的资源消耗小于系统的可用资源的候选计算框架作 为第一候选计算框架;
[0093] 在第一候选计算框架中,筛选出预测的运行时间最小的第一候选计算框架作为目 标计算框架。
[0094] 可选的,基于确定的执行子任务集中的每个子任务的目标计算框架,执行对应的 子任务之后,还包括:
[0095] 将在该子任务的目标计算框架中执行该子任务产生的各个特征,作为新的训练样 本;
[0096] 将新的训练样本添加至针对目标计算框架执行该子任务的能力预设的训练样本 集合。
[0097] 该终端设备100还包括存储器104,用于存放程序,每个计算框架的预测模型,以 及训练时得到的每个预测模型对应的训练样本集合等。具体地,程序可以包括程序代码, 该程序代码包括计算机操作指令。存储器104可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘 存储器。处理器102执行存储器104所存放的应用程序,实现如上数据处理方法。
[0098] 参阅图2所示,本发明实施例提供的一种数据处理方法的具体处理流程包括:
[0099] 步骤201 :接收任务请求,该任务请求中携带有用户提交的任务。
[0100] 用户提交的任务为对大量数据进行处理的任务,如在数据库中某数据表中的数据 中筛选设定条件的数据等,可选的,任务请求中还可以携带有用户提交的任务的输入数据。
[0101] 可选的,在执行步骤201之前,还包括:<
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1