一种数据处理方法及装置的制造方法_4

文档序号:8512492阅读:来源:国知局
,(SELECT score FROM SC WHERE SC. S# = t. S#AND C# = ' 001')AS 数据库
[0141] ,(SELECT score FROM SC WHERE SC. S# = t. S#AND C# =,002,)AS 英语
[0142] ,(SELECT score FROM SC WHERE SC. S# = t. S#AND C# =,003,)AS 算 法,COUNT (t. C#) AS 有效课程数,AVG (t. score) AS 平均成绩 FROM SC AS t
[0143] GROUP BY t. S#
[0144] ORDER BY avg (t. Score) "
[0145] 上述SQL语句表示的任务为"按照'平均成绩'从高到低的顺序,显示所有学生的 '数据库'、'英语'、'算法'三门的课程成绩,并按照如下形式显示:学生ID,数据库,英语,算 法,有效课程数,平均成绩",其中,学生表如表1所示,课程表如表2所示,成绩表如表3所 示:
[0146] 表1学生表
[0147]
【主权项】
1. 一种数据处理方法,其特征在于,包括: 接收任务请求,所述任务请求中携带有用户提交的任务; 根据所述任务请求中的所述任务,生成包含至少一个子任务的子任务集; 确定执行每个子任务的输入数据; 针对所述子任务集中的每个子任务执行以下操作: 在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计 算框架,其中,所述候选计算框架的数目大于或等于2 ; 根据该子任务的输入数据、以及每个候选计算框架对应的预测模型,分别预测每个候 选计算框架执行该子任务时对应的运行时间和资源消耗; 根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗,在所述候 选计算框架中,筛选出执行该子任务的目标计算框架; 基于筛选出的执行所述子任务集中的每个子任务的目标计算框架,执行对应的子任 务。
2. 如权利要求1所述的方法,其特征在于,所述任务请求中还携带有所述任务的输入 数据; 确定执行每个子任务的输入数据,包括: 根据所述任务请求中携带的所述任务的输入数据,确定执行每个子任务的输入数据。
3. 如权利要求1所述的方法,其特征在于,接收任务请求之前,还包括: 在系统配置的所有计算框架中,将具有执行相同任务类型的所有计算框架中的、执行 所述相同任务类型的应用程序接口 API通过预设的编程语言进行封装,形成统一 API ; 在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计 算框架,包括: 确定该子任务的任务类型; 确定该子任务的任务类型对应的统一 API ; 根据确定的所述统一 API,确定具有执行该子任务的任务类型的所有计算框架,并将确 定的计算框架作为候选计算框架。
4. 如权利要求1-3任一项所述的方法,其特征在于,获得候选计算框架对应的预测模 型,包括: 读取预设的训练样本集合,所述训练样本集合是针对所述候选计算框架执行该子任务 的能力预设的; 分别以运行时间、资源消耗为目标特征,对所述训练样本集合中除运行时间、资源消耗 以外的其它特征进行训练,得到所述候选计算框架对应的预测模型。
5. 如权利要求1-4任一项所述的方法,其特征在于,根据预测的每个候选计算框架执 行该子任务时对应的运行时间和资源消耗,在所述候选计算框架中,筛选出执行该子任务 的目标计算框架,包括: 在所述候选计算框架中,选择预测的资源消耗小于系统的可用资源的候选计算框架作 为第一候选计算框架; 在所述第一候选计算框架中,筛选出预测的运行时间最小的第一候选计算框架作为目 标计算框架。
6. 如权利要求4所述的方法,其特征在于,基于确定的执行所述子任务集中的每个子 任务的目标计算框架,执行对应的子任务之后,还包括: 将在该子任务的目标计算框架中执行该子任务产生的各个特征,作为新的训练样本; 将所述新的训练样本添加至所述训练样本集合。
7. -种数据处理装置,其特征在于,包括: 接收单元,用于接收任务请求,所述任务请求中携带有用户提交的任务; 生成单元,用于根据所述任务请求中的所述任务,生成包含至少一个子任务的子任务 集; 确定单元,用于确定执行每个子任务的输入数据; 处理单元,用于针对所述子任务集中的每个子任务执行以下操作: 在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框架作为候选计 算框架,其中,所述候选计算框架的数目大于或等于2 ; 根据该子任务的输入数据、以及每个候选计算框架对应的预测模型,分别预测每个候 选计算框架执行该子任务时对应的运行时间和资源消耗; 根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗,在所述候 选计算框架中,筛选出执行该子任务的目标计算框架; 运行单元,用于基于筛选出的执行所述子任务集中的每个子任务的目标计算框架,执 行对应的子任务。
8. 如权利要求7所述的装置,其特征在于,所述接收单元接收的所述任务请求中还携 带有所述任务的输入数据; 所述确定单元,用于: 根据所述任务请求中携带的所述任务的输入数据,确定执行每个子任务的输入数据。
9. 如权利要求7所述的装置,其特征在于,还包括:配置单元,用于在接收任务请求之 前,在系统配置的所有计算框架中,将具有执行相同任务类型的所有计算框架中的、执行所 述相同任务类型的应用程序接口 API通过预设的编程语言进行封装,形成统一 API ; 所述处理单元,在系统配置的所有计算框架中确定具有执行该子任务的能力的计算框 架作为候选计算框架时,用于: 确定该子任务的任务类型; 确定该子任务的任务类型对应的统一 API ; 根据确定的所述统一 API,确定具有执行该子任务的任务类型的所有计算框架,并将确 定的计算框架作为候选计算框架。
10. 如权利要求7-9任一项所述的装置,其特征在于,所述处理单元在获得候选计算框 架对应的预测模型时,用于: 读取预设的训练样本集合,所述训练样本集合是针对所述候选计算框架执行该子任务 的能力预设的; 分别以运行时间、资源消耗为目标特征,对所述训练样本集合中除运行时间、资源消耗 以外的其它特征进行训练,得到所述候选计算框架对应的预测模型。
11. 如权利要求7-10任一项所述的装置,其特征在于,所述处理单元,在筛选出执行该 子任务的目标计算框架时,包括: 在所述候选计算框架中,选择预测的资源消耗小于系统的可用资源的候选计算框架作 为第一候选计算框架; 在所述第一候选计算框架中,筛选出预测的运行时间最小的第一候选计算框架作为目 标计算框架。
12.如权利要求10所述的装置,其特征在于,所述运行单元,还用于: 基于确定的执行所述子任务集中的每个子任务的目标计算框架,执行对应的子任务之 后,将在该子任务的目标计算框架中执行该子任务产生的各个特征,作为新的训练样本; 将所述新的训练样本添加至所述训练样本集合。
【专利摘要】本发明公开了一种数据处理方法及装置,用以解决现有技术中融合多种计算框架的资源管理系统在处理数据任务时,不是通过运行时间和资源消耗选择计算框架,数据处理效率较低的问题,降低了系统的工作性能的问题。该方法为:针对子任务集中每个子任务,确定候选计算框架,并预测每个候选计算框架执行该子任务时对应的运行时间和资源消耗,并根据预测的每个候选计算框架执行该子任务时对应的运行时间和资源消耗,在候选计算框架中,筛选出执行该子任务的目标计算框架,执行该子任务。这样,资源管理系统通过运行时间和资源消耗在多个计算框架中选择目标计算框架执行每个子任务,提高了数据处理效率,以及系统的工作性能。
【IPC分类】G06F9-48, G06F9-50
【公开号】CN104834561
【申请号】CN201510212439
【发明人】谭卫国, 邵刚
【申请人】华为技术有限公司
【公开日】2015年8月12日
【申请日】2015年4月29日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1