数据处理方法、装置、设备和存储介质与流程

文档序号:31051667发布日期:2022-08-06 07:37阅读:来源:国知局

技术特征:
1.一种数据处理方法,其特征在于,包括:获取待处理数据的数据总量,所述待处理数据对应于当前数据处理任务;根据所述待处理数据的数据总量,确定所述待处理数据对应的内存占用总量;基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案。2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理数据的数据总量,确定所述待处理数据对应的内存占用总量,包括:根据所述待处理数据的数据总量,确定样本量;根据所述样本量和分层特征对所述待处理数据进行抽样,得到抽样数据;根据所述抽样数据,确定所述待处理数据中每条数据对应的平均内存占用量;根据所述平均内存占用量和所述数据总量确定所述待处理数据对应的所述内存占用总量。3.根据权利要求2所述的方法,其特征在于,还包括:采用如下公式确定所述样本量:其中,n为所述当前数据处理任务对应的待处理数据需要的样本量,z为置信水平对应的置信度,α为显著水平,p为相关属性比例,e为误差幅度。4.根据权利要求2所述的方法,其特征在于,所述根据所述抽样数据,确定所述待处理数据中每条数据对应的平均内存占用量,包括:对所述抽样数据进行有效性分析,从中提取所述抽样数据的有效响应体;根据所述有效响应体确定所述待处理数据中每条数据对应的平均内存占用量。5.根据权利要求1所述的方法,其特征在于,所述基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案,包括:判断所述内存占用总量是否大于所述当前可用内存资源量;当所述内存占用总量小于或等于所述当前可用内存资源量时,判断所述内存占用总量是否大于所述预设内存阈值;当所述内存占用总量大于所述预设内存阈值时,按照预期并行度将所述数据处理任务拆分成多个子任务;基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述多个子任务分配对应的第一目标节点,并确定所述执行方案为多个子任务并行执行。6.根据权利要求5所述的方法,其特征在于,所述基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述多个子任务分配对应的第一目标节点,包括:从所述分布式集群中选出多个第一候选节点,所述第一候选节点的当前可用资源量大于或等于每个所述子任务需要的内存占用量;基于所述多个第一候选节点中各个节点对应的当前可用内存资源比例,为所述多个子任务依次分配第一目标节点,所述第一目标节点为所述多个第一候选节点中所述当前可用
内存资源占比最大的节点。7.根据权利要求5所述的方法,其特征在于,所述基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案,还包括:当所述内存占用总量小于或等于所述预设内存阈值时,基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述数据处理任务分配对应的第二目标节点,确定所述执行方案为按照并行度为1执行所述数据处理任务分。8.根据权利要求7所述的方法,其特征在于,所述基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述数据处理任务分配对应的第二目标节点,包括:从所述分布式集群中选出多个第二候选节点,所述第二候选节点的当前可用资源量大于或等于每个数据处理任务需要的内存占用量;基于所述多个第二候选节点中各个节点对应的当前可用内存资源比例,为所述数据处理任务分配第二目标节点,所述第二目标节点为所述多个第二候选节点中所述当前可用内存资源占比最大的节点。9.根据权利要求5所述的方法,其特征在于,所述基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案,还包括:当所述内存占用总量大于所述当前可用内存资源量时,按照所述预期并行度将所述数据处理任务拆分成多个子任务;基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述多个子任务分配对应的第三目标节点,并确定所述执行方案为同一个所述第三目标节点上的多个所述子任务串行执行,不同的所述第三目标节点之间的所述子任务并行执行。10.根据权利要求9所述的方法,其特征在于,所述基于所述分布式集群中各个节点对应的当前可用内存资源比例,为所述多个子任务分配对应的第三目标节点,包括:从所述分布式集群中选出多个第三候选节点,所述第三候选节点的当前可用资源量大于或等于每个所述子任务需要的内存占用量;基于所述多个第三候选节点中各个节点对应的当前可用内存资源比例,为所述多个子任务依次分配第三目标节点,所述第三目标节点为所述多个第三候选节点中所述当前可用内存资源占比最大的节点。11.根据权利要求1所述的方法,其特征在于,在所述基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案之后,还包括:按照节点资源分配结果和所述执行方案执行所述数据处理任务。12.根据权利要求1所述的方法,其特征在于,所述获取待处理数据的数据总量,所述待处理数据对应于当前数据处理任务,包括:提取所述当前数据处理任务中的任务描述,所述任务描述中包括:待抽取的目标数据源的定义和待抽取数据集的定义;根据所述目标数据源的定义和所述待抽取数据集的定义,从所述目标数据源中查询所述待抽取数据集的所述数据总量。13.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;处理器,用以执行所述计算机程序,以实现如权利要求1至12中任一项所述的方法。14.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至12中任一项所述的方法。

技术总结
本申请提供一种数据处理方法、装置、设备和存储介质,该方法包括:获取待处理数据的数据总量,所述待处理数据对应于当前数据处理任务;根据所述待处理数据的数据总量,确定所述待处理数据对应的内存占用总量;基于所述内存占用总量、预设内存阈值和分布式集群中当前可用内存资源量,为所述数据处理任务分配对应的节点资源和执行方案。本申请实现了缓解分布式集群中数据处理任务执行过程中资源分配不均的问题,提高分布式集群的资源利用率。提高分布式集群的资源利用率。提高分布式集群的资源利用率。


技术研发人员:陈子龙 石欣
受保护的技术使用者:上海弘玑信息技术有限公司
技术研发日:2022.05.17
技术公布日:2022/8/5
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1