数据加载方法、装置和处理器及电子设备与流程

文档序号:35674380发布日期:2023-10-08 02:09阅读:26来源:国知局
数据加载方法、装置和处理器及电子设备与流程

本技术涉及大数据处理,具体而言,涉及一种数据加载方法、装置和处理器及电子设备。


背景技术:

1、现如今,使用构建的企业级数据湖以存储大规模贴源数据已经成为热点,面对每天大量数据文件需加载进入数据湖的情况下,对于加载工具的性能以及加载方式的效率有着较高的需求。

2、现有技术中常常将译码后的文件直接使用复制命令复制到特定目录,以实现数据文件的加载,然而该方式耗时较长,尤其是在面对比较大的数据文件时,长时间的复制更是直接影响到下游应用的数据使用。即,现有技术中存在数据加载的效率较低的技术问题。

3、针对相关技术中数据加载的效率较低的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本技术的主要目的在于提供一种数据加载方法、装置和处理器及电子设备,以解决相关技术中数据加载的效率较低的问题。

2、为了实现上述目的,根据本技术的一个方面,提供了一种数据加载方法。该方法包括:响应数据加载请求,获取目标数据的数据大小信息,其中,数据加载请求用于请求将目标数据加载至目标位置;从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式,其中,目标模型为基于历史时间段的、不同数据大小的数据样本的数据加载记录训练得到的神经网络模型,用于指示各个数据大小的数据对应的加载方式,加载方式包括目标加载方式;按照目标加载方式,将目标数据加载至目标位置。

3、作为一种可选的方案,在从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式之前,方法还包括:获取历史时间段的全部数据样本的数据加载记录,其中,数据加载记录包括数据样本的数据样本大小信息、数据样本加载方式、数据样本加载耗时;根据全部数据样本的数据样本大小信息,确定区间尺寸一致的多个数据样本区间,并获取各个数据样本区间内包括的数据样本加载耗时最短的目标数据样本,将目标数据样本对应的数据样本加载方式确定为数据样本区间对应的加载方式;在获取到用于指示各个数据样本区间对应的加载方式的统计结果的情况下,利用统计结果进行机器学习训练得到目标模型。

4、作为一种可选的方案,目标加载方式包括以下至少之一:串行复制加载方式;分布式并发复制加载方式。

5、作为一种可选的方案,在按照目标加载方式,将目标数据加载至目标位置之后,方法还包括:获取目标数据按照目标加载方式加载至目标位置的目标加载耗时;在目标加载耗时与目标区间对应的目标区间耗时之间的差值大于预设时间阈值的情况下,将目标模型的目标区间对应的目标加载方式从当前加载方式调整为另一加载方式,其中,在当前加载方式为串行复制加载方式的情况下,另一加载方式为分布式并发复制加载方式,在当前加载方式为分布式并发复制加载方式的情况下,另一加载方式为串行复制加载方式,目标区间耗时为目标区间对应的加载耗时最短的目标数据样本的数据样本加载耗时。

6、作为一种可选的方案,按照目标加载方式,将目标数据加载至目标位置,包括:在目标加载方式为分布式并发复制加载方式的情况下,获取系统空闲资源以及每个任务占用资源,其中,系统空闲资源和每个任务占用资源用于确定可执行并发数;在确定出可执行并发数的情况下,使用distcp命令将目标数据加载至目标位置。

7、作为一种可选的方案,在使用distcp命令将目标数据加载至目标位置之前,方法还包括:在系统空闲资源与每个任务占用资源的商值不大于预设阈值的情况下,将商值确定为可执行并发数;在商值大于预设阈值的情况下,将预设阈值确定为可执行并发数。

8、作为一种可选的方案,在获取目标数据的数据大小信息之前,方法还包括:获取待加载至目标位置的本地数据文件,其中,本地数据文件用于上传至目标分布式文件系统;在本地数据文件被上传至目标分布式文件系统的情况下,对本地数据文件执行转码操作,并基于转码操作后的数据文件得到目标数据;按照目标加载方式,将目标数据加载至目标位置包括:根据目标加载方式对应的目标命令,将目标数据复制到目标位置,其中,目标命令包括以下至少之一:cp命令、distcp命令。

9、为了实现上述目的,根据本技术的另一方面,提供了一种数据加载装置。该装置包括:获取单元,用于响应数据加载请求,获取目标数据的数据大小信息,其中,数据加载请求用于请求将目标数据加载至目标位置;确定单元,用于从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式,其中,目标模型为基于历史时间段的、不同数据大小的数据样本的数据加载记录训练得到的神经网络模型,用于指示各个数据大小的数据对应的加载方式,加载方式包括目标加载方式;加载单元,用于按照目标加载方式,将目标数据加载至目标位置。

10、作为一种可选的方案,装置还包括:第一获取模块,用于在从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式之前,获取历史时间段的全部数据样本的数据加载记录,其中,数据加载记录包括数据样本的数据样本大小信息、数据样本加载方式、数据样本加载耗时;第一确定模块,用于在从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式之前,根据全部数据样本的数据样本大小信息,确定区间尺寸一致的多个数据样本区间,并获取各个数据样本区间内包括的数据样本加载耗时最短的目标数据样本,将目标数据样本对应的数据样本加载方式确定为数据样本区间对应的加载方式;训练模块,用于在从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式之前,在获取到用于指示各个数据样本区间对应的加载方式的统计结果的情况下,利用统计结果进行机器学习训练得到目标模型。

11、作为一种可选的方案,装置还包括:第一加载模块,用于通过串行复制加载方式实现目标数据的数据加载;第二加载模块,用于通过分布式并发复制加载方式实现目标数据的数据加载。

12、作为一种可选的方案,装置还包括:第二获取模块,用于在按照目标加载方式,将目标数据加载至目标位置之后,获取目标数据按照目标加载方式加载至目标位置的目标加载耗时;调整模块,用于在按照目标加载方式,将目标数据加载至目标位置之后,在目标加载耗时与目标区间对应的目标区间耗时之间的差值大于预设时间阈值的情况下,将目标模型的目标区间对应的目标加载方式从当前加载方式调整为另一加载方式,其中,在当前加载方式为串行复制加载方式的情况下,另一加载方式为分布式并发复制加载方式,在当前加载方式为分布式并发复制加载方式的情况下,另一加载方式为串行复制加载方式,目标区间耗时为目标区间对应的加载耗时最短的目标数据样本的数据样本加载耗时。

13、作为一种可选的方案,加载单元,包括:第三获取模块,用于在目标加载方式为分布式并发复制加载方式的情况下,获取系统空闲资源以及每个任务占用资源,其中,系统空闲资源和每个任务占用资源用于确定可执行并发数;第三加载模块,用于在确定出可执行并发数的情况下,使用distcp命令将目标数据加载至目标位置。

14、作为一种可选的方案,装置还包括:第二确定模块,用于在使用distcp命令将目标数据加载至目标位置之前,在系统空闲资源与每个任务占用资源的商值不大于预设阈值的情况下,将商值确定为可执行并发数;第三确定模块,用于在使用distcp命令将目标数据加载至目标位置之前,在商值大于预设阈值的情况下,将预设阈值确定为可执行并发数。

15、作为一种可选的方案,装置还包括:第四获取模块,用于在获取目标数据的数据大小信息之前,获取待加载至目标位置的本地数据文件,其中,本地数据文件用于上传至目标分布式文件系统;转码模块,用于在获取目标数据的数据大小信息之前,在本地数据文件被上传至目标分布式文件系统的情况下,对本地数据文件执行转码操作,并基于转码操作后的数据文件得到目标数据;加载单元包括:复制模块,用于根据目标加载方式对应的目标命令,将目标数据复制到目标位置,其中,目标命令包括以下至少之一:cp命令、distcp命令。

16、通过本技术,采用以下步骤:响应数据加载请求,获取目标数据的数据大小信息,其中,数据加载请求用于请求将目标数据加载至目标位置;从目标模型中确定出与数据大小信息相匹配的目标区间,并从目标模型中确定出目标区间对应的目标加载方式,其中,目标模型为基于历史时间段的、不同数据大小的数据样本的数据加载记录训练得到的神经网络模型,用于指示各个数据大小的数据对应的加载方式,加载方式包括目标加载方式;按照目标加载方式,将目标数据加载至目标位置。利用根据历史时间段、不同数据大小的数据样本的数据加载记录训练得到的目标模型,匹配与当前请求加载的目标数据的目标区间以及目标区间对应的目标加载方式,进而针对数据加载数据文件大小因素,提出自适应选择方案以实现不同大小的数据文件采用不同的自适应的加载方式,进而达到了减少数据加载时间的目的,从而实现了提高数据加载的效率的技术效果,解决了相关技术中存在的数据加载的效率较低的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1