基于湖仓一体的机器学习方法及装置与流程

文档序号:37504974发布日期:2024-04-01 14:12阅读:13来源:国知局
基于湖仓一体的机器学习方法及装置与流程

本申请涉及计算机,具体涉及一种基于湖仓一体的机器学习方法及装置。


背景技术:

1、随着人工智能(ai)技术的快速发展,训练数据集的规模越来越大,庞大的数据集占用的存储空间也越来越大。在这种情况下,如果不对训练数据集进行有效的组织管理,将会导致数据的重复存储,从而造成存储空间的浪费,同时数据准备即训练数据集的构建也会占用算法工程师的大量时间,导致整个模型开发的周期冗长,整体模型的开发效率降低。传统的ai模型开发流程中,ai训练数据集,特别是非结构化数据(图像,音频,视频等)往往基于业务数据源的不同分布于对象存储系统、分布式文件系统甚至是服务器本地,且都是以原始格式存储,并且缺乏相应的版本管理,由于缺乏相应的版本管理,即使从不同的数据源找到相应的数据文件用于构建数据集,通常的手段也是会将相应的数据文件拷贝一份打包成新的数据集,在多轮训练的过程中,往往还会对数据集进行微调,剔除部分样本数据,或者添加部分样本数据来构建新一轮训练的数据集版本,为了保持每一轮训练产生的模型与相应数据集的对应关系,往往都会保留每一轮训练的版本数据集,这就造成了数据的大量冗余存储,导致数据存储效率较低。

2、也即,现有技术中基于湖仓一体的机器学习方法的数据存储效率较低。


技术实现思路

1、本申请实施例提供一种基于湖仓一体的机器学习方法及装置,可以提高机器学习方法的数据存储效率。

2、第一方面,本申请提供的基于湖仓一体的机器学习方法,包括:

3、获取模型训练任务和所述模型训练任务对应的目标版本标识;

4、基于所述目标版本标识在预设数据湖仓检索所述目标版本标识对应的目标湖仓数据集版本,所述预设数据湖仓为湖仓一体;

5、基于所述目标湖仓数据集版本的数据执行所述模型训练任务。

6、第二方面,本申请提供的基于湖仓一体的机器学习方装置,包括:

7、获取模块,用于获取模型训练任务和所述模型训练任务对应的目标版本标识;

8、检索模块,基于所述目标版本标识在预设数据湖仓检索所述目标版本标识对应的目标湖仓数据集版本,所述预设数据湖仓为湖仓一体;

9、训练模块,基于所述目标湖仓数据集版本的数据执行所述模型训练任务。

10、第三方面,本申请提供的机器学习平台,包括存储器和处理器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,实现本申请所提供的基于湖仓一体的机器学习方法中的步骤。

11、第四方面,本申请提供的计算机可读存储介质,存储有多条指令,该指令适于处理器进行加载,实现本申请所提供的基于湖仓一体的机器学习方法中的步骤。

12、第五方面,本申请提供的计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请所提供的基于湖仓一体的机器学习方法中的步骤。

13、本申请中,相较于相关技术,获取模型训练任务和模型训练任务对应的目标版本标识;基于目标版本标识在预设数据湖仓检索目标版本标识对应的目标湖仓数据集版本,预设数据湖仓为湖仓一体;基于目标湖仓数据集版本的数据执行模型训练任务。本申请利用数据湖仓在存储、管理和分析各种类型数据的能力优势,构建一套训练数据集的管理解决方案,对数据集进行版本管理,能够避免数据的大量冗余存储,能够提高数据存储效率。



技术特征:

1.一种基于湖仓一体的机器学习方法,其特征在于,包括:

2.根据权利要求1所述的基于湖仓一体的机器学习方法,其特征在于,所述预设数据湖仓包括元数据管理服务,所述基于所述目标版本标识在预设数据湖仓检索所述目标版本标识对应的目标湖仓数据集版本,包括:

3.根据权利要求2所述的基于湖仓一体的机器学习方法,其特征在于,所述预设数据湖仓包括版本管理服务和数据湖,所述基于湖仓一体的机器学习方法,包括:

4.根据权利要求3所述的基于湖仓一体的机器学习方法,其特征在于,所述预设数据湖仓包括元数据管理服务,所述基于湖仓一体的机器学习方法,包括:

5.根据权利要求2所述的基于湖仓一体的机器学习方法,其特征在于,所述预设数据湖仓包括存储服务,所述基于湖仓一体的机器学习方法,包括:

6.根据权利要求2所述的基于湖仓一体的机器学习方法,其特征在于,所述湖仓数据集版本的元数据描述信息包括所述湖仓数据集版本整体的整体描述属性和所述湖仓数据集版本中单个数据的单数据描述属性。

7.一种基于湖仓一体的机器学习方装置,其特征在于,包括:

8.一种机器学习平台,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至6任一项所述的基于湖仓一体的机器学习方法中的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至6任一项所述的基于湖仓一体的机器学习方法中的步骤。

10.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被处理器执行时实现权利要求1至6任一项所述的基于湖仓一体的机器学习方法中的步骤。


技术总结
本申请公开了一种基于湖仓一体的机器学习方法及装置,获取模型训练任务和模型训练任务对应的目标版本标识;基于目标版本标识在预设数据湖仓检索目标版本标识对应的目标湖仓数据集版本,预设数据湖仓为湖仓一体;基于目标湖仓数据集版本的数据执行模型训练任务。本申请利用数据湖仓在存储、管理和分析各种类型数据的能力优势,构建一套训练数据集的管理解决方案,对数据集进行版本管理,能够避免数据的大量冗余存储,能够提高数据存储效率。

技术研发人员:林博辞
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1