模型训练进程的管理方法、装置、电子设备和存储介质与流程

文档序号:37510939发布日期:2024-04-01 14:18阅读:12来源:国知局
模型训练进程的管理方法、装置、电子设备和存储介质与流程

本发明涉及人工智能,尤其涉及一种模型训练进程的管理方法、装置、电子设备和存储介质。


背景技术:

1、目前,人工智能技术越来越成熟,基于人工智能技术训练得到的模型被应用到越来越多的场景中,在基于人工智能技术训练模型时,需要进行大规模的训练,才能够得到识别结果准确的模型。

2、而模型训练的精度依赖于高质量的数据集,数据集数量越大,模型训练的结果质量越高。训练时间和数据集大小及数量成正比,单进程程序无法满足业务需求,需要通过多进程异步运行,才能满足当前业务需求。

3、目前,对于模型训练的多进程管理大多依赖于supervisor之类的进程管理工具系统,通过安装supervisor服务,启动进程时,将启动进程的脚本通过supervisor命令启动子进程。启动完成后,通过supervisor命令获取子进程的状态。

4、但是,supervisor这类进程管理服务使用起来虽然很方便,但普遍存在需要安装管理服务以及不够轻量化的问题,使系统依赖的服务变多,不利于系统维护,且无法跨平台迁移,无法满足业务系统直接部署在windows系统并能正常训练的要求。


技术实现思路

1、本发明提供了一种模型训练进程的管理方法、装置、电子设备和存储介质,以解决由于系统依赖的服务变多,导致的系统维护复杂以及无法跨平台迁移的问题。

2、根据本发明的一方面,提供了一种模型训练进程的管理方法,应用于服务器,所述服务器中包括多个训练服务,一个所述训练服务包括多个模型训练进程,一个所述模型训练进程用于对一个训练模型执行训练操作,所述训练服务用于定时启动所述模型训练进程以及检测训练状态,该方法包括:

3、获取模型训练任务的模型训练数据,将所述模型训练数据存储在数据库中,并将所述模型训练数据的训练状态和第一标识码存储在数据库中,所述模型训练数据包括所述模型训练任务的任务数据以及模型训练所需资源的资源属性数据,所述训练状态包括排队中、训练中和训练结束,所述第一标识码为表征模型训练数据的标识;

4、每隔第一预设时间,从所述数据库中提取目标模型训练数据中的目标资源属性数据,根据所述目标资源属性数据确定目标训练服务以及目标训练服务对应的目标模型训练进程,并控制所述目标模型训练进程启动以及将所述目标模型训练数据的训练状态变更为训练中,所述目标模型训练数据为所述数据库中训练状态为排队中的模型训练数据;

5、获取所述目标训练服务的第二标识码和所述目标模型训练数据的第一标识码,并将标识信息存储在标识码存储表中,所述标识信息由所述第一标识码和所述第二标识码组合而成;

6、所述目标模型训练进程启动后,每隔第二预设时间,当前训练服务从所述数据库中提取候选模型训练数据的第一标识码,确定当前标识信息,并判断所述当前标识信息是否存在于标识码存储表中,以确定所述候选模型训练数据是否在所述当前训练服务的模型训练进程中,所述候选模型训练数据为所述数据库中训练状态为训练中的模型训练数据,当前标识信息为由所述候选模型训练数据的第一标识码和所述当前训练服务的第二标识码组合而成。

7、根据本发明的另一方面,提供了一种模型训练进程的管理装置,应用于服务器,所述服务器中包括多个训练服务,一个所述训练服务包括多个模型训练进程,一个所述模型训练进程用于对一个训练模型执行训练操作,所述训练服务用于定时启动所述模型训练进程以及检测训练状态,该装置包括:

8、第一存储模块,用于获取模型训练任务的模型训练数据,将所述模型训练数据存储在数据库中,并将所述模型训练数据的训练状态和第一标识码存储在数据库中,所述模型训练数据包括所述模型训练任务的任务数据以及模型训练所需资源的资源属性数据,所述训练状态包括排队中、训练中和训练结束,所述第一标识码为表征模型训练数据的标识;

9、进程启动模块,用于每隔第一预设时间,从所述数据库中提取目标模型训练数据中的目标资源属性数据,根据所述目标资源属性数据确定目标训练服务以及目标训练服务对应的目标模型训练进程,并控制所述目标模型训练进程启动以及将所述目标模型训练数据的训练状态变更为训练中,所述目标模型训练数据为所述数据库中训练状态为排队中的模型训练数据;

10、第二存储模块,用于获取所述目标训练服务的第二标识码和所述目标模型训练数据的第一标识码,并将标识信息存储在标识码存储表中,所述标识信息由所述第一标识码和所述第二标识码组合而成;

11、判断模块,用于所述目标模型训练进程启动后,每隔第二预设时间,当前训练服务从所述数据库中提取候选模型训练数据的第一标识码,确定当前标识信息,并判断所述当前标识信息是否存在于标识码存储表中,以确定所述候选模型训练数据是否在所述当前训练服务的模型训练进程中,所述候选模型训练数据为所述数据库中训练状态为训练中的模型训练数据,当前标识信息为由所述候选模型训练数据的第一标识码和所述当前训练服务的第二标识码组合而成。

12、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的模型训练进程的管理方法。

16、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的模型训练进程的管理方法。

17、本发明实施例的技术方案,获取模型训练任务的模型训练数据,将模型训练数据存储在数据库中,并将模型训练数据的训练状态和第一标识码存储在数据库中,每隔第一预设时间,从数据库中提取目标模型训练数据中的目标资源属性数据,根据目标资源属性数据确定目标训练服务以及目标训练服务对应的目标模型训练进程,并控制目标模型训练进程启动以及将目标模型训练数据的训练状态变更为训练中,目标模型训练数据为数据库中训练状态为排队中的模型训练数据;同时,获取目标训练服务的第二标识码和目标模型训练数据的第一标识码,并将由第一标识码和第二标识码组合而成的标识信息存储在标识码存储表中;目标模型训练进程启动后,每隔第二预设时间,当前训练服务从数据库中提取候选模型训练数据的第一标识码,确定由候选模型训练数据的第一标识码和当前训练服务的第二标识码组合而成的当前标识信息,并判断当前标识信息是否存在于标识码存储表中,以确定候选模型训练数据是否在当前训练服务的模型训练进程中,候选模型训练数据为数据库中训练状态为训练中的模型训练数据。本申请解决了由于系统依赖的服务变多,导致的系统维护复杂以及无法跨平台迁移的问题。

18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种模型训练进程的管理方法,其特征在于,应用于服务器,所述服务器中包括多个训练服务,一个所述训练服务包括多个模型训练进程,一个所述模型训练进程用于对一个训练模型执行训练操作,所述训练服务用于定时启动所述模型训练进程以及检测训练状态,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取模型训练任务的模型训练数据,包括:

3.根据权利要求1所述的方法,其特征在于,控制所述目标模型训练进程启动以及将所述目标模型训练数据的训练状态变更为训练中之后,所述方法包括:

4.根据权利要求1所述的方法,其特征在于,根据所述目标资源属性数据确定目标训练服务以及目标训练服务对应的目标模型训练进程,包括:

5.根据权利要求3所述的方法,其特征在于,判断所述当前标识信息是否存在于标识码存储表中,以确定所述候选模型训练数据是否在所述当前训练服务的模型训练进程中,包括:

6.根据权利要求5所述的方法,其特征在于,确定所述候选模型训练数据的状态,包括:

7.一种模型训练进程的管理装置,其特征在于,应用于服务器,所述服务器中包括多个训练服务,一个所述训练服务包括多个模型训练进程,一个所述模型训练进程用于对一个训练模型执行训练操作,所述训练服务用于定时启动所述模型训练进程以及检测训练状态,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,第一存储模块包括数据获取单元,用于:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的模型训练进程的管理方法。


技术总结
本发明公开了一种模型训练进程的管理方法、装置、电子设备和存储介质。该方法包括:将模型训练数据存储在数据库中并将模型训练数据的训练状态和第一标识码存储在数据库中;根据从数据库中提取的目标模型训练数据中的目标资源属性数据确定目标训练服务以及目标训练服务对应的目标模型训练进程;将标识信息存储在标识码存储表中;目标模型训练进程启动后,当前训练服务从数据库中提取候选模型训练数据的第一标识码,确定当前标识信息并判断当前标识信息是否存在于标识码存储表中,以确定候选模型训练数据是否在当前训练服务的模型训练进程中。本申请解决了由于系统依赖的服务变多,导致的系统维护复杂以及无法跨平台迁移的问题。

技术研发人员:钱生
受保护的技术使用者:苏州凌云光工业智能技术有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1