一种基于安全容器创建模型训练服务的方法及介质与流程

文档序号:37491285发布日期:2024-04-01 13:59阅读:12来源:国知局
一种基于安全容器创建模型训练服务的方法及介质与流程

本发明涉及模型训练,特别涉及一种基于安全容器创建模型训练服务的方法及介质。


背景技术:

1、监督学习(supervisedlearning)是最普遍使用的机器学习方式,通过同时提供模型的输入和输出数据供模型训练,模型能够逐渐学习输出和输入之间的关系,产生“智能”。虚拟化(virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可切割的障碍,使用户可以比原本的配置更好的方式来应用这些资源。这些资源的新虚拟部分是不受现有资源的架设方式,地域或物理配置所限制。

2、传统虚拟化技术从操作系统层下手,目标是建立一个可以用来执行整套操作系统的沙盒独立执行环境,习惯以虚拟机(virtualmachine)来称呼。但是传统虚拟化技术难以支持大量数据智能应用的开发和应用工作,而模型训练的需求方众多,数据计算量极大,使用传统的操作系统层的虚拟化技术存在性能容易受影响,交付速度慢,管理不便,资源利用率低的问题,并且无法保障数据的安全性。


技术实现思路

1、本发明要解决的技术问题,在于提供一种基于安全容器创建模型训练服务的方法及介质,通过使用轻量级的容器建立应用程序的执行环境,在保障数据的安全性的同时,虚拟化性能更高,交付速度快,方便管理,而且资源利用率高。

2、第一方面,本发明提供了一种基于安全容器创建模型训练服务的方法,包括:

3、数据标注过程:通过数据标注工具获取用户对原始数据集进行少量的全人工标注生成的初始标注数据集,作为模型训练输入数据;所述数据标注工具的启动基于安全容器来运行,在运行前,加载标注需要的数据集,以及本次标注需要的底层资源,配置完成后,将工具及数据都导入到安全容器环境,生成一个独立的链接地址,该链接与平台通讯隔离,仅数据标注的结果数据反向推送到平台;平台通过第三方应用程序的方式建立模型训练环境,根据初始标注数据集训练得到初始模型,并输出模型参数形成模型参数数据集;通过初始模型为更大的数据集进行机器预标注,再对机器预标注的数据集进行人工校正;通过模型训练、模型标注、人工校正的反复迭代,扩大标注数据集并完善机器学习模型;

4、模型训练过程:当用户启动模型训练应用程序,建立训练模型并指定标注数据集时,将该应用程序实例化为安全容器,并且将输入数据集通过平台的分布式文件系统驱动程序挂载为虚拟的本地数据卷,同时创建一个可持久化的工作空间存储程序运行过程中的输出和临时数据;当应用程序运行过程中读取输入数据集时,利用数据集授权时提供给用户的密钥按需实时地进行解密;应用程序运行完成后,结果作为新数据集重新保存到平台的分布式文件系统中,同时安全容器和工作空间被销毁,不留下任何中间数据;结果数据集在保存到基础物理存储的过程中,生成新的密钥对其进行加密。

5、进一步地,还包括:对第三方应用进行隔离,将安全容器成为最小控制单元,每个应用或服务都基于一个安全容器进行启动运行,并提供容器与平台的的隔离,以及每个安全容器之间的隔离,保证应用的运行不会对平台或其他安全容器造成影响;每次新的应用服务的执行、应用更新、扩缩容均会带来安全容器的消亡和新建。

6、进一步地,还包括:利用容器编排技术基于容器计算方式合理调度平台计算资源。

7、进一步地,提供存储和计算一体的技术架构,采用分布式存储和计算的方式,支持文件和对象存储方式,使第三方应用能够在平台内通过容器化的部署,实现容器编排和资源调度。

8、进一步地,对外的任何数据服务都要通过平台的网关,杜绝平台内外直接建立网络连接;平台通过服务字段提前报备,网关智能检查以及安全审计的方式保证平台在安全和授权的前提下对外提供数据服务。

9、进一步地,部署两层防火墙,将系统分为dmz区域和trusted区域,在防火墙上配置不同级别的访问规则,执行许可的网络访问;第一层防火墙仅打开必要的端口和服务以供外部访问,所有对外的应用程序服务都必须通过防火墙提供的网关服务;第二层防火墙进一步隔离trusted核心区域和dmz外部服务区域,保证内外有限的通过api的交互。

10、进一步地,平台数据的传输都经过加密处理,平台内微服务之间的所有内部通信均启用tls,所有面向外部的服务都使用https协议。

11、第二方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。

12、本发明实施例中提供的技术方案,至少具有如下优点:

13、采用数据标注工具对数据集进行标注,大大减少标注的工作量,数据标注工具的启动需要基于安全容器来运行,仅数据标注的结果数据可以反向推送到平台,保证数据的安全性。第三方应用能够在平台内通过容器化的部署,在保障应用计算安全的同时,提供高效灵活地应用部署方式和计算服务,支持大量数据智能应用的开发和应用工作,使用轻量级的容器计算方式更能够提高系统资源使用的效率。安全容器输出的结果可以作为新数据集重新保存到平台的分布式文件系统中,而容器和工作空间被销毁,从而保障数据的安全性。

14、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。



技术特征:

1.一种基于安全容器创建模型训练服务的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,还包括:对第三方应用进行隔离,将安全容器成为最小控制单元,每个应用或服务都基于一个安全容器进行启动运行,并提供容器与平台的的隔离,以及每个安全容器之间的隔离,保证应用的运行不会对平台或其他安全容器造成影响;每次新的应用服务的执行、应用更新、扩缩容均会带来安全容器的消亡和新建。

3.根据权利要求1或2所述的方法,其特征在于,还包括:利用容器编排技术基于容器计算方式合理调度平台计算资源。

4.根据权利要求1所述的方法,其特征在于:提供存储和计算一体的技术架构,采用分布式存储和计算的方式,支持文件和对象存储方式,使第三方应用能够在平台内通过容器化的部署,实现容器编排和资源调度。

5.根据权利要求1所述的方法,其特征在于:对外的任何数据服务都要通过平台的网关,杜绝平台内外直接建立网络连接;平台通过服务字段提前报备,网关智能检查以及安全审计的方式保证平台在安全和授权的前提下对外提供数据服务。

6.根据权利要求1所述的方法,其特征在于:部署两层防火墙,将系统分为dmz区域和trusted区域,在防火墙上配置不同级别的访问规则,执行许可的网络访问;第一层防火墙仅打开必要的端口和服务以供外部访问,所有对外的应用程序服务都必须通过防火墙提供的网关服务;第二层防火墙进一步隔离trusted核心区域和dmz外部服务区域,保证内外有限的通过api的交互。

7.根据权利要求1所述的方法,其特征在于:平台数据的传输都经过加密处理,平台内微服务之间的所有内部通信均启用tls,所有面向外部的服务都使用https协议。

8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的方法。


技术总结
本发明公开了一种基于安全容器创建模型训练服务的方法及介质,涉及模型训练技术领域。采用数据标注工具对数据集进行标注,大大减少标注的工作量,数据标注工具的启动需要基于安全容器来运行,仅数据标注的结果数据可以反向推送到平台,保证数据的安全性;建立训练模型并指定标注数据集时,将该应用程序实例化为安全容器,训练结果作为新数据集重新保存到平台的分布式文件系统中,而容器和工作空间被销毁,从而保障数据的安全性。本发明提供的一种基于安全容器创建模型训练服务的方法及介质,通过使用轻量级的容器建立应用程序的执行环境,在保障数据的安全性的同时,虚拟化性能更高,交付速度快,方便管理,而且资源利用率高。

技术研发人员:杨璐璐,陈涛,薛建辉,张栋,戴文清,陈明福,张发泺
受保护的技术使用者:福建省星云大数据应用服务有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1