一种基于元数标的AI模型数据存储管理方法及存储介质与流程

文档序号:31723363发布日期:2022-10-04 23:54阅读:152来源:国知局
一种基于元数标的AI模型数据存储管理方法及存储介质与流程
一种基于元数标的ai模型数据存储管理方法及存储介质
技术领域
1.本发明涉及元宇宙技术领域,具体而言,涉及一种基于元数标的ai模型数据存储管理方法及存储介质。


背景技术:

2.目前人工智能商业化在算力、算法和技术方面,已基本达到阶段性成熟。通过算法和应用的落地来真正解决行业具体难点、痛点,需要采集大量的人工智能相关的原始数据,将人工采集、摄像头采集、各类传感器采集数据集通过metadatalabeler平台进行标注,并经过标注处理后做算法训练支撑,可以说数据决定了ai的落地程度。算法工程师利用标注好的数据,在平台内进行模型训练,产生当前数据集所属场景的ai模型。
3.当前随着ai行业商业化发展,落地场景对ai数据的需求更加多样化和定制化,也对ai数据服务的专业性和质量提出了更高的要求。比如ai行业中的智能驾驶、智能终端等领域不断发展,应用落地不断加速,以计算机视觉为例,一个新场景的开发支持需要上万张甚至数十万张不等的经过采集和标注的图片。随着ai应用场景的丰富,对ai数据的服务将产生长期海量的需求。
4.但是,目前ai应用在产品落地过程中经常会遇到无法大规模扩展的瓶颈,例如开发成本高、迭代周期长等问题。


技术实现要素:

5.鉴于此,本发明的目的在于以数据为中心,提供高效模型开发迭代能力,集成了主动学习方法、数据和模型版本控制,同时集成工作空间等概念,实现多个任务特定数据集的并行快速迭代。
6.metadatalabeler是一个数据驱动的算法训练平台,能够做到以无代码开发的方式,实现数据管理、数据标注、数据挖掘、模型训练、模型验证等功能。
7.本发明在传统的数据采集与标注解决方案基础上,将数据导入、数据清洗、数据标注、标注审核、标签管理、初始模型导入、自动化训练、模型迭代、模型导出等功能集成在metadatalabeler平台上,不单解决了数据管理与标注问题,同时解决了模型训练、模型迭代等需要算法工程师花较长时间解决的重复性问题。
8.本发明提供一种基于元数标的ai模型数据存储管理方法,从最开始的元数据metadata进行数据筛选,选出并使用符合ai模型任务要求的数据,包括以下步骤:
9.11、当需要开始一项新的ai模型训练任务时,从当前的主分支内签出一个新的特征feature分支,得到处于特征1feature#1状态的元数据metadata,如特征1feature#1状态的元数据metadata适用于所有ai模型训练任务要求,则所述元数据metadata能够用于ai模型训练任务;如特征1feature#1状态的元数据metadata还不适用于所有ai模型训练任务要求,则进入12步骤;
10.12、从特征1feature#1状态的元数据metadata进行数据筛选,得到处于特征
2feature#2状态的metadata;以此类推直至确认所述元数据metadata适用于所有ai模型训练任务要求。
11.此时,其他用户对master分支的metadata进行更改,也不会影响到用户正在使用的训练数据。
12.本发明提供另一种基于元数标的ai模型数据存储管理方法,通过标签tag或关键词keywords搜索到一个元数据metadata,开始筛选过程,直到得出符合ai模型任务要求的数据,然后使用所述符合ai模型任务要求的数据,包括以下步骤:
13.22、当需要开始一项新的ai模型训练任务时,通过关键词keywords和/或标签tag方式,搜索到一个基本符合要求的元数据metadata;
14.23、在所述基本符合要求的元数据的基础上,签出一个新分支;
15.24、在所述新分支上继续进行数据筛选或清洗,直到得到真正符合ai模型训练任务要求的数据。
16.进一步地,如已经使用一个元数据metadata完成了ai模型的训练任务,此时资源库与主分支的元数据metadata有更新,将更新的部分合并到当前使用的元数据metadata中,包括以下步骤:
17.31、设用户现在在特征2feature#2状态,切回主分支master;
18.32、对master#2-master#1这个增量部分,重复之前做过的任务,得到特征2+feature#2+状态;
19.33、切回特征2feature#2状态,合并特征2+feature#2+状态,得到特征3feature#3状态。
20.进一步地,所述元数标metadatalabeler的后端服务采用的方法包括:
21.使用关系型数据库mysql8.0作为数据存储服务,关系型强调数据之间的强关联型,并支持数据的增删改查的强一致性。
22.进一步地,所述元数标metadatalabeler的后端服务采用的方法还包括:
23.使用非关系类型数据库redis作为数据缓存服务,非关系型数据库对大量的并发读写支持得更好,性能更高。
24.进一步地,所述元数标metadatalabeler的后端服务采用的方法还包括::
25.使用列式存储数据库clickhouse作为数据分析结果存储服务,列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询,列式数据库由于其每一列都是分开储存的,所以很容易针对每一列的特征运用不同的压缩算法,列式存储数据库运算过程中不解压数据直到最后数据才还原原始数据值,这样减少cpu消耗,减少内存消耗,减少网络传输消耗,减少最后储存空间的需要。
26.进一步地,所述redis作为数据缓存服务的方法包括:
27.将待存储数据以key-value的形式来进行存储,数据保存在内存中;
28.key-value通过使用索引结构来提高数据的访问性能,将随机的写入操作转换成了顺序写入,大大提升了写入的性能。。
29.进一步地,所述clickhouse作为数据分析结果存储服务的写入速度为50-200m/s。
30.clickhouse是一个查询非常快的数据库,但是写入需要注意不要高频低量写入,在实际应用中需要把数据先攒起来,达到一定的量才写入。
31.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的基于元数标的ai模型数据存储管理方法。
32.本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于元数标的ai模型数据存储管理方法。
33.本发明为了降低企业利用ai技术的成本,加速推进ai赋能企业,基于metadatalabeler平台为算法人员提供端到端的算法研发工具,围绕ai开发过程中所需要的数据处理、模型训练等业务需求提供一站式服务,推动算法技术应用。metadatalabeler平台设计开放api来集成第三方工具,支持企业将有限的人力投入到应用的开发中,以更低成本实现ai到行业的落地。
34.与现有技术相比,本发明的有益效果在于:
35.本发明基于metadatalabeler平台以数据为中心,能够提供高效的ai模型开发迭代能力,集成了数据和模型版本控制,可实现多个任务特定的数据集的并行快速迭代。
附图说明
36.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
37.在附图中:
38.图1为本发明一种基于元数标的ai模型数据存储管理方法的流程图;
39.图2为本发明实施例计算机设备的构成示意图;
40.图3为本发明另一种基于元数标的ai模型数据存储管理方法的流程图;
41.图4为本发明如主分支的元数据有更新,将更新的部分合并到当前使用的元数据的流程图;
42.图5为本发明实施例直接从最开始的元数据进行筛选的ai模型数据存储管理方法的框图;
43.图6为本发明实施例搜索到一个元数据进行筛选的ai模型数据存储管理方法的框图;
44.图7为本发明实施例如主分支的元数据有更新,将更新的部分合并到当前使用的元数据的框图。
具体实施方式
45.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和产品的例子。
46.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
47.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
48.下面结合附图对本发明实施例作进一步详细说明。
49.本发明实施例提供一种基于元数标的ai模型数据存储管理方法,参见图1所示,从最开始的元数据metadata进行数据筛选,选出并使用符合ai模型任务要求的数据,包括以下步骤:
50.11、当需要开始一项新的ai模型训练任务时,从当前的主分支内签出一个新的特征feature分支,得到处于特征1feature#1状态的元数据metadata,如特征1feature#1状态的元数据metadata适用于所有ai模型训练任务要求,则所述元数据metadata能够用于ai模型训练任务;如特征1feature#1状态的元数据metadata还不适用于所有ai模型训练任务要求,则进入12步骤;
51.12、从特征1feature#1状态的元数据metadata进行数据筛选,得到处于特征2feature#2状态的metadata;以此类推直至确认所述元数据metadata适用于所有ai模型训练任务要求;
52.此时,其他用户对master分支的metadata进行更改,也不会影响到用户正在使用的训练数据。
53.图5为本发明实施例直接从最开始的元数据进行筛选的ai模型数据存储管理方法的框图;
54.本发明实施例提供另一种基于元数标的ai模型数据存储管理方法,参见图3所示,通过标签tag或关键词keywords搜索到一个元数据metadata,开始筛选过程,直到得出符合ai模型任务要求的数据,然后使用所述符合ai模型任务要求的数据,包括以下步骤:
55.22、当需要开始一项新的ai模型训练任务时,通过关键词keywords和/或标签tag方式,搜索到一个基本符合要求的元数据metadata;
56.23、在所述基本符合要求的元数据的基础上,签出一个新分支;
57.24、在所述新分支上继续进行数据筛选或清洗,直到得到真正符合ai模型训练任务要求的数据。
58.图6为本发明实施例搜索到一个元数据进行筛选的ai模型数据存储管理方法的框图;
59.参见图4所示,如已经使用一个元数据metadata完成了ai模型的训练任务,此时资源库与主分支的元数据metadata有更新,将更新的部分合并到当前使用的元数据metadata中,包括以下步骤:
60.31、设用户现在在特征2feature#2状态,切回主分支master;
61.32、对master#2-master#1这个增量部分,重复之前做过的任务,得到特征2+feature#2+状态;
62.33、切回特征2feature#2状态,合并特征2+feature#2+状态,得到特征3feature#3
状态。
63.所述元数标metadatalabeler的后端服务采用的方法包括:
64.使用关系型数据库mysql8.0作为数据存储服务,关系型强调数据之间的强关联型,并支持数据的增删改查的强一致性。
65.图7为本发明实施例如主分支的元数据有更新,将更新的部分合并到当前使用的元数据的框图。
66.所述元数标metadatalabeler的后端服务采用的方法还包括:
67.使用非关系类型数据库redis作为数据缓存服务,非关系型数据库对大量的并发读写支持得更好,性能更高;
68.所述redis作为数据缓存服务的方法包括:
69.将待存储数据以key-value的形式来进行存储,数据保存在内存中;
70.key-value通过使用索引结构来提高数据的访问性能,将随机的写入操作转换成了顺序写入,大大提升了写入的性能。
71.所述元数标metadatalabeler的后端服务采用的方法还包括::
72.使用列式存储数据库clickhouse作为数据分析结果存储服务,列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询,列式数据库由于其每一列都是分开储存的,所以很容易针对每一列的特征运用不同的压缩算法,列式存储数据库运算过程中不解压数据直到最后数据才还原原始数据值,这样减少cpu消耗,减少内存消耗,减少网络传输消耗,减少最后储存空间的需要。
73.所述clickhouse作为数据分析结果存储服务的写入速度为50-200m/s;
74.clickhouse是一个查询非常快的数据库,但是写入需要注意不要高频低量写入,在实际应用中需要把数据先攒起来,达到一定的量才写入。
75.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的基于元数标的ai模型数据存储管理方法。
76.本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于元数标的ai模型数据存储管理方法。
77.本发明实施例为了降低企业利用ai技术的成本,加速推进ai赋能企业,基于metadatalabeler平台为算法人员提供端到端的算法研发工具,围绕ai开发过程中所需要的数据处理、模型训练等业务需求提供一站式服务,推动算法技术应用。metadatalabeler平台设计开放api来集成第三方工具,支持企业将有限的人力投入到应用的开发中,以更低成本实现ai到行业的落地。
78.本发明实施例基于metadatalabeler平台以数据为中心,能够提供高效的ai模型开发迭代能力,集成了数据和模型版本控制,可实现多个任务特定的数据集的并行快速迭代。
79.本发明实施例还提供一种计算机设备,图2是本发明实施例提供的一种计算机设备的结构示意图;参见附图图2所示,该计算机设备包括:输入装置23、输出装置24、存储器22和处理器21;所述存储器22,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器21执行,使得所述一个或多个处理器21实现如上述实施例提供的基于元数
标的ai模型数据存储管理方法;其中输入装置23、输出装置24、存储器22和处理器21可以通过总线或者其他方式连接,图2中以通过总线连接为例。
80.存储器22作为一种计算设备可读写存储介质,可用于存储软件程序、计算机可执行程序,如本发明实施例所述的基于元数标的ai模型数据存储管理方法对应的程序指令;存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等;此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件;在一些实例中,存储器22可进一步包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
81.输入装置23可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入;输出装置24可包括显示屏等显示设备。
82.处理器21通过运行存储在存储器22中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的基于元数标的ai模型数据存储管理方法。
83.上述提供的计算机设备可用于执行上述实施例提供的基于元数标的ai模型数据存储管理方法,具备相应的功能和有益效果。
84.本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于元数标的ai模型数据存储管理方法,存储介质是任何的各种类型的存储器设备或存储设备,存储介质包括:安装介质,例如cd-rom、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如dram、ddr ram、sram、edo ram,兰巴斯(rambus)ram等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等;存储介质可以还包括其它类型的存储器或其组合;另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统;第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
85.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上实施例所述的基于元数标的ai模型数据存储管理方法,还可以执行本发明任意实施例所提供的基于元数标的ai模型数据存储管理方法中的相关操作。
86.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
87.以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1