数据处理方法、装置和数据管理系统与流程

文档序号:32048066发布日期:2022-11-03 07:57阅读:39来源:国知局
数据处理方法、装置和数据管理系统与流程

1.本技术涉及数据处理技术领域,更具体地说,涉及一种数据处理方法、装置和数据管理系统。


背景技术:

2.人工智能等相关应用开发过程中,经常需要大量的数据集,以用于模型训练、测量或者验证。
3.其中,模型训练、测试或者验证的所需的数据集中的数据为标注有标签数据的文件,如标注有标签的图片、文档或者文本等文件。在不同模型训练场景中,对数据集中文件的数量、文件的类型以及文件所需标注的标签结构的要求也可能会有所不同。基于此,每次存在模型训练、测试或者验证需求时,都需要人工构建数据集,而构建数据集需要人工进行大量的数据筛选、标注以及比对等数据处理,复杂度较高。


技术实现要素:

4.本技术提供了一种数据处理方法、装置和数据管理系统,以降低生成模型训练、测试以及验证所需的样本数据集的复杂度。
5.为了实现以上目的,一方面,本技术提供了一种数据管理系统,包括:
6.标签管理模块,用于获得并存储至少一个标签模块,所述标签模板定义了标签的组成结构;
7.标注数据管理模块,用于获得并存储至少一个标签标注数据集,所述标签标注数据集关联有一个标签模板,且所述标签标注数据集包括:采用所述标签标注数据集关联的标签模板构建的至少一条标签标注数据;
8.文件管理模块,用于获得并存储文件集,所述文件集中的每个文件关联有所述至少一个标签标注数据集中的一条标签标注数据。
9.在一种可能的实现方式中,所述标签管理模块包括:
10.模板获得子模块,用于获得用户创建的标签模板,所述标签模板中定义有组成标签的标签结构;
11.模板存储子模块,用于将获得的标签模板存储到所述数据管理系统中设定的模板存储空间内。
12.在又一种可能的实现方式中,所述模板获得子模块,包括:
13.界面展现子模块,用于检测到标签添加请求,展现标签添加界面;
14.模板创建子单元,用于获得用户在所述标签添加界面中配置的用于组成标签的至少一个标签项以及各标签项对应的数据格式,得到创建出的标签模板,所述标签模板包括所述至少一个标签项及各标签项对应的数据格式。
15.在又一种可能的实现方式中,所述标注数据管理模块,包括:
16.模板确定子模块,用于确定用户选择添加标注数据的候选标签模板,所述候选标
签模板属于所述数据管理系统存储的标签模板;
17.数据获得子模块,用于获得待添加至所述候选标签模板下的至少一条标签标注数据;
18.数据存储子模块,用于对于待添加至所述候选标签模板下的每条标签标注数据,如果所述标签标注数据符合所述候选标签模板定义的标签的组成结构,将所述标签标注数据存储到所述候选标签模板关联的标签标注数据集中。
19.在又一种可能的实现方式中,所述标签管理模块维护的所述标签模板定义了组成标签的至少一个标签项及各标签项对应的数据格式;
20.所述数据存储子模块具体为,用于对于待添加至所述候选标签模板下的每条标签标注数据,如果所述标签标注数据中的标签项均属于所述候选标签模板中定义的标签项,且所述标签标注数据中标签项的数值对应的数据格式与所述候选标签模板中相应标签项的数据格式相符,将所述标签标注数据存储到所述候选标签模板关联的标签标注数据集中。
21.又一方面,本技术还提供了一种数据处理方法,包括:
22.确定用户选择的目标标签模板,所述目标标签模板属于数据管理系统存储的至少一个标签模板,所述标签模板定义了标签的组成结构;
23.获得用户输入的样本生成需求,所述样本生成需求至少包括:待生成的样本的目标数量;
24.基于所述样本生成需求,从所述数据管理系统中与目标标签模板关联的标签标注数据集中,确定所述目标数量条目标标签标注数据,所述目标标签模板关联的标签标注数据集中包括:采用所述目标标签模板构建的至少一条标签标注数据;
25.构建包含所述目标数量条目标标签标注数据的目标样本标注集,将所述目标样本标注集存储为所述目标标签模板关联的样本标注集,以使得所述数据管理系统中与所述目标样本标注集内的各目标标签标注数据关联的目标文件与所述目标样本标注集组成用于模型训练、测试或者验证的样本集合。
26.在又一种可能的实现方式中,在所述将所述样本标注集存储为所述目标标签模板关联的样本标注集之后,还包括:
27.获得终端发送的所述目标样本标注集的获取请求,从所述文件集中获取与所述目标样本标注集中各目标标签标注数据关联的各目标文件,得到包含所述目标文件的文件样本集;
28.将所述文件样本集和所述目标样本标注集作为样本集合发送给所述终端。
29.在又一种可能的实现方式中,还包括:
30.获得标注数据变更请求,所述标注数据变更请求用于请求更改所述目标标签模板关联的标签标注数据集内的标签标注数据;
31.基于所述标注数据变更请求,对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理。
32.在又一种可能的实现方式中,在所述对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理之后,还包括:
33.获得样本集更新请求,所述样本集更新请求用于请求更新所述目标标签模板关联
的所述目标样本标注集中的目标标签标注数据;
34.针对所述目标样本标注集中每条目标标签标注数据,如果所述目标标签模板关联的标签标注数据集中所述目标标签标注数据存在变更,基于所述目标标签模板关联的标签标注数据集中所述目标标签标注数据的变更方式,对所述目标样本标注集中的所述目标标签标注数据进行变更处理。
35.在又一种可能的实现方式中,在所述对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理的同时或者之后,还包括:
36.在历史数据记录中记录所述目标标签模板关联的标签标注数据集中变更处理之前的所述待更改的标签标注数据;
37.在所述对所述目标样本标注集中的所述目标标签标注数据进行变更处理之后,还包括:
38.在所述历史数据记录中存储所述目标样本标注集的数据快照。
39.又一方面,本技术还提供了一种数据处理装置,所述装置包括:
40.模板确定单元,用于确定用户选择的目标标签模板,所述目标标签模板属于数据管理系统存储的至少一个标签模板,所述标签模板定义了标签的组成结构;
41.需求获得单元,用于获得用户输入的样本生成需求,所述样本生成需求至少包括:待生成的样本的目标数量;
42.标注确定单元,用于基于所述样本生成需求,从所述数据管理系统中与所述目标标签模板关联的标签标注数据集中,确定所述目标数量条目标标签标注数据,所述目标标签模板关联的标签标注数据集中包括:采用所述目标标签模板构建的至少一条标签标注数据;
43.标注集生成单元,用于构建包含所述目标数量条目标标签标注数据的目标样本标注集,将所述目标样本标注集存储为所述第一标签模板关联的样本标注集,以使得所述数据管理系统中与所述目标样本标注集内的各目标标签标注数据关联的目标文件与所述目标样本标注集组成用于模型训练、测试或者验证的样本集合。
44.通过以上方案可知,本技术通过数据管理系统存储了用户预先构建的各标签模板,标签模板可以关联使用该标签模板的标签标注数据,且该数据管理系统还可以存储文件集合,文件集合中每个文件与一条标签标注数据关联。在此基础上,用户只需依据对标签类型的需求,选择所需的标签模板,并输入样本生成需求,本技术便可以按照该样本生成需求,从用户选择的标签模板关联的标签标注数据中,确定构成样本标注集的标签标注数据,使得标注样本集以及文件集合中与样本标注集关联的文件可以组合为样本集合,从而降低了构建样本集合的复杂度。
附图说明
45.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的数据处理方法的一种流程示意图;
47.图2为本技术实施例提供的数据处理方法中向数据管理系统存储数据的一种流程示意图;
48.图3为本技术实施例提供的数据管理系统中标签系统界面的一种示意图;
49.图4为本技术实施例提供的数据管理系统的标注数据界面的一种示意图;
50.图5为本技术实施例提供的数据处理方法的又一种流程示意图;
51.图6为本技术实施例提供的数据处理方法的一种流程示意图;
52.图7为本技术实施例提供的数据管理系统的一种组成架构示意图。
53.说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
54.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
55.本技术的方案中,通过数据管理系统维护标签模板、标签标注数据以及文件,该数据管理系统还可以管理与维护用于模型训练、测试或者验证的样本集等。
56.为了便于理解本技术的方案,下面先对本技术的数据管理系统进行介绍。
57.在本技术中,该数据管理系统可以获得并存储有至少一个标签模板,文件集以及至少一个标签标注数据集。
58.其中,标签模板定义了标签的组成结构。标签模板并不是用于标注文件的标签数据,而仅仅用于描述一种标签的组成特征。如,标签模板中可以定义标签所需包含的各个标签项、标签项之间的关系以及标签项支持的数值类型或者数据格式等等。
59.例如,标签模板可以为用于描述“人”这种标签的模板,那么该标签模板可以为{人:{性别;年龄;}},这个标签模板表示标签为标注人的标签,且标签的主标签项为“人”,主标签项下可以包括“性别”和“年龄”这两个子标签项。
60.标签标注数据集合关联有一个标签模板,也就是说,标签标注数据集合是在某个标签模板下添加的标签标注数据组成的集合。相应的,标签标注数据集中的各条标签标注数据为采用该标签标注数据集关联的标签模板的标签标注数据,标签标注数据集可以包括一条或者多条基于某个标签模板构建的标签标注数据。
61.其中,标签标注数据也可以简称为标签。使用标签模板的标签标注数据是指按照该标签模板定义的标签的组成结构,构建出的标签。标签是一种用来描述业务实体特征的数据形式。
62.如,标签模板中定义了组成标签的标签项,那么,标签标注数据为包含标签模型中各标签项以及标签项对应取值的数据。例如,以上面标签模板为{人:{性别;,年龄;}},采用该标签模板的标签标注数据可以为{人:{性别:男;年龄:35;}}。
63.可以理解的是,标签模板中还可以定义组成标签的各个标签项的数据格式,那么
标签标注数据中标签项的取值的数据格式需要与该标签模板中相应标签性的数据格式相符。当然,标签模板中还可以定义标签的其他特征,相应的标签标注数据也需要具备相应特征,具体不再赘述。
64.文件集中的每个文件与数据管理系统中存储的至少一个标签标注数据集中内的一条标签标注数据相关。
65.其中,文件集中的文件可以为文档、图片、文本或者视频等等,对此不加限制。
66.文件关联的标签标注数据也就是用于对该文件进行标注的标签数据。如,文件为一张用户图片,那么该文件可以关联有标注人的标签标注数据,该标签标注数据中可以标注有人的性别和年龄等具体信息。
67.在本技术中,该数据管理系统可以为基于微服务架构,并部署于服务器集群或者云服务器等系统内,对此不加限制。
68.在以上内容的基础上,结合流程图对本技术的数据处理方法进行说明。
69.如图1,其示出了本技术一种数据处理方法的一种流程示意图,本实施例的方法应用于数据管理系统;也可以应用于数据管理系统之外的计算机设备,如数据管理系统之外的服务器或者计算机设备构成的系统平台等,本实施例的方法可以包括:
70.s101,确定用户选择的第一标签模板。
71.其中,该第一标签模板属于数据管理系统中存储的至少一个标签模板。
72.其中,第一标签模板为用户选择构建样本集所需的标签模板。如,在检测到样本集构建请求后,确定用户选择的第一标签模板。
73.可以理解的是,在本技术中为了与后续需要修改的标签模板进行区分,将用户从数据管理系统中选取出的标签模板称为第一标签模板,在本技术中也可以将用户选择的第一标签模板称为用户选择的目标标签模板。
74.在一种可能的实现方式中,在检测到样本构建请求后,可以展现标签操作界面,该标签操作界面可以展现有数据管理系统中存储的标签模板的信息,相应的,可以获得用户在该标签操作界面中选择的标签模板。
75.如,标签操作界面可以包括模板预览区,在该模板预览区可以显示数据管理系统存储的至少部分标签模板,用户可以通过拖动或者翻页等方式来调整模板预览区内显示出的标签模板,并最终选择生成样本集所需的标签模板;或者,在模板预览区还可以包括模板搜索栏,用户可以通过该模板搜索栏中输入所需的标签模板的序号或者关键字等,然后再从搜索出的标签模板中选择该标签模板。
76.s102,获得用户输入的样本生成需求。
77.样本生成需求用于描述用户需要生成的样本集的特征,在本技术中,样本生成需求至少包括:待生成的样本的目标数量。
78.在一种可能的实现方式中,样本生成需求还可以包括选取数据的选取方式,如,选取方式可以包括:随机选取或者顺序选取等。
79.当然,该样本生成需求还可以包括标签标注数据所需满足的条件。如,样本生成需求可以包括对标签标注数据的生成时间的需求等,对此不加限制。
80.可以理解的是,用户输入样本生成需求的时间可以是在选择第一标签模板之前,也可以是在选择该第一标签模板之后,对此不加限制。
81.如,在一种可能的情况中,样本生成需求可以携带在样本集构建请求。例如,以数据管理方法应用到数据管理系统为例,在数据管理系统展现出的主界面中可以包括样本构建选项,在检测到用户点击该样本集构建选项之后,展现出样本集构建界面。当然,对于该方法应用于数据管理系统之外的计算机设备而言,计算机设备也可以展现该样本集构建界面。
82.用户可以在该样本集构建界面输入所需构建的样本集的样本生成需求,如样本生成需求可以包括样本集的名称、所需生成的样本的目标数量以及其他描述信息。在检测到用户在该样本集构建界面中点击需求生成选项后,确认检测到样本集构建请求。相应的,该样本集构建请求中可以包括用户输入的样本生成需求。在此基础上,数据管理系统或者其他计算机设备可以获得样本生成需求,同时,还可以展现出标签操作界面,以供用户选择构建的样本集所需的标签模板。
83.s103,基于样本生成需求,从第一标签模板关联的标签标注数据集中,确定目标数量条目标标签标注数据。
84.其中,为了便于区分,将从第一标签模板关联的标签标注数据集中选择出的标签标注数据称为目标标签标注数据。
85.如,样本生成需求中没有设定选取标签标注数据的选取方式,可以从第一标签模板关联的标签标注数据集中随机选取该目标数量条标签标注数据。
86.又如,样本生成需求中设定了顺序选取标签标注数据,则可以按照第一标签模板关联的标签标注数据集中各标签标注数据的先后顺序,选取顺序靠前的前目标数量条目标标签标注数据。
87.当然,样本生成需求中包含有其他需求信息时,还可以根据具体的需求信息来选取目标标签标注数据,对此不加限制。
88.可以理解的是,第一标签模板关联的标签标注数据集中包括:采用所述目标标签模板构建的至少一条标签标注数据。
89.s104,构建包含目标数量条目标标签标注数据的目标样本标注集,将目标样本标注集存储为第一标签模板关联的样本标注集,以使得数据管理系统中与该目标样本标注集内的各目标标签标注数据关联的目标文件与目标样本标注集组成用于模型训练、测试或者验证的样本集合。
90.可以理解的是,从第一标签模板关联的标签标注数据集中选取出的各条目标标签标注数据实际上就是模型训练、测试或者验证所需的标签标注数据。
91.由于数据管理系统中标签标注数据与文件之间也具有关联关系,因此,标签标注数据确定的情况下,标签标注数据关联的文件也就是确定的。基于此,在构建出目标样本标注集时,实际上就可以确定出用于模型训练、验证或者测试的各个文件。
92.在本技术中,在生成包含第一标签模板关联的标签标注数据的样本标注集之后,将该样本标注集与第一标签模板关联存储,如存储到数据管理系统或者存储到计算机设备中,使得数据管理系统或者该计算机设备可以管理与维护该样本标注集,从而使得用户可以通过该数据管理系统或者经计算机设备对该样本标注集进行不定期的查询、修改以及下载等等操作。
93.可以理解的是,在生成该样本标注集之后,可以基于该样本标注集及其关联的文
件进行模型训练、测试以及验证等处理。在此基础上,具备访问权限的用户可以随时查询不同标签模板下已生成的样本标注集。同时,一些具备权限的用户也可以通过其终端请求下载该某一标签模板下的样本标注集。
94.相应的,在获得终端发送的目标样本标注集的获取请求之后,可以从文件集中获取与该目标样本标注集中各目标标签标注数据关联的各目标文件,得到包含各目标文件的文件样本集。数据管理系统或者计算机设备还可以会将该文件样本集和该目标样本标注集作为样本集合发送给终端。
95.通过以上方案可知,本技术通过数据管理系统维护了标签模板,标签模板可以关联使用该标签模板的标签标注数据,且该数据管理系统还可以存储文件集合,文件集合中每个文件与一条标签标注数据关联。在此基础上,用户只需依据对标签类型的需求,从数据管理系统中选择所需的标签模板,并输入样本生成需求,本技术便可以按照该样本生成需求,从用户选择的标签模板关联的标签标注数据中,确定构成样本标注集的标签标注数据,使得标注样本集以及文件集合中与样本标注集关联的文件可以组合为样本集合,从而降低了构建样本集合的复杂度。
96.另外,本技术在基于标签模板生成一个样本标注集之后,会将该样本标注集存储为该标签模板关联的样本标注集,因此,用户可以随时通过终端对样本标注集进行查询以及获取等操作,从而实现了基于数据管理系统对样本标注集的管理与维护,避免了人工维护样本标注集而导致的复杂度。
97.可以理解的是,数据管理系统存储的标签模板以及标签模板下关联的标签标注数据以及与标签标注数据关联的文件都可以由用户根据需要上传并存储。基于此,在本技术中用户可以根据实际需要,灵活地向数据管理系统中添加标签模板,以及使用标签模板生成标签标注数据等。
98.为了便于理解,下面对本技术中向数据管理系统中存储数据的过程进行介绍。
99.如图2所示,其示出了向数据管理系统存储数据的一种流程示意图,本实施例的方法应用于数据管理系统,本实施例可以包括:
100.s201,获得用户创建的标签模板。
101.该标签模板中定义有组成标签的标签结构。
102.如,用户可以通过终端登录数据管理系统,并将创建的标签模板上传给数据管理系统。
103.在一种可能的实现方式中,数据管理系统可以在检测到标签添加请求后,展现标签添加界面。相应的,数据管理系统可以获得用户在该标签添加界面中配置的用于组成标签的至少一个标签项以及各标签项对应的数据格式,得到创建出的标签模板。
104.如,用户可以通过终端登录数据管理系统,在此基础上,数据管理系统可以向终端输出数据管理系统的主界面。在此基础上,用户可以在主界面中选择标签模板相关的标签系统界面。在标签系统界面上可以呈现出数据管理系统中当前已有的标签以及用于触发创建标签的标签添加按钮。
105.如图3所示,其示出了本技术的数据管理系统中标签系统界面的一种示意图。
106.由图3可以看出,标签系统中显示有多个标签301,如图3中示出的标签0、标签1、标签2以及标签3这四个标签。同时,标签系统界面中还显示有标签添加按钮302。在此基础上,
如果用户点击该标签添加按钮302,则数据管理系统会检测到标签添加请求,并向终端展现出该标签添加界面。在此基础上,用户可以在标签添加界面配置组成标签的各个组成结构以及标签的相关配置,以最终生成标签模板并存储。
107.在一种可能的实现方式中,标签模板可以包括:至少一个标签项及各标签项对应的数据格式。
108.标签项是指组成标签的各个组成项,标签项的数据格式是指该标签项中的数值所需满足的数据格式,如有些标签项的数据格式为整数型,有些标签项中的数据格式可能会为字符串型等。
109.标签模板可以根据训练模型的实际需求来设定,相应的,标签模板中数据项的数据格式也可以是根据训练模型中对于数据格式的需求来设定,对此不加限制。
110.可以理解的是,在训练模型所涉及到的模型训练、测试以及验证等过程中,文件所需标注的标签标注数据一般可以为树状结构。即,标签标注数据中至少一个标签项可以包括多个层级的标签项。
111.具体的,标签标注数据可以包括:主标签项以及主标签项下的各级子标签项。相应的,创建标签模板也就是创建一个树形的标签模板。其中,主标签项是唯一的,其用于表征标签标注数据的类别。主标签项的一级子标签项可以有一个或者多个,而每级子标签项又可以有一个或者多个下一级子标签项。其中,同一层级的子标签项的名称不可以重复。同时,一般情况下,不同标签模板的主标签项的名称也不可重复。
112.如,以{人:{性别;,年龄;}}这一标签模板为例说明,这一标签模板的主标签项为“人”,而主标签项下包括两个一级子标签项“性别”和“年龄”。当然,在这个标签模板中一级子标签项下没有其他子标签项,但是在实际应用中,标签模板中子标签项可以根据需要有其他可能,子标签项之间的层级关系也可以更为复杂。
113.在一种可能的实现方式中,为了能够将使用该标签模板的标签标注数据与文件更为便捷的建立关联,本技术中,标签模板中的至少一个标签项中包括:信息摘要项,该信息摘要项为用于存储标签关联的文件的信息摘要。如,文件的信息摘要可以为文件的md5值。
114.相应的,使用该标签模板的标签标注数据中该信息摘要项的取值就是该标签标注数据关联的文件所生成的信息摘要,由于文件的信息摘要具有唯一性,因此,可以结合标签标注数据中信息摘要项的取值,确定与该标签标注数据关联的文件。
115.在又一种可能的实现方式中,考虑到一个标签中某些项目是必须具有数值的标签项,而有些标签项的取值可以设定为默认值或者是由用户创建标签时设定,基于此,标签模板的标签项中还可以包括必填标签项,其中,必填标签项是指数值不能为空的标签项。例如,假设“人”这一标签中,“性别”可以属于必填标签项,但是“学历”和“爱好”可以为非必填标签项。
116.需要说明的是,在实际应用中,用户每次创建的标签模板可以为一个,也可以是同时创建出多个标签模板后再同时申请存储等,对此不加限制。
117.s202,将获得的标签模板存储到该数据管理系统中设定的模板存储空间内。
118.如,可以在数据管理系统的数据库中开辟一块用于存储标签模板的区域,则可以将上传到该数据管理系统内的标签模板存储到该区域内。
119.在一种可能的实现方式中,标签模板存储到数据管理系统的模板存储空间之前,
本技术还会对待存储的标签模板进行序列化。在本技术中序列化可以理解为:为每个标签模板添加模板标识后,存储标签模板。
120.为标签模板添加模板标识,以进行序列化存储的目的是为了后续修改标签模板时,可以不对使用该标签模板的标签标注数据进行修改。
121.相应的,在数据管理系统存储了标签模板之后,如果数据管理系统获得针对该标签模板的模板修改请求,可以基于该模板修改请求对标签模板中标签项以及标签项对应的数据格式中的一种或者多种进行修改。
122.例如,假设标签模板中存在标签项“年纪”,后续用户可能希望将“年纪”修改为“年龄”,那么用户可以在数据管理系统中的标签模板界面中查找出该标签模板,并将标签模板中标签项“年纪”这一名称改为“年龄”,那么在用户提交修改后的标签模板之后,数据管理系统会将存储的该标签模板更改为最新更改后的标签模板。
123.需要说明的是,本实施例是以向数据管理系统中存储标签模板的一种实现方式为了说明,对于通过其他方式向数据管理系统存储标签模板也同样适用于本实施例。
124.s203,确定用户选择添加标注数据的第二标签模板。
125.该第二标签模板属于数据管理系统存储的标签模板。其中,为了便于区分与前面生成样本标注集所需选择的标签模板进行区分,将需要添加标注数据的标签模板称为第二标签模板。在本技术中,用户选择添加标注数据的标签模板也可以被称为候选标签模板,即第二标签模板也可以被称为候选标签模板。
126.可以理解的是,在数据管理系统存储有标签模板的情况下,用户可以根据需要在任意时刻请求为标签模板添加标签标注数据,因此,如果第二标签模板与步骤s201中需要添加的标签模板为同一个,那么该步骤s203与步骤s201和s202的顺序并不限于图2所示。
127.s204,获得待添加至该第二标签模板下的至少一条标签标注数据。
128.其中,需要添加到该第二标签模板下的标签标注数据为使用该第二标签模板生成的标签标注数据。相应的,该标签标注数据可以包括第二标签模板中定义的各标签项及其各标签项的取值,同时,标签标注数据中每个标签项的取值的数据格式也与该第二标签模板中相应标签项对应的数据格式一致。
129.可以理解的是,用户每次向一个标签模板中添加的标签标注数据可以为一条,也可以多条,通常情况下,用户会同时为一个标签模板上传多条标签标注数据。
130.如,在数据管理系统输出的主界面中,如果检测到用户选择标注数据界面,则展现出的标注数据界面,该数据标注界面中可以显示出标签列表,标签列表中可以包括该数据管理系统中存储的各个标签模板的名称。如果检测到用户点击某个标签模板,则确定该标签模板为用户选择添加的标注数据的标签模板。相应的,如果检测到用户点击该数据标注界面中的新增数据选项,则可以获得用户选择添加的至少一条标签标注数据。
131.如图4所示,数据管理系统的标注数据界面中包括模板预览区401,该标签预览区可以呈现出已存储的各个标签模板的信息,如,标签模板可以采用标签模板的主标签项表示,那么模板预览区可以呈现出各个标签模板的主标签项402。
132.在用户选择了一个主标签项之后,数据管理系统会在标注数据界面中呈现出该主标签项对应的标签模板关联的所有标签标注数据的信息,如图4中标注数据显示区403所示。同时,在标注数据显示区403的上方显示有一操作项“新增数据”,如果用户点击“新增数
据”这一操作项404,则数据管理系统可以展现标注数据添加窗口,用户通过该标注数据添加窗口选择所需添加的标签标注数据的存储文件,则可以向数据管理系统上传至少一条标签标注数据。
133.s205,对于该至少一条标签标注数据中的每条标签标注数据,如果该标签标注数据符合该第二标签模板定义的标签的组成结构,将该标签标注数据存储到该第二标签模板关联的标签标注数据集中。
134.其中,标签模板关联的标签标注数据集可以存储到数据管理系统的标注数据存储区内,如,标注数据存储区可以为数据库中用于存储标注数据的存储区域。
135.在本技术中,在上传标签模板关联的标签标注数据时,数据管理系统会检测该标签标注数据是否与该标签模板定义的标签的组成结构相符,只有标签标注数据符合该标签模板定义的标签的组成结构,才会将该标签标注数据存储到该标签模板关联的标签标注数据集中。
136.在一种可能的实现方式中,如果标签模板定义了组成标签的至少一个标签项以及各标签项对应的数据格式,那么数据管理系统可以需要分别检测标签标注数据中涉及到的各标签项以及标签项的数值所属的数据格式是否与标签模板的定义一致。
137.相应的,如果标签标注数据中的标签项均属于第二标签模板中定义的标签项,且该标签标注数据中标签项的数值对应的数据格式与该第二标签模板中相应标签项的数据格式相符,将该标签标注数据存储到该第二标签模板关联的标签标注数据集中。
138.例如,假设第二标签模板为:{人:{年龄:,性别:,md5:}},其中,年龄为整数,性别和md5为字符串,如果标签标注数据为:{人:{年龄:20,性别:男,md5:#####}},那么该标签标注数据符合第二标签模板对于标签的定义,则可以将该标签标注数据存储到第二标签模板关联的标签标注数据集中。如果标签标注数据为:{人:{身高:180,性别:男}},则该标签标注数据不符合第二标签模板对于标签的定义,则不会存储该标签标注数据。
139.在一种可选方式中,如果标签模板中包含一些必填标签项和一些非必填标签项,那么只需要标签标注数据中具有必填标签项的数值即可,而无需关心该标签标注数据中是否包含非必填标签项及其数值。
140.在此基础上,本技术中数据管理系统在确定出标签标注数据的主标签项与第二标签模板的主标签项一致之后,还可以分为如下几种情况来处于标签标注数据:
141.如果标签标注数据中包含第二标签模板中没有的子标签项,或者是未包含第二标签模板中至少一个必填子标签项,将标签标注数据确认为不合格数据,而不会将该标签标注数据存储为该第二标签模板关联的标签标注数据集中。
142.其中,标签模板中的必填子标签项可以根据需要设定,特别的,考虑到可以标签标注数据可以通过md5值与文件建立关联,因此,标签模板中的必填子标签项可以包括md5这一子标签项。
143.如果标签标注数据中包含的各标签项与第二标签模板中定义的各标签项一致,但是标签标注数据中存在标签项的数据格式与该第二标签模板中定义的该标签项的数据格式不一致,该标签标注数据会被确认为不合格数据,而不会将该标签标注数据存储为该第二标签模板关联的标签标注数据集中。
144.如果标签标注数据中包含的各标签项及其数值的数据格式均符合第二标签模板
中的定义,但是标签标注数据中不包含第二标签模板中至少一个非必填子标签项及其数值,可以为该标签标注数据中添加该非必填标签项并设置该非必填标签项的数值为默认数值,得到重构后的标签标注数据;然后,将重构后的该标签标注数据存储到第二标签模板关联的标签标注数据集中。
145.当然,如果标签标注数据包含第二标签模板中定义的每个标签项,且标签标注数据中每个标签项的数值对应的数据格式均与第二标签模板中相对应标签项对应的数据格式一致,则可以直接将该标签标注数据存储到该第二标签模板关联的标签标注数据集中。
146.举例说明:
147.假设第二标签模板为:{人:{年龄:,性别:,学历:}},假设性别为必填子标签项,学历和年龄为非必填子标签项,那么假设获得的标签标注数据1为{人:{年龄:20,性别:女}},标签标注数据2为{人:{年龄:30,学历:本科}}。
148.可见,标签标注数据1中的主标签与第二标签模板定义的主标签项一致,且标签标注数据1中子标签项均属于第二标签模板定义的子标签项,且数据格式符合要求,只不过标签标注数据1缺少第二标签模板中定义的非子标签项学历。那么,可以将标签标注数据1中学历设置为默认值:“高中”,从而将标签标注数据1变更为{人:{年龄:20,性别:女,学历:高中}},然后将变更后的标签标注数据1存储为第二标签模板关联的标签标注数据集中。
149.而标签标注数据2中缺少了第二标签模板中必填子标签项“性别”及其数值,则标签标注数据不会被存储到该第二标签模板关联的标签标注数据集中。
150.可以理解的是,如果标签标注数据符合第二标签模板中定义的标签组成结构的情况下,本技术还可以检测该标签标注数据是否属于第二标签模板中标签标注数据集中已存储的标签标注数据,如果是,则利用该标签标注数据覆盖该第二标签模板关联的标签标注数据集中的相应标签标注数据,同时,还可以将被覆盖的标签标注数据存储到历史数据记录中。
151.其中,标签标注数据属于已存储的标签标注数据可以为标签标注数据的数据标识与已存储的标签标注数据的数据标识相同,但是内容不同;或者是,标签标注数据的内容相同等。
152.可以理解的是,将标签关注数据存储为第二标签模板关联的标签标注数据的方式可以是:建立该标签标注数据与该第二标签模板的模板标识之间的关联。在此基础上,如果第二标签模板存在修改,则可以仅仅修改第二标签模板的内容。同时,由于标签标注数据与第二标签模板的模板标识关联,因此,第二标签模板修改后,标签模板关联的标签标注数据中相应标签项都会被相应修改。如,假设第二标签模板为{人:{年纪:,性别:}},而使用该标签模板的标签标注数据为{人:{年纪:20,性别:女}},那么如果该第二标签模板修改为:{人:{年龄:,性别:}},那么该标签标注数据也会被自动修改为{人:{年龄:20,性别:女}}。
153.由以上内容可知,通过本技术的数据管理系统可以存储用户上传的标签模板。同时,用户可以向数据管理系统存储标签模板关联的标签标注数据,数据管理系统会自动检测标签标注数据是否符合标签模板对于标签的定义,只有标签标注数据符合标签模板对于标签的定义,才会将该标签标注数据存储到标签模板关联的标签标注数据集中,从而可以有效减少标签标注数据错误的情况,也避免了用户人工核查标签标注数据而导致的复杂度。
154.可以理解的是,本技术中,用户还可以根据需要向数据管理系统上传与标签标注数据关联的文件。具体的,数据管理系统可以获得待存储的至少一条文件,并将文件存储到文件集中。其中,文件关联的标签标注数据为包含的信息摘要为基于该文件生成的信息摘要的标签标注数据。
155.如,假设标签标注数据中都包含有md5这一标签项的数值,如果标签标注数据中md5的数值与某个文件生成的md5值一致,则该标签标注数据为该文件关联的标签标注数据。
156.可以理解的是,在向数据管理系统存储了标签模板、标签标注数据以及文件之后,用户可以根据需要向数据管理系统申请查询各标签模板、标签标注数据以及文件。相应的,数据管理系统在获得用户的数据查询请求后,可以输出与该数据查询请求所请求的标签模板、标签模板下关联的各标签标注数据或者是标签标注数据关联的文件。
157.可以理解的是,为了提升数据管理系统中存储的数据的安全性,本技术还可以设置不同用户具有的不同访问权限。如,对于数据管理系统的管理员:可以设置其用于向数据管理系统创建标签模板权限,还可以拥有对数据管理系统中任意数据的访问以及修改的权限,还可以具备为单个文件,标签标注数据以及标注样本集设置浏览权限等。而其他用户可以根据实际需要不同,设置其具备查询数据、获取数据以及修改数据的权限;或者是,仅仅具备查询以及获取数据的权限等。
158.相应的,在本技术中,数据管理系统在获得数据查询请求后,首先会检查触发该数据查询请求的用户是否具备数据查询权限,只有该用户具备数据查询请求,才会影响该数据查询请求。
159.类似的,在数据管理系统接收到创建标签模板的请求,以及上传标签标注数据的请求时,数据管理系统都需要在确认用户具备相应的权限后,才会响应相应的请求。
160.可以理解的是,在本技术以上实施例中,在数据管理系统存储了标签模板、标签模板关联的标签标注数据以及标签标注数据关联的文件之后,具备权限的用户均可以根据需要修改相应的数据。
161.在一种可能的实现方式中,考虑到生成样本标注集之后,样本标注集内的标签标注数据可能会被用于模型的训练、测试或者验证,在该种情况下,为了避免由于标签模板关联的标签标注数据被修改而导致样本标注集发生变动,本技术在接收到对标签模板关联的标签标注数据的标注数据变更请求之后,可以仅仅对标签模板关联的该标签标注数据进行变更,而维持样本标注集内相应的标签标注数据不变。
162.下面结合流程图进行介绍,如参见图5,其示出了本技术实施例提供的一种数据处理方法又一种流程示意图,本实施例可以包括:
163.s501,确定用户选择的第一标签模板。
164.s502,获得用户输入的样本生成需求。
165.样本生成需求用于描述用户需要生成的样本集的特征,在本技术中,样本生成需求至少包括:待生成的样本的目标数量。
166.s503,基于样本生成需求,从第一标签模板关联的标签标注数据集中,确定目标数量条目标标签标注数据。
167.s504,构建包含目标数量条目标标签标注数据的目标样本标注集,将目标样本标
注集存储为第一标签模板关联的样本标注集,以使得数据管理系统中与目标样本标注集内的各目标标签标注数据关联的目标文件与目标样本标注集组成用于模型训练、测试或者验证的样本集合。
168.以上步骤s501到s504可以参见前面实施例的相关介绍,在此不再赘述。
169.s505,获得标注数据变更请求。
170.其中,该标注数据变更请求用于请求更改标签模板的标签标注数据集内的标签标注数据。
171.如,标注数据变更请求可以携带有请求变更的标签标注数据所关联的标签模板的模板标识以及该标签标注数据的数据标识。例如,标注数据变更请求可以请求变更第一标签模板关联的标签标注数据。
172.在一种可能的实现方式中,数据管理系统可以获得针对标签模板的查询请求,例如,检测到用户在标签系统界面选择标签模板或者输入待查询的标签模板,确认获得针对该标签模板的查询请求。响应于针对该标签模板的查询请求,可以展现出或者向数据管理系统外的计算机设备输出该标签模板关联的标签标注数据,在此基础上,用户可以选择所需变更的标签标注数据并触发生成标注数据变更请求。
173.s506,基于标注数据变更请求,对标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理。
174.其中,标注数据变更请求可以请求对某个标签模板关联的标签标注数据的修改或者删除等,对此不加限制。相应的,根据标注数据变更请求所请求的实际操作,可以对相应的标签模板关联的待更改的标签标注数据进行修改或者删除等变更处理。
175.在一种可选方式中,为了使得标签标注数据被变更后仍能够查询到其变更前的相关信息,在变更标签标注数据之前或执行变更处理的同时,本技术还可以在历史数据记录中记录该标签模板关联的标签标注数据集中变更处理之前的该待更改的标签标注数据。
176.s507,获得样本集更新请求。
177.其中,该样本集更新请求用于请求更新该第一标签模板关联的该目标样本标注集中的目标标签标注数据。
178.样本集更新请求的目的是请求将该目标样本标注集中的目标标签标注数据与第一标签模板关联的标签标注数据集中相应的标签标注数据保持一致。
179.s508,针对目标样本标注集中每条目标标签标注数据,如果该第一标签模板关联的标签标注数据集中该目标标签标注数据存在变更,基于该第一标签模板关联的标签标注数据集中该目标标签标注数据的变更方式,对该目标样本标注集中的该目标标签标注数据进行变更处理。
180.其中,基于该第一标签模板关联的标签标注数据集中该目标标签标注数据的变更方式,对该目标样本标注集中的该目标标签标注数据进行变更处理,目的是使得目标样本标注集中该目标标签标注数据与该第一标签模板关联的标签标注数据集中该目标标签标注数据保持一致。
181.如,假设第一标签模板关联的标签标注数据集中标签标注数据1存在修改,而该标签标注数据1为目标样本标注集内的标签标注数据,那么则需要件目标标签样本集中该标签标注数据更新为该标签标注数据集存储的该标签标注数据1。
182.又如,假设第一标签模板关联的标签标注数据集中标签标注数据2已被删除,那么也需要将目标标签标注数据中该标签标注数据2删除。
183.进一步的,为了能够便于数据管理系统的管理人员或者其他用户了解目标样本标注集在不同时刻内的数据情况,本技术在对目标样本标注集进行更新之后,还可以在历史数据记录中存储该目标样本标注集的数据快照。在此基础上,后续如果修改了目标样本标注集,也可以从该历史数据记录中查询出该目标样本标注集上一次包含的标签标注数据的情况。
184.由以上内容可知,本技术在标签模板关联的标签标注数据被变更后,并不会同步更新该标签模板关联的样本标注集中相应的标签标注数据,从而保持已经用于训练模型(包括模型训练、测试以及验证)的样本标注集的完整性以及一致性,可以减少对于训练模型的影响。
185.而且,为了避免标签模板关联的标签标注数据发生变更后人工手动来调整样本标注集,本技术还可以在检测到对样本标注集的样本集更新请求后,结合标签模板关联的标签标注数据的变更方式对样本标注集进行更新,提高了样本标注集内标签标注数据更新的便捷性。
186.又一方面,本技术还提供了一种数据管理系统的组成架构,如图6所示,其示出了本技术实施例提供的数据管理系统的一种组成架构示意图,本实施例的方法可以包括:
187.标签管理模块601,用于获得并存储至少一个标签模块,所述标签模板定义了标签的组成结构;
188.标注数据管理模块602,用于获得并存储至少一个标签标注数据集,所述标签标注数据集关联有一个标签模板,且所述标签标注数据集包括:采用所述标签标注数据集关联的标签模板构建的至少一条标签标注数据;
189.文件管理模块603,用于获得并存储文件集,所述文件集中的每个文件关联有所述至少一个标签标注数据集中的一条标签标注数据。
190.在一种可能的实现方式中,所述标签管理模块包括:
191.模板获得子模块,用于获得用户创建的标签模板,所述标签模板中定义有组成标签的标签结构;
192.模板存储子模块,用于将获得的标签模板存储到所述数据管理系统中设定的模板存储空间内。
193.在又一种可能的实现方式中,所述模板获得子模块,包括:
194.界面展现子模块,用于检测到标签添加请求,展现标签添加界面;
195.模板创建子单元,用于获得用户在所述标签添加界面中配置的用于组成标签的至少一个标签项以及各标签项对应的数据格式,得到创建出的标签模板,所述标签模板包括所述至少一个标签项及各标签项对应的数据格式。
196.在又一种可能的实现方式中,所述标注数据管理模块,包括:
197.模板确定子模块,用于确定用户选择添加标注数据的候选标签模板,所述候选标签模板属于所述数据管理系统存储的标签模板;
198.数据获得子模块,用于获得待添加至所述候选标签模板下的至少一条标签标注数据;
199.数据存储子模块,用于对于待添加至所述候选标签模板下的每条标签标注数据,如果所述标签标注数据符合所述候选标签模板定义的标签的组成结构,将所述标签标注数据存储到所述候选标签模板关联的标签标注数据集中。
200.在又一种可能的实现方式中,所述标签管理模块维护的所述标签模板定义了组成标签的至少一个标签项及各标签项对应的数据格式;
201.所述数据存储子模块具体为,用于对于待添加至所述候选标签模板下的每条标签标注数据,如果所述标签标注数据中的标签项均属于所述候选标签模板中定义的标签项,且所述标签标注数据中标签项的数值对应的数据格式与所述候选标签模板中相应标签项的数据格式相符,将所述标签标注数据存储到所述候选标签模板关联的标签标注数据集中。
202.又一方面,对应本技术实施例提供的数据处理方法,本技术还提供了一种数据处理装置,如图7所示,其示出了本技术实施例提供的数据处理装置的一种组成结构示意图,本实施例的装置可以包括:
203.模板确定单元701,用于确定用户选择的目标标签模板,所述目标标签模板属于数据管理系统存储的至少一个标签模板,所述标签模板定义了标签的组成结构;
204.需求获得单元702,用于获得用户输入的样本生成需求,所述样本生成需求至少包括:待生成的样本的目标数量;
205.标注确定单元703,用于基于所述样本生成需求,从所述数据管理系统中与所述目标标签模板关联的标签标注数据集中,确定所述目标数量条目标标签标注数据,所述目标标签模板关联的标签标注数据集中包括:采用所述目标标签模板构建的至少一条标签标注数据;
206.标注集生成单元704,用于构建包含所述目标数量条目标标签标注数据的目标样本标注集,将所述目标样本标注集存储为所述第一标签模板关联的样本标注集,以使得所述数据管理系统中与所述目标样本标注集内的各目标标签标注数据关联的目标文件与所述目标样本标注集组成用于模型训练、测试或者验证的样本集合。
207.在一种可能的实现方式中,该装置还包括:
208.第一请求获得单元,用于获得标注数据变更请求,所述标注数据变更请求用于请求更改所述目标标签模板关联的标签标注数据集内的标签标注数据;
209.第一变更单元,用于基于所述标注数据变更请求,对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理。
210.在又一种可能的实现方式中,该装置还包括:
211.第二请求获得单元,用于在所述数据变更单元对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理之后,获得样本集更新请求,所述样本集更新请求用于请求更新所述目标标签模板关联的所述目标样本标注集中的目标标签标注数据;
212.第二变更单元,用于针对所述目标样本标注集中每条目标标签标注数据,如果所述目标标签模板关联的标签标注数据集中所述目标标签标注数据存在变更,基于所述目标标签模板关联的标签标注数据集中所述目标标签标注数据的变更方式,对所述目标样本标注集中的所述目标标签标注数据进行变更处理。
213.在又一种可能的实现方式中,该装置还包括:
214.第一记录单元,用于在所述第一变更单元对所述目标标签模板关联的标签标注数据集中待更改的标签标注数据进行变更处理的同时或者之后,在历史数据记录中记录所述目标标签模板关联的标签标注数据集中变更处理之前的所述待更改的标签标注数据;
215.第二记录单元,用于在所述第二变更单元对所述目标样本标注集中的所述目标标签标注数据进行变更处理之后,在所述历史数据记录中存储所述目标样本标注集的数据快照。
216.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本技术。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
217.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
218.对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1