一种流水线式的数据标注方法与流程

文档序号:30898031发布日期:2022-07-26 23:07阅读:199来源:国知局
一种流水线式的数据标注方法与流程

1.本发明属于数据处理技术领域,具体涉及一种流水线式的数据标注方法。


背景技术:

2.随着大数据时代的来临,众多行业的数据量成几何级数的增长。为了更好的对海量数据进行利用,通常需要对数据进行标注,以便使数据可以更好的服务于生产、经营、生活等各种活动。目前,在对数据进行标注时,往往采用人工标注的方式,由于个人知识能力有限,很难完成标注各种各样的数据的任务,尤其在对于复杂的标注任务进行标注时,通常会存在标注效率低的问题。


技术实现要素:

3.本发明提供了一种流水线式的数据标注方法,旨在解决现有技术中对于复杂的标注任务进行标注时,存在标注效率低的问题。
4.为了解决上述技术问题,本发明所采用的技术方案为:
5.一种流水线式的数据标注方法,包括:
6.s100、获取待标注数据,并确定标注方案;
7.s200、将标注方案中的整体标注任务拆分成若干个标注子任务;
8.s300、对于每个标注子任务,根据预设的标注模式,选择进入预设的标注模式;若标注模式为全标注,则将标注子任务中的所有待标注数据流转至人工标注;
9.若标注模式为抽取标注,则将标注子任务中的所有待标注数据流转至ai预标注步骤,得到ai预标注结果以及ai预标注结果置信度;根据ai预标注结果置信度判断每条ai预标注结果是否满足直接进入ai预审核步骤的条件,若是,则直接进入ai预审核步骤;若否,则流转至人工标注;
10.经过人工标注后得到的人工标注数据流转至ai预审核步骤;
11.s400、对流转至ai预审核步骤的预标注结果数据进行ai预审核,得到ai预审核数据以及ai预审核数据置信度;所述预标注结果数据包括人工标注数据和判断为满足直接进入ai预审核步骤的条件的ai预标注结果;所述ai预审核数据包括审核为错误的预标注结果数据和审核为正确的预标注结果数据;对于审核为错误的预标注结果数据则流转至人工审核;
12.对于审核为正确的预标注结果数据则根据预设的审核模式,选择进入预设的审核模式;若审核模式为全审核模式,则将所有审核为正确的预标注结果数据流转至人工审核;若审核模式为抽取审核,则根据ai预审核数据置信度的高低,从低到高对审核为正确的预标注结果数据进行排序,并抽取一定比例排序靠前的审核为正确的预标注结果数据流转至人工审核,对于排序靠后的审核为正确的预标注结果数据则直接通过审核;
13.经过人工审核后判断为错误的预标注结果数据,则打回至步骤s300中的人工标注,判断为正确的预标注结果数据则通过审核;
14.s500、将所有标注子任务中通过审核的数据进行合并形成最终的标注结果并输出。
15.进一步的方案:在ai预标注步骤中,采用ai预标注模型对标注子任务中的所有待标注数据进行预标注。
16.进一步的方案:所述ai预标注模型包括ai预标注模型一、ai预标注模型二和ai预标注模型三;所述ai预标注步骤包括:
17.将标注子任务中的所有待标注数据分别流转至ai预标注模型一和ai预标注模型二,通过ai预标注模型一得到ai预标注数据一和ai预标注数据置信度一,通过ai预标注模型二得到ai预标注数据二和ai预标注数据置信度二;
18.在步骤s300中,根据ai预标注结果置信度判断每条ai预标注结果是否满足直接进入ai预审核步骤的条件包括:将ai预标注数据置信度一以及ai预标注数据置信度二分别与第一阈值相比较;
19.若ai预标注数据置信度一以及ai预标注数据置信度二均小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
20.若ai预标注数据置信度一大于或等于第一阈值且ai预标注数据置信度二小于第一阈值,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;
21.若ai预标注数据置信度二大于或等于第一阈值且ai预标注数据置信度一小于第一阈值,则将ai预标注数据二作为预标注结果数据,并流转至ai预审核步骤;
22.若ai预标注数据置信度一以及ai预标注数据置信度二均大于或等于第一阈值,则判断ai预标注数据一与ai预标注数据二是否相同,若相同,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;若不相同,则引入ai预标注模型三,通过ai预标注模型三得到ai预标注数据三和ai预标注数据置信度三,将ai预标注数据置信度三与第一阈值相比较,若ai预标注数据置信度三大于或等于第一阈值,则判断ai预标注数据三是否与ai预标注数据一或ai预标注数据二相同,若ai预标注数据三与ai预标注数据一相同,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;若ai预标注数据三与ai预标注数据二相同,则将ai预标注数据二作为预标注结果数据,并流转至ai预审核步骤;若ai预标注数据三与ai预标注数据一和ai预标注数据二均不相同,则将标注子任务中的该条待标注数据流转至人工标注;若ai预标注数据置信度三小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
23.经过人工标注后得到的人工标注数据流转至ai预审核步骤。
24.基于上述技术方案:通过将待标注数据分别流转至多个ai预标注模型,使得输出的ai预标注结果不依赖于一个ai预标注模型的结果,而是综合多个ai预标注模型得出预标注结果数据,其预标注结果数据置信度高,并且准确率高;此外,综合多个ai预标注模型得出预标注结果数据,不会因为单个ai预标注模型的偏差,导致预标注结果出现批量错误。
25.进一步的方案:ai预标注数据置信度一=ai预标注模型一原置信度*ai预标注模型一准确率;ai预标注数据置信度二=ai预标注模型二原置信度*ai预标注模型二准确率;ai预标注数据置信度三=ai预标注模型三原置信度*ai预标注模型三准确率。
26.基于上述技术方案:在综合多个ai预标注模型得出ai预标注结果时,将ai预标注模型准确率作为加权系数能够增加准确率高的ai预标注模型的权重,使得综合得出的ai预
标注结果更准确。
27.进一步的方案:所述ai预标注模型包括ai预标注模型一和ai预标注模型二;所述ai预标注步骤包括:
28.将标注子任务中的所有待标注数据分别流转至ai预标注模型一和ai预标注模型二,通过ai预标注模型一得到若干个预测标注数据和若干个预测标注数据置信度,通过ai预标注模型二得到若干个预测标注数据和若干个预测标注数据置信度;
29.对每个预测标注数据在ai预标注模型一得到的预测标注数据置信度和ai预标注模型二得到的预测标注数据置信度求均值,并将预测标注数据置信度最高的预测标注数据作为预标注结果数据,并流转至ai预审核步骤。
30.基于上述技术方案:使用ai代替人工标注,能够提高标注的效率;并且通过综合两个ai预标注模型得到的预标注结果数据,相对于单个ai预标注模型得到的预标注结果数据,其预测标注数据置信度和准确度都很高。
31.进一步的方案:在ai预审核步骤中,采用ai预审核模型对流转至ai预审核步骤的预标注结果数据进行ai预审核。
32.进一步的方案:所述ai预审核模型包括ai预审核模型一、ai预审核模型二和ai预审核模型三;所述ai预审核步骤包括:
33.s401、将预标注结果数据分别流转至ai预审核模型一和ai预审核模型二,通过ai预审核模型一得到ai预审核数据一以及ai预审核数据置信度一,通过ai预审核模型二得到ai预审核模型二的ai预审核数据二以及ai预审核数据置信度二;
34.s402、将ai预审核数据置信度一以及ai预审核数据置信度二分别与第二阈值相比较;
35.若ai预审核数据置信度一大于或等于第二阈值且ai预审核数据置信度二小于第二阈值,则将ai预审核数据一作为ai预审核数据,并将ai预审核数据置信度一作为ai预审核数据置信度;
36.若ai预审核数据置信度二大于或等于第二阈值且ai预审核数据置信度一小于第二阈值,则将ai预审核数据二作为ai预审核数据,并将ai预审核数据置信度二作为ai预审核数据置信度;
37.若ai预审核数据置信度一以及ai预审核数据置信度二均大于或等于第二阈值,则判断ai预审核数据一与ai预审核数据二是否相同,若相同,则将ai预审核数据一作为ai预审核数据,并将作为ai预审核模型一和ai预审核模型二中高的ai预审核数据置信度作为ai预审核数据置信度;若不相同,则引入ai预审核模型三,通过ai预审核模型三得到ai预审核数据三和ai预审核数据置信度三,将ai预审核数据置信度三与第二阈值相比较,若ai预审核数据置信度三大于或等于第二阈值,则判断ai预审核数据三是否与ai预审核数据一或ai预审核数据二相同,若ai预审核数据三与ai预审核数据一相同,则将ai预审核数据一作为ai预审核数据,并将ai预审核模型一和ai预审核模型三中高的ai预审核数据置信度作为ai预审核数据置信度;若ai预审核数据三与ai预审核数据二相同,则将ai预审核数据二作为ai预审核数据,并将ai预审核模型二和ai预审核模型三中高的ai预审核数据置信度作为ai预审核数据置信度;
38.s403、将ai预审核数据与预标注结果数据进行对比,若ai预审核数据与预标注结
果数据相同,则将该条ai预审核数据判断为审核为正确的预标注结果数据;若ai预审核数据与预标注结果数据不相同,则将该条ai预审核数据判断为审核为错误的预标注结果数据。
39.基于上述技术方案:通过将预标注结果数据分别流转至多个ai预审核模型,使得输出的ai预审核数据不依赖于一个ai预审核模型的结果,而是综合多个ai预审核模型得出ai预审核数据,其ai预审核数据置信度高,并且准确率高;此外,综合多个ai预审核模型得出ai预审核数据,不会因为单个ai预审核模型的偏差,导致预审核结果出现批量错误。
40.进一步的方案:在步骤s402中,
41.若ai预审核数据置信度一以及ai预审核数据置信度二均小于第二阈值,则将该条预标注结果数据流转至人工审核;
42.若ai预审核数据三与ai预审核数据一和ai预审核数据二均不相同,则将该条预标注结果数据流转至人工审核;
43.若ai预审核数据置信度三小于第一阈值,则将该条预标注结果数据流转至人工审核;
44.经过人工审核后判断为错误的预标注结果数据,则打回至步骤s300中的人工标注,判断为正确的预标注结果数据则通过审核。
45.基于上述技术方案:将上述预标注结果数据流转至人工审核进一步判断,能够降低通过审核的数据的错误率。
46.进一步的方案:ai预审核数据置信度一=ai预审核模型一原置信度*ai预审核模型一准确率;ai预审核数据置信度二=ai预审核模型二原置信度*ai预审核模型二准确率;ai预审核数据置信度三=ai预审核模型三原置信度*ai预审核模型三准确率。
47.基于上述技术方案:在综合多个ai预审核模型得出ai预审核数据时,将ai预审核模型准确率作为加权系数能够增加准确率高的ai预审核模型的权重,使得综合得出的ai预审核数据更准确。
48.进一步的方案:所述ai预审核模型包括ai预审核模型一和ai预审核模型二;所述ai预审核步骤包括:
49.s421、将预标注结果数据分别流转至ai预审核模型一和ai预审核模型二,通过ai预审核模型一得到若干个预测审核数据以及若干个预测审核数据置信度,通过ai预标注模型二得到若干个预测审核数据以及若干个预测审核数据置信度;
50.s422、对每个预测审核数据在ai预审核模型一得到的预测审核数据置信度和ai预审核模型二得到的预测审核数据置信度求均值,并将预测审核数据置信度最高的预测审核数据作为ai预审核数据,并将求均值后的预测审核数据置信度作为ai预审核数据置信度;
51.s423、将ai预审核数据与预标注结果数据进行对比,若ai预审核数据与预标注结果数据相同,则将该条ai预审核数据判断为审核为正确的预标注结果数据;若ai预审核数据与预标注结果数据不相同,则将该条ai预审核数据判断为审核为错误的预标注结果数据。
52.基于上述技术方案:使用ai代替人工审核,能够提高审核的效率;并且通过综合两个ai预审核模型得到的ai预审核数据,相对于单个ai预审核模型得到的ai预审核数据,其ai预审核数据置信度和准确度都很高。
53.本发明的有益效果为:
54.1、本发明提供的一种流水线式的数据标注方法,通过将标注方案中整体标注任务拆解成若干个标注子任务,并通过流水线的标注方式对每个标注子任务中的待标注数据进行预标注、预审核、审核不通过返回人工标注、通过审核等操作,最终将所有标注子任务中通过审核的数据进行组合形成最终的标注结果并输出;将整体标注任务拆解成若干个标注子任务,能够显著降低整体标注任务的复杂性,使其转化为简单的标注子任务,便于人工和ai进行学习和识别,能够提升数据标注的效率和质量。
55.2、本发明通过使用ai替代人工进行预标注和预审核,能够大大提升数据标注的效率。
56.3、本发明通过人工和ai相结合的方式对每个标注子任务中的待标注数据进行预标注和预审核,不仅能够提升数据标注的效率,还能够提升数据标注的准确度。
附图说明
57.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简要介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关附图。
58.图1是本发明一种流水线式的数据标注方法的流程示意图。
59.图2是本发明每个标注子任务的预标注和预审核的流程示意图。
60.图3是本发明ai预标注的流程示意图。
61.图4是本发明ai预审核步骤的流程示意图。
62.图5是本发明ai预标注模型的搭建示意图。
63.图6是本发明ai预审核模型的搭建示意图。
具体实施方式
64.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚完整的描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。基于本发明的实施例,本领域技术人员在没有创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
65.实施例一
66.参阅图1和图2,本实施例提供了一种流水线式的数据标注方法,包括:
67.s100、获取待标注数据,并确定标注方案。
68.其中,获取待标注数据包括:上传原始非结构化数据至平台,在平台上针对数据进行分版本管理,并对无效数据进行清洗,获得有效待标注数据。例如:用户在平台上传了一个人脸识别数据集,平台会针对每张数据进行检索分类,对分辨率、图片信息等进行判断,将明显无效的数据(比如分辨率低于阈值、重复、纯色无信息等)剔除后形成有效的待标注数据集。
69.其中,确定标注方案包括:确定在待标注数据上需要进行哪些类型的标注(拉框、分割、多段线等),标注对象都有哪些分类(人、车、船等),标注对象分类都有哪些属性(颜
色、年龄等)。
70.s200、将标注方案中的整体标注任务拆分成若干个标注子任务。
71.其中,将标注方案中的整体标注任务拆分成若干个标注子任务,可以根据标注类型将整体标注任务一次拆分成标注子任务a和标注子任务b,若一次拆分无法达到流水线需求的最细颗粒度,则可继续根据对象、属性等对一次拆分的标注子任务b进行二次拆分得到标注子任务b1和标注子任务b2,还可以对标注子任务b1和标注子任务b2进行继续拆分,保证最终的标注子任务为简单的流水线工程,并将待标注数据复制不同分支放入每个标注子任务的流水线进行标注。
72.s300、对于每个标注子任务,根据预设的标注模式,选择进入预设的标注模式;若标注模式为全标注,则将标注子任务中的所有待标注数据流转至人工标注;
73.若标注模式为抽取标注,则将标注子任务中的所有待标注数据流转至ai预标注步骤,得到ai预标注结果以及ai预标注结果置信度;根据ai预标注结果置信度判断每条ai预标注结果是否满足直接进入ai预审核步骤的条件,若是,则直接进入ai预审核步骤;若否,则流转至人工标注;
74.经过人工标注后得到的人工标注数据流转至ai预审核步骤。
75.其中,预设的标注模式包括全标注模式和抽取标注模式。
76.s400、对流转至ai预审核步骤的预标注结果数据进行ai预审核,得到ai预审核数据以及ai预审核数据置信度;所述预标注结果数据包括人工标注数据和判断为满足直接进入ai预审核步骤的条件的ai预标注结果;所述ai预审核数据包括审核为错误的预标注结果数据和审核为正确的预标注结果数据;对于审核为错误的预标注结果数据则流转至人工审核;
77.对于审核为正确的预标注结果数据则根据预设的审核模式,选择进入预设的审核模式;若审核模式为全审核模式,则将所有审核为正确的预标注结果数据流转至人工审核;若审核模式为抽取审核,则根据ai预审核数据置信度的高低,从低到高对审核为正确的预标注结果数据进行排序,并抽取一定比例排序靠前的审核为正确的预标注结果数据流转至人工审核,对于排序靠后的审核为正确的预标注结果数据则直接通过审核;
78.经过人工审核后判断为错误的预标注结果数据,则打回至步骤s300中的人工标注,判断为正确的预标注结果数据则通过审核;
79.s500、将所有标注子任务中通过审核的数据进行合并形成最终的标注结果并输出。
80.其中,将所有标注子任务中通过审核的数据进行合并包括:将所有标注子任务中通过审核的数据按照标注方案以及拆分方案进行重新合并。
81.在上述方案的基础上,在ai预标注步骤中,采用ai预标注模型对标注子任务中的所有待标注数据进行预标注。
82.参阅图3,在上述任一方案的基础上,在步骤s300中,所述ai预标注模型包括ai预标注模型一、ai预标注模型二和ai预标注模型三;所述ai预标注步骤包括:
83.将标注子任务中的所有待标注数据(图3为标注子任务数据)分别流转至ai预标注模型一和ai预标注模型二,通过ai预标注模型一得到ai预标注数据一(图3中模型一结果)和ai预标注数据置信度一(图3中模型一置信度),通过ai预标注模型二得到ai预标注数据
二(图3中模型二结果)和ai预标注数据置信度二(图3中模型二置信度)。
84.其中,ai预标注数据置信度一=ai预标注模型一原置信度*ai预标注模型一准确率;ai预标注数据置信度=ai预标注模型二原置信度*ai预标注模型二准确率;ai预标注数据置信度三=ai预标注模型三原置信度*ai预标注模型三准确率。
85.其中,ai预标注模型一准确率是指ai预标注模型一在训练好以后进行测试时的准确率;ai预标注模型二准确率是指ai预标注模型二在训练好以后进行测试时的准确率;ai预标注模型三准确率是指ai预标注模型三在训练好以后进行测试时的准确率。
86.图3中“ai预标注数据置信度一加权”是指根据加权公式“ai预标注数据置信度一=ai预标注模型一原置信度*ai预标注模型一准确率”来计算ai预标注数据置信度一,对于ai预标注数据置信度二加权以及ai预标注数据置信度三加权采用同样的方法,不再赘述。
87.在步骤s300中,根据ai预标注结果置信度判断每条ai预标注结果是否满足直接进入ai预审核步骤的条件包括:将ai预标注数据置信度一以及ai预标注数据置信度二分别与第一阈值相比较;例如,第一阈值可以设为0.7;
88.若ai预标注数据置信度一以及ai预标注数据置信度二均小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
89.若ai预标注数据置信度一大于或等于第一阈值且ai预标注数据置信度二小于第一阈值,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;
90.若ai预标注数据置信度二大于或等于第一阈值且ai预标注数据置信度一小于第一阈值,则将ai预标注数据二作为预标注结果数据,并流转至ai预审核步骤;
91.若ai预标注数据置信度一以及ai预标注数据置信度二均大于或等于第一阈值,则判断ai预标注数据一与ai预标注数据二是否相同,若相同,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;若不相同,则引入ai预标注模型三,通过ai预标注模型三得到ai预标注数据三(图3中模型三结果)和ai预标注数据置信度三(图3中模型三置信度),将ai预标注数据置信度三与第一阈值相比较,若ai预标注数据置信度三大于或等于第一阈值,则判断ai预标注数据三是否与ai预标注数据一或ai预标注数据二相同,若ai预标注数据三与ai预标注数据一相同,则将ai预标注数据一作为预标注结果数据,并流转至ai预审核步骤;若ai预标注数据三与ai预标注数据二相同,则将ai预标注数据二作为预标注结果数据,并流转至ai预审核步骤;若ai预标注数据三与ai预标注数据一和ai预标注数据二均不相同,则将标注子任务中的该条待标注数据流转至人工标注;若ai预标注数据置信度三小于第一阈值,则将标注子任务中的该条待标注数据流转至人工标注;
92.经过人工标注后得到的人工标注数据流转至ai预审核步骤。
93.其中,在步骤s300中,所述ai预标注模型还可以设为一个,将标注子任务中的所有待标注数据流转至该ai预标注模型后,得到ai预标注数据和ai预标注数据置信度,将ai预标注数据置信度直接与第一阈值比对,若ai预标注数据置信度大于或等于第一阈值,则直接将该条ai预标注数据作为预标注结果数据,并流转至ai预审核步骤;否则,将该条待标注数据流转至人工标注。
94.在上述任一方案的基础上,本实施例中所采用的ai预标注模型一、ai预标注模型二和ai预标注模型三,其ai预标注算法均不相同,比如resnet、yolo、googlenet等,由于不同的算法侧重点不同,得到的结果也不同,因此,综合多个不同算法的ai预标注模型得到的
ai预标注结果,准确度高,以上三个ai预标注模型可以采用现有的ai预标注模型,也可以根据需求自行搭建,参阅图5,本实施例提供了一种ai预标注模型的搭建方法,包括:
95.s601、获取初始ai预标注模型需要的预标注模型训练集、预标注模型测试集和预标注模型验证集数据;
96.s602、根据所应用的预标注场景,选择ai预标注算法并进行ai预标注模型的搭建;比如resnet、yolo、googlenet等;
97.s603、基于所选预标注模型训练集以及ai预标注算法,训练初始ai预标注模型;
98.s604、基于所选预标注模型测试集测试初始ai预标注模型的准确率,并根据初始ai预标注模型的准确率调整ai预标注算法超参数,不断提升初始ai预标注模型的准确率;
99.s605、基于所选预标注模型验证集验证初始ai预标注模型的准确率;判断所述初始ai预标注模型的准确率是否达到预设标准,若是,则将所述初始ai预标注模型作为流水线上的ai预标注模型;若否,则调整预标注模型训练集数据以及ai预标注算法,对初始ai预标注模型进行重新训练。
100.本实施例提供的ai预标注模型的搭建方法本身属于现有技术。
101.在上述任一方案的基础上,在ai预审核步骤中,采用ai预审核模型对流转至ai预审核步骤的预标注结果数据进行ai预审核。
102.参阅图4,在上述任一方案的基础上,所述ai预审核模型包括ai预审核模型一、ai预审核模型二和ai预审核模型三;在步骤s400中,所述ai预审核步骤包括:
103.s401、将预标注结果数据分别流转至ai预审核模型一和ai预审核模型二,通过ai预审核模型一得到ai预审核数据一(图4中模型一结果)以及ai预审核数据置信度一(图4模型一置信度),通过ai预审核模型二得到ai预审核数据二(图4中模型一结果)以及ai预审核数据置信度二(图4模型二置信度)。
104.其中,ai预审核数据置信度一=ai预审核模型一原置信度*ai预审核模型一准确率;ai预审核数据置信度=ai预审核模型二原置信度*ai预审核模型二准确率;ai预审核数据置信度三=ai预审核模型三原置信度*ai预审核模型三准确率。
105.其中,ai预审核模型一准确率是指ai预审核模型一在训练好以后进行测试时的准确率;ai预审核模型二准确率是指ai预审核模型二在训练好以后进行测试时的准确率;ai预审核模型三准确率是指ai预审核模型三在训练好以后进行测试时的准确率。
106.图4中ai预审核数据置信度一加权是指根据加权公式“ai预审核数据置信度一=ai预审核模型一原置信度*ai预审核模型一准确率”来计算ai预审核数据置信度一,对于ai预审核数据置信度二加权以及ai预审核数据置信度三加权采用同样的方法,不再赘述。
107.s402、将ai预审核数据置信度一以及ai预审核数据置信度二分别与第二阈值相比较;例如,第二阈值可以设为0.7;
108.若ai预审核数据置信度一大于或等于第二阈值且ai预审核数据置信度二小于第二阈值,则将ai预审核数据一作为ai预审核数据,并将ai预审核数据置信度一作为ai预审核数据置信度;
109.若ai预审核数据置信度二大于或等于第二阈值且ai预审核数据置信度一小于第二阈值,则将ai预审核数据二作为ai预审核数据,并将ai预审核数据置信度二作为ai预审核数据置信度;
110.若ai预审核数据置信度一以及ai预审核数据置信度二均大于或等于第二阈值,则判断ai预审核数据一与ai预审核数据二是否相同,若相同,则将ai预审核数据一作为ai预审核数据,并将作为ai预审核模型一和ai预审核模型二中高的ai预审核数据置信度作为ai预审核数据置信度;若不相同,则引入ai预审核模型三,通过ai预审核模型三得到ai预审核数据三(图4中模型三结果)和ai预审核数据置信度三(图4中模型三置信度),将ai预审核数据置信度三与第二阈值相比较,若ai预审核数据置信度三大于或等于第二阈值,则判断ai预审核数据三是否与ai预审核数据一或ai预审核数据二相同,若ai预审核数据三与ai预审核数据一相同,则将ai预审核数据一作为ai预审核数据,并将ai预审核模型一和ai预审核模型三中高的ai预审核数据置信度作为ai预审核数据置信度;若ai预审核数据三与ai预审核数据二相同,则将ai预审核数据二作为ai预审核数据,并将ai预审核模型二和ai预审核模型三中高的ai预审核数据置信度作为ai预审核数据置信度。
111.其中,在步骤s402中,
112.若ai预审核数据置信度一以及ai预审核数据置信度二均小于第二阈值,则将该条预标注结果数据流转至人工审核;
113.若ai预审核数据三与ai预审核数据一和ai预审核数据二均不相同,则将该条预标注结果数据流转至人工审核;
114.若ai预审核数据置信度三小于第一阈值,则将该条预标注结果数据流转至人工审核。
115.其中,经过人工审核后判断为错误的预标注结果数据,则打回至步骤s300中的人工标注,判断为正确的预标注结果数据则通过审核。
116.s403、将ai预审核数据与预标注结果数据进行对比,若ai预审核数据与预标注结果数据相同,则将该条ai预审核数据判断为审核为正确的预标注结果数据;若ai预审核数据与预标注结果数据不相同,则将该条ai预审核数据判断为审核为错误的预标注结果数据。
117.其中,ai预审核模型本质上是ai预标注模型。
118.在上述任一方案的基础上,本实施例中所采用的ai预审核模型一、ai预审核模型二和ai预审核模型三,其算法均不相同,比如resnet、yolo、googlenet等,由于不同的算法侧重点不同,得到的结果也不同,因此,综合多个不同算法的ai预审核模型得到的ai预审核数据,准确度高,以上三个ai预标注模型可以采用现有的ai预标注模型,也可以根据需求自行搭建,参阅图6,本实施例提供了一种ai预审核模型的搭建方法,包括:
119.s601、获取初始ai预审核模型需要的预审核模型训练集、预审核模型测试集和预审核模型验证集数据;
120.s602、根据所应用的预审核场景,选择ai预审核算法并进行ai预审核模型的搭建;比如resnet、yolo、googlenet等;
121.s603、基于所选预审核模型训练集以及ai预审核算法,训练初始ai预审核模型;
122.s604、基于所选预审核模型测试集测试初始ai预审核模型的准确率,并根据初始ai预审核模型的准确率调整ai预审核算法超参数,不断提升初始ai预审核模型的准确率;
123.s605、基于所选预审核模型验证集验证初始ai预审核模型的准确率;判断所述初始ai预审核模型的准确率是否达到预设标准,若是,则将所述初始ai预审核模型作为流水
线上的ai预审核模型;若否,则调整预审核模型训练集数据以及ai预审核算法,对初始ai预审核模型进行重新训练。
124.本实施例提供的ai预标注模型的搭建方法本身属于现有技术。
125.实施例二
126.本实施例在实施例一的基础上,与实施例一不同的是,所述ai预标注模型包括ai预标注模型一和ai预标注模型二;所述ai预标注步骤包括:
127.将标注子任务中的所有待标注数据分别流转至ai预标注模型一和ai预标注模型二,通过ai预标注模型一得到若干个预测标注数据和若干个预测标注数据置信度,通过ai预标注模型二得到若干个预测标注数据和若干个预测标注数据置信度;
128.对每个预测标注数据在ai预标注模型一得到的预测标注数据置信度和ai预标注模型二得到的预测标注数据置信度求均值,并将预测标注数据置信度最高的预测标注数据作为预标注结果数据,并流转至ai预审核步骤。
129.实施例三
130.本实施例在实施例一的基础上,与实施例一不同的是,所述ai预审核模型包括ai预审核模型一和ai预审核模型二;所述ai预审核步骤包括:
131.s421、将预标注结果数据分别流转至ai预审核模型一和ai预审核模型二,通过ai预审核模型一得到若干个预测审核数据以及若干个预测审核数据置信度,通过ai预标注模型二得到若干个预测审核数据以及若干个预测审核数据置信度;
132.s422、对每个预测审核数据在ai预审核模型一得到的预测审核数据置信度和ai预审核模型二得到的预测审核数据置信度求均值,并将预测审核数据置信度最高的预测审核数据作为ai预审核数据,并将求均值后的预测审核数据置信度作为ai预审核数据置信度;
133.s423、将ai预审核数据与预标注结果数据进行对比,若ai预审核数据与预标注结果数据相同,则将该条ai预审核数据判断为审核为正确的预标注结果数据;若ai预审核数据与预标注结果数据不相同,则将该条ai预审核数据判断为审核为错误的预标注结果数据。
134.本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是落入本发明权利要求界定范围内的技术方案,均落在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1