标注数据处理方法和标注数据处理系统的制作方法

文档序号:9646828阅读:622来源:国知局
标注数据处理方法和标注数据处理系统的制作方法
【技术领域】
[0001]本发明涉及数据处理领域,具体涉及一种标注数据处理方法和标注数据处理系统。
【背景技术】
[0002]机器进行训练(或说学习)通常需要大量的标注数据作为训练集,标注数据的数据量越大对训练的效果越有帮助,因此如何高效准确地进行数据标注已经成为了一个亟待解决的问题。现有的数据标注系统的数据标注流程通常为:发布包含一个或多个标注单元的标注任务、进行人工标注、进行人工质量检查等。现有的数据标注系统完全依靠人工质量检查来控制标注准确性,因此从人工标注完成到质量检查之间的时间间隔可能非常长,难以及时纠正标注人员的错误。

【发明内容】

[0003]鉴于上述问题,提出了本发明以便提供一种至少部分地解决上述问题的标注数据处理方法和标注数据处理系统。
[0004]根据本发明的一个方面,提供了一种标注数据处理方法,包括:步骤S110:计算与标注任务相关的多个标注结果的相似度;步骤S120:将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则转至步骤S130,如果相似度小于相似度阈值,则转至步骤S140 ;步骤S130:确定多个标注结果通过质量检测;以及步骤S140:确定多个标注结果未通过质量检测。
[0005]根据本发明的另一方面,提供一种标注数据处理系统,包括计算装置、相似度比较装置、第一执行装置和第二执行装置。计算装置用于计算与标注任务相关的多个标注结果的相似度。相似度比较装置用于将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则启动第一执行装置,如果相似度小于相似度阈值,则启动第二执行装置。第一执行装置用于确定多个标注结果通过质量检测。第二执行装置用于确定多个标注结果未通过质量检测。
[0006]根据本发明提供的标注数据处理方法和标注数据处理系统,由于利用相似度自动检测标注结果的质量,因此使得标注人员有可能及时获知标注结果的质量,进而有可能及时纠正标注错误,可以有效提高标注准确性。
[0007]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0008]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0009]图1示出根据本发明一个实施例的标注数据处理方法的流程图;
[0010]图2示出根据本发明另一个实施例的标注数据处理方法的流程图;
[0011]图3示出根据本发明另一个实施例的标注数据处理方法的流程图;以及
[0012]图4示出根据本发明一个实施例的标注数据处理系统的示意性框图。
【具体实施方式】
[0013]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0014]根据本发明的一个方面,提供了一种标注数据处理方法。图1示出了根据本发明一个实施例的标注数据处理方法100的流程图。
[0015]如图1所示,标注数据处理方法100包括以下步骤。
[0016]步骤S110:计算与标注任务相关的多个标注结果的相似度。本文所述的标注任务是指包括待标注对象以及标注要求的任务。待标注对象也可以称为“标注单元”,其可以是一个或一组图像、视频或音频等。标注要求是指示标注人员如何对标注单元进行标注的信息。例如,标注单元可以是一个包含若干人脸的图像,标注要求可以是指示框出图像中的所有人脸或标注出人脸上的几个关键点等的信息。标注人员在接受标注任务之后,可以在图像中框出人脸或标注人脸关键点等。包含经标注的人脸的图像可以用在与各类人脸识别应用相关的机器训练中。当然,以上仅是标注任务中的标注单元和标注要求的示例,其并非对本发明的限制。下面描述标注单元和标注要求的其他几个示例。标注单元还可以是包含其他内容的图像,例如是包含文字(商标标识或车牌号码等)、动物、物品等内容的图像。相应地,标注要求可以是指示标注出图像中的所有文字、动物或物品的信息。标注单元还可以是包含人物的图像,标注要求是指示确定图像中人物的性别、种族或年龄等的信息。标注单元还可以是一组图像,包括一个包含参照物的图像和多个待选图像,标注要求可以是指示从所有待选图像中选出特定待选图像的信息,该特定待选图像包含与参照物相同或相近的物体。标注单元还可以是一段音频,标注要求是指示输入音频中出现的文字的信息。标注单元还可以是一个问题和一组选项,标注要求是指示从一组选项中选择与问题相对应的适当选项的信息。
[0017]标注结果是指标注人员基于标注要求对标注单元进行标注之后获得的结果数据。例如,标注结果可以包括关于标注人员所标注出的若干人脸关键点的信息,诸如每个人脸关键点在图像中的位置等。根据本发明的实施例,一个标注任务可以由多个标注人员接受并参与。每个标注人员可以针对一个标注任务提供一个标注结果,因此,可以获得与标注任务相关的多个标注结果。随后,可以计算这些标注结果之间的相似度。对于不同类型的标注结果来说,相似度的计算方法可能不同。下面以两个标注结果为例描述相似度的计算方法。可以利用一个数值来描述两个标注结果之间的相似度,其包含但不局限于以下几种方法:
[0018]若标注任务为在图像上标注若干点,则可以计算两个标注结果中的对应点之间的欧氏距离的总和作为两个标注结果的相似度;
[0019]若标注任务为在图像上标注若干多边形,则可以计算两个标注结果中的多边形相交面积与相并面积之比(10U)作为两个标注结果的相似度;
[0020]若标注任务为在多个选项中选择一个选项,则两个标注结果一致相似度为1,两个标注结果不一致相似度为0 ;
[0021]若标注任务为在多个选项中选择多于一个的选项,则可以计算两个标注结果中的公共的已选选项(即已选选项的交集)的数量与两个标注结果中的所有已选选项(即已选选项的并集)的数量之比作为两个标注结果的相似度。
[0022]参考以上关于两个标注结果的相似度的描述,可以理解多于两个的标注结果的相似度的计算方式,其可以采用常规技术实现,在此不再赘述。
[0023]步骤S120:将相似度与相似度阈值相比较,如果相似度大于或等于相似度阈值,则转至步骤S130,如果相似度小于相似度阈值,则转至步骤S140。相似度阈值可以是任何合适的值,例如,相似度阈值可以大于或等于80%,例如是85%、90%或95%等,其可以根据需要而定,本发明不对此进行限制。相似度阈值可以在初始设定为默认值,随后可以根据实际需要自动进行调整。对于不同的标注任务来说,相似度阈值可以相同或不同。例如,对于相对简单的标注任务,相似度阈值可以较大,相反,对于相对复杂的标注任务,相似度阈值可以较小。可以将同一个标注任务的多个标注结果进行比对,计算它们之间的相似度,随后,判断多个标注结果之间的相似度是否大于或等于上述相似度阈值,如图1所示。根据相似度与相似度阈值之间的大小关系选择执行步骤S130还是执行步骤S140。
[0024]步骤S130:确定多个标注结果通过质量检测。如果上述多个标注结果的相似度大于或等于相似度阈值,则说明多个标注人员对同一标注单元进行的标注都是比较相似的,因此这多个标注结果有可能均是准确性较高的标注结果。因此,可以将这种情况视为这些标注结果都是对标注单元的正确标注,是标注任务的正确处理结果。这样,可以认为这多个标注结果的质量是能够保证的,确定它们通过质量检测。
[0025]步骤S140:确定多个标注结果未通过质量检测。如果上述多个标注结果之间的相似度小于
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1