一种图像数据快速标注的方法及系统与流程

文档序号:21986072发布日期:2020-08-25 19:23阅读:212来源:国知局
一种图像数据快速标注的方法及系统与流程

本发明涉及数据标注技术领域,尤其涉及一种图像数据快速标注的方法及系统。



背景技术:

数据标注是通过数据加工人员借助标记工具,对人工智能学习数据进行加工的一种行为。通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。

图像数据标注是对不同的目标标记物使用不同的标签,用标签来概述内容。但是需要质检机制检验标注数据的可靠性,即采用等比例随机抽查的形式检验标准数据,不过,由于图像数据标注的巨大需求量,会导致数据加工周期的漫长;其次,为保证质检结果的可靠性,行业对质检工作人员的素质要求比标注工作人员更高,必须定期培训和考核。可见,现阶段的图像数据标注工作需要耗费大量的人力资源和时间资源。



技术实现要素:

本发明所要解决的技术问题在于,提供一种图像数据快速标注的方法及系统,能够利用反向标注技术,大大压缩了图像数据标注的时间损耗,利用过往的标注成果,节约人力和时间,又使得算法可以快速更新,循环往复。

为了解决上述技术问题,本发明第一方面公开了图像数据快速标注的方法,所述方法包括:接收图像数据,根据预置的存储有多个算法模型的数据库检测是否存在与所述图像数据标注规则匹配的算法模型;当检测到与所述图像数据标注规则匹配的算法模型,根据所述算法模型对所述图像数据进行反向标注,生成反向标注结果以实现图像数据快速标注。

在一些实施方式中,根据所述算法模型对所述图像数据进行反向标注,包括:创建与所述图像数据同名的xml文件;基于所述算法模型的标注规则对所述图像数据进行检测,生成检测结果;将所述检测结果作为所述图像数据的标注结果写入所述xml文件。

在一些实施方式中,将所述检测结果作为所述图像数据的标注结果写入所述xml文件后,还包括:将所述xml文件输出;接收人工修正指令,对所述xml文件的标注结果进行修正。

在一些实施方式中,还包括:当未检测到与所述图像数据标注规则匹配的算法模型,则通过所述图像数据对作业人员进行随机考核。

在一些实施方式中,通过所述图像数据对作业人员进行随机考核,包括:实时接收输入的待标注的图像数据;将所述图像数据的其中一部分进行标注至符合预置的质检条件;将所述符合预置的质检条件的图像数据和另一部分图像数据放入同一任务池,并生成多组任务作业;接收任务作业的训练结果,根据所述已标注的图像数据对所述训练结果进行考核,生成考核结果。

在一些实施方式中,考核结果包括合格,所述方法还包括:若所述考核结果为合格,则判断作业人员的训练完成,并下发另一任务作业。

在一些实施方式中,考核结果包括不合格,所述方法还包括:若所述考核结果为不合格,则输出训练提醒;接收训练完成指令,对当前的任务作业进行修正。

在一些实施方式中,该方法还包括:判断所述反向标注结果是否符合预置的准确率;判断所述反向标注结果是否符合预置的准确率;若所述反向标注结果符合所述预置的准确率,则根据实时接收的待标注的图像数据对所述算法模型进行增量学习生成异代算法模型存储至所述数据库;其中,所述异代算法模型与所述算法模型具有关联关系。

在一些实施方式中,判断所述反向标注结果是否符合预置的准确率之后,还包括:若所述反向标注结果不符合所述预置的准确率,则根据实时接收的待标注的图像数据进行人工修正;根据修正后的图像数据对所述算法模型进行增量学习生成异代算法模型存储至所述数据库。

本发明第二方面公开了一种图像数据快速标注的系统,所述系统包括:数据库,存储有多个算法模型;图像处理模块,用于接收图像数据,根据所述数据库检测是否存在与所述图像数据标注规则匹配的算法模型;反向标注模块,用于在检测到与所述图像数据标注规则匹配的算法模型,根据所述算法模型对所述图像数据进行反向标注,生成反向标注结果以实现图像数据快速标注。

在一些实施方式中,该系统还包括:随机考核模块,用于在未检测到与所述图像数据标注规则匹配的算法模型,则通过所述图像数据对作业人员进行随机考核。

与现有技术相比,本发明的有益效果在于:

实施本发明能够利用反向标注技术,在已有的算法模型上直接进行图像数据的标注,大大压缩了数据标注的时间损耗,并且大幅度提高了标注效率。并且,通过对已有的模型进行增量学习算法,渐进的进行数据更新,且能修正和加强以前的数据或算法模型,使得更新后的数据或算法模型能适应新接收的数据,而不必重新对全部数据进行学习。降低了对数据库的时间和空间的需求,更能满足实际要求。而且,还可以利用已有的标注数据作为考核样本,检测标注人员的作业水平。若发现水平不达标者,可以及时止损,防止人力和时间的继续浪费。并且通过补充培训,水桶式延长短板,提高业务能力,进而提高工作效率,增加标注团队的平均产能。

附图说明

图1为本发明实施例公开的一种图像数据快速标注的方法的流程示意图;

图2为本发明实施例公开的另一种图像数据快速标注的方法的流程示意图;

图3为本发明实施例公开的另一种图像数据快速标注的方法的流程示意图;

图4为本发明实施例公开的一种图像数据快速标注的系统的结构示意图;

图5是本发明实施例公开的一种图像数据快速标注装置的结构示意图。

具体实施方式

为了更好地理解和实施,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

本发明实施例公开了一种图像数据快速标注的方法及系统,能够利用反向标注技术,在已有的算法模型上直接进行图像数据的标注,大大压缩了数据标注的时间损耗,并且大幅度提高了标注效率。并且,通过对已有的模型进行增量学习算法,渐进的进行数据更新,且能修正和加强以前的数据或算法模型,使得更新后的数据或算法模型能适应新接收的数据,而不必重新对全部数据进行学习。降低了对数据库的时间和空间的需求,更能满足实际要求。而且,还可以利用已有的标注数据作为考核样本,检测标注人员的作业水平。若发现水平不达标者,可以及时止损,防止人力和时间的继续浪费。并且通过补充培训,水桶式延长短板,提高业务能力,进而提高工作效率,增加标注团队的平均产能。

实施例一

请参阅图1,图1为本发明实施例公开的一种图像数据快速标注的方法的流程示意图。其中,图1所描述的方法可以应用于图像数据的标注系统,本发明实施例不做限定。如图1所示,该图像数据快速标注的方法可以包括以下操作:

101、接收图像数据,根据预置的存储有多个算法模型的数据库检测是否存在与所述图像数据标注规则匹配的算法模型。

图像数据为目标标注的数据,对于图像数据的标注现阶段多采用标签标记目标,再通过质检机制检验标注数据的可靠性的方式,但是这种方式费时费力,每一次都要重新对重复的数据进行质检。

检测是否存在与图像数据标注规则匹配的算法模型为:本次输入的图像数据的标注规则与整个数据库的算法模型为同一标注规则,即算法模型为v1.0版本的标注规则,那么图像数据也为v1.0版本的标注规则。

102、当检测到与图像数据标注规则匹配的算法模型,根据算法模型对图像数据进行反向标注,生成反向标注结果以实现图像数据快速标注。

其中,反向标注是指利用已有的算法模型对图像数据进行检测,将检测结果输出反映在图像数据上,具体实现为:创建与图像数据jpg文件同名的xml文件;基于算法模型的标注规则对图像数据进行检测,生成检测结果;再将检测结果作为图像数据的标注结果写入xml文件,从而可以利用已有算法模型将新增的图像数据进行机器标注。示例性地,算法模型为绝缘子自爆模型,利用该绝缘子自爆模型分析接收的图像数据上的绝缘子是否存在自爆现象,并将检测结果通过标注框分为绝缘子串自爆和绝缘子串完整,将定义的两种检测结果写在xml文件内作为本次图像数据的标注结果。由此可以充分利用过往成果,让标注人员享受自己的劳动成果带来的便利,能够大大减少从零开始需要的时间周期,减少人力资源损耗。

作为一种优选实施方式,将检测结果作为图像数据的标注结果写入所述xml文件后还包括:将xml文件输出至标注人员检查。再接收标注人员发出的人工修正指令,对xml文件的标注结果进行修正。

由于算法模型本身已有的错误率,加上新的图像数据范围较之前更广,反向标注不可能完全正确,那么这就需要标注人员检查,对错误之处修正。根据人工标注的标注规则对反向标注的成果进行检查和修正。示例性地,利用绝缘子自爆模型反向标注后,标注人员检查图像上每一个标注框的位置和定义是否正确,保留正确的标签框,修改错误标签框的位置或定义。对于没有成功检测的绝缘子串,则需要增加标签框并正确定义为绝缘子串自爆或绝缘子串完整。

作为一种优选实施方式,在反向标注后,还判断反向标注结果是否符合预置的准确率,例如,在本实施例中将预置的准确率设置为95%。需要说明的是,在其他实施例中也可以根据标注需求,将预置的准确率设置为100%或其他百分比,不管准确率设置为多少,都是本发明的保护范围。若反向标注结果符合预置的准确率,实时接收输入的待标注的图像数据;根据待标注的图像数据对所述算法模型进行增量学习生成异代算法模型存储至数据库;其中,异代算法模型与所述算法模型具有关联关系,对于利用图像数据进行增量学习的具体实现方式可以参照现有技术中的机器学习实现。

进一步地,若所述反向标注结果不符合所述预置的准确率,则根据实时接收的待标注的图像数据进行人工修正;根据修正后的图像数据对所述算法模型进行增量学习生成异代算法模型存储至所述数据库。

其中,增量学习是指每当新增图像数据(新接收到的图像数据)时,并不需要重建所有的数据库,而是在原有数据库的基础上,仅对由于新增数据所引起的变化进行更新。由于在实际应用中,训练样本(图像数据)通常不可能一次全部得到,而是随着时间逐步得到的,并且样本反映的信息也可能随着时间产生了变化。如果新样本到达后要重新学习全部数据,需要消耗大量时间和空间,因此批量学习的算法不能满足这种需求。只有增量学习算法可以渐进的进行数据更新,且能修正和加强以前的数据或算法模型,使得更新后的数据或算法模型能适应新接收的数据,而不必重新对全部数据进行学习。增量学习降低了对时间和空间的需求,更能满足实际要求。

具体实现为:利用原有的数据库基础上,在反向标注结果已经合格的关联的算法模型,通过对实时接收的图像数据对该算法模型机器学习得到异代算法模型,其中,具体的机器学习方法可以参照现有技术实现。由此可以确立一个新的算法模型,并且控制同一数据库中的各个异代算法模型为“同宗异代”的关系,即互相关联具有关联关系。示例性地,若算法模型为v1.0版本,那么同一数据库中的异代算法模型可以为v1.1、v1.2、v1.3……

根据本实施例公开的图像数据快速标注的方法,能够利用反向标注技术,大大压缩了图像数据标注的时间损耗,利用过往的标注成果,节约人力和时间,又使得算法可以快速更新,循环往复,还可以利用符合质检标准的图像数据进行增量学习,不必重新对全部的图像数据进行学习。降低了对数据库的时间和空间的需求,更能满足实际要求。

实施例二

请参阅图2,图2为本发明实施例公开的另一种图像数据快速标注的方法的流程示意图。如图2所示,该图像数据快速标注的方法可以包括以下操作:

201、接收图像数据,根据预置的存储有多个算法模型的数据库检测是否存在与所述图像数据标注规则匹配的算法模型。

图像数据为目标标注的数据,对于图像数据的标注现阶段多采用标签标记目标,再通过质检机制检验标注数据的可靠性的方式,但是这种方式费时费力,每一次都要对一定比例(例如20%)的数据进行质检。

检测是否存在与图像数据标注规则匹配的算法模型为:本次输入的图像数据的标注规则与整个数据库的算法模型为同一标注规则,即算法模型为v1.0版本的标注规则,那么图像数据也为v1.0版本的标注规则。

202、当未检测到与图像数据标注规则匹配的算法模型,则通过图像数据对作业人员进行随机考核。

具体实现为:若在数据库中没有检测到匹配的算法模型,则实时接收输入的待标注的图像数据。将图像数据的其中一部分进行标注至符合预置的质检条件,例如将质检条件设置为合格率为100%。之后,再使用符合该质检条件的图像数据和另一部分的图像数据放入同一任务池,并生成多组任务作业。再将任务作业下发到作业人员,由作业人员接收该任务完成后,反馈作业的训练结果,根据接收的任务作业的训练结果,根据已标注的图像数据对训练结果进行考核,生成考核结果。由此,可以在日常作业任务中下发考核样本,从而使得考核样本随机分布,且隐藏在日常作业任务中,这样标注人员就无法事先察觉,大大提高水平考核真实性。

进一步地,考核结果包括合格,根据考核结果对作业人员进行作业水平判断包括:若考核结果为合格,则判断为完成当前任务的训练,并下发另一任务作业继续考核。

进一步地,考核结果包括不合格,根据考核结果对作业人员进行作业水平判断包括:若考核结果为不合格,则输出训练提醒;接收训练完成指令,对当前的任务作业进行修正。

如图3所示,为实际场景的图像快速标注的应用,首先接收图像数据,判断该图像数据是否具备已有的算法模型。若具备已有的算法模型,则通过上述提及的反向标注的方法进行快速标注,并且为了保障快速标注的准确性,由标注团队的标注人员进行检查和更正该反向标注结果。再输出至质检机制,快速通过质检,克服了现有技术中质检机制采用等比例随机抽查的形式,而图像数据标注的巨大需求量导致的数据加工周期的漫长的问题。

进一步地,在判断该图像数据是否具备已有的算法模型时,若不具备已有的算法模型,则利用图像数据对作业人员进行随机质检的考核。首选标注少量的图像数据,对少量的图像数据进行预标注,控制质检合格率为100%,再将这些质检合格率为100%的标注数据和未标注的图像数据同时放入任务池中,并生成多组任务作业:作业任务1作业任务2作业任务3……,通过标注团队的标注人员对作业任务1的领取后进行训练和学习,也作为考核样本,当标注人员完成作业后,就根据已标注的图像数据对训练结果进行考核,生成考核结果,再根据考核结果判断作业人员(标准人员)作业水平。其中,考核结果包括合格,根据考核结果对作业人员进行作业水平判断包括:若考核结果为合格,则判断为完成当前任务的训练,并下发另一任务作业(作业任务2)继续考核。考核结果包括不合格,根据考核结果判断标注人员的作业水平是否达标实现为:若考核结果为不合格,则输出训练提醒;接收训练完成指令,对当前的任务作业进行修正,将训练后的任务输入至质检机制进行最后的质检工作。

根据本实施例公开的图像数据快速标注方法,可以利用已有的标注数据作为考核样本,检测标注人员的作业水平。若发现水平不达标者,可以及时止损,防止人力和时间的继续浪费。并且通过补充培训,水桶式延长短板,提高业务能力,进而提高工作效率,增加标注团队的平均产能。

实施例三

请参阅图4,图4所描述的一种图像数据快速标注的系统,如图4所示:

该图像数据快速标注系统包括:

数据库1,存储有多个算法模型。

图像处理模块2,用于接收图像数据,根据数据库1检测是否存在与图像数据标注规则匹配的算法模型。

图像数据为目标标注的数据,对于图像数据的标注现阶段多采用标签标记目标,再通过质检机制检验标注数据的可靠性的方式,但是这种方式费时费力,每一次都要对一定比例(例如20%)的数据进行质检。

检测是否存在与图像数据标注规则匹配的算法模型为:本次输入的图像数据的标注规则与整个数据库的算法模型为同一标注规则,即算法模型为v1.0版本的标注规则,那么图像数据也为v1.0版本的标注规则。

反向标注模块3,用于在检测到与图像数据标注规则匹配的算法模型,根据算法模型对图像数据进行反向标注,生成反向标注结果以实现图像数据快速标注。

其中,反向标注是指利用已有的算法模型对图像数据进行检测,将检测结果输出反映在图像数据上,具体实现为:创建与图像数据jpg文件同名的xml文件;基于算法模型的标注规则对图像数据进行检测,生成检测结果;再将检测结果作为图像数据的标注结果写入xml文件,从而可以利用已有算法模型将新增的图像数据进行机器标注。示例性地,算法模型为绝缘子自爆模型,利用该绝缘子自爆模型分析接收的图像数据上的绝缘子是否存在自爆现象,并将检测结果通过标注框分为绝缘子串自爆和绝缘子串完整,将定义的两种检测结果写在xml文件内作为本次图像数据的标注结果。由此可以充分利用过往成果,让标注人员享受自己的劳动成果带来的便利,能够大大减少从零开始需要的时间周期,减少人力资源损耗。

作为一种优选实施方式,将检测结果作为图像数据的标注结果写入所述xml文件后还包括:将xml文件输出至标注人员检查。再接收标注人员发出的人工修正指令,对xml文件的标注结果进行修正。

由于算法模型本身已有的错误率,加上新的图像数据范围较之前更广,反向标注不可能完全正确,那么这就需要标注人员检查,对错误之处修正。根据人工标注的标注规则对反向标注的成果进行检查和修正。示例性地,利用绝缘子自爆模型反向标注后,标注人员检查图像上每一个标注框的位置和定义是否正确,保留正确的标签框,修改错误标签框的位置或定义。对于没有成功检测的绝缘子串,则需要增加标签框并正确定义为绝缘子串自爆或绝缘子串完整。

作为一种优选实施方式,在反向标注后,还判断反向标注结果是否符合预置的准确率,例如,在本实施例中将预置的准确率设置为95%。需要说明的是,在其他实施例中也可以根据标注需求,将预置的准确率设置为100%或其他百分比,不管准确率设置为多少,都是本发明的保护范围。若反向标注结果符合预置的准确率,实时接收输入的待标注的图像数据;根据待标注的图像数据对所述算法模型进行增量学习生成异代算法模型存储至数据库;其中,异代算法模型与所述算法模型具有关联关系,对于利用图像数据进行增量学习的具体实现方式可以参照现有技术中的机器学习实现。

进一步地,若所述反向标注结果不符合所述预置的准确率,则根据实时接收的待标注的图像数据进行人工修正;根据修正后的图像数据对所述算法模型进行增量学习生成异代算法模型存储至所述数据库。

其中,增量学习是指每当新增图像数据(新接收到的图像数据)时,并不需要重建所有的数据库,而是在原有数据库的基础上,仅对由于新增数据所引起的变化进行更新。由于在实际应用中,训练样本(图像数据)通常不可能一次全部得到,而是随着时间逐步得到的,并且样本反映的信息也可能随着时间产生了变化。如果新样本到达后要重新学习全部数据,需要消耗大量时间和空间,因此批量学习的算法不能满足这种需求。只有增量学习算法可以渐进的进行数据更新,且能修正和加强以前的数据或算法模型,使得更新后的数据或算法模型能适应新接收的数据,而不必重新对全部数据进行学习。增量学习降低了对时间和空间的需求,更能满足实际要求。

具体实现为:利用原有的数据库基础上,在反向标注结果已经合格的关联的算法模型,通过对实时接收的图像数据对该算法模型机器学习得到异代算法模型,其中,具体的机器学习方法可以参照现有技术实现。由此可以确立一个新的算法模型,并且控制同一数据库中的各个异代算法模型为“同宗异代”的关系,即互相关联具有关联关系。示例性地,若算法模型为v1.0版本,那么同一数据库中的异代算法模型可以为v1.1、v1.2、v1.3……

作为一种实施方式,图像数据快速标注系统还包括:随机考核模块4,用于在未检测到与图像数据标注规则匹配的算法模型,则通过图像数据对作业人员进行随机考核。

若在数据库中没有检测到匹配的算法模型,则实时接收输入的待标注的图像数据。将图像数据的其中一部分进行标注至符合预置的质检条件,例如将质检条件设置为合格率为100%。之后,再使用符合该质检条件的图像数据和另一部分的图像数据放入同一任务池,并生成多组任务作业。再将任务作业下发到作业人员,由作业人员接收该任务完成后,反馈作业的训练结果,根据接收的任务作业的训练结果,根据已标注的图像数据对训练结果进行考核,生成考核结果。由此,可以在日常作业任务中下发考核样本,从而使得考核样本随机分布,且隐藏在日常作业任务中,这样标注人员就无法事先察觉,大大提高水平考核真实性。

进一步地,考核结果包括合格,根据考核结果对作业人员进行作业水平判断包括:若考核结果为合格,则判断为完成当前任务的训练,并下发另一任务作业继续考核。

进一步地,考核结果包括不合格,根据考核结果对作业人员进行作业水平判断包括:若考核结果为不合格,则输出训练提醒;接收训练完成指令,对当前的任务作业进行修正。

根据本实施例的图像数据快速标注系统可以利用符合质检标准的图像数据进行增量学习,不必重新对全部的图像数据进行学习。降低了对数据库的时间和空间的需求,更能满足实际要求。而且,还可以利用已有的标注数据作为考核样本,检测标注人员的作业水平。若发现水平不达标者,可以及时止损,防止人力和时间的继续浪费。并且通过补充培训,水桶式延长短板,提高业务能力,进而提高工作效率,增加标注团队的平均产能。

实施例四

请参阅图5,图5是本发明实施例公开的一种图像数据快速标注的装置的结构示意图。其中,图5所描述的装置可以,本发明实施例不做限定。如图5所示,该装置可以包括:

存储有可执行程序代码的存储器501;

与存储器501耦合的处理器502;

处理器502调用存储器501中存储的可执行程序代码,用于执行实施例一或实施例二中所描述的图像数据快速标注的方法。

实施例五

本发明实施例公开了一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,该计算机程序使得计算机执行实施例一或实施例二中所描述的图像数据快速标注的方法。

实施例六

本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的图像数据快速标注的方法。

以上所描述的的实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-onlymemory,rom)、随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子抹除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是:本发明实施例公开的一种图像数据快速标注的方法及系统所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1