一种精准无损标注图像实例的分布式方法及系统与流程

文档序号:16919396发布日期:2019-02-19 19:13阅读:307来源:国知局
一种精准无损标注图像实例的分布式方法及系统与流程

本发明首先涉及一种精准无损标注图像实例的分布式方法;其次本发明还涉及一种精准无损标注图像实例的分布式系统。



背景技术:

目前,随着人工智能和深度学习的发展,对于数据集的数量和质量的要求也越来越高,为了获取到用于训练的数据集,需要借助图像标注工具对图像上的实例进行标注出来,以便在训练深度学习模型的时候提取到更加有用的实例特征,从而提高模型的泛化能力。

传统的图像标注任务多利用附加文字、线条等对图像语义进行整体描述或局部细节进行提示,便于用户更清晰地理解图像含义,也易于研究人员对图像语义进行更深层次的探究。在常规做法中,或完全借助人工,耗时长、效率低,或借助已有各类成熟的图像处理软件,但此类软件存在非图像任务定制工具的缺陷,尤其是对原始图像标注时所带来的破坏,使得其难于大规模使用。

其次,大多数标注工具只是利用矩形框对图像中的实例进行区分,并没有通过实例的轮廓进行标注以区分不同的对象,导致实例本身以外的区域标注为实例的一部分。此外,当处理存在比较密集实例的图像时,会不可避免的出现标注区域重叠的现象,从而造成在训练模型的时候提取到的实例特征不准确,最终导致训练模型的泛化能力低,效果不好。

因此,对能够更加高效和精确地标注实例的标注方法及标注系统有着极大的需求。



技术实现要素:

本发明为了解决现有技术中所存在的问题,在此提供一种高效、无损、精准地标注图像实例的精准无损标注图像实例的分布式方法及系统。

本发明在此所提供的一种精准无损标注图像实例的分布式方法,包括以下步骤:

步骤1:根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效,自动计算本次给某特定标注人员分发的标注任务的工作量,依据计算出的工作量从标注总数据库中自动抽取产生本次分发给该特定标注人员的待标注图像集,将其副本添加安全校验信息后打包,作为本次分发给该特定标注人员的标注任务,并进行分布式分发;

步骤2:在待标注图像的副本上进行逐像素的实例轮廓描绘,暂存表达实例轮廓的像素点坐标信息,形成轮廓坐标序列;

步骤3:依据经步骤2描绘所形成的平滑且封闭的实例轮廓进行自动填充形成实例掩膜,自动暂存该实例掩膜所涉及的像素点坐标簇形成实例掩膜坐标簇;

步骤4:保存与待标注图像原始信息关联后的标注成果,含实例轮廓坐标及实例掩膜坐标;本次标注任务完成后,将本次分发标注任务的标注成果回传给标注总数据库;

步骤5:依据步骤4中所保存的分发标注任务的标注成果,与标注总数据库中的信息进行比对,判断某一幅标注图像是否存在多名标注人员的交叉标注,若存在交叉标注,自动筛选合并得到该幅图像的最优标注成果,并保存更新标注总数据库;反之则直接将步骤4中所保存的标注成果直接保存至标注总数据库。

本发明所提供的方法自动记录的实例轮廓坐标序列和实例掩膜坐标簇皆产生于待标注图像的副本上,故待标注图像的原始图像并未受到损坏,实现了无损标注,同时,该方法采用轮廓描绘方式对待标注图像实现实例的标注且在标注过程中对所形成的实例轮廓进行有效性检测和提示,使标注成果更为精准;且该方式采用分布式方式分发和回收标注任务,实现了高效标注。

进一步的,所述步骤1还将进行标注任务分发,在进行标注任务分发时需根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效综合考虑计算本次给某特定标注人员分发的标注任务的工作量;工作量的计算采用select*算法,具体步骤如下:

步骤11:获取当前标注任务全体数据集的状态信息;

步骤12:依据步骤11中的数据,根据历史工作绩效计算分发工作量;

步骤13:根据步骤12所确定的工作量,从原始全体数据集的已标注图片子集和待标注图片子集中按比例抽取组合形成当次标注任务分发的子数据集;

步骤14:根据步骤13得到的子数据集,形成待标注图像集,制作副本,添加安全校验信息,并进行分发;

其中,当前应分发的工作量的计算可用下述公式表示:

上式中,smin和smax分别表示本次工作量分发的下限和上限,由系统在此区间随机抽取一整数值作为本次应分发的工作量;td、c、aim、ain、api皆表达本次申请任务的标注人员的历史工作绩效参数,依次表示历次分发任务难度系数、任务完成度系数、平均图片标注时间系数、平均实例标注时间系数、以及平均像素标注时间系数;n表示该标注人员接受标注任务的总次数,nu为数据集中未标注图片数量、nl为标注次数在(0、lmax)之间的图片数量,其中lmax为超参数,建议设置为5;min()和max()操作分别为在参数列表中取最小值或最大值。

进一步的,所述步骤2中所述的逐像素的实例轮廓描绘通过以下方式进行:

1)由标注人员在待标注图像副本上以逐像素点击的方式指明某实例轮廓的所有轮廓点,并由计算机自动地记录这些轮廓点的坐标,最终所获得的坐标序列用于表达某实例的完整轮廓;

2)由标注人员在待标注图像副本上以像素点击的方式仅指明某实例轮廓的关键轮廓点,由计算机自动地补全这些关键轮廓点之间的轮廓点,并记录所有获得的轮廓点坐标,用于表达某实例的完整轮廓。

进一步的,所述步骤3中实例掩膜坐标簇通过以下步骤形成:

1)选定某实例轮廓包围面积中任一坐标点作为起点;

2)以该点坐标为原点,以实例轮廓坐标为边界,遍历获取所有该实例轮廓包围面积中的像素点坐标,并将其标识为该实例的掩膜。

进一步的,所述步骤5中进行最优标注成果的汇总与标注总数据库的更新通过labelaggregation算法实现,具体步骤如下:

步骤51:抽取当前标注成果,形成标注成果集li,开始对其进行遍历;

步骤52:搜索标注总数据库,若标注总数据库中已存在标注成果集di,则li与di求交集ins,并将ins写入di记录,以保存最优标注成果;若搜索返回值为空,表示当前索引的图片样本在标注总数据库中无记录,即尚未被标注,直接将li写入标注总数据库;

其中,最优标注成果包括最优轮廓标注及最优掩膜标注,两者皆可能来自不同的标注人员;标注成果集di为指其它标注人员对同一待标注图像的子集副本进行标注后所反馈的成果集合。

此外,本发明在此还提供了一种高效、无损、精准地标注图像实例的精准无损标注图像实例的分布式系统,包括:

1)图片抽取分发模块:负责自动抽取待标注图片原始集的子集,对之制作副本,并进行分布式分发;

2)图片加载模块:将待标注图片子集加载到本系统工作区中,并实时跟踪和刷新标注人员的编辑操作,是后续标注操作的基础;

3)图片导航模块:允许在同一文件路径下不同图片文件之间进行快速切换,以提高标注操作的效率;

4)标注模块:包括标注颜色选定、缩放图片、平移图片、开始新的实例轮廓、取消轮廓、精修轮廓、轮廓封闭性检查、生成掩膜、撤销生成掩膜等功能;

5)保存模块:提供了将当前图片标注成果单独地或当前工作周期内的所有标注批量化地保存至标注端后台数据库中的功能;

6)标注成果汇总模块:负责汇总各分布式标注端后台数据库中已保存的标注成果,自动筛选出其中的最优标注成果,保存入标注总数据库。

本发明的有益效果是:

a.本发明所涉及的标注方法实现了像素级精准标定图像实例轮廓,并在此基础上自动生成目标实例掩膜,相较于传统的边界框标定方式,更为精准;同时,该方法不受限于标注目标的属性,如必须是规则的人体、物体等;因此,在应对拥挤、遮挡、分割、孔洞等特殊形态呈现的标注目标时,仍能保证标注目标实例的完整性和一致性,表现出良好的泛化性能,从而为目标识别任务提供更为有力保障。

b.本发明所涉及的标注方法及系统仅针对原始图片集的副本进行标注,保存标注信息与原始图片的映射关系,不伤及原始图片集,达到了无损标注的效果,相较于传统的图片标注方式,提高了原始图片的利用率。

c.本发明所涉及的标注方法及系统采用分布式标注及汇总,可充分吸收和利用不同标注人员的行业、经验等素质特征,加快标注工作进度的同时也能有效提高标注成果的质量。

附图说明

图1为本发明所提供的分布式方法的整体处理流程图;

图2为本发明所提供的select*算法的流程图;

图3为本发明所提供的arclink算法的流程图;

图4为本发明所提供的axisscan算法的流程图;

图5为本发明所提供的labelaggregation算法的流程图。

具体实施方式

在此结合附图和具体实施方式对本发明所要求保护的分布式方法和分布式系统作进一步详细的说明。

本发明为了解决现有的图像标注方法容易造成待标注原始图像受损,导致其难于大规模使用;同时目前图像标注方法采用矩形框进行实例标注,导致实例本身以外的区域标注为实例的一部分,且易出现区域重叠现象,导致标注结果不准确的问题,本发明在此提供一种精准无损标注图像实例的分布式方法及分布式系统。

本发明所记载的实例是指当前被标注的图像区域(含实例轮廓和实例掩膜);实例轮廓指描绘所形成的轮廓像素点坐标序列;实例掩膜是实例轮廓所包围的坐标序列。

结合图1-图5所示,本发明所提供的精准无损标注图像实例的分布式方法具体包括以下步骤:

步骤1:根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效,自动计算本次给某特定标注人员分发的标注任务的工作量,依据计算出的工作量从标注总数据库中自动抽取产生本次分发给该特定标注人员的待标注图像集,将其副本添加安全校验信息后打包,作为本次分发给该特定标注人员的标注任务,并进行分布式分发;

步骤2:在待标注图像的副本上进行逐像素的实例轮廓描绘,暂存表达实例轮廓的像素点坐标信息,形成轮廓坐标序列;

步骤3:依据经步骤2描绘所形成的平滑且封闭的实例轮廓进行自动填充形成实例掩膜,自动暂存该实例掩膜所涉及的像素点坐标簇形成实例掩膜坐标簇;

步骤4:保存与待标注图像原始信息关联后的标注成果,含实例轮廓坐标及实例掩膜坐标;本次标注任务完成后,将本次分发标注任务的标注成果回传给标注总数据库;

步骤5:依据步骤4中所保存的分发标注任务的标注成果,与标注总数据库中的信息进行比对,判断某一幅标注图像是否存在多名标注人员的交叉标注,若存在交叉标注,自动筛选合并得到该幅图像的最优标注成果,并保存更新标注总数据库;反之则直接将步骤4中所保存的标注成果直接保存至标注总数据库。此步骤仅对标注成果进行汇总保存最优的标注成果,并不保存待标注图像的副本,提高了效率和稳定性。

以上方法在执行步骤1时,可以由标注任务管理者主动进行任务分发,也可以由标注人员的申请进行任务分发,但在进行任务分发时需根据当前待标注的全体数据集状态,以及某特定标注人员的历史工作绩效综合考虑计算本次给某特定标注人员分发的标注任务的工作量。工作量的计算可以采用多种方式实施,本申请在此采用的是select*算法,步骤如下:

步骤11:获取当前标注任务全体数据集的状态信息;

步骤12:依据步骤11中的数据,综合考虑当前申请标注任务的标注人员的历史工作绩效,计算当前申请标注任务的标注人员应分发的工作量;

步骤13:根据步骤12所确定的工作量,从原始全体数据集的已标注图片子集和待标注图片子集中按比例抽取组合形成当次标注任务分发的子数据集;

步骤14:根据步骤13得到的子数据集,制作副本,添加安全校验信息,并进行分发。

其中,本次应分发的工作量的计算可用下述公式表示:

上式中,smin和smax分别表示本次工作量分发的下限和上限,由系统在此区间随机抽取一整数值作为本次应分发的工作量;td、c、aim、ain、api皆表达本次申请任务的标注人员的历史工作绩效参数,依次表示历次分发任务难度系数、任务完成度系数、平均图片标注时间系数、平均实例标注时间系数、以及平均像素标注时间系数;n表示该标注人员接受标注任务的总次数,nu为数据集中未标注图片数量、nl为标注次数在(0、lmax)之间的图片数量,其中lmax为超参数,建议设置为5;min()和max()操作分别为在参数列表中取最小值或最大值。

以上方法中在执行步骤2中的逐像素的实例轮廓描绘可采用但不限于以下方式实现:

1)由标注人员在待标注图像副本上以逐像素点击的方式指明某实例轮廓的所有轮廓点,并由计算机自动地记录这些轮廓点的坐标,最终所获得的坐标序列用于表达某实例的完整轮廓;

2)由标注人员在待标注图像副本上以像素点击的方式仅指明某实例轮廓的关键轮廓点,由计算机自动地补全这些关键轮廓点之间的轮廓点,并记录所有获得的轮廓点坐标(含关键轮廓点和补全的轮廓点),用于表达某实例的完整轮廓。其中,计算机采用arclink算法自动地补全这些关键轮廓点之间的轮廓点,具体步骤如下:

步骤21:获取当前相邻点击点的坐标;

步骤22:以两点坐标连线为基准,以该连线为基线,判断基线左右两侧的像素是否为同类;若为不同类,则该连线所覆盖的像素点即用来补全相邻点击之间的缺失轮廓;若为同类,执行步骤23;

步骤23:从步骤22所述基线上的同类像素点两侧区域内进行扩展搜索,若能找到不同类像素点,则用之替换原有同类像素点坐标进而补齐缺失轮廓;若到达两侧区域边界仍未找到同类像素,表明步骤21中所获取的两点击点之间的距离过远,失去了精准标注的意义,提示撤销当前点击事件,重新标注与上一次点击点相关联的轮廓坐标。

以上方法中在执行步骤3中进行实例掩膜坐标簇的形成时,可以采用多种方式实施,如采用以下步骤形成:

1)选定某实例轮廓包围面积中任一坐标点作为起点;

2)以该点坐标为原点,以实例轮廓坐标为边界,遍历获取所有该实例轮廓包围面积中的像素点坐标,并将其标识为该实例的掩膜。

本申请还可以采用的是axisscan算法形成实例掩膜坐标簇,具体步骤如下:

步骤31:选定实例轮廓包围面积中任一坐标点作为起点;

步骤32:以该点坐标为原点,依水平方向向两端延伸,直至到达轮廓坐标,将所经过的坐标标识为掩膜,并暂存掩膜所经过的坐标标识及触及的轮廓坐标,形成水平坐标暂存序列;步骤33:依次取出步骤32中所形成的水平坐标暂存序列当中的每一个坐标点作为新的基点,从垂直方向向两端延伸,直至到达轮廓坐标,将所经过的坐标标识为掩膜,并暂存掩膜所经过的坐标标识及触及的轮廓坐标,形成垂直坐标暂存序列;

步骤34:回溯水平坐标暂存序列,若存在某坐标点,其周围有尚未标识为掩膜的坐标,则随机选择其中之一作为新的原点,跳转步骤32执行;若无,则往下执行;

步骤35:回溯垂直坐标暂存序列,若存在某坐标点,其周围有尚未标识为掩膜的坐标,则随机选择其中之一作为新的原点,跳转步骤33执行;若无,则往下执行;

步骤36:搜索轮廓坐标序列是否都已被触及,若是,则结束操作,依据前述步骤获得的水平坐标暂存序列以及垂直坐标暂存序列产生实例掩膜坐标簇;若不是,则提示重新选定起点坐标,跳转步骤31执行。

以上方法中在执行步骤5中最优标注成果的汇总及标注总数据库的更新时,可以通过多种方式实施,本申请在此采用的是labelaggregation算法,步骤如下:

步骤51:抽取当前标注成果,形成标注成果集li,开始对其进行遍历;

步骤52:搜索标注总数据库,若标注总数据库中已存在标注成果集di,则li与di求交集ins(按照索引依次评估li与di对应标注的准确性,较优者被记录进入ins),并将ins写入di记录,以保存最优标注成果(当前标注总数据库中原di对应的标注被替换为ins);若搜索返回值为空,表示当前索引的图片样本在标注总数据库中无记录,即尚未被标注,直接将li写入标注总数据库。

其中,最优标注成果包括最优轮廓标注及最优掩膜标注,两者皆可能来自不同的标注人员;标注成果集di为指其它标注人员对同一待标注图像的子集副本进行标注后所反馈的成果集合。

本发明所提供的一种精准无损标注图像实例的分布式系统,与本发明所提供的精准无损标注图像实例的分布式方法相对应,在上述标注方法的实施例阐述的技术特征及其有益效果均适用于精准无损标注图像实例的分布式系统的实施例中。该系统的操作步骤如下所示:

步骤1:标注人员点击“导入图片”按钮,选择导入待标注图片的所在路径。选定后,点击“确定”,返回到主界面。如导入成功,本系统会在操作区自动显示批量导入完成的待标注图片中的第一张,即可开始进行标注操作流程。

步骤2:使用本系统进行标注过程中,只要导入图片操作成功执行,则随时可以点击“上一张”或“下一张”按钮跳转到当前导入图片路径下与当前处在操作区中的图片前、后相邻的待标注图片,此时,操作区显示及后台数据处理会自动进行切换。

步骤3:若“标注颜色”框中显示的颜色同当前待标注图片中已标注的实例轮廓或实例掩码颜色雷同,则需点击“切换颜色”选定不同的标注颜色以示区别;若不存在前述情况,则可以跳过本步骤,直接往下。

步骤4:轮廓标注,进一步地,点击“新的实例”按钮,当鼠标变形为“箭头+圆盘”形状时,将鼠标移动到欲标注位置,单击左键可以开始进行轮廓标注。若图片中的待标注实例不便于观察,可框选“缩放/平移”后,使用旋转鼠标滚轮对操作区图片进行缩放,并点击鼠标左键(不松开)对其进行平移拖动。若当前轮廓在进行初次描绘,或在精修轮廓操作时发生偏差,可点击“撤销轮廓”按钮取消最后一次描绘的轮廓。

步骤5:轮廓标注完成后,在进行填充操作之前,应对当前轮廓是否闭合进行自动校验;仅当校验合格时,可进入后续的填充操作;若未通过封闭性检查,标注人员需点击“精修轮廓”对系统提示的轮廓缺失处进行修正,修正操作结束后,需再次跳转至步骤a封闭性检查操作。

步骤6:当封闭性检查未通过,或当前标注实例存在孔洞(如胳膊与躯干形成的孔洞)、分段(如躯干被物体拦腰遮挡形成多个局部区域),皆可以在重新选定标注颜色后点击“精修轮廓”按钮对当前标注轮廓线进行修正或补充标注。

步骤7:完成封闭性检查及重新选定标注颜色后,点击“填充”按钮,以初始化生成实例掩膜的处理;当鼠标变形为“十字形”形状时,表明初始化完成,可以开始进行填充操作;将鼠标移动到待填充区域,单击右键,开始填充处理;如果已填充区域掩膜与目标实例轮廓线之间仍有空隙,可重复进行本步操作,直至产生完整的实例掩膜。若前述步骤发生错误,可点击“撤销填充”按钮撤销当前实例的所有填充操作,重新对其执行填充操作。

步骤8:若本系统为当前机器上首次运行,则“标注人员签章”框为空白。则在进行标注成果保存前,标注人员必须先录入标注者签章,并点击“保存签章”进行保存。若本系统为当前机器上非首次运行,则本系统初始化完成后,“标注人员签章”框会自动显示为上一次关闭本系统时标注人员的签章;如需进行修改,则应点击“更改签章”按钮后,在“标注者签章”框录入新的标注人员签章,并点击“保存签章”按钮进行保存。

步骤8:标注量核对,由系统自动统计当前图片上标注实例的个数,方便标注人员进行校验纠错。如果统计数有误,则需重新进行编辑操作进行修正。

步骤9:保存当前图片的标注成果。当前图片的标注成果是否已经保存,标注人员可以通过观察状态区中信息进行了解。

对具体实施方案的描述仅仅是为帮助理解本发明,而不是用来限制本发明的。任何本领域技术人员均可以利用本发明的思想进行一些改动和变化,只要其技术手段没有脱离本发明的思想和要点,仍然在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1