一种基于深度学习的图像自动化标注方法及系统与流程

文档序号:16250611发布日期:2018-12-12 00:00阅读:1581来源:国知局
一种基于深度学习的图像自动化标注方法及系统与流程

本发明涉及计算机图像数据处理技术领域,尤其涉及一种基于深度学习的图像自动化标注方法及系统。

背景技术

步入21世纪,机器学习在图像识别领域发挥了巨大的作用,如车牌识别,手写字符识别等等。这些应用需要人工产生的大量格式化样本数据提供给机器以学习得到知识和规律,用于实际的推断和决策。

2012年至今,深度学习在图片识别领域取得长足发展,用于机器训练的图像标注数据需求也越来越大。随着数据标注量的爆炸式增长,标注成本不断上升,标注数据也难以管理,质量难以保证。

比较常用的轻量级图片标注工具labelimg,操作简单,支持单机对本地图片文件标注操作,支持拉矩形框、打标签,但不支持多边形框。labelimg只适合数据集小,任务简单的图片标注需求,比如目标检测。

另一款由mit的计算机科学和人工智能实验室(csail)开发的开源产品labelme,支持创建定制化标注任务或执行图像分割、标注。不同于labelimg,labelme采用b/s架构,标注数据保存在服务端。标注人员通过浏览器登录到labelme标注系统,不需要在电脑中安装或复制大型数据集,支持多用户同时执行标注操作。但labelme缺少用于提升标注质量的复核功能,大批量数据标注的质量难以保证,没有自动辅助标注方法,标注效率不高。

现有的标注方法存在以下问题:

1、数据标注是个耗时耗力的工作,完全基于人工的图片标注工作存在标注效率难以提升问题;

2、标注人员素质参差不齐,标注质量难以把控,达到一定准确率后很难再进一步提升;

3、标注需求不同,需要重新对标注人员进行标注培训,想要实现更高的产出,就需要更多的标注人员参与其中,企业承担的人力成本不断增加;

4、随着标注数据量越来越大,数据维护成本越来越高,标注数据难于管理。



技术实现要素:

针对上述问题中存在的不足之处,本发明提供一种基于深度学习的图像自动化标注方法及系统。

为实现上述目的,本发明提供一种基于深度学习的图像自动化标注方法,包括:

步骤1、采集待标注数据存入分布式文件系统中;

步骤2、基于标注需求,对待标注数据创建标注任务;

步骤3、判断当前是否存在可供使用的自动标注模型,若不存在,则将一部分标注数据分配人工标注,根据人工标注结果训练初步自动标注模型,用于自动化标注;若存在,则在已有自动标注模型的情况下,对新建的标注任务执行自动化标注;

步骤4、自动化标注结束后,标注人员对自动化标注结果进行人工复核,并将标注结果存入数据库中,用于后续的模型训练和优化。

作为本发明的进一步改进,在步骤1中,所述待标注数据包括图片数据、音频数据、文本数据和视频数据。

作为本发明的进一步改进,在步骤2中,每个标注任务配置有标注类型、对应的数据集合和分配的标注人员。

本发明还提供一种基于深度学习的图像自动化标注系统,包括:

采集模块,用于采集待标注数据存入到分布式文件系统中;

标注系统管理端,用于基于标注需求,对待标注数据创建标注任务;

判断模块,用于判断当前是否存在可供使用的自动标注模型;

自动标注模型建立模块,用于当不存在可供使用的自动标注模型时,将一部分标注数据分配人工标注,根据人工标注结果训练初步自动标注模型;

自动标注模型,用于当存在可供使用的自动标注模型时,在已有自动标注模型的情况下,对新建的标注任务执行自动化标注;

复核模块,用于在自动化标注结束后,标注人员对自动化标注结果进行人工复核,并将标注结果存入数据库中;

训练及优化模块,用于基于数据库中存储的自动化标注结果对自动标注模型进行训练及优化。

作为本发明的进一步改进,所述待标注数据包括图片数据、音频数据、文本数据和视频数据。

作为本发明的进一步改进,每个标注任务配置有标注类型、对应的数据集合和分配的标注人员。

与现有技术相比,本发明的有益效果为:

1、基于深度学习的自动化标注方法,该方法通过前期少部分人工标注构建出模型后,即可将模型参与到自动化辅助标注任务中,标注人员从标注执行者转变为标注结果核验者,解放了标注劳动力,大大提高了标注速度;

2、标注人员对自动化标注结果进行标注核验和纠错,相当于执行了一次质量把关,相较于全人工的标注方法,新方法将标注准确率提升到了更高的水平;

3、随着机器持续参与到自动化标注工作中,新的高质量标注数据以更高效的方式产生出来;标注数据返过来继续优化自动标注模型,达到机器训练机器的良性循环;随着人工参与度越来越小,新方法快速满足企业标注需求的同时,还大大节省了人力成本;

4、标注数据存储在分布式文件系统(hdfs)中,数据存储高可靠性,弹性可扩展性好,数据维护成本低。

附图说明

图1为本发明一种实施例公开的基于深度学习的图像自动化标注方法的流程图;

图2为本发明一种实施例公开的基于深度学习的图像自动化标注系统的框架图;

图3为本发明一种实施例公开的分布式文件系统的体系结构图;

图4为本发明一种实施例公开的自动分割标注效果图。

图中:

1、采集模块;2、标注系统管理端;3、判断模块;4、自动标注模型建立模块;5、自动标注模型;6、复核模块;7、数据库;8、训练及优化模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述:

本发明用于各类图形、图像数据的采集和标注服务。客户在基于计算机视觉的机器学习领域进行科研和产品研发时,会对图像有不同的采集和标注需求,包括但不限于图片分类、目标检测、实例分割、文字检测、文字标注等。

如图1所示,本发明提供一种基于深度学习的图像自动化标注方法,包括:

步骤1、采集待标注数据存入分布式文件系统中,待标注数据包括图片数据、音频数据、文本数据和视频数据;其中:

服务端标注数据的存储可以保存在操作系统的文件系统,也可以是分布式文件系统(比如hdfs)。hdfs是hadoop体系中数据存储管理的基础,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。自动化标注平台使用hdfs作为存储系统的另一个优势在于,后续可以很便捷得将数据用于基于hadoop的深度学习训练平台,方便模型的训练;如图3所示的hdfs分布式文件系统的体系结构图。

步骤2、基于标注需求,对待标注数据通过标注系统管理端创建标注任务;每个标注任务配置了标注的类型(图片分类、目标检测、实例分割等),对应的图片集合;分配的标注人员等信息。

步骤3、判断当前是否存在可供使用的自动标注模型,若不存在,则将一部分标注数据分配人工标注,经抽样复核后将标注结果存入数据库中;根据人工标注结果训练初步自动标注模型,用于自动化标注;若存在,则在已有自动标注模型的情况下,对新建的标注任务执行自动化标注,如图4所示的自动分割标注效果图。

步骤4、自动化标注结束后,标注人员对自动化标注结果进行人工复核,并将标注结果存入数据库中,用于后续的模型训练和优化,达到机器训练机器的良性循环。

如图2所示,本发明提供一种基于深度学习的图像自动化标注系统,包括:采集模块1、标注系统管理端2、判断模块3、自动标注模型建立模块4、自动标注模型5、复核模块6、数据库7和训练及优化模块8;其中:

采集模块1,用于采集待标注数据存入到分布式文件系统中,待标注数据包括图片数据、音频数据、文本数据和视频数据;其中:服务端标注数据的存储可以保存在操作系统的文件系统,也可以是分布式文件系统(比如hdfs)。hdfs是hadoop体系中数据存储管理的基础,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。自动化标注平台使用hdfs作为存储系统的另一个优势在于,后续可以很便捷得将数据用于基于hadoop的深度学习训练平台,方便模型的训练;如图3所示的hdfs分布式文件系统的体系结构图。

标注系统管理端2,用于基于标注需求,对待标注数据创建标注任务;每个标注任务配置了标注的类型(图片分类、目标检测、实例分割等),对应的图片集合;分配的标注人员等信息。

判断模块3,用于判断当前是否存在可供使用的自动标注模型;

自动标注模型建立模块4,用于当不存在可供使用的自动标注模型时,将一部分标注数据分配人工标注,根据人工标注结果训练初步自动标注模型;

自动标注模型5,用于当存在可供使用的自动标注模型时,在已有自动标注模型的情况下,对新建的标注任务执行自动化标注;

复核模块6,用于在自动化标注结束后,标注人员对自动化标注结果进行人工复核,并将标注结果存入数据库7中;

训练及优化模块8,用于基于数据库中存储的自动化标注结果对自动标注模型进行训练及优化。

进一步,标注的自动化除了基于深度学习,也可以基于传统机器学习。

进一步,除了图像标注,也可以是用于训练素材的任意类型数据的标注,比如音频数据、文本数据、视频数据等。

进一步,本发明采用的标注工具为labelme。

本发明的优点为:

1、基于深度学习的自动化标注方法,该方法通过前期少部分人工标注构建出模型后,即可将模型参与到自动化辅助标注任务中,标注人员从标注执行者转变为标注结果核验者,解放了标注劳动力,大大提高了标注速度;

2、标注人员对自动化标注结果进行标注核验和纠错,相当于执行了一次质量把关,相较于全人工的标注方法,新方法将标注准确率提升到了更高的水平;

3、随着机器持续参与到自动化标注工作中,新的高质量标注数据以更高效的方式产生出来;标注数据返过来继续优化自动标注模型,达到机器训练机器的良性循环;随着人工参与度越来越小,新方法快速满足企业标注需求的同时,还大大节省了人力成本;

4、标注数据存储在分布式文件系统(hdfs)中,数据存储高可靠性,弹性可扩展性好,数据维护成本低。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1