一种基于深度学习的半自动图像精标注方法与流程

文档序号：11234436阅读：3089来源：国知局

本发明属于智能交通和图像识别领域，特别涉及一种基于深度神经网络的半自动图像精标注方法。
背景技术：
：现有的像素级图像标注方法都是纯人工完成，从零开始对原始图像进行标注，这需要耗费大量的人力和财力。知名的交通场景数据集cityscapes使用纯手动标注软件labelme进行像素级标注，效率极低，每张图像的标注、审核、修正等过程平均需要花费1.5小时，故尽管耗资巨大，cityscapes也仅制作出了5000张精标注图像数据，其数量远未达到实际使用的标准。类似数据集如kitti、camvid等也用完全手动的方式进行建设，均面临着效率低、成本高的困境。技术实现要素：本发明所要解决的技术问题：克服现有技术的不足，提供一种基于深度神经网络的半自动图像精标注方法，解决像素级图像精标注效率极低、成本极高的问题，大大减轻了标注负担，加工效率较纯人工方法提升了3倍以上。本发明所要解决的技术方案：1、一种基于深度学习的半自动图像精标注方法，其特征在于包括如下步骤：(1)利用基于深度学习图像语义分割模型对图像进行预标注；(2)对预标注图进行自动加工，去除噪声点；(3)对原始图像运行基于深度学习的目标检测算法，得到目标类别和位置信息，根据检测得到的目标类别和位置信息，在目标位置范围内有对去除噪声点后的预标注图进一步修正分割错误；(4)采用校正软件进行精细处理，在图像层叠、轮廓高亮、分割图半透明的辅助工具快速地发现并修正预标注图中的缺陷，得到最终的标注图。其中，所述步骤(2)中，采用滑动窗口变参数过滤算法去除噪声点，具体实现如下：(1)在0-255之间均匀地选取n个灰度值作为类别标签的定义，其中n为类别数；(2)对预标注图进行腐蚀膨胀处理。最终每个像素点的最终类别由下式给定：c＝argmini|pnew-p[i]|其中，c是类别编号，pnew代表腐蚀膨胀后的灰度值，p[i]代表第i个类别的灰度值。其中，所述步骤(4)中给出了一系列辅助标注人员快速发现和修正缺陷的工具集，其一般工作流程如下：(1)将原始图像与预标注图像进行层叠；(2)将预标注图像设置为半透明状态，其透明度可调；(3)根据预标注图像中提供的语义区域自动完成轮廓高亮；(4)标注人员采用画笔、魔棒等工具修正各区域边缘，完成语义标注。本发明运用到的方法有：(1)图像语义分割模型segnetsegnet是基于全卷机神经网络(fcn)提出的一种端到端的编码-解码结构，编码网络将原始图像进行卷积和最大值池化等操作，形成1x1xh的特征表示，再从这一特征表示处罚，通过上池化和反卷积解码成与原图尺寸一致的语义分割图。(2)滑动窗口变参过滤算法首先，在0-255之间均匀地选取n个灰度值作为类别标签的定义(n为类别数量，如segnet将交通场景图像中的目标分为12类)。然后，对分割图进行腐蚀膨胀处理。最后每个像素点的最终类别由下式给定：c＝argmini|pnew-p[i]|其中，c是类别编号，pnew代表腐蚀膨胀后的灰度值，p[i]代表第i个类别的灰度值。使用同一种参数对全图进行腐蚀膨胀的效果不尽如人意，因为在不同的区域噪声的数量存在较大差异，所以应该对不同的情况使用不同的腐蚀膨胀参数进行处理。(3)目标检测模型fasterr-cnnfasterr-cnn基于深度卷积神经网络，是当下的主流目标检测框架。主要由区域选举网络(rpn)、roipooling层、类别分支网络和box回归网络构成。fasterr-cnn首次实现了基于深度学习的端到端的目标检测模型训练和识别，准确率较高，速度达到了准实时。(4)人工审核校正软件道路行车场景的原图在经过自动标注部分处理后，还存在着以下三个主要问题：存在噪声点、目标轮廓不精确和存在未定义类别区域。针对这三个问题，开发了一套软件辅助人工进一步审核修正。开发工具主要提供两方面的功能，一是提供有效的比对功能，使标注审核人员能够方便的对比原图和预加工图，快速发现和定位存在分割错误的地方；二是提供方便的修正工具，使标注审核人员在发现和定位分割错误之后，能以最简易的操作修正错误。标注审核人员利用工具提供的两类主要功能，针对粗标注结果中出现的具体问题来修正粗标注结果。本发明与现有技术相比的优点在于：(1)本发明提出了一系列实用的方法和工具来辅助标注人员完成复杂的像素级图像精标注。使用了现有的基于深度学习的图像语义分割模型segnet对图像进行预标注。由于模型本身存在不足，预标注图像中产生了大量的噪声点，并且这些噪声点在图中分布不均，于是提出了一种滑动窗口变参数过滤算法，在去除噪声点的同时基本不影响正确分割的区域。至此，得到了一张准确率较高、整体性较强的预标注图，又提供了一套实用的工具集，使得标注人员能够对预标注图进行快速处理，完成标注任务。(2)在数据集cityscapes的建设过程中，完成一张图像的精标注、审核、修正等过程，平均花费了1.5小时，故尽管耗资巨大，cityscapes也仅制作出了5000张精标注图像数据，其数据量远未达到实际使用的标准。利用本发明的系列方法，这一时间可缩短至20分钟左右。附图说明图1为本发明方法的实现流程图；图2为segnet网络结构；图3为预加工图中的典型问题；图4选中误识别噪声点，将噪声修改为正确的像素值；图5为预标注的部分效果图。具体实施方式如图1所示，本发明基于深度学习的半自动图像精标注方法，由以下步骤实现：1.segnet粗标注本发明使用的segnet是cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络，开放源码，基于caffe框架。segnet网络结构如图2所示，input为输入图片，output为输出分割的图像，不同颜色代表不同的分类。它是一个对称网络，由中间pooling层与upsampling层作为分割，通过卷积提取高维特征，并通过pooling使图片变小，再通过反卷积与upsampling，通过反卷积使得图像分类后特征得以重现，upsampling使图像变大，最后通过softmax，输出不同分类的最大值。2.基于滑动窗口的变参数离群点归并和腐蚀膨胀segnet输出的分割图用12种不同的颜色代表12个物体类别，例如路面、路标、人行道、建筑和骑车人员等，从分割图中可以发现大量离群点以及边缘参差不齐的情况，这很不利于人工的进一步处理，所以设计了一个基于滑动窗口的变参过滤算法。首先，在0-255之间均匀地选取12个灰度值作为类别标签的定义。然后，对分割图进行腐蚀膨胀处理。最后每个像素点的最终类别由下式给定：c＝argmini|pnew-p[i]|其中，c是类别编号，pnew代表腐蚀膨胀后的灰度值，p[i]代表第i个类别的灰度值，使用同一种参数对全图进行腐蚀膨胀的效果不尽如人意，因为在不同的区域噪声的数量存在较大差异，所以应该对不同的情况使用不同的腐蚀膨胀参数进行处理。3.与目标检测的结合对原始图像运行目标检测算法fasterr-cnn，得到标识物体的矩形框后，对矩形框范围内进行滤波去噪、直方均衡的传统方法进行预处理。同时，有了目标检测网络的输出，可以辅助修正segnet网络给出的预标注图。具体地，如果场景理解网络的输出图中，在除所给矩形框之外的区域出现了同一类别的物体，则视为错误分类，将其视为背景处理。这样做是很有意义的，例如在自动驾驶场景中，如果无人驾驶车前方存在误识别的车辆，那么它将不再前行或者做出非必要的避让决策。另外，要达到这一效果，应尽可能地提高目标检测网络的召回率。为此，应将fasterrcnn最终输出的阈值尽可能调低，实验表明，调整为0.6比较合适。4.人工审核校正软件道路行车场景的原图在经过自动标注部分处理后，还存在着以下三个主要问题：存在噪声点、目标轮廓不精确和存在未定义类别区域。如图3所示，在图中可以很明显的观察到，路面部分存在误识别的噪声点；目标车辆的轮廓与原图相比不是十分精确；广告牌部分由于网络中并未做出定义，所以也并未识别。针对粗标注结果中的这三个主要问题，设计开发了如下工具辅助人工进一步审核修正。开发工具主要提供两方面的功能，一是提供有效的比对功能，使标注审核人员能够方便的对比原图和预加工图，快速发现和定位存在分割错误的地方；二是提供方便的修正工具，使标注审核人员在发现和定位分割错误之后，能以最简易的操作修正错误。标注审核人员利用工具提供的两类主要功能，针对粗标注结果中出现的具体问题来修正粗标注结果。利用上述开发工具集的主要功能，针对粗标注结果中出现的具体问题做如图4的半透明化操作。原图与预加工图，在不同的图层内，以不同的透明度同时呈现。为了快速发现和定位分割问题的具体位置，需要建立两个图层，同时呈现原图和对应的预加工图像，并调整透明度，使标注审核人员同时看到两张图，直观对比两张图的差异，快速定位问题所在。针对预加工图中存在噪声点的情况：可以利用魔棒工具选中该噪声点部分，确定该噪声点对应的正确类别，通过变色工具，将误识别噪声点的像素值修改为正确类别对应的像素值。或者利用魔棒工具选中包含噪声点的一块区域，选择进行不同算子大小的腐蚀膨胀操作，去掉噪声点。针对预加工图中目标轮廓不精确的情况：利用魔棒工具选中分割图中该部分整体区域，提取出区域轮廓，通过与原图对比，快速定位轮廓不精确的地方；利用加减工具，根据原图精确修正区域轮廓，使其符合原图实际情况。在修正过程中，将要删除的部分修改为背景目标的像素值，将要增加的部分修改为该区域目标对应的像素值。针对出现语义分割网络中未定义的类别目标的情况：按照所处地域实际情况，可以由标注审核人员按照制定的类别标准，新定义类别和类别所对应的像素值，利用魔棒工具和素描笔描出目标物体轮廓，选中目标对应区域并修改为定义的实际像素值。最后将审核修正完成后的分割结果保存，作为最终分割结果。经过上述主要操作，预加工图中存在的噪声点问题，轮廓不精确问题，存在未定义的新类别问题都得到了解决，最后得到的精确分割结果，可以直接用于自动驾驶算法的研究也可以用于场景理解网络的进一步训练。5.目标检测修正实验首先，在最大程度保证召回率的前提下，使用kitti数据集的训练/验证集，分别训练yolo、ssd和faster-rcnn，其结果如表1所示(此处仅作粗略对比，仅对比三个主要类别，且对于各个类别不再区分easy、moderate和hard)。而后，使用在kitti上训练好的fasterr-cnn参与到场景理解任务中，按照预先实现的算法流程，发现经过这步处理之后，分割结果的miou并未发生显著变化(变化在±0.1之间)，但确能纠正某些明显的误分类情况。表1yolo、fasterr-cnn和ssd在kittitrain/validation上的表现，评价指标为map，实验gpu为nvidiatitanx(12gb)。不难发现，fasterr-cnn的性能最优(在不考虑运行时间的情况下)。6.粗标注结果结合目标检测的实验将通过segnet网络得到的分割结果直接计算平均准确率，得到结果1；通过segnet网络得到初步分割结果，进一步进行腐蚀膨胀和去离群点处理，然后结合目标检测网络结果，对同一张图像，若在给定的确切物体的矩形框之外，又出现了同一类别的物体，则将其视为错误的分类，将这部分像素修改为背景像素的值，最后得到结果2，计算平均准确率。三次操作得到的各类别的准确率如表2。表2预标注实验结果classsegnet3.5kdatasettrainingourmethodbuilding8873.878.7tree87.390.792.1sky92.390.193.8car808386.8sign-symbol29.583.986.4road97.695.2196.3pedestrian57.286.890.2fence49.46870.1column-pole27.874.680.2side-walk84.895.395.4bicyclist30.75359classavg.65.981.386.2globalavg.88.686.890.9meani/u50.269.170.5图5为预标注的部分效果图，从左到右分别为：原始图，segnet结果，半自动加工后的结果，真实结果。7.最终效率对比为了对比人工标注与本文提出的半自动标注技术效率，设计如下简单实验验证。准备两组数量相等的图像(各100张)。其中一组按照本文提出的半自动标注技术流程，首先用segnet进行语义分割，再结合目标检测和传统图像处理方法，将得出的粗标注结果交付人工进一步校对，得到最终结果。另外一组直接交付人工标注。由于有了人的干预，两种标注方式在理论上的准确率都是100％，所以只比较标注时间。实验结果如下：表3标注效率对比总之，本发明利用深度神经网络模型对图像进行预标注，再对预标注图自动加工，去除大量噪声点，最后交由标注人员使用特定工具快速地发现和修正预标注图中的缺陷，从而达到缩减标注时间的目的。实践证明，本发明大大减轻了标注负担，加工效率较纯人工方法提升了3倍以上。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄坚;郭袭;金玉辉;金天
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种恐怖组织网络挖掘算法的制造方法与工艺
上一篇：一种指纹识别疲劳工作报警装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。