基于端对端深度学习的目标检测与语义分割的并行方法与流程

文档序号:17238468发布日期:2019-03-30 08:28阅读:397来源:国知局
基于端对端深度学习的目标检测与语义分割的并行方法与流程

本发明涉及人工智能的计算机视觉领域,特别涉及一种基于端对端深度学习的目标检测与语义分割的并行方法。



背景技术:

在深度学习的目标检测领域,主要解决两个问题,一个是图像中多个目标物的分类和定位,其发展历程分为三个阶段,一是传统的目标检测方法,二是以regionswithcnnfeatures(r-cnn)为代表的结合候选区域(regionproposal)和cnn分类的目标检测框架,如:fastr-cnn,fasterr-cnn,三是以youonlylookonce(yolo)为代表的将目标检测转换为回归问题的端到端(endtoend)的目标检测框架,如:ssd;传统方法具有基于滑动窗口的区域选择策略缺少针对性和手工设计的特征对于多样性变化不具备鲁棒性的缺点;regionproposal利用了图像中的纹理、边缘、颜色等信息预先找出图中目标可能出现的位置,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率,但其存在重复计算和训练耗时的缺点,后续的fastr-cnn,fasterr-cnn又在r-cnn的基础上对其做出了较多的改进,但是在满足视频实时性的要求上依旧存在问题;yolov2在yolov1的基础上,保证了其实时性,yolov2采用的基本网络模型即darknet-19。

在深度学习的语义分割领域,主要对图像中的多类目标物体进行像素级别的划分,对目标物体的边界信息划分的更加明确,2014年,berkeley的long等人提出了全卷积网络fullyconvolutionalnetworks(fcn)是一个不需要通过全连接层的,用于稠密预测的卷积网络。该方法使得对于任意大小的图像,都能实现有效分割;将目标检测和语义分割任务结合起来的网络模型较少,而且大多数神经网络在提高准确率的目的上牺牲了实时性的效果。



技术实现要素:

针对现有的深度学习目标检测具有基于滑动窗口的区域选择策略缺少针对性和手工设计的特征对于多样性变化不具备鲁棒性同时深度学习的语义分割领域对图像中的多类目标物体进行像素级别的划分,对目标物体的边界信息划分的不够的问题,本发明提出一种基于深度网络的自然语言情感分析方法,本发明采用的技术方案是:

一种基于端对端深度学习的目标检测与语义分割的并行方法,过程如下:

s1:构造与训练深层神经网络darknet-19;

s2:构造与训练全卷积神经网络fcn;

s3:使用得到的深层神经网络darknet-19和全卷积神经网络fcn对输入图像进行目标分类、定位及像素级别的分割。

进一步地,所述步骤s1的具体过程如下:

s11:采集可应用场景中的含有多类需要检测目标的图片作为训练数据集,对训练数据集中的多类目标物体根据检测和分割任务进行相应的标注处理;标注后的图片作为标准输出参考图;

s12:进行模型迁移,将已有的部分卷积神经网络模型参数作为初始卷积共享网络和检测任务部分的训练参数;

s13:先考虑目标检测分支的训练过程,输入图像通过darknet-19中fcn与其共享的卷积共享网络部分的一部分卷积和池化网络层后得到特征图片,将特征图片输入darknet-19的rpn模块得到锚点和形态长宽比不同的预测框,然后将预测框中符合目标区域要求的特征图片分别送入darknet-19的分类模块和回归模块中对目标进行分类和定位即目标检测。

s14:darknet-19的分类模块为一个全连接网络,输出单元为n+1个,得到这个目标区域中目标属于每个类和背景的概率,然后使用一个softmax,最后得到一个目标类别分数dark_cls_prob;

s15:darknet-19的回归模块为一个全连接网络,输出单元为4*n个,得到这个目标区域目标的预测框的四个参数,包括它的横轴起点、纵轴起点以及它们与锚点的距离,最后通过修正单元对预测框参数进行修正,输出一个目标的预测框坐标dark_bbox_pred;

s16:通过向深层神经网络darknet-19输入带有目标物体的图片和其对应的标注好的图片,并基于深层神经网络darknet-19输出的目标检测的结果使用随机梯度下降方法对深层神经网络darknet-19进行参数的调整,这个过程重复进行直至深层神经网络darknet-19符合要求。

进一步地,所述步骤s2的具体过程如下:

s21:将fcn最后三层网络作为分割网络的后续处理模块,三层网络包括两层卷积网络和一层反卷积网络;

s22:考虑目标分割分支的训练过程,输入图像通过darknet-19中fcn与其共享的卷积共享网络部分后得到一个特征图片,这个特征图片经过fcn最后三层网络,两层不改变特征图片的大小、只改变通道数的卷积网络,最后通过一层反卷积网络将其进行两倍上采样得到conv_fcn_out;

s23:将darknet-19中fcn与其共享的卷积共享网络部分中第四个池化层的输出特征图片pool4_out与上一步骤的conv_fcn_out进行融合,然后此时通过一层反卷积网络两倍上采样得到deconv_pool3_out;

s24:将darknet-19中fcn与其共享的卷积共享网络部分中第三个池化层的输出特征图片pool3_out与上一步骤的融合输出再进行融合得到deconv_pool4_out,然后通过一层反卷积网络进行八倍上采样到原始图片大小最后得到conv_seg_out;这里一层反卷积网络的反卷积核是由双线性插值法初始化的,在训练中进行学习;

s25:对这个目标检测、分割并行网络进行训练时,目标检测分支的深层神经网络darknet-19的部分神经网络参数使用迁移模型中的参数,对目标分割分支的全卷积神经网络fcn各层的参数随机初始化,最后采用降低损失函数的反向传导算法对整个目标检测、分割并行网络的darknet-19目标检测网络和fcn目标分割网络进行同步训练。

进一步地,所述步骤s3的具体过程如下:

s31:在步骤s1和s2中的目标检测分支网络darknet-19和目标分割分支网络fcn有卷积共享部分,并且是共同训练的,因此加快了整个检测分割网络的训练时间。

s32:将可应用的图片输入到darknet-19中fcn与其共享的卷积共享网络部分当中,得到的特征图片即由darknet-19的rpn模块继续处理,通过分类和回归得可应用图像中可应用目标的分类分数和检测框;特征图片又由目标分割分支网络的fcn的全卷积层来得到像素级的分割图片。

进一步地,整个包含目标检测分支网络darknet-19、目标分割分支网络fcn的并行网络的训练采用坐标回归函数、分类交叉熵函数组成的损失函数和mask损失函数组成的总损失函数,通过最小化损失函数,反向传导误差来更新模型参数。

与现有技术相比,本发明技术方案的有益效果是:

本发明提供一种基于端对端深度学习的目标检测与语义分割的并行方法,通过对海量已标注目标检测和目标分割的图像训练得到一个由目标检测神经网络darknet-19、全卷积神经网络fcn组成的模型,并实现对任意输入测试图像的目标物体的检测和像素级分割。darknet-19处理目标检测部分任务,fcn模块对图像进行像素级的目标划分,本发明能较好的提取图片中的细节特征和全局特征,在保证检测精度和分割精度的前提下,实现一个并行的有效的、实时的目标检测与目标分割任务。

附图说明

图1为本发明提供的基于深度网络目标检测、目标分割并行网络的整体流程图。

图2为目标检测分割网络的具体网络结构。

图3为实施例1中预测框在3*4网格中的位置。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,仅用于示例性说明,不能理解为对本专利的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-2所示,一种基于端对端深度学习的目标检测与语义分割的并行方法,包括以下步骤:

s1构造与训练目标检测分支的darknet-19

s1.1采集图像:在互联网上下载pascalvoc数据集,它为图像检测和图像分割提供了一整套标准的优秀数据集,本方法利用此数据集进行模型的微调和测试;

s1.2预处理目标数据集:使用常见的尺度变换、随机裁剪、加噪和旋转变换等对图片进行预处理,增强模型的鲁棒性;此步使得目标数据集的输入尺度由开始的固定尺寸变为随机变换为n*32的大小,n的取值范围为9-19;默认输入尺度为618;

s1.3生成特征图片:darknet-19采用的基本网络结构不含有全连接网络,因此在第一步中允许输入的图片进行尺度上的动态调整,同时在每一个卷基层后加入了一个归一化操作作为改进,改善了网络的收敛速度;吸取残差网络的思想,采用了细粒度特征,将浅层卷积神经网络得到的特征图片与高层卷积神经网络得到的特征图片做一个连结,即将相邻特征叠加到不同的通道,提升模型在检测小尺度物体的检测精度;

s1.4切分图片:目标图片经过基本神经网络后,由于池化参数为32,最终得到的特征图片大小缩小至原图片1/32大小,此时对这张图片划分出n*n个网格;如darknet-19输入图片的大小为618*618时,输出的特征图网格数量为19*19。

s1.5:生成预测框:参照r-cnn系列目标检测网络生成区域建议的方法,以每个网格的中心点为锚点,预测数量一定、长宽比一定的预测框;每个预测框含有五个参数,即四个坐标位置以及一个类别分数;如darknet默认为每个网格生成九个预测框,此时每张图片含有n*n*9*(5+c)个参数,c为需要预测的目标类别数量。

s1.6:修正目标位置:darknet-19预测的目标位置是每个预测框相对于网格的坐标位置,其坐标参数介于0和1之间,如图3所示,使用每个预测框得到的参数tx、ty、tw、th和to,该预测框对应的网格距离图像左上角的边缘距离为cx、cy,预测框此时长宽参数pw、ph,最终得到修正过的预测框中心点在纵轴和横轴上的坐标、长度修正值、宽度修正值和该预测框属于某个类别的分数bx、by、bw、

bx=δ(tx)+cx

by=δ(ty)+cy

bh和δ(to),计算公式为

pr(object)*iou(b,object)=δ(to)

,pr(object)为未修正的属于某类的分数,iou(b,object)为该预测框与标注框的重叠面积。

s1.7:筛选预测框:使用非极大抑制方法筛选所有的预测框,得到满足条件的检测框,并对每个检测框内目标物体给出它属于某类物体的分数。

s2构造与训练目标分割分支的全卷积网络fcn

s2.1此步骤与s1.1共享,同样为在互联网上下载pascalvoc数据集,它为图像检测和图像分割提供了一整套标准的优秀数据集;

s2.2将现有的已训练好的卷积神经网络模型alexnet进行调整得到初步全卷积网络模型;

s2.3删除alexnet卷积神经网络的分类层,并将全连接层转换为卷积层,与s1共享s1.1-s1.3的操作,并使用调整后的alexnet的最后两层卷积层和一层反卷积层;

s2.4对最高层卷积层输出后的结果进行2x上抽样,得到该层的上抽样预测,此时预测结果含有图像粗略的分割信息。结果为conv_fcn_out;

s2.5对上一层池化层也就是共享卷积的第四层进行卷积核为1×1卷积运算,得到该池化层的预测含有图像分割的细节分割信息,结果为:pool4_out;

s2.6将上述两预测结果conv_fcn_out与pool4_out进行求和,再进行2x上抽样,得到上抽样预测为deconv_pool4_out;

s2.7对再上一层池化层也就是共享卷积的第三层进行卷积核为1×1卷积运算,得到该池化层3的预测较池化层4具有图像更多的细节信息,结果为:pool3_out;

s2.8将deconv_pool4_out与pool3_out求和,得到deconv_pool3_out,再进行8x上抽样得到与原输入图像大小相同的具有更多细节信息的密集预测结果conv_seg_out:

s2.9这里提到的上抽样层的反卷积核由双线性插值法初始化,在训练中进行学习;

s2.10输入具有标准特征图的图像,利用随机梯度下降进行全网络的,并对全卷积神经网络里所有层的参数进行微调,得到更好的目标检测和分割。

s3并行进行目标检测与目标分割

s3.1:在步骤s1和s2中的两个网络darknet-19和fcn有卷积共享部分,这一部分使用已经训练好的模型的参数,节省了计算内存,两个网络在训练和检测阶段都是并行的,加快了整个检测分割网络的训练和测试时间。

s3.2:将可应用的图片输入到darknet-19中fcn与其共享的卷积共享网络当中,得到的特征图片即由darknet-19的rpn模块继续处理,通过darknet-19的分类模块和回归模块得可应用图像中可应用目标的分类分数和检测框;又由目标分割分支的fcn的全卷积层得到了像素级的分割图片;整个模型的训练采用坐标回归函数、分类交叉熵函数组成的损失函数和mask损失函数组成的总损失函数,通过最小化损失函数,反向传导误差来更新目标检测、目标分割并行网络的参数。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1