一种深度学习网络的训练方法和装置的制造方法

文档序号:9788160阅读:771来源:国知局
一种深度学习网络的训练方法和装置的制造方法
【技术领域】
[0001] 本发明属于计算机视觉技术领域,尤其涉及一种深度学习网络的训练方法和装 置。
【背景技术】
[0002] 深度学习源于人工神经网络的研究,一般具有含多隐层的多层感知器的结构可以 被定义为深度学习结构。深度学习通过组合低层特征然后抽取出抽象的高层特征以发现数 据的分布式特征表示。深度学习是机器领域中一系列试图使用多重非线性变换对数据进行 多层抽样的算法。深度学习是机器学习中表征学习方法的一类。一幅图像可以使用多种方 式表示,而某些特定的表示方法可以让机器学习算法更加容易进行学习。而表征学习的目 标是寻求更好的表示方法并建立更好的模型来学习这些表示方法。2007年后由杰弗里?辛 顿(Geoffrey Hinton)和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前 馈神经网络中进行有效训练的算法,这一算法将网络中的每一层视为无监督的受限玻尔兹 曼机,再使用有监督的反向传播算法进行调优。1992年,施密德胡伯曾在递归神经网络上提 出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速 度.自深度学习出现以来,它已成为很多领域,尤其是在计算机视中,成为各种领先系统的 一部分。在通用的用于检验的数据集,例如图像识别中的ImageNe t,C i f ar 10上的实验证明, 深度学习能够提高识别的精度。另外,硬件的进步也是深度学习重新获得关注的重要因素。 高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行 时间得到了显著的缩短。
[0003]当前,在交通场景分割中使用最多的是超像素(superpixel)预处理。将图像中许 多相似的的像素点结合到一起,然后在后期作为一个整体处理获得一个整体图像块,称之 为超像素。由于基于像素级的目标识别/分割,不能给目标的整体一个清晰的判断。同时,由 于单个像素或小数像素的噪声会误判目标,也可能把邻域内的像素点判断为目标,甚至会 出现把感兴趣区域(Region of Interest,R0I)误判为背景信息。另一方面,像素级的分类 与判别是不能给出目标区域的边界信息,最多只能给出大概的位置。与人类视觉的着重点 一样,像素并不是主要关注的对象,单一的某个像素点不能解析出一个某个目标物体或者 区域,只能通过像素结合才能存在一个整体。
[0004] 目前除了基于超像素作预处理的深度学习训练外,在发明专利申请名称为"一种 基于多分辨率卷积神经网络交通标志识别方法"(申请号201510002850. X,公开号 104537393A)的专利中,涉及到使用两个不同的分辨率作为预处理来对卷积神经网络进行 训练,其高分辨率输入映射出全局和轮廓的特征,而低分辨率的图像来映射局部与细节特 征,同时由于分辨率降低,提高了模型训练的速度。
[0005] 上述两种方法都在一定程度解决了深度学习训练的精度和速度问题,但是其结果 还是并不理想,同时还存在如下所述的问题。
[0006] 然而,在超像素预处理中,尽管超像素具体很好的图像边界信息,但是局部冗余信 息也非常多,会造成在同一区域内不同分类的大量互相干扰的噪声。而以超像素作为疾病 计算处理单元的话,因为将每一个像素聚合成不同的群组需要进行大量的预计算,如果分 辨率在比较高的情况下,效率比较低下。在超像素划分的块中,要组成不同的区域,实际上 有很多像素会被重复标记,生成的训练样本会大量增加,特别是在交通场景大部分区域过 渡都非常相似的情况下,除了消耗大量的计算能力外,还会导致精度下降。
[0007] 发明专利"一种基于多分辨率卷积神经网络交通标志识别方法"(申请号 201510002850.X,公开号104537393A)中,虽然使用了两种不同分辨率来进行训练,但由于 两个分辨率的之间差距太大,导致大量的信息丢失,最终并不能很好地解决精度问题,而 且,低分辨率的速度处理虽然有提高,但是考虑到高分辨率处理的情况,实际性能提高有 限。
[0008] 故,有必要提出一种新的技术方案,以解决上述技术问题。

【发明内容】

[0009] 鉴于此,本发明实施例提供一种深度学习网络的训练方法和装置,以提高深度学 习训练中特征提取的精度。
[0010] 本发明实施例的第一方面,提供一种深度学习网络的训练方法,所述方法包括:
[0011] 将训练集中的图像分割为多个不同的patch;
[0012] 将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
[0013] 对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系 统,以训练所述深度神经网络系统。
[0014] 本发明实施例的第二方面,提供一种深度学习网络的训练装置,所述装置包括:
[0015] 分割模块、转换模块以及处理模块;
[0016] 所述分割模块,用于将训练集中的图像分割为多个不同的patch;
[0017] 所述转换模块,用于将所述多个不同的patch转换为包含多个不同尺度的图像的 图像集;
[0018] 所述处理模块,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入 至深度神经网络系统,以训练所述深度神经网络系统。
[0019] 本发明实施例与现有技术相比存在的有益效果是:本发明实施例将训练集中的图 像分割为多个不同的patch,将所述多个不同的patch转换为包括多个不同尺度的图像的图 像集,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以 训练所述深度神经网络系统,提高了深度学习训练中局部特征提取的精度。
【附图说明】
[0020] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。
[0021] 图1是本发明实施例一提供的深度学习网络的训练方法的实现流程图;
[0022] 图2是本发明实施例一提供的将输入图像分割为大小相同、图像信息不同的mXn 个patch的示例图;
[0023] 图3是本发明实施例一提供的采用高斯金字塔算法与拉普拉斯金字塔算法对 patch进行多尺度图像转换后的示例图;
[0024] 图4是本发明实施例二提供的深度学习网络的训练方法的实现流程图;
[0025]图5是本发明实施例三提供的深度学习网络的训练方法的实现流程图;
[0026] 图6a是在KITTI_ROAD、LabelMe与CamVid数据集中取复杂的交通场景(含有多条道 路)分别采用原图、superpixel、patch、多尺度和patch+多尺度训练卷积神经网络后进行特 征提取的精度比较图;图6b是在KITTI-ROAD、LabelMe与CamVid数据集中取复杂的交通场景 (含有多条道路)分别采用原图、superpixel、patch、多尺度和patch-多尺度训练反卷积神 经网络后进行特征提取的精度比较图;
[0027] 图7是本发明实施例四提供的深度学习网络的训练装置的组成示意图;
[0028] 图8是本发明实施例五提供的深度学习网络的训练装置的组成示意图;
[0029] 图9是本发明实施例六提供的深度学习网络的训练装置的组成示意图。
【具体实施方式】
[0030] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0031] 实施例一:
[0032] 图1示出了本发明实施例一提供的深度学习网络的训练方法的实现流程,所述实 现流程详述如下:
[0033]在步骤S101中,将训练集中的图像分割为多个不同的patch;
[0034] 在本发明实施例中,所述patch是在训练集中的图像中抠出的任意大小的图像区 域,所述patch的大小小于所述图像,较佳的是,所述patch可以为正方形或长方形。所述训 练集包括输入图像和所述输入图像对应的ground truth,所述ground truth是一张人工标 定的像素标记。如图2是将训练集中的输入图像分割为大小相同、图像信息不同的mXn个 pat
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1