一种深度学习网络的训练方法和装置的制造方法_3

文档序号：9788160阅读：来源：国知局

R0AD中的数据集作为训练集。
[0081] 设置一个固定大小的滑动窗口，以一定的步长滑动分割所述输入图像及其所对应的ground truth，将所述输入图像及其所对应的ground truth分别分割为多个不同的 patch；
[0082] 在本发明实施例中，设置一个固定大小的滑动窗口，以一定的步长从左往右、从上向下滑动分割所述输入图像及其所对应的ground truth，将所述输入图像及其所对应的 ground truth分别分割为多个不同的patch，并将多个不同的patch保存为HDF5格式。
[0083]在本发明实施例中，所述步长是在图像中抠去patch时，以正方形或长方形为中心，进行移动的距离。根据图像信息确定步长，要求训练集中的正样本多时，步长要短些，采集的图像会更密集;要求训练集中的负样本多时，步长要长些，采集的图像的信息量会更多样化。以交通场景中的道路为例，所述正样本是指属于道路类别的样本，所述负样本是指不属于道路类别的样本。
[0084]为了更好的理解本发明，以训练集为交通道路进行举例说明，ground truth是一张人工标定的正确道路的二值化图像，ground truth中像素属于道路区域，标记为1，不属于道路区域，标记为0;训练集包括输入图像及其所对应的ground truth。
[0085]在本发明实施例中，将训练集分割成大量的patch，极大的满足了训练深度神经网络系统需要大量样本的需求，也为少样本训练方法提供了大量的少样本训练集；同时， patch是将大分辨率的图像分割为小分辨率的图像，提高了深度神经网络系统的运算速度。 [0086]根据所述输入图像的patch的像素，在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记；
[0087] 对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
[0088] 在发明实施例中，所述输入图像的patch和像素标记后的ground truth的patch进行尺度归一化，以提高深度学习网络的训练速度。
[0089]在步骤S402中，将所述多个不同的patch转换为包括多个不同尺度的图像的图像集；
[0090] 在本发明实施例中，将包括多个不同尺度的图像的图像集保存为HDF5格式。
[0091] 进一步的，所述将所述多个不同的patch转换为包括多个不同尺度的图像的图像集，具体包括：
[0092] 将所述多个不同的patch通过拉普拉斯金字塔转换算法为包括多个不同尺度的图像的图像集，以交通道路为例，可根据道路的复杂情况进行尺度的增加，过于复杂的道路默认为4个尺度。
[0093] 所述拉普拉斯金字塔转换算法具体包括：
[0094] 对所述patch建立高斯金字塔，所述高斯金字塔是按照二次幂进行低通滤波作平滑处理，将低通滤波后的图像作带通滤波，生成多个尺度的图像。具体实现方法参见实施例一的描述，在此不再累述。
[0095]在步骤S403中，根据转换后的输入图像的patch的多个不同尺度的图像的像素，调整对应尺度的转换后的ground truth的patch的多个不同尺度的图像上的像素标记，其中，所述ground truth的patch是所述输入图像的patch对应的ground truth的patch;
[0096] 在本发明实施例中，将输入图像的patch的多个不同尺度的图像和调整像素标记后的ground truth的patch的多个不同尺度的图像保存为HDF5格式。
[0097] 在本发明实施例中，输入图像的patch在尺度改变过程中可能会丢失像素，需要对尺度变换后的图像中的像素进行重新标定。
[0098]在步骤S404中，对所述图像集进行尺度归一化，并将归一化后的图像集输入至深度神经网络系统，以训练所述深度神经网络系统。
[0099]在本发明实施例中，训练所述深度神经网络系统是用于确定所述深度神经网络系统的参数，所述深度神经网络系统可以为卷积神经网络和/或反卷积神经网络。
[0100]通过本发明实施例训练深度神经网络系统，确定所述深度神经网络系统的参数，提高了深度学习训练中局部特征提取的精度。
[0101] 实施例三:
[0102] 图5示出了本发明实施例三提供的深度学习网络的训练方法的实现流程，所述实现流程详述如下：
[0103] 在步骤S501中，将训练集中的图像分割为多个不同的patch;
[0104] 在本发明实施例中，所述patch是在训练集中的图像中抠出的任意大小的图像区域，所述patch的大小必须小于所述图像，较佳的是，所述patch可以为正方形或长方形。所述训练集包括输入图像和所述输入图像对应的ground truth，所述ground truth是一张人工标定的像素标记。如图2是将训练集中的输入图像分割为大小相同，图像信息不同的mXn 个口3七(：11，；^,1(1)，；^,1^)，；^,1(1)，；^,1^)分别是位于输入图像的四个角落的口3七(311。
[0105] 在本发明实施例中，可以根据图像的复杂程度选用对应的方法来获取patch，并输入至卷积神经网络进行训练，具体方法参见实施例一的描述，在此不再累述。
[0106] 进一步的，所述将训练集中的图像分割为多个不同的patch，具体包括：
[0107]获取训练集，所述训练集包括输入图像和所述输入图像对应的ground truth;
[0108] 较佳的是，选用KITTI-R0AD中的数据集作为训练集。
[0109] 设置一个固定大小的滑动窗口，以一定的步长滑动分割所述输入图像及其所对应的ground truth，将所述输入图像及其所对应的ground truth分别分割为多个不同的 patch；
[0110] 在本发明实施例中，设置一个固定大小的滑动窗口，以一定的步长从左往右、从上向下滑动分割所述输入图像及其所对应的ground truth，将所述输入图像及其所对应的 ground truth分别分割为多个不同的patch，并将多个不同的patch保存为HDF5格式。
[0111]在本发明实施例中，所述步长是在图像中抠去patch时，以正方形或长方形为中心，进行移动的距离。根据图像信息确定步长，要求训练集中的正样本多时，步长要短些，采集的图像会更密集;要求训练集中的负样本多时，步长要长些，采集的图像的信息量会更多样化。以交通场景中的道路为例，所述正样本是指属于道路类别的样本，所述负样本是指不属于道路类别的样本。
[0112]为了更好的理解本发明，以训练集为交通道路进行举例说明，ground truth是一张人工标定的正确道路的二值化图像，ground truth中像素属于道路区域，标记为1，不属于道路区域，标记为0;训练集包括输入图像及其所对应的ground truth。
[0113]在本发明实施例中，将训练集分割成大量的patch，极大的满足了训练深度神经网络系统需要大量样本的需求，也为少样本训练方法提供了大量的少样本训练集；同时， patch是将大分辨率的图像分割为小分辨率的图像，提高了深度神经网络系统的运算速度。 [0 114]根据所述输入图像的patch的像素，在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记；
[0115] 对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
[0116] 在发明实施例中，所述输入图像的patch和像素标记后的ground truth的patch进行尺度归一化，以提高深度学习网络的训练速度。
[0117]在步骤S502中，将所述多个不同的patch转换为包括多个不同尺度的图像的图像集；
[0118] 在本发明实施例中，将包括多个不同尺度的图像的图像集保存为HDF5格式。
[0119] 进一步的，所述将所述多个不同的patch转换为包括多个不同尺度的图像的图像集，具体包括：
[0120] 将所述多个不同的patch通过拉普拉斯金字塔转换算法为包括多个不同尺度的图像的图像集，以交通道路为例，可根据道路的复杂情况进行尺度的增加，过于复杂的道路默认为4个尺度。
[0121 ]所述拉普拉斯金字塔转换算法具体包括

完整全部详细技术资料下载

当前第3页1 2 3 4 5