网络参数训练方法、景物类型识别方法及装置的制造方法

文档序号:10512767阅读:607来源:国知局
网络参数训练方法、景物类型识别方法及装置的制造方法
【专利摘要】本发明实施例公开了一种网络参数训练方法、景物类型识别方法及装置,属于图像处理领域。所述方法包括:获取目标图像;将所述目标图像输入卷积神经网络中,所述卷积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集中的样本图像是按照像素级别进行景物类型标注后的图像;根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。本发明解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
【专利说明】
网络参数训练方法、景物类型识别方法及装置
技术领域
[0001] 本发明实施例涉及图像处理领域,特别涉及一种网络参数训练方法、景物类型识 别方法及装置。
【背景技术】
[0002] 街景地图是一种提供有街景图片的地图。对街景图片中不同区域所对应的景物类 型进行识别是一项重要的处理技术。景物类型可以包括:天空、树木、建筑和路面等。
[0003] 相关技术中,提供了 一种基于分块Gabor特征的静态图片中景物类型识别 的方法,该方法包括两个阶段:在进行景物类型识别前,先建立所要识别景物类型的 SVM(Support Vector Machine,支持向量机)分类模型;对样本图像集提取图像特征,用 SVM分类模型进行训练得分类模型。然后,在进行场景识别时,通过提取街景图片中不同分 块、不同方向和不同尺度的直方图统计值,作为图像特征,输入训练好的分类模型中得出街 景图片中景物类型的识别结果。
[0004] 在实现本发明实施例的过程中,发明人发现上述技术至少存在以下问题:上述方 法是在图像层进行景物类型的识别,仅能够得到一张街景图片的整体的景物类型,或者,一 张街景图片中某个区域的景物类型。

【发明内容】

[0005] 为了解决上述技术的问题,本发明实施例提供了一种网络参数训练方法、景物类 型识别方法及装置。所述技术方案如下:
[0006] 第一方面,提供了一种网络参数训练方法,其特征在于,所述方法包括:
[0007] 获取由不同随机数组成的初始网络参数;
[0008] 获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个 像素点对应有标注后的景物类型;
[0009] 将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到 识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类 型。
[0010] 第二方面,提供了一种景物类型识别方法,所述方法包括:
[0011] 获取目标图像;
[0012] 将所述目标图像输入卷积神经网络中,所述卷积神经网络载入有预先根据样本图 像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像中的每个 像素点对应有标注后的景物类型;
[0013] 根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类 型。
[0014] 第三方面,提供了一种网络参数训练装置,所述装置包括:
[0015] 初始化模块,用于获取由不同随机数组成的初始网络参数;
[0016] 获取模块,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本 图像中的每个像素点对应有标注后的景物类型;
[0017] 训练模块,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行 迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像 素点的景物类型。
[0018] 第四方面,提供了一种景物类型识别装置,所述装置包括:
[0019] 获取模块,用于获取目标图像;
[0020] 识别模块,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神 经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本 图像,所述样本图像中的每个像素点对应有标注后的景物类型;
[0021] 输出模块,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素 点对应的景物类型。
[0022] 本发明实施例提供的技术方案带来的有益效果是:
[0023] 通过将目标图像输入卷积神经网络,得到目标图像中的每个像素点对应的景物类 型;解决了相关技术仅能够得到一张街景图片的整体或某个区域的景物类型的问题;达到 了可以获取到目标图像中每个像素点所对应的景物类型,对街景图片中的景物类型的识别 精度达到了像素级别的效果。
【附图说明】
[0024] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0025] 图1是本发明一个实施例提供的网络参数训练方法的方法流程图。
[0026] 图2是本发明一个实施例提供的景物类型识别方法的方法流程图。
[0027] 图3是本发明另一个实施例提供的网络参数训练方法的方法流程图。
[0028] 图4是本发明另一个实施例提供的网络参数训练方法的方法流程图。
[0029] 图5是本发明另一个实施例提供的网络参数训练方法的方法流程图。
[0030] 图6是本发明另一个实施例提供的网络参数训练方法的方法流程图。
[0031] 图7是本发明另一个实施例提供的景物类型识别方法的方法流程图。
[0032] 图8是本发明另一个实施例提供的景物类型识别方法的方法流程图。
[0033] 图9是本发明另一个实施例提供的网络参数训练方法的方法流程图。
[0034] 图10是本发明另一个实施例提供的景物类型识别方法的方法流程图。
[0035] 图11是本发明一个实施例提供的网络参数训练装置的结构示意图。
[0036] 图12是本发明一个实施例提供的网络参数训练装置的结构示意图。
[0037] 图13是本发明一个实施例提供的卷积单元的结构示意图。
[0038] 图14是本发明一个实施例提供的网络参数训练装置的结构示意图。
[0039] 图15是本发明一个实施例提供的景物类型识别装置的结构示意图。
[0040] 图16是本发明另一个实施例提供的景物类型识别装置的结构示意图。
【具体实施方式】
[0041] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0042] 卷积神经网络是图像识别领域的研究热点。卷积神经网络是一个多层的神经网 络,每层包括多个二维平面,而每个平面包括多个独立神经元,每个神经元对应有权值参 数。卷积神经网络中的神经元可以通过合适的权值参数做出识别结果,这些神经元的具体 形式可以是卷积核,这些权值参数可以统称为网络参数。
[0043] 本发明实施例分为2个阶段:训练阶段和识别阶段。如下所示,图1示出了训练阶 段的步骤,图2示出了识别阶段的步骤。
[0044] 请参考图1,其示出了一种网络参数训练方法的方法流程图。该网络参数训练方法 可以应用在具有计算能力的终端中。该网络参数训练方法,包括:
[0045] 步骤101,获取由不同随机数组成的初始网络参数;
[0046] 网络参数是指卷积神经网络中所使用的参数,网络参数通常包括张量、向量和矩 阵。
[0047] 步骤102,获取样本图像集,样本图像集包括若干张样本图像,每个样本图像中的 每个像素点对应有标注后的景物类型;
[0048] 样本图像集可以由街景图像组成。每个街景图像中的每个像素点都对应有标注后 的景物类型。标注过程可以由人工完成。
[0049] 步骤103,将样本图像输入卷积神经网络中,对初始网络参数进行迭代训练,得到 识别误差符合预设要求的网络参数。
[0050] 该网络参数用于识别目标图像中像素点的景物类型。
[0051] 综上所述,本实施例提供的网络参数训练方法,通过按照像素级别进行景物类型 标注后的样本图像对卷积神经网络所使用的网络参数进行训练,得到识别误差符合预设要 求的网络参数,训练得到的该网络参数可以用于后续的识别过程中。
[0052] 请参考图2,其示出了一种景物类型识别方法的方法流程图。该景物类型识别方法 可以应用在具有计算能力的终端中。该景物类型识别方法,包括:
[0053] 步骤201,获取目标图像。
[0054] 目标图像可以是需要识别景物类型的街景图像。
[0055] 步骤202,将目标图像输入卷积神经网络中进行识别处理,该卷积神经网络载入有 预先根据样本图像集训练得到的网络参数,样本图像集包括若干张样本图像,样本图像中 的每个像素点对应有标注后的景物类型。
[0056] 该网络参数是图1所示实施例所训练得到的网络参数。
[0057] 步骤203,根据卷积神经网络的识别结果,获得目标图像中的像素点对应的景物类 型。
[0058] 综上所述,本实施例提供的景物类型识别方法,通过将目标图像输入卷积神经网 络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景 图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对 应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
[0059] 作为一种可选的实现方式,步骤103可以包括如图3所示的步骤:
[0060] 步骤301,对于第i次迭代过程,将样本图像的每个像素点的原始的叫个通道的数 据,输入卷积神经网络中进行处理,得到每个像素点的n 2个通道的数据,η 2> n i,原始的ηι 个通道是由样本图像输入卷积神经网络时的颜色空间所确定的颜色通道;
[0061] 比如,样本图像中每个像素点的原始状态可以是6个通道的数据,这6个通道的数 据可以根据样本图像的颜色空间所确定的颜色通道来获得,在输入卷积神经网络中进行处 理后,可以得到每个像素点的384个通道的数据。
[0062] 步骤302,根据样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑 回归分析,得到每个像素点对应于各个景物类型的预测概率;
[0063] 比如,景物类型分为4种:天空、树木、建筑和路面,根据每个像素点的384个通道 的数据作为输入数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概 率,也即每个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概 率和对应于路面的预测概率。
[0064] 步骤303,根据每个像素点对应的标注后的景物类型,计算像素点对应的景物类型 的预测概率的误差;
[0065] 由于样本图像中的每个像素点对应有标注后的景物类型,所以可以计算出步骤 202的预测概率的误差。
[0066] 比如,像素点X标注的景物类型为天空,而步骤202中将像素点X的景物类型预测 为天空的概率是P prad(天空)=〇. 6,则该像素点的误差可以为:l-log(P_d(天空))。
[0067] 步骤304,统计样本图像中各个像素点的误差和,检测该误差和是否达到最小或低 于预设阈值;
[0068] 步骤305,若样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对 第i次迭代过程中使用的网络参数进行调整,并执行第i+Ι次迭代过程;
[0069] 其中,第1次迭代过程中使用的网络参数是初始网络参数。
[0070] 若样本图像的误差和达到最小或者低于预设阈值,则将第i次迭代过程中使用的 网络参数确定为识别误差符合预设要求的网络参数。
[0071] 该识别误差符合预设要求的网络参数可以存储在指定位置,以便在识别阶段使 用。如果执行训练过程的终端与执行识别过程的终端是不同的终端,则该网络参数可以由 执行训练过程的终端发送给执行识别过程的终端。
[0072] 在本实现方式中,步骤301中将每个像素点的叫个通道的数据,转换至η 2个通道 的数据,可以使得预测过程中可供参考的数据信息更多,增大识别准确率。其中,η2的大小 可以与景物类型的多少呈正相关关系。也即,如果景物类型的类型数量大,则η 2的数量也 相应增大;如果景物类型的类型数量小,则η2的数量也可以相应减小,从而减少计算量。
[0073] 作为一种可选的实现方式,步骤301可以包括如图4所示的步骤:
[0074] 步骤401,将样本图像的每个像素点的原始的ηι个通道的数据,输入卷积神经网络 中进行至少一层多维卷积处理,变换得到n 3-2个通道的数据,每层多维卷积处理所使用的 张量和纠偏向量是网络参数中的一部分;
[0075] 多维卷积处理可以是采用张量和纠偏向量对输入数据进行多维卷积的一种运算 过程。
[0076] 比如,将样本图像的每个像素点的原始的6个通道的数据,输入卷积神经网络中 进行一层多维卷积处理,变换得252个通道的数据。
[0077] 又比如,为了避免单次多维卷积处理的运算量过大,可以将一层多维卷积处理拆 分为若干层多维卷积处理,第一层多维卷积处理时,先将每个像素点由原始的6个通道的 数据转换为16个通道的数据;第二层多维卷积处理时,将每个像素点由16个通道的数据转 换为48个通道的数据;第三层多维卷积处理时,将每个像素点由48个通道的数据转换为 84个通道的数据,诸如此类,不一一赘述。
[0078] 步骤402,将每个像素点的X坐标和y坐标生成为2个通道的数据,与n3_2个通道 的数据合并为11 3个通道的数据;
[0079] 由于景物类型在一定程度上与像素点在图片中的坐标位置有关,比如景物类型为 天空的像素点通常在图像上方,景物类型为路面的像素点通常在图像下方。本实现方式中, 还可以将每个像素点的X坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252 个通道的数据合并为254个通道的数据。
[0080] 步骤403,将每个像素点的n3个通道的数据使用τ' = W.\: + /)变换为n2个通道的数 据;其中,矩阵W为n2*n3的矩阵,向量b为一个长度为η 2的向量,矩阵W和向量i是网络参 数中的另一部分。
[0081] 在本实现方式中,步骤302中将每个像素点的X坐标和y坐标生成为2个通道的 数据,能够将像素点的坐标作为预测过程中可供参考的数据信息,使得识别准确率更进一 步地提高。特别地,对于诸如天空、地面、路面之类与坐标有关的景物类型的识别准确率有 较好的提升。
[0082] 作为一种可选的实现方式,每个样本图像又包括有m个不同尺度的图像,其中1个 尺度的图像为原始大小的原图,其它m-1个尺度的图像为该原图的缩放图像。此时,上述步 骤401可以包括如图5所示的步骤:
[0083] 步骤501,对于样本图像中的每一尺度的图像,将该图像中每个像素点的ηι个通道 的数据,输入卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n 4个通 道的数据;
[0084] 以m = 3, n4= 84为例,若对每一个尺度的图像进行三层多维卷积处理,则可以在 第一层多维卷积处理时,先将每个像素点由原始的6个通道的数据转换为16个通道的数 据;第二层多维卷积处理时,将每个像素点由16个通道的数据转换为48个通道的数据;第 三层多维卷积处理时,将每个像素点由48个通道的数据转换为84个通道的数据。
[0085] 步骤502,将m-Ι个缩放图像根据插值算法还原为原始大小的图像,与原图一起组 成m个原始大小的图像;
[0086] 以m = 3为例,若第1个缩放图像是原图的1/2大小,则根据插值算法将第1个缩 放图像由1/2大小还原为原始大小;若第2个缩放图像是原图的1/4大小,则根据插值算法 将第2个缩放图像由1/4大小还原为原始大小,最终得到3张原始大小的图像,每个图像中 的像素点都有84个通道的数据。
[0087] 步骤503,将m个原始大小的图像中每个像素点的114个通道的数据进行叠加,得到 每个像素点的n 3-2个通道的数据,m*n4= η 3-2。
[0088] 以m = 3为例,若3张原始大小的图像中的每个像素点的84个通道叠加后,得到 每个像素点的252个通道的数据。
[0089] 在本实现方式中,通过将原图和缩放图像组成多个不同尺度的样本图像来对网络 参数进行训练。当训练得到的网络参数用于识别过程时,可以对不同尺度的目标图像都有 较好的适用性,尽量消除尺度差异对识别结果的影响。
[0090] 需要说明的是,本发明实施例对步骤501中进行几层多维卷积处理不做具体限 定,本领域技术人员可以视运算量要求和终端的实际计算能力而定。多维卷积处理可以使 用已有的多维卷积处理过程。作为一种示意性的例子:
[0091] 对于每层多维卷积处理,设na是每个像素点在处理前的通道数,n b是每个像素点 在处理后的通道数,则一层多维卷积处理包括:
[0092] 1、使用nb*na*m*m的张量对每个像素点的n a个通道的数据进行多维卷积运算;
[0093] 该多维卷积运算相当于对113个通道的数据分别应用nb个m*m的卷积过程,每个通 道得到n b组卷积输出,然后将1个通道中每个通道对应的第i组卷积输出叠加,1 < i < nb, 得到nb个通道的数据。其中,m为奇数。
[0094] 2、将nb个通道的数据与长度为n b的纠偏向量相加,得到纠偏后的n b个通道的数 据;
[0095] 3、将纠偏后的nb个通道的数据应用双曲正切函数处理,得到每个像素点的n b个通 道的数据。其中,双曲正切函数用于将每个通道的数据的取值范围约束为(-1,1)。
[0096] 4、在包括下一层多维卷积处理时,对于当前层多维卷积处理输出的每个图像,将 当前图像划分为a*a大小的小块,将每个小块中的各个像素点的每个通道取最大值作为下 采样结果,并将下采样后的输出数据作为下一层多维卷积处理的输入数据。
[0097] 其中,下采样过程用于保留当前层多维卷积处理提取的图像特征。
[0098] 作为一种可能的实现方式,在将样本图像输入卷积神经网络中之前,也即步骤103 之前,还需要将样本图像预处理为符合卷积神经网络的输入要求的样本图像。此时,在步骤 103之前,还可以包括如图6所示的步骤:
[0099] 步骤601,将样本图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间 包括η个颜色通道;
[0100] 最初版本的样本图像可以仅包括原图。此时,可以将样本图像的原图由原始颜色 空间转换到目标颜色空间,目标颜色空间可以是国际照明委员会CIE系统制定的更符合人 眼认知习惯的LAB颜色空间。LAB颜色空间包括三个颜色通道,其中,L表示亮度,a表示从 洋红色至绿色的范围,b表示从黄色至蓝色的范围。
[0101] 若样本图像的原图是RGB(Red Green Blue,红绿蓝)颜色空间,则可以将样本图像 的原图由RGB颜色空间转换到LAB颜色空间。
[0102] 步骤602,将原图中的每个像素点,根据η个颜色通道中的每个颜色通道分别进行 对比度平滑处理,得到平滑处理后的原图;
[0103] 比如,将原图划分为Η*Η大小的分块,对于每个颜色通道,计算每个分块中各个像 素点在该颜色通道上的平均值5和标准差A,之后对各个像素点进行如下变形:
[0105] 在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为 1。Η是原图的行和列能够整除的正整数,比如,原图为分辨率320*240的图像,则Η可以为 16。
[0106] 步骤603,将原图和平滑处理后的原图合并为拥有2η个颜色通道的原图,2η = ηι;
[0107] 原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括 3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
[0108] 步骤604,将拥有ηι个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放 图像;
[0109] 以m = 3为例,将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩 放为1/4大小的一张缩放图像。
[0110] 步骤605,将拥有ηι个颜色通道的原图和m-ι个缩放图像作为符合卷积神经网络 的输入要求的样本图像。
[0111] 将原图和两张缩放图像作为同一个样本图像的三个不同尺度的图像,作为符合卷 积神经网络的输入要求的样本图像。
[0112] 在本实现方式中,通过将原图由原始颜色空间转换至目标颜色空间,使得识别结 果更符合人眼认知习惯,增加识别准确率。但需要说明的是,步骤601为可选步骤。
[0113] 在本实现方式中,还通过将原图和缩放图像组成多个不同尺度的样本图像来对网 络参数进行训练。当训练得到的网络参数用于识别过程时,可以对不同尺度的目标图像都 有较好的适用性,尽量消除尺度差异对识别结果的影响。
[0114] 识别阶段与训练阶段的处理过程有一定程度的相似,如下所述:
[0115] 作为一种可能的实现方式,在将目标图像输入卷积神经网络中之前,也即步骤202 之前,还需要将目标图像预处理为符合卷积神经网络的输入要求的目标图像。此时,在步骤 202之前,还可以包括如图7所示的步骤:
[0116] 步骤701,将目标图像的原图由原始颜色空间转换到目标颜色空间,目标颜色空间 包括η个颜色通道;
[0117] 最初版本的目标图像可以仅包括原图。此时,可以将目标图像的原图由原始颜色 空间转换到目标颜色空间,目标颜色空间可以是国际照明委员会CIE系统制定的更符合人 眼认知习惯的LAB颜色空间。LAB颜色空间包括三个颜色通道,其中,L表示亮度,a表示从 洋红色至绿色的范围,b表示从黄色至蓝色的范围。
[0118] 若目标图像的原图是RGB(Red Green Blue,红绿蓝)颜色空间,则可以将目标图像 的原图由RGB颜色空间转换到LAB颜色空间。
[0119] 步骤702,将原图中的每个像素点,根据η个颜色通道中的每个颜色通道分别进行 对比度平滑处理,得到平滑处理后的原图;
[0120] 比如,将原图划分为Η*Η大小的分块,对于每个颜色通道,计算每个分块中各个像 素点在该颜色通道上的平均值i和标准差A,之后对各个像素点进行如下变形:
[0122] 在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为 1。Η是原图的行和列能够整除的正整数,比如,原图为分辨率320*240的图像,则Η可以为 16。
[0123] 步骤703,将原图和平滑处理后的原图合并为拥有2η个颜色通道的原图,2η = η1;
[0124] 原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括 3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
[0125] 步骤704,将拥有ηι个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放 图像;
[0126] 以m = 3为例,将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩 放为1/4大小的一张缩放图像。
[0127] 步骤705,将拥有ηι个颜色通道的原图和m-Ι个缩放图像作为符合卷积神经网络 的输入要求的目标图像。
[0128] 将原图和两张缩放图像作为同一个目标图像的三个不同尺度的图像,作为符合卷 积神经网络的输入要求的目标图像。
[0129] 作为一种可能的实现方式,步骤202还包括如图8所示的步骤:
[0130] 步骤801,将目标图像的每个像素点的原始的ηι个通道的数据,输入卷积神经网络 中进行处理,得到每个像素点的n 2个通道的数据,η 2> n i,原始的ηι个通道是由目标图像 输入卷积神经网络时的颜色空间所确定的颜色通道,该卷积神经网络中载入有预先根据样 本图像集训练得到的网络参数;
[0131] 该步骤的实现方式与步骤301基本相同,区别仅在于步骤301为对样本图像的处 理,卷积神经网络中载入的网络参数是未训练好的网络参数;而步骤801为对目标图像的 处理,卷积神经网络中载入的网络参数是已训练好的网络参数。相应的处理细节可以参考 上述步骤301的子步骤,本文不再赘述。
[0132] 步骤802,根据目标图像的每个像素点的叫个通道的数据作为输入数据,进行逻辑 回归分析,得到每个像素点对应于各个景物类型的预测概率。
[0133] 对应地,步骤203包括如下步骤803 :
[0134] 步骤803,对于每个像素点,将该像素点对应于各个景物类型的预测概率中,最高 的一个预测概率所对应的景物类型,作为该像素点的景物类型。
[0135] 为了更详细、直观地阐述本发明实施例,下述两个实施例采用具体的各个参数来 分别阐述上述训练过程和识别过程,但是并不对各个参数的具体取值进行限定,仅为示意 说明。并且,这2个实施例可以由同一个终端执行,也可以由不同的终端执行。
[0136] 请参考图9,其示出了本发明一个实施例提供的网络参数训练方法的方法流程图。 该网络参数训练方法可以应用在具有计算能力的终端中。该网络参数训练方法,包括:
[0137] -、样本图像预处理阶段。
[0138] 步骤901,获取样本图像集,样本图像集包括若干张样本图像,每个样本图像中的 每个像素点对应有标注后的景物类型;
[0139] 样本图像集可以由街景图像组成。每个街景图像中的每个像素点都对应有标注后 的景物类型。标注过程可以由人工完成。
[0140] 每个像素点的景物类型可以是天空、树木、建筑和路面中的一种。
[0141] 步骤902,将样本图像的原图由RGB颜色空间转换到LAB颜色空间,LAB颜色空间 包括3个颜色通道;
[0142] 样本图像初始仅包括采用RGB颜色空间表示的原图。此时,将样本图像的原图由 RGB颜色空间转换到LAB颜色空间。
[0143] 步骤903,将原图中的每个像素点,根据3个颜色通道中的每个颜色通道分别进行 对比度平滑处理,得到平滑处理后的原图;
[0144] 将原图划分为32像素 *32像素大小的分块,对于每个颜色通道,计算每个分块中 各个像素点在该颜色通道上的平均值?和标准差A,之后对各个像素点进行如下变形:
[0146] 在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为 1〇
[0147] 步骤904,将原图和平滑处理后的原图合并为拥有6个颜色通道的原图;
[0148] 原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括 3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
[0149] 步骤905,将原图根据不同的缩放比例缩放得到2个缩放图像;
[0150] 将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小 的一张缩放图像。
[0151] 步骤906,将原图和2个缩放图像作为符合卷积神经网络的输入要求的样本图像;
[0152] 将原图和两张缩放图像作为同一个样本图像的三个不同尺度的图像,作为符合卷 积神经网络的输入要求的样本图像。
[0153] 显然,对于样本图像集中的每个样本图像,都包括有三个不同尺度的图像。
[0154] 二、参数训练阶段。
[0155] 下述步骤907至步骤915示出了一次迭代过程:
[0156] 步骤907,对于样本图像中的每一尺度的图像,将该图像中每个像素点的6个通道 的数据,输入卷积神经网络中进行3层多维卷积处理,变换得到每个像素点的84个通道的 数据;
[0157] 在第一层多维卷积处理时,使用一个16*6*7*7的第一张量对每个像素点的6个通 道的数据进行多维卷积处理,该多维卷积处理相当于对6个通道的数据分别应用16个7*7 的卷积过程,每个通道得到16组卷积输出,然后将6个通道中每个通道对应的第i组卷积 输出叠加,1 < i < 16,得到每个像素点的16个通道的数据。
[0158] 然后将每个像素点的16个通道的数据与长度为16的第一纠偏向量相加,得到每 个像素点纠偏后的16个通道的数据,再对将纠偏后的16个通道的数据应用双曲正切函数 处理,得到每个像素点的16个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1);
[0159] 然后,对第一层多维卷积处理输出的每个图像,将该图像划分为2像素 *2像素大 小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采 样后的输出数据作为第二层多维卷积处理的输入数据。
[0160] 在第二层多维卷积处理时,使用一个48*16*7*7的第二张量对每个像素点的16个 通道的数据进行多维卷积处理,该多维卷积处理相当于对16个通道的数据分别应用48个 7*7的卷积过程,每个通道得到48组卷积输出,然后将16个通道中每个通道对应的第i组 卷积输出叠加,1 < i < 48,得到每个像素点的48个通道的数据。
[0161] 然后将每个像素点的48个通道的数据与长度为48的第二纠偏向量相加,得到每 个像素点纠偏后的48个通道的数据,再对将纠偏后的48个通道的数据应用双曲正切函数 处理,得到每个像素点的48个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1);
[0162] 然后,对第二层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大 小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采 样后的输出数据作为第三层多维卷积处理的输入数据。
[0163] 在第三层多维卷积处理时,使用一个84*48*7*7的第二张量对每个像素点的48个 通道的数据进行多维卷积处理,该多维卷积处理相当于对48个通道的数据分别应用48个 7*7的卷积过程,每个通道得到84组卷积输出,然后将48个通道中每个通道对应的第i组 卷积输出叠加,1 < i < 84,得到每个像素点的84个通道的数据。
[0164] 然后将每个像素点的84个通道的数据与长度为84的第三纠偏向量相加,得到每 个像素点纠偏后的84个通道的数据,再对将纠偏后的84个通道的数据应用双曲正切函数 处理,得到每个像素点的84个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1)。
[0165] 步骤908,将2个缩放图像根据插值算法还原为原始大小的图像,与原图一起组成 3个原始大小的图像;
[0166] 由于同一个样本图像包括原图、第1个缩放图像和第2个缩放图像,第1个缩放图 像是原图的1/2大小,则根据插值算法将第1个缩放图像由1/2大小还原为原始大小;第2 个缩放图像是原图的1/4大小,则根据插值算法将第2个缩放图像由1/4大小还原为原始 大小,最终得到3张原始大小的图像,每个图像中的像素点都有84个通道的数据。
[0167] 步骤909,将3个原始大小的图像中每个像素点的84个通道的数据进行叠加,得到 每个像素点的252个通道的数据;
[0168] 对于同一个样本图像的3个原始大小的图像,将3个图像中每个像素点的84个通 道的数据进行叠加,得到每个像素点的252个通道的数据。
[0169] 步骤910,将每个像素点的X坐标和y坐标生成为2个通道的数据,与252个通道 的数据合并为254个通道的数据;
[0170] 由于景物类型在一定程度上与像素点在图片中的坐标位置有关,比如景物类型为 天空的像素点通常在图像上方,景物类型为路面的像素点通常在图像下方。将每个像素点 的X坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252个通道的数据合并为 254个通道的数据。
[0171 ] 步骤911,将每个像素点的252个通道的数据使用.r' = + 变换为384个通道的 数据;其中,矩阵W为384*252的矩阵,向量g为一个长度为384的向量。
[0172] 至此,每个样本图像都变成一张原始大小的图像,该图像中的每个像素点拥有384 个通道。
[0173] 步骤912,根据样本图像的每个像素点的384个通道的数据作为输入数据,进行逻 辑回归分析,得到每个像素点对应于4种景物类型的预测概率;
[0174] 根据每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每 个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概率和对应 于路面的预测概率。
[0175] 步骤913,根据每个像素点对应的标注后的景物类型,计算像素点对应的景物类型 的预测概率的误差;
[0176] 由于样本图像中的每个像素点对应有标注后的景物类型,所以可以计算出步骤 912的预测概率的误差。
[0177] 如果采用负对数信度作为误差的量化标准,对于一个像素点,如果它被标注为 景物类别i,且在步骤912中被预测为景物类别i的概率为P_ d(i),则该像素点的误差 为-log(Ppred ⑴)。
[0178] 比如,像素点X被标注的景物类型为天空,而步骤912中将像素点X的景物类型预 测为天空的概率是P prad(天空)=〇. 6,则该像素点的误差可以为:l-log(P_d(天空))。
[0179] 步骤914,统计样本图像中各个像素点的误差和,检测该误差和是否达到最小或低 于预设阈值;
[0180] 步骤915,若样本图像的误差和未达到最小或低于预设阈值,则采用梯度下降法对 本次迭代过程中使用的网络参数进行调整,并执行下一次迭代过程;
[0181] 其中,第1次迭代过程中使用的网络参数是初始网络参数,也即通过不同随机数 所组成的初始网络参数。
[0182] 网络参数包括每次多维卷积处理中所使用的张量和向量、矩阵W和向量?5,比如本 实施例中的第一张量、第一向量、第二张量、第二向量、第三张量、第三向量、矩阵W和向量 b 〇:
[0183] 步骤916,若样本图像的误差和达到最小或者低于预设阈值,则将最后一次迭代过 程中使用的网络参数确定为识别误差符合预设要求的网络参数。
[0184] 当样本图像的误差和达到最小或者低于预设阈值,训练过程完毕,则将最后一次 迭代过程中使用的网络参数确定为识别误差符合预设要求的网络参数。
[0185] 该识别误差符合预设要求的网络参数可以存储在指定位置,以便在识别阶段使 用。如果执行训练过程的终端与执行识别过程的终端是不同的终端,则该网络参数可以由 执行训练过程的终端发送给执行识别过程的终端。
[0186] 请参考图10,其示出了本发明一个实施例示出的景物类别识别方法的方法流程 图。该景物类型识别方法可以应用在具有计算能力的终端中。该景物类型识别方法,包括:
[0187] -、目标图像预处理阶段。
[0188] 步骤1001,获取目标图像;
[0189] 目标图像可以街景图像。
[0190] 步骤1002,将目标图像的原图由RGB颜色空间转换到LAB颜色空间,LAB颜色空间 包括3个颜色通道;
[0191] 目标图像初始仅包括采用RGB颜色空间表示的原图。此时,将目标图像的原图由 RGB颜色空间转换到LAB颜色空间。
[0192] 步骤1003,将原图中的每个像素点,根据3个颜色通道中的每个颜色通道分别进 行对比度平滑处理,得到平滑处理后的原图;
[0193] 将原图划分为32像素*32像素大小的分块,对于每个颜色通道,计算每个分块中 各个像素点在该颜色通道上的平均值?和标准差A,之后对各个像素点进行如下变形:
[0195] 在这样的变形之后,每一个分块内各个颜色通道的各个像素点的均值为0,方差为 1〇
[0196] 步骤1004,将原图和平滑处理后的原图合并为拥有6个颜色通道的原图,2n = n1;
[0197] 原图中的每个像素点包括3个颜色通道,平滑处理后的原图中的每个像素点包括 3个颜色通道。将原图和平滑处理后的原图合并后,得到一张拥有6个颜色通道的原图。
[0198] 步骤1005,将原图根据不同的缩放比例缩放得到2个缩放图像;
[0199] 将拥有6个颜色通道的原图,缩放为1/2大小的一张缩放图像和缩放为1/4大小 的一张缩放图像。
[0200] 步骤1006,将原图和2个缩放图像作为符合卷积神经网络的输入要求的目标图 像;
[0201] 将原图和两张缩放图像作为同一个目标图像的三个不同尺度的图像,作为符合卷 积神经网络的输入要求的目标图像。
[0202] 二、识别阶段。
[0203] 步骤1007,对于目标图像中的每一尺度的图像,将该图像中每个像素点的6个通 道的数据,输入卷积神经网络中进行3层多维卷积处理,变换得到每个像素点的84个通道 的数据,该卷积神经网络中载入有预先根据样本图像集训练得到的网络参数;
[0204] 该网络参数可以是图9实施例所训练得到的网络参数。
[0205] 在第一层多维卷积处理时,使用一个16*6*7*7的第一张量对每个像素点的6个通 道的数据进行多维卷积处理,该多维卷积处理相当于对6个通道的数据分别应用16个7*7 的卷积过程,每个通道得到16组卷积输出,然后将6个通道中每个通道对应的第i组卷积 输出叠加,1 < i < 16,得到每个像素点的16个通道的数据。
[0206] 然后将每个像素点的16个通道的数据与长度为16的第一纠偏向量相加,得到每 个像素点纠偏后的16个通道的数据,再对将纠偏后的16个通道的数据应用双曲正切函数 处理,得到每个像素点的16个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1);
[0207] 然后,对第一层多维卷积处理输出的每个图像,将该图像划分为2像素 *2像素大 小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采 样后的输出数据作为第二层多维卷积处理的输入数据。
[0208] 在第二层多维卷积处理时,使用一个48*16*7*7的第二张量对每个像素点的16个 通道的数据进行多维卷积处理,该多维卷积处理相当于对16个通道的数据分别应用48个 7*7的卷积过程,每个通道得到48组卷积输出,然后将16个通道中每个通道对应的第i组 卷积输出叠加,1 < i < 48,得到每个像素点的48个通道的数据。
[0209] 然后将每个像素点的48个通道的数据与长度为48的第二纠偏向量相加,得到每 个像素点纠偏后的48个通道的数据,再对将纠偏后的48个通道的数据应用双曲正切函数 处理,得到每个像素点的48个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1);
[0210] 然后,对第二层多维卷积处理输出的每个图像,将该图像划分为2像素*2像素大 小的小块,将每个小块中的各个像素点中的每个通道取最大值作为下采样结果,并将下采 样后的输出数据作为第三层多维卷积处理的输入数据。
[0211] 在第三层多维卷积处理时,使用一个84*48*7*7的第二张量对每个像素点的48个 通道的数据进行多维卷积处理,该多维卷积处理相当于对48个通道的数据分别应用48个 7*7的卷积过程,每个通道得到84组卷积输出,然后将48个通道中每个通道对应的第i组 卷积输出叠加,1 < i < 84,得到每个像素点的84个通道的数据。
[0212] 然后将每个像素点的84个通道的数据与长度为84的第三纠偏向量相加,得到每 个像素点纠偏后的84个通道的数据,再对将纠偏后的84个通道的数据应用双曲正切函数 处理,得到每个像素点的84个通道的数据。其中,双曲正切函数用于将每个通道的数据的 取值范围约束为(-1,1)。
[0213] 步骤1008,将2个缩放图像根据插值算法还原为原始大小的图像,与原图一起组 成3个原始大小的图像;
[0214] 由于输入的目标图像包括原图、第1个缩放图像和第2个缩放图像,第1个缩放图 像是原图的1/2大小,则根据插值算法将第1个缩放图像由1/2大小还原为原始大小;第2 个缩放图像是原图的1/4大小,则根据插值算法将第2个缩放图像由1/4大小还原为原始 大小,最终得到3张原始大小的图像,每个图像中的像素点都有84个通道的数据。
[0215] 步骤1009,将3个原始大小的图像中每个像素点的84个通道的数据进行叠加,得 到每个像素点的252个通道的数据;
[0216] 对于目标图像的3个原始大小的图像,将3个图像中每个像素点的84个通道的数 据进行叠加,得到每个像素点的252个通道的数据。
[0217] 步骤1010,将每个像素点的X坐标和y坐标生成为2个通道的数据,与252个通道 的数据合并为254个通道的数据;
[0218] 将每个像素点的X坐标和y坐标生成为2个通道的数据,与上一步骤中得到的252 个通道的数据合并为254个通道的数据。
[0219] 步骤1011,将每个像素点的252个通道的数据使用χ' = \ν.\· + Α变换为384个通道 的数据;其中,矩阵W为384*252的矩阵,向量g为一个长度为384的向量。
[0220] 至此,目标图像变成一张原始大小的图像,该图像中的每个像素点拥有384个通 道。
[0221] 步骤1012,根据目标图像的每个像素点的384个通道的数据作为输入数据,进行 逻辑回归分析,得到每个像素点对应于4种景物类型的预测概率;
[0222] 根据每个像素点的384个通道的数据作为输入数据,进行逻辑回归分析,得到每 个像素点对应于天空的预测概率、对应于树木的预测概率、对应于建筑的预测概率和对应 于路面的预测概率。
[0223] 步骤1013,对于每个像素点,将该像素点对应于各个景物类型的预测概率中,最高 的一个预测概率所对应的景物类型,作为该像素点的景物类型。
[0224] 比如,对于1个像素点,对应于天空的预测概率为0. 1、对应于树木的预测概率为 0. 05、对应于建筑的预测概率为0. 05和对应于路面的预测概率为0. 8,则将路面作为该像 素点的景物类型。
[0225] 以下为本发明的装置实施例,其中未详细阐述的部分可以参考上述对应的方法实 施例。
[0226] 请参考图11,其示出了本发明一个实施例提供的网络参数训练装置的结构示意 图。该网络参数训练装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部 分。该网络参数训练装置包括:
[0227] 初始化模块1110,用于获取由不同随机数组成的初始网络参数;
[0228] 获取模块1120,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述 样本图像中的每个像素点对应有标注后的景物类型;
[0229] 训练模块1130,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数 进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像 中像素点的景物类型。
[0230] 综上所述,本实施例提供的网络参数训练装置,通过按照像素级别进行景物类型 标注后的样本图像对卷积神经网络所使用的网络参数进行训练,得到识别误差符合预设要 求的网络参数,训练得到的该网络参数可以用于后续的识别过程中。
[0231] 请参考图12,其示出了本发明另一个实施例提供的景物类型识别装置的结构方框 图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部 分。该景物类型识别装置包括:
[0232] 初始化模块1110,用于获取由不同随机数组成的初始网络参数;
[0233] 获取模块1120,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述 样本图像中的每个像素点对应有标注后的景物类型;
[0234] 训练模块1130,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数 进行迭代训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像 中像素点的景物类型。
[0235] 可选地,所述训练模块1130,包括:
[0236] 卷积单元1131,用于对于第i次迭代过程,将所述样本图像的每个像素点的原始 的叫个通道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的η 2个通道的数 据,n2> n i,所述原始的ηι个通道是由所述样本图像输入所述卷积神经网络时的颜色空间 所确定的颜色通道;
[0237] 分析单元1132,用于根据所述样本图像的每个像素点的112个通道的数据作为输入 数据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率;
[0238] 计算单元1133,用于根据每个像素点对应的标注后的景物类型,计算所述像素点 对应的景物类型的预测概率的误差;
[0239] 统计单元1134,用于统计所述样本图像各个像素点的误差和,检测所述误差和是 否达到最小或低于预设阈值;
[0240] 迭代单元1135,用于若所述样本图像的误差和未达到最小或低于预设阈值,则采 用梯度下降法对所述第i次迭代过程中使用的网络参数进行调整,并执行第i+Ι次迭代过 程;
[0241] 其中,第1次迭代过程中使用的网络参数是所述初始网络参数。
[0242] 可选地,所述卷积单元1131,包括如图13所示的子单元:
[0243] 卷积子单元1131a,用于将所述样本图像的每个像素点的原始的叫个通道的数据, 输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到n 3_2个通道的数据,每层 多维卷积处理所使用的张量和纠偏向量是所述网络参数中的一部分;
[0244] 坐标子单元1131b,用于将每个像素点的11坐标和y坐标生成为2个通道的数据, 与所述n 3_2个通道的数据合并为叫个通道的数据;
[0245] 变换子单元1131c,用于将每个像素点的n3个通道的数据使用= + δ变换为 所述η2个通道的数据;其中,矩阵W为η 2*η3的矩阵,向量石为一个长度为η2的向量,所述矩 阵W和所述向量?是所述网络参数中的另一部分。
[0246] 可选地,所述样本图像包括m个不同尺度的图像,其中1个尺度的图像为原始大小 的原图,其它m-1个尺度的图像为所述原图的缩放图像;
[0247] 所述卷积子单元1131a,具体用于:
[0248] 对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的1^个通道的 数据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的11 4个 通道的数据;
[0249] 将所述m-Ι个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组 成m个原始大小的图像;
[0250] 将所述m个原始大小的图像中每个像素点的114个通道的数据进行叠加,得到每个 像素点的n 3-2个通道的数据,m*n4= η 3-2。
[0251] 可选地,所述装置,还包括:样本预处理模块1125,如图14所示。
[0252] 样本预处理模块1125,用于将所述样本图像预处理为符合所述卷积神经网络的输 入要求的样本图像。
[0253] 可选地,所述样本预处理模块1125,用于:
[0254] 将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间 包括η个颜色通道;
[0255] 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行 对比度平滑处理,得到平滑处理后的所述原图;
[0256] 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = η1;
[0257] 将所述拥有ηι个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
[0258] 将所述拥有ηι个颜色通道的原图和m-Ι个所述缩放图像作为所述符合所述卷积 神经网络的输入要求的样本图像。
[0259] 综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网 络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景 图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对 应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
[0260] 需要说明的是:上述实施例提供的网络参数训练装置在训练网络参数时,仅以上 述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同 的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或 者部分功能。另外,上述实施例提供的网络参数训练装置与网络参数训练方法实施例属于 同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0261] 请参考图15,其示出了本发明一个实施例提供的景物类型识别装置的结构方框 图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部 分。该景物类型识别装置包括:
[0262] 获取模块1140,用于获取目标图像;
[0263] 识别模块1150,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷 积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张 样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
[0264] 输出模块1160,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的 像素点对应的景物类型。
[0265] 综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网 络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景 图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对 应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
[0266] 请参考图16,其示出了本发明一个实施例提供的景物类型识别装置的结构方框 图。该景物类型识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部 分。该景物类型识别装置包括:
[0267] 获取模块1140,用于获取目标图像;
[0268] 识别模块1150,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷 积神经网络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张 样本图像,所述样本图像中的每个像素点对应有标注后的景物类型;
[0269] 输出模块1160,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的 像素点对应的景物类型。
[0270] 可选地,所述装置,还包括:目标预处理模块1155。
[0271] 目标预处理模块1155,用于将所述目标图像预处理为符合所述卷积神经网络的输 入要求的目标图像。
[0272] 可选地,所述目标预处理模块1155,用于:
[0273] 将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间 包括η个颜色通道;
[0274] 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行 对比度平滑处理,得到平滑处理后的所述原图;
[0275] 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = n1;
[0276] 将所述拥有ηι个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像;
[0277] 将所述拥有ηι个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积 神经网络的输入要求的目标图像。
[0278] 可选地,所述识别模块1150,包括:
[0279] 输入单元,用于将所述目标图像的每个像素点的原始的叫个通道的数据,输入所 述卷积神经网络中进行处理,得到每个像素点的n 2个通道的数据,η 2> n i,所述原始的叫个 通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道。
[0280] 分析单元,用于根据所述目标图像的每个像素点的n2个通道的数据作为输入数 据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率。
[0281] 可选地,所述输出模块1160,用于对于每个像素点,将所述像素点对应于各个景物 类型的预测概率中,最高的一个预测概率所对应的景物类型,作为所述像素点的景物类型。
[0282] 综上所述,本实施例提供的景物类型识别装置,通过将目标图像输入卷积神经网 络,得到目标图像中的每个像素点对应的景物类型;解决了相关技术仅能够得到一张街景 图片的整体或某个区域的景物类型的问题;达到了可以获取到目标图像中每个像素点所对 应的景物类型,对街景图片中的景物类型的识别精度达到了像素级别的效果。
[0283] 需要说明的是:上述实施例提供的景物类型识别装置在识别景物类型时,仅以上 述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同 的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或 者部分功能。另外,上述实施例提供的景物类型识别装置与景物类型识别方法实施例属于 同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0284] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0285] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件 来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读 存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0286] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种网络参数训练方法,其特征在于,所述方法包括: 获取由不同随机数组成的初始网络参数; 获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像中的每个像素 点对应有标注后的景物类型; 将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代训练,得到识别 误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点的景物类型。2. 根据权利要求1所述的方法,其特征在于,所述将所述样本图像输入卷积神经网络 中,对所述初始网络参数进行迭代训练,得到识别误差符合预设要求的网络参数,包括: 对于第i次迭代过程,将所述样本图像的每个像素点的原始的h个通道的数据,输入 所述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,η 2> n i,所述原始的ηι 个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道; 根据所述样本图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分 析,得到每个像素点对应于各个景物类型的预测概率; 根据每个像素点对应的标注后的景物类型,计算所述像素点对应的景物类型的预测概 率的误差; 统计所述样本图像中各个像素点的误差和,检测所述误差和是否达到最小或低于预设 阈值; 若所述误差和未达到最小或低于预设阈值,则采用梯度下降法对所述第i次迭代过程 中使用的网络参数进行调整,并执行第i+Ι次迭代过程; 其中,第1次迭代过程中使用的网络参数是所述初始网络参数。3. 根据权利要求2所述的方法,其特征在于,所述将所述样本图像的每个像素点的原 始的h个通道的数据,输入所述卷积神经网络中进行处理,变换得到每个像素点的η 2个通 道的数据,包括: 将所述样本图像的每个像素点的原始的~个通道的数据,输入所述卷积神经网络中进 行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积处理所使用的张量 和纠偏向量是所述网络参数中的一部分; 将每个像素点的X坐标和y坐标生成为2个通道的数据,与所述n3-2个通道的数据合 并为叫个通道的数据; 将每个像素点的n3个通道的数据使用i=Wx_f/)变换为所述叫个通道的数据;其中, 矩阵W为n2*n3的矩阵,向量|为一个长度为n2的向量,所述矩阵W和所述向量g是所述网 络参数中的另一部分。4. 根据权利要求3所述的方法,其特征在于,所述样本图像包括m个不同尺度的图像, 其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为所述原图的缩放图像; 所述将所述样本图像的每个像素点的原始的~个通道的数据,输入所述卷积神经网络 中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,包括: 对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的~个通道的数 据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通 道的数据; 将所述m-1个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组成m 个原始大小的图像; 将所述m个原始大小的图像中每个像素点的114个通道的数据进行叠加,得到每个像素 点的n3-2个通道的数据,m*n4= η 3-2。5. 根据权利要求1至4任一所述的方法,其特征在于,所述将所述样本图像输入卷积神 经网络中进行识别处理之前,还包括: 将所述样本图像预处理为符合所述卷积神经网络的输入要求的样本图像。6. 根据权利要求5所述的方法,其特征在于,所述将所述样本图像预处理为符合所述 卷积神经网络的输入要求的样本图像,包括: 将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括 η个颜色通道; 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行对比 度平滑处理,得到平滑处理后的所述原图; 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = η1; 将所述拥有h个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像; 将所述拥有h个颜色通道的原图和m-Ι个所述缩放图像作为所述符合所述卷积神经 网络的输入要求的样本图像。7. -种景物类型识别方法,其特征在于,所述方法包括: 获取目标图像; 将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网络载入有预先根 据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图像,所述样本图像 中的每个像素点对应有标注后的景物类型; 根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对应的景物类型。8. 根据权利要求7所述的方法,其特征在于,所述将所述目标图像输入卷积神经网络 中进行识别处理,包括: 将所述目标图像的每个像素点的原始的~个通道的数据,输入所述卷积神经网络中进 行处理,得到每个像素点的n2个通道的数据,n2> n i,所述原始的ηι个通道是由所述样本 图像输入所述卷积神经网络时的颜色空间所确定的颜色通道; 根据所述目标图像的每个像素点的n2个通道的数据作为输入数据,进行逻辑回归分 析,得到每个像素点对应于各个景物类型的预测概率; 对于每个像素点,将所述像素点对应于各个景物类型的预测概率中,最高的一个预测 概率所对应的景物类型,作为所述像素点的景物类型。9. 根据权利要求7或8所述的方法,其特征在于,所述将所述目标图像输入卷积神经网 络之前,包括: 将所述目标图像预处理为符合所述卷积神经网络的输入要求的目标图像。10. 根据权利要求9所述的方法,其特征在于,所述将所述目标图像预处理为符合所述 卷积神经网络的输入要求的目标图像,包括: 将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括 η个颜色通道; 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行对比 度平滑处理,得到平滑处理后的所述原图; 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = η1; 将所述拥有h个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像; 将所述拥有h个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经 网络的输入要求的目标图像。11. 一种网络参数训练装置,其特征在于,所述装置,还包括: 初始化模块,用于获取由不同随机数组成的初始网络参数; 获取模块,用于获取样本图像集,所述样本图像集包括若干张样本图像,所述样本图像 中的每个像素点对应有标注后的景物类型; 训练模块,用于将所述样本图像输入卷积神经网络中,对所述初始网络参数进行迭代 训练,得到识别误差符合预设要求的网络参数,所述网络参数用于识别目标图像中像素点 的景物类型。12. 根据权利要求11所述的装置,其特征在于,所述训练模块,包括: 卷积单元,用于对于第i次迭代过程,将所述样本图像的每个像素点的原始的^个通 道的数据,输入所述卷积神经网络中进行处理,得到每个像素点的112个通道的数据,η 2> 叫,所述原始的~个通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的 颜色通道; 分析单元,用于根据所述样本图像的每个像素点的n2个通道的数据作为输入数据,进 行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率; 计算单元,用于根据每个像素点对应的标注后的景物类型,计算所述像素点对应的景 物类型的预测概率的误差; 统计单元,用于统计所述样本图像中各个像素点的误差和,检测所述误差和是否达到 最小或低于预设阈值; 迭代单元,用于若所述样本图像的误差和未达到最小或低于预设阈值,则采用梯度下 降法对所述第i次迭代过程中使用的网络参数进行调整,并执行第i+Ι次迭代过程; 其中,第1次迭代过程中使用的网络参数是所述初始网络参数。13. 根据权利要求12所述的装置,其特征在于,所述卷积单元,包括: 卷积子单元,用于将所述样本图像的每个像素点的原始的叫个通道的数据,输入所述 卷积神经网络中进行至少一层多维卷积处理,变换得到n3-2个通道的数据,每层多维卷积 处理所使用的张量和纠偏向量是所述网络参数中的一部分; 坐标子单元,用于将每个像素点的X坐标和y坐标生成为2个通道的数据,与所述n3-2 个通道的数据合并为叫个通道的数据; 变换子单元,用于将每个像素点的n3个通道的数据使用τ'= \\'λ: + 6变换为所述112个 通道的数据;其中,矩阵胃为η2*η3的矩阵,向量g为一个长度为η2的向量,所述矩阵W和所 述向量I是所述网络参数中的另一部分。14. 根据权利要求13所述的装置,其特征在于,所述样本图像包括m个不同尺度的图 像,其中1个尺度的图像为原始大小的原图,其它m-1个尺度的图像为所述原图的缩放图 像; 所述卷积子单元,具体用于: 对于所述样本图像中的每一尺度的图像,将所述图像中每个像素点的~个通道的数 据,输入所述卷积神经网络中进行至少一层多维卷积处理,变换得到每个像素点的n4个通 道的数据; 将所述m-1个缩放图像根据插值算法还原为原始大小的图像,与所述原图一起组成m 个原始大小的图像; 将所述m个原始大小的图像中每个像素点的114个通道的数据进行叠加,得到每个像素 点的n3-2个通道的数据,m*n4= η 3-2。15. 根据权利要求11至14任一所述的装置,其特征在于,所述装置,还包括: 样本预处理模块,用于将所述样本图像预处理为符合所述卷积神经网络的输入要求的 样本图像。16. 根据权利要求15所述的装置,其特征在于,所述样本预处理模块,用于: 将所述样本图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括 η个颜色通道; 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行对比 度平滑处理,得到平滑处理后的所述原图; 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = η1; 将所述拥有h个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像; 将所述拥有h个颜色通道的原图和m-Ι个所述缩放图像作为所述符合所述卷积神经 网络的输入要求的样本图像。17. -种景物类型识别装置,其特征在于,所述装置包括: 获取模块,用于获取目标图像; 识别模块,用于将所述目标图像输入卷积神经网络中进行识别处理,所述卷积神经网 络载入有预先根据样本图像集训练得到的网络参数,所述样本图像集包括若干张样本图 像,所述样本图像中的每个像素点对应有标注后的景物类型; 输出模块,用于根据所述卷积神经网络的识别结果,获得所述目标图像中的像素点对 应的景物类型。18. 根据权利要求17所述的装置,其特征在于, 所述识别模块,包括:输入单元和分析单元; 所述输入单元,用于将所述目标图像的每个像素点的原始的叫个通道的数据,输入所 述卷积神经网络中进行处理,得到每个像素点的n2个通道的数据,η 2> n i,所述原始的叫个 通道是由所述样本图像输入所述卷积神经网络时的颜色空间所确定的颜色通道; 所述分析单元,用于根据所述目标图像的每个像素点的n2个通道的数据作为输入数 据,进行逻辑回归分析,得到每个像素点对应于各个景物类型的预测概率; 所述输出模块,用于对于每个像素点,将所述像素点对应于各个景物类型的预测概率 中,最高的一个预测概率所对应的景物类型,作为所述像素点的景物类型。19. 根据权利要求17或18所述的装置,其特征在于,所述装置,还包括: 目标预处理模块,用于将所述目标图像预处理为符合所述卷积神经网络的输入要求的 目标图像。20.根据权利要求19所述的装置,其特征在于,所述目标预处理模块,用于: 将所述目标图像的原图由原始颜色空间转换到目标颜色空间,所述目标颜色空间包括 η个颜色通道; 将所述原图中的每个像素点,根据所述η个颜色通道中的每个颜色通道分别进行对比 度平滑处理,得到平滑处理后的所述原图; 将所述原图和平滑处理后的所述原图合并为拥有2η个颜色通道的原图,2n = η1; 将所述拥有h个颜色通道的原图根据不同的缩放比例缩放得到m-1个缩放图像; 将所述拥有h个颜色通道的原图和m-1个所述缩放图像作为所述符合所述卷积神经 网络的输入要求的目标图像。
【文档编号】G06N3/08GK105868797SQ201510031685
【公开日】2016年8月17日
【申请日】2015年1月22日
【发明人】徐昆, 邓海峰, 梁缘
【申请人】深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1