基于卷积神经网络与语义转移联合模型的街景语义标注方法

文档序号:9631810阅读:662来源:国知局
基于卷积神经网络与语义转移联合模型的街景语义标注方法
【技术领域】
[0001] 本发明属于计算机视觉,图形处理技术领域,具体涉及一种基于卷积神经网络与 语义转移联合模型的街景标注方法。
【背景技术】
[0002] 随着智能驾驶领域的不断发展,无人驾驶技术已经成为该领域研究的重要方向之 一。如何使计算机理解车辆行驶过程中的周围环境并针对性地做出驾驶操作,是无人驾驶 汽车的重要研究内容。当前的无人驾驶系统采用一些行人检测、道路检测、交通标志检测等 传统技术的整合来达到理解周围街景的目的,但效果并不显著。近几年,研究者也提出了采 用街景标注的方法来使计算机理解场景。街景标注是一个对场景进行逐像素标注类别的图 像处理任务。但是由于场景内所需标注的目标类别过多,各个目标之间的差异性特征难以 得到有效提取,导致多目标同时进行识别标注的难度较大。之前的研究主要分为两类:参数 方法和非参数方法。
[0003]参数方法有Shotton等人在文献 "J.Shotton,J.Winn,C.Rother,et al.TextonBoostforImageUnderstanding:Multi-ClassObjectRecognitionand SegmentationbyJointlyModelingTexture,Layout,andContext.International JournalofComputerVision,81(l),2_23,2009. "中提出的随机场模型。通过提取纹理基 元(Texton)的特征,在待标注图上构建条件随机场模型和能量函数,选取能量函数最小时 的观测值作为最终的标注结果。
[0004]非参数方法有Tighe和Lazebnik在文献 "J.TigheandS.Lazebnik. Superparsing.InternationalJournalofComputerVision, 101 (2),329-349, 2013.',中 提出的基于超像素的语义转移方法。该方法通过将图像分割为超像素,将训练集中与之相 似的超像素的标签转移给待标注超像素,从而完成整幅图像的标注。
[0005] 这些方法都有其局限性。采用传统的手工特征来描述图像,不能够很好的描述图 像的内在表达以及场景中的先验信息;除此之外,这些方法大都受制于数据集不平衡现象 的影响,使得一些在数据集中出现较少的目标类别得不到有效训练,实用性较低。

【发明内容】

[0006] 要解决的技术问题
[0007] 为了避免现有数据集不平衡问题以及现有方法不能提取到更丰富和更差异性的 目标特征的问题,本发明提出一种基于卷积神经网络与语义转移联合模型的街景语义标注 方法。
[0008] 技术方案
[0009] -种基于卷积神经网络与语义转移联合模型的街景语义标注方法,其特征在于包 括深度特征提取和软限制语义转移两个部分,步骤如下:
[0010] 深度特征提取:
[0011] A)训练阶段:
[0012] 步骤A1:采用过分割算法SLIC将训练集中的每一幅图像分别分割成N、N±50、 N±25、N±20个超像素,保留每个超像素在原图中的位置,其他区域的颜色值则置为0,生 成一幅与原图像大小相同的图像,将每个超像素中占其区域50%以上的语义标签作为该超 像素的语义标签;对上述得到的N、N±50、N±25、N±20个超像素分别进行左右翻转;
[0013] 步骤A2:在N个超像素里面提取大比例目标放入训练数据中,所述的大比例目标 为训练集中天空、建筑和道路;在N个超像素以及左右翻转后得到的N个超像素里面提取 常见目标放入训练数据中,所述的常见目标为目标的像素数量在整个训练集中占据的比例 10%;在N个超像素以及左右翻转后得到的N个超像素、N±50个超像素以及左右翻转 后得到的N±50个超像素、N±25个超像素以及左右翻转后得到的N±25个超像素里面提 取不常见目标放入训练数据中,所述的不常见目标为目标的像素数量在整个训练集中占 据的比例pe< 10% ;在N个超像素以及左右翻转后得到的N个超像素、N±50个超 像素以及左右翻转后得到的N±50个超像素、N±25个超像素以及左右翻转后得到的N±25 个超像素、N±20个超像素以及左右翻转后得到的N±20个超像素里面提取稀有目标放入 训练数据中,所述的稀有目标为目标的像素数量在整个训练集中占据的比例3% ;
[0014] 步骤A3:将训练数据及其所对应的语义标签输入到AlexNet网络中,对AlexNet 网络进行全监督训练得到深度模型;所述的AlexNet网络中的"fc8"层的输出维度为L+1 ;
[0015] B)测试阶段:
[0016] 步骤B1:采用过分割算法SLIC将待标注图像分割成N个超像素,保留每个超像素 在原图中的位置,其他区域的颜色值则置为〇,生成一幅与原图像大小相同的图像,将每个 超像素中占其区域50%以上的语义标签作为该超像素的语义标签;
[0017] 步骤B2:将待标注图像的N个超像素输入到深度模型,对每一个超像素提取4096 维的特征,通过soft-max层对特征进行分类,得到超像素被划分为每一类别的得分向量 ,其中,下角标i表示超像素的序列,1彡i彡N,ieZ,L代表目标类别的数 量;
[0018] 软限制语义转移:
[0019] 步骤1 :分别计算训练集中每幅图像和待标注图像的GIST、空间金字塔和颜色直 方图三个特征向量;分别计算训练集中每幅图像与待标注图像三个特征的欧式距离,并按 升序排列;记录每幅训练图像在三个特征向量下的位次,选择最小的位次作为该训练图像 与待标注图像的接近程度;选取前k个最接近待标注图像的训练图像作为检索集;
[0020] 步骤2:以待标注图像的超像素为结点,相邻超像素的关系集合作为边,构建马 尔科夫随机场模型,定义模型的能量函数:
[0021]
[0022] 其中,SP代表待标注图像的超像素集合;1表示在集合SP上取的一组观测值;< 代表第i个超像素在深度模型中输出的得分值;4Κ;)代表在给定观测标签li时的指示向 量;%代表待标注图像的相邻超像素的集合;是统计了检索集中的相 邻超像素的条件概率,s函数是常见的Potts模型;λ是第二项的权重常数,Wi]是软限制 权重:
[0023]
[0024] 其中,$为第j个超像素在深度模型中的得分值;
[0025] 步骤3 :利用图割法中的α_β交换算法最优化能量函数,取最小化能量函数值时 的观测变量1为街景语义标注结果。
[0026] 所述的λ=0.5。
[0027] 有益效果
[0028] 本发明提出的一种基于卷积神经网络与语义转移联合模型的街景语义标注方法, 通过构建一个更为平衡的训练集,并在此之上训练一个具有先验信息的超像素分类深度模 型。它能够充分挖掘场景的先验信息,学习到更具差异性的特征表达,使得超像素的标注准 确率大幅提升。通过马尔科夫随机场模型,对初始结果进行优化,去除了不必要的噪声,使 得标注结果进一步提高,最终逐像素标注准确率和平均类别准确率达到了 77 %和53%以 上。
【附图说明】
[0029] 图1本发明流程图
【具体实施方式】
[0030] 现结合实施例、附图对本发明作进一步描述:
[0031] 本发明提出了一种基于卷积神经网络和语义转移的联合模型的街景标注方法。具 体的,该算法通过提取更丰富的和更具差异性的目标特征,结合场景中的上下文信息,提高 了街景标注的准确性。为了优化时间性能,该发明将逐像素的标注问题转化为超像素的标 注问题。其技术方案包括两大模块:深度特征提取与软限制语义转移。
[0032] 特征提取:
[0033] 1、超像素处理。首先把图像过分割为一定数量的超像素,并保留超像素在原图中 的位置先验信息。
[0034] 2、深度模型训练。在经典的AlexNet网络上进行特定超像素分类任务:通过监督 地训练、不断调整网络参数达到对网络的训练目的。在生成训练数据过程中,采用分等级的 数据增强方法来针对性地扩展现有训练集,使得训练数据能过更加平衡。具体来讲,在不同 的参数(单幅图像的超像素生成数量)下来生成训练集,越稀少的数据,在越多的参数下生 成数据以平衡数据集。除此之外,数据增强还采用了左右翻转的方法来加大平衡的力度。
[0035] 3、超像素的初步标注。待模型训练完成后,待标注图像的超像素被送入到 模型中进行初步分类。可以得到每一个超像素被分为η个目标分类的得分向量A= {ill,· ··,0
[0036] 语义转移:
[0037] l、k近邻图像检索。对于一幅待标注图像,根据GIST、图像金字塔和颜色直方图三 个特征在训练集中寻找前k相似的近邻图像。
[0038] 2、训练集的语义信息转移。通过计算相邻超像素类别在训练集中出现的条件概 率,作为局部的上下文信息转移到待标注的超像素中去。接着在待标注图像的所有超像素 上构建马尔科夫随机场模型,并定义相应的能量函数。最终,通过最小化能量函数值求得 整幅图像标注结果。
[0039] 参照图1左,本发明的深度特征提取模块的实现步骤如下:
[0040] A)训练阶段:
[0041] 步骤1、首先,超像素生成。对于训练集中的每一幅图像,采用过分割算法SLIC将 其分别分割成N、N±50、N±25、N±20个超像素。为保留超像素在图像中的先验位置信息, 将所生成的每个超像素单独作为一幅与原图像大小相同的图像,仅保留超像素在原图中的 区域,其他区域的颜色值则置为0。将每个超像素中占其区域50%以上的语义标签作为该 超像素的语义标签。最终,对得到的所述所有超像素进行数据加强,数据加强的方法为左右 翻转。
[0042] 步骤2、分等级的数据增强。统计训练集中目标类别(共L个)像素数量在整个训 练集中占据的比例P。。并根据比例大小分为四类,对于每一类在不同的方法下生成超像素, 并加入到训练集。具体如表1所示:
[0043] 表 1
[0044]
[0045] 步骤3、深度模型的监督训练。采用AlexNet网络结构,调整网络中的"fc8"层的 输出维度为(L+1),其中多增加一项空类别。将训练数据及其所对应的语义标签输入到网络 中,进行全监督地训练,不断修改网络参数,训练出最终的深度模型。
[0046] B)测试阶段:
[0047] 步骤1、超像素生成。对于一幅待标注图像,采用与训练阶段步骤1相同的算法进 行操作。
[0048] 步骤2、深度特征提取及超像素标注。将超像素送入网络后,每一个超像素均会提 取4096维的特征,并通过soft-max层对其进行分类,最终得到该超像素被划分为每一类别 的得分值,组成一个得分向量< =丨¥2,...~,丨,其中,下角标1表示超像素的序列,1彡1彡1 ieZ,L代表目标类别的数量。
[0049] 参照图1右,本发明的软限制语义转移模块的实现步骤如下:
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1