一种基于rgb-d数据的室内场景语义标注方法

文档序号：8487852阅读：823来源：国知局

一种基于rgb-d数据的室内场景语义标注方法
【技术领域】
[0001] 本发明涉及一种图像语义标注方法，尤其涉及一种基于RGB-D数据的室内场景语义标注方法，属于计算机视觉的语义标签分类技术领域。
【背景技术】
[0002] 图像语义标注是计算机视觉中场景理解工作的核心单元，其基本目标是为给定的查询图像中的每一个像素稠密地提供一个预定义的语义类别标签。考虑到图像语义的模糊性、复杂性和抽象性，一般建立的图像语义模型都是分层次的。其中，"目标语义"处于语义层次中的中层，在很多高层次语义推理过程中起到了承上启下的作用。根据图像语义标注问题中标注基元的量化级别，可将当前多数图像语义标注方案大致分为两类，包括：像素级的语义标注方案和区域级的语义标注方案。两种方案在实现效率、标注精度和视觉效果上各有其优劣势。
[0003] 一方面，相较于区域级表达，像素级表达的确不失为是一种简易直观的图像表达层次，像素级语义标注方案将单一像素作为标注的基本单元，免除了对数据集中的图像进行区域级分割的繁复操作。此外，像素级特征的获取一般较为简单，故相较于区域级标注方案，其在整体实现效率上存在较大优势，而且由于其表达层次较低，不易出现错误标签分布密集的问题。但由于像素自身有效载荷相对有限，如何针对像素级方案构建更为鲁棒且更具辨识力的像素级特征，成为了像素级语义标注方案发展的难点和瓶颈。典型的像素级语义标注方案包括：[KR HENB HL P，KOLTUN V. Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials[C]//Advances in Neural Information Processing Systems (NIPS), 2011.]通过探讨一种成对项势能由高斯核线性组合而成的像素级稠密全连通Conditional Random Fields (CRFs)概率图模型的推断算法，一定程度上提升了像素级标注方案在上下文推断期间的效率。
[0004] 另一方面，区域级表达在特征构建层面上较像素级表达具有显著优势，这主要是因为分割区域一般被定义为像素的集合，相较于单一像素，具有更为丰富的纹理及上下文信息。以往利用区域级表达进行图像语义标注的经典范例很多：[REN Xiaofeng，BO Liefeng, FOX D.RGB-(D)scene labeling:Features and algorithms[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2012:2759-2766.] 在区域级表达层面上成功构建了一种称为核描述子的特征，在一定程度上提高了室内场景语义标注的性能；[SILBERMAN N，H0IEM D，K0HLI P，et al. Indoor segmentation and support inference from RGBD images[M]. Computer Vision - ECCV 2012.Springer Ber 1 in Heidelberg，2012:746-760.]则不仅在区域级上解析了室内场景中的主要平面和物体，还利用上述信息对室内场景中物体的支撑关系进行了推断；[TIGHE J，LAZEBNIK S. Superparsing:scalable nonparametric image parsing with superpixels[C]// European Conference on Computer Vision (ECCV)，2010:352-365.]提出了一种简单有效的非参数语义标注算法，其基于懒惰学习的思想，实现中涉及区域级匹配等降低系统复杂度的操作。但基于区域的语义标注方案仍存在一个致命的缺陷，即其大大依赖于区域分割算法的性能。一旦区域分割算法将所属两种或两种以上类别的像素划分至同一个分割区域下，则无论后续采用的分类器性能如何优异，即便通过有效的区域级上下文推断，皆无法改变该区域误标注的结果（仅能在误标注的前提下，尽可能地提升像素标签正确率），严重限制了区域级语义标注方案的准确度和视觉表现能力。
[0005] 鉴于深度传感器能够获取更加丰富的外观和几何结构信息，深度摄像机在计算机视觉领域越来越受到广泛的关注。近年来，越来越多的公司开发出了 RGB-D摄像机，该类设备的特点是能够实时地为所摄场景捕获得到相应的RGB图像和深度图像，比如2010年微软发布了能够实时采集RGB-D图像的摄像头（即Kinect) ;2011年华硕发布了 Xtion PRO ; 2013年体感控制器制造公司Leap发布的Leap Motion。
[0006] 室内场景语义标注，有其内在固有属性（即存在大量的语义类别及类别间存在遮挡、视觉特征缺乏较强辨识能力以及室内光照不可控等问题），已成为了图像语义标注技术中棘手且极富挑战性的研宄方向之一。在室内条件下，相较于单一的RGB数据，RGB-D数据的优势在于：其提供了普通摄像机在三维投影过程中丢失的3D几何信息，包含的深度信息可作为一个独立于室内环境照明条件的通道，这为解决室内场景语义标注问题带来了新思路。作为利用深度信息进行室内场景语义标注的先驱，[SILBERMAN N，FERGUS R. Indoor scene segmentation using a structured light sensor[C]//IEEE International Conference on Computer Vision(ICCV), 2011:601-608.]在 NYU RGB-D 数据集中获得了 56. 6%的准确率，展示了基于RGB-D数据语义感知室内场景的巨大潜力。但目前大多数语义标注工作仅仅将深度信息用于构造区域级特征，却忽略了其在上下文推断中的作用，而且所采用的深度信息也较为单一。
[0007] 综上所述，现有室内场景语义标注方案普遍存在着标注基元量化级别难于选择的问题，且几何深度信息在上下文推理过程中的作用也未获得足够的重视。

【发明内容】

[0008] 针对上述技术问题，本发明所要解决的技术问题是提供一种基于RGB-D数据的室内场景语义标注方法，基于RGB-D数据，采用区域级语义标签推断与像素级语义标签求精，两部分交替迭代更新优化的方式，能够在一定程度上解决传统语义标注工作中难以合适地选择标注基元的问题。
[0009] 本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于RGB-D 数据的室内场景语义标注方法，利用基于RGB-D信息的由粗到精、全局递归式反馈的语义标注框架进行室内场景图像的语义标注，该语义标注框架是由粗粒度的区域级语义标签推断与细粒度的像素级语义标签求精，交替迭代更新构成，包括如下步骤：
[0010] 步骤001.针对RGB-D训练数据集合中的RGB图像进行过分割，获取该RGB图像中的超像素，形成训练数据的超像素集；
[0011] 步骤002.根据RGB-D训练数据集合中的RGB图像和对应的深度图像，分别针对该训练数据的超像素集中的各个超像素做如下操作：求取对应超像素的各个区域特征单元，然后对该超像素的各个区域特征单元分别进行归一化处理，获得该超像素的各个归一化区域特征单元，最后将该超像素的各个归一化区域特征单元进行拼接，构成对应于该超像素的多模态特征向量；
[0012] 步骤003.针对该训练数据的超像素集中的各个超像素，根据RGB-D训练数据集合中包含的基准标注信息，获取该各个超像素分别对应的类别标签；
[0013] 步骤004.针对该训练数据的超像素集中各个超像素分别对应的类别标签、多模态特征向量，分别整合构成分别对应于各个超像素的各个条目，并整合该所有超像素对应的各个条目，构成该训练数据的超像素集对应的语义标签池；
[0014] 步骤005.将获得的该训练数据的超像素集对应的语义标签池作为训练样本，训练随机决策森林分类器；
[0015] 步骤006.针对查询图像进行过分割，获取该查询图像中的超像素，形成查询图像的超像素集；并按步骤002中的方法，根据查询图像和对应的深度图像，针对该查询图像的超像素集中的各个超像素，分别求取对应超像素的多模态特征向量，构成该查询图像的超像素集对应的语义标签池；
[0016] 步骤007.采用已经训练的随机决策森林分类器，针对该查询图像的超像素集中的超像素进行语义标签推断，获得对应该查询图像的区域结构粗粒度级别标注图像；
[0017] 步骤008.针对获得对应该查询图像的区域结构粗粒度级别标注图像进行标签求精，获得对应该查询图像的细粒度级别标注图像；
[0018] 步骤009.针对获得对应该查询图像的细粒度级别标注图像，采用内部递归式反馈机制进行标签求精，获得该查询图像的最终细粒度级别标注图像；
[0019] 步骤010.根据获得该查询图像的最终细粒度级别标注图像，设计获得由粗粒度的区域级语义推断到细粒度的像素级语义求精的全局递归式反馈机制，将该查询图像的最终细粒度级别标注图像作为额外信息引入步骤001和步骤006中分别针对图像的过分割操作中，并根据该全局递归式反馈机制，返回步骤〇〇1依次执行各个步骤，且根据全局递归式反馈机制中的终止条件，获得该查询图像的最终标注图像。
[0020] 作为本发明的一种优选技术方案：所述步骤001和所述步骤006中分别针对图像进行过分割的操作，采用基于图像分层显著度导引的简单线性迭代聚类过分割算法，其中，该基于图像分层显著度导引的简单线性迭代聚类过分割算法具体包括如下步骤：
[0021] 步骤A01.初始化各个聚类中心
【主权项】
1. 一种基于RGB-D数据的室内场景语义标注方法，利用基于RGB-D信息的由粗到

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯希龙;刘天亮;
技术所有人：南京邮电大学;
我是此专利的发明人

上一篇：一种企业人才流失的数据挖掘分析方法及装置的制造方法
上一篇：模具设计与制造知识库的构建方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。