一种基于超像素集的室内场景语义标注方法与流程

文档序号:14217652阅读:230来源:国知局
本发明属于多媒体技术与计算机图形学
技术领域
:,具体涉及室内场景语义标注方法。
背景技术
::室内场景语义标注作为计算机视觉研究的一项必要工作,一直都是相关领域研究的热点问题。而由于室内场景存在大量语义类别、对象间互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,更使得室内场景语义标注成为图像理解中一个棘手且极富挑战的研究方向。室内场景语义标注是室内场景理解的核心问题,其基本目标是为给定室内场景图像或拍摄于室内场景的视频中的帧中的每一个像素稠密地提供一个预定义的语义类别标签,其在室内智能服务机器人、反恐排爆等多个领域都有很大的应用价值。随着数据获取手段的发展,目前室内场景语义标注使用的源数据大多为rgbd数据,标注过程中的特征表示基本单位为超像素或像素。基于超像素的室内场景语义标注方法,以超像素为基本单位提取特征表示。silberman和fergus等人利用sift算子提取超像素特征,以一种反馈式前向神经网络作为判别分类器,通过条件随机场(crf)概率模型进行上下文优化,在nyuv1数据集上获得了56.6%的语义标注准确率。同样基于nyuv1数据集,ren等人利用多种类型的核描述子提取超像素特征,以linearsvm作为分类器,根据超像素分割层次构建树状模型,然后将构建的树状模型与马尔科夫随机场(mrf)概率图模型相结合,在nyuv1数据集上获得了76.1%的语义标注准确率。anranwang等人在nyuv1数据集上,以图像patch数据作为输入,采用了一种分层的联合优化框架进行特征学习与特征编码,并结合linearsvm分类器,在nyuv1数据集上获得了63.28%的语义标注准确率。salman和mohammed等人基于表面、深度和全局几何特征提出了一种新的crf概率模型,他们的方法在ceiling、wall等平面型类别对象上识别效果非常显著,在nyuv1数据集上取得了61.7%的语义标注准确率。基于像素的室内场景语义标注方法,以像素为基本单位提取特征表示。saurabhgupta等人在深度图中嵌入了像素点的离地高度、重心角度等信息,然后基于调整后的深度图与彩色图利用cnn进行特征提取完成逐像素标注,在40类的nyuv2数据集上获得了32.5%的语义标注准确率。ankurhanda等人通过在sunrgbd数据集上增加虚拟数据,基于rnn在深度图像上提取特征进行逐像素标注,获得了49.01%的语义标注准确率。hengfan等人采用多模态rnns(mm-rnns)网络结构分别在彩色图(rgb)和深度图(depth)进行逐像素预测,然后将两者预测结果相结合作为最终的预测结果,在nyuv1数据集上取得了74.6%的语义标注准确率。以上这些方法都是基于超像素或像素特征进行室内场景语义标注,而超像素和像素所在的空间与待标注物体所占有的空间有较大差异,如图1所示:一个超像素只是沙发所在图像区域的很小一部分,因此超像素或像素特征不能完全刻画物体对象的特征。技术实现要素:针对基于超像素特征或像素特征进行室内场景语义标注方法的语义特征提取自小尺度空间的局限,本发明提出了一种基于超像素集的室内场景语义标注方法。与以往方法不同,本发明针对与物体对象基本等量的空间(超像素集)提取特征,从而能更准确地表征物体对象以达到提高室内场景语义标注准确率的目标。本发明所提出的室内场景语义标注方法中:首先计算超像素特征,然后利用高斯混合模型基于超像素特征建模超像素集特征,并将其映射到希尔伯特空间,最后降维到欧式空间得到超像素集的特征表示。本发明提出的室内场景语义标注方法主要包括以下几个步骤:1.超像素分割室内场景图像语义类别丰富且每种语义对象不能精确地独立出来进行判别分类,需要预先对室内场景图像进行超像素分割。超像素的意义在于把一幅原本是像素级(pixel-level)的图像,根据像素间的某种相似性划分成区域级(district-level)的图像。本发明使用gpb/ucm算法进行图像的超像素分割,通过图像局部、全局特征计算像素属于边界的概率值本发明将gpb/ucm算法分别应用于彩色图像和深度图像,按照公式(1)计算式(1)中,是基于彩色图像计算得到的像素属于边界的概率值,是基于深度图像计算得到的像素属于边界的概率值。依据公式(1)得到的概率值和设定的概率阈值0.08(经验值),按照八连通原则,将概率值小于0.08的像素连成一个区域,每个区域即为一个超像素。2.patch特征计算patch定义为16×16大小的网格,网格尺寸可以根据实际数据进行修改,本发明在实验中固定网格尺寸大小为16×16。以k个像素为步长,本发明在实验中固定步长k值为2,从彩色图像(rgb)和深度图像(depth)左上角向右向下进行滑动,最终在彩色图像(rgb)和深度图像(depth)上形成密集的网格。以分辨率为n*m的场景图像为例,最终得到的patch数量为针对每个patch计算四类特征:深度梯度特征fg_d、彩色梯度特征fg_c、彩色特征fcol、纹理特征ftex。2.1深度梯度特征深度图像中的patch记为zd,对每个zd计算深度梯度特征fg_d,其中第t个分量的值由公式(2)定义:公式(2)中,zd∈zd表示像素zd在深度patch中的相对二维坐标位置;和分别表示像素zd的深度梯度方向和梯度大小;和分别为深度梯度基向量和位置基向量,两组基向量为预定义值;dg和ds分别表示深度梯度基向量个数和位置基向量个数;是在上应用核主成分分析(kpca)得到的第t个主成分的映射系数,表示克罗内克积。和分别为深度梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用emk(efficientmatchkernel)算法对深度梯度特征进行变换,变换后的特征向量仍然记为fg_d。2.2彩色梯度特征彩色图像中的patch记为zc,对每个zc计算彩色梯度特征fg_c,其中第t个分量的值由公式(3)定义:公式(3)中,zc∈zc表示一个像素zc在彩色图像patch中的相对二维坐标位置;和分别表示像素zc的梯度方向和梯度大小;和分别为彩色梯度基向量和位置基向量,两组基向量为预定义值;cg和cs分别表示彩色梯度基向量个数和位置基向量个数;是在上应用核主成分分析(kpca)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色梯度高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用emk(efficientmatchkernel)算法对彩色梯度特征进行变换,变换后的特征向量仍然记为fg_c。2.3彩色特征彩色图像中的patch记为zc,对每个zc计算彩色特征fcol,其中第t个分量的值由公式(4)定义:公式(4)中,zc∈zc表示像素zc在彩色图像patch中的相对二维坐标位置;r(zc)为三维向量,是像素zc的rgb值;和分别为彩色基向量和位置基向量,两组基向量为预定义值;cc和cs分别表示彩色基向量个数和位置基向量个数;是在上应用核主成分分析(kpca)得到的第t个主成分的映射系数,表示克罗内克积。和分别为彩色高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用emk(efficientmatchkernel)算法对彩色特征进行变换,变换后的特征向量仍然记为fcol。2.4纹理特征首先将rgb场景图像变换为灰度图,灰度图像中的patch记为zg,对每个zg计算纹理特征ftex,其中第t个分量的值由公式(5)定义:公式(5)中,zg∈zg表示像素zg在灰度图像patch中的相对二维坐标位置;s(zg)表示以像素zg为中心的3×3区域内像素灰度值的标准方差;lbp(zg)为像素zg的局部二值模式特征(localbinarypattern,lbp);和分别为局部二值模式基向量和位置基向量,两组基向量为预定义值;gb和gs分别表示局部二值模式基向量个数和位置基向量个数;是在上应用核主成分分析(kpca)得到的第t个主成分的映射系数,表示克罗内克积。和分别为局部二值模式高斯核函数和位置高斯核函数,和为对应高斯核函数的参数。最后,利用emk(efficientmatchkernel)算法对纹理特征进行变换,变换后的特征向量仍然记为ftex。3超像素特征超像素特征fseg定义如(6)式:分别表示超像素深度梯度特征、彩色梯度特征、彩色特征和纹理特征,定义如(7)式:(7)式中,fg_d(p),fg_c(p),fcol(p),ftex(p)表示第p个中心位置落入超像素seg内的patch的特征,n表示中心位置落入超像素seg内的patch的数量。超像素几何特征按(8)式定义:(8)式中各分量定义如下:超像素面积aseg=∑s∈seg1,s为超像素seg内的像素;超像素周长pseg定义如(9)式:公式(9)中,n、m分别表示rgb场景图象的横、纵向分辨率;seg、seg′表示不同的超像素;n4(s)是像素s的四邻域集合;bseg是超像素seg的边界像素集合。超像素的面积周长比rseg定义如(10)式:是基于像素s的x坐标sx、y坐标sy、x坐标与y坐标乘积分别计算的二阶hu矩,定义如式(11)、(12)、(13)公式(14)中分别表示超像素所包含像素的x坐标均值、y坐标均值、x坐标均值平方、y坐标均值平方,定义如式(14):width,height分别表示图像宽度和高度,即基于归一化的像素坐标值进行计算。dvar分别表示超像素seg内像素s深度值sd的平均值,深度值sd平方的平均值、深度值方差,定义如式(15):dmiss表示超像素中丢失深度信息的像素的比例,定义如式(16):nseg是对应于超像素的点云的主法向量模长,其中超像素对应点云的主法向量通过主成分分析法(pca)估计。4超像素集特征4.1基于超像素集建立高斯混合模型超像素集合对每个超像素依据步骤3计算特征fseg,利用最大期望算法(em,expectationmaximizationalgorithm)基于特征向量集合{fseg|seg∈sp}建立高斯混合模型g(x),模型形式如(17)式:其中,mg表示高斯分量个数,n(x|μii,∑ii)表示第ii个高斯分量,μii和∑ii分别表示第ii个高斯分量的均值向量和协方差矩阵,wii为第ii个高斯分量在高斯混合模型中的权值。4.2高斯分量映射到希尔伯特空间基于训练样本中第r个语义类别对应的超像素集合依据步骤4.1建立对应于第r个语义类别的高斯混合模型,得到高斯分量集合记所有c个语义类别对应的高斯混合模型所包含高斯分量的集合为任一高斯分量gl到希尔伯特空间的映射记为kl,kl的计算如公式(18):其中,tr表示矩阵的迹,即矩阵对角线元素的乘积;det表示行列式;d=|fseg|是超像素特征的维度;μ和∑分别是高斯分量的均值向量和协方差矩阵,∑-1是协方差矩阵∑的逆。4.3希尔伯特空间变换到欧式空间记希尔伯特空间中向量kl映射到低维欧式空间中的向量为zl,则有zl=atkl(19)式(19)中a为正交矩阵。a=[α1,α2,…,αc-1]∈rn×(c-1),其中nr是第r个语义类别的高斯混合模型中高斯分量的个数,c是语义类别的数量,即n是c个语义类别的高斯混合模型包含的高斯分量总的数量;a是求解(20)式得到的前c-1个特征向量α1,α2,…αc-1。bα=λwα(20)式(20)中,α为特征向量,λ为特征值,b和w的计算如公式(21)其中,mr,wr计算如公式(22)其中,c是语义类别的数量,nr是第r个语义类别高斯混合模型中高斯分量的个数,是第r个语义类别的高斯混合模型中第jr个高斯分量的权值,是第r个语义类别的高斯混合模型中第jr个高斯分量映射到希尔伯特空间的高维向量。4.4语义类别的特征表示对第r个语义类别的高斯混合模型的每一个高斯分量依据式(18)将其映射到希尔伯特空间得到向量再依据式(19)降维到欧式空间得到向量则第r个语义类别的一组高斯分量变换为记即为第r个语义类别的特征表示。5测试样本识别分类测试样本ste为一组超像素,依据步骤4.1构建高斯混合模型得到一组高斯分量再依据式(18)将映射到希尔伯特空间,最后依据式(19)降维到欧式空间得到向量集合即为测试样本的特征表示。设l(r)表示第r个语义类别的语义标签,l′(zte)、l(zte)分别表示测试样本的候选语义标签及最终语义标签;对测试样本的每个特征向量计算其与所有类别特征向量的夹角,与特征向量夹角最小的类别特征向量的语义标签l(r)是测试样本的候选语义标签,如式(23)所示;其中依据式(23)计算得到t个候选语义标签l′(zte),其中t是测试样本的高斯混合模型包含的高斯分量的数量。依据式(24)定义的投票规则计算测试样本与语义类别的距离,包含最多与测试样本特征向量夹角最小的类别特征向量的语义类别的语义标签即是测试样本的最终语义标签;式(24)中,c为语义类别的数量。附图说明图1超像素分割示意图图2nyuv1数据集上本发明与其他方法的类别准确率对比具体实施方式本发明采用由silberman和fergus等人收集并整理的nyuv1数据集进行实验,本数据集总共有13个语义类别(bed、blind、bookshelf、cabinet、ceiling、floor、picture、sofa、table、tv、wall、window、background)和7个场景。整个数据集包含2284帧彩色图像(rgb)和2284帧深度图像(depth),它们之间一一对应,每张图像均为480×640大小的标准图像。按照传统划分方法,本发明选取数据集的60%用于训练,40%用于测试。基于nyuv1数据集,进行了本发明所提方法与silberman,ren,salmanh.khan,anran,heng等5人所提方法的对照实验,实验结果见表1的类平均准确率和图2的对象准确率,可以看出本发明所提出的方法在室内场景语义标注中取得了有竞争力的标注效果,特别是bookshelf、ceiling、window类别的识别效果比其他人所提方法的识别效果都好。表1nyuv1数据集上本发明与其他标注方法的类平均准确率比较当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1