基于dct系数熵的二维单视图像深度估计方法

文档序号:7771742阅读:324来源:国知局
基于dct系数熵的二维单视图像深度估计方法
【专利摘要】基于DCT系数熵的二维单视图像深度估计方法,涉及一种二维单视图像深度估计方法。它解决了现有二维单视图像深度估计方法准确度低的问题。其方法:对于待处理图像中的每个像素(i,j),以该像素为中心选取N×N大小的窗口作为子图像;N为正整数;i和j均为正整数;然后并对该子图像做DCT变换;设定量化步长,然后对子图像DCT系数进行量化,然后计算其系数熵,并将该熵作为像素点(i,j)的模糊程度的度量;采用步骤一和步骤二的方法遍历图像中的每个像素点,得到每个像素点所对应的小波系数熵,然后通过线性映射把熵值映射到8bit的深度值域,得到像素级的深度图,完成基于DCT系数熵的二维单视图像深度估计。本发明适用于二维单视图像深度估计。
【专利说明】基于DCT系数熵的二维单视图像深度估计方法
【技术领域】
[0001]本发明涉及一种二维单视图像深度估计方法。
【背景技术】
[0002]三维显示是未来图像信息的一种重要表现形式。相比二维图像,三维图像具有层次分明、色彩鲜艳、驻景时间长、印象深刻的特点。三维图像携带的信息量要远远超过二维图像,其视觉冲击力强、艺术欣赏价值高,能够使受众产生更强的视觉体验。
[0003]随着三维显示器的出现,消费者面临着一个严重的问题,即当前三维媒体资源的稀缺。由于三维显示刚刚进入普及阶段,目前人们观看的三维媒体资源由专用的立体拍摄设备获取,或者是3D工作室精心制作而成。因此,三维片源因其制作成本高,拍摄困难等原因严重匮乏。这一问题不但影响人们的三维体验效果,而且制约了三维显示设备的普及。因为当前三维显示设备的推广所面临的主要问题是片源素材的问题,市场中三维片源的数量远远少于传统二维片源,这将导致消费者需求的下降。针对这一现状,若能够利用计算机视觉等技术将现有的二维图像资源转换为三维,不但可以解决三维片源匮乏的问题,更因为三维资源的增加有利于三维显示设备的普及和发展,具有非常重要的应用价值。
[0004]二维图像转三维的关键在于深度信息的获取。2003年,Christoph Fehn提出了基于深度的三维图像生成方式DIBR。根据光学与相机成像原理,阐述了如何根据二维图像的深度信息生成其三维图像。因此,深度信息提取方法的研究也成为热点。针对深度估计,国内外学者做了大量的研究,提出了很多算法。这些方法大体上分为两类:其一,基于帧间运动视差的方法;其二,基于 帧内线索的方法。第一类方法主要应用于视频序列(动态图像)的深度提取,该类方法利用帧间的运动信息,提取出运动视差并映射到深度。这类算法具体有块匹配法,像素递归法,光流法等等。但是,这类算法的适用条件是相机运动而场景静止,并且帧间要存在视差。第二类方法,并没有考虑帧间的信息,而主要考虑帧内的各种信息和线索。例如,基于几何线索的线性透视法和纹理梯度法,基于颜色和亮度线索的大气散射法和轮廓场景感知法等等。在第二类方法中,散焦和模糊作为重要的帧内线索,也被越来越多的学者所关注。
[0005]利用散焦模糊线索提取深度,主要是依据照相机光学成像中远离成像聚焦平面的物体会发生散焦模糊现象,且离成像平面越远,物体的模糊越严重。1987年,A.P.Pentland提出了频域解卷积的方法,开创了利用散焦模糊线索提取深度信息的先河。随后,很多学者提出了各种深度提取算法。主要分为两类。
[0006]第一类:对同一场景采用不同聚焦条件成像,结合照相机参数,利用各个图像模糊程度的不同提取深度信息。例如,Gokstorp.M在1994年提出了多分辨率局部频率算法(multiresolution local frequency),该方法利用子采样尺度空间的金字塔结构和局部频率表不两个图像,并计算两个图像之间的模糊差异从而估计深度?目息。2001年,Rayala.J和Gupta.S提出了基于多项式拟合的传导函数法,该算法认为散焦现象可以用线性系统来模拟,并且采用了一种二元方程误差算法来计算传导函数的多项式系数。Mendapara.P和Minhas.R在2009年提出了基于SUSAN算子的指数衰减测度算法。2012年,Paramanand.C和Rajagopalan.A.N.通过设计卡尔曼滤波器来检测深度,该算法不但适用于散焦模糊情况,也适用于运动模糊情况,此外,该算法并不要求点扩散函数(PSF)约束为高斯形式。尽管这些方法深度估计的效果较好,但必须利用同场景不同散焦情况的多幅图像,而满足这种条件的片源十分缺乏,限制了这类算法的应用。
[0007]第二类:对单幅图像的各个像素的模糊程度测量,提出模糊信息,建立像素深度到模糊程度的一个映射。这种方式提取的深度信息一般为场景中各个目标的相对深度(relative depth)。尽管目标的实际深度(ground depth)信息无法恢复,但相对深度信息对于二维图像的三维渲染而言已经是足够的了。比较第一类方式,第二类方式因为具有更强的适应性而得到更多的关注。1993年,Ens.J和Lawrence.P发展了频域解卷积算法,并揭示了一些逆滤波的基本问题。同年,Xiong.Y和Shafer S.A提出了结合Fibonacci搜索和曲线拟合的深度估计算法;该算法建立的模型不但考虑了图像模糊,同时也考虑了几何模糊。1994年,Jahne.B和Geissler.P进一步证明了从单幅图像中利用散焦模糊线索提取深度的可行性,他们提出的方法基于两点:一、精确已知的三维点扩散函数;二、场景中目标的亮度均匀并且具有简单形状。2003年,S.A.Valenecia等提出了基于宏块级小波分解的深度估计方法;但是,该方法生成的深度图存在横条纹噪声。2006年,Wong E把尺度空间理论引入到深度提取中来。2007年,MalikA.S等利用具有带通特性的光学传递函数来估计模糊程度。2008年,Hue1-Yung Lin和Ka1-Da Gu提出利用图像灰度直方图分析度量模糊程度的方法。同年,北京大学的Guo等将S.A.Valenecia于2003年提出的算法进行改进,并结合边缘增强和色彩分割得到了更为精细的深度图。同年,Namboodir1.V.P提出了不均匀逆向热传导方程的模型来模拟散焦模糊现象,并采用逆向热扩散参数来度量模糊和深度。以上文献中所提的方法,都试图建立某种数学模型或物理模型,并利用相应的模型参数来度量模糊和深度,很明显,这些算法深度估计的准确性直接取决于模型的准确性。2011年,Cheng-Wei Chen等提出利用阶梯边缘处的点扩散函数频谱能量来估计深度的方法。同年,Shaojie Zhuo等对散焦图像利用已知的高斯函数进行再模糊,并利用再模糊图像和原图像在边缘处的梯度比率来度量边缘处的模糊。这两种方法都能得到图像边缘处的稀疏深度图,尽管这两种方法无需估计点扩散函数的具体参数,但仍建立在点扩散函数是高斯形式的基础之上。对比前面的方法,这两种方法在边缘处理效果以及场景深度估计准确度方面有所提高,但对不同的边缘类型泛化能力较差。

【发明内容】

[0008]本发明是为了解决现有的二维单视图像深度估计方法的准确度低的问题,从而提供一种基于DCT系数熵的二维单视图像深度估计方法。
[0009]基于DCT系数熵的二维单视图像深度估计方法,它由以下步骤实现:
[0010]步骤一、对于待处理图像中的每个像素(i,j),以该像素为中心选取NXN大小的窗口作为子图像;N为正整数;i和j均为正整数;然后并对该子图像做DCT变换;
[0011]步骤二、设定量化步长,然后对子图像DCT系数进行量化,然后计算其系数熵,并将该熵作为像素点(i,j)的模糊程度的度量;
[0012]步骤三、采用步骤一和步骤二的方法遍历图像中的每个像素点,得到每个像素点所对应的小波系数熵,然后通过线性映射把熵值映射到8bit的深度值域,得到像素级的深度图,完成基于DCT系数熵的二维单视图像深度估计。
[0013]本发明的二维单视图像深度估计方法的准确度高。
【专利附图】

【附图说明】
[0014]图1是本发明中相机所用透镜的光学成像模型示意图;
[0015]图2是【具体实施方式】一中Iena图像的原始图像;
[0016]图3是【具体实施方式】一中Iena图像在Ss为1.5时的模糊图像;
[0017]图4是【具体实施方式】一中Iena图像在Ss为3时的模糊图像;
[0018]图5是【具体实施方式】一中DCT系数的熵和点扩散函数的均方差Ss之间的关系图;
[0019]图6是【具体实施方式】一的实验用的原始图像;
[0020]图7是分块级小波方法获得的初始深度图像;
[0021]图8是现有像素级方法获得的初始深度图像;
[0022]图9是本发明获得的深度图;
[0023]图10是其它图像和本发明的方法获得的深度图对比示意图。
【具体实施方式】
[0024]【具体实施方式】一、基 于DCT系数熵的二维单视图像深度估计方法,它由以下步骤实现:
[0025]步骤一、对于待处理图像中的每个像素(i,j),以该像素为中心选取NXN大小的窗口作为子图像#为正整数;i和j均为正整数;然后对该子图像做type-1I型DCT变换;
[0026]步骤二、设定量化步长,然后对子图像DCT系数进行量化,然后计算其系数熵,并将该熵作为像素点(i,j)的模糊程度的度量;
[0027]步骤三、采用步骤一和步骤二的方法遍历图像中的每个像素点,得到每个像素点所对应的小波系数熵,然后通过线性映射把熵值映射到8bit的深度值域,得到像素级的深度图,完成基于DCT系数熵的二维单视图像深度估计。
[0028]N=9。步骤二设定的量化步长为I。
[0029]原理:模糊与深度的关系:
[0030]散焦模糊现象是从单视图像提取深度信息的重要线索。一般来讲,当物体不处在场景的聚焦平面(DoF)时,散焦现象就会发生。物体偏离DoF越远,模糊就越严重。可见,模糊的程度与物体的深度是有关联的。模糊的程度可以用模糊直径来度量。通过透镜成像模型,以下将首先分析模糊直径与物体深度的关系。
[0031]相机所用透镜的光学成像模型如图1所示,此时散焦物体的距离比场景聚焦平面大。这里L为透镜孔径,f为透镜焦距,P为场景聚焦平面与透镜的物距,q为成像平面与透镜的距离,z为物体的物距(等价于深度),V为物体的像距。很明显,处于P的点目标,在成像平面聚焦为一点;而在u处的点目标,将会在成像平面产生一个直径为d的模糊光圈。由透镜光学成像原理和几何关系,可得如下关系式:
I I I I I I d q- V
[0032]—+ -= —, -+ -=—,—=-
P q f Z V f L V[0033]将以上等式联立,整理得:
【权利要求】
1.基于DCT系数熵的二维单视图像深度估计方法,它由以下步骤实现: 步骤一、对于待处理图像中的每个像素(i,j),以该像素为中心选取NXN大小的窗口作为子图像;N为正整数;i和j均为正整数;然后并对该子图像做DCT变换; 步骤二、设定量化步长,然后对子图像DCT系数进行量化,然后计算其系数熵,并将该熵作为像素点(i,j)的模糊程度的度量; 步骤三、采用步骤一和步骤二的方法遍历图像中的每个像素点,得到每个像素点所对应的小波系数熵,然后通过线性映射把熵值映射到8bit的深度值域,得到像素级的深度图,完成基于DCT系数熵的二维单视图像深度估计。
2.根据权利要求1所述的基于DCT系数熵的二维单视图像深度估计方法,其特征在于N=9。
3.根据权利要求1所述的基于DCT系数熵的二维单视图像深度估计方法,其特征在于步骤二设定的量化步长为I。
【文档编号】H04N13/00GK103559701SQ201310444856
【公开日】2014年2月5日 申请日期:2013年9月26日 优先权日:2013年9月26日
【发明者】孙华东, 金雪松, 赵志杰, 潘庆和, 牛连丁, 陈铭, 张立志, 范智鹏 申请人:哈尔滨商业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1