一种基于单目视频的对象深度提取方法

文档序号：6372849阅读：688来源：国知局

专利名称：一种基于单目视频的对象深度提取方法
技术领域：
本发明涉及一种基于单目视频的对象深度提取方法，属于计算机视觉技术领域。
背景技术：
深度信息是立体感的主要载体，可以在虚拟视点合成，场景分层，多视点视频压缩，对象提取等多个领域中发挥重要作用。目前在实际应用中都是采用多目摄像机或者深度摄像机直接进行深度信息采集，这种采集方法有以下四类问题1)数据量非常大。2)深度数据精度不高，尤其是深度摄像机在剧烈运动情况下数据精度急剧下降。3)现有的大量珍贵单目视频素材无法被再次利用。4)要求产业链的更新换代。基于单目视频的对象深度提取方法就是为了能够在当前的许多珍贵单目视频素材中直接提取深度信息而产生的技术。视频领域的典型方法包括基于全图像匹配的快速区域分割与区域视差估计算法、基于集束优化的连续视频深度图恢复方·法。基于全图像匹配的快速区域分割与区域视差估计算法的基本原理是将多视点视频图像中具有近似相同视差的区域称为一个深度对象，把能够反映该深度对象内所有像素深度特征的视差称为区域视差。一个深度对象并非仅对应于一个客观世界中的真实对象，它可能对应场景中深度特性较为一致的几个对象，深度对象与运动对象的概念也不相同，对应于同一个深度对象的几个真实场景中的对象可以具有各自不同的运动参数因为一个深度对象的视差值基本相同，几乎其中所有的图像块都可以使用同一个视差向量找到它们的最优匹配块，因此各个区域匹配代价函数曲线中的匹配误差最小值也必然小于它所对应的整幅图像视点差-匹配误差关系曲线中的极小值。故认为该函数曲线的局部极小值所在位置对应着一个深度对象的视差，并绘制该帧的视差匹配误差曲线，同一极小值的像素即为同一深度对象，形成深度图，附图I为利用该方法进行深度信息提取的示例，其结果有严重的块状边缘，而且质量不高，无法表达平滑变化的深度区域。基于集束优化的连续视频深度图恢复方法则是基于视频的稠密深度恢复技术，其解决了邻近帧中像素的投影问题，并定义了表达颜色一致性约束和几何一致性约束的能量函数，使用置信传播算法进行优化获得了初始化深度图，并对图像采用集束优化，将多帧之间的颜色一致性和几何一致性结合起来，有效的降低了图像噪声和遮挡对深度恢复的影响。但是要求多帧进行联合优化，对场景内帧的连续性有较高的要求，同时计算量巨大，不利于实际实用。

发明内容
本发明的目的是提供一种基于单目视频的对象深度提取方法。该方法对于单目摄像机拍摄得到的视频序列，使用摄像机自标定参数进行邻近帧的像素投影，并利用视频的一致性，结合深度值标记优化恢复其对应的场景深度信息，并对所述深度信息进行误差修正，得到最终的深度图。该方法针对的视频应该是摄像机相对于静止物体的场景运动拍摄得到的连续场景序列。为实现上述目的，本发明采用下述的技术方案。其特征在于包括以下步骤步骤一确定极线对输入的连续场景视频序列，选取其中一帧作为左关键帧，与其相隔若干帧作为右关键帧，在左右关键帧之间的视频帧作为非关键帧；对左右关键帧，分别使用摄像机自标定方法可以获得左右关键帧分别对应的内参矩阵Kt，Kt,，旋转矩阵Rt，Rt,和三维平移向量Tt，Tt,;以左关键帧为当前帧，对当前帧中像素，通过以下多视图几何投影公式
Fx I「X Iy' = Kt’Rt,TRtKt_1 V +dxKt, Rt,T(Tt-Tt) (I)
-IJLlj -X -确定像素点y在右关键帧中对应的极线，其中dx表征深度，深度在给定的深度值
Li」
范围内变化，极线以dx为参数，所述像素点的对应最优匹配像素点》就在该极线上；
-1 J Weal步骤二最小匹配代价搜索搜索时利用已得到的邻近像素对应的dx的平均值
X IX
作为预测值获得第一个搜索点y <以y为中心的窗口，以颜色差异区分，进行最小匹配代
-i- ο LI Jo
价搜索；如果该点的匹配代价小于预定阈值，则认为最优匹配点在该像素的邻近位置，改变dx的值，继续进行最小匹配代价搜索，直至匹配代价超过阈值；步骤三去除噪声如果各像素的匹配代价形成的匹配代价函数曲线在当前的极小值附近不附合明显的U型，则认为是一个噪声点，应该去掉；步骤四获得初始化深度图；步骤五全局优化以初始化深度图为基础，对当前帧，在置信传播算法中各像素点之间能量值进行多次迭代，求得能量函数的当前最小值，并以其对应的深度信息即为全局最优的深度图；步骤六平面拟合修正对当前帧进行图像分割，对分割结果中的每个块，使用三维空间中的一个面来拟合，其表示为以下的形式ajXX+biXY+c^Z (2)分别在当前分割块中的水平、垂直方向上，使用公式(3)、⑷计算得到行或列上任意两个像素间深度变化的导数X = —=(3)
Δχ Xxl -XxlY = - = ^i(4)
Δχ Χχ -Xxl对求得的导数X，，进行排序，将排序后的结果进行高斯卷积求得ai; bi;代入式
(2)中求得Ci，从而确定了该平面。对于该块中像素，根据其深度值与拟合平面的屯差异进行修正；步骤七时间轴修正对当前帧中像素对应的深度值，其与左右相邻关键帧中相同位置的像素对应的深度值进行比较，如果左右相同位置的深度值相近，但与该像素对应的深度值不同，则使用左右对应深度值的平均值来替换当前像素对应的深度值；
较优的，所述步骤二中使用了结合颜色一致性约束，平滑约束，几何一致性约束，初始化深度图信息的能量函数。较优的，所述步骤六中，根据其深度值与拟合平面的Cli差异进行修正时，若该差异较大，则将该深度值替换为屯。较优的，对于非关键帧，可以利用其左右关键帧的深度图估计得到。本发明所提供的基于单目视频的对象深度提取方法可以较好的提取多目标多层次的视频序列对应的深度图。有关的测试结果表明，本方法对多个深度信息提取具有挑战性的单目视频序列均能较好的提取深度信息，能够清晰的表达深度平滑变化，深度的阶跃变化和复杂结构的深度变化。

图I基于全图像匹配的快速区域分割与区域视差估计方案的效果图。
图2本发明基于单目视频的对象深度提取方法流程图。图3本发明的效果图。
具体实施例方式前已述及，本发明通过使用多视图几何投影公式及摄像机自标定参数来进行视频中邻近帧之间的像素投影，并分析其匹配代价获得初始化深度图，在此基础上，定义表达了颜色一致性约束，平滑约束，几何一致性约束同，初始化深度图信息的能量函数，通过使用置信传播算法求该能量函数的最优解来获得对应的全局最优的深度图，最后利用分割信息和时间冗余来进行修正。下面结合

本发明的实现方式，图2中明确表示了本发明的过程。首先，获得初始化深度图；其次，定义表达图像信息的能量函数并使用置信传播算法进行全局优化，获得其全局最优深度图；再次，利用图像分割信息进行平面拟合并修正，利用时间冗余进行邻近帧之间的修正；最后，对于非关键帧，由于关键帧质量可信赖，因此使用简化的局部优化来恢复其对应的深度图，从而降低计算复杂度。需要注意的是，以下仅是示例性的列举了本发明的一种实施方式步骤一深度图初始化单目视频序列中的邻近两帧并不能简单的视为人的左右眼对应的图像。当前双目立体匹配是已经比较成熟的深度信息提取技术，但其有固有的特点1)如果两幅图的基线(Baseline)很小，匹配固然容易，但恢复的深度精度不高；而基线过大，又容易造成匹配困难；2)被遮挡的部分因为信息缺失，难以可靠地推测深度。相比而言，利用多视图立体匹配来深度恢复更具有优势。在初始化深度图时，为求匹配最优，首先要寻找匹配像素，匹配像素的选择可以利用多视图几何投影中的极线几何，将整个面的搜索简化到仅在极线上的搜索。极线几何指同一场景中物体点在两帧中投影之间的搜索几何关系三维场景中物体点M，在摄像机C和C’处分别成像为f和f'，投影中心C，C’和M构成的极面与两帧分别交于I和l’，M对应于I上一像素p，其在f'中投影像素必在I’上，故进行搜索时只需要在极线上搜索即可。极线几何是多视图立体匹配中特有的约束，可以大大提高搜索的速度，降低搜索过程中的复杂度。
步骤一的一种示例性实施步骤如下要取得匹配像素的位置，首先要得到极线的表达式，根据多视图几何投影公式，对第ik帧上的像素Px(x，y)，根据极线几何，其在第ik,帧上对应的像素Px' = (X' ,1')可以使用公式来表达极线

求得，其中y'为Px'对应的三维齐次微量，Kt为ik帧对应的内参矩阵，Rt为ik帧
对应的旋转矩阵，Kt'为L帧对应的内参矩阵，R/为ik,对应的旋转矩阵，Tt为ik对应的三维平移向量，Tt,为ik,对应的三维平移向量，通过将左边求得的向量的Z轴进行归一化可以得到，太)。在单目视频中，同一三维点在邻近两帧之间的极线往往不同于图像的扫描行，沿着极线进行搜索实际上是一个重复采样的过程，因此根据极线几何理论及连续场景中三维空间点在二维投影平面上投影像素的颜色一致性约束可知，若给定一个视差范围D =[Dmin, DmaJ，d(x，y)为像素(X，y)对应的深度,且dx e D,则当dx取值为d(x，y)时，代入匹配代价函数Cost (px, dx)中求得的(X，y)所对应的(X' ,j')的像素颜色与(x, y)具有最高的颜色一致性。
在求初始化的深度图时，由于其是在另一帧对应的极线上进行步进搜索，因此在极小值附近理想情况下存在一小段的连续下降的过程，表明其正不断接近最优值，因此当且仅当连续减小步进次数大于M后再次连续增大次数亦大于M时认为其是真正的局部最优，通过使用这样的U型约束来去除极线上搜索时的噪声点。同时在搜索过程中可以利用邻近像素已求得的深度信息。由于邻近的像素为相同深度块的可能性较大，如果已计算得到的邻近多个像素的深度值相似，则采用深度值的平均值为搜索起点双向进行搜索，如果其匹配代价在邻近像素匹配代价均值的邻域内，则以其为初始搜索点，靠近该搜索点时采样的跳跃步长较小，离其越远步长越大，当匹配代价大于阈值时，则取在该搜索范围内的极小值为最优匹配像素，如果初始搜索点的匹配代价超过了阈值，则仍采用以前的搜索过程。这样的优化减小了匹配的计算复杂度。步骤二深度图的全局优化深度图的求解类似于求边缘概率的问题，即求每个像素对应深度在深度取值范围内的每个值的概率，概率最大的深度值即为深度图中正确的值。同时对于图像，最自然的建模模型为图模型，因此问题可转化为在无向图(马尔可夫场)中求每个结点对应的边缘概率的问题。本发明中，提出了一种基于置信传播进行视频深度图全局优化的方法。该方法可以较好的表达视频序列中存在的颜色一致性约束，平滑约束，几何一致性约束，初始化深度图信息等，因此能够获得较好的全局优化结果。步骤二的一个示例性实施步骤如下(I)能量函数的定义
通过将图像转化为马尔可夫场，可以将深度图的全局求优问题转化为能量最小化问题，二者之间的联系需要通过将定性上的一致性约束关系转化为定量的能量函数定义来解决。能量函数一般分为数据项和平滑项部分数据项在能量函数优化过程中起着主要作用，承载着大部分的信息量，通过计算该定义项的值，应该能够强列的区分正确与错误。数据项部分的定义还应该具有鲁棒性，即在无纹理区域中可以辨别微小的像素差异，通过采用窗口的策略可以提高其性能，但过大的窗口会导致其反应强度的降低Edata = fcolor (px) + σ fgeo (px)其中O控制几何一致性约束与颜色一致性约束的比例，fMlOT(px)主要对颜色进行约束，考虑f (x)=ex的几何级数长特性，我们使用其构造fMl (Px)
权利要求
1.一种基于单目视频的对象深度提取方法，其特征在于包括以下步骤步骤一确定极线对输入的连续场景视频序列，选取其中一帧作为左关键帧，与其相隔若干帧作为右关键帧，在左右关键帧之间的视频帧作为非关键帧；对左右关键帧，分别使用摄像机自标定方法可以获得左右关键帧分别对应的内参矩阵Kt，Kt,，旋转矩阵Rt，Rt,和三维平移向量Tt，Tt,;以左关键帧为当前帧，对当前帧中像素，通过以下多视图几何投影公式
2.如权利要求I所述的方法，其特征在于全局优化时，使用了结合颜色一致性约束，平滑约束，几何一致性约束，初始化深度图信息的能量函数。
3.如权利要求I所述的方法，其特征在于平面拟合修正时，根据其深度值与拟合平面的Cli差异进行修正时，若该差异较大，则将该深度值替换为屯。
4.如权利要求I所述的方法，其特征在于对于非关键帧，可以利用其左右关键帧的深度图估计得到。
全文摘要
本发明涉及一种基于单目视频的对象深度提取方法，首先通过使用摄像机的自标定结果进行邻近关键帧之间的像素投影，取得匹配代价最小值，获得局部优化的初始化深度图；其次，定义了表达颜色一致性约束，几何一致性约束，平滑约束和初始化深度图信息的能量函数，将深度图提取问题转化为求能量函数最小化问题，当能量函数得到最优解时，获得的深度图为全局最优；再次，对图像进行各向异性扩散，再使用Meanshift算法获得较好的图像分割结果。对全局最优的深度图中的可信像素，利用分割结果进行平面拟合，更好的改进深度图的质量。同时考虑视频序列时间轴上的深度连续性，进行时间轴优化；最后对非关键帧采取简化算法。
文档编号G06T7/00GK102903096SQ201210230109
公开日2013年1月30日申请日期2012年7月4日优先权日2012年7月4日
发明者李炜, 黄超, 程浩申请人:北京航空航天大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李炜;黄超;程浩
技术所有人：北京航空航天大学
我是此专利的发明人

上一篇：一种基于中文检索的分词方法及装置的制作方法
上一篇：时域卡尔曼滤波修正的非线性拟合红外非均匀校正方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。