单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法

文档序号：7867605阅读：424来源：国知局

专利名称：单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法
技术领域：
本发明涉及多视点立体视频合成领域，尤其涉及一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法。
背景技术：
随着告别3D电视元年2010年以及进一步放量发展的2011年，3D显示技术已进入3D电视的普及元年2012年。纵观整个3D电视发展历程，无论是眼镜式3D显示技术还是裸眼3D显示技术都已进入稳定发展期。但是，相对于3D显示技术的迅猛发展，3D片源逐渐成为制约3D电视在消费市场上进一步普及的最大瓶颈。
3D片源分为双目片源和多目片源，双目片源需要佩戴辅助设备进行观看，如通过主动快门式、偏振式、红蓝式眼镜等将双目图像分别发送至人的左右两眼，从而形成立体视觉感知。这种方式需要用户佩戴眼镜，观看不便。多目片源播放则采用裸眼3D立体显示设备显示，裸眼3D立体显示技术能够让用户无需佩戴辅助设备即可观看视频所具有的立体效果，是未来立体视频显示的发展方向。
无论是双目还是多目片源，由于制作成本高、周期长、对采集设备及辅助设备的要求高等问题，成为制约3D电视普及的瓶颈，而且现有的大量2D视频资料一方面提供了丰富的片源问题，另一方面却由于显示不兼容的问题而无法在3D立体显示设备上显示。发明内容
针对上述问题，本发明的目的在于提供一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法，能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频。
为达到上述目的，本发明所述一种单目转多目的立体视频生成方法，包括以下步骤
将输入的2D视频求解得到图像的深度信息图，利用得到的深度信息图渲染生成N 视点的3D视差图，并合成3D视频输出；其中，
求解得到深度信息图的具体步骤为
对视频图像进行预处理；
对预处理后的图像利用梯度法得到运动矢量；
对运动矢量进行场景改变度检测以得到视频图像的初始深度信息；
对初始深度信息进行再处理以得到清晰的深度图。
优选地，生成视差图的具体步骤为
结合深度信息图和原始图，视点区的N个视点在显示屏后生成N路虚拟像点，设视点区的N个左视点为L0、L1、L2......LN ;N个右视点为R0、R1、R2......RN ;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0” ；L1”、Rl ” ；L2”、20”......LN，，、RN” ；
求得N视点视差图为
LN” = S+(2N+1) *depth ；
RN” = S-(2N+1) *depth ；
进而合成N幅输入到显示屏的视频源；
根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
优选地，对视频图像进行预处理具体为
将输入的2D视频由RGB色彩空间转换到YUV空间；
对YUV空间的Y分量进行重复下采样处理，同时进行场景自然度检测和场景相关度检测；
对初始深度信息进行再处理具体为
对初始深度信息进行重复平滑滤波和重复上采样处理，并根据场景相关度检测信息对视频图像内的边界信息进行保留，得到清晰的深度根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波，得到最终的图像深度信息图。
优选地，对运动矢量进行场景改变度检测具体为
若场景发生变化，则重新计算变化后的图像利用梯度法得到运动矢量；
反之，进行运动矢量累加。
优选地，所述场景自然度检测是完成检测视频的电影模式中上方和下方有大面积的黑幕情况，形成有效的视频图像检测区域；
所述场景改变度检测是检测前后帧的图像是否发生场景变化，场景变化时将重新计算运动矢量；
所述场景相关度检测是检测同一帧图像中的相邻像素是否相关。
优选地，所述下采样处理具体是将视频原始分辨率降到低分辨率。
优选地，所述上采样处理具体是将视频所降到的低分辨率还原到原始分辨率。
优选地，所述N视点的N = 2，为佩带眼镜的3D模式；所述N视点的N > 2，为裸眼的3D模式。
为达到上述目的，本发明所述一种求解深度信息图的方法，具体包括以下步骤
将输入的2D视频由RGB色彩空间转换到YUV空间；
对YUV空间的Y分量进行重复下采样处理，同时进行场景自然度检测和场景相关度检测；
对下采样处理的视频图像信息利用梯度法得到运动矢量，同时对运动矢量进行场景改变度检测，并判断场景是否发生变化；
若场景发生变化，则重新计算变化后的图像利用梯度法得到运动矢量；
反之，进行运动矢量累加；
进而得到视频图像的初始深度信息；
对初始深度信息进行重复平滑滤波和重复上采样处理，并根据场景相关度检测信息对视频图像内的边界信息进行保留，得到清晰的深度根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波，得到最终的图像深度信息图。5
为达到上述目的，本发明所述一种生成视差图的方法，具体包括以下步骤
结合深度信息图和原始图，视点区的N个视点在显示屏后生成N路虚拟像点，设视点区的N个左视点为L0、L1、L2......LN ;N个右视点为R0、R1、R2......RN ;则各视点在显示屏后生成的N路虚拟像点曲线为L0”、R0” ；L1”、Rl ” ；L2”、20”......LN，，、RN，，；
求得N视点视差图为
LN” = S+(2N+1) *depth ；
RN” = S-(2N+1) *depth ；
进而合成N幅输入到显示屏的视频源；
根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
本发明的有益效果为
本发明提供一种方法，能够将现有的2D视频源转换成可以在3D立体显示设备上播放的片源，利用梯度法求解运动矢量，利用各种运算简单的方法提取准确的深度图，同时运用一路2D的深度图合成多路的多视点视差图解决3D片源短缺的难题，尤其能够解决多视点裸眼立体显示器的3D片源短缺难题，运算复杂度低，运算量小，利于芯片级硬件实现。

图I是本发明实施例所述单目转多目的立体视频生成方法的框图2是本发明实施例所述深度图求解框图3是人眼观看3D显示器产生深度感的原理图4是生成视差图像的基本原理；
图5是一路2D视频根据深度信息合成多路视频的俯视图。
具体实施方式
下面结合说明书附图对本发明做进一步的描述。
单目视频(2D)转多目视频(3D)是在现有3D信号比较少的情况下出现的一种技术，它能够将日常观看的普通2D电视节目，通过运算产生出3D的显示效果。
2D转3D是在原有2D图像的基础上经过运算，生成新的视差图像，然后将视差图像以3D存储格式输出，通过佩戴合适的3D眼镜，或者输出合适的多视点视频源，通过多视点立体显示器，从而达到实现3D效果的目的。
为此，如图I所示，本发明实施例所述一种单目转多目的立体视频生成方法，能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频。
该方法包括以下步骤
将输入的2D视频利用梯度法求解图像运动矢量的方法得到图像的深度信息利用得到的深度信息图渲染生成N视点的3D视差图，并合成3D视频输出。
本发明实现的内容为两个部分，一部分为利用2D视频图像求解深度图；一部分为利用深度图合成3D视频源。
I、得到深度信息图的具体步骤为
将输入的2D视频由RGB色彩空间转换到YUV空间；
对YUV空间的Y分量进行重复下采样处理，同时进行场景自然度检测和场景相关度检测；
对下采样处理的视频图像信息利用梯度法得到运动矢量，同时对运动矢量进行场景改变度检测，并判断场景是否发生变化；
若场景发生变化，则重新计算变化后的图像利用梯度法得到运动矢量；
反之，进行运动矢量累加；
进而得到视频图像的初始深度信息；
对初始深度信息进行重复平滑滤波和重复上采样处理，并根据场景相关度检测信息对视频图像内的边界信息进行保留，得到清晰的深度根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波，得到图像的深度信息图。
上述步骤的具体处理为如图2所示；
将输入的2D视频先由RGB色彩空间转换到YUV空间，在图像的YUV空间内Y向量表示明亮度，也就是灰阶值，而U向量和V向量主要用于指定像素的颜色，在这里，Y向量集中绝大部分的图像信息，因此，本发明中需要对Y向量进行处理。
接着，对Y分量进行下采样到低分辨率以减少运算复杂度(例如分辨率从 1080*1920下采样到64*64等级)，在这个分辨率降低过程中，由于分辨率的降低需要分阶段的降低，因此，下采样过程需要重复处理，以达到所需要的视频分辨率。
在每次的下采样的过程中需要运用双三次立方插值法以最大程度的保持图像细节，同时在下采样的过程中进行场景自然度检测和场景相关度检测，该两项检测也随着下采样过程的重复处理，也需重复检测，以便记录每一次的检测信息，为后续上采样作为滤波条件生成深度图。在这里，场景自然度检测主要完成检测视频的电影模式中上方和下方有大面积的黑幕情况，形成有效的视频图像检测区域；所述场景相关度检测是检测同一帧图像中的相邻像素是否相关，确保像素之间的合理配合。
然后，根据硬件配置，调低到合适的分辨率后根据梯度法求解图像的运动矢量，通过视频的连续播放，对运动矢量进行场景改变度检测。场景改变度检测主要检测前后帧的图像是否发生场景变化，如发生镜头切换等，场景改变时将重新计算运动矢量。在场景未改变的视频帧中进行运动矢量累加，从而求得连续视频帧的运动矢量，得到视频帧的初始深度目息。
接着，对初始深度信息进行平滑滤波和上采样操作，在这个过程中需要将低分辨率还原到原始的高分辨率(如从64*64等级到1080*1920)，还原过程同样分阶段的进行，因此，重复滤波和上采样步骤需要重复处理，最终到原始的分辨率等级，在进行平滑滤波的时候根据场景相关度检测信息对图像内的边界信息进行保留，即滤波时只在边界内进行滤波，这样就能将图像内前景和背景在边界处区分，从而形成清晰的深度图。
最后，根据场景自然度信息和场景改变度信息对深度图进行混合滤波，得到图像的深度信息图。
2、生成视差图的具体步骤为
结合深度信息图和原始图，视点区的N个视点在显示屏中生成N路虚拟像点，进而合成N幅输入到显示屏的视频源；
根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
对于上述的具体步骤需要一步步以形成原理进行解释说明
首先，要知道人眼在观看3D显示器为什么能够产生深度感，深度感的产生可以进一步的使人眼看到立体场景。在这里，以图3作为解释视图，在图中，观看者以观看距离L观看3D显示器，左、右眼分别看到左、右视差图像中的同源像点O1和Or时，会感觉到空间点O 位于显示屏后方H距离处。同理，该行像素上其他同源像点也会相应地产生深度感。这些同源像点综合产生的视觉效果使得观看者感觉到有一条曲线AB出现在显示屏的后方。该曲线AB可看作是某一行像素的深度图。那么，当出现整幅图像时，按照该原理，观看者就可以感觉到具有深度感的整个场景。
由深度图生成多幅视差图像的原理是人眼观看3D显示器获得深度感的一个逆过程，即要利用要显示的深度反过来生成相应的视差图像。在这里，以图4解释生产视差图像的基本原理。曲线A’B’为设定的场景某一行像素的深度图，该深度图反映了观看者观看 3D显示器上产生的立体效果。在图中，设3D显示器最佳观看距离为L，则在距离显示屏垂直距离L处设定多个水平放置且间距为人眼瞳距的视点来模拟人眼观看3D显示器的实际情况。图中标识了 3个视点，当人眼位于视点I处观看折线A’ B’时，其视觉效果等同于从显示屏上观看折线A’ B’的投影，同理，在视点2和视点3，以及在整个场景的每个视点都可以得到一个在显示屏上的投影图像。该投影图像就是视差图像。当左、右眼位于两个相邻视点观看到对应的投影图像时，就可以观看到图像的立体效果。
上述内容介绍的是在单个视点看到的视差图像，下面要解释左、右视点是如何根据上述视差形成原理得到所需要的立体图像。以图5说明，其中视点区代表N个视点，即L0、L1、L2......LN为左边视点，R0、R1、R2......RN为右边视点。以LO和RO这组左、右视点为例，在图中，LO视点观看深度曲线L0”上的三个虚拟像点，在显示屏上投影三个影点，其中包括L0’。而RO视点观看深度曲线R0”上的三个虚拟像点，在显示屏上投影三个影点，其中包括R0’。L0’和R0’为左、右眼产生的视差图像点。因此，可以得到N个视点生成N 路虚拟像点，即合成N幅输入显示屏的视频源，最后根据显示屏的类型，从N幅视频源中按照相应的输入格式合成一幅输入视频源在显示屏上显示。如图上所示，显示屏后的曲线L0” 表示LO视点看到的某一行像素形成的像，曲线R0”表示RO视点看到的这行像素形成的像， L0”和R0”之间的视差就是上述求解深度图，即视差偏移量d印th，那么，用数学表达式表示为
LO ” = S+depth
RO ” = S-depth
其中S表示原2D图像。
当N = 2时，就可以作为普通辅助眼镜观看的3D显示输入视频源。
当N > 2时，N视点视差图分别为
LN” = S+(2n+l) *depth ；
RN” = S-(2n+l) *depth ；
最后再根据裸眼立体显示装置的3D像素排列方式将N幅视差图组合排列成一幅裸眼立体显示图，就可以在裸眼立体显示器上进行显示。供于显示的显示器可有裸眼立体显示器、SG屏立体显示器、PR屏立体显示器等。
以上，仅为本发明的较佳实施例，但本发明的保护范围并不局限于此，任何熟悉本8技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。
权利要求
1.一种单目转多目的立体视频生成方法，其特征在于，包括以下步骤将输入的2D视频求解得到图像的深度信息图，利用得到的深度信息图渲染生成N视点的3D视差图，并合成3D视频输出；其中，求解得到深度信息图的具体步骤为对视频图像进行预处理；对预处理后的图像利用梯度法得到运动矢量；对运动矢量进行场景改变度检测以得到视频图像的初始深度信息；对初始深度信息进行再处理以得到清晰的深度图。
2.根据权利要求I所述的单目转多目的立体视频生成方法，其特征在于，生成视差图的具体步骤为结合深度信息图和原始图，视点区的N个视点在显示屏后生成N路虚拟像点，设视点区的N个左视点为L0、L1、L2......LN ;N个右视点为R0、R1、R2......RN ;则各视点在显示屏后生成的N路虚拟像点曲线为LO”、RO，，;L1”、Rl ” ;L2”、20”......LN”、RN” ；求得N视点视差图为LN” = S+(2N+1)*depth ；RN” = S-(2N+l)*depth ；进而合成N幅输入到显示屏的视频源；根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
3.根据权利要求I所述的单目转多目的立体视频生成方法，其特征在于，对视频图像进行预处理具体为将输入的2D视频由RGB色彩空间转换到YUV空间；对YUV空间的Y分量进行重复下采样处理，同时进行场景自然度检测和场景相关度检测；对初始深度信息进行再处理具体为对初始深度信息进行重复平滑滤波和重复上采样处理，并根据场景相关度检测信息对视频图像内的边界信息进行保留，得到清晰的深度图；根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波，得到最终的图像深度信息图。
4.根据权利要求I所述的单目转多目的立体视频生成方法，其特征在于，对运动矢量进行场景改变度检测具体为若场景发生变化，则重新计算变化后的图像利用梯度法得到运动矢量；反之，进行运动矢量累加。
5.根据权利要求3所述的单目转多目的立体视频生成方法，其特征在于，所述场景自然度检测是完成检测视频的电影模式中上方和下方有大面积的黑幕情况，形成有效的视频图像检测区域；所述场景改变度检测是检测前后帧的图像是否发生场景变化，场景变化时将重新计算运动矢量；所述场景相关度检测是检测同一帧图像中的相邻像素是否相关。
6.根据权利要求3所述的单目转多目的立体视频生成方法，其特征在于，所述下采样处理具体是将视频原始分辨率降到低分辨率。
7.根据权利要求3所述的单目转多目的立体视频生成方法，其特征在于，所述上采样处理具体是将视频所降到的低分辨率还原到原始分辨率。
8.根据权利要求I所述的单目转多目的立体视频生成方法，其特征在于，所述N视点的N = 2，为佩带眼镜的3D模式；所述N视点的N > 2，为裸眼的3D模式。
9.一种求解深度信息图的方法，其特征在于，具体包括以下步骤将输入的2D视频由RGB色彩空间转换到YUV空间；对YUV空间的Y分量进行重复下采样处理，同时进行场景自然度检测和场景相关度检测；对下采样处理的视频图像信息利用梯度法得到运动矢量，同时对运动矢量进行场景改变度检测，并判断场景是否发生变化；若场景发生变化，则重新计算变化后的图像利用梯度法得到运动矢量；反之，进行运动矢量累加；进而得到视频图像的初始深度信息；对初始深度信息进行重复平滑滤波和重复上采样处理，并根据场景相关度检测信息对视频图像内的边界信息进行保留，得到清晰的深度图；根据场景自然度检测信息和场景改变度检测信息对深度图进行混合滤波，得到最终的图像深度信息图。
10.一种生成视差图的方法，其特征在于，具体包括以下步骤结合深度信息图和原始图，视点区的N个视点在显示屏后生成N路虚拟像点，设视点区的N个左视点为L0、L1、L2......LN ;N个右视点为R0、R1、R2......RN ;则各视点在显示屏后生成的N路虚拟像点曲线为LO”、RO，，;L1”、Rl ” ;L2”、20”......LN”、RN” ；求得N视点视差图为LN” = S+(2N+1)*depth ；RN” = S-(2N+l)*depth ；进而合成N幅输入到显示屏的视频源；根据显示器特性将N幅视频源合成一幅视频源到显示器上显示。
全文摘要
本发明公开一种单目转多目的立体视频生成方法、求解深度信息图以及生成视差图的方法，能够将现有的2D视频源转换成可以在3D立体显示设备上播放的视频，包括以下步骤将输入的2D视频利用梯度法求解图像运动矢量的方法得到图像的深度信息图；利用得到的深度信息图渲染生成N视点的3D视差图，并合成3D视频输出。本发明提供一种方法，能够将现有的2D视频源转换成可以在3D立体显示设备上播放的片源，利用梯度法求解运动矢量，利用各种运算简单的方法提取准确的深度图，同时运用一路2D的深度图合成多路的多视点视差图解决3D片源短缺的难题，尤其能够解决多视点裸眼立体显示器的3D片源短缺难题，运算复杂度低，运算量小，利于芯片级硬件实现。
文档编号H04N15/00GK102932662SQ20121051780
公开日2013年2月13日申请日期2012年12月5日优先权日2012年12月5日
发明者刘丽丽, 邢文峰申请人:青岛海信信芯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘丽丽;邢文峰
技术所有人：青岛海信信芯科技有限公司
我是此专利的发明人

上一篇：VoIP通话实现方法及装置的制作方法
上一篇：一种流量控制的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。