用于三维呈现的方法和设备的制作方法

文档序号：6566952阅读：134来源：国知局

专利名称：用于三维呈现的方法和设备的制作方法
技术领域：
本发明通常涉及产生三维图像的领域，更加具体地说，涉及一种用于以三维形式呈现二维信源的方法和设备，所述二维信源包括视频或图像序列中的至少一个移动对象，所述移动对象包括运动中的任何类型的对象。
背景技术：
利用一个或多个二维图像估计真实三维世界中的对象的形状是计算机视觉领域中的基本问题。对场景或对象的深度感知对于人类是普遍已知的，因为通过我们的每只眼睛同时获得的影像能被结合并形成距离的感知。然而，在一些特定情形下，当有额外的信息(例如照明、阴影、插入物、图案或相对尺寸)时，人类使用一只眼睛就能对场景或对象具有深度感知。例如，这就是为什么能够使用单目照相机估计场景或对象的深度的原因。
从二维静止图像或视频序列重构三维图像或模型在应用于识另lj、监视、现场建模、娱乐、多媒体、医疗成像、视频通信、和无数其它有用技术应用的各种领域都具有重要分支。具体地说，从平面二维内容进行的深度提取是正在研究的领域，并且已知多种技术。例如，有特定的被设计用于根据头和身体的移动来产生人脸和身体的深度映像的已知技术。
处理该问题的通常方法是分析同时从不同的观察点获取的多幅图像，例如分析不同的立体图像对(stereo pair)或在不同的时间从单个点进行分析、分析一个视频序列的连续帧、运动提取、分析遮挡区等。其它技术仍然使用类似散焦测量的其它深度提示。一些其它技术结合多种深度提示来获得可靠的深度估计。例如，指定给Konya 的EP1379063A1披露了一种移动电话，其包括用于拾取人的头、颈和
肩的二维静止图像的单个照相机、用于使用视差信息提供二维静止图像以产生三维图像的三维图像产生部分和用于显示所述三维图像的显示单元。
然而，由于许多因素，上面包括上述传统技术的示例通常并不能令人满意。基于立体图像对的系统意味着附加照相机的成本，使得图像将只能在进行显示的相同装置上拍摄。此外，当在其他地方进行拍摄时并且如果仅能获得一个视图，则不能使用这种处理方案。而且，
当运动不足或根本没有运动时，基于运动和遮挡(occlusion)分析的系统将会达不到要求。同样的，当不存在显著的聚焦不一致时，即是使用非常短的焦距光学系统或质量不好的光学系统(很可能发生在低价的用户装置中)拍摄图像的情况下，基于散焦分析的系统表现欠佳，并且结合了多种提示的系统实现起来非常复杂并且很难与低价平台兼容。结果，质量不足、不稳健和增加的成本更加剧了发生这些现有技术中面对的问题。
因此，期望使用改进的深度产生方法和系统来从二维对象(例如，视频和活动图像序列)产生用于三维成像的深度，所述改进的深度产生方法和系统能够避免上述问题并且能够低廉简单的实现。

发明内容
因此，本发明的目的是提供一种改进的方法和设备，用于通过跟踪二维静止图像、序列或二维视频中的目标对象的位置来产生所述图像或视频的实时三维呈现和在所述图像源的每个像素上使用三维建模器来产生三维效应。
为此，本发明涉及一种例如在本说明书的开头部分所述的方法，此外所述方法的特征在于包括步骤
-检测在所述视频或图像序列的第一图像中的运动对象；
-以三维形式呈现所述检测的运动对象；
-跟踪所述视频或图像序列的随后图像中的运动对象；和
-以三维形式呈现所述跟踪的运动对象。
还可以包括一个或多个下列特点。
根据本发明的一个方面，所述运动对象包括人的头部和身体。另外，所述运动对象包括通过所述头部和身体定义的前景和通过剩余的非头部和非身体区域定义的背景。
根据另一个方面，所述方法包括对所述前景进行分割。对前景进行分割包括在检测头部位置之后在其位置上应用标准模板。此外能够在执行分割步骤之前，在检测和跟踪步骤期间通过根据头部的测量尺寸调整标准模板来调整标准模板。
根据本发明的再一个方面，分割前景的步骤包括估计相对于头部以下区域的身体的位置，所述头部以下区域具有与头部类似的运动特征并通过对比度分离器相对于背景来定界作为身体。
此外，所述方法还跟踪多个运动对象，其中所述多个运动对象中的每一个都具有相对于其尺寸的深度特征。
根据另一个方面，所述多个运动对象中的每一个的深度特征以三维形式使较大的运动对象呈现为比较小的运动对象近。
本发明还涉及一种配置用于以三维形式呈现二维信源的设备，所述二维信源包括视频或图像序列中的至少一个运动对象，所述运动对象包括任何类型的处于运动中的对象，其中所述设备包括.-
-检测模块，适于检测所述视频或图像序列的第一图像中的运动
对象；
-跟踪模块，适于跟踪所述视频或图像序列的随后图像中的运动对象；和
-深度建模器，适于以三维形式呈现所述检测的运动对象和跟踪的运动对象。
本发明的其它特征被列举在从属权利要求中。

现在将借助示例参照

本发明，其中图1表示传统的三维呈现处理；图2为根据本发明的改进方法的流程图；图3为使用图2的方法的系统的示意图4为本发明的一个实际应用的示意图5为另一个实际应用的示意图。
具体实施例方式
参照通常涉及用于产生三维图像的技术的图1，以二维形式的信
息源11执行用于二维对象的深度产生的典型方法12以便获得平面 2D源的三维呈现13。方法12可并入若干种三维重构技术，例如处理一个对象的多幅二维图像、基于模型的编码、使用对象(例如，人脸) 的一般模型等。
图2表示根据本发明的三维呈现方法。一旦输入二维信源(例如图像、静止或活动视频图像集、或图像序列)(202)，所述方法选择所述图像是否由真正第一图像构成(204)。如果输入的信息是所述第一图像，那么就检测所考虑对象的图像(206)和限定所述对象的位置(208)。如果所述方法在步骤204没有显示所输入的信息是第一图像，那么就对所考虑的对象的图像进行跟踪(210)并继续限定对象的位置(208)。
然后，对所考虑对象的图像进行分割(212)。一旦对图像进行分割完，背景(214)和前景(216)就被定义，并以三维的形式对其进行呈现。
图3表示执行图2的方法的设备300。该设备包括检测模块302、跟踪模块304、分割模块306和深度建模器(modeller) 308。设备系统300处理二维视频或图像序列301，其导致呈现三维视频或图像序列309。
现在参照图2和3，将进一步详细说明所述三维呈现方法和设备系统300。在处理视频或图像序列301的第一图像时，检测模块302 检测移动对象的场所或位置。一旦检测，分割模块306推知将要以三维进行呈现的图像区域。例如，为了以三维的形式呈现人的脸部和身体，可使用标准的模板来估计实质是什么构成目标图像的背景和前景。该技术通过将标准模板放置在头部的位置来估计前景(例如，头部和身体)的位置。除了使用标准模板之外，还可使用不同的技术来
估计用于三维呈现的目标对象的位置。也可用于改进标准模板的实际应用精度的一项额外技术将根据所提取对象的尺寸(例如，头部/脸部的尺寸)调整或縮放标准模板。
另一种方案可使用运动检测来分析紧紧围绕在运动图像周围的区域以检测具有与运动对象一致运动图案的区域。换句话说，在人的头部/脸部的情况下，低于检测的头部的区域，即包括肩部和躯干区域的身体将以与人的头部/脸部类似的图案运动。因此，处于运动中并且以与运动对象类似地移动的区域是前景部分的备选。
另外，可对特定的备选区执行用于图像对比度的边界检查。当处理图像时，具有最大对比度边缘的备选区被设置为前景区。例如，在一般的户外图像中，最大的对比度可自然处于户外背景和人(前景)
之间。因此，对于分割模块306，构造近似具有与所述对象相同的运
动的对象以下的区域并将对象的边界调整为最大对比度边缘以近似适配所述对象的这种前景和背景分割方法对于视频图像将是特别有利的。
可利用各种图像处理算法来将所述对象或头部和肩部的图像分
割成两个对象，即人物和背景。结果，跟踪模块304将执行如下面进一步所述的对象或脸部/头部跟踪的技术。首先，检测模块302将把图像分割成前景和背景。一旦在图2的步骤212中已经将图像适当的分割成前景和背景，则通过以三维形式呈现前景的深度建模器308 来处理前景。
例如，深度建模器308的一种可能实现方式开始于构造用于背
景和所考虑的对象(在该情况中为人的头部和身体)的深度模型。背景可具有恒定深度，而人物可被塑造为通过其轮廓围绕其垂直轴旋转
而产生的放置于背景前头或前面的圆柱对象。该深度模型被构建一次并被存储供深度建模器308使用。因此，为了用于三维成像的深度产生的目的，即从普通平面二维图像或画面产生能够以深度印象(三维) 观看的图像，产生用于图像的每个像素的深度值，由此就会得到深度映像。然后通过三维成像方法/设备对原始图像及其相关深度映像进行处理。这可例如是产生在自动立体LCD屏幕上显示的立体图像对的
视图重构方法。
能够对深度模型进行参数化表示以与分割的对象适配。例如，
对于图像的每行，可将先前产生的前景的横坐标xl和xr的终点用于
划分三个分割部分之间的线
-左边部分(从f0到x1)是背景并被指定深度二O。 -中间部分是前景并能够使用符合下面在[x，z]平面中产生半椭圆的等式的深度来指定
其中dl代表指定给边界的深度，dz代表在所述分割部分的中点处所达到的最大深度与dl之间的差。
-右边部分(从Fxr到xmax)是背景并被指定深度=0。
因此，深度建模器308逐像素的扫描图像。对于图像的每个像素，应用对象的深度模型(背景或前景)以产生其深度值。在该处理的末尾，获得一个深度映像。
尤其是对于实时和以视频帧速率进行处理的视频图像，一旦视频或图像序列301的第一图像已经被处理完，就通过跟踪模块304 对随后的图像进行处理。可在已经检测所述对象或头部/脸部之后，对视频或图像序列301的第一图像应用跟踪模块304。一旦我们已经在图像n中识别出用于三维呈现的对象，则下一个期望的成果是获得图像n+l的头部/脸部。换句话说，下一个二维信息源将会递送另一个非第一图像n+l的对象或头部/脸部。随后，在已经被识别为图像 n+l的头部/脸部的图像区域中在图像n和图像n+l之间执行传统的运动估计处理。结果是从运动估计获得全面头部/脸部运动，这可例如通过转移、縮放和旋转的组合来得到。
通过对头部/脸部n施加该运动，就获得了脸部n+l。可执行通过图案匹配对头部/脸部n+l的精细跟踪，例如眼、嘴和脸边界的位置。与关于每个图像进行的单独脸部检测相比，通过跟踪模块304 对人头部/脸部提供的一个优点是较好的时间一致性，因为单独检测给出不可避免的以错误破坏的头部位置，所述错误在图像间是不可关
联的。因此，跟踪模块304连续的提供运动对象的新位置，并且它还
能够使用关于第一图像的相同技术来分割图像和以三维的形式呈现前景。
现在参照图4，其示出了将二维图像序列的呈现402与三维图像序列的呈现404进行比较的代表性图示400。二维呈现402包括帧 402a-402n，而三维呈现404包括帧404a-404n。二维呈现402被示出只是用于比较的目的。
例如，在图示400中，运动对象是一个人。在该图示中，关于视频或图像序列404a的第一图像(图3的视频或图像序列301的第一图像)，检测模块302只检测人的头部/脸部。然后，分割模块306 将前景定义为与人的头部+身体/躯干的组合等价。
如上面参照图2所述的，可在检测头部位置之后使用下述三种技术来推知身体的位置，即通过对头部下面的人体应用标准模板；通过根据头部的尺寸来首先縮放或调节人体的标准模板；或通过检测具有与头部相同运动的头部以下的区域。分割模块306还通过考虑人体的边缘和图像背景之间的高对比度来增进前景和背景的分割。
许多附加的实施例，即支持一个以上运动对象的实施例也是可能的。
参照图5，图示500为表示一个以上运动对象的图像。这里，在二维呈现502和三维呈现504中，在每个呈现中描绘了两个人，其中一个小于另一个。也就是，该图像中人502a和504a的尺寸小于人 502b禾口 504b。
在这种情况下，设备系统300的检测模块302和跟踪模块304 允许定位和固定两个不同的位置，并且分割模块306识别与一个背景结合的两个不同的前景。因此，三维呈现方法300允许用于对象(主要是用于人脸部/身体)的深度建模，所述对象通过下述这样一种方式使用头部的尺寸来被参数化表示，即当借助多个人使用时，较大的人出现为比较小的人近，从而改进了图像的真实性。
另外，本发明可在多个不同的应用领域被结合和实现，类似移动电话的电信设备、PDA、视频会议系统、关于3G移动的视频、保密
摄像机，还可将本发明应用在提供二维静止图像或静止图像序列的系统上。
此处还能加入借助硬件或软件项或二者的多种方式的执行功能。关于此方面，附图是非常概略的，并且只代表本发明的一些可能实施例。因此，虽然附图作为不同块示出了不同功能，但这决不排除单个硬件或软件项来执行数个功能。也不排除硬件或软件项或二者的组合来执行一项功能。
在此之前所做的评论证明参照附图的详细说明是示意性的而非限制本发明。存在许多落在所附权利要求范围内的可选择方案。权利要求中的任何参考标记并不构成为限制权利要求。单词"包括"并不排除出现权利要求中所列举的那些之外的其它元件或步骤。在元件之前的单词"一"或"一个"并不排除存在多个这样的元件或步骤。
权利要求
1.一种用于以三维形式呈现二维信源的方法，所述二维信源包括视频或图像序列中的至少一个运动对象，所述运动对象包括任何类型的处于运动中的对象，其中所述方法包括步骤-检测在所述视频或图像序列的第一图像中的运动对象；-以三维形式呈现所述检测的运动对象；-跟踪所述视频或图像序列的随后图像中的运动对象；和-以三维形式呈现所述跟踪的运动对象。
2. 根据权利要求l所述的方法，其中所述运动对象包括人的头部和身体。
3. 根据权利要求2所述的方法，其中所述运动对象包括通过所述头部和身体定义的前景和通过剩余的非头部和非身体区域定义的北里冃眾。
4. 根据权利要求3所述的方法，还包括对所述前景进行分割。
5. 根据权利要求4所述的方法，其中所述对前景进行分割的步骤包括在检测头部位置之后在其位置上应用标准模板的步骤。
6. 根据权利要求5所述的方法，还包括在执行分割步骤之前，在检测和跟踪步骤期间根据头部的测量尺寸调整标准模板的步骤。
7. 根据权利要求4所述的方法，其中分割前景的步骤包括估计相对于头部以下区域的身体的位置，所述头部以下区域具有与头部类似的运动特征并通过对比度分离器相对于背景来定界作为身体。
8. 根据前述任一权利要求所述的方法，还包括跟踪多个运动对象，其中所述多个运动对象中的每一个都具有相对于其尺寸的深度特征。
9. 根据权利要求8所述的方法，其中所述多个运动对象中的每一个的深度特征以三维形式使较大的运动对象呈现为比较小的运动对象近。
10. —种配置用于以三维形式呈现二维信源的设备，所述二维信源包括视频或图像序列中的至少一个运动对象，所述运动对象包括任何类型的处于运动中的对象，其中所述设备包括--检测模块，适于检测所述视频或图像序列的第一图像中的运动对象；-跟踪模块，适于跟踪所述视频或图像序列的随后图像中的运动对象；和-深度建模器，适于以三维形式呈现所述检测的运动对象和跟踪的运动对象。
11. 根据权利要求11所述的设备，其中所述运动对象包括人的头部和身体。
12. 根据权利要求11所述的设备，其中所述运动对象包括通过所述头部和身体定义的前景和通过相邻图像定义的背景。
13. 根据权利要求ll所述的设备，还包括一个分割模块，适于使用标准模板来提取头部和身体，其中所述头部和身体被定义为前景，而所述图像的剩余部分被定义为背景。
14. 根据权利要求11所述的设备，其中所述分割模块根据检测模块检测的头部尺寸来调整标准模板的尺寸。
15.根据权利要求11到15中的任何一个所述的设备，其中所述设备包括一个移动电话。
16. —种与权利要求16的移动电话相关的计算机可读介质，所述介质在其上存储有指令序列，当由所述设备的微处理器执行所述指令序列时，使处理器执行-检测在所述视频或图像序列的第一图像中的运动对象； -以三维形式呈现所述检测的运动对象； -跟踪所述视频或图像序列的随后图像中的运动对象；和-以三维形式呈现所述跟踪的运动对象。
全文摘要
本发明提供一种改进的方法和系统，用于通过跟踪(304)二维静止图像、序列或二维视频中的目标对象的位置来产生所述图像或视频的实时三维呈现和在所述图像源的每个像素上使用三维建模器(308)来产生三维效应。
文档编号G06T7/00GK101180653SQ200680011088
公开日2008年5月14日申请日期2006年4月3日优先权日2005年4月7日
发明者让·戈贝尔申请人:Nxp股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：让.戈贝尔
技术所有人：NXP股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。