产生三维图象计算深度信息和用其进行图象处理的方法

文档序号:6410363阅读:336来源:国知局
专利名称:产生三维图象计算深度信息和用其进行图象处理的方法
技术领域
本发明是关于产生三维空间显示的图象(以后称为3-D显示)和计算深度信息和使用深度信息进行图象处理的方法。产生3-D显示图象的方法特别涉及通过多眼摄象机拍摄伪取景器图象和从单眼摄象机拍摄的取景器图象的方法。计算深度信息的方法是关于获得目标和摄象人之间的距离的方法,该方法可以用来实现产生3-D显示的图象的方法。使用深度信息进行图象处理的方法是关于包括为3-D显示而产生图象和保留产生3-D显示的图象,增强显示等等类似的应用。3-D显示图象的产生通过检测2-D运动图象来产生3-D图象的电视技术所相关的领域以为众所周知了。该技术的一典型实例是使用时间差方法的3-D显示,该方法的原理将结合

图1至3加以描述。
在景中,目标从左向右移动而背景是静止的,这如图1所示,通过再现右和左眼各自的图象(以后分别称为右和左眼图象),使在它们之间有预定的时间流过,这如图2所示,视差θ产生了,这如图3所示,“视差”或“两眼的差异”被定义为从右和左眼分别指向一点的视矢量之间的角度差异。在图1中,由于视差视者感觉小车比背景更近,伪立体视觉就实现了。当目标,在该情况下是小车在相对方向移动时,各自的图象被产生,使得右眼看到的小车再现比左眼看到的小车早一个预定的时间,对照的例子如图3所示。
日本出版号Sho55-36240公开了一个使用深度信息的立体图象的显示仪器,其中该仪器从多方向的信号中仅仅接收从基本方向(即,2-D运动图象)拍摄的图象信号和包括目标深度信息的信号,使得在仪器中再现从多方向拍摄的初始取景器图象。仪器的目的是减少传送带宽。仪器包括产生时间延迟的各种延时电路并同时按照深度信息控制范围。时延产生了视差,依照电路的输出信号,为左右眼再现图象信号。依这样的方式,伪立体图象被再现。该出版物公开了如下装置为公开的仪器的最佳实施例,(1)通过分别提供右和左眼图象到两个CRT而显示给视者伪立体图象的装置,该右和左眼图象是这样置位的以形成半镜的预定的角度,和(2)使用双凸透镜固定在显示屏前以显示伪立体图象仿佛视者在水平方向上移动的装置。
然而,上述的仪器是在深度信息由外部提供的条件下工作。因此,如果它仅接收2-D运动图象,仪器本身并不能产生伪立体图象。
日本申请号为Hei 7-59119的申请也公开了一个根据2-D运动图象产生伪立体图象的仪器。该仪器包括,一检测电路,用于从所提供的2-D运动图象中检测运动矢量;一个延迟电路,用于根据运动矢量延迟右或左图象其中之一。延迟产生了视差。该申请公开了固定显示的头(HMD)做为所公开仪器的最佳实施例,该头固定显示的头是玻璃类型的,用于提供不同的图象到右和左眼。通过HMD,视者可以看到伪立体的图象。
在这个仪器中,由于延迟的范围是由运动矢量的幅度所决定的,在高速运动下的任何物体呈现出更接近视者,形成了不自然的立体景象,该非自然的立体景象与视者(或摄象机)和目标的有效距离(即,深度)是不和谐的。
日本公开号Sho 60-263594的申请也公开了使用时间差方法显示伪立体图象的一仪器,其中仪器为每一场交替地显示右眼和左眼的图象,使得它们为每一场交替地通过快门玻璃被看见,因为快门玻璃交替地打开他们的右和左眼。
当目标在慢速移动时,该申请进一步公开了通过提供在右和左图象之间的较长的时间差而产生立体效果的方法。然而,由于该仪器不是根据深度信息进行操作的,因而提供被产生和被显示的精确的伪立体图象是不可能的。
在1993.5.5发行的杂志“象素”(号128)在97页至102页描述了使用深度信息的伪立体图象系统。在该系统中,目标首先被显示为灰度级对应深度的一灰度图象,和然后根据灰度级,适当的视差按照象素的数目加以计算,这样右和左的图象被产生和通过快门玻璃被看见。然而,立体图象是手动产生的,并没有公开自动产生的技术。
公开号为Hei 4-504333(W088/04804)的申请公开了使用深度信息完成伪立体图象的方法。该方法包括以下步骤分2-D运动图象为几个区域,给每一个被分区域深度信息,给每一个区域提供视差和产生伪立体图象。然而,深度信息是手工提供的,自动提供的技术并没有公开。
在所谓“计算机视觉”的科研领域中,研究已经被引入到建立目标的3-D结构和运动的方法。具体而言,目标在于机器人自控制的研究已经涉及到通过使用立体摄象机(多眼摄象机)或使用处在移动过程中的单眼摄象机拍摄目标而获得从视点到目标的精确距离。该技术的几个方面已经在标题为“日本1990图象编码论文集”的报告中得到描述,例如,在57页。[2]产生深度信息计算机视觉可以检测目标的深度。然而,在计算深度信息时,这是基于2-D运动信息,适当的图象并不是总是提供给计算。如果计算甚至用提供的不适当的图象连续进行,可能产生严重的错误。即,如果深度信息是从这样不适当的图象获得的,然后用来产生立体图象,这就完全可能,使这样产生的立体图象将是不自然的,即出现异常,一人物在距离上呈现比另一人物近,在实际上另一个人物更近。
值得注意的是,通过理解帧与帧之间的对应关系获得深度信息是众所共知的。例如,日本公开号为Hei 7-71940(它对应着USP 5475422)的申请论述下面内容作为现有技术,(1)通过立体摄象机拍摄的两个图象的相关点或线来预测真实空间(3-D世界)的该点或线的位置的技术,和(2)在移动摄象机的同时在其上面拍摄目标,这样获得它的连续取景器图象用来跟踪连续取景器图象的特征点的运动并且以比预计每一个特征点在实际空间的位置的技术c[3]使用深度信息进行图象处理的方法使用深度信息控制机器人运动的方法是共知的,例如前述的计算机视觉,使用深度信息产生伪立体图象的方法也是公知的,例如号为Sho 55-36240的前述的日本申请。
另一方面,使用深度信息进行图象处理而不产生伪立体图象的方法已经很少有人提出了。
本发明的第一个目的是关于产生如[1]所述的3-D显示图象。在定义本发明的目标时,发明人注意了这样的事实,所有前述的产生伪立体图象的技术至少具有下述要被解决的问题之一1根据深度信息的精确立体图象未被产生。取代的方法是,根据运动的范围仅仅3-D效果被临时地产生。近而,需要使用时延(时间差)产生视差,需要目标的水平运动并作为产生的前提,该产生的前提构成了基本限制。
2由于它不是自动的,从2-D运动图象获得深度信息的过程是编辑过程。这样,立体图象不能根据2-D运动图象的输入而实时输出。
因此,本发明的第一个目的是通过应用涉及计算机视觉涉及包括相关电视技术领域的图象处理领域的前述技术根据深度信息产生精确的立体图象。
为了上述目的,依照本发明,深度信息从2-D运动图象中取出,基于此深度信息,3-D显示图象就被产生了。这是应用涉及计算机视觉涉及相关于图象显示的技术领域的技术。依照本发明的一个方面,深度信息通过下述过程获得即,2-D运动图象的运动被检测;景象和2-D运动图象的拍摄点之间的相关的3-D运动被计算;从拍摄点到2-D运动图象的各自图象部分的相对的距离被计算,该计算根据相关的3-D运动和各个图象部分的运动,根据这样获得的深度信息,产生伪立体图象。
本发明的该方面可以不同地描述为通过下述过程获得深度即,大量取景器的帧(以后称为帧)从要被处理的2-D运动图象中选出;在各自图象部分的3-D真实世界的相关的位置关系在各帧之间的2-D位置移动的基础上被识别。换句话说,为了确定深度,各个图象部分的3-D运动根据2-D-位置移动加以计算,根据这样的计算,3-D世界的各自部分的位置坐标根据三角测量原理加以计算。一帧是图象处理单元,即,包括帧图象或在MPEG内的场图象或类似的图象的概念。
考虑2-D运动图象,大量取景器的帧以后参考为“不同时间的帧”,因为它们是在不同时间被拍摄的。(在下述多眼摄象机描述中,同时拍摄的大量的帧以后称之为“同时的帧”。)帧平面上的位置移动被参考为“2-D位置移动”。在本发明的该方面,讨论不同时间的帧,“2-D位置移动”是指由于随时间过去产生的变化,这就是运动。(以此相对,同时帧的“2-D位置移动是指大量帧之间的位置差)。
本发明的第二个目的是关于计算深度信息,这如上[2]所描述c即,本发明的第二个目的是提出了在大量图象中获得正确对应关系的方法,以计算深度信息,用来从要被输入的图象中选取适当的一个用于计算,当任何不适当的情况发生时,例如要出现非自然的伪立体图象要被产生时的情况时,间断计算深度信息。近而,本发明目标在于提出有效地确定对应和特征点,以及高精度地检索和跟踪点的方法。
为了达到该目的,依本发明,在它们之间具有适当大运动的两帧从2-D运动图象中选出,使得深度信息从两帧中获得,依照本发明的该方面,用能便于计算的预选的两帧可以获得好的计算结果。是否帧具有适当大的运动的判断可以根据特征点运动变化的范围。
根据本发明的另一方面,使用在参考帧提供的代表点,在包括特征点在另一帧的图象区域(以后称另一帧为目标帧)和包括代表点在参考帧的图象区域之间对图象的类似性进行估算。特性点被选来作为经受估算的相应点,被选点是随机决定的。然后,特征点和另一个特征点之间的相关位置的可接收性受到估算和评价。即,判断特征点与另一个特征点之间的相关位置关系相对于同代表点与另一个代表点之间的相关位置关系一样的位置关系是否合理或可接受,其中所述代表点与另一个代表点分别与各特征点相应。当两个求值获得较高的分数时,特征点临时地被确定为代表点的相应点。随后,通过在预定的检索区域移动相应点而且同时假定所有其它相应点是固定的,一最好的点被检索,使得每一个估算结果产生最好的结果(该方法以后称为固定的检索方法)。在检索过程中已经发现最好位置被确定为相应点的新位置。所有相应点都顺序地经受了这样检索和位置变化。此后,基于表示点和它的相应点之间的位置关系深度信息被获得,通过上述的过程系列已经获得相应点。
通常,通过块匹配和类似方法已经估算了图象的类似性。在本发明中,另一方面,通过包括的对相关位置估算的附加的估算,帧之间的相应关系能被更精确地检测。通过相互作用的计算精度能进一步地改进。
根据本发明的一个方面,图象的类似性可以通过被修改的块匹配进行求值和估算,使得当包括同一目标的多块被测试时,相似性能被正确地评价为最高,而不管拍摄条件如何(以后称为偏置块匹配)。作为同时的诸帧,由于大量摄象机的特性差异,特定的颜色折射倾向于发生,作为不同时的诸帧,由于从时间到时间的变化,同样的问题也可能出现,这就造成了取景器图象亮度的变化。在解决此问题进行校正之后,图象的相似性被转换并用几何距离的形式加以表示,该几何距离就是判断相关位置的可接受性的概念。然后,相关位可接收性和传送的相似性被组合在一块被用来作为评价结果的一般判断。在这种情况下,偏置块匹配能被引入到校正限制内,该校正限制是预定的并且取决于参考帧和目标帧之间的距离。即,当距离较大时,较大的校正限制依此被设置。
在日本公开号5-3086630中公开了亮度偏移变化的校正。然而,校正仅限于应用到面出或面进的情况(亮度的一致的变化),并没有设及亮度的部分变化。
依照本发明的另一方面,通过下述过程可以获得深度信息即,大量的代表点在一参考帧中被提供;大量的代表点的对应点在一目标帧中被确定,使得对应代表点的每一个的每一点;和在代表点当中的至少一个特性点和它对应点之间的位置关系被获得。它的位置始终在大量不同时间诸帧内移动的一点被选出作为一特征点,因为这样一点被认为是始终被精确地跟踪了。
类似地,根据本发明的另一方面,如果一点,在同时的诸帧之间的位移实质上是一致的或实质上是一致变化的,它在近处拍摄的其它同时诸帧之间示出了类似地一致移动或运动的变化但是和上述的时间不同,这样的点可以选来作为特征点。
依照本发明的另一方面,深度信息可以从下述的过程获得即,大量代表点在参考图象中被获得;大量代表点的相应点在另一个图象中被确定;该代表点和它的对应点的位置关系被获得;依照位置关系计算深度信息,当不足够数目的特征点在代表点中被建立时或特征点的移动太小时深度信息的计算被间断,因为这不大可能出现,即取景器诸图象之间的位置关系高精度地被获得。
两种概念上不同的对应点存在着,即,一真实的对应点和计算的对应点。在原理上,每一个代表点仅有唯一的对应点,这就取消了在任何其它位置上存在其它诸对应点的可能性。这个理想的唯一对应点是真实对应点。另一方面,为图象处理通过计算确定一对应点并不必须与真实对应点相一致。这是计算的对应点,该对应点可能存在在真实对应点位置之外的任何位置并随机改变它的位置。位置变化可以在过程中重新被分类,以改进对应点的精度,这将在以后叙述。在该说明中,“对应点”的术语被用来表示真实和计算的对应点两者而不区分两个概念,除非有必要区分它们。
依本发明的再一方面,其中一特定图象的任一点的深度被计算为一负值时获得2-D图象的深度,将参考邻近的具有正深度值的点的深度信息重新计算深度。即,当深度被计算为负值时,这可能在计算过程中使用了不适当的计算变量,因此,根据邻近点的深度,这样一个负深度能被校正。
本发明的第三个方面是关于[3],即,使用图象处理的深度信息而不产生伪立体图象。
为了实现该目的,依照本发明,通过依照它的深度信息给2]图象视差而产生立体图象,视差首先被改变并落入预定的范围,使得立体图象按照变化的深度信息被产生。过大的视差能在视者眼里形成假象,以此相对,过小的视差使作为数据的视差意义无效。因此,这就必须保持视差在希望的范围内。
依照本发明的另一方面,通过依照它的深度信息给2-D图象视差而产生立体图象,依照深度信息确定的视差最初被设置为变量。通过这样的安排,根据视者变化视差的结构,例如,这就可能产生和显示视者高兴和喜欢的伪立体图象。
依照本发明的另一方面,通过依照它的深度信息给2-D图象视差和在立体图象显示仪上显示立体图象而产生立体图象,一过程被引入到2-D图象,使得所形成的视差是根据立体图象显示仪唯一的显示情况确定的。显示状况是由显示仪器的显示屏幕的大小和假定的从显示屏到视者之间的距离控制。
依照本发明的另一方面,通过依照深度信息给出2-D图象的每一图象部分的视差产生立体图象,由给定视差形成的不均匀的图象框架轮廓线被校正。尤其是,给定一个视差,如果在屏右端所示出的图象区域被显示的稍微向右,该图象区域结果从初始的图象框架突出,和这样形成了在图象框架边缘的不均匀部分。对这样不均匀部分的纠正是纠正在框上的呈现。通过在一定深度均匀地切掉框的周边部分进行校正,以完成图象框的所希望形状。
依照本发明的另一方面,在依照深度信息完成对2-D图象进行图象处理的方法,确定经受图象处理的图象区域,是依照深度信息完成该图象处理的。使用这样的安排,就可能分离目标或改变离开视者一特定距离的目标的大小。
依照本发明的另一方面,在依照它的深度信息对2-D图象进行图象处理的方法中,在2-D图象的拍摄点假想移动在假想的移动路径上的具有大量点的视点的图象根据深度信息被产生作为慢运动图象使用。
必需注意的是,依照本发明,依照深度信息来自不同点的取景器图象屏可以被产生。在视点产生相伴变化的各个图象部分的位置移动根据深度信息加以计算,使得取景器图象被再产生以对应产生的位置移动。当视点在高度上变化时,例如,目标(各自图象部分)的位移(在直线运动或旋转运动)能根据摄象机已经移动的距离和深度信息加以计算,使得所希望的取景器图象能根据计算的结果产生。
图1是目标从左向右移动而同时背景是静止的取景器图象;图2给出了在它们之间具有时延的右和左图象的再现;
图3给出了由于图2时间的消逝而形成的视差;图4给出了依实施例1产生3-D显示图象的主要阶段;图5流程图是检测取景器框之间的对应关系;图6给出了在参考帧t中提供的代表点;图7给出了块匹配;图8是概念模型,其中E1的值指出了在垂直方向的假定对应点pt′(i,j);图9给出了代表点和在步S12确定的它的对应点之间的关系;图10是解释考虑相应点的相关位置的求值的原理图;图11给出了为图9相应点引入后选点的改进处理的结果;图12给出了P点在屏上和3-D空间运动之间的关系;图13给出了是根据摄象机的3-D运动和点P在屏上运动确定P点的3-D坐标的原理;图14给出了代表点,每一个都给出了真实的数值;图15示出了依照深度信息给出的视差;图16给出了从帧t产生的右和左的图象;图17给出了对应视差的非线性变换;图18给出了实施例1的硬件结构的实例;图19的单色图画给出了在帧t的取景器图象;图20的单色图画示出在帧t′的取景器图象;图21的帧t的单色图画被划分用的栅格覆盖和配有代表点;图22的单色图画示出了在帧t′相应点的初始位置;图23的单色图画给出了帧t′改进了的位置的相应点;
图24单色图画使用了带有灰度图象的深度信息;图25是依深度信息产生的右图象的单色图画;图26是依深度信息产生的左图象的单色图画;图27给出了依实施例3产生3-D显示图象的主要阶段;图28给出了依照在图3实施例3引入的特征点的选择标准;图29给出了初始取景器图象和一个再产生图象以从改变的视点被看见的相应关系;图30给出了初始取景器图象和一个再产生的图象以从改变的视点被看见的相应关系;图31给出了部分被扩展的图象;图32给出了从图29图象中分出房子的图象;图33给出了实施例8的立体图象显示仪器的结构。
本发明优选的实施例将参照附图加以描述。在实施例1至4当中,在仪器输出3-D显示图象(伪立体图象)作为一最终图象,而在实施例5至7中,它输出2-D显示图象(一般的2-D图象)。
在实施例1和2中,仪器最初接收由单眼摄象机拍摄的取景器图象,而在实施例3中它接收由多眼摄象机拍摄的取景器图象(一立体图象)。实施例1,2和3分别对应着实施例5,6和7,除了前者输出3-D显示图象和后者输出2-D显示图象。实施例8是关于显示方法,在该方法中,当显示伪立体图象时,考虑显示仪器的唯一的条件。实施例1图4给出了依实施例1产生3-D显示图象的主要阶段。到阶段3,依本发明计算深度信息的方法内容将变得很明显。
在实施例1中,基于阶段1至3对2-D显示的图象的分析和在2-D显示图象的基础上产生3-D显示图象,在阶段4产生3-D显示图象,各个阶段将被详细地说明。[阶段1]2-D运动信息的提取在取景器图象中示出的目标运动的信息首先被提取。在该阶段运动信息是2-D。在屏上目标的运动用2-D坐标的方式加以表示。
为了理解目标的运动,取景器图象的对应关系被检测在时间t的取景器图象被指定为参考帧(以后称为“帧t”),而在时间t′的取景器图象被指定为目标帧(以后称为“帧t′”)。在帧t内,大量的代表点被预先提供,使得代表点的对应点在帧t′中被跟踪。帧t和t′构成了不同时间帧,它们并不是必需在帧顺序中是相邻帧,阶段1是以这样的事实为特征,2-D信息不仅能从目标的水平运动中提取而且能从任何方向运动提取。以后,在该说明书中(t)和(t′)定义为时间和一帧被定义为一般构成取景器图象的一个单元,它并不局限为电视接收机的一特定的帧,该帧包括525行,它也不局限为个人计算机的一屏,该屏包括640*480个象素或类似物。另外,代表点不仅由帧t提供,而且也可由帧t和t′提供。[阶段2]计算3-D运动信息在识别目标的2-D运动之后,关于目标真实的3-D运动的信息被计算作为3-D运动信息。该3D运动由6个参数表示,三个表示直线运动和三个表示旋转运动。这根据大量的代表点和相应点对加以计算。[阶段3]获得深度信息目标真实运动的识别能确定在不同时间的目标之间相关位置关系。近而,该关系的识别能够提供目标或它各自部分(以后称各自图象部分)的深度信息。[阶段4]产生图象根据深度信息确定视差以产生右和左的图象。视差被确定使得较近的目标具有较大的视差。由于各自的图象部分应有不同的深度,右和左的图象能被产生,使得每个图象的各自的图象部分具有不同的视差。应当清楚地理解,下述事实是相互不同的并且不应混在一起;即,该事实是,运动信息可以从阶段1的任何方向运动中提取,和该事实是,由于看目标的两眼的水平定位视差被提供的方向在阶段4被局限于水平方向。
实施例1的各自阶段已经在上述描述了。随后,它们将进一步地被描述。[阶段1]提取2-D运动信息图5是检测取景器图象帧之间对应关系的流程图,各个步骤将逐一加以描述。(步10)在帧t提供代表点如图6所示,代表点在参考帧t中被提供。在图6中,通过把栅网放在其上面,帧t被划分为8×8象素,在栅网的水平和垂直线的每一个交叉点上配置有代表点。从左边第i和从上边第j个代表点被表示为pt(i,j), 在时间t′的pt(i,j)的对应点被表示为pt′(i,j)。如果需要话,pt(i,j)的x和y的坐标被分别表示为pt(i,j)x和pt(i,j)y。
不仅可以在交叉点上而且可以在任何希望的点上提供代表点c作为极端的情况,所有的象素均被分别指定为独立的代表点。(步11)设置一对应点后选区域以图6pt(6,4)为例,基于如下假设pt′(6,4)是位于pt(6,4)的邻近除非取景器图象急剧运动而超出了预定的界限,可能包括pt′(6,4)的区域被预定。在实施例1中,为了减少位置检测的计算,pt′(6,4)被假设为在pt(6,4)邻近的100×60象素的区域内。
步11也能修改为如下1.当取景器图象移动相对剧烈时,依照帧顺序的相邻两帧被确定为帧t和t′以最小化帧t和t′之间代表点位置的变化,也就是最小化冒从假设的区域移出相应点的危险。当然,可以假设所有图象区域为相应点的候选区域。由于取景器图象的大的运动从假定区域移出相应点的危险就这样被减少了,虽然计算量是相应地增加了。2.在上述当中,根据简单的假设pt′(6,4)是位于pt(6,4)的邻近,对应点的候选区域被确定。然而,当pt(6,4)的运动在大量的帧中被跟踪时,根据运动踪迹的范围可以确定相应点的候选区域。在取景器图象具有相对恒定的运动的情况时,该方法在限定这样的区域时特别有利。
(步12)在相应点后选区域内计算非相似性相应点的位置被指定在相应点的候选区域。在和步11相反的情况下,当取景器图象移动相当慢时,问题就出现了。即,当取景器图象仅移动了一个小的范围,提取运动信息是困难的和这样,在信息中包括严重错误的危险就增加了。
为了防止这样的问题,时间t′被预选,使得帧t和t′设置得相互离开一些范围,换言之,在对各自图象部分变化的范围进行统计分析之后,时间t′被选取,使得变化范围的幅度或变化范围的差异超出预定的值。另外,时间t′可以这样选取,使得多于预定数目特征点运动的总合(或使得多于预定数目特征点运动差异的总合)超出一预定的值。如果符合上述条件的t′没有找到,3-D显示图象的产生(深度信息的计算)被间断,取代的是,输入的取景器图象将被原封不动地输出,或取景器图象的所有图象部分被显示,仿佛具有一致的深度。
在该步中,为了确定相应点的位置,通过在匹配方法,帧t和t′之间的非相似性被计算。即,灰度级平方差的总和(非相似性)在具有特定点为在相应点后选区域的中心的一块和包括代表点的一块之间被计算以检测提供最小和的特点定,该最小和然后被确定作为计算的相应点。
图7给出了块匹配。在实施例1中,9个象素构成了以中心象素为块代表点的一块。
块1提供给帧t,包括pt(i,j), 而块2提供给帧t′,包括pt′(i,j),它是对应点的假定候选点。用时间t的象素(x,y)的象素值指定为It(x,y),非相似性(以后称为E1)一般从下述公式1得到E1=∑∑{It(pt(i,j)x+u,pt(i,j)y+v)-It′(pt′(i,j)x+u,pt′(i,j)y+v)}2[公式1]这里两个∑相关于u和v。由于u和v分别取值为u=-1,0,1v=-1,0,1对于临时pt′(i,j),灰度级平方差可根据9个象素总体获得。然后,当在候选区域内逐渐变化位置pt′(i,j)时,具有最小E1值的点被确定为相应点。
图8给出了在每一pt′(i,j)的垂直方向具有E1值的概念模型在这个模型中,点Q被确定为相应点,由于它给出了非相似性的陡峰。以这种方式,所有代表点的相应点被确定。
步12也能被修改为如下1.在上述中,灰度级的平方差已经被计算了,作为灰度图象的非相似性。虽然,在彩色图象中,非相似性可以是在红,绿,兰的灰度级的平方差的总合,即为E1R+E1G+E1B。另外,其它色彩空间的密度,例如HNC密度,可以被使用,或留数差的总合能被使用代替灰度级的平方差。
2.在该步中,9个象素组成一块,虽然最好是,被定义的一块能包含相对大数目的象素。例如,使用具有高分辨率的屏,例如个人计算机,工作站或类似仪器中的屏幕,实验已经证明在一块包括大约16×16象素的情况下可以获得较好的结果。
(步13)确定相应点的初始位置到步12,临时相应点已经被确定,虽然它不一定定位正确。
相关于边界或目标边缘的相应点已用满意的精度加以确定,虽然它应当被理解,相关于较少特性图象部分的点可带有可观的错误已经被确定。这样的问题可能在E1值并不象给出图8的确定峰或类似情况下出现。图9给出了代表点和它的相应点之间的关系,相应点是到步12时被确定。很明显,虽然相关于特性部分例如房子和树特别是它们的轮廓的相应点用满意的精度加以定位, 但相关于天空和地的诸点带有可观地错误加以定位。
在步13和随后的步14,因此,这些不精确定位的对应点被调整使得在正确的位置。在步13,初始位置的概念被引入,使得在这一步每一个对应点的初始位置被精确地确定,在步14,通过重复地计算位置精度被改进。
初始位置被确定,随后的任一方式描述如下1.已经在步12确定的所有对应点在步13同样的被处理。
所有对应点现在所位于的位置被认为是随后处理的它们的初始位置2.对应点被不同地加以处理对于那些位置已经具有满意精度的对应点(以后称为特征点),它们现在具有的位置被认为是它们的初始位置。而对另外一些对应点(以后称为非特征点),它们的初始位置将根据特征点的位置加以确定。下边描述的对应点可能是特征点的候选点,虽然下述(1)至(3)的对应点很可能是候选点。在这个说明书中,为特征应点的代表点也被称为特征点。
(1)对应点在步12的E1值中有确定的峰。
一般而言,这样的点很可能用高的定位精度已经被定位。
(2)对应点位于具有许多正交边缘分量的区域绕着建筑物边缘的区域所包括的对应点很可能已经被正确地定位了。
(3)其位置已经从帧t到t′变化了的对应点不变性应被理解为运动矢量的一致性。因此,当帧从t到t′时,在一致运动方向移动一致距离的对应点应进一步被选为特征点。正确地说,要被选取的对应点应当具有其变化值少于预定值的运动矢量,因为这样的对应点在各自的帧中必须已经被精确地跟踪和这样被评价为和它的代表点有正确的对应关系。然而,当摄象机移动不规则时,在判断时必须考虑其影响。
当特征点被确定时,它的位置被用来作为初始位置,而非特征点的初始位置将使用邻近特征点进行插入。换言之,由于在步12确定的非特征点的位置精度是低的,根据具有高定位精度的邻近的征性点它们的初始位置将被几何地确定。当然,步12的方法能被利用以发现在上述(3)所述的特征点。
附加到上述的基于选择特征点的方法,对应位置的初始位置可由动态编程方法加以确定。
(步14)对应点位置的改进过程估算相应点位置可接收性的公式已被引入,使得通过用公式相互作用的计算改进相关位置的可接收性。即,除了在步12的公式1以外,还引入估算相应点的相应位置关系的可接收性,从两公式导出的估算结果被组合以改进位置精度。
参看图10,相关位置估算的原理将被描述,图10给出了相应点,以pt(i,j)为中心,下述四个对应点位于它的邻近pt′(i-1,j),pt′(i+1,j),pt′(i,j-1),pt′(i,j+1)有理由假定,pt(i,j)是位于约为这四个点的重心,这样的假设是基于经验的基础上,甚至各自的图象部分移动了,它们相对位置关系实质上被保持。该经验能数学地表示为等于这种情况,其中i和j的函数pt′(i,j)的二次微分为0。
因此,四个点的重点中心表示为(st′(i,j)x,st′(i,j)y),公式2被获得以估算相关位置的可接收性E2={pt′(i,j)x-st′(i,j)x}2+pt′(i,j)y-st′(i,j)y}2[公式2]仅考虑到公式2,相应点将最好用最小值E2加以定位。换言之,使用邻近图象部分之间的距离函数估算相关的图象位置可接收性。
在这一步中,从公式1和2导出的价算结果用适当的耦合因子k组合起来,因此,最终估算公式E能被表示为公式3E=E1/N+kE2 [公式3]其中N是包含在一块中的象素的数目,它已经为块匹配所决定。换言之,为了改进相关位置可接收性,首先根据所有的对应点计算E。然后,在把所有的E加入到∑E中后,各自的对应点逐渐移动以最小化∑E值。该计算被重复直到那个∑E值收敛或计算被重复到预定的迭代数目,即,正确地说,当移动各自的对应点时, 任何下述的方法都是实用的。
(1)使用Euler-Lagrange微分方程的方法当Euler-Lagrange微分方程表示∑E取极值时(在这种情况下相关最小值),一个相应点通过解该Euler-Lagrange微分方程被获得。这是公知的方法,为改进它的初始位置要被移动的对应点的方向根据包括代表点的各自块的梯度和相应块之间的微分加以确定,使得对应点在它的初始点的方向逐渐地移动直到达到它的最终解。
(2)固定检索方法在对应点候选区域内,一点被检索,其中要被改进的一对应点的E值将变得最小,然后新的设置为对应点、固定检索方法的特征为,对一个对应点引入检索,而其它的点保持固定。上述过程对应着所有的对应点重复。
(3)混合方法根据方法(1),可能用理论上少于一个象素的单元的精度定位一对应点,而根据方法(2),用一个象素为单元的精度。因此,可能使用两种方法,即,首先应用方法(2)获得以象素为单元的精度的对应关系,然后用方法(1)去增强精度。
实验已经表明,方法(2)使用比方法(1)获得同样水平精度要较短的时间获得较好的答案。
图11给出了依照此步骤改进处理的结果,该步是根据图9所示对应点的候选点已经被引入,实验已经表明,使用耦合因子k在至200之间时可在彩色图象中获得优选的结果。图9和11示出了模型的结果,通过真实的实验已经证实,已经实现了模型结果的很接近的改进。
该步的特征是,2-D运动信息可以从目标在任何方向的运动中提取。这就是通过引入代表点和对应点的概念而实现的理解目标运动的优点,和通过水平方向的运动已经检测时间差的现有技术相比较,该优点可以使本发明应用到更广泛的领域。
步14可以修改如下1.在获得E2时,8个点的重点能够被确定,8个点包括与中心对角设置的4个点,那就是图10中的pt′(i,j),和4个分别位于中心的上,下,左和右的点。最好,点的最佳组合由实验确定,这取决于要被处理的2-D图象的种类。
2.用公式3进行估算应当用在用公式2获得不是有利的结果的那些对应点开始,因为对在早期阶段对应点的剧烈改进是优选的,因为它一般被认为具有大的错误。
3.为了改进位置精度,应当利用几何信息。作为形成具有几何特征的大量代表点,例如直线,在帧t内,它们对应点的位置也应当被校正以形成同样的几何特征。这样的校正理由是,在取景器图象看来是直线的那部分在真实的3-D世界中也完全可能形成直线和在3-D世界的直线也应在帧t′中形成直线。由于图象的深度沿直线一致地变化,因为线性变化容易被视觉识别,上述方法的校正将完成显著地改进,没有这样的改进,最终的图象可能在沿线的深度包括非规则性,这样可能造成了非自然的3-D显示。图象区域的边缘能被用来作为替换的几何信息。
4.进而,根据其它的帧也可以获得对应点,在这一阶段,根据帧t对应点仅可在帧t′中获得,虽然也可能在第三帧或帧t″中获得对应点,使得获得各自图象部分的平均运动,该方法并没有改进在帧t′的相应点的相对位置精度,但是基于在很多帧中已经提供的相应点的各自的位置和当各自帧被拍摄时的各自时间,该方法相当满意地确定了各自图象部分的运动。
5.当不足够数目的特征点被建立时,进行的过程被间断,这是因为完全没有可能获得精确的对应关系。[阶段2]计算3-D运动信息在阶段1,在屏上的各自图象部分的2-D运动已经被识别,在阶段2,根据识别的2-D信息计算3-D运动。即,由于在取景器图象的2-D运动是目标真实3-D运动在平面上的投影,根据在取景器图象的代表点和对应点之间的位置关系计算最初的目标的3-D运动。
目标在3-D世界的运动可以一般地描述为直线和旋转运动的组合,在下面仅仅首先描述,计算包括直线运动的运动的方法,随后给出一般化方法的实例。
1.仅直线运动图12给出了在屏上点P的运动和它的在3-D空间真实运动之间的对应关系,在图12中,2-D坐标用大写字母表示,而3-D坐标用小写字母表示,其中x和y轴是被提供在屏的表面,而z轴是在深度方面,从视点到屏的距离被设置为1。
如图12所示在2-D屏p(x,y)运动到p′(x′,y′),而在3-D空间S(x,y,z)同时移动到S(x′,y′,z′)。
当下述的公式是(x′,y′,z′)=(x,y,z)+(a,b,c)由于屏被放置的离视者为1的距离,x,y,x′和y′能被表示如下X=x/z,Y=y/zX′=x′/z′,Y′=y′/z′通过解上述方程,可以引入如下的结果。
X′=(Xz+a)/(z+c)Y′=(Yz+b)/(z+c)因此,消去z,可以得到公式4(a-X′c)(Y′-Y)=(b-Y′c)(X′-X)[公式4]由于公式4表示为屏上运动的项,依照在阶段1获得的信息就有可能获得值(a),(b)和(c)。然而,虽然,在实际情况中,k次倍的-①标以大于k次倍的速度运动,要高于离开-位置的k次倍,但k的值(比例刻度因子)并不能被确定,仅(a),(b)和(c)相互间的比率的值能被获得,数学上来讲,尽管三对(X,Y)和(x′,y′)被给出,由于该瞬时等式的系数矩阵小于2,(a),(b)和(c)并不能确定为真实值而仅仅作为相对值。因此,在这个阶段,(c)的值标准化为1以表示(a)和(b)的值为(c)的比率值,因为比率值在随后的处理中足够有用一个关于直线运动的替换方案如下,错误(e)可由公式4被定义,作为方程5e={(a-X′c)(Y′Y)-(b-Y′c)(X′-X)}2e={(Y′-Y)a-(X′-X)b-(XY′-X′Y) c]}2[公式5]然后,考虑到代表点和相应点之间的所有对应关系,所以(e)和∑e被计算,使得(a),(b)和(c)的各自的值从公式6至8中被获得以最小化∑e的值。
d(∑e)/da=0 [公式6]d(∑e)/db=0 [公式7]d(∑e)/dc=0 [公式8]更具体而言,公式6至8分别发展为公式9至11a∑(Y′-Y)2-b∑(X′-X)(Y′-Y)-(∑(Y′-Y)(XY′-X′Y)=0[公式9]-a∑(X′-X)(Y′-Y)+b∑(X′-X)2+(∑(X′-X)(XY′-X′Y)=0[公式10]-a∑(Y′-Y)(XY′-X′Y)+b∑(X′-X)(XY′-X′Y)+(∑(XY′-X′Y)2=0[公式11]
2.包括旋转的运动包括直线和旋转的运动可以使用x,y,z轴方向的位移和以各自的x,y,z轴为旋转轴的3个旋转角例如α,β,和γ表示,旋转角可用Eulerian角或卷间距方法表示。
上述六个变量的值随后将被获得。然而,如上所述,由于比例刻度因子不能被确定仅能获得变量相互之间的比率,假定变量中的一个为1 。这里理论上可以指定五对代表点和相应点的运动。
然而,值得注意的是,依赖于对的选择,在一些情况下使用线性变换的结果并不能指定运动的内容。众所周知选用八对可以防止这种情况,这种情况理由可以在参考中找到,例如在仪器和控制工程处理协会,卷26,号6,714/720(1990)中由Deguchi和Akiba著的“运动目标的单眼立体显示器的线性算法”。获得深度信息各自图象部分的3-D运动的相关范围已经在阶段2被识别。在阶段3,根据相关的范围获得各自图象部分的深度信息,在下面的描述中假定目标是静止的,而拍照的摄象机是运动的,在该阶段,假设由于目标和摄象机之间的相对运动是个靶子问题。
取景器图象特定部分的运动是由旋转矩阵R和直线矢量(a,b,c)表示为如下(x′,y′,z′)=R(x,y,z)+(a,b,c)用如下公式12表示的该公式的逆变换可以认为是摄象机的运动(x,y,z)=R-1{(x′,y′,z′)-(a,b,c)}[公式12]
参考图13,根据摄象机的3-D运动和屏上2-D运动获得P点3-D坐标的原理将被解释,该原理一般被称为三角测量法之一,其中,当从两个独立点看P点方向时,点P(图13中的点S)实际上存在于两点视线的交点。
在图13中,现假定,依照公式12,摄象机按箭头所示方向从时间t到t′运动。点s投射到帧t的点pt和帧t′的点pt′,点s是线Lt和Lt′的交叉点。
由于摄象机面朝方向分别和线Lt和Lt′形成的角度度θt和θt′是已知的和摄象机移动方向和它移动的距离已经被识别,这就可能获得点S的3-D坐标,根据点S的3-D坐标,各自图象分量可由它们的深度信息获得。
值得注意的是,如上所述,由于标准化(C)为1,点S获得的3-D坐标已经被一致比率扩展或压缩。然而,由于它是作为整体一致地扩展或压缩,深度信息在各自的图象部分中保持了正确的相对的位置关系。
在这阶段的上述的处理中,这就必须考虑在前阶段中已经造成的错误。换言之,由于这些错误,线Lt和Lt′作为计算结果经常并不交叉,为了对付这样的问题,点被提供在连接线Lt和Lt′的诸点的线的中间,那里线之间相互最近,使得这样一点的z坐标将被指定为点S的深度,该过程将使用符号加以描述。
当线Lt和Lt′的方向矢量被分别表示为(u,v,w)和(u′,v′,w′)时,使用参数α和β(实数)可以把两直线L和L′用下述公式13表示
Lt(x,y,z)+α(u,v,w)Lt′(x′,y′,z′)+β(u′,v′,w′)[公式13]因此,当错误被表示为如下时e={(x+βu)-(x′+αu′)}2+{(y+βv)-(y′+αv′)}2+{(z+βw)-(z′+αw′)}2使用表达式de/dα=0和de/dβ=0可以获得使(e)值最小化的α和β的值。换言之,解下面方程(u2+v2+w2)α-(uu′+vv′+ww′)β+(x-x′)u+(y-y′)v+(z-z′)w=0(u′2+v′2+w′2)β-(uu′+vv′+ww′)α+(x-x′)u′+(y-y′)v′+(z-z′)w′=0可以确定α和β的值,使得点S的深度最终表示为如下{(z+αw)+(z′+βw′)}/2特别是在错误(e)为0的情况下,中点(Z)坐标与线Lt和Lt′的交叉点的坐标相叠合。
作为替换的方法,线Lt和Lt′两者投影到帧t的屏上,使得获得线Lt和Lt′最近点的(Z)坐标,使用这种方法时,线Lt在屏上投影为一点,而线Lt′一般为一线,当线Lt′表示为公式13时,通过分别使用它们的(Z)坐标在3-D空间划分线Lt′上诸点的(x)和(y)坐标时,在屏上投影的线Lt′的诸点的(x)和(y)坐标表示为公式14和15。x=f(x′+βu′)/(z′+βw′) [公式14]y=f(y′+βv′)/(z′+βw′) [公式15]这里(f)是能被设置为1的从视点到帧t的屏的真实距离,在从公式14和15消去β,在投影后的线Lt′(以后称为Li)能被指定如下kx+my+fn=0这里k=v′z′-w′y′,m=w′x′-u′z′,n=u′y′-v′x′。被检测的最近点是从代表点pt向线Li做垂线与Li的交点(以后称为点D),即,从代表点pt划线与线Li相交的点,以形成右角,点D的坐标被表示为方程16 。x=(m2X-kn-kmY)/(k2+m2)y=(k2Y-mn-kmX)/(k2+m2)[公式16]假设与点D对应的在3-D空间的线Lt′的初始点被指定为点E(x″,y″,z″),通过替代公式16到公式14获得β值,近一步代入获得的β值到方程13可以检测点E,由于β可以表示为β=(xz′-fx′)/(fu′-xw′),通过代换该表达式到公式13,E点的(Z)坐标,即Z″,被确定如下z″=z′+w′(xz′-fx′)/(tu′-xw′)这能做为点S的深度值由于在图象处理的错误,当深度值是负数时,计算的值并不可靠,因为负值意指点S存在于摄象机的后面。因此,P点的(z)坐标需要以一些其它的方式获得,例如使用接近某个正值的诸代表点。
不管那一种方法被使用,各自图象部分计算的深度作为实际的数值应当分别到各自的代表点,如图14所示代表点的每一个应给一个实际的数值。例如,pt(2,3)和pt′(4,3)的深度分别为100和200,后者实际位于比前者二倍远。[阶段4]产生图象根据已经在第三阶段获得的深度信息确定视差,使得产生右和左图象,在这一阶段,较远的图象提供有较小的视差。
在图15中,这给出了包括目标和摄象机的整个系统的顶视图,依照深度信息给出视差。当图14的pt(2,3)和pt(4,3)被提供给在图15情况下由摄象机拍摄的取景器图象时,它们的真实位置分别在st(2,3)和st(4,3)后者离摄象机的位置是前者的两倍远。
R和L屏和R和L视点被分别放置,这如图15所示,R和L视点分别对应着视者的右和左眼。那末,通过分别从R和L视点看它们,st(2,3)和st(4,3)被投影到R和L屏的每一个,该投影是由所有代表点完成的直到一最终图象在R和L屏的每一个上形成,最终的图象能被用来分别做为右和左的图象。在日本的公开申请3-65943中公开了在双凸透镜或类似透镜的显示屏上显示这样的图象,这就有可能获得很好的立体图象。
在该实施例中,仅当该部分已经和图象分开时,所希望的该部分能从立体图象中产生以人位于摄象机5米背景是山的景为例“在10米深度”情况下的图象处理能够从整个图象区域分离仅仅包括人的区域,使得右和左图象能被产生仅仅关于包含人的区域,而留下其余部分为空白或为带有预准备的不同图象上的该人的通过区域,该阶段不同于至大量取景器图象帧要被使用的阶段3,至阶段3,至少两帧被使用以提取必要的信息,可是在阶段4一帧就足够了以产生右和左的图象。图16给出了使用帧t为参考已经产生的右和左的图象,其中树,房子和人的图象部分按此顺序分别离视者有较小的距离,人的图象部分离视者最近并展示了如下特征1.在右图象内向左有最大的位移2.在左图象内向右有最大的位移这可以分别理解为,关于(1)是这种情况,其中视者是从初始视点稍微向右的一点看该人,而关于(2)是从初始视点稍微向左的一点。作为这些特征的结果是,感觉该人是靠近视点有较小的距离,在图16中,各自图象部分的位移通过使用栅网交叉点运动的方法表示出,其中人,房子和树按此顺序呈现出较小的位移(视差)。
为了根据帧t产生图象,在图16的取景器图象各自划分的部分能被变换。在这种情况下,这就必需选取线性或非线性变换如下1.非线性变换如图16所示,一些划分的部分能变换为不规则的四边形,广泛应用的线性变换,例如仿射变换,然而,并不能应用到这样的变换,因此,为了把具有四个顶点的部分变换为不规则的四边形,应用非线性变换,例如投影变换。
2.线性变换在变换为不规则四边形时,倘若带有四个顶点的部分首先被划分为每个带有三个顶点的两部分,线性变换可以应用到这样的部分。
通过上述的变换各自图象水平位移的结果是,图象的边缘可能变得不齐。在图16中,右和左图象底部分被显示的相互朝内,依此,位移部分的周边部分变得卷曲。因此加一些象素到凹处,使图象的形状被校正回初始的形状(在此例中是直角)。
落入附加象素的图象部分的深度在参考那些紧靠着附加象素的象素的深度或以其它方式加以确定,附加象素的图象仅能被双眼中的一支眼看见,当人们通过窗口朝外看时,该图象是自然现象并且出现在紧靠窗框的区域,值得注意的是,通过检测从边缘向外伸出的冗余的象素也可以做出这种校正。另外是,图象的边缘部分被用特定的宽度一致地切去,用这种校正,不管上述方法的选择,也可能维持自然的显示。
在该阶段,视差是由深度决定的,可是由于下述理由视差最好进一步被校准。
1.眼睛的错觉在上述的例子中,并不希望最靠近视者的人被给出极小的深度,因为感受到极度靠近屏的图象造成视者眼睛的错觉。根据“Nikkei Electronics”(1988.4.4.页211)的报道,当视者位于显示50cm时,最希望各个的图象部分所给出的深度范围为0.2m至2m。
2.各人的喜好一些人喜欢被显示的图象尽可能的近和距图象尽可能的远,而另一些人正好相反。
3.处理能力如果构成远背景例如山的所有图象区域被显示仿佛具有相同距离,被处理的数据量能被减少。
因为前述理由,在这阶段变换深度或视差的下述功能因为需要而被应用。
1.深度变换功能深度是直接经受线性或非线性的变换,即,变换的目标是深度,和视差作为结果而被改变了。例如,取景器图象包括的图象部分的深度在范围1a至10a((a)是任意值),各自的图象部分的深度能一致地被10乘,这样所有的深度落入到10a至100a的范围,这样深度变换功能对于具有过度小的深度作为整体的取景器图象是有好处的。
另外,当深度范围是0到100a时,深度能够被压缩,例如,例如从25a到75a的区域作为初始变换,进一步,具有等于或小于20a,或等于或大于1000a的所有的图象能被变换,使其分别具有一致的20a或1000a的深度,在这种情况下,然而,作为一致变换的结果,在上和下限值即1000a和20a的区域,将变得不连续(间断)和在一些取景器图象形成不自然的显示,为了解决这个问题,非线性变换被应用,使得图象在上和下限值处平滑地收敛,在这个例子中,应做下述的变换z->α/{1+exp(-(x-0.5α)/αT)}+z0这里(z)是初始深度,z0=20a,α=1000a-20a=980a,和T=42.视差变换功能视差经受了线性或非线性的变换,即,在视差根据深度计算和变换之后,根据变换的视差深度被再计算。
图17给出了视差的非线性变换,其中点S,变换的目标,被提供在中线L上和点B是视点A到线L垂线的交点。点S的深度用线段SB表示和视差角θ(严格地讲,视差的一半)被设置如图17所示。
以视差减少到一半为例。即,点S被变换到满足下列公式17的点,这就是点S′。
θ′=θ/2 [公式17]点S′的深度用线段S′B表示。连接变换的一系列处理将用数学表示。首先,使用深度SB确定θ,这依照关系θ=a tan(SB)依照下面关系然后确定S′BS′B=tanθ′这样S′B将被用来作为变换后的深度信息。由于通过简单的线性变换远点被变换得显得更远和近点更近,深度的感觉更有效地通过变换加以调整。公式17表示了简单的线性比例刻度,虽然各种非线性变换,例如在1中描述的(非线性变换)也能应用到θ’-θ的变换。
依照本发明的第一实施例,根据深度信息而不是现存取景器图象的组合产生一新的图象。由于这种产生并不需要水平运动,而该水平运动已经是通常的时间差方法所必须遵循的,所示本发明可以在广泛地范围应用。近而,由于本发明公开了根据代表点检测相应点的方法,这就可能自动提取深度信息和更容易更有效地产生图象。实施例2实践实施例1的最佳仪器将被描述。
图18给出了实现实施例1的硬件结构。
在图18中,要被处理的取景器图象通过图象输入电路20被提供,那里它被转换为数字信号。使用帧存储器控制电路22把数字的取景器图象存储在帧存储器24内。随后相应点检测电路被提供从存储存器24读出大量取景器图象帧以检测相应点。在检测电路26内,实施例1的阶段1的处理由硬件手段实现,其中MPEG编码器或类似装置被用来进行块匹配。
已经在电路26中检测出的相应点的坐标被存储在相应点坐标存储器28内,以任意地被运动检测电路30读出。在运动检测电路30内,实施例1的阶段2和3的处理被实现,其中根据直线和旋转运动计算目标的3-D相关的位置。
计算的关于3-D相关位置的信息提供给图象产生电路32,通过给出它们之间的适合的视差,数字的取景器图象从帧存储器24中被恢复以分别产生右和左图象,先于图象产生电路32,指令输入部分34被提供以从外面接收几个指令。
已经在图象产生电路32中产生的右和左图象通过图象输出电路36转换为模拟信号,以被提供到未被描述的显示部分。
描述仪器的操作一摄象机拍摄目标以捕获它的取景器图象,或一视频设备重放取景器图象。这样的取景器图象通过取景器图象输入电路20被提供,以存储到帧存储器24。对于标准的2-D显示,提供的取景器图象将原封不动地显示,或作为替换,存储在帧存储器24的取景器图象顺序地从中读出以显示。对于3-D显示,大量的帧的取景器图象从帧存储器24中读出,使用相应点检测电路26和运动检测电路30把目标的深度信息从读出的帧中获得。随后,根据深度信息图象产生电路产生右和左的图象指令输入部分能被构成如下以完成如下的功能。
1.构成为控制旋钮通过比例刻度深度控制旋钮可以变化深度的读出使得产生的图象的深度读出能够被调整以满足用户的个人喜好。旋钮的旋转可以事先调整,使得最小化深度的读出将提供2-D显示。
2.构成点入指示装置(1)深度读出可以以图象部分为单元来调整。例如,当图16中的人被希望显示得更近一些时,一点入指示装置,例如鼠标, 被用来指向人,然后咔嚓按一下,作为结果是,通过给出较大的视差图象产生电路32变换人的深度信息作为增强显示使用。如果所选项的显示区域也随着深度读出的变化而变化,这个调整的效果将变得更为明显。具体而言,用二等分深度的读出,所选项的显示区域将扩大四倍。
(2)从不同点看到取景器图象能被产生。由于深度信息是可以得到的,这通过用鼠标咔嚓指定器标的拍摄点(视点)实现的,这就有可能通过计算各自图象部分的直线和旋转运动而去计算伴随视点变化而形成的运动。因此,从不同的点能被看见的取景器图象能被产生。在图16中,例如,在视点的高度发生变化或移动或移开摄象机,能被看见的取景器图象能被再产生。近而,由于再产生的取景器图象的深度信息通过计算而能再被计算,根据新计算的深度信息和用改变了的视差使3-D显示能维持在好的状况。从不同点看到的取景器图象将进一步在实施例5中以后描述。
在下面,实验的结果,其中本发明的仪器中装在工作台内,将参看附图加以描述。
图19至26给出了使用本发明仪器的图象产生过程。附图的每一张均是包括640×480象素的区域的显示屏上的B/W(黑/白)照片。
图19和20分别是帧t和t′的取景器图象,并且由于摄象机的位置差别而展示了它们之间的一些运动。图21给出了图19同样的取景器图象,用栅网盖在上面和提供有诸代表点。图22给出了在它们的初始位置具有诸对应点的图20的相同的取景器图象,其中初始位置设置在临时的最好点。临时最好点通过已经引入的并以特征点开始的块匹配获得,是根据16×16个象素并且代表点在它的中心。
图23给出了改进的对应点的位置,表示了从图22的显著的改进,作为考虑对应点之间的位置关系的实施例1的公式3的结果。
图24表示了灰度等级的深度信息,那里较轻的等级表示较小的深度。从图中可以看出,具有可观精度的深度信息已经获得。
图25和26是根据深度信息分别产生的右和左图象。较近的物体,在此例中是罐,显示出有较大的视差,和给出较大的水平位移。
如上所述,使用本仪器,这就可能自动地实践本发明实施例1的方法。近而,和应用软件所需的执行时间相比较,应用硬件进行块匹配显著地改进了处理速度。
通过把具有图18结构的附加卡插到个人计算机或工作站,或把具有图18结构的电路安装到电视接收机,放象机或类似机器中,本发明的仪器能有效地体现为产品。近而,把本仪器和摄象机组合在一起,就可能拍摄目标和它的环境分开以捕获从不同点看到的许多取景器图象并且产生包括目标3-D照片的目录。使用这种方法拍摄时,使用通常必需的激光,红外线或超声波进行深度测量就不再是必需的。实施例3和使用单眼摄象机拍摄目标的实施例1和2相反,在实施例3中,多眼摄象机系统被使用去捕获立体取景器图象。被捕获的立体取景器图象被用来产生3-D显示图象。在下面,这样图象产生方法主要从与实施例1不同的观点加以描述。
图27给出了产生3-D图象显示的主要阶段同实施例1的图4的差别是如下。
1.在实施例3的阶段1,位移信息不是从实施例1的运动信息中提取。
当在实施例1中不同时间帧被处理时,而在实施例3中同时帧主要被处理,在同时拍摄的诸帧之间,目标的运动不能被确定。这样,这些帧之间的目标位移信息被提取。
2.在图4的阶段2在图27中是不必要的图27并不包括对应图4的阶段2(计算3-D运动信息),因为摄象机之间的距离如图13所示是已经知道的,根据三角测量原理使用距离就可以获得深度信息。
当由于多眼摄象机系统的大量的摄象机之间的相对位置关系产生不精确时,这就希望通过使用自校正去检验在阶段2的这样的不精确。自校正的方法已经在参考资料中描述,例如由著者Tomita和Takahashi著的“立体摄象机的自校准”日本信息处理协会杂志,卷31,号5(1990),页650-659,日本公开申请,号Hei2-138671和日本公开申请,号Hei2-138672。
实施例3的阶段1至3将在下面描述。[阶段1]提取2-D位移信息为了用位移信息替代运动信息,帧t和t′被由摄象机1和2在时间t分别拍摄的帧1和2所取代。在实施例3中,可能仅根据最少在同时即时间t拍摄的两帧就产生最终的图象。换言之,当使用多眼摄象机时,捕获的取景器图象是静止的图象。阶段1进一步与实施例不同如下。
(1)在实施例的步11中(设置对应点候选区域)随着适当地选取不同时间的帧或限制相应点的候选区域使计算量减小,相应点候选区域是根据取景器图象运动的强度或踪迹引入的。在实施例3中,在另一方面,一不同于实施例1的方法的不同方法被使用并且在下面描述以为同样目的限制相应点候选区域。
假设多眼摄象机被水平地设置,如同通常的情况。由多眼摄象机系统的诸摄象机拍摄的帧的相应点的y坐标(垂直坐标)是相互相同的。考虑到这一步,及由于图象处理或摄象机安装出现的误差,对应点候选区域能被限制为水平径向带区域。现假定帧1′和2′是在时间t′被拍摄的和帧1和2是在时间t拍摄的,而且t′=t-1。当在帧1′和2′之间的代表点的位置差是x时,可以预测,在帧1和2的相应点候选区域被如此设置以具有相同的差x或相互之间大约如此。换言之,在帧1和2的相应点的候选区域能被限制区域使它们之间的差大约为x 。
(2)虽然在实施例1的步12的慢运动中引入统计分析(为对应点的候选点计算区域的非相似性),这样的分析在实施例3中最是不必要的。
(3)类似实施例1的步12,引入块配置以确定在实施例3中相应点的位置,然而,在实施例3中,在一些情况下,位移的块匹配能比简单的块匹配更有效,例如当要被使用的多眼摄象机是由具有不同特性的摄象机构成时,例如,如果摄象机2趋向于比摄象机1产生更多的兰色图象,在进行块匹配之前,帧2的色彩强度应使它的兰色分量(B)减去一些程度,(即色彩偏差常数αB)。没有这样的校正,这就要冒组合E1和E2的E3意义变为无效的危险。将要给出一个例子,这里色彩强度表示为红,绿和兰空间。在该情况下,不仅兰(B),而且红(R)和绿(G)应经过这样的校正即分别减去色彩偏差常数αR和αG。注意,根据灰度级的方差,位移块匹配估价了相似性。这意味着,相似性能被处理作为色彩空间的距离,该距离和被用来求取景器图象相对位置可接受性的距离具有同样的量度。因此相似性和可接收性可以组合在一块和能被用来作为块匹配。
参看图7和根据公式1,使用等式将描述位移的块匹配。在实施例1中pt(i,j)分别表示为对应帧1和2的P1和P2,和It(i,j)为I1和I2。由于公式1能被简化为被表示的公式18,公式18根据灰度图象能被用来进行正常的块匹配。
E1=∑∑{I1(P1x+u,P1y+v)-I2(P2x+u,P2y+v)}2[公式18]另一方面,位移的块匹配可用下面的公式19表示,它是公式18的修改。
E1=∑∑{I1(P1x+u,P1y+v)-I2(P2x+u;P2y+v)-α}2[公式19]对于彩色图象,使用表示αR,αG,αB的任一个的α,为整个RGB空间的所有取景器图象计算E1,以获得它们的全部,即是E1R+E1G+E1B,该值用于块匹配。为简化起见,公式19能被表示为公式20,用I1和I2分别表示I1(P1x+u,P1y+v)和I2(P2x+u,P2y+v),I2(P2x+u,P2y+v),E1=∑∑(I1-I2-α)2[公式20]其中I1和I2分别是u和v的函数,和α是常数。
下面是被获得的α的最佳值。由于摄象机1和2拍摄相同的目标,由两个摄象机捕获的取景器图象应当包括实质相同的内容,除了各自图象部分的位移。换言之,诸摄象机的特性越相似方程20求出的E1值应越小。根据这样的事实,公知的是,α应是能使E1值最小的值。由于公式20能被表示为公式21,
E1=∑∑{(I1-I2)2-2α(I1-I2)+α2}=∑∑(I1-I2)2-2α∑∑(I1-I2)+∑∑α2[公式21]倘若在一块中全部象素的数目为N,公式21进而表示为公式22,因为∑∑1=NE1=∑∑(I1-I2)2-2α∑∑(I1-I2)+Nα2[公式22]因此,由于dE1/dα=-2∑∑(I1-I2)+2Nα被得到,当公式23被得到时E1的值是最小化α={∑∑(I1-I2)}/N[公式23]由于α可以理解为在块匹配的两目标区域之间的各自象素的色彩距离的平均差值,用公式23替换公式22可以导出公式24E1=∑∑(I1-I2)2-{∑∑(I1-I2)]}2/N[公式24]因此,可以得出,公式24是用于位移的块匹配,用引入的公式24,如果假设,摄象机1和2严格地拍摄同一个目标,E1的值将为0。因此,可以理解,位移的块匹配在消除判断取景器图象相似性形成的初始错误是有效的,此后,通过和实施例1相同的过程最好的块匹配将被检索。
值得注意的是,不是RGB强度例如HVC强度而是色彩强度也能被应用而没有块匹配的问题。然而,块匹配可以根据色差完成,这是留数差而不是灰度级的平方差。当已经由公式23确定的校正值α超出了预定的值的范围,位移的块匹配可以间断。这就需要提供最大的限制值,没有该限制值,有时块匹配可能检测出不正确的对应点,因为包括该点的块在送出时已偶然有类似的模型,虽然它有完全不同的颜色。然而,由于摄象机特性形成的色差一般并不是非常大和因此在预定的限制范围内,引入这样的限制值是有用的和实际的。
随着位移块匹配的间断,通常的块匹配能被使用估算取景器图象的相似性。在校正图象部分之后仅在可校正区域的上限值时,从位置块匹配导出的值可以被使用,该值能用下列等式计算。E1=∑∑(I1-I2)2-{∑∑(I1-I2)}2/N+Nx2这里x=|∑∑(I1-I2)/N|-T(4)在实施例1的步13中(确定对应点的初始位置),在不同时间帧t,t′之间稳定运动的点被进一步选取作为特征点。在实施例3中,附加的标准被考虑作为选择。在图28中,构成相互之间的不同时间帧的帧10至12是由摄象机1拍摄的,而帧20至22构成了由摄象机2拍摄的不同时间帧。在图28并排靠着的两帧相互构成了同时帧。注意各帧中的点P,它在不同时间帧之间的运动用矢量An表示(n是自然数),和它在同时帧中的运动用矢量Bn表示。
当按上述设置时,符合如下标准的点被选为特征点。(a)矢量Bn实质上是一致的或运动实质上是一致的。
除了上述的标准(a),加入下面的标准(b),选符合两标准的点为特征点。(b)矢量An实值上是一致的或运动实质上是一致的。
标准(b)对应着在实施例1引入的情况。如上所述,当用多眼摄象机系统拍摄时,这就可能仅从同时帧获得深度信息。为此,这就需要获得取景器图象之间的正确的对应关系。为了获得正确的对应关系,从不同时间帧可获得的信息受鼓励被允许加入。由于考虑已经被精确地跟踪了,同时满足上述两标准的点在提取2-D位移信息时将提供关键信息。当一摄象机捕获静止取景器图象时,已知的动态编程可以应用去获得相应点。[阶段2]深度信息的获得根据已经在阶段1获得的各自图象部分的位移计算深度信息。在多眼拍摄时,在时间t被完成图13的情况,使用实施例1第三阶段公开的方法可以获得深度信息。
值得注意的是,由于多眼摄象机系统的各自摄象机被放置成在相互之间有固定的关系,假定它们之间的关系和它们的放大率(聚焦距离是已知的,深度信息的正(绝对)值能被获得,包括比例因子,这些在实施例1中是不能被确定的。[阶段3]产生图象通过和实施例1的阶段4的相同的步骤产生图象(图象的产生)。
在实施例3中,如上所述,摄象机接收立体取景器图象和输出3-D显示图象。
因此,由摄象机捕获的取景器图象将被精确地复制输出,附加这样的事实,所希望的图象能通过图象处理产生,包括增强的显示,这在实施例1中已经描述过。实施例4产生从不同点看的取景器图象的技术,通过使用鼠标和它的咔嚓按的功能,已经在实施例2中描述了。在下面,将描述例子,这里从不同点看的各种取景器图象将被产生以为各种目的。
如上所述,依照本发明,可能产生从不同点看的一取景器图象而无需移动摄象机。在这种情况下,自然地,假设位于离真实视点较短距离的视点看的取景器图象将产生较大的精度。使用这个事实,能实现下面的应用。
1.基于由双眼摄象机拍摄的取景器图象产生多视点取景器图象。
当用双眼摄象机系统获得立体取景器图象时,使用假设提供的第三个摄象机将产生多视点取景器图象。换言之,假设第三个摄象机被放置的点被确定,使得第三摄象机设置得离开另二个摄象机一个小距离。然后,从这样确定点看的取景器图象被产生了。相对精确地这样产生的图象和由双眼摄象机系统的两个摄象机捕获的真实的两取景器图象组合在一块,以产生多视点的好的取景器图象。随后,附加考虑的深度信息将允许产生从多视点中任一视点看出的3-D显示图象。
2.产生慢运动取景器图象依照时间两个最紧靠着的不同时间帧被分别指定为帧t和t′;帧t和t′的视点分别指定为视点t和t′。虽然视点实际从视点t到t′和从帧t到t′变化,在它们之间不能获得取景器图象。因此,通过在视点t和t′之间提供假想的视点,不从不同点看的取景器图象,即,在这个实例中在视点t和t′之间的一个点被新产生了。从不同点的大量的取景器图象能以这样方式产生。然后,顺序地显示这样的取景器图象能够呈现有下述效果的慢运动的取景器图象。a.在各自取景器图象之间的运动变慢,而不是初始的快闪运动。b.随着依照时间较近帧之间视点的较少运动,这些帧之间的取景器图象的质量并不降低。
c.视点从视点t移到t′的路径的变化将提供慢运动的取景器图象的不同的效果。
深度信息的附加考虑将允许产生3-D显示的图象。值得注意的是,上述的技术能被应用到同时帧而没有问题。实施例5实施例5实质上和实施例1相同,除了它输出2-D显示图象,目的在于使用深度信息实现下述的图象处理。
1.视点的改变伴随假设视点的变化,取景器图象已应能被变化。根据本发明,当假想的视点改变时,从已改变的视点看出的取景器图象自动地改变而摄象机保持固定。
2.图象的部分扩展或压缩使用深度信息,按需要通过部分地变化比例最自然和最有效的取景器图象被自动地产生。
3.图象区域的分离为了分离所希望的图象区域,首先有必要完全识别各自的图象区域,为了区域识别,已经提出了几种方法,包括光标识别方法,但它们仅获得不满意的结果。使用深度信息和与通常方法完全不同的方法,本发明保证了精确地区域分离。
由于深度信息是使和实施例1同样的处理过程获得的,在下述中,仅阶段4(产生图象)将被描述,因为它不同于实施例1。[阶段4]图象的产生按照在阶段3获得的深度信息产生所希望的取景器图象。直至阶段3的阶段中,至少两个取景器图象帧被要求以提取必要的信息,虽在阶段4基于仅仅单独的取景器图象可能产生所希望的图象。
(1)从不同点看到的取景器图象图29和30给出了最初的取景器图象和从变化视点看到的再产生的图象之间的相应在关系。图29是最初的取景器图象,给出了树,房子和人,每一个按此顺序给出了较小的景深。图30是产生的取景器图象,并假设,视点被假设移动到景的顶右端的某处的一点。
从这些图中可以明显看出,依照本发明,可能获得从不同点看到的取景器图象而同时摄象机保持固定,因为各自图象部分的3-D信息,包括深度信息从阶段3已经知道了,在这个例子中,假设视点移动到景的顶右边,虽然可以理解目标被移动到景的底左部。移动到底左部表示为直线和旋转运动的形式,这如在阶段3的描述。通过反相跟随阶段1至3的处理,就有可能计算屏上目标2-D运动,基于目标的假想的3-0运动,也就产生了图30所示取景器图象。由于在阶段1至4中没有留下任意创造的余地,这样产生的取景器图象是非常自然的。
在这阶段,最好考虑和反射在制造图象的屏蔽关系。具体而言,以图30为例,伴随着视点的变化,树的底部分被房子的顶遮盖而变得不清楚。因此,为产生自然的取景器图象,树的底部分应当被房子的图象数据遮盖。在实际的软件处理时,产生应当从具有较大深度的图象部分开始以产生自然的取景器图象。另外,在计算机图象广泛使用的2-缓冲器技术能被用来为此目的。为了通过计算获得屏蔽关系,首先做出判断,是否从变化视点指向各自图象部分的视矢量相互重叠,部分A离视点比部分B近,这就知道,部分A应被视为屏蔽部分B。根据这样的计算信息可以产生图象c(2)图象的部分比例在增强的显示中,图象显示技术之一,较近的目标能被再定位得更近,而较远的目标能被做得甚至更远,这样深度的对比在两个目标中被强调。
为了这样的图象处理,依照本发明,根据深度信息图象部分地改变它的比例。图31给出了与图29相同的取景器图象,除了它的部分被放大。作为人被扩展的结果,在图中所有目标中人具有最小的深度,人被感觉得离视者最近。其结果是,有效的增强的显示被实现了。在这种情况下,屏蔽关系也反射到新产生的取景器图象中。
值得注意的是,在具有最小深度的扩展区域内,这里并不存在着放大比率的限制,因为该区域能被没有问题地扩展,直到它感觉完全没有深度。然而,在放大具有取景器图象中间深度的区域时,即,在图31中的房子,放大率依此受到限制。这样限制的破坏将造成非自然的取景器图象。在依照深度信息进行扩展时,如本发明中所执行的,这就可能出现这种情况,例如仅具有最短深度的区域被放大,仅具有最大深度的区域被缩小,以产生自然的和实际的图象,即,符合自然法则的图象。
在上述中,产生自然图象的方法已经被描述了,但是有时要求非自然的图象,例如当在较远的部分比较近的部份的显示要大的非自然的景需要被强调时。这样非自然的图象能被用到游戏或类似的应用中。在任何情况下,依照本发明,自然的或非自然的能按所需自由地产生。通常,自然的图象能或不能作为事故的结果已经被产生,在该事故中图象一些部分的比例被变化。然而,依本发明,自然的或非自然的图象的产生是确保按要求满足。
一旦一自然图象被产生了,为了进一步完成上述的在产生的自然图象上的以后将被描述的处理(3)或处理(1),最好通过改变扩展或压缩的区域来开始处理。例如,当区域在尺寸上扩大一倍时,它的深度将为二分之一。相反,当区域减小一半时,它的深度扩大一倍。这样的校正是必需的,因为区域的大小和它的深度成反比。图象的校正应确保在以后的过程中自然的图象被产生。
在引入的关于(1)和(2)的图象处理中,通过平滑沿图象边角的不平部分,一图象被处理完毕。例如,当再产生的图20的取景器图象为图30的相应部分,这绝对不会发生,图29的所有图象部分和图30的相应部分有一一对应关系。具体而言,由于在图30图象顶右角示出的空间可能给出的目标在图29的图象的相同区域不被看见。因此,基于图29在图30的取景器图象的自然的产生,在区域被看的图象部分与实际从图30断开。这断开造成了依据图象理想边角线的内凹。基于同样的理由,包括在图29内的所有图象部分并不在图30的图象的理想边角内,而一些图象部分从边角中伸出。
为了解决这个问题和维持初始屏幕形状(在此例是长方形),这样的凹处用额外的象素添充,而这样突出将被切去冗余的象素。使用和图象相邻区域中的相同颜色的象素进行添充。当上述的图象处理(2)在图象的边角线形成类似的不平时,似类的修补解决该问题。使用这种修补。使图象的边角线显示得自然。(3)分离图象所希望的要被分离的部分将被单独地加以处理。参看图29,假定人,房子和树分别具有的深度为3m,10m,和20m。为了使分离人,在开始检测和评判各个部分的景深之前,先设“5米的深度”为了分离房子,情况可以设为“在5米到15米的深度”。
图32是从图29分出的房子而产生的取景器图象。在分离所希望的图象区域之后,其余的部分可以留为空白,或分离的区域可以通过不同的取景器图象。
如上所述,本发明提供了图象识别和处理的方法。通常,图象区域手动地已经被分离,或使用色彩的光标方法。本发明提供的实现精确区域识别方法完全不同于通常的方法,是使用深度信息。
到目前所述,本发明公开了使用精确深度信息进行图象处理的方法。由于一系列的处理能用软件自动地完成,本发明能应用到广泛的领域。实施例6将描述实现实施例5的适当的仪器,该仪器实质上和在实施例2中所描述的仪器相同,除了它输出单独类型的图象,而不是两种类型的图象,即,实施例2中的右和左眼的图象。仅联系和实施例2的结构差异描述其操作。一摄象机拍摄目标作为捕获的取景器图象,该取景器图象通过图象输入电路20被提供并且存储在帧存储器24中。大量取景器图象的帧从帧存储器24中被读出并且通过相应点检测电路26和运动检测电路30加以处理以获得目标的深度信息。
随后,依照深度信息,图象产生电路32产生图象例如从不同点看到的取景器图象。在这种情况下,使用由指令输入部分34提供的指令,各种处理将被完成,包括产生从不同点看到的取景器图象,扩展,压缩,或分离,如在实施例5中所示。实施例7将描述当接收立体取景器图象产生2-D显示图象的方法。
实施例5和7之间的差别和实施例1和3之间的差别是相同的。这一般可能高精度地获得深度信息,因此能高精度地完成从不同点看的取景器图象的产生作为最终的图象。实施例8和实施例1相类似,根据深度信息和2-D图象产生好的立体图象的方法将被描述。实施例8不同于实施例1,当显示图象时它考虑了显示仪器的唯一的情况。
如前边日本公开号Sho 55-36240申请所公开的, 当给出深度信息,根据2-D图象就可能产生和显示立体图象。即,发射机发射附有深度信息的电视图象信号(2-D图象信号)。接收机,另一方面,划分接收的图象信号为两组。然后,两图象信号组的一个的各自图象部分按照深度信息给出一些位移,以分别产生右和左眼图象。这样产生的图象被显示在立体图象显示仪上,以完成再现立体图象。
在这种情况下,就需要考虑视差的性质。换言之,如上面已经讨论的,由于视差是基于视矢量之间的角度差,在显示甚至相同数目的象素时,角差的范围随着显示仪器的不同尺寸而变化,视差的变化取决于显示仪器的尺寸。甚至假设尺寸是相同的,视差始终依显示仪器和视者之间的距离而变化。因而,为了达到最佳的3-D效果,位移的范围应当依照显示仪器唯一的情况单独地加以确定。
在实施例8中,每一个立体图象显示仪的唯一的校正值被引入附加深度信息。图33给出了依实施例8的立体图显示仪的结构。其中2-D图象和深度信息通过输入端100被提供,和深度信息在深度信息提取电路102中以公知的方法被提取。
另一方面,2-D图象被分为两组。一组提供给缓冲存储器104,和另一组提供给右眼图象位置电路106。缓冲存储器吸收在位移电路106中形成的延迟。左眼显示面板108显示从缓冲存储器104传送的图象,而右眼显示面板110显示在位移电路106中给出位移的图象。
该仪器的特征在于,位移电路106不仅参考深度信息而且参考对仪器唯一的参数来确定位移的范围,参数预先存储在ROM112内。ROM内112存储仪器的最佳校正值,最佳校正值遵照下面的一般的规则。
(1)相关于显示面板的尺寸,对较小的显示面板,存储较大的值。
(2)相关于在一般使用下显示面板到视者的距离对于较小的距离,较小的值被存储。
如果深度较小或校正值较大,显示电路106给出较大的位移,校正值依照上述的规则预先被确定。作为结果,最佳立体显示被获得,该最佳立体显示反应了对显示仪器唯一状况。
实施例8也应用下述的技术变化。
1.如图33所示,位移开关114可以提供以手动地改变位移范围,使得按个人喜好的补充的调整或调整能够实现。
2.位移能够给右和左两个图象。
3.如前述Nikkei Electronics No.444.所示,使用Pulfrich效应产生3-D效果。
4.ROM112可以预先存储大量的校正值,以根据情况被选来使用。
5.校正值可以分两组存储,一组随屏幕尺寸变化,另一组随着显示屏和视差之间的距离变化。
6.如上所述,深度信息值是精确地与拍摄位置和目标之间距离成正比。然而,深度信息可以给出拍摄位置和目标之间的绝对距离。取简单的情况为例,深度信息仅包括三个级别即,大、中和小。当深度信息指示“大”,或长距离,没有位移被求出使得图象部分没有视差。当“中”或中等距离被指出时,一些位移被求出形成图象部分的视差。当“小”或小距离被指出时,大的位移被求出以形成图象部分的大视差。
这样简化的深度信息能够减少广播的数据传送量,另外,实现了具有简单结构电路的立体图象显示仪。
权利要求
1.产生3-D显示图象的方法包括从2-D运动图象提取深度信息的步骤;和按照深度信息产生3-D显示图象的步骤。
2.权利要求1的产生3-D显示图象的方法,其中,提取深度信息的步骤包括检测2-D运动图象运动的步骤;计算在景和2-D运动图象拍摄视点之间的相关的3-D运动的步骤;和根据相关的3-D运动和各自图象部分的2-D运动计算从拍摄视点到投影到2-D运动图象的3-D空间的各个部分的相关距离的步骤;
3.根据包括在2-D运动图象的帧计算深度信息的方法,包括从2-D运动图象中选取在它们之间有适当大运动的两帧的步骤;和根据两帧的信息计算深度信息的步骤。
4.权利要求3的计算深度信息的方法,进而包括在参考帧提供大量代表点的步骤;在另一帧确定大量相应点以和代表点的每一个相互对应的步骤;和在代表点和对应点之间获得位置关系的步骤,其中在另一帧的相应点的位置是依靠代表点和相应点之间的位置关系预测的,以限制在另一帧检索相应点的区域。
5.权利要求3计算深度信息的方法,进而包括在参考帧提供大量代表点的步骤;在另一帧确定大量相应点以使和代表点的每一个相对应的步骤;获得代表点和对应点位置关系的步骤;每一个代表点被分为特征点和非特征点;其中当比预定数目多的特征点在参考和另一帧之间移动时,使得它们运动的总合超出了一预定值,这就判断为参考帧和另一帧的运动是适当的大,参考帧和另一帧被选取。
6.权利要求3计算深度信息的方法,进而包括在参考帧提供大量代表点的步骤;在另一帧确定大量相应点以和代表点的每一个相对应的步骤,和和在代表点和对应点之间获得位置关系的步骤;代表点被分类为特征点和非特征点,其中当多于预定数目的特征点在参考帧和另一帧之间运动时,使得它们的运动的变化超过了一预定值,这就判断,参考帧和另一帧之间的运动是足够的大,参考帧和另一帧因此被选出来。
7.权利要求3至6中任一个的计算深度信息的方法,其中当在它们之间具有适当大的运动的两帧不能从2-D运动图象中选出时,深度信息的计算被间断。
8.权利要求5至7中任一个的计算深度信息的方法,其中相关于图象区域的代表点的相应点具有几何特性,这被判别和被定位,使得与此相关的图象区域保留有几何特性。
9.权利要求8计算深度信息的方法,其中具有几何特性的图象区域是包括直线的区域。
10.计算深度信息的方法包括在参考帧提供大量代表点的步骤;在包括在另一帧任意设置的特定点的图象区域和在参考帧内包括代表点的邻近图象区域之间引进估算图象相似性的步骤;在特定点之间估算相对位置可接收性的步骤;当两者的估算提供有利的结果时确定特殊点为代表点的相应点的步骤;当移动诸相应点的一个和所有固定在它们当前位置的其它相应点时,引入求最佳点的检索,在那里的两个估算提供最好的结果的步骤;引入相应在检索期间发现的最佳点的诸相应点之一的位置的变化的步骤;就所有对应点而论顺序地引入检索和位置变化的步骤;和依照代表点和通过上述一系列步骤已经确定的相应点之间的位置关系计算深度信息的步骤。
11.权利要求10计算深度信息的方法,其中在为所有的对应点引入检索和位置变化以后,通过解Euler-Lagrange差分方程位置精度由此得到改进并指明估算两者的组合值为极值的情况。
12.权利要求10和11中任一个的计算深度信息的方法,其中使用位移的块匹配引入图象相似性的估算,那里当包括同一目标的块被测试时,相似性被正确地估算为最高,而不管拍摄状况,和使用邻近图象部分之间的距离函数估算图象相关位置的可接收性,和对分别依照色彩空间和象素空间的距离项目的上述估算结果加以处理,使得它们能被组合在一块和能被一块使用进行估算以确定相应点。
13.权利要求12的计算深度信息的方法,其中在已经预先决定的限制的校正区域内使用位移块匹配引入图象相似性的估算。
14.计算深度信息的方法,包括在参考帧提供大量代表点的步骤;在另一帧确定大量的对应点以和代表点中的每一个相对应的步骤;和获得在代表点之间至少一特征点和它的相应点之间的位置关系的步骤,其中,在不同时间拍摄的大量帧当中其位置稳定地移动的一点被选出作为特征点。
15.计算深度信息的方法,包括在参考帧提供大量代表点的步骤;在另一帧确定大量相应点使得和代表点中的每一个相对应的步骤;和获得在代表点当中至少一个特征点和它的相应点之间的位置关系的步骤,其中这样的点被选取做为一特征点,即,它的位移在同时拍摄的两帧之间实质上是一致的,并且在紧靠着但在不同时间同时拍摄的另外一些帧之间实质上是一致的或实质上一致变化的。
16.计算深度信息的方法,包括在参考图象提供大量代表点的步骤;在另一图象确定大量的对应点以和代表点的每一个相对应的步骤;获得代表点和相应点之间的位置关系的步骤;和依照位置关系计算深度信息的步骤,其中当少于预定数目的特征点从代表点中选取时深度信息的计算被中断。
17.权利要求16计算深度信息的方法,其中代表点和对应点分别在包括2-D运动图象的两帧中提供。
18.根据包括2-D运动图象的两帧计算深度信息的方法,其中当在两帧之间的运动小时,间断深度的计算。
19.计算2-D图象深度信息的方法,其中当特定图象任一点的深度被计算为负时,该深度用具有正深度值逼近点的深度信息加以内插。
20.使用深度信息进行图象处理的方法,包括,通过依照深度信息给2-D图象视差以产生立体图象的步骤,其中,视差被变换以落入预定的范围,使得依照变换的视差产生立体图象。
21.权利要求20图象处理的方法,其中视差被线性地压缩以落入到使点被任意指定为预定区域中间值的预定区域。
22.权利要求20的图象处理方法,其中出了预定区域的视差被一致地变换为预定区域的上或下限值中的一逼近值。
23.权利要求20的图象处理的方法,其中视差被非线性地变换,使得变换的值平滑地收敛为预定区域的上和下限值,从而这样落入预定的区域内。
24.使用深度信息进行图象处理的方法,包括根据深度信息给2-D图象视差以产生立体图象的步骤,其中视差是可以变化的,该视差最初是由深度信息决定的。
25.使用深度信息进行图象处理的方法,包括,依深度信息给2-D图象视差以产生立体图象的步骤;和在立体图象显示仪上显示立体图象的步骤,其中对2-D图象进行处理,使得视差依据立体图象显示仪器的唯一的显示状况所决定。
26.权利要求25图象处理的方法,其中显示状况是根据立体图象显示仪器的显示屏的大小和假设的从显示屏到视者之间的距离确定的,和对2-D图象进行处理使得所希望的视差是根据这样确定的显示状况单独地加以确定的。
27.使用深度信息进行图象处理的方法,包括,通过依照深度信息给2-D图象的每一图象部分的视差产生立体图象的步骤,其中由于给出的视差形成的不平的图象帧轮廓线被校正。
28.使用深度信息进行图象处理的方法,包括,通过依照深度信息为2-D图象的每一部分给出的视差产生立体图象的步骤,其中图象帧的所希望形状通过切去图象的外围部分而获得。
29.依照深度信息对2-D图象引入图象处理的方法,其中根据深度信息,确定经受图象处理的图象区域。
30.权利要求29图象处理的方法,其中图象处理是改变图象区域大小的处理。
31.权利要求30的图象处理的方法,其中改变图象区域大小的处理是使用较小的深度扩展图象区域的尺寸使得比用较大的深度的图象的尺寸大的处理。
32.权利要求29的图象处理的方法,其中图象处理是引入分开所希望的图象区域的处理。
33.权利要求32的图象处理的方法,其中在预定的区域内对具有一深度的图象区域进行分离。
34.权利要求32的图象处理方法,其中已经被分开的图象区域和其它的图象进行组合。
35.根据深度信息对2-D图象进行图象处理的方法,其中根据深度信息,产生在2-D图象的一拍摄点是假想移动的假想运动路径上的大量点为视点的图象作为低速运动图象。
全文摘要
从2-D运动图象自动获得深度信息以产生3-D显示图象的方法,和选取适当的帧以计算深度信息或间断计算,并用深度信息进行图象处理的方法,通过块匹配等方式取出屏上目标的运动信息,随后,计算3-D目标的真实运动。由于取景器图象是空间投影,可根据大量代表点的运动通过逆变换获得目标的初始3-D运动,结果,目标的3-D坐标被识别,从而获得目标的深度信息。此后,根据深度信息计算视差,以从输入取景器图象产生左右眼图象。
文档编号G06T15/10GK1153362SQ9610848
公开日1997年7月2日 申请日期1996年3月29日 优先权日1995年3月29日
发明者松本幸则, 寺崎肇, 杉本和英, 片山正纯, 荒川勉, 铃木治 申请人:三洋电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1