组合3d图像和图形数据的制作方法

文档序号:7909759阅读:292来源:国知局
专利名称:组合3d图像和图形数据的制作方法
技术领域
本发明涉及一种组合三维[3D]图像数据和辅助图形数据的方法,该方法包括检测3D图像数据中出现的深度值;并且根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D显示信号,该3D显示信号用于通过基于辅助深度值组合3D 图像数据和辅助图形数据而在显示区域上再现图像内容。本发明进一步涉及一种3D源设备、一种3D显示设备和一种计算机程序产品。本发明涉及在3D显示设备上再现3D图像数据(例如3D视频)与辅助图形数据(比如字幕或标志)的组合以使得3D图像数据不遮挡(occlude)辅助图形数据的领域。
背景技术
用于作为2D视频数据的来源的设备是已知的,例如视频播放器(如DVD播放器)或提供数字视频信号的机顶盒。该源设备将被耦合到显示设备,如电视机或监视器。图像数据经由适当的接口、优选地经由高速数字接口(如HDMI)从源设备传递。当前提出了用于作为三维(3D)图像数据的来源的3D增强设备。类似地,提出了用于显示3D图像数据的设备。对于3D内容(比如3D电影或电视广播),附加的辅助图形数据可以与图像数据组合而被显示,该辅助图形数据例如字幕、标志、游戏分数、针对财经新闻的电传股票行情录 (ticker tape)或其他公告或新闻。文献W02008/115222描述了一种用于组合文本与三维内容的系统。该系统将以与 3D内容中最高深度值相同的水平插入文本。3D内容的一个实例是一幅二维图像和关联的深度图。在此情况下,调节所插入的文本的深度值以匹配给定深度图的最大深度值。3D内容的另一个实例是多幅二维图像和关联的深度图。在此情况下,连续调节所插入的文本的深度值以匹配给定深度图的最大深度值。3D内容的另一个实例是具有右眼图像和左眼图像的立体内容。在此情况下,左眼图像和右眼图像之一中的文本被移位以匹配立体图像中的最大深度值。3D内容的又一个实例是具有多幅右眼图像和左眼图像的立体内容。在此情况下,左眼图像或右眼图像之一中的文本被连续移位以匹配立体图像中的最大深度值。结果, 所述系统产生与3D内容组合的文本,其中该文本不阻挡3D内容中的3D效果并且该文本在被观看者观看时不会引起视觉疲劳。

发明内容
文献W02008/115222描述了辅助图形数据要被显示在图像数据的最接近部分之前。当前系统存在的一个问题在于,字幕倾向于非常靠近观看者。已经发现,实践中,观看者不欣赏字幕的靠近位置。利用一些当前的3D显示器,对于屏幕之前且更靠近观看者显示的对象而言,图像属性倾向于降低。对于任何立体显示器,靠近的对象带来更多的眼疲劳。本发明的一个目的是提供一种以更便利的方式在显示设备上组合辅助图形数据和3D内容的系统。为此目的,根据本发明的第一方面,如在起始段所述方法中,检测深度值包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及设置辅助深度值包括根据深度模式设置辅助深度值。为此目的,根据本发明的第二方面,如在起始段所述的用于组合三维图像数据和辅助图形数据的3D源设备包括3D图像处理装置,其用于检测3D图像数据中出现的深度值并且根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D显示信号,该3D显示信号用于通过基于辅助深度值组合3D图像数据和辅助图形数据而在显示区域上再现图像内容,其中3D图像处理装置被设置用于检测深度值并设置辅助深度值, 所述检测深度值包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及所述设置辅助深度值包括根据深度模式设置辅助深度值。为此目的,根据本发明的另一个方面,如在起始段所述用于组合三维图像数据和辅助图形数据的3D显示设备包括用于显示3D图像数据的3D显示器和3D图像处理装置, 该3D图像处理装置用于检测3D图像数据中出现的深度值并且根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D显示信号,该3D显示信号用于通过基于辅助深度值组合3D图像数据和辅助图形数据而在显示区域上再现图像内容,其中3D 图像处理装置被设置用于检测深度值并设置辅助深度值,所述检测深度值包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及所述设置辅助深度值包括根据深度模式设置辅助深度值。这些措施具有如下效果对关注区域的检测使得所述系统能够确立当假定观看者观察辅助数据时观看者的注意力将被导向哪些元素。检测3D图像数据中出现的深度值意味着根据左/右3D格式的左图像和右图像计算这样的值,或者使用来自2D+深度流的深度数据,或者根据任何其他3D图像格式(如左+右+深度流)导出这样的深度值。确定用于所检测的关注区域的所述深度模式。所述系统特别地根据深度模式(例如在与关注区域基本相同深度处或在关注区域之前)设置辅助深度值,其中没有其他对象位于用户附近。在显示辅助图形数据的区域中,3D图像数据不遮挡辅助图形数据,即在更靠前的位置上不包含任何图像数据。应当注意,在3D图像内容的其他区域中,其他对象可能具有更靠前的位置,即更靠近用户。有利地,观看者在他正在观看的元素的深度感知方面不会有令人烦恼的效应, 并且在他在观看辅助图形数据与关注区域之间切换时基本不必调节焦深。本发明还基于下面的认识。现有技术的文献描述了以图像中的最靠近元素之前的深度定位文本。发明人已经明白,这种定位将文本推到靠近用户显示的任何元素前面。文本的前进定位引起疲劳并且被感知为令人不愉快。当前系统提供辅助图形数据的更向后的定位,这创建起来更复杂但是被观看者欣赏。典型地,辅助图形信息比最靠近的对象更不向前地定位,而且在屏幕表面处或之前。一般地,图像质量和锐度在屏幕表面处是最佳的,但是这可取决于显示器的类型和辅助图形数据的主题和尺寸。在所述系统的一个实施例中,检测关注区域包括检测3D图像数据中的关注对象, 并且所述深度模式基于对象的深度值。关注对象是观看者的注意力被聚焦在其上的对象, 例如脱口秀中的演讲者或在一个场景中表演的主角。效果是关注对象的深度位置确定了辅助图形数据的深度位置。有利地,观看者在切换到阅读辅助图形数据时不必改变其眼睛的隹占。在所述系统的一个实施例中,检测关注区域包括选择用于定位辅助图形数据的目标区(region),并且所述深度模式基于目标区的深度值。效果是辅助数据在位于目标区中时被定位在与周围目标区的深度模式成比例的深度处。应当注意,在显示区域的其他区中, 对象可以具有比辅助图形数据更靠前的位置。有利地,目标区的区域(area)被选择,以使得在辅助图形数据的位置中,没有对象是更靠前的,而更远离所述位置的显示区域中的对象是更靠前的。特别地,在所述系统的另一个实施例中,所述选择目标区包括将显示区域细分为多个区,并且检测所述深度模式基于根据取决于目标区的空间滤波函数在空间上滤波多个区的深度值。效果是所述空间滤波将相对权重应用到各种前向对象,该相对权重取决于它们到目标区域的距离。特别地,在所述系统的另一个实施例中,选择目标区包括下列至少一个选择其中不出现比辅助深度值更大的深度值的图像数据区作为目标区;选择用于显示辅助数据的时间周期以使得在目标区中不出现比辅助深度值更大的深度值;选择其中不显示图像数据的显示区域作为目标区,并且相应地减少图像数据的尺寸以适合剩余显示区域。效果是辅助图形数据的位置和/或外观根据实际3D图像数据来调节,即何时和何地显示辅助图形数据取决于所显示的内容。在所述系统的一个实施例中,所述确定深度模式包括检测视频内容的多个帧中的深度值;以及根据时间滤波函数在时间上对深度值滤波。效果是,所述时间滤波使3D图像数据中移动或出现(消失)的元素的深度差平滑。有利地,所述辅助深度值以受控方式随时间调节。在所附权利要求中给出了根据本发明的方法、3D设备和信号的其他优选实施例, 这些权利要求的公开内容通过引用合并于此。本发明的另一个目的是提供一种组合三维[3D]图像数据和辅助图形数据的方法,该方法包括获得与三维[3D]图像数据一起使用的缩放和/或移位信息;分别根据缩放和/或移位信息缩放和/或移位三维[3D]图像数据,从而组合缩放和/或移位的三维 [3D]图像数据和辅助图形数据,使得辅助图形数据的至少一部分被置于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内。而且,本发明提供了根据权利要求10的3D源设备、根据权利要求11的3D显示设备和根据权利要求12 的数字信息载体。


本发明的这些和其他方面将根据在下面描述中作为实例并参照附图描述的实施例而清楚明白,并且进一步参照这些实施例而被阐释,在附图中
图1示出一种用于显示三维(3D)图像数据的系统,
图2示出3D图像数据的一个实例,
图3示出在辅助深度处定位的辅助图形数据,
图4示出在目标区中的辅助深度处定位的辅助图形数据,
图5示出细分显示区域,
图6示出缩小的图像数据的一个实例,
图7示出在黑色边界中缩小的图像数据的一个实例,图8示出字幕和图形在视频上的覆盖, 图9示出缩放视频以便为字幕和浮动窗口让出地方,以及图10示出视频的组合缩放和移位以便容纳字幕。在附图中,与已经描述的元素相应的元素具有相同的附图标记。
具体实施例方式图1示出一种用于显示诸如视频、图形或其他视觉信息之类的三维(3D)图像数据的系统。3D源设备10耦合到3D显示设备13以用于传递3D显示信号56。该3D源设备具有用于接收图像信息的输入单元51。例如,该输入单元设备可以包括用于从光学记录载体 54 (如DVD或蓝光光盘)获取(retrieving)各种类型的图像信息的光盘单元58。可替代地,该输入单元可以包括用于耦合到网络阳(例如互联网或广播网络)的网络接口单元59, 这种设备通常被称为机顶盒。图像数据可以从远程媒体服务器57获取。该源设备也可以是卫星接收器或直接提供显示信号的媒体服务器,即输出要直接耦合到显示单元的3D显示信号的任何适当设备。该3D源设备具有耦合到输入单元51的图像处理单元52,其用于处理图像信息以产生要经由输出接口单元12传递到显示设备的3D显示信号56。该处理单元52被设置用于产生包含在3D显示信号56中的用于在显示设备13上显示的图像数据。该源设备设有用户控制元件15,用于控制图像数据的显示参数,比如对比度或颜色参数。像这样的用户控制元件是公知的,并且可以包括遥控单元,该遥控单元具有各种按钮和/或光标控制功能以控制3D源设备的各种功能(比如回放和记录功能)并且用于例如经由图形用户界面和 /或菜单设置所述显示参数。该源设备具有辅助图像处理单元11,其用于处理要与3D显示器上的3D图像数据组合的辅助图形数据。辅助图形数据可以是要与3D图像内容组合的任何附加图像数据,比如字幕、广播公司的标志、菜单或系统消息、错误代码、快讯、电传股票行情录等。在下文中, 通常会使用字幕作为每种类型的辅助图形数据的指示。3D图像处理装置11、52被设置用于下面的功能。首先,检测3D图像数据中出现的深度值。基于此,根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值。随后,产生3D显示信号56以用于在3D显示器上的显示区域上再现图像内容。此外,基于辅助深度值组合3D图像数据和辅助图形数据。 所述3D图像处理装置被设置用于如下检测所述深度值。检测3D图像数据中的、预期观看者将他/她的注意力集中于其上且同时辅助图形数据要在其中显示的关注区域。该关注区域可以是辅助信息要显示于其中的区域,或者辅助数据显示区域附近的区域,或者图像的其他地方的、被确定为观看者的眼睛将聚焦于其上的元素的任何对象或元素。随后,针对关注区域确定深度模式,即针对关注区域的一组深度值。例如,可以确定所述区域中出现的最大和最小值,并且所述深度模式可以是平均值。而且,可以确定随时间出现的深度模式。下面阐释进一步的细节。基于关注区域的深度模式,辅助深度值被设置在例如所述深度模式的上述平均深度值的相同值处,或者在辅助显示区域中局部出现的 3D图像数据的任何元素之前。下面给出了图像数据的空间或时间滤波的其他实例。3D显示设备13用于显示3D图像数据。该设备具有输入接口单元14,其用于接收从源设备10传递的包括3D图像数据和辅助图形数据的3D显示信号56。所述显示设备设有其他的用户控制元件16,用于设置显示器的显示参数,比如对比度、颜色或深度参数。所传递的图像数据在图像处理单元18中根据来自用户控制元件的设置命令而被处理并且基于3D图像数据产生显示控制信号以用于在3D显示器上再现3D图像数据。该设备具有接收显示控制信号以用于显示所处理的图像数据的3D显示器17,例如双IXD或透镜IXD。显示设备13可以是也称为3D显示器的任何类型的立体显示器,并且具有由箭头44指示的显示深度范围。具有所述辅助深度值且(如果必要的话)具有其他显示数据(如X,y位置)的辅助图形数据从所述显示信号获取并在显示器17上与3D图像数据组合。可替代地,在所述显示设备中执行用于定位辅助图形数据的处理。所述3D图像数据和辅助图形数据经由显示信号56被传递,并且所述显示设备具有辅助处理单元19。该辅助图像处理单元19处理要与3D显示器上的3D图像数据组合的辅助图形数据。3D图像处理装置19、18被设置用于如上所述的用于源设备中的3D图像处理装置11、52的对应功能。 在另一实施例中,源设备和显示设备被组合在单个设备中,其中单组3D图像处理装置执行所述功能。图1进一步示出作为3D图像数据的载体的记录载体M。该记录载体是盘形的并且具有轨道和中心孔。由一系列物理可检测标记构成的轨道按照构成信息层上的基本平行的轨道的螺旋或同心模式的匝来设置。所述记录载体可以是光学可读的,被称为光盘,例如 ⑶、DVD或BD (蓝光盘)。所述信息通过沿着轨道的光学可检测标记(例如凹坑和凸台)表示在信息层上。所述轨道结构还包括位置信息,例如头部和地址,其用于指示信息单元(通常被称为信息块)的位置。记录载体M以预定义的记录格式(如DVD或BD格式)携带表示例如根据MPEG2或MEG4编码系统编码的数字编码图像数据(如视频)的信息。下面的部分提供三维显示器的概述和人们对深度的感知。3D显示器在以下意义上不同于2D显示器它们可以提供更生动的深度感知。这一点的实现是因为它们提供了比 2D显示器更多的深度线索(cue),2D显示器只能示出单眼深度线索和基于运动的线索。单眼(或静态)深度线索可以使用单只眼睛从静态图像获得。画家经常使用单眼线索来在它们的画中创建深度的感觉。这些线索包括相对尺寸、相对于地平线(horizon) 的高度、遮挡、透视、纹理梯度和发光/阴影。眼球运动线索是从观看者眼睛的肌肉的张力 (tension)导出的深度线索。所述眼睛具有用于旋转眼睛以及用于拉伸眼睛晶状体的肌肉。 眼睛晶状体的拉伸和松弛被称为调适(accommodation)并且在聚焦到图像上时完成。晶状体肌肉的拉伸或松弛的量提供关于对象多远或多近的线索。进行眼睛旋转以使得两只眼睛聚焦在相同的对象上,这被称为会聚。最后,运动视差是这样的效果靠近观看者的对象看起来比更远的对象移动得更快。双眼视差是从两只眼睛看到稍微不同的图像的事实导出的深度线索。单眼深度线索可以用在且被用在任何2D视觉显示器类型中。为了在显示器中重新创建双眼视差,要求显示器可以针对左眼和右眼将视图分割以使得每只眼睛在显示器上看到稍微不同的图像。 可以重新创建双眼视差的显示器是被称为3D或立体显示器的特殊显示器。该3D显示器能够沿着由人眼实际感知的深度尺度显示图像,在本文中该3D显示器被称为具有显示深度范围的3D显示器。因此,3D显示器向左眼和右眼提供不同的视图。可以提供两个不同视图的3D显示器已经长时间存在。这些3D显示器中大多数基于使用眼镜分开左眼和右眼视图。现在,随着显示技术的进步,新显示器已经进入市场,该新显示器可以在不使用眼镜的情况下提供立体视图。这些显示器被称为自动立体显示器。第一方法基于IXD显示器,其允许用户在没有眼镜的情况下看到立体视频。这些 IXD显示器基于两种技术(透镜屏幕和屏障显示器)中任意一种。对于透镜显示器而言,IXD 被双凸透镜片覆盖。这些透镜衍射来自显示器的光,使得左眼和右眼接收来自不同像素的光。这允许显示两幅不同的图像,一幅用于左眼视图,一幅用于右眼视图。透镜屏幕的可替代方案是屏障显示器,其在LCD之后和背光之前使用视差屏障分离来自LCD中的像素的光。该屏障使得从屏幕之前的设定位置,左眼看到与右眼不同的像素。该屏障也可以位于LCD与人类观看者之间,使得显示器的行中的像素交替地对左眼和右眼可见。屏障显示器的问题是视亮度和分辨率的损失,还有非常窄的视角。这使得屏障显示器作为起居室电视比透镜屏幕吸引力更小,透镜屏幕例如具有9个视图和多个视区。另一种方法仍然基于使用结合高分辨率射束器(beamer)的快门眼镜,其可以以高刷新率(例如120Hz)显示帧。该高刷新率是需要的,因为利用快门眼镜方法,左眼和右眼视图交替显示。对于观看者而言,戴着所述眼镜感知60Hz的立体视频。该快门眼镜方法允许高质量视频和高深度水平。自动立体显示器和快门眼镜方法二者都经受调适-会聚失配。这的确限制了深度量和可以使用这些设备舒适观看的时间。存在没有该问题的其他显示技术,比如全息和体积显示器。注意到,本发明可以用于具有一定深度范围的任何类型的3D显示器。假设用于3D显示器的图像数据可用作电子的(通常是数字的)数据。本发明涉及这种图像数据并在数字域中操纵该图像数据。该图像数据在从源传递时可能已经包含3D 信息(例如通过使用双相机),或者可以包含专用预处理系统以从2D图像(重新)创建3D信息。图像数据可以是静态的,如幻灯片(slide),或者可以包括移动视频,如电影。其他图像数据(通常被称为图形数据)可以用作存储的对象或如应用所需的动态生成。例如,用户控制信息(如菜单、导航项目或文本)和帮助注释可以添加到其他图像数据。存在可以格式化立体图像的许多不同方式,这被称为3D图像格式化。一些格式化基于使用也携带立体信息的2D通道。例如,左右视图可以被交错或可以并排以及上下地放置。这些方法牺牲了分辨率以携带立体信息。另一个选项是牺牲颜色,该方法被称为补色立体(analyphic stereo)。补色立体使用基于以互补色显示两个分离的、重叠的图像的光谱复用。通过使用具有滤色器的眼镜,每只眼睛仅看到与该眼睛之前的滤色器的颜色相同颜色的图像。所以,例如右眼仅看到红色图像,而左眼仅看到绿色图像。一种不同的3D格式化基于使用2D图像和附加的深度图像(所谓的深度图)的两个视图,该深度图像传达关于2D图像中对象的深度的信息。被称为图像+深度的格式化的不同之处在于,它是2D图像与所谓的“深度”或视差图的组合。这是灰度图像,由此像素的灰度值指示相关联的2D图像中对应像素的视差(或在深度图的情况下的深度)的量。所述显示设备将2D图像作为输入,使用视差、深度或视差图计算附加视图。这可以以多种方式完成,在最简单的形式中,它是根据与那些像素关联的视差值将像素向左或向右移位的问题。 Christoph Fehn 的题为"Depth image based rendering, compression and transmission for a new approach on 3D TV”的文章给出了所述技术的优秀综述(参见http://iphome. hhi. de/fehn/Publications/fehn_EI2004. pdf)。图2示出3D图像数据的一个实例。图像数据左部是2D图像21 (通常是彩色的),而图像数据的右部是深度图22。2D图像信息可以以任何适当的图像格式表示。深度图信息可以是具有用于每个像素的深度值的附加数据流,其与2D图像相比可能分辨率降低。在深度图中,灰度值指示2D图像中关联像素的深度。白色指示靠近观看者,而黑色指示远离观看者的大深度。3D显示器可以通过使用来自深度图的深度值并且通过计算所需的像素变换计算立体所需的附加视图。可以使用估计或孔填充技术解决遮挡。附加帧可以包含在数据流中,例如可以进一步添加到图像和深度图格式,如遮挡图、视差图和/或用于在背景之前移动的透明对象的透明图。当从播放设备(比如蓝光光盘播放器)向立体显示器发送视频时,将立体添加到视频还影响视频的格式。在2D的情况下,只有2D视频流被发送(解码的图片数据)。利用现在增加的立体视频,必须发送包含第二视图(用于立体)或深度图的第二流。这可以在电接口上加倍所需的比特率。一种不同的方法是牺牲分辨率并格式化所述流,以使得第二视图或深度图交错并与2D视频并排放置。图2示出2D数据和深度图的一个实例。被发送到显示器的深度显示参数允许该显示器正确地解释深度信息。在ISO标准23002-3“R印resentation of auxiliary video and supplemental information”(例如,参见 2007 年 7 月的 IS0/IEC JTC1/SC29/WG11 N8259)中描述了视频中包含附加信息的实例。取决于辅助流的类型,附加图像数据包含4 个或两个参数。显示信号中的参数可以指示或改变3D视频传递格式。在一个实施例中,所述检测关注区域包括检测3D图像数据中的关注对象。随后, 所述深度模式基于对象的深度值。注意到,在观看时,总是在屏幕深度处放置字幕将造成一些问题。当对象在屏幕深度处时,自动立体显示器以最高分辨率显示该对象。如果对象在显示器表面之前或之后显示,则分辨率将减小。对于基于眼镜的立体显示器,屏幕深度也可能是最佳深度,因为随后眼镜聚焦的点处于与眼睛会聚点相同的位置。然而,屏幕深度看起来不是最佳放置,因为字幕总是与对应的3D图像内容一起被观看。这意味着,对于观看者而言,可能不舒适的是当3D视频中的关注对象不处于屏幕深度处而字幕处于屏幕深度处时在字幕与对象之间交替。因此,字幕的深度被设置在与关注对象相同的深度处。例如,可能是关注对象的演讲演员将充当参考元素,并且其深度将被采用并用于字幕。图3示出位于辅助深度处的辅助图形数据。该图的左部以正视图示出3D显示器 30。该图的右部以侧视图34示出相同的显示器。在该图中,字幕31以对应于图像的可能在观看者的关注焦点处的部分的深度的深度被置于图像区域35之外的图片的边界33中。关注区域32被示为图像中心中的对象。为了检测关注区域,可以在任何适当的组合中应用多个分析功能。为了在3D图像数据中检测关注对象,所述分析可以基于下面的图像处理功能中至少一个。相对于未焦点对准的其他图像元素,焦点对准的图像元素可以被检测到。检测对象的局部焦点同样是已知的,并且可以基于空间频率内容和其他图像参数。 对于图像元素,附加的3D数据的量可被检测以相对于背景再现图像元素,比如遮挡数据或透明数据。如果3D视频格式包括这种数据,则用于对象的这种数据的实际存在指示它将在背景之前以高质量再现。对于图像元素,可以检测深度线索,例如相对于背景的运动、深度、 亮度和颜色的差异。这样的深度线索指示用户将对相应对象的关注。特定对象和其他预定图像元素可被识别和分类,比如人脸、汽车、橄榄球或足球比赛中的球等等。而且,对于图像元素,位置线索可被检测,比如定位在显示区域中心附近,和/或具有相对于显示区域的至少预定尺寸。图4示出以辅助深度位于目标区中的辅助图形数据。所述显示器和字幕基本对应于图3。然而,字幕31现在位于也显示图像数据的相同显示区域35中。在该实施例中,通过在显示器中动态选择X,y位置来在显示区域35中定位字幕。辅助图形数据的位置被选择在目标区41中。因此,检测关注区域现在包括选择用于定位辅助图形数据的目标区。现在,深度模式基于目标区的深度值。辅助深度值可以根据目标区的深度模式来设置。辅助深度值也可以根据上文讨论的关注对象32和目标区本身的深度模式来设置。在一个实施例中,字幕的深度和/或视差作为元数据以每帧或每帧组视频提供。 电影的制作者或后期制作人可以通过创作工具产生这些元数据,该创作工具执行检测3D 图像数据中的所述关注区域和确定关注区域的深度模式以及根据深度模式设置辅助深度值的功能。注意到,在图形信息上以用于每个帧的最近深度值动态地放置覆盖(像在 W02008/115222中那样)导致帧之间的覆盖的频繁深度跳动。在用于多个帧的固定深度值处放置覆盖经常导致非常靠近观看者的覆盖作为多个帧的最近对象确定用于所有给定帧的覆盖放置。这两种方法都导致视觉疲劳。当前检测关注区域包括选择用于定位辅助图形数据的目标区,并且深度模式基于目标区的深度值。在一个实施例中,选择目标区被执行如下。所述显示区域被细分成多个区。检测深度模式基于根据取决于目标区的空间滤波函数对所述多个区的深度值进行空间滤波。图5示出细分显示区域。该图示出其中显示图像45被划分为多个片块46的实例。 在每个片块中,单独计算最大深度。在该实例中,字幕文本47可以处于特定深度,即使其他对象48的深度明显更大(即更靠近观看者)。利用现有方法,针对整个图像帧计算最大深度值,使得具有大深度的单个对象导致在该大深度处的覆盖的放置,即使对象和覆盖在图像的单独区中。利用所提出的方法,在图像的多个区(片块)中计算深度。只有处于覆盖附近的片块中的深度将影响覆盖的辅助图形数据的深度放置。在一个实施例中,这里描述的本发明用于在3D内容上覆盖字幕。主要内容作为立体(左/右)图像而存在;所述字幕也作为图像而存在。该实施例也可以再现来自适当描述
的字幕。该实施例使用下述步骤
-根据视频内容的所有左图像和右图像,针对所有像素或仅针对感兴趣区计算视差。-在感兴趣区内,针对每个图像对计算并存储最小视差。对于出现在屏幕之前的对象,视差是负的,因此这些值对应于具有到观看者最小感知距离的对象。-滤波被用于最小视差的列表。-正深度值被设置为0,其等效于将屏幕之后的所有对象移动到屏幕平面。另一个值在该步骤中可以默认被选择为将对象放置在不同的平面上。-使用等于滤波的视差的左右之间的像素移位在左图像和右图像顶部混合字幕。-如果字幕被预再现,则使用规则的阿尔法混合。-如果字幕以文本格式存在,则它们以子像素精度再现。-可以应用小偏移(通常一个像素)来生成最前面对象与字幕之间的小深度范围。
注意到,上述方法允许基于选择没有出现深度值大于辅助深度值的图像数据区作为目标区来选择目标区。而且,上述选择可以包括选择用于显示辅助数据的时间周期,使得在目标区中没有比辅助深度值更大的深度值出现。例如,字幕的再现可以延迟或移动以允许更前面的对象消失。在一个实施例中,确定深度模式包括检测视频内容的多个帧中的深度值,并且根据时间滤波函数在时间上滤波深度值。例如,时间周期可以被认为是要显示字幕本身的周期,或为避免对象明显邻近字幕出现或比字幕更靠前出现的稍长周期。显示字幕的周期通常在显示信号中指示。特别地,确定深度模式可以包括基于检测视频内容的多个帧中的镜头边界来设置用于时间滤波函数的时间窗。这可以实现如下。-根据左图像或右图像计算镜头边界。镜头的开始图像通过使用该图像的彩色直方图检测图像内容中的大变化而找到。-根据之前检测的镜头切变检测用于所述镜头的最小视差列表。-对于每个镜头,随后利用适当的时间窗函数(参见下文的实例)对最小视差列表滤波。窗函数是在某个选择的区间之外为零值的函数。例如,在所述区间内恒定且其他地方为零的函数被称为矩形窗,其描述了该函数图形表示的形状。所述图像信号(数据)乘以窗函数,并且该乘积在所述区间之外也为零值。-单独滤波每个镜头保证了仅使用来自镜头内的值。因此,辅助图形数据的深度值被允许在感兴趣区内的最前面的对象的视差跳跃的情况下在镜头切变处跳跃,但是不允许它在镜头内跳跃。作为可替代方案,各镜头之间的深度放置也可以被滤波,从而允许在镜头边界处的平滑过渡。为了选择窗函数,该实施例使用Harm窗函数,但是其他窗函数(例如矩形窗函数) 也是合适的。该Harm函数(按照奥地利气象学家Julius von Harm命名)是由下式给出的离散概率质量函数所述窗口以时间的当前位置为中心,使得过去和未来的两个值都被考虑。这具有使所述值平滑的效果,从而避免了视差的突变,并且具有确保覆盖总是在3D内容之前的效果。未来值可能例如针对实时广播是不可用的,并且加窗可以仅基于过去值。可替代地,未来帧的一部分可以首先存储在缓冲区中而在再现中施加小的延迟。注意到,所选的目标区(TR)必须至少覆盖字幕文本的边界矩形。为了得到令人愉快的视觉外观,TR应当明显更大。对于在图像底部处的字幕放置而言,该实施例使用垂直地从图像底部延伸到预定高度(例如图像高度的四分之一到一半)的TR。该TR在图像的中心水平延伸字幕的宽度或图像宽度减20%,哪个更大,就延伸哪个。该TR保证了字幕的深度根据它们附近的对象的深度来调节。将所述区延伸到图像的中间确保了通常观看者正在聚焦的对象被考虑。而且,空间滤波可以被应用以将高权重分配给附近片块中的对象,而将较低的权重分配给更远片块中的前面对象。在一个实施例中,图像数据被缩小以适合显示区域的有限部分。例如,(1:1. 85)电影内容在16:9的显示器上被缩小一些。对于1:2. 35的电影内容,对于字幕而言不需要缩小,因为黑条在底部是可用的。随后,(缩小的)整个内容向上移位并且与屏幕的顶侧对齐。 这创建了屏幕下方空间以具有字幕区,其中所有字幕可以放在如前导出的辅助深度值上。图6示出缩小的图像数据的一个实例。在显示区域65中,围绕图像区域60示出了左边界63和右边界61和底部边界62。对字幕67而言,在底部区域64处是可用的。在该图中,元件的尺寸由1920*1080的显示器尺寸的像素数量指示。对于HD视频,字幕字体的最优尺寸是42线。16 9显示器上示出的1 1. 85的电影内容留下了 17线的空间。缩放该1:1.85以创建两行字幕需要84线,其间带有一些黑线, 这意味着需要大约100线,这需要大约90%的缩放因子。典型地,这对用户而言不会是非常显而易见的,特别是如果所述边界被纹理化为看起来像显示器的边缘。此外,当前大多数平台可以支持任意缩放因子。可替代地,电影区域的缩放可以在创作方处已经完成(以针对单图像(mono)的稍微更小的分辨率为代价)。注意到,在3D视频再现中,另一个严重问题是边界效应。该边界效应发生在具有在屏幕之前的深度的对象上,该对象不完全出现在显示器的帧中而是还出现在边界侧处。 该边界效应在人脑中造成冲突,从而也导致疲劳。边界效应的一个解决方案是创建人工的左边界和右边界(使用2根小的垂直条),其可以在深度方向动态调节以使得剪切对象的邻近边界总是比该剪切对象更靠近观看者。与字幕一样,边界深度也可以基于内容深度/视差动态地调节。在图6中,所述图像区域的缩小允许应用垂直边界61、63以调适边界效应。所述缩小给出2个垂直边界(每个大约85行)的空间,它们可以用于动态地改变黑条(边界)的深度以便避免边界效应。由于已经为字幕创建了空间,所以存在动态深度调节内容的底边的选项。然而,这比左边界和右边界更难。水平移动底部条可以取决于纹理的量工作。然而,对恒定信号(黑条)移位没有任何效果。在具有恒定黑条的屏幕底部处不会存在边界侵犯问题。然而,当该条不仅仅是黑色而是以某种方式纹理化(例如看起来像图6中的木质的),深度调节剪切对象之前的底部边界也变得可能。人工边界(屏幕之外边界)的另一个优点在于,它们还允许观看者将他自己放置在用于观看的锥形的中心的简单和实际的方式。图7示出黑色边界中缩小的图像数据的实例。在显示区域65中,围绕图像数据60 示出左边界72和右边界73以及底部边界71。该底部边界71可用于字幕。在该图中,元件的尺寸由1920*1080的显示器尺寸的像素数量指示。对于不同的屏幕尺寸,比如1观0*720, 可以执行相似的布置。图8示出在视频上字幕和图形的覆盖。该图的左部示出用于具有左视图84和右视图的立体视频输出80的实例。这两个视图基于覆盖3D图像81和辅助图形数据的第一层82、呈现平面和第二层83、交互平面生成。用于图形元素的辅助深度值被如上讨论地确定。图8的右侧示出用于二维(2D)+深度视频输出89的相似实例,其具有2D视图84 和右视图。这两个视图基于覆盖2D图像85和辅助图形数据的第一层86、呈现平面和第二层87、交互平面生成;所述每个层具有对应的深度图。用于图形元素的辅助深度值被如上所讨论地确定并被用于调节所述深度图。
注意到,图8中的模型可以在被扩展为允许控制如图6和图7所示的边界的尺寸和位置和字幕区域的位置和尺寸的蓝光光盘(BD)格式上实现。该BD格式支持多个平面, 其允许内容作者控制视频顶部的图形覆盖。该实施方式如下。在第一步骤中,缩放视频以便为字幕让出空间,例如为至少两行的字幕让出空间。 缩放因子可以在内容作者的控制下。因此,BD规范应当扩展为允许视频的任意缩放因子。 至少7/8的缩放因子应当被支持。在第二步骤中,纹理被加载在存储器缓冲器中。该纹理用于填充将被用于创建如图6所示的滑动窗的侧边界(不是图7中的黑边界所需的)。在第三步骤中,在回放期间,在立体视频的情况下,用于左视图和右视图的侧边界的尺寸被调节,以使得侧边界的视差大于切断(CUt-Off)对象的视差。对于2D图像+深度视频,边界的深度被调节成大于任何切断对象的深度。此外,对于2D图像+深度,被边界遮挡的视频的背景被复制到输出格式的遮挡背景数据层中。对于进入现有视频格式的实施方式,它要求对于1920x1080的视频所述格式利用至少7/8的缩放因子扩展,导致1680x945的目标分辨率。上述步骤可以通过创作工具通过使用呈现图形平面实现。随后,该呈现图形不仅包含字幕,而且包含如下面的图中所示的滑动窗的边界。图9示出缩放视频以便为字幕和浮动窗让出空间。3D图像数据90 (例如主电影) 输入缩放单元92。提供呈现图形平面91,其具有左/右边界和如上所述的用于字幕的底部区域。缩放的视频在组合器93中被组合以提供3D图像数据94。示出3D图像数据的窗口被称为浮动的,因为左边界和右边界以及可选地底部边界被调节深度以适应边界效应。通过该过程,用于辅助图形数据的目标区被选择为不显示图像数据的显示区域,并且相应地减少图像数据的尺寸以适合剩余显示区域。注意到,对于足够宽(例如2. 20:1)的主电影, 向上或向下移动视频以创建黑条并先于缩放视频的步骤是足够的。图10示出主要视频流(1000)左上角的缩放和偏移(1030)的另一个实例,其中字幕在无光泽的黑背景(1010)左下角上,该字幕随后使用混合器(1020)被组合到组合的输出信号(1040)中。当主电影借助流或借助物理介质(比如具有比如蓝光光盘(BD)的盘格式的盘)被传输到播放器时,需要在介质上提供缩放信息和/或移位(偏移)信息。如上文和下文所示,缩放信息和移位信息优选地是在χ或y方向上用于χ和y缩放的缩放因子和偏移。有利地,所述缩放和/或移位信息被存储在表中,该表列出了可在主电影部分期间播放的流(以不同语言表示字幕的覆盖)。该表类似于通过引用合并于此的 IS013818-1 “Information Technology-Generic Coding of Moving Pictures and Associated Audio Information-Part 1 :Systems,,中所限定的节目映射表。在BD格式中,类似的表被称为STN_表。每个流的条目可以被添加以提供每PG (呈现图形)或文本字幕流的不同的偏移和缩放,关于蓝光光盘格式的更多信息,参见例如 http//www. blu-raydisc. com/Assets/Downloadablefile/2b_bdrom_audiovisualapplic ation_0305-12955-15269. pdf,其通过引用合并于此。可替代地,缩放和/或移位信息被存储在下列位置中任意一个或任意组合或所有中
-在播放列表的扩展数据中,其中该播放列表是携带解码并回放如用户从菜单中选择的视听内容的序列的所有必要信息的盘上的数据库。优选地,所述缩放因子和/或偏移信息与字幕-视差信息一起存储。可替代地,缩放因子和/或偏移信息被存储在播放列表扩展数据()中的新条目中,其包含前述偏移和缩放因子。-在覆盖图形流本身中(例如字幕呈现图形和/或文本-字幕流)。更可替代地,移位和/或缩放信息通过其他手段提供,例如移位和缩放因子可以通过存储在盘上且由盘播放器执行的应用(BD-Java或电影对象)确定,该应用将这些数字写入播放器状态寄存器(PSR)中;该播放器的解码和再现引擎从PSR读取值并且将移位和 /或缩放因子应用到主电影,如图9所示。存在许多以数学等价方式表示移位和缩放信息的方式,例如通过指定活动视频的尺寸和/或位置(未被缩放的图像排除了黑条的部分)和图形覆盖的尺寸和/或位置。移位和/或缩放因子的不同表示体现了播放器中处理的复杂性与创作之间的不同折衷。而且, 不同的表示可能对于允许实现如允许用户选择字幕的位置和黑条(顶部对齐或底部对齐) 之类的特征是有利的。而且,由于某些亚洲电影需要垂直取向的字幕,所以必要的是也创建或扩大侧面 (72,73)上的黑条。前述步骤也可以在垂直移位被水平移位扩大的情况下应用,或使用垂直移位取代水平移位时应用。为了确保主要视频的缩放和移位仅在内容作者允许时针对播放器被启用,优选地单独地针对盘上每个覆盖图形流通过流中、盘上或本地存储器上的信息发送所允许的缩放 /移位的存在的信号。一个可能禁止缩放和移位的实例是用于听障者的隐藏字幕,其中文本气球“Slam ! ”仅在覆盖在视频上与可适用字符并置时才有意义。应当注意,本发明可以使用可编程组件在硬件和/或软件中实现。用于实现本发明的方法具有对应于参照图1阐释的3D图像数据处理的处理步骤。尽管本发明已经主要通过使用光学记录载体或互联网的实施例进行了阐释,但是本发明也适用于任何图像接口环境,如3D个人计算机[PC]显示接口,或耦合到无线3D显示设备的3D媒体中心PC。应当注意,在本文中,词语“包括”不排除所列出之外的其他元件或步骤的存在,且元件之前的词语“一”或“一个”不排除多个这样的元件的存在,任何附图标记不限制权利要求的范围,本发明可以借助硬件和软件二者实现,以及若干“装置”或“单元”可以由同一项硬件或软件表示,并且处理器可能地与硬件元件合作可以实现一个或多个单元的功能。而且,本发明不限于所述实施例,而是在于上述每个新颖的特征或上述特征的组合。
权利要求
1.组合三维[3D]图像数据和辅助图形数据的方法,该方法包括 -获得与三维[3D]图像数据一起使用的缩放和/或移位信息,-分别根据缩放和/或移位信息来缩放和/或移位三维[3D]图像数据, -组合缩放和/或移位的三维[3D]图像数据和辅助图形数据,以使得辅助图形数据的至少一部分置于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内。
2.权利要求1的方法,其中辅助图形数据是下列至少一个 -二维字幕信息,-二维子图信息, -三维字幕信息,和 -三维子图信息。
3.权利要求1的方法,其中缩放信息和/或移位信息涉及在显示平面的方向内缩放和或移位。
4.权利要求3的方法,其中缩放信息和/或移位信息不涉及在垂直于显示平面的深度方向内缩放和/或移位。
5.权利要求1的方法,其中缩放信息是缩放因子。
6.权利要求5的方法,其中缩放因子用于在显示平面的χ和y方向上缩放。
7.权利要求1的方法,其中移位信息是在下列至少一个方向上的偏移 -显示平面的水平方向,和-显示平面的垂直方向。
8.权利要求1的方法,其中辅助图形信息完全位于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内。
9.权利要求1的方法,其中由三维[3D]图像数据限定的、未被缩放和/或移位的三维 [3D]图像数据占用的空间区域填充有黑色背景信息。
10.用于组合三维[3D]图像数据和辅助图形数据的3D源设备(10),该设备包括 -用于获得与三维[3D]图像数据一起使用的缩放和/或移位信息的装置,-用于分别根据缩放和/或移位信息来缩放和/或移位三维[3D]图像数据的装置, -用于组合缩放和/或移位的三维[3D]图像数据和辅助图形数据以使得辅助图形数据的至少一部分置于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内的装置。
11.用于组合三维[3D]图像数据和辅助图形数据的3D显示设备(13),该设备包括 -用于获得与三维[3D]图像数据一起使用的缩放和/或移位信息的装置,-用于分别根据缩放和/或移位信息来缩放和/或移位三维[3D]图像数据的装置, -用于组合缩放和/或移位的三维[3D]图像数据和辅助图形数据以使得辅助图形数据的至少一部分置于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内的装置。
12.包括三维[3D]图像数据和辅助图形数据的信息载体,该信息载体进一步包括-缩放和/或移位与三维[3D]图像数据一起使用的信息,以便允许分别根据缩放和/ 或移位信息缩放和/或移位三维[3D]图像数据并且随后组合缩放和/或移位的三维[3D]图像数据和辅助图形数据,以使得辅助图形数据的至少一部分置于由三维[3D]图像数据限定的、未被缩放和/或移位的三维[3D]图像数据占用的空间区域内。
13.组合三维[3D]图像数据和辅助图形数据的方法,该方法包括 -检测3D图像数据中出现的深度值,以及-根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D 显示信号,该3D显示信号用于通过基于辅助深度值组合3D图像数据和辅助图形数据而在显示区域上再现图像内容, 其中-检测深度值包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及-设置辅助深度值包括根据深度模式设置辅助深度值。
14.如权利要求13所述的方法,其中检测关注区域包括检测3D图像数据中的关注对象,并且所述深度模式基于对象的深度值。
15.如权利要求13所述的方法,其中检测3D图像数据中的关注对象基于下列至少一个-相对于未焦点对准的其他图像元素,检测焦点对准的图像元素; -对于图像元素,检测附加的3D数据的量以相对于背景再现图像元素,比如遮挡数据或透明数据;-对于图像元素,检测深度线索,其包括相对于背景的运动、深度、亮度和颜色的差异中至少一个;-检测预定图像元素,比如人脸;-对于图像元素,检测位置线索,其包括定位在显示区域中心附近和具有相对于显示区域的至少预定尺寸中至少一个。
16.如权利要求13所述的方法,其中检测关注区域包括选择用于定位辅助图形数据的目标区,并且所述深度模式基于目标区的深度值。
17.如权利要求16所述的方法,其中选择目标区包括 -将显示区域细分为多个区,以及-检测所述深度模式基于根据取决于目标区的空间滤波函数在空间上滤波多个区的深度值。
18.如权利要求16所述的方法,其中选择目标区包括下列至少一个-选择其中不出现比辅助深度值更大的深度值的图像数据区作为目标区; -选择用于显示辅助数据以使得在目标区中不出现比辅助深度值更大的深度值的时间周期;-选择其中不显示图像数据的显示区域作为目标区,并且相应地减少图像数据的尺寸以适合剩余显示区域。
19.如权利要求13所述的方法,其中确定深度模式包括检测视频内容的多个帧中的深度值,以及根据时间滤波函数对深度值进行时间滤波。
20.如权利要求19所述的方法,其中确定深度模式包括基于检测视频内容的多个帧中的镜头边界设置用于时间滤波功能的时间窗。
21.用于组合三维[3D]图像数据和辅助图形数据的3D源设备(10),该设备包括3D图像处理装置(11,52),其用于-检测3D图像数据中出现的深度值,以及-根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D 显示信号,该3D显示信号用于通过基于辅助深度值组合3D图像数据和辅助图形数据而在显示区域上再现图像内容,其中该3D图像处理装置(11,52)被设置用于-检测深度值,包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及-设置辅助深度值,包括根据深度模式设置辅助深度值。
22.用于组合三维[3D]图像数据和辅助图形数据的3D显示设备(13),该设备包括 -用于显示3D图像数据的3D显示器(17),以及-3D图像处理装置(18,19),其用于 -检测3D图像数据中出现的深度值,以及-根据所检测的深度值自适应地设置用于辅助图形数据的辅助深度值以用于产生3D 显示信号,该3D显示信号用于通过基于辅助深度值组合3D图像数据和辅助图形数据而在显示区域上再现图像内容,其中该3D图像处理装置(18,19)被设置用于-检测深度值,包括检测3D图像数据中的关注区域并且确定关注区域的深度模式,以及-设置辅助深度值,包括根据深度模式设置辅助深度值。
23.用于组合三维[3D]图像数据和辅助图形数据的计算机程序产品,该程序可操作用于使处理器执行如权利要求1-8中任一项所述的方法的各个步骤。
全文摘要
三维[3D]图像数据和辅助图形数据被组合以便在3D显示器(30)上再现,这通过以下方式实现检测3D图像数据中出现的深度值,以及根据所检测的深度值自适应地设置用于辅助图形数据(31)的辅助深度值。在辅助深度值处,该3D图像数据和辅助图形数据基于3D图像数据的深度值被组合。首先,检测3D图像数据中的关注区域(32)。确定关注区域的深度模式,并且根据所述深度模式设置辅助深度值。
文档编号H04N13/00GK102318352SQ201080008100
公开日2012年1月11日 申请日期2010年2月9日 优先权日2009年2月17日
发明者瓦雷坎普 C., 贝尼恩 C., W. T. 范 德 海登 G., 帕尔兰特扎斯 G., C. 塔尔斯特拉 J., 赫尔宾 M., S. 牛顿 P., 菲洛明 V., H. A. 布鲁尔斯 W., 德 哈恩 W. 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1