三维(3d)呈现中的字幕的制作方法

文档序号:7849004阅读:370来源:国知局
专利名称:三维(3d)呈现中的字幕的制作方法
技术领域
本发明涉及准备供立体呈现使用的字幕。
背景技术
在三维(3D)数字电影剧场呈现中,屏幕上的遮挡(masking)可能模糊或侵占在已经显示了字幕或解说词,因此必然要对字幕进行修改,例如字幕在屏幕上的位置和/或尺寸。同样的情形会出现在3D视频显示中,如果内容或原始字幕的全光栅占用比监视器的显示区域大的区域。在这种情形下,在3D中,不仅必须调整字幕或解说词的大小或尺寸和/或针对每只眼睛的图像以协同的方式重新放置字幕或解说词,而且必须存在针对解说词所覆盖的3D内容的处所,使得解说词不会干扰内容中元素的视深度,也不会不适合地一直显示到相对于下层内容的前景中。术语“视深度(apparent d印th) ”是观看者相对于屏幕的感知,这由左眼与右眼图像之间的视差引起。3D呈现通常受限于提供视深度,这是因为对于图像中的相同元素不同位置处的观看者会感知到不同的视深度。在3D呈现中,解说词的“覆盖”或“合成”提供了解说词与关联的图像或内容的组合,以在图像空间内可读地向观看者呈现。这必然模糊一部分图像,其中手动地选择(例如,通过美工或字幕技师)或者在一些情况下自动选择被模糊的图像部分。解说词整体上或部分可以是半透明的。在3D的情况下,字幕通常具有通常以像素度量的指定视差(即,右眼字幕与左眼字幕之间的偏移),使得负责呈现文本的系统可以与3D图像内容一起呈现文本,并且具有在右眼字幕与左眼字幕之间应用的适当偏移,使得正确放置文本和3D图像内容。当右眼和左眼之间的位置偏移为零时,字幕看起来在屏幕的表面。当位置偏移将针对右眼的字幕置于针对左眼的字幕的右侧时,字幕看起来在屏幕的后面。如果针对右眼的字幕在针对左眼的字幕的左侧,则字幕看起来在屏幕的前面。其他人在共同转让的专利申请(例如,Redmann在题为“Method and Apparatusfor Preparing Subtitles for Display” 的公开 PCT 专利申请 W02010/096030 中,以及Izzat 等人在题为 “System and Method for Combining Text with Three-DimensionalContent”的PCT公开专利申请W02008/115222中)中已经描述了用于字幕显示的各种方法和系统。两个PCT申请中的教导的全部内容通过引用合并于此。通常,剧场呈现中的解说词和字幕具有不同意义。例如,解说词是指主音频语言的注释,而字幕通常是除主音频以外的语言。然而,这二者是在主图像上应用文本的实例。由于本发明实施例等同地应用于解说词和字幕,因此这些术语在本讨论中是可互换使用的。
解说词和字幕也经常会面对被‘开启’或‘关闭’。开启的解说词或字幕对于所有观看者可见,并且被‘叠印(burned)’,即成为主图像(例如,用于呈现或显示的图像或内容)的不可分元素。然而,关闭的解说词或字幕不作为主图像的一部分提供。取而代之,结合主图像或内容的显示,通过监视器或投影仪或驱动监视器的机顶盒或服务器的动作来显示关闭的解说词或字幕。在一些情况下,例如,在数字电影呈现中,向字幕或解说词提供针对它们在主图像中的布置的元数据。在其他情况(例如,电视)下,提供不具有布置信息的关闭的解说词,并且布置留给呈现系统负责。大多数电视系统提供关闭的解说词作为由显示设备呈现的文本流。在数字电影系统中,可以提供解说词或字幕作为定时文本,其中可以缺省或明确知道和提供的字体来呈现文本串,或者解说词或字幕可以作为文本的静止帧图像提供。

发明内容
本发明原理的实施例提供一种准备用于立体呈现的字幕或解说词的方法和系统。可以按照不同方式调整字幕,使得字幕可以在给定图像显示区域内显示,而不会被删节或模糊。这样的调整包括通过应用缩放因子来改变字幕的尺寸、在图像空间中平移字幕,改变字幕的视差或视深度或其组合。由于可以通过考虑下层图中图其他对象或元素的视差来进行对字幕的视差调整,因此可以使深度提示冲突(depth cur conflict)最小化,获得改善的立体观看体验。一个实施例提供了一种准备用于立体呈现的字幕的方法,包括根据调整信息来处理字幕,并且将处理后的字幕合成到至少一个立体图像中,以产生用于立体呈现的至少一个变换的立体图像。另一实施例提供了一种准备用于立体呈现的字幕的系统,包括第一处理器,被配置用于根据以下至少一个的调整信息来自动处理字幕缩放因子、平移量和视差变化,并且将处理后的字幕合成到立体图像中,以产生用于立体呈现的变换的立体图像。


通过考虑结合附图的以下详细描述,可以更加易于理解本发明的教导,在附图中图I示出了呈现中屏幕的示例;图2示出了图I场景中3D镜头或合成的左眼视图;图3示出了图I场景中3D镜头或合成的右眼视图;图4示出了通过重叠图2-3的左眼图像和右眼图像而形成的立体视图;图5示出了具有解说词的立体图像,示出了解说词和各种对象的视差;图6示出了从立体图像感知到的3D虚拟视图;图7A示出了解说词被裁剪的立体视图;图7B示出了具有缩小的解说词的图7A立体视图;图8示出了被调整以免裁剪的解说词;图9示出了立体图像,其中解说词位置相对于3D图像中的对象被调整以免裁剪和与深度提示冲突;图IOA示出了图7B的图像的虚拟视图;图IOB是示出了图8和9中两个显示的虚拟视图;图11示出了场景中另一解说词布置;图12示出了解说词被裁剪的图11中的显示;图13示出了被向上平移以免裁剪的图11中的解说词;图14示出了具有调整视差以提供相对于3D图像或内容中对象的视差的特定关系的解说词;图15是示出了图13和14的两个显示的虚拟视图; 图16示出了调整用于具有3D内容呈现的显示的字幕的方法;图17A示出了字幕调整过程的第一实施例;图17B示出了字幕调整过程的第二实施例;图17C示出了字幕调整过程的第三实施例;图17D示出了字幕调整过程的第四实施例;图18示出了两个覆盖区的空白区和参数;图19示出了用于实现本发明原理的实施例的系统。为了便于理解,在可能的情况下将相同的参考数字用于指示附图中公共的相同元件。
具体实施例方式
本发明的实施例提供了一种准备用于在立体呈现中显示的字幕或解说词的方法和系统,包括调整与字幕相关联至少一个参数,使得可以通过显示系统的部件或配置来在给定显示区域中呈现调整的字幕,而不会被模糊或删节。可调整参数可以包括字幕在显示平面中的位置、尺寸或大小,以及相对于显示平面的水平视差或视深度。通过基于字幕下层内容(即,占用相同显示图像区域)中其他对象的视差来调整字幕的水平视差,可以向观看者显示字幕和对象,而不会与深度提示冲突。本发明原理可以使用在数字电影影院设备和视频设备中,例如前端广播或流传输系统以及消费者侧设备,包括电视监视器、机顶盒、DVD播放器、视频录像机、个人计算机、手持显示器(例如视频播放器或智能电话上的手持显示器)、以及其他移动或便携式设备。本发明原理适用于还没有被叠印到主画面或图像内容中的关闭的解说词或字幕(不管是否提供布置信息作为元数据),并且用于连同形成呈现一部分的图像或内容一起显示这些字幕或解说词。在以下讨论中,术语‘字幕’和‘解说词’互换使用,以指代没有按照分布叠印到主图像中的文本或图形。此外,字幕和解说词可以包括无论由终端设备产生还是作为内容流的一部分提供的图形覆盖元素。由终端设备提供的图形覆盖元素的示例包括机顶盒(例如,有线或卫星盒)的菜单、来自DVD播放器的屏幕上显示器、或包括针对回放速度、音量设置或当前频道的指示器的电视控制器。作为内容流的一部分提供的图形覆盖元素的一些示例可以是体育比分、新闻爬行字幕、嵌入式广告、“下时段呈现”通知、广播网络图标等。类似地,可以以如本文描述的相同方式来处理画中画显示元素的布置和视差,并且可以理解为通过参考字幕或解说词包括画中画显示元素的布置和视差。根据本发明原理,根据需要利用尺寸调整实时地定位或重新定位用于3D呈现的字幕或解说词(包括字幕、图形覆盖、画中画元素等),无论在数字电影还是视频中,来适应遮挡或图像大小调整,并且避免对立体图像中的内容(即,对象)的尺寸元素的侵占。备选地,可以在实际内容呈现之前进行对字幕或解说词的调整,并且存储调整后的字幕以供某些未来呈现使用。因此,对于给定图像显示区域或系统配置(例如,如遮挡、图像大小调整或系统相关布置所限定),本方法允许自动调整解说词的位置、比例和/或立体视差(或其组合),以提供具有美感和清晰度改善的解说词和内容显示。存在会干扰适当字幕显示的许多可能的侵扰源或系统配置。例如,在影院中,投影仪可以由于屏幕弯曲、投影角度、不理想镜头大小或调整而超出屏幕的边界,使得显著地缩减了图像空间。屏幕遮挡或幕帘可以侵占投影屏幕的可用区域,或者可以将梯形失真图像 修剪成更具美感的矩形。在另一示例中,家庭监视器(例如,大屏幕电视机)可能对图像进行过扫描(以在全屏幕上显示图像的子集),例如,以免显示内容的边缘或者呈现高分辨率内容而无需重新缩放)。在一些模式中,单独监视器可以扩大纵横比与监视器本身不同的画面,例如,如果纵横比16 9的HD(高清)监视器接收纵横比4 3的SD(标清)节目,因此图像的特定部分被裁剪掉。根据本发明的实施例可以通过调整字幕来避免对正确字幕显示的这种干扰或模糊。与2D和3D字幕或解说词的布置有关的一些背景有助于理解本发明原理的各个方面。存在指定2D解说词的布置的不同方式。在一个示例中,可以指定边界框(例如,根据显示轴取向的最小尺寸矩形,用于包围感兴趣的对象或项目),如解说词的总体高度和宽度以及位置(例如,边界框的左上角)所限定。如果没有指定边界框,则可以呈现解说词的文本,并且确定边界框。如果没有指定位置,则位置缺省为预定值(例如,屏幕底部的10%并且以左到右的中心)。这样的布置惯例是公知的并在标准中公开,例如,SMPTE429-5-2009 D-Cinema Packaging-Timed Text Track File 以及由 the Society of MotionPicture and Television Engineers, White Plains, NY 公开的现有技术;MPEG_4Part17 text based subtitle format for MPEG-4,2006 年公开为 IS0/IEC14496-17 ;以及 the Synchronized Multimedia Integration Language (SMIL)produced by theinternational community of the World Wide Web Consortium (W3C), with offices inCambridge, MA,提供的最新文本是 version 2· 0 ;或在文件格式 Substation Alpha (. SASfiles)由同名旧产品使用,CL Low创建;以及Advanced Substation Alpha格式(从· SAS格式导出的· ASS 文件)as used by the Aegisub subtitle editor (among others)promoted by a development community at the Aegisub website (www. aeRisub. orR)。代替边界框,更精确的描述是2D解说词的“最小覆盖区”,是包括光栅化解说词所有像素的集合的区域(在光栅化解说词空间中,不在显示空间中),光栅化解说词具有对完全显示图像的非零贡献(即,既不完全透明也不被遮挡,或者离开屏幕)。对于本发明而言,可以提供2D解说词的“覆盖区”作为边界框(即,完全封闭解说词所有像素的矩形)、上述最小覆盖区区域、或者实质上包括最小覆盖区区域的其他几何图形。3D解说词的布置类似于2D解说词的布置,除了与解说词的右眼呈现与左眼呈现之间的水平偏移或水平视差或距离(例如,可以由像素数目、屏幕宽度百分比或距离单位等表示)相对应的附加参数以外。这可以作为单个值提供,单个值表示右眼解说词与用于对应2D解说词的布置位置或参考位置的偏移,其中左眼解说词取符号相反的偏移(S卩,自2D布置位置沿着与右眼解说词方向相反方向放置)。备选地,单个值可以表示右眼解说词与左眼解说词之间的距离,其中根据2D解说词布置信息放置左眼解说词。在本讨论中,使用后一种呈现,尽管两种呈现同样有效,并且可以使用简单算术从一个呈现转换到另一个呈现,以调整水平布置值。为了设置后续附图的上下文,图I示出了来自呈现的代表场景,例如,以下进行讨论的后续镜头的花园中的场景。花园场景100示出了在前景中站在一组花园大小的国际象棋棋子102 (包括一个特定国际象棋棋子,车)中间的演员103。在演员103后面是树104。大约相同距离但后退到右侧是灯105,并且还有建筑物106。图2-15中所示的花园场景100 的镜头拍摄自图I中呈现的有利位置略微向右的位置。图2和3表示来自花园场景100的镜头或合成的立体图像对,其中图2示出了左眼图像200,图3示出了右眼图像300。每个图像200或300包括来自花园场景100的各个单独对象的记录图像,使得花园场景中的每个对象在左眼图像和右眼图像200和300中具有对应的记录图像。为了避免来自场景100的对象图像与立体图像200和300之间的潜在混乱,立体图像也可以被称作左眼合成200和右眼合成300,因此,演员103具有对应图像103L和103R,车101具有对应图像IOlL和101R,树104具有对应图像104L和104R,灯105具有对应图像105L和105R,并且建筑物106具有对应图像106L和106R。图4是由图像200与300的重叠形成的立体视图,其中,左眼图像200如虚线所示,使得示出了左眼图像和右眼图像(200,300)之间的立体视差或位置偏移。在图4中示出了若干视差。例如与车101相关联的车视差401 (例如,根据右眼车图像和左眼车图像IOlR和IOlL的对应垂直边缘之间的分离所测量的)大约为水平-40个像素,其中当右眼图像在左眼图像右侧时度量为正。在车101的情况下,由于右眼图像IOlR位于左眼图像IOlL的左侧,因此聚焦在车101上的观看者眼睛在示出了该立体对的显示器(或屏幕或监视器)的前面会聚,即车101出现在显示器的前面。演员视差403大约为-5个像素,如在演员的衣袖处测量的,这略微在屏幕平面的前面。树图像104L和104R呈现大约+40个像素的视差,其中右眼图像104R在左眼图像104L右侧。因此,树104对于观看者而言出现在显示器或屏幕的后面。灯105以图像105L与105R之间大约+45个像素的视差405出现,并且建筑物106以106L与106R之间大约+60个像素的视差406出现,每一个出现的距离比树104更远。图5示出了立体解说词510相对于图4的立体视图的期望布置。立体解说词510包括右眼图像510R和左眼图像510L,在解说词的左边缘处具有大约-7个像素的解说词视差511 (针对解说词的其他部分测量的视差511’和511”也彼此相等)。该解说词的覆盖区(无论边界框还是更紧凑的非空区域)在针对右眼解说词图像510R的水平位置512和针对左眼解说词图像510R的水平位置514处具有最左边缘。对于平直出现的解说词(迄今为止最普通的意图),解说词视差应当在解说词宽度上一致或恒定,例如,在‘B,处的视差511,在下方‘t’处的511’以及在‘ss’处的511”。通过改变解说词视差,解说词可以沿深度方向以透视或弯曲方式出现,但是这是罕见的。如图5所示,左眼解说词图像510L的最左边缘514位于右眼车图像IOlL的最右边缘515的右侧。因此,车101与解说词不交叠或交叉。如本发明原理的讨论中使用的,解说词(或其覆盖区)与图像的交叠或覆盖是指图像空间中(例如,在χ-y坐标空间中)的交叠,而不是沿着深度方向的交叠。右眼车图像IOlR的最右边缘513与左眼解说词510L的最左边缘512之间的间隙更明显。这是美学偏好的问题,以免在视差比解说词小的对象上显示解说词(具有较小视差的对象与具有较大视差的另一对象相比看起来更接近观看者)。换言之,优选地不使更远离观看者的解说词(具有更大视差)与更接近观看者的对象交叠。避免这种覆盖的原因在于,对于观看者而言,观看者对破坏3D效果感知的立体信息存在差异。从目前的观点看,这导致混乱并且在较长时间段产生疲劳。图6是左眼611和右眼612观看具有解说词510的立体图像500的观看者610所感知的3D图像或场景的虚拟视图。(图6是被称作虚拟的是因为该视图实际上不能从该有利位置观察到)。对于观察者610而言,立体车视差401引起在示出了立体图像500的屏幕 前面感知到车图像601。演员图像603 (具有偏移或视差403)略微在屏幕前面,其中解说词510正好在演员图像的前面。树视差404、灯视差45、建筑物视差106分别产生对在屏幕后面的递增距离处的对应图像604、605和606的感知。尽管在图6中作为平面示出了与不同对象相对应的图像,但是实际上,观看者610应当将在与相应视差相对应的不同距离处的对象图像601、603、604、605和606感知为3D。图6示出了针对具有相应视差401、403、404、405和406 (还参见图4)的对象的感知3D位置。每个对象的感知位置有从左眼611和右眼612追踪通过参考点(在参考点处,针对给定对象测量视差)的相应光线的交叉点所指示。通过参展图7-15讨论根据本发明的准备用于立体呈现的字幕或解说词布置的不同情形和方法。示例 I图7A是示出了具有解说词510的立体图像对500 (即,与左眼图像和右眼图像重叠的立体视图)在区域700中被裁剪或遮挡或模糊的情形。可以导致这种模糊区域700的一个示例是影院遮挡(例如,结合图IOA讨论的遮挡1020)。在图7A的呈现中,从视图上解说词510的实质部分被模糊的区域700遮挡,这损害了观看者对放映的体验和享受。图7B示出了图7A中的立体解说词510被立体解说词710代替的字幕显示(也可以被称作字幕校正或调整)的第一实施例,立体解说词710包括右眼解说词图像和左眼解说词图像710R和710L,分别是右眼解说词图像510R和左眼解说词图像510L的缩小版本。针对图像710R和710L的缩放因子相同,并且选择这些缩放因子以确保生成的解说词图像不被区域700模糊。对于本实施例,将解说词视差711设置为与解说词视差511相同,使得立体解说词710保持与解说词510相同的深度。此外,立体解说词710的覆盖区的最左边缘715 (例如,对应于字母“B”的左边缘)与最左边缘515相同,因此确保立体解说词710的边界框覆盖区落在立体解说词510的边界框覆盖区内,并且因此不会干扰任何其他对象的深度感知。图IOA示出了图7B中所示的通过缩放产生的字幕的虚拟视图1000A,其中缩放的解说词710出现在图6中看到解说词510的相同位置,但是由于减小了对解说词710的缩放,因此影院遮挡1020(或幕帘)不会模糊解说词。解说词710保持与解说词510相同的视差,并且从而保持距离屏幕相同明显距离。该提供缩放的立体解说词710的方法的一个可能缺点在于,解说词510的原始覆盖区和模糊区域700的一些组合需要使得立体解说词710无美感地较小的缩放因子,或者可能导致没有解决方案(即,如果解说词510的原始覆盖图完全在模糊区域700内的话)。如果没有找到解决方案,或者针对立体解说词710的缩放因子小于预定值,则应当选择不同的校正或方法(以下讨论这些方法中的若干方法)。在另一实施例中,可以评估若干校正或正确动作,并且如下所述选择最佳得分的一个来使用。示例 2在字幕显示的第二实施例中,如果在立体解说词510的覆盖区与模糊区域700之间存在任何交叠或交叉,则将立体解说词平移或位移(即,移动)了特定距离,以免模糊区域700删节解说词。然而,立体解说词510向右的简单平移可能导致解说词510覆盖或与 车101的立体图像交叠(B卩,当解说词和车图像占用显示平面中的相同x-y坐标,或者在2D图像空间的相同区域)。由于车具有小于解说词视差511 (即,与解说词相比,车视差是更大的负数,并且因此车看起来比解说词更接近观看者1010)的视差401,因此这产生深度提示冲突或矛盾,其中解说词510看起来与车101交叠,并且还具有指示其在车后面的视差。在这种情况下,解说词的视差还可以被调整为与最近的交叠对象(在这种情况下,是具有视差401的车101)的视差相比更小(例如,更接近观看者,这可以是幅度更大的示出,但是符号为负)。因此,在图8中,立体呈现800包括立体解说词810,立体解说词810由右眼解说词810R和左眼解说词810L (如虚线所示)组成,右眼解说词810R和左眼解说词810L相对于解说词510的覆盖区水平向左平移了足以保持模糊区域700空白的量。选择小于或等于车视差401的解说词视差811,因此使解说词810看起来在车101前面或者在与车101相同的视深度。图IOB示出了与图8相对应的虚拟视图1000B,其中解说词810具有经修改的位置和视差。通过将图IOB与图6相比较,可以看到解说词810的解说词布置和视深度相对于解说词510的原始布置和视深度的变化。解说词810相对于解说词510的平移的一个选择是确定解说词510的垂直中心线应当出现在屏幕宽度的什么部分(在图5中这是自呈现500的左边缘的大约60%),并且再次应用呈现的空白部分内的百分比,即,将百分比重新计算为空白区的百分比,如所示。另一选择(未示出)是选择平移的解说词将模糊区域清除了预定量所需的最小距离。该选择引起左眼图像810L(虚线解说词图像)的最右边缘(在‘ss’处)刚好将模糊区域清除了预定量(即,最小释放(relief)值或阈值)。在一些情况下,选择的平移或位移值可能引起解说词跨过呈现或显示的图像/内容的相对边缘,使得超过空白区的相对边缘平移的解说词的部分变得模糊。如Redmann的W02010/096030所教导的,该解说词位移产生‘相对边缘侵犯’,这需要缩小解说词的比例,以免跨过任一边缘,这是由于仅平移不能避免字幕的删节和裁剪。在这种情况下,确定要应用于解说词的缩放因子还应当考虑视差如何变化可以增加或减小覆盖区。在这种情况下,使解说词的宽度最小化而同时保持预定最小释放值‘I·’的缩放因子由方程I给出
Γ , (H、. - DiV卜 2r)tQ. I . = ■ - .............................................其中,‘s’是缩放因子,是Wa是未模糊区域的可用宽度,Dn是新视差(在这种情况下,解说词视差811),Wtj是原始宽度(即,针对任一个眼睛的解说词宽度,即,解说词图像5IOR或510L),并且DtJ是原始视差(在这种情况下是解说词视差511)。如果‘s’大于或等于1,则不需要缩放,并且可用宽度足够。但是如果‘s’小于1,则必须将解说词的右眼图像和左眼图像中的每一个缩小因子s倍,结果立体解说词插入到可用宽度中在任一侧正好最小释放值。缩小(或调整)的解说词的宽度Wn由方程2给出EQ. 2 ffN = SXff0 可用建立针对此类校正的美感实用函数以包括缩放因子‘S,的值(如果不需要缩放,则缩放因子‘S,被设置为1),以及视差变化的幅度IDtrO1J或有符号的视差变化(D0-On)。出于本讨论的目的,美感实用函数用于对与特定解说词布置或调整相关联美感质量的选择进行量化或合理化。该函数可以采取任何形式,通常受特定边缘条件的约束。在本发明的上下文中,函数或方程包括诸如缩放因子‘S,和视差变化‘d’等参数。函数可以基于经验度量,并且在许多情况下,根据有根据的推测或者来源组合,以创建“实用度量”,例如与原始解说词布置的美学偏离的度量(因为由具有艺术能力的人所创建,因此可能被视为“理想”)。在给出解说词缩放和/或位移的若干可能性的情况下,实用函数可以提供对最不能引起反感或最佳可用选择的度量。理想地,相同的实用函数能够用于解说词重新定位的所有可能变型,但是不必是这种情况。然而,如果针对不同解说词操作来创建不同度量,则需要确定两个可能位移中的哪个是优选的或者同样可接受的机制。较大的视差变化可以引起“难以观看”呈现810,这对于观看者没有吸引力,因为解说词810在感兴趣对象(在这种情况下,是演员103)的图像前面较远处。呈现500中解说词的原始艺术意图在于将立体解说词510正好放在演员103的立体图像前面或者接近该立体图像,使得在读取解说词510与演员103之间几乎不存在观看者眼睛会聚的变化。示例 3在针对字幕显示的第三实施例中,对另外删节字幕的校正涉及避免立体解说词510的覆盖区与模糊区域700之间的交叉或交叠。这可以通过平移立体解说词以不仅避免模糊区域700而且还避免包含视差小于解说词的对象(即,接近观众或者在解说词前面出现的对象)的区域。一种方法是跟踪空白区,首先,从与图像500相对应的区域中扣除模糊区域700,然后从空白区中去除具有视差小于解说词的视差511的对象的所有区域。这可以可以通过以下来实现创建或获得用于立体图像500的视差图并且将视差图中的每个位置与视差511相比较,从而对视差图进行二值化。例如,向视差等于或大于视差511的位置分配第一值,并且向视差小于视差511的位置分配第二值。如果按照策略,存在最小释放值‘r’,通过该最小释放值‘r’解说词清除接近对象(例如,车101),则二值化的视差图可以被‘r’膨胀(dilation),以膨胀接近对象区域(膨胀是与二值图像一起使用的普通图像处理函数,其中真值像素的范围‘r’内的任何假值像素被设置为真。这类似于围绕车101添加后的‘I·’的环状物,并且出于解说词布置目的考虑模糊区域700的等同物)。可以从空白区中去除生成的二值化视差图和模糊区域700。在备选实施例中,从与图像500相对应的区域中减去前景车101和模糊区域700所占用的区域,以获得空白区,然后该空白区被最小释放值‘r’被腐蚀以根据策略来精炼空白区(利用腐蚀,将假值像素的范围r内的任何真值像素设置为假)。在图9中示出了该校正的结果,其中已经平移或位移了解说词910,以免与模糊区域700和接近观众的对象车101交叠。解说词910的右眼图像910R和左眼图像910L之间的视差与原始视差相同。因此,解说词910避免模糊区域700,并且通过保持车101为空白,还避免与深度提示冲突。此外,如原始选择的解说词910保持在相同视深度,从而保持至少一些原始艺术意图。在图IOB中的虚拟视图1000B中示出了图9中位置修改了的解说词910 (并且还示出了以上描述的解说词810)。通过将图IOB与图6相比较,可以看出解说词910的解说词布置和视深度相对于解说词510的原始布置和视深度的变化。为了确定足以将至少一部分模糊解说词(例如,510)完全放置在空白或安全区域 (例如,立体图像90的区域扣除了模糊区域700和包含车101的区域)的最小或近似最小平移或位移,可以使用以下过程。对于空白区中的每个像素,确定解说词(如果位于该像素处)的覆盖区是否完全位于空白区内,其中,覆盖区“位于该像素处”,覆盖区中的每个像素位于空白区内。当解说词的覆盖区被称作位于像素处时,这意味着该像素用于确定覆盖区的位置。一种可能选项是使用像素来限定边界框的左上角位置。另一选项是解说词质心的位置(或者边框质心的位置,可以是相同度量)。对于覆盖区内与空白区外部的像素交叉的每个像素(即,覆盖区超出空白区或者在空白区外部扩展),计算最大缩放因子,使得具有相同位置的缩放覆盖区与像素不交叉,并且对于位置注释也计算最小缩放因子。在备选实施例中,并不检验空白区中的每个像素,而是可以稀疏地或者仅针对一些像素进行位置检验。例如,可以检验每第10行中每第10个像素的光栅,或者可以使用Monte Carlo方法来评价空白区内的随机点。与该第三解说词重新定位方法一起使用的实用函数可以基于重新定位或新的解说词位置与原始解说词位置之间的距离以及缩放因子。再多几个像素的新位置远离原始位置,但是不需要缩放,这与需要解说词收缩10%的略微近的位置相比可能是更好的选择。实用函数认为垂直位移比水平位移成本更高并且不令人期望。空白区上实用函数的评价(即,针对空白区中的每个像素或选定像素完全或稀疏地进行评价)产生对于重新定位的解说词910而言最小值是优选选择的梯度。由于对点进行采样,并且坡度逐步发展,因此更高级搜索策略可以使用发展坡度来集中在分数高的区域,从而优化选择,而不会局限在局部最小值。在类似方法中,可以从空白区中扣除图像的显著区域(例如,具有重要特征)。例如,重新定位解说词910使得覆盖了演员103的脸部,这是不好的呈现,因为演员的脸部通常定义了图像的显著区域。类似地,如果存在在背景中进行的动作的特定重要细节,则重新定位字幕导致该动作被隐藏是不好的选择。为此,可以从空白区中扣除显著区域(例如,以Le Muer等人在专利申请US 2009/0110269中较大的方式检测到的那些显著区域)。这样,以同样的方式将图像的显著部分视为模糊区域(例如,700),或者比解说词更近的对象(例如,车101)。US 2009/0110269主旨的全部内容通过引用合并于此。在备选实施例中,在候选位置被解说词的覆盖区覆盖的显著图(例如,如Le Muer等人所教导的)可以累积,并且应用于针对该位置的实用函数。这样,在其他条件都相同的情况下,与覆盖不显著和/或更少像素的不同解说词位置相比,覆盖或与更多显著像素交叉的解说词位置接收较差的实用值。注意当在某位置处确定对象或显著区域的像素与解说词的像素之间的交叉或交叠时,在左眼图像对象与左眼解说词图像(例如,图5中车IOlL和解说词510L)之间进行第一比较,并且在右眼图像对象(例如,101R)与右眼解说词图像(例如,图5中的车IOlR和解说词510R)之间进行第二比较。备选地,在解说词的覆盖区(包括左眼解说词图像与右眼解说词图像的合并)与针对左眼和右眼的空白区交叉之间进行比较。例如,可以通过消除前景中的所有对象(即,生成的空白区排除对象所占用的区域),仅针对右眼计算空白区。然后,通过排除针对左眼图像的对象所占用的区域,针对左眼进行同样的计算。“空白区的交叉”是在左眼和右眼的空白区中的那些像素。在另一实施例中,可以仅针对一只眼睛进行比较,S卩,将左(或右)眼图像与左 (或右)眼解说词相比较,期望空间相干性不会产生实质上不同的判定。(空间相关性在这里是指以下概念如果左眼图像示出了不会影响解说词的良好平滑表面,则另一只眼睛图像不可能呈现完全不同的轮廓,并且如果呈现了完全不同的轮廓,则这也是很少发生的)。如果对最小释放值的正确选择可以实质上确保不会发生对显然更近对象的干扰,上述选择特别有效。为了获得这种保证,在多数情况下,足以将最小释放值(或者对象与解说词之间的最小分开)应用于对象的仅一侧,该侧也与所考虑的对应眼睛图像同侧(即,当考虑左眼图像时,最小释放值可以应用于所讨论的对象图像的仅左侧)。备选地,该最小释放值还可以应用于解说词图像的左侧。为了策略或艺术的意图,可以指定解说词与该最小释放值相比不那么接近对象。在一个实施例中,这可以由视差(例如,1/2个像素或I个像素)表示,使得即使在其最近布置处,解说词看起来也与其上放置了解说词的下层对象分离。视深度(或者与χ-y图像平面相对的ζ方向)的这种分离由根据最小释放值设置的解说词视差产生。在图11-13中还示出了该解说词布置方法,其中图11示出了另一种呈现1100,其中具有右眼解说词图像11IOR和左眼解说词图像1110L的解说词1110具有大于车视差401的立体视差1111。通过将解说词1110定位在车101前面,可以避免解说词与车之间的视深冲突。类似于图IOB中的解说词810,接近车101放置解说词1110,并且在屏幕前面的较远位置处。图12示出了模糊区域1200剪裁解说词1110的一部分从而损害呈现1100的示例。这一点在图13中通过将解说词1110定位到不会引起对解说词的任何裁剪或遮挡并且避免覆盖视差比解说词和任何显著区域更小的任何对象(例如,演员103的脸部)的位置来纠正。因此,呈现1300示出了包括右眼解说词图像1310R和左眼解说词图像1310L的解说词1310,解说词1310是解说词1110的重新定位版本,即,向上平移以避免模糊区域1200,但是没有远到足以覆盖演员的脸部。保持解说词1110的原始视差1111作为图13中的视差1311,使得解说词1310仍出现在屏幕前面的较远位置处。示例 4图14示出了根据图13的解说词进一步调整解说词1310的视差的呈现1400。具体地,已经针对最小视差检验在解说词1310的覆盖区以下或者覆盖解说词1310的覆盖区的呈现或图像内容(即,识别覆盖解说词的覆盖区的最接近观众的对象),并且在找到最近对象时,将解说词的视差增加达到最近对象的视差(即,将解说词移到离观众更远的位置)。因此,如果之前将字幕或解说词向前置于较远位置以免深度提示与不再看得见的对象冲突(例如,置于车101前面的解说词1310,现在会被模糊区域1200隐藏),则远离字幕所覆盖的最近对象移动字幕,但是不要太远,因为这会产生深度提示冲突。这防止解说词在其他对象前面被完全“孤立”,否则这会导致难以观看到呈现1300。因此,利用力视差1411设置包括右眼解说词图像1410R和左眼解说词图像1410L的解说词1410,立体视差1400与演员103的图像的视差403相同或略微小。备选地,如上所述可以将解说词推送回到相对于覆盖的最近对象不比预定的“最小释放值”近的位置。图15示出了呈现1300和1400的组合虚拟视图,其中,仅将解说词1110向上平移以避免图13中的模糊区域1200引起解说词1300看起来完全浮在最近对象图像(即,演员图像603)前面。(注意最初将解说词1310定位在前面较远位置处以免与先前最近对象(车图像101)的深度提示冲突,该车图像101现在被遮挡1520模糊)。不让解说词1310在前面较远位置处,解说词1310的视差增加(使得成为更大的正数)以类似于下个最近对象的视差,如以上针对图14描述的,引起解说词1410在深度上看起来接近演员603。然而,解说词视差应当不超过下个最近对象的视差,在一些实施例中,与最小释放值相比不接近解说词所覆盖的下个对象。以下对上述用于调整解说词的示例进行总结I)在位置上缩放解说词,而不改变解说词视差(当不存在与任何对象的深度提示冲突时);2)利用可选的缩放平移解说词,以避免模糊区域,但是减小视差(接近观看者一定解说词)以免与对象的深度提示冲突;3)利用可选缩放平移解说词,以避免模糊区域和深度提示冲突;以及
4)利用可选缩放平移解说词,以避免模糊区域,并且如果在下个最近对象前面太远位置则增加视差(远离观看者移动解说词)。图16示出了根据本发明原理实施例的准备用于显示的解说词的方法。该过程包括重新定位或重新布置一个或多个解说词,使得完整地显示每个解说词,而不会被剪裁或遮蔽,例如,就好像可以由于缩减的图像区域而出现,就好像当图像的部分变得被剪裁或遮蔽时。方法1600在步骤1601开始,在步骤1601中确定呈现系统和关联的设置(例如,特定观众席或显示器,以及设置,相应地例如影院遮挡或图像拉伸和/或裁减)。在步骤1602中校准呈现系统及其设置,以识别整个图像区域的哪个区域被模糊。Redmann 在 PCT 公开申请 W02010/096030 “Method and Apparatus for PreparingSubtitles for Display”中详细地讨论了这样的校准技术。例如,一个校准过程包括将坐标网格投影到屏幕上,并且指出观察到的最接近屏幕角的最外坐标。这些角坐标内部的区域限定空白的投影图像区的区域,而这些角坐标外部的区域从视图上看被模糊。通常针对立体操作模式中的任一只眼睛进行校准,或者在2D中,通过禁用立体操作。然而,在特定不经常情况下,需要为每只眼睛单独产生校准,例如,如果从实质上不同的点投影右眼和左眼立体图像,因此潜在地具有实质上不同的模糊区域。同样可能的是,投影仪或显示器具有针对右眼图像和左眼图像中的每一个具有不同的水平偏移(即,水平会聚有缺陷,或者已经被有意改变),则两只眼睛图像在两侧实质上以不同方式被剪裁。校准的结果是在呈现系统上建立图像的空白或非模糊区,呈现系统可以是特定观众席中的投影屏幕或者家庭娱乐系统或其它观看设备中的监视器。通常对于右眼图像和左眼图像中的每一个空白区是相同的,但是如上所指出的,在一些情况下,空白区对于右眼图像和左眼图像而言不同(例如,当投影仪在物理上分开投影两个图像时)。如果使用方法1600以在电影或呈现播放时实时地改变解说词的位置,则在步骤1603处开始呈现。如果不与放映或呈现同时实时地使用方法1600,则例如通过检验包括要在后续时间播放的内容的文件来在步骤1603处进行对解说词的预处理。然后根据以下描述的后续步骤来处理这些文件的解说词或字幕。在步骤1604中,检验内容文件中的字幕或解说词,或者在整个呈现期间实时地进行。在步骤1605中,进行比较以确定解说词的覆盖区是否延伸到根据步骤1602获得的空白区之外。如果对于右眼图像和左眼图像而言存在单个空白区,则在两个分开步骤中进行 比较,针对右眼和左眼解说词图像覆盖区中的每一个进行一个比较;或者在一个步骤,将右眼和左眼解说词图像覆盖区的合并或组合与空白区相比较。如果针对左眼图像和右眼图像的空白区不同,则一种实现方式是分别针对每个眼睛图像跟踪空白区,并且针对每个空白区分别比较解说词的覆盖区。另一种实现方式可以将左眼解说词和右眼解说词的组合覆盖区(即,覆盖区的合并)与左眼和右眼空白区(即,空白区对于两个立体图像是公共的)的交叉相比较。后者更精确,后一种选择的各种组合可以更经济,还完全适合。备选地,还可以将空白区与两个解说词图像覆盖区之一相比较,加上扩展的覆盖区部分以说明相对于另一眼睛的解说词图像的视差或偏移。如果比较示出了解说词(覆盖区)完全位于空白区内,则通过将解说词覆盖或合成到图像来继续处理,如以下讨论的步骤1609中所示。否则,可以在步骤1606中执行一个或多个解说词或字幕调整过程。可以提供四个示例性字幕调整过程(例如,图17A-D中分别示出的过程1700、1710、1720和1730)中的一个或多个以在步骤1606处使用。在该实施例中,每个过程还返回质量评价,例如,可以在步骤1607中使用以确定特定字幕调整过程的结果是否可接受的实用函数。在以下描述中,步骤1606中的每个解说词调整过程返回计算的实用函数,该函数表示可用性的经验评价和调整的字幕的美学质量。如果实用函数大于预定值(对于不同过程可以相同或不同),则调整是可接受的并且可以应用在步骤1608中。否则,在步骤1606处尝试另一字幕调整过程。在一个实施例中,可以选择步骤1606中尝试或评价的字幕调整过程的量级以使找到适合或可接受的结果的期望计算成本最小化。例如,如果期望每个字幕调整‘a’提供具有可能性或概率‘P(a)’的可接受结果,并且尝试调整的期望计算成本为‘c(a)’,则根据c(a)/p(a)的增加比的量级(这实质上表示每单位成功机会的成本)来评价各个过程通常提供最小期望成本。评价这些过程的量级可以基于经验证据或现有经验,并且还可以基于特定场景中的结果自动改变。这假定每个P(a)独立于针对‘a’的其他值的成功或失败,SP,如果一个方法不能产生令人满意的结果,那么也不会影响其他方法的概率。在另一实施例(未示出)中,在步骤1606尝试或评价字幕调整的每个方法,并且将返回的美学实用函数值彼此相比较(而不是如在步骤1607中与预定的‘足够良好’值相比较)。这提供了最佳的可用调整,但是始终具有最差情况的成本。如果选择仅一个解说词调整过程在步骤1606中使用,则省略步骤1607(这是因为不存在比较的其他备选过程)。在步骤1608处对字幕进行调整之后,或者如果在步骤1605中确定了字幕在空白区内(并因此不需要调整),则在步骤1609处将立体字幕与立体图像合成。如果方法1600在内容呈现期间实时地执行,则将字幕合成到图像中,并且呈现生成的合成。如果过程没有实时地进行,则将字幕合成到与其相关联的立体图像中,以产生经变换的图像,并且将结果(例如,作为被合成到相应图像中的一个或多个数据文件字幕)存储在一个或多个存储器设备(未示出)中以供后续使用。在步骤1610处,如果确定不存在多个要检查的字幕,则方法在步骤1604处重复。否则,在步骤1611处完成调整方法。图17A-D示出了不同的过程或方法,这些过程或方法例如可以在步骤1606中用 于调整字幕或解说词以适合为了图像显示而缩减的空白区,使得生成的字幕可以完整地显示,例如,不会被遮挡或裁剪。方法I图17A示出了用于原地缩放解说词调整的过程1700。术语“原地”意味着不存在对超出器原始覆盖区的解说词的平移或布置。在步骤1701处发起该过程,其中初始条件是原始解说词的覆盖图没有完全包含在空白区(例如,如根据系统校正所确定的,例如,图16中的步骤1602)中。在步骤1702处,将新的覆盖区设置为等于原始覆盖区与空白区的交叉。在步骤1703处,确定缩放因子以应用于原始覆盖区的高度和宽度,使得充分缩减缩放尺寸以适合新覆盖区。在不同实施例中,缩减的解说词可以保持原始覆盖区的纵横比(即,针对高度和宽度使用相同的缩放因子),或者可以允许纵横比在限制量内变化。例如,在对覆盖区进行跟踪并且与其边界框比较的实施例中,覆盖区的原始高度为Htj且宽度为\的解说词在与空白区交叉时产生高度Hn和宽度Wn的新覆盖区。注意可以将边界框视为“充分大”类型的覆盖区。“恰好覆盖区”精确地是被解说词文本(例如包括阴影或光圈效应)改变的那些像素,而不会是其他像素。扩大的覆盖图是将恰好覆盖图膨胀了 r (最小释放值)。通常,覆盖图可以是复杂、不连续、不连贯的区域。覆盖图的边界框版本简化了计算,并且通常产生相似的结果(尽管可能是不同的结果)。图18示出了空白区AB⑶,原始覆盖图WXYZ,新的覆盖图WXY’ Z’,及其相应参数。在这种情况下,Wtj = WN。可以将简单缩放因子(通常由‘S,表示)确定为更低或更小的高度比Hn/U(或sH)以及宽度比WnZX(或sw)。由于‘s’用于缩小解说词的比例,因此‘s’小于或等于I。针对右眼和左眼解说词图像中的每一个重复该计算,以用于整个呈现。备选地,可以基于右眼和左眼解说词图像边界框来计算缩放因子,但是当高度比保持相同时,宽度比变为(Wn-IdqI)/(wq-|dq|),其中,Dq表示对象的视差(例如,针对车101的视差401),因为要用于该方法,保留右眼图像与左眼图像之间的原始视差。如果要保留解说词的纵横比,则在步骤1704处对高度和宽度使用相同的缩放因子‘s’来缩放解说词。然而,如果允许以变量‘V’改变纵横比,在一个示例中,可以将该变量预先确定为30% (V的值是策略问题,尽管实际上值2(200%)变得难以读取),则可以将经缩放的解说词的其他轴(相对于比值或缩放因子较小的轴)的比例从‘S,增加到s(l+v),其中s(l+v)具有最大值I。例如,如果从整体上看需要将解说词的宽度收缩到50% (s =O. 5),则这不一定意味着必须将高度缩放相同量。变量‘V’限制允许高度保留像现在这样的程度(如果V = 0,则将高度缩放到恰好为宽度)。然而,不期望使缩放的高度超过(即,大于)其原始值,因为这增大了覆盖区,并且可能引入负面美学效果。作为示例,假定立体解说词原始总共为500个像素宽(即,包括右眼和左眼解说词图像),并且50个像素高,其中视差为20个像素(备选地,右眼和左眼解说词图像分别为480个像素)。从而,W0 = 500, H0 = 50,并且Dtj = 20。在特定呈现环境中(例如,在步骤1601处建立的呈现环境),假定在步骤1602处确定的空白区将该特定解说词的原始覆盖区水平裁剪了 100个像素,而在垂直方向没有裁剪,以产生Wn = 400,且Hn = 50 (未改变)的新覆盖区。这产生 Sff = (Wn-D0)/(W0-D0) = 380/480,或者近似 O. 79,以及 sH = HN/H0 = I。如果针对缩放的解说词保留原始纵横比,则针对解说词的高度和宽度而选择的缩放因子是
0.79。然而,如果允许纵横比变化高达V = 30%,则针对高度的缩放比应当高达O. 79*(l+v)或者大约I. 03,根据以上约束(即,不会将高度缩放到超出其原始值),该缩放比会固定值
1.O。如果空白区将该特定解说词的原始覆盖区水平裁剪了 200个像素(而不是100个像素),则应当sw是280/480 = O. 58(大约),并且8[1应当高达O. 58* (l+ν),或者大约O. 76。注意保留了解说词的原始纵横比的情况与设置V = 0%相同。为了应用该子.调整,如在步骤1703中所确定的将原始子.缩放了 Sj^PsH。向缩放的解说词应用平移,以确保该缩放的解说词完整地位于新覆盖区内,因此完整地显示,即不会被裁剪。对于这种平移的良好选择是使字幕位置沿着任一轴或方向不变,假如沿着该方向解说词的尺寸没有缩减(例如,如果的仏/%比值为1,则垂直位置可以保持不变)。如果必须缩减或者缩小沿着给定方向的解说词尺寸,则沿着该轴的解说词位置可以被设置为,使得缩放的解说词的中心与新覆盖区的中心一致。该缩放和平移的应用可以在步骤1704处进行,或者可以被延迟,直到例如在步骤1608处完成对该特定调整的选择为止。作为澄清,方法1700首先通过图16的步骤1606,其中对从步骤1705估计的质量执行步骤1607处的测试。如果多个调整方法(例如,图17A-D中所示)可用于步骤1606中,则对于第一种方法,在步骤1705处应当对呈现质量值进行估计。如果在步骤1607处来自第一方法的结果被视为不充分,则在步骤1606中评价另一解说词调整方法,其中将覆盖区和字幕重置到原始位置和设置。例如,在原地缩放解说词调整过程1700的情况下,用于步骤1705的呈现质量值应当基于较小或较低的缩放因子(由‘s/表示),即,两个比值HN/HdPWN/W。中的较小者。例如,被缩减到其原始大小的50%的解说词与被缩减到其原始大小的70%的解说词相比产生较差的质量呈现。实用函数,或者在这种情况下质量函数‘qs’通常通过经验评价来产生,以确定提供的参数与呈现质量值之间的适当关系(例如,较小的缩放因子,或者与特定方法相关的其他参数)。例如,可以通过考虑以其原始大小的100%的解说词是理想的,来构造针对基于较小缩放因子的呈现质量的示例性函数,该函数由(‘qs(Sl)’)表示。注意,Qs是“基于缩放的质量函数”,对于本实施例而言,Qs基于作为较低或较小缩放值S1 (即不是s(l+v))的缩放因子。在这种情况下,Qs(I) = I。当然,根本看不到高度或宽度被缩减到0%的解说词,并且该解说词呈现了非常不好的呈现质量,从而qs(0) =0。如果原始覆盖区与空白区之间的交叉为空,则会出现这样的情况。
然而,被缩放到如此小以至于不可读的解说词还表示类似的较差呈现质量。从而,对于特定给定字体和其他情况,存在预定缩放因子Stl (或者阈值缩放值),在该预定缩放因子以下质量函数为零。因此,Qs(Stl)也等于O。如果Stl等于O. 5,则这意味着在50%的缩放因子处或以下字体不可定,并且使得解说词没有价值。对于这样的解说词,质量函数‘qs’可以以较小的缩放因子以及在其以下解说词变得无用的缩放因子来表达方程3:
otherwise — 0
■M这里,括号内的部分表示条件等式。如果S1大于或等于Stl,则(S1-StlV(I-Stl)用于计算Qs的结果。如果S1 < ScX其他条件),则是qs是O。对于大于阈值缩放因子Stl并且高达I的缩放因子S1,该示例性质量函数获得从O 到I的线性质量函数。质量函数可以针对不同字体而不同。例如,一些字体可能不是如此限制性的(例如,滑体、非斜体、非粗体),并且可以被估计具有S(l = 0.3。同样,花式草写字体对缩放非常敏感,并且具有Stl = O. 9。通常,S0是经验上确定的值,并且有时是主观的。此外,本文提出的方程仅作为说明并非限制。随着步骤1705处对呈现质量的估计,过程1700可以在步骤1706返回(并且根据需要返回值步骤1607),记录对所提出的解说词变化的估计质量。方法2图17B示出了第二字幕调整过程1710。过程1710允许字幕水平和/或垂直平移,以根据需要利用缩放保留在空白区内。此外,检查重新定位字幕的新覆盖区下层的图像中任何对象的视差是否需要调整字幕本身的视差(从而字幕通过出现在字幕所覆盖的另一对象后面而不会与该对象的视深度冲突)。过程1710在步骤1711处开始,初始条件是原始解说词或字幕的覆盖图没有完全包含在空白区内。在步骤1712处,识别被原始字幕覆盖区侵犯的空白区的边缘(例如,Redmann的WO 2010/096030所教导的),并且将字幕平移足够量以克服这些边缘侵犯。如果在步骤1703处,字幕没有全部位于空白区内,例如,如果字幕比空白区宽,则在步骤1714处,对字幕进行缩放以适合空白区(并且如上,缩放可以保留原始纵横比,或者根据预定策略来修改该缩放)。在步骤1714之后,将字幕的视差与平移且可能缩放的字幕的新覆盖区下层的立体图像的视差相比较。如果字幕具有小于或等于下层立体图像的视差(即,字幕看起来接近字幕下面的对象),则认为字幕调整是成功的,并且在步骤1718处处理继续。然而,如果经调整的字幕的视差大于其覆盖的对象的视差(或者在预定最小视差差值内),则在步骤1716处将立体字幕的视差调整为小于或等于下层对象的最小视差(或者小于或等于下层对象的最小视差,而不是预定的最小视差差值)。作为示例,如果处理美学策略,将重新定位的字幕限制为略微在下层对象之上浮动,则首先将字幕的视差缩减到下层对象的视差,然后缩减较小量(例如,预定最小视差差值),这可能是仅一个像素。这种视差减小的结果是经调整的字幕不再施加与下层对象的冲突深度提示。如果使用预定最小视差差值,则经调整的字幕通过(典型较小的)预定最小视差差值引入的视深度清除下层对象。然而,在一些情况下,视差的改变会因其立体字幕的新覆盖区大小的增加。潜在地,这可以引起附加的边缘侵犯,或者可能引起先前在步骤1715处没有考虑的对象覆盖。如果在步骤1717处检测到新覆盖区的增大,则例程重复回到步骤1713。否则,在步骤1718处处理继续。注意,对预定或动态计算的过补偿的明智使用会降低或消除需要循环会倒步骤1713的可能性。例如,这样的过补偿可以包括基于避免边缘侵犯所需的最小值,将字幕(在步骤1712中)平移额外5个像素;基于步骤1714中所需的最小值,将字幕的缩小额外50%;或者在步骤1715中,当检验字幕覆盖区下层的最小视差的立体图像时,将检验的区域水平地扩大额外15个像素。在步骤1718处,进行对具有经修改或调整的立体字幕的呈现质量的估计。类似于图17A的步骤1705,该质量函数应当至少部分基于缩放因子(如在示例性方程3中)。然而,对于过程1710,还存在要关于平移和视差(或者深度)变化而估计的质量效果。较大平 移会冒着模糊下层立体图像的重要部分或至少是感兴趣部分的风险。较大的视差变化会引起字幕远离(在视深度方面)感兴趣的主平面(例如,当前讲话者的脸部)。由于针对基于缩放的qs的原始质量方程用于原地缩放过程1700,针对qt和qd的质量方程(即,分别基于平移和视差调整的质量函数)是针对质量估计的适合候选,以与平移、缩放和视差调整过程1710—起使用。方程4:
权利要求
1.一种准备用于立体呈现的字幕的方法,包括 根据调整信息来处理字幕;并且 将处理后的字幕合成到至少一个立体图像中,以产生用于立体呈现的至少一个变换的立体图像。
2.根据权利要求I所述的方法,其中,调整信息包括以下中的至少一个缩放因子、平移量以及视差变化。
3.根据权利要求I所述的方法,其中,由以下步骤来确定调整信息 将字幕的覆盖区与所述至少一个立体图像的预定区相比较; 如果覆盖区的任何部分在预定区之外,则确定所述调整信息,以应用于字幕来产生经调整字幕,经调整字幕具有完全位于预定区内的经调整覆盖区。
4.根据权利要求3所述的方法,其中,在校准过程中建立预定区以识别与关联于字幕的位置和尺寸之一有关的至少一个参数。
5.根据权利要求3所述的方法,还包括 基于调整信息来导出质量参数;并且 如果质量参数超过预定值,则产生经调整的字幕。
6.根据权利要求3所述的方法,还包括 将经调整覆盖区限定为覆盖区与预定区之间的交叉区;并且 确定所述缩放因子,以应用于覆盖区来产生经调整覆盖区。
7.根据权利要求3所述的方法,还包括 平移字幕,以减小位于预定区之外的字幕部分; 如果经平移的字幕的覆盖区的任何部分位于预定区之外,则对经平移的字幕应用缩放因子,使得缩小的平移字幕完全在预定区内;并且 将经平移且可选地缩小的字幕的视差调整为不大于在调整了视差的字幕的经调整覆盖区内出现的对象的最小视差。
8.根据权利要求7所述的方法,还包括 如果经调整覆盖区具有在预定区之外的任何部分,则进一步缩小调整了视差的字幕,并且将进一步缩小的字幕的视差调整为不大于在进一步调整的字幕的覆盖区内的任何对象的最小视差。
9.根据权利要求3所述的方法,还包括 限定预定区域和至少一个立体图像的区域之间的交叉区;其中所述至少一个立体图像的区域中对象的视差至少等于字幕的视差;并且 对字幕应用缩放因子和平移量,以在交叉区内产生缩小且平移的字幕; 其中,根据预定质量准则来选择缩放因子和平移量。
10.根据权利要求9所述的方法,还包括 将缩小且平移的字幕改变为经调整的视差,所述经调整的视差与交叉区中其他对象的视差的距离在预定量内。
11.根据权利要求10所述的方法,其中,所述字幕的经调整的视差不大于交叉区中其他对象的视差。
12.根据权利要求I所述的方法,其中,所述至少一个立体图像是多个图像。
13.根据权利要求3所述的方法,其中,所述至少一个立体图像是要与处理后的字幕合成的多个立体图像,并且所述方法还包括通过以下步骤来确定字幕的视差变化 检验所述多个立体图像的相应部分的视差,其中每个立体图像的相应部分与经调整的字幕的经调整覆盖区交叠;并且 将经调整的字幕的视差改变为至多等于每个立体图像的每个相应部分的最小视差。
14.根据权利要求13所述的方法,其中,所述多个立体图像表示了用于在持续时间内呈现的图像序列。
15.一种准备用于立体呈现的字幕的系统,包括 第一处理器,被配置用于根据包括以下至少一个的调整信息来自动处理字幕缩放因子、平移量和视差变化,并且将处理后的字幕合成到立体图像中,以产生用于立体呈现的变换立体图像。
16.根据权利要求15所述的系统,还包括 第二处理器,被配置用于通过以下操作来确定调整信息 将字幕的覆盖区与立体图像的预定区相比较,并且如果字幕覆盖区的任何部分在预定区之外,则确定所述调整信息,以应用于字幕来产生经调整字幕,经调整字幕具有完全位于预定区内的经调整覆盖区。
17.根据权利要求15所述的系统,其中,第一处理器与第二处理器相同。
18.根据权利要求16所述的系统,第二处理器还被配置用于 基于调整信息来导出质量参数;并且如果质量参数超过预定值,则产生经调整的字幕。
19.根据权利要求15所述的系统,还包括存储器,用于存储具有合成的字幕的变换立体图像。
20.根据权利要求15所述的系统,其中,第一处理器在以下之一中提供数字电影服务器,包括机顶盒的消费者设备、电视监视器、视频录像机、数字视频播放器、个人计算机和移动设备。
全文摘要
描述了一种准备用于立体呈现的字幕的方法和系统。该方法允许通过将字幕的初始覆盖区与图像显示区相比较来显示字幕,而不会被删节或遮盖。如果初始覆盖区的任何部分位于图像显示区之外,则根据调整信息调整字幕,使得经调整的字幕完全位于图像显示区内,调整信息包括以下中的至少一个缩放因子、平移量以及视差变化。此外,可以通过考虑要与字幕一起显示的下层图像中的一个或多个对象的视差来调整字幕的视差。
文档编号H04N13/00GK102845067SQ201180017612
公开日2012年12月26日 申请日期2011年4月1日 优先权日2010年4月1日
发明者威廉·吉本斯·雷德曼 申请人:汤姆森许可贸易公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1