利用启发式视图合并的视图合成的制作方法

文档序号:7736225阅读:105来源:国知局
专利名称:利用启发式视图合并的视图合成的制作方法
技术领域
所描述的实施方式涉及编码系统。各种特别的实施方式涉及用于3D视频(3DV) 应用的具有启发式视图合并的视图合成。
背景技术
三维视频(3DV)是一种包括多视图视频的编码表示和深度信息并且目的在于例 如在接收器处生成高质量的3D渲染的新的架构。这使得自动立体显示、自由视点应用和立 体显示的3D视觉体验成为可能。需要更进一步的技术来生成额外的视图。

发明内容
根据一个总体的方面,从至少一个参考视图位置到虚拟视图位置变形至少一个参 考图像或其一部分,以产生至少一个变形的参考。识别所述至少一个变形的参考中的第一 候选像素和第二候选像素。该第一候选像素和第二候选像素是来自所述虚拟视图位置的虚 拟图像中目标像素位置的候选像素。基于所述第一和第二候选像素的值来确定所述目标像 素位置处的像素值。。在下面的附图和说明书部分详细解释一个或多个实施方式的细节。即使是以一种 特殊方式来描述实施方式,应当清楚的是,可以以各种方式配置或者体现实施方式。例如, 一种实施方式可以用方法的方式来执行,或者体现为诸如例如是被配置来执行一组操作的 设备或者是存储用于执行一组操作的指令的设备之类的设备,或者体现为信号。从接下来 的详细描述结合附图和权利要求会容易理解其它方面和特征。


图IA是未矫正的视图的合成的实施方式的图示。图IB是矫正的视图的合成的实施方式的图示。图2是视图合成器实施方式的图示。图3是视频发送系统实施方式的图示。图4是视频接收系统实施方式的图示。图5是视频处理装置实施方式的图示。图6是用于发送和接收具有深度信息的多视图视频的系统的实施方式的图示。图7是视图合成过程的实施方式的图示。
图8是用于矫正的视图的视图合并过程的实施方式的图示。图9是由3D点Ori-Pi-Os确定的角度的图示。图IOA是用于矫正的视图的上采样的实施方式的图示。图IOB是基于上采样和Z缓冲合并过程的实施方式的图示。
具体实施例一些三维视频(3DV)应用对输入视图有严格的限制。输入视图通常必须得到很好 的矫正,使得一维(ID)视差(disparity)可以描述如何将像素从一个视图置换到另一个视 图。基于深度图像的渲染(DIBR)是一种使用从多个校准后的摄像机捕捉的多个图像 以及相关联的逐像素深度信息的视图合成技术。从概念上讲,这种视图生成方法可以理解 为是一个两步骤的过程(1)3D图像变形;和( 重建和再取样。关于3D图像变形,使用深 度数据和相关联的摄像机参数将来自于参考图像的像素反投影到适当的3D位置,并重新 将它们投影到新的图像空间。关于重建和再取样,同样涉及确定合成视图中的像素值。所述渲染方法可以是基于像素的泼溅或者是基于网格的(三角形的)。对于3DV, 逐像素深度典型的是用诸如立体之类的被动式计算机视觉技术来估计,而不是从激光测距 扫描或者计算机图形模型生成的。因此,对于3DV中的实时处理,在只给定有噪声的深度信 息时,基于像素的方法应当是优选的,以避免复杂性和生成耗费计算的网格,因为鲁棒的3D 三角剖分(triangulation)(表面重建)是困难的几何问题。现有的泼溅算法达到了一些令人印象非常深刻的结果。但是,它们被设计来与高 精度的深度一起使用,对低质量深度而言,它们可能不是充分的。另外,很多现有的算法将 诸如逐像素垂直面或者三维点云之类3DV中不存在的技术方面视为理所当然。这样,需要 新的合成方法来处理这些具体问题。给定深度信息和摄像机参数,就容易将参考像素变形到合成的视图上。最突出的 问题是,如何从变形的参考视图像素估计目标视图中的像素值。图IA和图IB图示的是这个 基本问题。图IA显示的是未矫正的视图合成100。图IB显示的是矫正后的视图合成150。 在图IA和图IB中,字母“X”代表目标视图中要估计的像素,圆和方块表示从不同的参考视 图变形的像素,其中,不同的形状表示不同的参考视图。一种简单的方法是,将变形的样本像素舍入到目的视图中其最接近的像素位置。 当多个像素映射到合成视图中的同一个位置时,Z-缓冲是一种典型的解决方案,S卩,选择最 靠近摄像机的那个像素。这种方案(舍入最近的像素位置)经常会在略为欠采样的表面中, 尤其是沿着物体的边界处导致针孔。处理这个针孔问题最常见的方法是将参考视图内的一 个像素映射为目标视图内的几个像素。这个过程称作泼溅。如果将一个参考像素映射到目标视图中的多个周边目标像素上,可以消除大部分 的针孔。但是,会丢失某些图像细节。当使用透明的泼溅类型的重建核心时,同样要在消除 针孔和丢失细节之间进行权衡。问题是“我们如何来控制泼溅的程度? ”例如,对于每个变 形的像素,我们是该将它映射到它所有的周边目标像素上,还是仅将它映射到最靠近它的 一个像素上?文献很大程度上并未处理这个问题。当应用多个参考视图时,一种常见的方法会单独处理来自于每个参考视图的合成,然后将多个合成视图合并在一起。问题是如何来合并它们,例如,可以使用某类加权方 案。例如,可以基于角距离、图像分辨率等等之类,给不同的参考视图应用不同的权重。注 意,应当以对有噪声的深度信息鲁棒的方式来处理这些问题。使用DIBR,可以从捕捉到的视图(在上下文中也称作参考视图)产生虚拟视图。 产生虚拟视图是一项艰难的任务,尤其是当输入的深度信息有噪声并且其它诸如场景的3D 表面属性之类的场景信息未知的时候。其中一个最困难的问题经常是,在对参考视图内的样本像素变形后,如何估计合 成视图内每个像素的值。例如,对于每个目标合成像素,应当利用什么样的参考像素,以及 如何组合它们。在至少一种实施方式中,我们提议用一种用于3DV应用的具有启发式视图合并的 视图合成框架。发明人已经注意到,在涉及产生虚拟视图的3DV应用中(例如,使用DIBR), 这样产生虚拟视图是一项挑战性的任务,尤其是当输入的深度信息具有噪声并且诸如场景 的3D表面属性之类的其它场景信息未知的时候。发明人进一步注意到,在产生这种虚拟视 图时突出的问题是在对参考视图中的样本像素进行变形后如何估计合成视图中每个像素 的值。例如,对于每个目标合成的像素,应该应用什么参考像素,以及如何组合这些参考像 素?所以,在至少一种实施方式中,提供了基于例如其深度信息、其变形的2D图像位 置和摄像机参数来合并多个变形的参考像素的启发式方法。当然,本发明的方法不仅限于 以上方法,其他选项(信息、位置、参数等)也可以用于合并多个变形的参考像素,而保持本 发明原理的精神。所建议的方案不限制多少参考视图被作为输入,并且无论摄像机视图是 否被矫正都可被应用。在至少一种实施方式中,允许将单视图的合成和合并组合为单个合并方案。另外,发明人注意到,要从参考视图合成虚拟视图,通常需要三个步骤,S卩(1)前 向变形;⑵混合(单个视图的合成和多个视图的合并);和(3)填充空洞。至于上文提到的与从参考视图合成虚拟视图有关的三个步骤的变形步骤,关于如 何处理所述变形结果,基本上存在两种可以考虑的选项,即,合并和混合。关于合并,可以考虑完全变形每个视图,以给每个参考视图形成最终的变形视图。 然后,可以将这些最终的变形视图“合并”,得到单个的真正最终的合成视图。“合并”会涉 及,例如在N个候选像素(假设有N个最终的变形视图)之间进行挑选或者以某种方式将 它们组合。当然,可以理解,用于确定目标像素值的候选像素数目不需要和变形视图的数目 相同。也就是说,多个候选像素(或者一个也没有)可以来自于单个视图。关于混合,可以仍然变形每个视图,但是不为每个参考视图形成最终变形的视图。 通过不进行到最终过程,当混合时,可以保留更多的可选项。这是有优点的,因为在某些情 况下不同的视图可以为合成的目标视图的不同部分提供最佳信息。因而,混合可提供灵活 性以在每个像素处从不同的视图选择信息的正确组合。因此,可以认为,合并是两步骤混合 的特例,其中,首先分别处理来自于每个视图的候选,然后对处理结果进行组合。再次参考图1A,可以用图IA来显示到典型的混合操作的输入,因为图IA包括从不 同的参考视图变形的像素(分别是圆形和方块)。相反,对于典型的合并应用,人们会期望 只看见圆形或者方块,因为会典型地分开变形每个参考视图然后进行处理,为各个参考视图形成最终的变形视图。然后在典型的合并应用中组合多个参考视图的最终的变形视图。返回到混合,作为一种涉及混合的可能的可选项/考虑,可能不执行泼溅,因为还 不想填满所有的空洞。这些及其它可选项可以由本领域和相关领域的普通技术人员所确 定,而保持本发明原理的精神。因此,可以理解,本发明原理的一个或多个实施例针对的是合并,而本发明原理的 其它实施例可能针对的是混合。当然,进一步的实施例可以涉及合并和混合的组合。本申 请中所讨论的特征和构思通常应用在合并和混合两种情况下,即使在上下文中只讨论合并 或者混合中的一种。给定此处所提供的本发明原理的教导,本领域及相关技术领域的普通 技术人员会容易理解与合并和/或混合相关的、保持本发明原理的精神的各种应用。应当理解的是,本发明通常涉及通信系统,更特别的是涉及无线系统,例如地面广 播、手机、无线-保真(Wi-Fi)、卫星等等。应当进一步理解的是,本发明原理可以实现在例 如编码器、解码器、预处理器、后处理器和接收器(它可以包括前述的一种或多种)中。例 如,在需要产生虚拟图像来进行编码时,本发明原理可以用在编码器中。关于编码器的进一 步例子,这样一种编码器可以用于合成虚拟视图,用于从虚拟视图位置编码实际的图像,或 者从靠近虚拟视图位置的视图位置编码图像。在涉及两个参考图像的实施方式中,可以对 两个参考图像以及对应于虚拟视图的虚拟图像都进行编码。当然,给定此处所提供的本发 明原理的教导,在保持本发明原理的精神的同时,本领域及相关领域的普通技术人员会考 虑这些和各种其它应用,以及可应用本发明原理的对前面描述的应用的各种变形。另外,要理解的是,虽然此处是根据H. 264/M PEG-4 AVC (AVC)标准来描述一个或 多个实施例的,但本发明原理不完全局限于同样的实施例,因此,给定此处所提供的本发明 原理的教导,在保持本发明原理的精神的同时,可以容易地将本发明原理应用到多视图视 频编码(MVC)、当前和将来的3DV标准、以及其它视频编码标准、规范和/或建议,而保持本 发明原理的精神。注意,“泼溅”指的是,将来自参考视图的一个变形的像素映射到目标视图中的几 个像素的过程。注意,“深度信息”是指与深度有关的各类信息的通用术语。一种类型的深度信息 是“深度地图”,它通常指的是逐像素深度图像。其它类型的深度信息包括,例如,为每个编 码块而不是为每个编码的像素使用单个的深度值。图2显示的是根据本发明原理的实施例的可以应用本发明原理的示例的视图合 成器200。视图合成器200包括前向变形器210-1至210-K、视图合并器220和空洞填充器 230。前向变形器210-1至210-K的各个输出与视图合并器220的第一输入以信号通信的方 式进行连接。视图合并器220的输出与空洞填充器230的第一输入以信号通信的方式进行 连接。前向变形器210-1至210-k的第一各个输入可以用于作为视图合成器200的输入, 用于接收1至K的各个参考视图。前向变形器210-1至210-K的第二各个输入可用于作为 视图合成器200的输入,用于分别接收视图1和与它对应的目标视图深度地图和摄像机参 数直至视图K和与它对应的目标视图深度地图和摄像机参数。视图合并器220的第二输入 可用于作为所述视图合成器的输入,用于接收所有视图的深度地图和摄像机参数。空洞填 充器230的第二(可选的)输入可用于作为视图合成器200的输入,用于接收所有视图的 深度地图和摄像机参数。空洞填充器230的输出可用于作为视图合成器200和输出,用于输出目标视图。视图合并器220可以执行各种功能和操作中的一种或多种。例如,在一个实施例 中,视图合并器220识别在至少一个变形的参考中的第一候选像素和第二候选像素,该第 一候选像素和第二候选像素是来自虚拟视图位置的虚拟图像中目标像素位置的候选像素。 此外,在实施例中,视图合并器220还基于第一和第二候选像素的值来确定目标像素位置 处的像素的值。图2中的元件,例如前向变形器210和视图合并器220可以以各种方式实施。例 如,可以在通用计算机上或者诸如视频编码器之类的专用机器上,或者在特殊用途的集成 电路(诸如专用的集成电路(ASIC))上执行前向变形或视图合并功能的软件算法。这些实 施也可以应用软件、硬件和固件的组合。前向变形和视图合并的通用功能对于本领域普通 技术人员而言是周知的。这些通用功能可以按本申请中所描述的方式进行修改,以执行例 如本申请所描述的前向变形和视图合并操作。图3显示可以根据本发明原理的实施方式的应用本发明原理的示例的视频发送 系统300。视频发送系统300可以是,例如用于使用诸如卫星、缆线、电话线或者地面广播之 类的多种介质中的任何一种介质来发送信号的头端或者发送系统。可以通过因特网或者其 它网络进行所述发送。视频发送系统300能够生成并输送使用视图间跳跃模式编码的视频内容。这是通 过生成包括深度信息或者包括能够用于在接收端合成所述深度信息的信息的编码的信号 来实现的,所述接收端例如可以具有解码器。视频发送系统300包括编码器310和能够发送编码的信号的发送器320。编码器 310接收视频信息,并使用视图间跳跃模式从所接收的视频信息生成具有深度的编码的信 号。编码器310可以是,例如AVC编码器。编码器310可以包括子模块,具有例如用于接收 各种信息片并将它们组合为用于存储或者发送的结构化形式的组合单元。各种信息片可以 包括,例如编码的或者解码的视频、编码的或者解码的深度信息以及诸如运动矢量、编码模 式指示符和语法元素之类的编码或者解码的元素。发送器320可以是,例如适用于发送具有代表编码图像的一个或多个比特流以及 /或者与其相关的信息的程序信号。典型的发送器执行诸如提供纠错编码、在信号中插入数 据、随机化信号中的能量以及将信号调制到一个或多个载波上中的一种或多种的功能。所 述发送器可以包括天线(未示)或者与天线通过接口连接。相应地,发送器320的实施方 式可以包括或者被限制为调制器。图4显示的是根据本发明原理的实施例的可以应用本发明原理的示例视频接收 系统400。可以将视频接收系统400配置为,接收例如通过卫星、缆线、电话线或者地面广播 之类的各种介质传输的信号。所述信号可以从因特网或者其它网络接收。视频接收系统400可以是,例如手机、计算机、机顶盒、电视机或者其它接收编码 的视频并提供例如用于显示给用户或者用于存储的解码的视频的装置。因此,视频接收系 统400可以将它的输出提供给,例如电视屏幕、计算机显示器、计算机(用于存储、处理或者 显示)或者其它存储器、处理或者显示装置。视频接收系统400能够接收和处理包括视频信息的视频内容。视频接收系统400 包括能够接收诸如本申请的实施方式中所描述的信号之类的编码的信号的接收器410,以及能够解码所接收的信号的解码器420。接收器410可以是,例如适用于接收具有代表编码的图像的多个比特流的程序信 号。典型的接收器执行诸如,接收调制的和编码的数据信号、从一个或者多个载波解调出 所述数据信号、去随机化(de-randomize)所述信号中的能量、去插值(de-interleave)信 号中的数据以及对信号进行纠错解码中的一种或多种功能。接收器410可以包括天线(未 示)或者与天线通过接口相接。接收器410的实施方式可以包括解调器或者被限制为解调
器ο解码器420输出包括视频信息和深度信息的视频信号。解码器420可以是例如 AVC解码器。图5显示的是根据本发明原理的实施例的可以应用本发明原理的示例的视频处 理装置500。视频处理装置500可以是,例如机顶盒或者是其它接收编码的视频并提供例如 用于显示给用户或者用于存储的解码的视频的装置。因此,视频处理装置500可以将它的 输出提供给电视机、计算机显示器或者计算机或者其它处理装置。视频处理装置500包括前端(FE)装置505和解码器510。前端装置505可以是例 如一个接收器,适用于接收具有代表编码的图像的多个比特流的程序信号,以及从所述多 个比特流中选择一个或多个比特流进行解码。典型的接收器执行例如接收调制的和编码的 数据信号、解调所述数据信号、解码所述数据信号的一种或多种编码(例如,信道编码和/ 或源编码)以及/或者对所述数据信号进行纠错其中的一种或多种的功能。前端装置505 可以从例如天线(未示)接收程序信号。前端装置505将所接收的数据信号提供给解码器 510。解码器510接收数据信号520。数据信号520可以包括,例如一个或多个与先进视 频编码(AVC)、可伸缩的视频编码(SVC)或者多视图视频编码(MVC)兼容的流。AVC更具体的是指,现有的国际标准化组织/国际电工委员会(IS0/IEC)运动图 像专家组-4(MPEG-4)部分10先进视频编码(AVC)标准/国际电信联盟电信部分(ITU-T) H. 264建议书(之后,“H. 264/MPEG-4 AVC标准”或者其变形,诸如“AVC标准”或者简单地 是“AVC”)。MVC更具体的是指AVC标准的多视图视频编码(“MVC” )扩展(附录H),指的是 H. 264/MPEG-4 AVC、MVC 扩展(“MVC 扩展”或者简单地是 “MVC”)。SVC更具体的指的是指AVC标准的可伸缩视频编码(“SVC”)扩展(附录G),称作 H. 264/MPEG-4AVC, SVC 扩展(“SVC 扩展”或者简单地是 “SVC” )。解码器510解码所接收到的信号520的全部或者一部分,并提供解码的视频信号 530作为输出。解码的视频530被提供给选择器550。装置500还包括接收用户输570的 用户界面560。用户界面560基于用户输570提供图像选择信号580给选择器550。图像 选择信号580和用户输570表明用户希望显示多个图像、序列、可伸缩版本、视图或者可用 的解码的数据的其它选项中的哪一个。选择器550提供所选择的图像作为输出590。选择 器550使用图像选择信息580选择要提供解码的视频530中的哪个图片以作为输出590。在各种实施方式中,选择器550包括用户界面560,在其它实施方式中不需要用户 界面560,因为选择器550直接接收用户输入570,不单独执行界面功能。选择器550例如 可以实施为软件或者集成电路。在一种实施方式中,选择器550与解码器510合并在一起,在另一种实施方式中,解码器510、选择器550和用户界面560全部集成在一起。在一个应用中,前端505接收广播的各种各样的电视节目并选择一个来处理。基 于用户输入的期望观看的频道来选择一个节目。虽然图5没有显示用户给前端装置505的 输入,但是前端装置505接收用户输入570。前端505接收所述广播,并通过解调所述广播 波谱的相关部分以及解码所解调的节目的任何外部编码来处理所期望的节目。前端505提 供解码的节目给解码器510。解码器510是包括装置560和550的集成单元。因此,解码器 510接收用户输入,该用户输入是用产提供的表示所期望观看的节目中视图的指示。解码器 510解码所选择的视图,以及来自于其它视图的任何所需要的参考图像,并提供用于在电视 上(未示)显示的解码的视图590。继续上述的应用,用户可能会期望切换所显示的视图,并可能会提供新的输入给 解码器510。在接收到来自于用户的“改变视图”之后,解码器510解码旧的视图和新的视 图二者,以及在旧的视图和新的视图之间的所有视图。也就是说,解码器510解码物理位置 上位于照取新的视图的摄像机和照取旧的视图的摄像机之间的摄像机所照取的所有视图。 前端装置505还接收用于识别旧的视图、新的视图以及它们之间的视图的信息。这样的信 息例如可以由具有与所述视图的位置有关的信息的控制器(图5中未示)或者解码器510 来提供。其它实施方式可以使用一个前端装置,该前端装置具有与它集成在一起的控制器。解码器510提供所有这些解码的视图作为输出590。后期处理器(图5中未示) 在视图之间进行插值,以提供从所述旧的视图到所述新的视图的顺利过渡,并将这个过渡 显示给用户。在过渡到新的视图之后,所述后期处理器(通过一个或多个未示的通信链路) 告知解码器510和前端装置505只需要新的视图。之后,解码器510仅提供所述新的视图 作为输出590。系统500可以用于接收一系列图像的多个视图,以及用于呈现供显示的单个视 图,并在各种视图之间以顺畅的方式进行切换。所述顺畅的方式可以包括在视图之间进行 插值,以移到另一个视图。另外,系统500可以允许用户转动物体或者场景,或者相反,允许 用户看物体或者场景的三维呈现。转动所述物体,例如可以对应于从视图移到视图,在视图 之间进行插值,以获得在视图之间的顺畅的过渡,或者简单地获得三维呈现。也就是说,用 户可以“选择” 一个插入的视图作为要显示的“视图”。图2的元件可以被包含在图3-5中的各种位置。例如,图2的一个或多个元件可 以位于编码器310和解码器420中。作为进一步的例子,视频处理装置500的实施方式可 以将图2的一个或多个元件包括在图5的讨论中所提到的解码器510或者后期处理器中, 从而在接收到的视图之间进行插值。返回到本发明原理和这些原理所应用的环境的描述,要理解的是,有利的是,本发 明原理可以应用在3D视频(3DV)。3D视频是新的架构,其包括多视图视频的编码表示和深 度信息,目的是在接收器处生成高质量的3D渲染。这样使得自动多视觉显示的3D视觉体 验成为可能。图6显示的是根据本发明原理的实施例的可以应用本发明原理的用于发送和接 收具有深度信息的多视图视频的示例系统600。在图6中,视频数据由实线表示,深度数据 由短划线表示,元(meta)数据由虚线表示。系统600可以是,例如但是不局限于自由视点电 视系统。在发送器侧610,系统600包括三维(3D)内容制作器620,它具有多个输入,用于分别从多个源接收视频、深度和元数据中的一种或多种。这样的源可以包括,但是不局限于 立体摄像机611、深度摄像机612、多摄像机设置613和2-维/3-维(2D/3D)过渡过程614。 可以使用一个或多个网络630发送与多视图视频编码(MVC)和数字视频广播(DVB)相关的 视频、深度和的元数据中的一种或多种。在接收器侧640,基于深度图像的渲染器650执行基于深度图像的渲染,以将信号 投射到各种类型的显示器上。这种应用场景会造成特定的限制,诸如窄角捕像(<20度)。 基于深度图像的渲染器650能够接收显示器配置信息和用户喜好。基于深度图像的渲染器 650的输出可以提供给2D显示器661、M视图3D显示器662和/或头部跟踪立体显示器663 中的一个或者多个。图7显示的是根据本发明原理的实施例的视图合成的方法700。在步骤705中, 从第一参考视图位置到虚拟视图位置变形第一参考图像或其一部分,以产生第一变形的参考。在步骤710中,识别第一变形的参考中的第一候选像素。第一候选像素是来自虚 拟视图位置的虚拟图像中目标像素位置的候选像素。可以理解步骤710可以包括例如基 于第一候选像素和目标像素位置之间的距离来识别第一候选像素,其中该距离可包括门限 (例如距离低于临界值)。此外,可以理解步骤710可以包括例如基于与第一候选像素相关 联的深度来识别第一候选像素。另外,可以理解步骤710可以包括例如基于选自第一变形 的参考的多个像素的像素(作为第一候选像素)的距离来识别第一候选像素,该距离是距 目标像素位置的门限距离,该距离是与摄相机最近的距离。在步骤715中,从第二参考视图位置到虚拟视图位置变形第二参考图像或其一部 分,以产生第二变形的参考。在步骤720中,识别第二变形的参考中的第二候选像素,该第 二候选像素是来自虚拟视图位置的虚拟图像中目标像素位置的候选像素。在步骤725中,基于第一和第二候选像素值来确定目标像素位置处的像素值。可 以理解步骤725可以包括插值,包括例如线性插值,第一和第二像素值。此外,可以理解步 骤725可以包括例如对每个候选像素使用加权因子。这种加权因子例如可以基于摄像机参 数来确定,摄像机参数可包括例如第一参考视图位置和虚拟视图位置之间的第一距离,以 及第二参考视图位置和虚拟视图位置之间的第二距离。此外,这种加权因子例如可以基于 由3D点Ori-Pi-Os所确定的角度来确定(如以下对于实施例2的详细描述)。此外,可以理 解步骤725还可以基于,根据在第一候选像素的门限深度内的所选像素的深度,选自第一 变形的参考的多个像素的另一候选像素的值。在步骤730中,编码一个或多个第一参考图像、第二参考图像和虚拟图像。可以理解虽然图7的实施例包括第一参考图像和第二参考图像,给定此处所提供 的本发明原理的教导,本领域及相关技术领域的普通技术人员会容易理解本发明原理可应 用于包括单个参考图像或多于两个参考图像的实施例,同时保持本发明原理的精神。作为 可能变化的另一实施例,在单个参考图像的情况下,单个参考视图位置可用于产生第一和 第二候选像素,在变形过程中利用一些变化而获得了第一和第二候选像素的不同的值,尽 管应用了相同的单个参考视图位置。在包括单个参考图像的其他实施例中,可应用两个或 多个(不同的)参考视图位置。给定此处所提供的本发明原理的教导,本领域及相关技术 领域的普通技术人员会容易理解本发明原理的这些和其他变化,同时保持本发明原理的精神。如上所述,在至少一个实施例中提供了基于例如深度信息、变形的2D图像位置和 摄像机参数来混合多个变形的参考像素/视图的启发式方法。在3DV应用中,由于传输带宽或存储限制,降低了数量的视图和深度地图被发送 或存储。由于期望在实际视图之间渲染虚拟视图,基于渲染的深度图像技术(DIBR)可用于 产生中间的视图。要从参考视图合成虚拟视图,通常需要三个步骤,即(1)前向变形;(2)混合(组 合);和(3)填充空洞。在实施一个实施例中,提供了启发式方案来解决由于有噪声的深度 信息所产生的问题。仿真结果显示与现有的3DV中的方案相比获得了较高的质量。1.背景信息-前向变形执行视图合成的第一步骤是前向变形,其涉及为所述参考视图中的每个像素找到 它在目标视图内的对应位置。3D图像变形是计算机图像领域内周知的。根据输入视图是否 经过矫正,可以使用不同的方程式。(a)未矫正的视图如果我们根据3D点的齐次坐标P = [X,y,z,1]τ来定义它,并且它在参考图像平 面中的透视投影(即,2D图像位置)是化=[1^,^,1]\然后我们得到wr · pr = PPMr · P,(1)其中,^是深度因子,PPMr是3X4透视投影矩阵,由摄像机参数可知。对应地,我 们得到如下的合成的(目标)视图的方程式Ws · Ps = PPMs · P.(2)我们将PPMr的12个元素记为Qij,i = 1,2,3,且j = 1,2,3,4。从图像点Pr及其 深度z,可以用如下的线性方程式来估计3D点P的其余两个分量
权利要求
1.一种方法,包括从至少一个参考视图位置到虚拟视图位置变形(70 至少一个参考图像或其一部分, 以产生至少一个变形的参考;识别(710)所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选 像素和第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以 及基于所述第一和第二候选像素的值来确定(72 所述目标像素位置处的像素值。
2.根据权利要求1的方法,其中,确定所述值包括对来自所述第一和第二候选像素的 值的目标像素值进行插值(725)。
3.根据权利要求2的方法,其中,所述插值包括对来自所述第一和第二候选像素的值 的目标像素值进行线性插值(725)。
4.根据权利要求2的方法,其中,所述插值包括对所述第一和第二候选像素的每一个 使用加权因子(725)。
5.根据权利要求4的方法,其中,所述加权因子是根据摄像机参数确定的。
6.根据权利要求5的方法,其中,所述至少一个变形的参考包括第一变形的参考和第 二变形的参考,并且所述参考视图位置包括对应于所述第一变形的参考的第一参考视图位 置和对应于所述第二变形的参考的第二参考视图位置,并且所述加权因子是基于第一距离 和第二距离确定的,该第一距离是所述第一参考视图位置与所述虚拟视图位置之间的距 离,该第二距离是所述第二参考视图位置与所述虚拟视图位置之间的距离(725)。
7.根据权利要求4的方法,其中,所述加权因子是根据所述第一候选像素与所述目标 像素位置之间的距离确定的。
8.根据权利要求4的方法,其中,所述加权因子是根据与所述第一候选像素相关联的 深度确定的。
9.根据权利要求1的方法,其中识别第一候选像素包括基于所述第一候选像素与所述 目标像素位置之间的距离来识别所述第一候选像素(710)。
10.根据权利要求9的方法,其中所述距离小于临界值(710)。
11.根据权利要求1的方法,其中识别第一候选像素包括基于与所述第一候选像素相 关联的深度来识别所述第一候选像素(710)。
12.根据权利要求1的方法,其中识别第一候选像素包括从所述至少一个变形的参考 的多个像素选择所述第一候选像素,以及该多个像素都在所述目标像素位置的临界值距 离内,并且所述第一候选像素是基于最靠近摄像机的所述第一候选像素的深度来选择的 (710)。
13.根据权利要求12的方法,还包括基于另一像素的深度是否在所述第一候选像素的 深度临界值内,从所述多个像素选择该另一像素作为另一候选像素,并且其中确定所述目 标像素位置处的像素值还基于该另一候选像素的值(725)。
14.根据权利要求2的方法,其中所述插值包括利用加权因子,其中对于所述第一候选 像素,各个加权因子基于利用相应的参考视图的光学焦点中心、对应于所述虚拟图像的虚 拟视图的光学中心以及对应于所述第一候选像素的三维点,所确定的角度(725)。
15.根据权利要求14的方法,其中利用加权因子包括对所述第一和第二候选像素的每一个利用加权因子(725)。
16.根据权利要求1的方法,还包括在所述虚拟图像中的所有子像素位置插入相应的新目标像素,以获得多个相应的新目 标像素(1055);基于与所述第一候选像素和所述第二候选像素相关联的相应的深度,来估计所述多个 相应的新目标像素的每个的相应值(1060);以及利用下采样来产生对应于所述虚拟图像的最终虚拟视图(1065)。
17.根据权利要求16的方法,其中所述插入步骤包括进一步在所述虚拟图像中的所有 剩余的子像素位置,插入另一相应的新目标像素。
18.根据权利要求16的方法,其中所述估计所述多个相应的新目标像素的每个的相应 值,基于与最靠近摄像机的所述第一候选像素和所述第二候选像素的每个相关联的相应的 深度(1060)。
19.根据权利要求1的方法,其进一步包括,对于所述虚拟图像中的剩余目标像素位置从所述至少一个变形的参考识别一个或多个候选像素;以及基于所述一个或多个候选像素的值来确定在所述剩余的目标像素位置处的像素值。
20.根据权利要求1的方法,其进一步包括,编码所述至少一个参考图像以及所述虚拟 图像的一个或多个(730)。
21.根据权利要求1的方法,其中来自所述至少一个参考视图位置的所述至少一个参 考图像包括来自第一参考视图位置的第一参考图像和来自第二参考视图位置的第二参考 图像。
22.—种设备,包括从至少一个参考视图位置到虚拟视图位置变形至少一个参考图像或其一部分,以产生 至少一个变形的参考的装置;识别所述至少一个变形的参考中的第一候选像素和第二候选像素的装置,该第一候选 像素和第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以 及基于所述第一和第二候选像素的值来确定所述目标像素位置处的像素值的装置。
23.一种处理器可读介质,在其上存储有用于使处理器执行下面至少一个的指令 从至少一个参考视图位置到虚拟视图位置变形(70 至少一个参考图像或其一部分,以产生至少一个变形的参考;识别(710)所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选 像素和第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以 及基于所述第一和第二候选像素的值来确定(72 所述目标像素位置处的像素值。
24.一种设备,包括被配置来执行下列至少一个的处理器从至少一个参考视图位置到虚拟视图位置变形(70 至少一个参考图像或其一部分, 以产生至少一个变形的参考;识别(710)所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选像素和第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以 及基于所述第一和第二候选像素的值来确定(72 所述目标像素位置处的像素值。
25.一种设备,包括前向变形器010),用于从至少一个参考视图位置到虚拟视图位置变形至少一个参考 图像或其一部分,以产生至少一个变形的参考;以及 视图合并器(220)用于识别所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选像素和 第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以及 基于所述第一和第二候选像素的值来确定所述目标像素位置处的像素值。
26.根据权利要求25的设备,其中所述设备包括编码器(310)。
27.根据权利要求25的设备,其中所述设备包括解码器(420)。
28.一种设备,包括前向变形器010),用于从至少一个参考视图位置到虚拟视图位置变形至少一个参考 图像或其一部分,以产生至少一个变形的参考; 视图合并器(220)用于识别所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选像素和 第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以及 基于所述第一和第二候选像素的值来确定所述目标像素位置处的像素值;以及 用于调制信号的调制器(320),该信号包括所述至少一个参考图像的编码和所述虚拟 图像的编码的一个或多个。
29.一种设备,包括用于解调信号的解调器G20),所述信号包括至少一个参考图像和虚拟图像的一个或 多个;前向变形器010),用于从至少一个参考视图位置到虚拟视图位置变形至少一个参考 图像或其一部分,以产生至少一个变形的参考;以及 视图合并器(220)用于识别所述至少一个变形的参考中的第一候选像素和第二候选像素,该第一候选像素和 第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素;以及 基于所述第一和第二候选像素的值来确定所述目标像素位置处的像素值。
全文摘要
几个实施方式涉及用于3D视频(3DV)应用的具有启发式视图合并的视图合成。根据一个方面,从至少一个参考视图位置到虚拟视图位置变形至少一个参考图像或其一部分,以产生至少一个变形的参考。识别所述至少一个变形的参考中的第一候选像素和第二候选像素。该第一候选像素和第二候选像素是来自所述虚拟视图位置的虚拟图像中目标像素位置的候选像素。基于所述第一和第二候选像素的值来确定所述目标像素位置处的像素值。
文档编号H04N13/00GK102138333SQ200980134021
公开日2011年7月27日 申请日期2009年8月28日 优先权日2008年8月29日
发明者倪泽峰, 琼·拉奇, 田栋, 西塔拉姆·布哈加瓦泰 申请人:汤姆逊许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1