利用启发式视图合并的视图合成的制作方法

文档序号:7736226阅读:161来源:国知局
专利名称:利用启发式视图合并的视图合成的制作方法
技术领域
所描述的实施方式涉及编码系统。各种特定的实施方式涉及用于3D视频(3DV) 应用的具有启发式视图合并的视图合成。
背景技术
三维视频(3DV)是一种包括多视图视频的编码表示和深度信息并且目的在于例 如在接收器处生成高质量的3D渲染的新的架构。这使得自动立体显示、自由视点应用和立 体显示的3D视觉体验成为可能。需要更进一步的技术来生成额外的视图。

发明内容
根据一个总体的方面,来自于第一变形的参考视图的第一候选像素和来自于第二 变形的参考视图的第二候选像素是基于后向合成过程、在所述第一和第二候选像素周围的 空洞分布、或者在所述第一和第二候选像素周围超过规定的频率的能量的量其中的至少一 个来评估所述第一和第二候选像素的质量的。所述评估是作为将所述第一和第二变形的参 考视图合并成单个的合成视图的一部分。基于所述评估,为所述单个的合成视图中的给定 的目标像素确定一个结果。在下面的附图和说明书部分详细解释一个或多个实施方式的细节。即使是以一种 特殊方式来描述实施方式,应当清楚的是,可以以各种方式配置或者体现实施方式。例如, 一种实施方式可以用方法的方式来执行,或者体现为诸如例如是被配置来执行一组操作的 设备或者是存储用于执行一组操作的指令的设备之类的设备,或者体现为信号。从接下来 的详细描述结合附图和权利要求会容易理解其它方面和特征。


图IA是未矫正的视图的合成的实施方式的图示。图IB是矫正的视图的合成的实施方式的图示。图2A是视图合成器实施方式的图示。图2B是图像合成器实施方式的图示。图3是视频发送系统实施方式的图示。图4是视频接收系统实施方式的图示。图5是视频处理装置实施方式的图示。
图6是用于发送和接收具有深度信息的多视图视频的系统的实施方式的图示。图7是视图合成和合并过程的实施方式的图示。图8是应用深度、空洞分布和摄像机参数的合并过程的实施方式的图示。图9是应用深度、后向合成误差和摄像机参数的合并过程的实施方式的图示。图10是应用深度、后向合成误差和摄像机参数的合并过程的另一个实施方式的 图示。图11是应用高频能量的合并过程的实施方式的图示。 具体实施例一些三维视频(3DV)应用对输入视图有严格的限制。输入视图通常必须得到很好 的矫正,使得一维(ID)视差(disparity)可以描述如何将像素从一个视图置换到另一个视 图。基于深度图像的渲染(DIBR)是一种使用从多个校准后的摄像机捕捉的多个图像 以及相关联的逐像素深度信息的视图合成技术。从概念上讲,这种视图生成方法可以理解 为是一个两步骤的过程⑴3D图像变形(imagewarping);和⑵重建和再取样。关于3D 图像变形,使用深度数据和相关联的摄像机参数将来自于参考图像的像素反投影到适当的 3D位置,并重新将它们投影到新的图像空间。关于重建和再取样,同样涉及确定合成视图中 的像素值。所述渲染方法可以是基于像素的泼溅或者是基于网格的(三角形的)。对于3DV, 逐像素深度典型的是用诸如立体之类的被动式计算机视觉技术来估计,而不是从激光测距 扫描或者计算机图形模型生成的。因此,对于3DV中的实时处理,在只给定有噪声的深度信 息时,基于像素的方法应当是优选的,以避免复杂性和生成耗费计算的网格,因为鲁棒的3D 三角剖分(triangulation)(表面重建)是困难的几何问题。现有的泼溅算法达到了一些令人印象非常深刻的结果。但是,它们被设计来与高 精度的深度一起使用,对低质量深度而言,它们可能不是充分的。另外,很多现有的算法将 诸如逐像素垂直面或者三维点云之类3DV中不存在的技术方面视为理所当然。这样,需要 新的合成方法来处理这些具体问题。给定深度信息和摄像机参数,就容易将参考像素变形到合成的视图上。最突出的 问题是,如何从变形的参考视图像素估计目标视图中的像素值。图IA和图IB图示的是这个 基本问题。图IA显示的是未矫正的视图合成100。图IB显示的是矫正后的视图合成150。 在图IA和图IB中,字母“X”代表目标视图中要估计的像素,圆和方块表示从不同的参考视 图变形的像素,其中,不同的形状表示不同的参考视图。一种简单的方法是,将变形的样本像素舍入到目的视图中其最接近的像素位置。 当多个像素映射到合成视图中的同一个位置时,Z-缓冲(Z-buffering)是一种典型的解决 方案,即,选择最靠近摄像机的那个像素。这种方案(舍入最近的像素位置)经常会在略为 欠采样的表面中,尤其是沿着物体的边界处导致针孔(pinhole)。处理这个针孔问题最常见 的方法是将参考视图内的一个像素映射为目标视图内的几个像素。这个过程称作泼溅。如果将一个参考像素映射到目标视图中的多个周边目标像素上,可以消除大部分 的针孔。但是,会丢失某些图像细节。当使用透明的泼溅类型的重建核心时,同样要在消除针孔和丢失细节之间进行权衡。问题是“我们如何来控制泼溅的程度? ”例如,对于每个变 形的像素,我们是该将它映射到它所有的周边目标像素上,还是仅将它映射到最靠近它的 一个像素上?文献很大程度上并未处理这个问题。当应用多个参考视图时,一种常见的方法会单独处理来自于每个参考视图的合 成,然后将多个合成视图合并在一起。问题是如何来合并它们,例如,可以使用某类加权方 案。例如,可以基于角距离、图像分辨率等等之类,给不同的参考视图应用不同的权重。注 意,应当以对有噪声的深度信息鲁棒的方式来处理这些问题。使用DIBR,可以从捕捉到的视图(在上下文中也称作参考视图)产生虚拟视图。 产生虚拟视图是一项艰难的任务,尤其是当输入的深度信息有噪声并且其它诸如场景的3D 表面属性之类的场景信息未知的时候。其中一个最困难的问题经常是,在对参考视图内的样本像素变形后,如何估计合 成视图内每个像素的值。例如,对于每个目标合成像素,应当利用什么样的参考像素,以及 如何合并它们。在至少一种实施方式中,我们提议用一种用于3DV应用的用边界泼溅的视图合成 框架。发明人已经注意到,在涉及产生虚拟视图的3DV应用中(例如,使用DIBR),这样产生 虚拟视图是一项挑战性的任务,尤其是当输入的深度信息具有噪声并且诸如场景的3D表 面属性之类的其它场景信息未知的时候。发明人进一步注意到,如果将一个参考像素映射到目标视图中的多个周边目标像 素上,虽然可以消除大多数的针孔,遗憾的是会丢失某些图像细节。当使用透明的泼溅类型 的重建核心时,同样要在消除针孔和丢失细节之间进行权衡。问题是“我们该如何控制泼 溅的程度?”例如,对于每个变形的像素,我们是该将它映射到所有它的周边目标像素,还 是该仅将它映射到最靠近它的那个像素?在至少一种实施方式中,我们建议(1)将泼溅仅应用在边界层周围的像素,即, 将深度断续性不多的区域内的像素仅映射到最靠近它们的相邻像素;以及O)当合并来自 于多个参考视图的合成图像时,使用具有Z-缓冲的空洞分布或者后向合成误差的两个新 的启发式合并方案。另外,发明人注意到,要从参考视图合成虚拟视图,通常需要三个步骤,S卩(1)前 向变形;(2)混合(单个视图的合成和多个视图的合并);和(3)填充空洞。至少一个实施 方式贡献了一些算法来改善混合,以处理由噪声的深度信息所造成的问题。与3DV中一些 现有的方案相比,我们的仿真结果表明具有较好的质量。至于上文提到的与从参考视图合成虚拟视图有关的三个步骤的变形步骤,关于如 何处理所述变形结果,基本上存在两种可以考虑的选项,即,合并和混合。关于合并,可以考虑完全变形每个视图,以给每个参考视图形成最终的变形视图。 然后,可以将这些最终的变形视图“合并”,得到单个的真正最终的合成视图。“合并”会涉 及,例如在N个候选像素(假设有N个最终的变形视图)之间进行挑选或者以某种方式将 它们合并。当然,可以理解,用于确定目标像素值的候选像素数目不需要和变形视图的数目 相同。也就是说,多个候选像素(或者一个也没有)可以来自于单个视图。关于混合,可以仍然变形每个视图,但是不为每个参考视图形成最终变形的视图。 通过不进行到最终过程,当混合时,可以保留更多的可选项。这是有优点的,因为在某些情况下不同的视图可以为合成的目标视图的不同部分提供最佳信息。因而,混合可提供灵活 性以在每个像素处从不同的视图选择信息的正确组合。因此,可以认为,合并是两步骤混合 的特例,其中,首先分别处理来自于每个视图的候选,然后对处理结果进行组合。再次参考图1A,可以用图IA来显示到典型的混合操作的输入,因为图IA包括从不 同的参考视图变形的像素(分别是圆形和方块)。相反,对于典型的合并应用,人们会期望 只看见圆形或者方块,因为会典型地分开变形每个参考视图然后进行处理,为各个参考视 图形成最终的变形视图。然后在典型的合并应用中合并多个参考视图的最终的变形视图。返回到混合,作为一种涉及混合的可能的可选项/考虑,可能不执行泼溅,因为还 不想填满所有的空洞。这些及其它可选项可以由本领域和相关领域的普通技术人员所确 定,而保持本发明原理的精神。因此,可以理解,本发明原理的一个或多个实施例针对的是合并,而本发明原理的 其它实施例可能针对的是混合。当然,进一步的实施例可以涉及合并和混合的组合。本申 请中所讨论的特征和构思通常应用在合并和混合两种情况下,即使在上下文中只讨论合并 或者混合中的一种。给定此处所提供的本发明原理的教导,本领域及相关技术领域的普通 技术人员会容易理解与合并和/或混合相关的、保持本发明原理的精神的各种应用。应当理解的是,本发明通常涉及通信系统,更特别的是涉及无线系统,例如地面广 播、手机、无线-保真(Wi-Fi)、卫星等等。应当进一步理解的是,本发明原理可以实现在例 如编码器、解码器、预处理器、后处理器和接收器(它可以包括前述的一种或多种)中。例 如,在需要产生虚拟图像来进行编码时,本发明原理可以用在编码器中。关于编码器的进一 步例子,这样一种编码器可以用于合成虚拟视图,用于从虚拟视图位置编码实际的图像,或 者从靠近虚拟视图位置的视图位置编码图像。在涉及两个参考图像的实施方式中,可以对 两个参考图像以及对应于虚拟视图的虚拟图像都进行编码。当然,给定此处所提供的本发 明原理的教导,在保持本发明原理的精神的同时,本领域及相关领域的普通技术人员会考 虑这些和各种其它应用,以及可应用本发明原理的对前面描述的应用的各种变形。另外,要理解的是,虽然此处是根据H. 264/MPEG-4 AVC(AVC)标准来描述一个或多 个实施例的,但本发明原理不完全局限于同样的实施例,因此,给定此处所提供的本发明原 理的教导,在保持本发明原理的精神的同时,可以容易地将本发明原理应用到多视图视频 编码(MVC)、当前和将来的3DV标准、以及其它视频编码标准、规范和/或建议。注意,“泼溅”指的是,将来自参考视图的一个变形的像素映射到目标视图中的几 个像素的过程。注意,“深度信息”是指与深度有关的各类信息的通用术语。一种类型的深度信息 是“深度地图”,它通常指的是逐像素深度图像。其它类型的深度信息包括,例如,为每个编 码块而不是为每个编码的像素使用单个的深度值。图2A显示的是根据本发明原理的实施例的可以应用本发明原理的示例的视图合 成器200。视图合成器200包括前向变形器210-1至210-K、视图合并器220和空洞填充器 230。前向变形器210-1至210-K的各个输出与图像合成器215-1至215-K的各个输入以 信号通信的方式进行连接。图像合成器215-1至215-K的各个输出与视图合并器220的第 一输入以信号通信的方式进行连接。视图合并器220的输出与空洞填充器230的第一输入 以信号通信的方式进行连接。前向变形器210-1至210-k的第一各个输入可以用于作为视图合成器200的输入,用于接收1至K的各个参考视图。前向变形器210-1至210-K的第 二各个输入和图像合成器215-1至215-K的第二各个输入可用于作为视图合成器200的输 入,用于分别接收视图1和与它对应的目标视图深度地图和摄像机参数直至视图K和与它 对应的目标视图深度地图和摄像机参数。视图合并器220的第二输入可用于作为所述视图 合成器的输入,用于接收所有视图的深度地图和摄像机参数。空洞填充器230的第二(可 选的)输入可用于作为视图合成器200的输入,用于接收所有视图的深度地图和摄像机参 数。空洞填充器230的输出可用于作为视图合成器200和输出,用于输出目标视图。图2B显示的是根据本发明原理的实施例的可以应用本发明原理的示例的图像合 成器250。图像合成器250包括泼溅器255,该泼溅器255的输出与目标像素评估器沈0的 输入以信号通信的方式连接。目标像素评估器260的输出与空洞标记器沈5的输入以信号 通信的方式进行连接。泼溅器255的输入可用于作为图像合成器250的输入,用于接收来 自于参考视图的变形的像素。空洞标记器沈5的输出可用于作为图像合成器250的输出, 用于输出合成的图像。要理解的是,空洞标记器265是可选的,在不需要空洞标记器但是目 标像素的评估是充分的实施例中可以将它忽略掉。可以用各种方式实现泼溅器255。例如,可以在通用计算机上,或者在诸如视频编 码器之类的专用的机器上实现泼溅的功能。对于本领域技术人员而言,泼溅的常见功能是 周知的。这样的实施方式可以根据本申请中所描述的方式进行修改,例如,基于变形的参考 视图内的一个像素是否是在距离一个或多个深度边界特定的距离内来执行泼溅功能。根据 本申请中所描述的实施方式所修改的泼溅功能,可以可替换地在特殊用途的集成电路(诸 如专用的集成电路(ASIC))内或者其它硬件中实现。实施方式也可以使用软件、硬件和固 件的组合。图2A和2B的其它元件,例如前向变形器210、空洞标记器265和目标像素评估器 260可以以与泼溅器255同样的方式来实施。例如,前向变形器210的实施方式可以使用软 件、硬件和/或固件来在通用计算机或者专用的装置或者专用的集成电路上执行常见的变 形功能。另外,空洞标记器沈5的实施方式可以使用,例如软件、硬件和/或固件来执行在 各个实施例中描述的功能,以标记空洞,这些功能可以在,例如通用计算机或者专用的设备 上或者专用的集成电路上执行。进一步地,目标像素评估器沈0的实施方式可以使用,例如 软件、硬件和/或固件来执行在各个实施例中所描述的功能以评估目标像素,这些功能可 以在例如,通用计算机或者专用的装置或者专用的集成电路上执行。进一步地,视图合并器220还可以包括空洞标记器,例如,空洞标记器265或者空 洞标记器沈5的变形。在这样的实施方式中,视图合并器220也要能够标记空洞,如在实施 例2和实施例3以及在图8和图10的讨论中所描述的那样。另外,可以以各种方式实施视图合并器220。例如,可以在通用计算机上或者诸如 视频编码器之类的专用机器上执行视图合并功能的软件算法。视图合并的通用功能对于本 领域普通技术人员而言是周知的。但是,这样一种实施方式可以按本申请中所描述的方式 进行修改,以执行例如本申请的一个或多个实施方式所讨论的视图合并技术。如按本申请 中所描述的实施方式所进行的修改的视图合并功能,可替换地在特殊用途的集成电路(诸 如,专用的集成电路(ASIC))或者其它硬件中实施。实施方式也可以使用软件、硬件和固件 的组合。
视图合并器220的一些实施方式包括用于评估来自于第一变形的参考视图的第 一候选像素以及来自于第二变形的参考视图的第二候选像素的功能,该功能是基于以下至 少之一评估所述第一和第二候选像素的质量的后向合成过程、在所述第一和第二候选像 素周围的空洞分布、或者所述第一和第二候选像素周围能量在特定频率之上的量。视图合 并器220的一些实施方式进一步包括,用于基于所述评估来确定单个的合成视图中的给定 目标像素的结果。例如在图10的讨论和本申请的其它部分中描述了这两个功能。这样的 实施方式可以包括,例如,用于执行这些功能中的每个功能的单组指令或者不同(重叠)组 的指令,这样的指令可以在,例如通用计算机、特殊用途的机器(例如,视频编码器)或者特 定应用的集成电路上实施。进一步地,这样的功能可以使用软件、硬件和固件的各种组合来 实施。图3显示可以根据本发明原理的实施方式的应用本发明原理的示例的视频发送 系统300。视频发送系统300可以是,例如用于使用诸如卫星、缆线、电话线或者地面广播之 类的多种介质中的任何一种介质来发送信号的头端或者发送系统。可以通过因特网或者其 它网络进行所述发送。视频发送系统300能够生成并输送使用视图间跳跃模式编码的具有深度的视频 内容。这是通过生成包括深度信息或者包括能够用于在接收端合成所述深度信息的信息的 编码的信号来实现的,所述接收端例如可以具有解码器。视频发送系统300包括编码器310和能够发送编码的信号的发送器320。编码器 310接收视频信息,并使用视图间跳跃模式从所接收的视频信息生成具有深度的编码的信 号。编码器310可以是,例如AVC编码器。编码器310可以包括子模块,具有例如用于接收 各种信息片并将它们组合为用于存储或者发送的结构化形式的组合单元。各种信息片可以 包括,例如编码的或者解码的视频、编码的或者解码的深度信息以及诸如运动矢量、编码模 式指示符和语法元素之类的编码或者解码的元素。发送器320可以是,例如适用于发送具有代表编码图像的一个或多个比特流以及 /或者与其相关的信息的程序信号。典型的发送器执行诸如提供纠错编码、在信号中插入数 据、随机化信号中的能量以及将信号调制到一个或多个载波上中的一种或多种的功能。所 述发送器可以包括天线(未示)或者与天线通过接口连接。相应地,发送器320的实施方 式可以包括或者被限制为调制器。图4显示的是根据本发明原理的实施例的可以应用本发明原理的示例视频接收 系统400。可以将视频接收系统400配置为,接收例如通过卫星、缆线、电话线或者地面广播 之类的各种介质传输的信号。所述信号可以从因特网或者其它网络接收。视频接收系统400可以是,例如手机、计算机、机顶盒、电视机或者其它接收编码 的视频并提供例如用于显示给用户或者用于存储的解码的视频的装置。因此,视频接收系 统400可以将它的输出提供给,例如电视屏幕、计算机显示器、计算机(用于存储、处理或者 显示)或者其它存储器、处理或者显示装置。视频接收系统400能够接收和处理包括视频信息的视频内容。视频接收系统400 包括能够接收诸如本申请的实施方式中所描述的信号之类的编码的信号的接收器410,以 及能够解码所接收的信号的解码器420。接收器410可以是,例如适用于接收具有代表编码的图像的多个比特流的程序信号。典型的接收器执行诸如,接收调制的和编码的数据信号、从一个或者多个载波解调出 所述数据信号、去随机化(de-randomize)所述信号中的能量、去插值(de-interleave)信 号中的数据以及对信号进行纠错解码中的一种或多种功能。接收器410可以包括天线(未 示)或者与天线通过接口相接。接收器410的实施方式可以包括解调器或者被限制为解调器。解码器420输出包括视频信息和深度信息的视频信号。解码器420可以是例如 AVC解码器。图5显示的是根据本发明原理的实施例的可以应用本发明原理的示例的视频处 理装置500。视频处理装置500可以是,例如机顶盒或者是其它接收编码的视频并提供例如 用于显示给用户或者用于存储的解码的视频的装置。因此,视频处理装置500可以将它的 输出提供给电视机、计算机显示器或者计算机或者其它处理装置。视频处理装置500包括前端(FE)装置505和解码器510。前端装置505可以是例 如一个接收器,适用于接收具有代表编码的图像的多个比特流的程序信号,以及从所述多 个比特流中选择一个或多个比特流进行解码。典型的接收器执行例如接收调制的和编码的 数据信号、解调所述数据信号、解码所述数据信号的一种或多种编码(例如,信道编码和/ 或源编码)以及/或者对所述数据信号进行纠错其中的一种或多种的功能。前端装置505 可以从例如天线(未示)接收程序信号。前端装置505将所接收的数据信号提供给解码器 510。解码器510接收数据信号520。数据信号520可以包括,例如一个或多个与先进视 频编码(AVC)、可伸缩的视频编码(SVC)或者多视图视频编码(MVC)兼容的流。AVC更具体的是指,现有的国际标准化组织/国际电工委员会(IS0/IEC)运动图像 专家组-4(M PEG-4)部分10先进视频编码(AVC)标准/国际电信联盟电信部分(ITU-T) H. 264建议书(之后,“H. 264/MPEG-4AVC标准”或者其变形,诸如“AVC标准”或者简单地是 “AVC”)。MVC更具体的是指AVC标准的多视图视频编码(“MVC” )扩展(附录H),指的是 H. 264/MPEG-4 AVC、MVC 扩展(“MVC 扩展”或者简单地是 “MVC”)。SVC更具体的指的是指AVC标准的可伸缩视频编码(“SVC”)扩展(附录G),称作 H. 264/MPEG-4AVC, SVC 扩展(“SVC 扩展”或者简单地是 “SVC” )。解码器510解码所接收到的信号520的全部或者一部分,并提供解码的视频信号 530作为输出。解码的视频530被提供给选择器550。装置500还包括接收用户输570的 用户界面560。用户界面560基于用户输570提供图像选择信号580给选择器550。图像 选择信号580和用户输入570表明用户希望显示多个图像、序列、可伸缩版本、视图或者可 用的解码的数据的其它选项中的哪一个。选择器550提供所选择的图像作为输出590。选 择器550使用图像选择信息580选择要提供解码的视频530中的哪个图片以作为输出590。在各种实施方式中,选择器550包括用户界面560,在其它实施方式中不需要用户 界面560,因为选择器550直接接收用户输入570,不单独执行界面功能。选择器550例如 可以实施为软件或者集成电路。在一种实施方式中,选择器550与解码器510合并在一起, 在另一种实施方式中,解码器510、选择器550和用户界面560全部集成在一起。在一个应用中,前端505接收广播的各种各样的电视节目并选择一个来处理。基于用户输入的期望观看的频道来选择一个节目。虽然图5没有显示用户给前端装置505的 输入,但是前端装置505接收用户输入570。前端505接收所述广播,并通过解调所述广播 波谱的相关部分以及解码所解调的节目的任何外部编码来处理所期望的节目。前端505提 供解码的节目给解码器510。解码器510是包括装置560和550的集成单元。因此,解码器 510接收用户输入,该用户输入是用户提供的表示所期望观看的节目中视图的指示。解码器 510解码所选择的视图,以及来自于其它视图的任何所需要的参考图像,并提供用于在电视 上(未示)显示的解码的视图590。继续上述的应用,用户可能会期望切换所显示的视图,并可能会提供新的输入给 解码器510。在接收到来自于用户的“改变视图”之后,解码器510解码旧的视图和新的视 图二者,以及在旧的视图和新的视图之间的所有视图。也就是说,解码器510解码物理位置 上位于照取新的视图的摄像机和照取旧的视图的摄像机之间的摄像机所照取的所有视图。 前端装置505还接收用于识别旧的视图、新的视图以及它们之间的视图的信息。这样的信 息例如可以由具有与所述视图的位置有关的信息的控制器(图5中未示)或者解码器510 来提供。其它实施方式可以使用一个前端装置,该前端装置具有与它集成在一起的控制器。解码器510提供所有这些解码的视图作为输出590。后期处理器(图5中未示) 在视图之间进行插值,以提供从所述旧的视图到所述新的视图的顺利过渡,并将这个过渡 显示给用户。在过渡到新的视图之后,所述后期处理器(通过一个或多个未示的通信链路) 告知解码器510和前端装置505只需要新的视图。之后,解码器510仅提供所述新的视图 作为输出590。系统500可以用于接收一系列图像的多个视图,以及用于呈现供显示的单个视 图,并在各种视图之间以顺畅的方式进行切换。所述顺畅的方式可以包括在视图之间进行 插值,以移到另一个视图。另外,系统500可以允许用户转动物体或者场景,或者相反,允许 用户看物体或者场景的三维呈现。转动所述物体,例如可以对应于从视图移到视图,在视图 之间进行插值,以获得在视图之间的顺畅的过渡,或者简单地获得三维呈现。也就是说,用 户可以“选择” 一个插入的视图作为要显示的“视图”。图2A和2B的元件可以被包含在图3_5中的各种位置。例如,图2A和2B的一个 或多个元件可以位于编码器310和解码器420中。作为进一步的例子,视频处理装置500 的实施方式可以将图2A和2B的一个或多个元件包括在图5的讨论中所提到的解码器510 或者后期处理器中,从而在接收到的视图之间进行插值。返回到本发明原理和这些原理所应用的环境的描述,要理解的是,有利的是,本发 明原理可以应用在3D视频(3DV)。3D视频是新的架构,其包括多视图视频的编码表示和深 度信息,目的是在接收器处生成高质量的3D渲染。这样使得自动多视觉显示的3D视觉体 验成为可能。图6显示的是根据本发明原理的实施例的可以应用本发明原理的用于发送和接 收具有深度信息的多视图视频的示例系统600。在图6中,视频数据由实线表示,深度数据 由短划线表示,元(meta)数据由虚线表示。系统600可以是,例如但是不局限于自由视点电 视系统。在发送器侧610,系统600包括三维(3D)内容制作器620,它具有多个输入,用于 分别从多个源接收视频、深度和元数据中的一种或多种。这样的源可以包括,但是不局限于 立体摄像机611、深度摄像机612、多摄像机设置613和2-维/3-维(2D/3D)过渡过程614。可以使用一个或多个网络630发送与多视图视频编码(MVC)和数字视频广播(DVB)相关的 视频、深度和的元数据中的一种或多种。在接收器侧640,基于深度图像的渲染器650执行基于深度图像的渲染,以将信号 投射到各种类型的显示器上。这种应用场景会造成特定的限制,诸如窄角捕像(<20度)。 基于深度图像的渲染器650能够接收显示器配置信息和用户喜好。基于深度图像的渲染器 650的输出可以提供给2D显示器661、M视图3D显示器662和/或头部跟踪立体显示器663 中的一个或者多个。前向变形执行视图合成的第一步骤是前向变形,其涉及为所述参考视图中的每个像素找到 它在目标视图内的对应位置。3D图像变形是计算机图像领域内周知的。根据输入视图是否 经过矫正,可以使用不同的方程式。(a)未矫正的视图如果我们根据3D点的齐次坐标P = [X,y,z,1]τ来定义它,并且它在参考图像平 面中的透视投影(即,2D图像位置)是化=[1^,^,1]\然后我们得到wr · pr = PPMr · P,(1)其中,^是深度因子,PPMr是3X4透视投影矩阵,由摄像机参数可知。对应地,我 们得到如下的合成的(目标)视图的方程式Ws · ps = PPMs · P.(2)我们将PPMr的12个元素记为Qij,i = 1,2,3,且j = 1,2,3,4。从图像点Pr及其 深度z,可以用如下的线性方程式来估计3D点P的其余两个分量
权利要求
1.一种方法,包括评估(1010,105 来自于第一变形的参考视图的第一候选像素以及来自于第二变形 的参考视图的第二候选像素,该步骤是基于后向合成过程、在所述第一和第二候选像素周 围的空洞分布、或者在所述第一和第二候选像素周围能量在指定的频率之上的量中的至少 一个来评估所述第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变 形的参考视图为单个的合成视图的一部分,基于所述评估,为所述单个的合成视图中给定的目标像素确定(1075,1080)结果。
2.根据权利要求1的方法,其中,确定所述结果包括为所述给定的目标像素确定一个值。
3.根据权利要求1的方法,其中,确定所述结果包括确定所述给定的目标像素为空洞。
4.根据权利要求2的方法,其中所述空洞分布包括表示在所述第一候选像素周围的 空洞数目的第一空洞计数和表示在所述第二候选像素周围的空洞数目的第二空洞计数, 其中,确定所述给定的目标像素的值包括,从所述第一空洞计数和所述第二空洞计数选择 (825)所述第一候选像素或者所述第二候选像素中空洞计数值最低的候选像素,作为所述 给定的目标像素的值。
5.根据权利要求4的方法,其中,仅当在所述第一空洞计数和所述第二空洞计数之间 的差值大于预先确定的临界差值(820)时,执行选择(82 所述第一候选像素或者所述第 二候选像素中空洞计数值最低的候选像素作为所述给定的目标像素的值。
6.根据权利要求4的方法,其中,仅当所述第一空洞计数和所述第二空洞计数之间的 差值大于预先确定的临界差值(820)并且所述第一候选像素的深度和所述第二候选像素 的深度之间的差值不大于预先确定的临界深度(810)时,执行选择(82 所述第一候选像 素或者所述第二候选像素中空洞计数值最低的那个像素作为所述给定的目标像素的值。
7.根据权利要求4的方法,其中,当所述第一空洞计数和所述第二空洞计数之间的 差值不大于所述预先确定的临界差值时(820),确定所述给定的目标像素的值包括,平均 (835)所述第一候选像素和所述第二候选像素的值。
8.根据权利要求7的方法,其中,仅当所述第一空洞计数和所述第二空洞计数之间的 差值不大于预先确定的临界差值(820)以及所述第一候选像素的深度和所述第二候选像 素的深度之间的差值不大于预先确定的临界深度(810)时,平均(83 所述第一候选像素 和所述第二候选像素的值。
9.根据权利要求7的方法,其中平均(83 所述第一候选像素和所述第二候选像素的 值包括,为所述第一候选像素和所述第二候选像素中的每一个使用(83 加权因子。
10.根据权利要求9的方法,其中所述加权因子是基于所述第一变形的参考视图和所 述单个的合成视图之间的距离以及所述第二变形的参考视图和所述单个的合成视图之间 的距离其中的至少一个距离来确定的。
11.根据权利要求8的方法,其中所述加权因子是基于所述第一空洞计数和所述第二 空洞计数来确定的。
12.根据权利要求8的方法,其中所述的加权因子是基于所述第一候选像素和所述第 二候选像素周围的空洞的位置来确定的。
13.根据权利要求11的方法,其中,所述空洞分布进一步是基于所述第一候选像素和所述第二候选像素周围的空洞的位置,并且其中,确定所述给定的目标像素的值包括,选择所述第一候选像素或所述第二候选像 素中空洞主要位于它的给定侧的候选像素,作为所述给定的目标像素的值,或者给它分配 较高的加权因子。
14.根据权利要求2的方法,其中所述空洞分布进一步包括在所述第一候选像素和所 述第二候选像素周围的空洞的位置,以及其中确定所述给定的目标像素的值包括,选择所述第一候选像素或者所述第二候选像 素中空洞主要位于它的给定侧的候选像素,作为所述给定的目标像素的值,或者给它分配 一个较高的加权。
15.根据权利要求4的方法,其中当所述第一空洞计数和所述第二空洞计数都在预先 确定的临界空洞计数值之上时,舍弃应用所述第一候选像素和所述第二候选像素两个来确 定所述给定的目标像素的值。
16.根据权利要求2的方法,其中所述后向合成过程包括重新合成(905,950)所述第一参考视图和所述第二参考视图,以分别提供重新合成的 第一变形的参考视图以及重新合成的第二变形的参考视图;计算(910)所述重新合成的第一参考视图和用于获得所述第一变形的参考视图的第 一参考视图之间的第一差值;计算(95 所述重新合成的第二参考视图和用于获得所述第二变形的参考视图的第 二参考视图之间的第二差值;计算(91 关于将所述第一差值被应用到所述第一候选像素周围的邻域的第一和值;计算(91 关于将所述第二差值被应用到所述第二候选像素周围的邻域的第二和值;以及所述方法进一步包括,基于所述第一和值和所述第二和值中的至少一个来确定所述给 定的目标像素的值。
17.根据权利要求16的方法,其中基于所述第一和值和所述第二和值中的至少一个来 确定所述给定的目标像素的值包括当所述第一和值小于所述第二和值(935)以及当所述第一和值和所述第二和值之间 的差值大于预定的临界差值时(920),选择所述第一候选像素作为所述给定的目标像素的 值;当所述第二和值小于所述第一和值(935)以及当所述第一和值和所述第二和值之间 的差值大于预定的临界差值时(920),选择所述第二候选像素作为所述给定的目标像素的 值;以及当所述第一和值和所述第二和值之间的差值不大于预定的临界差值时(920),平均 (930)所述第一候选像素和所述第二候选像素的值作为所述给定的目标像素的值。
18.根据权利要求17的方法,其中平均(930)所述第一候选像素和所述第二候选像素 的值包括为所述第一候选像素和所述第二候选像素中的每一个使用(930)加权因子。
19.根据权利要求16的方法,其进一步包括,当所述第一和值和所述第二和值中至少 有一个大于预定的临界和值时,舍弃所述第一候选像素和所述第二候选像素中的至少一个 (1080)。
20.根据权利要求19的方法,其进一步包括,当所述第一和值和所述第二和值大于所 述预定的临界和值时,标记(1080)所述给定的目标像素为空洞。
21.根据权利要求2的方法,其中所述空洞分布包括表示(830)所述第一候选像素周围 的空洞数量的第一空洞计数以及表示(830)所述第二候选像素周围的空洞数量的第二空 洞计数,并且其中,为所述单个的合成视图中的给定的目标像素选择所述第一候选像素和 所述第二候选像素包括,当所述第一空洞计数和所述第二空洞计数在给定的临界空洞计数 之下时,选择(1120)所述第一候选像素或者所述第二候选像素中能量的量的值较低的候 选像素。
22.根据权利要求2的方法,其进一步包括舍弃所述第一候选像素和所述第二候选像 素中能量超过给定的临界值的候选像素。
23.根据权利要求2的方法,其中确定所述单个的合成视图内的所述给定的目标像素 的值包括确定(1110)所述第一候选像素周围的能量的量,以获得第一量;确定(1110)所述第二候选像素周围的能量的量,以获得第二量;基于所述第一量和所述第二量中的至少一个,选择(1120)所述第一候选像素和所述 第二候选像素中的一个,或者丢弃其中一个,或者合并(112 它们。
24.根据权利要求23的方法,其中所述的空洞分布包括表示所述第一候选像素周围的 空洞数量的第一空洞计数和表示所述第二候选像素周围的空洞数量的第二空洞计数,并且 其中,进一步基于所述第一空洞计数和所述第二空洞计数中的至少一个,选择(1120)所述 第一候选像素和所述第二候选像素中的一个,或者舍弃其中一个,或者合并(112 它们。
25.根据权利要求M的方法,其中所述的空洞分布进一步是基于所述第一候选像素和 所述第二候选像素周围的空洞的位置,其中,进一步基于所述第一候选像素周围的空洞的 位置和所述第二候选像素周围的空洞的位置中的至少一个,选择(1120)所述第一候选像 素和所述第二候选像素中的一个,舍弃其中一个,或者合并它们(1125)。
26.一种设备,包括装置(220),用于评估来自于第一变形的参考视图的第一候选像素,以及来自于第二变 形的参考视图的第二候选像素,这是基于后向合成过程、所述第一和第二候选像素周围的 空洞分布、或者所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来 评估所述第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变形的参 考视图为单个的合成视图的一部分;以及装置020),用于基于所述评估,给所述单个的合成视图中的给定的目标像素确定一个 结果。
27.一种处理器可读介质,在其上存储有用于使处理器执行下面至少一个的指令评估(1010,105 来自于第一变形的参考视图的第一候选像素,以及来自于第二变形的参考视图的第二候选像素,这是基于后向合成处理、所述第一和第二候选像素周围的空 洞分布、所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来评估所 述第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变形的参考视图 为单个的合成视图的一部分;以及基于所述评估,为所述单个的合成视图内的给定的目标像素确定一个结果(1075,1080)。
28.一种设备,包括被配置来执行下列至少一个的处理器评估(1010,105 来自于第一变形的参考视图的第一候选像素,以及来自于第二变形 的参考视图的第二候选像素,这基于后向合成处理、所述第一和第二候选像素周围的空洞 分布、所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来评估所述 第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变形的参考视图为 单个的合成视图的一部分;以及基于所述评估,为所述单个的合成视图内的给定的目标像素确定一个结果(1075, 1080)。
29.—种包括视图合并器O20)的设备,所述视图合并器被配置来评估(1010,105 来自于第一变形的参考视图的第一候选像素,以及来自于第二变形 的参考视图的第二候选像素,这是基于后向合成处理、所述第一和第二候选像素周围的空 洞分布、在所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来评估 所述第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变形的参考视 图为单个的合成视图的一部分;以及基于所述评估,为所述单个合成视图内的给定的目标像素确定一个结果(1075,1080)。
30.根据权利要求四的设备,其中所述设备包括编码器(310)。
31.根据权利要求四的设备,其中所述设备包括解码器(420)。
32.根据权利要求四的设备,其中所述视图合并器包括空洞标记器,用于标记所述给定的目标像素为空洞。
33.一种设备,包括视频合并器020),该视频合并器被配置来评估(1010,105 来自于第一变形的参考视图的第一候选像素,及来自于第二变形的 参考视图的第二候选像素,这是基于后向合成处理、所述第一和第二候选像素周围的空洞 分布、在所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来评估所 述第一和第二候选像素的质量的,所述评估作为合并至少所述第一和第二变形的参考视图 为单个的合成视图的一部分;基于所述评估,为所述单个合成视图内的给定的目标像素确定一个结果(1075,1080);以及用于调制信号的调制器(320),所述信号包括所述单个的合成视图。
34.根据权利要求33的设备,其中所述设备包括编码器(310)。
35.根据权利要求33的设备,其中所述设备包括解码器(420)。
36.一种设备,包括用于解调信号的解调器G20),所述信号至少包括第一变形的参考视图和第二变形的 参考视图;以及视图合并器020),该视图合并器被配置为评估(1010,105 来自于第一变形的参考视图的第一候选像素和来自于第二变形的 参考视图的第二候选像素,这是基于后向合成处理、所述第一和第二候选像素周围的空洞 分布、在所述第一和第二候选像素周围能量超过特定的频率的量其中的至少一个来评估所述第一和第二候选像素的质量的,所述评估作为合并所述第一和第二变形的参考视图为单 个的合成视图的一部分;以及基于所述评估,为所述单个合成视图内的给定的目标像素确定一个结果(1075,1080)。
全文摘要
几个实施方式涉及用于3D视频(3DV)应用的具有启发式视图合并的视图合成。根据一个方面,评估(1010,1055)来自于第一变形的参考视图的第一候选像素,以及来自于第二变形的参考视图的第二候选像素,这是基于后向合成处理、所述第一和第二候选像素周围的空洞分布、在所述第一和第二候选像素周围的能量超过一个规定的频率的量中的至少一个来评估所述第一和第二候选像素的质量的,所述评估作为合并所述第一和第二变形的参考视图为单个的合成视图的一部分。基于所述评估,为所述单个合成视图内的一个给定的目标像素确定一个结果(1075,1080)。所述结果可以是确定给定的目标像素的值,或者标记所述给定的目标像素为空洞。
文档编号H04N13/00GK102138334SQ200980134022
公开日2011年7月27日 申请日期2009年8月28日 优先权日2008年8月29日
发明者倪泽峰, 琼·拉奇, 田栋, 西塔拉姆·布哈加瓦泰 申请人:汤姆逊许可公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1