多视角图像的注视校正的制作方法

文档序号:15285756发布日期:2018-08-29 00:03阅读:184来源:国知局

本申请涉及根据头部的眼睛的所感知的注视对头部的多视角图像(例如,头部的立体图像对)的图像处理。



背景技术:

在许多系统中,头部的立体图像对或更一般地多视角图像可捕获在一个设备中,并且显示在不同设备上以便由观察者观看。一个非限制性示例是用于执行两个电信设备之间的电话会议的系统。在这种情况下,每个设备可捕获该设备的观察者的头部的立体图像对或更一般地多视角图像,并且通过电信网络将其传输到另一个设备以便显示并由另一个设备的观察者观看。

当头部的立体图像对或更一般地多视角图像被捕获和显示时,所显示的立体图像对或更一般地多视角图像中的头部的注视可能并未指向观察者。这可例如因头部的注视未指向用于捕获立体图像对的相机系统而引起,例如由于其头部被成像的用户正在观察与相机系统相同的设备中的显示器并且相机系统向上(或向下)偏离该显示器。在这种情况下,所显示的图像中的注视将被感知为向下的(或向上的)。人类视觉系统已进化到在社交互动期间使用从其他观察者的虹膜与白色巩膜的相对位置获取的线索高度敏感地感知注视。因此,所感知的注视的错误会令人不安。例如,在用于执行电话会议的系统中,所感知的注视的错误可造成用户之间不自然的互动。



技术实现要素:

本公开涉及用于调节头部的立体图像对或更一般地多视角图像以校正所感知的注视的图像处理技术。

根据本公开的第一方面,提供了用于调节头部的多视角图像以校正注视的方法,该方法包括:在多视角图像的每个图像中,分别识别包含头部的左眼和右眼的图像块;针对在多视角图像的每个图像中包含头部的左眼的图像块,并且还针对在多视角图像的每个图像中包含头部的右眼的图像块,执行以下步骤:从多视角图像的至少一个图像中的图像块的多个本地图像描述符导出特征向量;以及使用所导出的特征向量查找包括与特征向量的可能值相关联的参考位移向量场的参考数据,从而导出表示图像块的变换的位移向量场;以及通过根据所导出的位移向量场变换包含头部的左眼和右眼的图像块,从而调节多视角图像的每个图像。

在该方法中,识别并变换包含头部的左眼和右眼的图像块。为了导出表示该变换的位移向量场,从多视角图像的至少一个图像中的图像块的多个本地图像描述符导出特征向量,并且使用特征向量查找包括与特征向量的可能值相关联的参考位移向量场的参考数据。可提前使用机器学习从参考数据导出特征向量的形式。该方法允许注视被校正,从而在随后显示多视角图像时减少错误注视的令人不安的效果。

如下导出和使用位移向量场的各种方法是可能的。

在第一方法中,可针对多视角图像的每个图像中的图像块独立地导出位移向量场。这允许对注视进行校正,但存在针对每个图像的位移向量场彼此可能不一致的风险,其结果是执行相冲突的变换,从而可使立体效果失真和/或降低图像质量。

然而,以下替代方法克服了该问题。

第二可能方法如下。在第二方法中,该方法中所使用的多个本地图像描述符是多视角图像的两个图像中的多个本地图像描述符。在这种情况下,参考数据包括用于多视角图像的每个图像的参考位移向量场,这些参考位移向量场与特征向量的可能值相关联。这允许位移向量场从用于多视角图像的每个图像的参考数据导出。因此,所导出的用于多视角图像的每个图像的位移向量场是固有地一致的。

该第二方法的潜在不利之处在于其可能需要参考数据从立体图像或更一般地多视角图像导出,这可能不便于导出。然而,以下方法允许参考数据从单视场图像导出。

第三可能方法如下。在第三方法中,多个本地图像描述符是多视角图像的一个图像中的多个本地图像描述符,并且按如下方式导出位移向量场。使用所导出的特征向量查找包括与特征向量的可能值相关联的参考位移向量场的参考数据,从而导出表示多视角图像的所述一个图像中的图像块的变换的位移向量场。然后,通过根据所述一个图像和一个或多个其他多视角图像中的图像块之间的光流的估计值来变换表示多视角图像的所述一个图像中的图像块的变换的所导出的位移向量场,从而导出表示一个或多个其他多视角图像中的图像块的变换的位移向量场。

因此,在第三方法中,针对每个图像导出的位移向量场是一致的,这是由于仅从参考数据导出一个位移向量场,并且根据多视角图像的图像中的图像块之间的光流的估计值,使用变换从其导出另一个位移向量场。

第四可能方法如下。在第四方法中,多个本地图像描述符是多视角图像的两个图像中的多个本地图像描述符,并且按如下方式导出位移向量场。使用所导出的特征向量查找包括与特征向量的可能值相关联的参考位移向量场的参考数据,从而导出初始位移向量场,该初始位移向量场表示概念性图像中的概念性图像块的概念性变换,该概念性图像具有相对于多视角图像的图像的相机位置的概念性相机位置。然后,通过根据概念性图像中的概念性图像块与多视角图像的图像中的图像块之间的光流的估计值来变换初始位移向量场,从而导出表示多视角图像的每个图像中的图像块的变换的位移向量场。

因此,在第四方法中,针对每个图像导出的位移向量场是一致的,这是由于仅从参考数据导出一个位移向量场,这表示概念性图像中的概念性图像块的概念性变换,该概念性图像具有相对于多视角图像的图像的相机位置的概念性相机位置。根据概念性图像中的概念性图像块与多视角图像的图像之间的光流的估计值,使用变换从其导出用于变换多视角图像的两个图像的相应位移向量场。

第五可能方法如下。在第五方法中,导出针对多视角图像的每个图像中的图像块的位移向量场,但随后从其导出合并的位移向量场并且使用该合并的位移向量场来变换包含头部的左眼和右眼的图像块。在这种情况下,用于每个图像的位移向量场是一致的,因为它们是相同的。

该合并能够以任何合适的方式执行。例如,该合并可为简单平均,或可为由与每个所导出的位移向量场相关联的置信度值加权的平均。可在机器学习期间导出此置信度值。

根据本公开的第二方面,提供了被配置为执行与本公开的第一方面类似的方法的装置。

附图说明

非限制性实施方案通过示例的方式在附图中示出,其中类似的参考标号表示类似的部件,并且其中:

图1是捕获立体图像对的设备的示意性透视图;

图2是显示立体图像对的设备的示意性透视图;

图3是调节立体图像对的方法的流程图;

图4是示出在图3的方法中对立体图像对的处理的示意图;

图5是提取图像块的步骤的流程图;

图6和图7是根据两种替代方法导出位移向量场的步骤的流程图;

图8和图9是用于调节图像的步骤的两种替代方案的流程图;

图10是在图8和图9所示的方法中调节图像的步骤内的变换步骤的流程图;并且

图11是可实施该方法的电信系统的示意图。

具体实施方式

图1和图2示出了在头部的立体图像对由图1所示的设备10(其将被称为源设备10)捕获并显示在图2所示的不同设备20(其将被称为目标设备20)上时如何感知到错误注视。

捕获设备10包括显示器11,并且相机系统12包括用于捕获源观察者14的头部的立体图像对的两个相机13。源观察者14沿着线15观看显示器11。相机系统12的相机13从显示器11偏移,在这种情况下在显示器11上方。因此,相机13实际上沿着线16俯视源观察者14。

显示设备20包括显示器21,其是任何已知类型的立体显示器,例如任何已知类型的自动立体显示器。显示器21显示由捕获设备10捕获的立体图像对。目标观察者24观看显示器21。如果目标观察者24位于与显示器21中心垂直的正常观看位置中(如目标观察者24的实线轮廓所示),则源观察者14的注视被目标观察者24感知为向下的,而不是看着目标观察者24,因为源设备10的相机13俯视源观察者14。

虽然在该示例中相机13在显示器11上方,但相机13一般可在与显示器11相邻的任何位置中,并且目标观察者24所感知的源观察者14的注视相应地将是错误的。

如果目标观察者24位于偏移观看位置中(如目标观察者24的虚线轮廓所示)使得目标观察者24沿着线26观看显示器21,则目标观察者24的偏移产生目标观察者24所感知的源观察者14的注视的附加错误。如果目标观察者24位于沿着线25的正常观看位置中,但立体图像对显示在显示器25上的从显示器25的中心偏移的位置中,则会发生源观察者14的所感知的注视的类似附加错误。

立体图像对是存在两个图像的多视角图像的示例。虽然图1示出了相机系统12包括捕获立体图像对的两个相机13的示例,但另选地,相机系统可包括捕获超过两个多视角图像的超过两个相机13,在这种情况下显示器上存在错误感知的注视的类似问题。

图3示出了调节多视角图像以校正所感知的注视的此类错误的方法。为简单起见,将相对于包括立体图像对的多视角图像的调节来描述该方法。简单地对更大数量的图像执行类似处理,可将该方法推广到包括超过两个图像的多视角图像。

可在图像处理器30中执行该方法。图像处理器30可由执行合适计算机程序的处理器实施,或由专用硬件实施,或由软件与硬件的某种组合实施。在使用计算机程序的情况下,计算机程序可包括任何合适语言的指令并且可存储在计算机可读存储介质上,该计算机可读存储介质可为任何类型,例如:可插入到计算系统的驱动器中并且能够以磁性、光学或光磁方式存储信息的记录介质;计算机系统的固定记录介质,诸如硬盘驱动器;或计算机存储器。

图像处理器30可提供于源设备10、目标设备10中或任何其他设备中,例如电信网络上的服务器,该服务器可适用于源设备10和目标设备10通过这种电信网络进行通信的情况。

立体图像对31由相机系统12捕获。虽然相机系统12在图1中被示出为包括两个相机13,但这不是限制性的,并且更一般地,相机系统13可具有以下特性。

相机系统包括具有至少两个相机13的一组相机13。这些相机通常以小于平均人瞳孔间距离的距离间隔开。在该方法应用于超过两个多视角图像的替代方案中,于是存在超过两个相机13,即每个图像一个相机13。

相机13彼此在空间上相关,并与显示器11在空间上相关。相机13自身之间以及相机13与显示器11之间的空间关系已提前得知。可应用已知用于寻找空间关系的方法,例如使用参考图像或先验规范的校准方法。

相机13面向与显示器11相同的方向。因此,当源观察者14正在观看显示器11时,则相机13面向源观察者14并且所捕获的立体图像对是源观察者14的头部的图像。相机系统中的相机可具有不同视场。

相机系统12可包括具有不同感测模态(包括可见光和红外线)的相机13。

相机系统13的主输出是立体图像对31,其通常为以视频速率输出的视频图像。相机系统13的输出还可包括这样的数据,其表示相机13与显示器11之间的空间关系、感测模态的性质以及可用于角定位的相机13的内部参数(例如,焦距、光轴)。

对立体图像对31执行的方法如下。为了说明该方法,还参考图4,该图示出了在该方法的各个阶段处的立体图像对31的示例。

在步骤s1中,分析立体图像对31以检测头部的位置,并且具体地检测立体图像对31内的源观察者14的眼睛的位置。这通过检测头部的存在、跟踪头部并且定位头部的眼睛来进行。步骤s1可使用本领域已知的多种技术进行。

用于检测头部的存在的一种可能技术是使用haar特征级联,例如如violaandjones,“rapidobjectdetectionusingaboostedcascadeofsimplefeatures”,cvpr2001,pp1-9(viola和jones,“使用简单特征增强级联的快速目标检测”,cvpr2001,第1-9页,该文献以引用方式并入本文)中所公开。

用于跟踪头部的一种可能技术是使用主动表观模型的方法来提供对象的头部的位置以及眼睛的位置,例如如cootesetal.,“activeshapemodels-theirtrainingandapplication”,computervisionandimageunderstanding,61(1):38-59,jan.1995(cootes等人,“主动形状模型-其训练与应用”,《计算机视觉与图像理解》,第61卷,第1期,第38-59页,1995年1月)以及cootesetal.“activeappearancemodels”,ieeetrans.patternanalysisandmachineintelligence,23(6):681-685,2001(cootes等人,“主动表观模型”,《ieee模式分析与机器智能汇刊》,第23卷,第6期,第681-685页,2001年,该文献以引用方式并入本文)中所公开。

在步骤s1中,通常,将一组单独点(“标志”)设定到面部区域(通常为眼睛,例如眼角、上下眼睑位置等),从而定位眼睛。

在步骤s2中,分别在立体对的每个图像31中识别包含头部左眼和右眼的图像块。图4示出了每个图像31中的右眼的所识别的图像块32(为清楚起见,图4中省略了左眼的图像块)。

步骤s2可如图5所示的那样按如下方式执行。

在步骤s2-1中,在立体对的每个图像31中识别包含头部左眼和右眼的图像块32。这通过以下方式进行:在每个图像31中识别位于与眼睛特征相对应的识别点(“标志”)周围的图像块39,如例如图4所示。

在步骤s2-2中,将步骤s2-1中识别的图像块32变换到归一化坐标系中,该归一化坐标系是与下面进一步描述的机器学习过程所用相同的归一化坐标系。该变换被选择为使步骤s1中识别的图像块内的眼睛的点(“标志”)与归一化坐标系中的预定位置对齐。变换可包括平移、旋转和缩放达到适当程度以实现该对齐。步骤s2-2的输出是归一化坐标系中的每个图像中的右眼的所识别的图像块33,如例如图4所示。

(a)针对立体对的每个图像31中包含头部的左眼的图像块以及(b)针对立体对的每个图像31中包含头部的右眼的图像块单独地执行以下步骤。为简洁起见,以下描述将仅涉及图像块和眼睛而不指定左眼或右眼,但应注意的是对左眼和右眼均执行相同步骤。

在步骤s3中,从立体对的至少一个图像31中的图像块33的多个本地图像描述符导出特征向量34。根据该方法以及如下面进一步所述,这可为立体对的单个图像31中的图像块,或可为立体对的两个图像31。因此,这些本地图像描述符是在归一化坐标系中导出的本地图像描述符。

特征向量34是适用于查找包括参考位移向量场的参考数据35的图像块33的表示,这些参考位移向量场表示图像块的变换并且与特征向量的可能值相关联。

获得参考数据35并且提前使用机器学习技术分析该参考数据,该机器学习技术导出特征向量34的形式并且将参考位移向量场与特征向量的可能值相关联。因此,在重回图3的方法之前现在将描述机器学习技术。

机器学习技术的训练输入是两组图像,这两组图像可为立体图像对或单视场图像,如下面进一步讨论。每组包括同一组个体的头部的图像,但在相对于注视的不同位置中从相机捕获,使得所感知的注视在他们之间不同。

第一组是输入图像,这些输入图像是具有错误注视的每个个体的图像,其中该错误是先验已知的。具体地讲,第一组中的图像可由至少一个相机在已知的相机位置中捕获,其中个体的注视处于不同的已知方向。例如就图1的源设备而言,相机位置可为相机13的位置,而被成像的个体的注视朝向显示器11的中心。

第二组是输出图像,这些输出图像是具有预定观察者位置相对于要显示图像的显示位置的正确注视的每个个体的图像。在最简单的情况下,观察者位置是与显示位置的中心垂直的正常观看位置,例如如就图2的目标设备20而言目标观察者24的实线轮廓所示。

对于这两组中的每个图像,使用与上述步骤s1中所用相同的技术分析该图像以检测头部的位置、特别是眼睛的位置,然后使用与上述步骤s2中所用相同的技术分别识别包含头部左眼和右眼的图像块。之后(a)针对每个图像中包含头部的左眼的图像块以及(b)针对每个图像中包含头部的右眼的图像块单独地执行以下步骤。为简洁起见,以下描述将仅涉及图像块和眼睛而不指定左眼或右眼,但应注意的是对左眼和右眼均执行相同步骤。

将每个图像块变换到与上述步骤s2中所用相同的归一化坐标系中。如上所述,该变换被选择为使眼睛的点(“标志”)与归一化坐标系中的预定位置对齐。变换可包括平移、旋转和缩放达到适当程度以实现该对齐。

因此,每个个体的图像块输入和输出图像在归一化坐标系中对齐。

从每个个体的输入和输出图像导出了位移向量场,该位移向量场表示获得输出图像的图像块所需的输入图像中的图像块的变换,例如如下所述。在由(x,y)限定图像块中的位置的情况下,由下式给定位移向量场f:

f={u(x,y),v(x,y)}

其中u和v限定每个位置(x,y)处的向量的水平分量和垂直分量。

位移向量场f被选择为使得输出图像o(x,y)的图像块从输入图像i(x,y)的图像块导出如下:

o(x,y)=i(x+u(x,y),y+v(x,y))

对于来自超过一个相机的图像数据,该系统得出来自每个相机的输入图像的位移向量场。

可使用试验特征向量f'={u',v'}被修改为使错误最小化的过程,任选地在迭代过程中,例如根据下式导出个体的输入和输出图像的位移向量场f:

∑|o(x,y)-i(x+u'(x,y),y+v'(x,y))|=min!

作为非限制性示例,可按kononenkoetal.,“learningtolookup:realtimemonoculargazecorrectionusingmachinelearning”,computervisionandpatternrecognition,2015,pp.4667-4675(kononenko等人,“学习查找:使用机器学习的实时单眼注视校正”,《计算机视觉和模式识别》,2015年,第4667-4675页,该文献以引用方式并入本文)中所公开的那样导出位移向量场f,其中位移向量场f被称为“流场”。

使用机器学习技术获得从每个个体的位移向量场f到由输入图像的图像块的多个本地图像描述符导出的相应特征向量的映射。

本地描述符捕获输入图像的图像块的本地部分的相关信息,并且该组描述符通常形成连续向量输出。

输入到机器学习过程中的本地图像描述符是预计能对不同个体进行区分的类型,但特定本地图像描述符由机器学习过程自身进行选择和优化。一般来讲,本地图像描述符可为任何合适的类型,能够以任何组合应用的一些非限制性示例如下。

本地图像描述符可包括单独像素或其线性组合的值。这种线性组合可为例如两个点处的像素之间的差值、任意位置处的掩膜内导出的核心、或不同位置处的两个核心之间的差值。

本地图像描述符可包括像素位置离眼点(“标志”)的位置的距离。

本地图像描述符可包括sift特征(尺度不变特征变换特征),例如如lowe,“distinctiveimagefeaturesfromscale-invariantkeypoints”,internationaljournalofcomputervision60(2),pp91-110(lowe,“来自尺度不变关键点的独特图像特征”,《计算机视觉国际杂志》,第60卷,第2期,第91-110页,该文献以引用方式并入本文)中所公开。

本地图像描述符可包括hog特征(梯度方向直方图特征),例如如dalaletal.“histogramsoforientedgradientsforhumandetection”,computervisionandpatternrecognition,2005,pp.886-893(dalal等人,“用于人体检测的梯度方向直方图”,《计算机视觉和模式识别》,2005年,第886-893页,该文献以引用方式并入本文)中所公开。

特征向量从多个本地图像描述符的导出取决于所应用的机器学习的类型。

在第一类型的机器学习技术中,特征向量可包括这样的特征,其是从离散空间中的本地图像描述符导出的值,所述值是二进制值或者被离散成超过两个可能值的值。在这种情况下,机器学习技术将从训练输入导出的参考位移向量场f与离散空间中的特征向量的每个可能值相关联,因此参考数据35基本上为查找表。这允许基于步骤s3中导出的特征向量34而从参考数据35简单地选择参考位移向量场f,如下所述。

在特征向量包括作为从本地图像描述符导出的二进制值的特征的情况下,特征向量具有二进制表示。此类二进制值能够以各种方式从描述符的值导出,例如通过将描述符的值与阈值进行比较,比较两个描述符的值,或比较像素位置离眼点(“标志”)的位置的距离。

另选地,特征向量可包括作为本地图像描述符的离散化值的特征。在这种情况下,每个特征的超过两个离散值是可能的。

可应用任何合适的机器学习技术,例如使用决策树、决策森林、决策蕨或它们的集合或组合。

作为示例,使用包括作为通过将一组单独像素或其线性组合与阈值进行比较而导出的二进制值的特征的特征向量的合适机器学习技术在ozuysaletal.“fastkeypointrecognitionintenlinesofcode”,computervisionandpatternrecognition,2007,pp.1-8(ozuysal等人,“十行代码中的快速关键点识别”,《计算机视觉和模式识别》,2007年,第1-8页,该文献以引用方式并入本文)中有所公开。

作为另外的示例,使用像素位置与眼睛标志位置的距离的合适机器学习技术在kononenkoetal.,“learningtolookup:realtimemonoculargazecorrectionusingmachinelearning”,computervisionandpatternrecognition,2015,pp.4667-4675(kononenko等人,“学习查找:使用机器学习的实时单眼注视校正”,《计算机视觉和模式识别》,2015年,第4667-4675页,该文献以引用方式并入本文)中有所公开。

作为另外的示例,使用随机决策森林的合适机器学习技术在ho,“randomdecisionforests”,proceedingsofthe3rdinternationalconferenceondocumentanalysisandrecognition,montreal,qc,14-16august1995,pp.278-282(ho,“随机决策森林”,《第3届文档分析与识别国际会议论文集》,魁北克省蒙特利尔,1995年8月14-16日,第278-282页,该文献以引用方式并入本文)中有所公开。

在第二类型的机器学习技术中,特征向量可包括作为连续空间中的本地图像描述符的离散值的特征。在这种情况下,机器学习技术将从训练输入导出的参考位移向量场f与连续空间中的特征向量的可能离散值相关联。这允许通过基于在步骤s3中导出的特征向量34与和参考位移向量场相关联的特征向量的值之间的关系从参考位移向量场内插,而从参考数据35导出位移向量场f。

可应用任何合适的机器学习技术,例如使用支持向量回归。

作为示例,使用支持向量回归的合适机器学习技术在druckeretal.“supportvectorregressionmachines”,advancesinneuralinformationprocessingsystems9,nips1996,155-161(drucker等人,“支持向量回归机”,第9届神经信息处理系统进展大会,nips,1996年,第155-161页,该文献以引用方式并入本文)中有所公开。该技术的输出是构成参考数据35一部分且用于内插中的内插方向的连续变化组。

机器学习技术,不论其类型如何,还固有地导出特征向量34的形式,这些特征向量用于导出参考位移向量场f。这是在步骤s3中导出的特征向量34的形式。

任选地,可增大机器学习技术的输出以提供与位移向量场从参考数据35的导出相关联的置信度值。

在特征向量包括作为离散空间中的值的特征的情况下,为每个参考位移向量场导出置信度值。

导出置信度值的一个示例是对于所得查找表中的每个所得索引(特征向量的值)而言,保持训练数据中的输入图像的对应部分的分布。在这种情况下,置信度值可以是结果为相同索引的训练数据的量除以训练数据样本的总数。

导出置信度值的另一个示例是将高斯拟合到每个加索引二进制中的训练数据中的输入图像的分布,并且使用平均值附近的协方差矩阵的迹作为置信度值。

在特征向量包括作为连续空间中的本地图像描述符的离散值的特征的情况下,可根据所使用的机器学习方法导出置信度值。例如,当使用支持向量回归时,置信度值可为离支持向量的最大距离的倒数。

在使用时,置信度值作为参考数据的一部分存储。

描述现在重回到图3的方法。

在步骤s4中,使用在步骤s3中导出的特征向量34查找参考数据35,从而导出表示图像块的变换的至少一个位移向量场37。由于位移向量场37从参考数据35的导出,由此表示的变换对在显示立体图像对31时将感知到的注视进行校正。

在特征向量34包括作为离散空间中的值的特征并且参考数据35的参考位移向量场包括与离散空间中的特征向量的每个可能值相关联的参考位移向量场的情况下,则通过选择与所导出的特征向量34的实际值相关联的参考位移场来导出用于图像块的位移向量场。

在特征向量34包括作为连续空间中的本地图像描述符的离散值的特征的情况下,则通过基于所导出的特征向量34的实际值与和参考位移向量场相关联的特征向量的值之间的关系来从参考位移向量场内插位移向量场,从而导出用于图像块的位移向量场。在机器学习技术是支持向量回归的情况下,这可使用构成参考数据35一部分的内插方向进行。

现在将描述在步骤s4中导出位移向量场37的一些不同方法。

在第一方法中,在步骤s4中,针对立体对的每个图像31中的图像块独立地导出位移向量场37。可在从单视场图像导出参考数据35时应用该第一方法。该方法提供对注视的校正,但存在针对每个图像的位移向量场37彼此可能不一致的风险,其结果是随后执行相冲突的变换,从而可使立体效果失真和/或降低图像质量。

克服该问题的其他方法如下。

在第二可能方法中,用于在步骤s3中导出特征向量34的多个本地图像描述符是立体对的两个图像中的多个本地图像描述符。在这种情况下,参考数据35类似地包括用于立体图像对的每个图像31的多对参考位移向量场,其是与特征向量34的可能值相关联的多对参考位移向量场。

该第二方法允许一对位移向量场35从参考数据35导出,即用于立体对的每个图像31的一个位移向量场。因此,所导出的用于立体对的每个图像31的位移向量场是固有地一致的,这是由于它们一起从参考数据35中的一致对的参考位移向量场导出。

该第二方法的不利之处在于其需要参考数据35从作为立体图像对的机器学习技术的训练输入导出。这不会产生任何技术难点,但可产生一些实际不便,因为单视场图像更普遍可获得。因此,在从作为单视场图像的机器学习技术的训练输入导出参考数据35时可应用下列方法。

在第三可能方法中,从多个本地图像描述符导出特征向量34,所述多个本地图像描述符是从立体对的一个图像导出的多个本地图像描述符。在这种情况下,如图6所示那样按如下方式导出位移向量场37。

在步骤s4-1中,导出第一位移向量场37,该第一位移向量场表示立体对的所述一个图像31(其可为任一图像31)中的图像块的变换。这使用所导出的特征向量34查找参考数据35来进行。

在步骤s4-2中,导出位移向量场37,该位移向量场表示立体对的另一图像31中的图像块的变换。这通过根据立体对的图像31中的图像块之间的光流的估计值变换在步骤s4-1中导出的位移向量场来进行。

光流表示立体对的图像31之间的不同相机位置的效果。这种光流本身是已知的并且可使用已知的技术估计,例如如zachetal.,“adualitybasedapproachforrealtimetv-l1opticalflow”,patternrecognition(proc.dagm),2007,pp.214-223(zach等人,“用于实时tv-l1光流的基于对偶的方法”,模式识别(dagm论文集),2007年,第214-223页,该文献以引用方式并入本文)中所公开。

作为示例,如果在步骤s4-1中导出的第一位移向量场37用于左图像lo,li(其中下标o和i分别表示输出图像和输入图像),并且右图像ro的光流由下式所给出的位移向量场g表示:

g={s(x,y),t(x,y)}

则可根据下式导出第二位移向量场37:

ro(x,y)=lo(x+s(x,y),y+t(x,y))=li(x+s+u(x+s,y+t,y+t+v(x+s,y+t)

因此,在第三方法中,针对立体对的每个图像31导出的位移向量场37是一致的,这是由于仅从参考数据35导出一个位移向量场,并且使用变换从其导出另一个位移向量场,该另一个位移向量场保持一致性,因为其是根据立体对的图像31中的图像块之间的光流的估计值导出的。

在第四可能方法中,从多个本地图像描述符导出特征向量34,所述多个本地图像描述符是从立体对的两个图像导出的多个本地图像描述符。在这种情况下,如图7所示那样按如下方式导出位移向量场37。

在步骤s4-3中,导出初始位移向量场,该初始位移向量场表示概念性图像中的概念性图像块的概念性变换该概念性图像具有相对于图像31的相机位置的预定位置中(在该示例中在图像31的相机位置之间)的概念性相机位置。这可被视为中央眼。这使用所导出的特征向量34查找参考数据35来进行,该参考数据包括与特征向量的可能值相关联的参考位移向量场。这意味着参考数据35相应地被结构化,但仍可从包括单视场图像的训练输入导出。

在步骤s4-4中,导出位移向量场37,该位移向量场表示立体对的每个图像31中的图像块的变换。这通过根据概念性图像中的概念性图像块与立体对的图像31中的图像块之间的光流的估计值变换在步骤s4-3中导出的初始位移向量场来进行。

光流表示概念性图像与立体对的图像31之间的不同相机位置的效果。这种光流本身是已知的并且可使用已知的技术估计,例如如zachetal.,“adualitybasedapproachforrealtimetv-l1opticalflow”,patternrecognition(proc.dagm),2007,pp.214-223(zach等人,“用于实时tv-l1光流的基于对偶的方法”,模式识别(dagm论文集),2007年,第214-223页,该文献如上所引用且以引用方式并入本文)中所公开。

作为示例,如果从左图像l到右图像r的光流由下式所给出的位移向量场g表示:

g={s(x,y),t(x,y)}

则导出概念性图像c的变换由下式给出:

因此,在该示例中,在步骤s4-4中变换在步骤s4-3中对该概念性图像c导出的初始位移向量场f,以根据下式导出用于右图像和左图像的流场frc和flc:

因此,在第四方法中,针对立体对的每个图像31导出的位移向量场37是一致的,这是由于仅从参考数据35导出一个位移向量场,这表示概念性图像中的概念性图像块的概念性变换,并且使用变换从其导出用于左图像和右图像的位移向量场,该位移向量场保持一致性,因为其是根据概念性图像中和立体对的图像31中的图像块之间的光流的估计值导出的。

在步骤s5中,通过根据所导出的位移向量场37变换包含头部的左眼和右眼的图像块,从而调节立体对的每个图像31。这产生了如图4所示的经调节的立体图像对38,其中已校正注视。具体地讲,可使用两种替代方法按如下方式执行该调节。

用于执行步骤s5的第一方法示于图8中并且按如下方式执行。

在步骤s5-1中,根据针对相同图像的对应位移向量场37在归一化坐标系中变换图像块,从而校正注视。如上所述,对于位移向量场f,输入图像i(x,y)的图像块的变换根据下式提供输出图像o(x,y):

o(x,y)=i(x+u(x,y),y+v(x,y))

在步骤s5-2中,将从步骤s5-1输出的经变换的图像块从归一化坐标系中变换,回到对应图像31的原始坐标系中。这使用步骤s2-2中所应用的变换的逆变换来进行。

在步骤s5-3中,将从步骤s5-2输出的经变换的图像块叠加在对应图像31上。这可使用与眼睛自身相对应的眼睛区域内的完全替换以及经变换的图像块与原始图像31之间在眼睛区域周围的边界区域内的平滑过渡来进行。边界区域的宽度可为固定尺寸或原始图像31中的图像块的尺寸的一定百分比。

用于执行步骤s5的第二方法示于图9中并且按如下方式执行。

在该第二替代方法中,在根据经变换的位移向量场f对图像块进行变换之前,进行回到对应图像31的坐标系中的变换。

在步骤s5-4中,将位移向量场f从归一化坐标系中变换,回到对应图像31的原始坐标系中。这使用步骤s2-2中所应用的变换的逆变换来进行。

在步骤s5-5中,根据已在步骤s5-4中变换到相同坐标系中的位移向量场f来变换图像31的坐标系中的图像块32。如上所述,对于位移向量场f,输入图像i(x,y)的图像块的变换根据下式提供输出图像o(x,y):

o(x,y)=i(x+u(x,y),y+v(x,y))

但此时在原始图像31的坐标系中执行该变换。

步骤s5-6与s5-3相同。因此,在步骤s5-6中,将从步骤s5-5输出的经变换的图像块叠加在对应图像31上。这可使用与眼睛自身相对应的眼睛区域内的完全替换以及经变换的图像块与原始图像31之间在眼睛区域周围的边界区域内的平滑过渡来进行。边界区域的宽度可为固定尺寸或原始图像31中的图像块的尺寸的一定百分比。

现在将讨论步骤s5中所使用的位移向量场37。

一种选择是在步骤s4中针对左图像和右图像导出的位移向量场37直接用于步骤s5中。即,针对立体块的每个图像31的图像块根据针对该图像31的位移向量场37来变换。这在位移向量场37足够准确时是适当的,例如因为它们已从参考数据35导出,而该参考数据自身根据上述第二方法从立体图像导出。

根据第五方法的替代选择是导出并使用合并的位移向量场39。这可结合上述第一至第四方法中的任何方法一起应用。在这种情况下,步骤s5另外包括如图10所示的步骤s5-a,该步骤在图8的第一方法中的步骤s5-1之前或在图9的第二方法中的步骤s5-4之前进行。在步骤s5-a中,可从在步骤s4中针对立体对的每个图像31中的图像块导出的位移向量场37来导出合并的位移向量场39。

然后使用针对每个图像31的合并的位移向量场39执行步骤s5的其余部分。即,在图8的第一方法中,在步骤s5-1中根据合并的位移向量场39来变换针对立体对的每个图像31的图像块33。类似地,在图9的第二方法中,在步骤s5-4中变换合并的位移向量场39,并且在步骤s5-5中根据该合并的位移向量场39来变换针对立体对的每个图像31的图像块33。

在这种情况下,用于每个图像的位移向量场是一致的,因为它们是相同的。

步骤s5-1a中的合并能够以任何合适的方式执行。

在一个示例中,步骤s5-1a中的合并可为在步骤s4中导出的位移向量场37的简单平均

在另一个示例中,步骤s5-1a中的合并可为由与每个所导出的位移向量场37相关联的置信度值加权的平均。在这种情况下,置信度值以上述方式构成参考数据35的一部分,并且在步骤s4中从参考数据35及所导出的位移向量场37导出置信度值。

作为示例,若将所导出的位移向量场37表示为fi,将合并的位移向量场39表示为favg,并且将置信度值表示为ai,则合并的位移向量场39可导出如下:

在上述示例中,对观察者位置中的目标观察者24校正注视,该观察者位置是与显示位置的中心垂直的正常观看位置,例如如就图2的目标设备20而言目标观察者24的实线轮廓所示。这在许多情况下已足够。然而,现在将描述任选的修改形式,其允许对不同观察者位置中的目标观察者24校正注视,例如如就图2的目标设备20而言目标观察者24的虚线轮廓所示。

在这种情况下,该方法还包括使用表示相对于立体图像对31的显示位置的观察者位置的位置数据40。可在目标设备20中导出该位置数据40,例如如下所述。在这种情况下,如果不在目标设备20中执行该方法,则将位置数据40传输到执行该方法的设备。

相对观察者位置可以考虑观察者相对于显示器21的位置。这可使用目标设备20中的相机系统和适当的头部跟踪模块检测目标观察者24的位置来确定。

相对观察者位置可假定在显示器21的中心显示图像。另选地,相对观察者位置可以考虑观察者相对于显示器21的位置以及显示器21上所显示的图像的位置。在这种情况下,可从显示器几何形状(例如,显示窗的位置和区域及显示器21的尺寸)导出显示器21上所显示的图像的位置。

为了考虑不同观察者位置,参考数据34包括多组参考位移向量场,每组与不同观察者位置相关联。这通过包括多个第二组输出图像的机器学习技术的训练输入来实现,每个第二组是具有相应预定观察者位置相对于要显示图像的显示位置的正确注视的每个个体的图像。因此,在步骤s4中,通过查找与由位置数据表示的观察者位置相关联的参考位移向量场的该组来导出位移向量场37。

如上所述,该方法可在各种不同设备中所提供的图像处理器30中实施。作为非限制性示例,现在将描述电信系统中的特定实施方式,其示于图11中并按如下布置。

在该实施方式中,源设备10和目标设备10通过这种电信网络50进行通信。为了通过电信网络50进行通信,源设备10包括电信接口17并且目标设备20包括电信接口27。

在该实施方式中,在源设备10中提供图像处理器30并且为该图像处理器提供直接来自相机系统12的立体图像对。电信接口17被布置为通过电信网络50将经调节的立体图像对38传输到目标设备20以便在其上显示。

目标设备20包括控制显示器26的图像显示模块28。经调节的立体图像对38通过电信接口27接收到目标设备20中,并且提供给图像显示模块28,该图像显示模块使经调节的立体图像对显示在显示器26上。

在该方法对处于除与显示位置中心垂直的正常观看位置以外的观察者位置的目标观察者24的注视进行校正的情况下,任选地包括目标设备20的以下元件。在这种情况下,目标设备20包括相机系统23和观察者位置模块29。相机系统23捕获目标观察者24的图像。观察者位置模块29导出位置数据40。观察者位置模块29包括头部跟踪模块,该头部跟踪模块使用相机系统23的输出来检测目标观察者24的位置。观察者位置模块29。在相对观察者位置还考虑显示器21上所显示的图像的位置的情况下,观察者位置模块29从图像显示模块28获得显示器21上所显示的图像的位置。电信接口17被布置为通过电信网络50将位置数据40传输到源设备10以供其使用。

虽然以上描述涉及应用于从源设备10提供给目标设备20的图像的方法,但该方法同样可应用于沿相反方向从目标设备20提供给源设备10的图像,在这种情况下,目标设备20实际上变为“源设备”并且源设备10实际上变为“目标设备”。在双向地提供图像的情况下,标签“源”和“目标”可应用于这两个设备,具体取决于需考虑的通信方向。

虽然上文描述了符合本文公开原理的各种实施方案,但应当理解,这些实施方案仅以示例性而非限制性方式示出。因此,本公开的广度和范围不应受到上述任何示例性实施方案的限制,而应该仅根据本公开发布的任何权利要求及其等同物来限定。另外,所描述的实施方案中提供了上述优点和特征结构,但不应将发布的这些权利要求的应用限于实现任何或全部上述优点的方法和结构。

另外,本文章节标题是为符合37cfr1.77的建议而提供,或者用于提供组织线索。这些标题不应限制或表征可产生于本公开的任何权利要求中所列出的实施方案。具体来说并且以举例的方式,虽然标题是指“技术领域”,但权利要求书不应受到在该标题下选择用于描述所谓的领域的语言的限制。另外,“背景技术”中对技术的描述不应被理解为承认某些技术对本公开中的任何实施方案而言是现有技术。“发明内容”也并非要被视为是对发布的权利要求书中所述的实施方案的表征。此外,本公开中对单数形式的“发明”的任何引用不应被用于辩称在本公开中仅有一个新颖点。可以根据产生于本公开的多项权利要求的限制来阐述多个实施方案,并且此类权利要求因此限定由其保护的实施方案和它们的等同物。在所有情况下,应根据本公开基于所述权利要求书本身的特点来考虑其范围,而不应受本文给出的标题的约束。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1