估计图像中对象姿势视角的方法、设备的制作方法

文档序号:6578010阅读:144来源:国知局
专利名称:估计图像中对象姿势视角的方法、设备的制作方法
技术领域
本发明涉及对象姿势估计,尤其涉及旨在进行对象姿势视角估计的训练方法、设 备和估计图像中对象姿势视角的方法、设备。
背景技术
在单个图像中估计对象(例如人、动物、物体等)姿势的方法从技术原理上可以分 为基于模型和基于学习的。基于学习的方法直接从图像特征推断对象的三维姿势。使用得 较多的图像特征是对象轮廓信息。现有的对象姿势估计的方法没有区分对象姿势的视角。由于对象姿势变化的复杂 性,对象姿势的不同视角会带来更大的模糊性。因此,不同视角的图像姿势估计的准确度要 远低于单一视角的姿势估计。

发明内容
鉴于现有技术的上述不足,本发明旨在提供一种基于输入图像的进行训练的方 法、设备和估计图像中对象姿势视角的方法、设备,以利于在对象姿势估计中区分对象姿势 视角。本发明的一个实施例是一种基于输入图像进行训练的方法,包括从具有视角类 别的多个输入图像的每个输入图像中提取图像特征;针对多个视角类别中的每个视角类 别,通过线性回归分析估计将从属于所述视角类别的输入图像中提取的图像特征转换为与 所述输入图像相应的三维对象姿势信息的映射模型;和基于通过将所述图像特征与相应三 维对象姿势信息连接而得到的样本,计算联合概率分布模型,其中所述联合概率分布模型 所基于的单概率分布模型对应于不同视角类别,并且每个所述单概率分布模型基于包含从 相应视角类别的输入图像提取的图像特征的样本。本发明的另一个实施例是一种基于输入图像进行训练的设备,包括提取单元,其 从具有视角类别的多个输入图像的每个输入图像中提取图像特征;映射估计单元,其针对 多个视角类别中的每个视角类别,通过线性回归分析估计将从属于所述视角类别的输入图 像中提取的图像特征转换为与所述输入图像相应的三维对象姿势信息的映射模型;和概率 模型计算单元,其基于通过将所述图像特征与相应三维对象姿势信息连接而得到的样本, 计算联合概率分布模型,其中所述联合概率分布模型所基于的单概率分布模型对应于不同 视角类别,并且每个所述单概率分布模型基于包含从相应视角类别的输入图像提取的图像 特征的样本。根据本发明的上述实施例,各个输入图像具有各自的视角类别。可从每个输入图 像中提取图像特征。按照视角类别,可通过线性回归分析估计出映射模型。这种映射模型 充当将该视角类别的图像特征转换为相应三维对象姿势信息的函数的作用。可将图像特征 与相应三维对象姿势信息连接以得到样本,从而基于这些样本计算联合概率分布模型。联 合概率分布模型基于若干单概率分布模型,其中每个视角类别有一个单概率分布模型。基于包含相应视角类别的图像特征的样本可得到相应的单概率分布模型。因此,通过本发明 的实施例可训练出用于对象姿势视角估计的模型,即各姿势视角的映射模型和联合概率分 布模型。进一步地,在上述实施例中,可以利用降维方法计算将图像特征降维的特征变换 模型。相应地,可以利用特征变换模型变换图像特征,以用于映射模型的估计和联合概率分 布模型的计算。经过特征变换模型的变换的图像特征具有更低的维数,利于降低后续估计 和计算的处理量。本发明的另一个实施例是一种估计图像中对象姿势视角的方法,包括从输入图 像中提取图像特征;针对多个视角类别中的每个视角类别,基于与该视角类别对应的、用于 将图像特征映射到三维对象姿势信息的映射模型,获得所述图像特征的相应三维对象姿势 信息;根据基于针对所述视角类别的单概率分布模型的联合概率分布模型,计算每个视角 类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率;根据所述联合 概率计算在所述相应三维对象姿势信息的条件下所述图像特征的条件概率;和将所述条件 概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。本发明的另一个实施例是一种估计图像中对象姿势视角的设备,包括提取单元, 其从输入图像中提取图像特征;映射单元,其针对多个视角类别中的每个视角类别,基于与 该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型,获得所述图像 特征的相应三维对象姿势信息;概率计算单元,其根据基于针对所述视角类别的单概率分 布模型的联合概率分布模型,计算每个视角类别的包含所述图像特征和相应三维对象姿势 信息的联合特征的联合概率,并且根据所述联合概率计算在所述相应三维对象姿势信息的 条件下所述图像特征的条件概率;和估计单元,其将所述条件概率中最大的条件概率所对 应的视角类别估计为所述输入图像中的对象姿势视角。根据本发明的上述实施例,可从输入图像中提取图像特征。由于每个视角类别均 有相应的用于将该视角类别的图像特征转换为三维对象姿势信息的映射模型,可分别假设 图像特征具有各个视角类别,从而利用相应的映射模型,获得图像特征的相应三维对象姿 势信息。根据联合概率分布模型可计算出在假设的各个视角类别下出现该图像特征和相应 三维对象姿势信息的联合概率。根据此联合概率可计算出在出现该相应三维对象姿势信息 的条件下出现该图像特征的条件概率。可以看出,最大条件概率所对应的视角类别假设可 以被估计为输入图像中的对象姿势视角。因而本发明的实施例能够估计出对象姿势视角。进一步地,在上述实施例中,可以通过用于降维的特征变换模型将图像特征变换, 以用于获得三维对象姿势信息。经过特征变换模型的变换的图像特征具有更低的维数,利 于降低后续映射和概率计算的处理量。现有的对象姿势估计的方法没有区分对象姿势的视角,而由于对象姿势变化的复 杂性,对象姿势的不同视角会带来很大的估计模糊性,因此不同视角的图像姿势估计的准确 度要远低于单一视角的姿势估计,本发明的目的是估计图像和视频中的对象视角,从而进一 步估计单一视角中的对象姿势,实验结果表明本发明能有效估计图像和视频中的对象姿势。


参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图 标记来表示。图1的框图示出了根据本发明一个实施例的用于基于输入图像进行训练的设备 的结构。图2的示意图示出了从输入图像中提取方块的模式。图3示出了根据本发明一个实施例的用于基于输入图像进行训练的方法的流程 图。图4的框图示出了根据本发明一个优选实施例的用于基于输入图像进行训练的 设备的结构。图5示出了根据本发明一个优选实施例的用于基于输入图像进行训练的方法的 流程图。图6的框图示出了根据本发明一个实施例的用于估计图像中对象姿势视角的设 备的结构。图7示出了根据本发明一个实施例的用于估计图像中对象姿势视角的方法的流 程图。图8的框图示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角 的设备的结构。图9示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的方法 的流程图。图10是示出其中实现本发明实施例的计算机的示例性结构的框图。
具体实施例方式下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中 省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。图1的框图示出了根据本发明一个实施例的用于基于输入图像进行训练的设备 100的结构。如图1所示,设备100包括提取单元101、映射估计单元102和概率模型计算单元 103。输入图像是包含具有各种姿势视角类别的对象的图像。各个姿势视角类别分别表 示对象所取的不同视角。例如,姿势视角类别可以包括-80°、-40°、0°、+40°和+80°, 其中-80°是表示对象相对于摄像机镜头右转80度的姿势视角类别、-40°是表示对象相 对于摄像机镜头右转40度的姿势视角类别、0°是表示对象正对摄像机镜头的姿势视角类 别、+40°是表示对象相对于摄像机镜头左转40度的姿势视角类别,而+80°是表示对象相 对于摄像机镜头左转80度的姿势视角类别。当然,姿势视角类别也可以代表视角范围。例如,将对象的正面视角从左侧面至右 侧面的 180° 范围划分为 5 个视角范围[-90°,-54° ],[_54°,-18° ],[_18°,18° ], [18°,54° ],[54°,90° ],即5个姿势视角类别。姿势视角类别的数目和所代表的具体姿势视角可以根据需要任意设定,并不限于 上述例子。
5
在本发明的实施例中,输入图像和相应的姿势视角类别均被提供给设备100。优选地,输入图像包含不含背景的各种姿势视角的对象图像和含有背景的各种姿 势视角的对象图像。提取单元101从具有视角类别的多个输入图像的每个输入图像中提取图像特征。 图像特征可以是各种用于对象姿势估计的特征。优选地,图像特征是输入图像中边缘方向 的统计特征,例如梯度方向直方图HOG特征和尺度不变特征变换SIFT特征。在一个具体示例中,假定以梯度方向直方图作为图像特征,并且输入图像具有统 一的宽和高(120像素XlOO像素)。然而本发明的实施例并不限于所假定的具体特征和尺 寸。在这个示例中,提取单元101可分别计算输入图像中每一个像素在水平方向和垂 直方向的梯度,即,水平梯度:Ix(x,y)= d(I(x,y))/dx = I (x+1,y)-I (χ-l,y)垂直梯度Iy(X,y) = d (I (X,y)) /dy = I (x, y+1) -I (χ, y-1)其中I(x,y)表示像素的灰度值,X,y分别表示像素在水平方向和垂直方向的坐 标。于是,提取单元101可根据输入图像中每一个像素的水平和垂直梯度分别计算该 像素的梯度方向和梯度大小,即,梯度方向θ(X,y) = argtg (| Iy/Ix |)梯度大小:Grad(x,y)=√I2x+I2y其中梯度方向θ (x,y)的范围为
。在这个示例中,提取单元101可在输入图像中从左至右、从上至下依次取24个 32X32大小的方块,其中水平方向每行6个方块,垂直方向每列4个方块。在水平方向和垂 直方向相邻的任意两个方块之间重叠一半。图2的示意图示出了从输入图像中提取方块的模式。图2中示出了三个32X32 大小的方块201、202和203。方块202在垂直方向与方块201重叠16个像素,而方块203 在水平方向与方块201重叠16个像素。提取单元101可将每一个32X32的方块划分为16个8X8的小方块,其中水平方 向每行4个小方块,垂直方向每列4个小方块。小方块按照先水平再垂直的顺序排列。对于每一个8X8的小方块,提取单元101计算小方块中64个像素的梯度方向直 方图,其中将梯度方向划分为8个方向区间,即从0到π范围内每η/8为一个方向区间。 也就是说,基于每个8 X 8的小方块的64个像素,针对8个方向区间中的每个方向区间,计 算梯度方向属于该方向区间的像素的梯度大小的和,从而得到一个8维向量。相应地,每一 个32X32的方块得到一个128维向量。对于每一个输入图像,提取单元101将每一个方块的向量依次连接得到图像特 征,因而图像特征的维数为3072维,即128X24 = 3072。应当注意,本发明的实施例并不限于上述示例中方块和小方块的划分模式和具体 数字,也可以采用其它划分模式和具体数字。本发明的实施例并不限于上述示例中提取特 征的方法,也可以使用其它提取用于对象姿势估计的图像特征的方法。回到图1,映射估计单元102针对多个视角类别中的每个视角类别,通过线性回归分析估计将从属于该视角类别的输入图像中提取的图像特征转换为与该输入图像相应的 三维对象姿势信息的映射模型。也就是说,对于每个姿势视角类别,可以认为存在某种函数 关系或映射关系,通过该关系,能够将从该姿势视角类别的输入图像提取的图像特征转换 或映射为该输入图像的相应三维对象姿势信息。通过线性回归分析,可根据所提取的图像 特征和相应的三维对象姿势信息,估计出这样的函数或映射关系,即映射模型。对于每个输入图像,预先准备有与该输入图像所包含的对象的姿势相应的三维对 象姿势信息。在一个具体示例中,从输入图像中提取的图像特征(特征向量)表示为Xm,其中m 是图像特征的维数。从n个输入图像中提取的所有图像特征表示为矩阵Xm “。另外,与提 取的图像特征Xm相应的三维对象姿势信息(向量)表示为Yp,其中p是三维对象姿势信息的 维数。从n个输入图像中提取的所有图像特征的相应三维对象姿势信息表示为矩阵Yp , n。假设Yp“ = Ap“ ± Xm “,于是采用线性回归分析,例如最小二乘方法可计算使得 (Yp*n-Ap“ * Xm*n)2取最小值的Ap “。Ap “就是映射模型。回到图1,概率模型计算单元103基于通过将图像特征与相应三维对象姿势信息 连接而得到的样本,计算联合概率分布模型,其中联合概率分布模型所基于的单概率分布 模型对应于不同视角类别,并且每个单概率分布模型基于包含从相应视角类别的输入图像 提取的图像特征的样本。也就是说,上述联合概率分布模型基于针对不同视角类别的单概率分布模型。通 过已知的方法,能够根据每个视角类别的样本的集合,能够计算出相应的单概率分布模型 (即模型参数),进而能够计算出所有姿势视角类别的单概率分布模型的联合概率分布模 型(即模型参数)。适合使用的联合概率分布模型包括但不限于混合高斯模型、隐马尔科夫模型和条 件随机场。在一个具体示例中,采用混合高斯模型。在这个示例中,利用图像特征(向量)X 和三维对象姿势信息(向量)Y组成联合特征(即样本)[X,Y]t。假设联合特征[X,Y]T满 足概率分布公式
f p
V
Y
\0 &),
(=1其中M为姿势视角类别的数目,N(x|Ui,E》为针对姿势视角类别i的单高斯模 型,即正态分布模型。Ui和5 i是正态分布模型的参数,p i表示针对姿势视角类别i的单 高斯模型在混合高斯模型中的权重。根据所有姿势视角类别的联合特征集,通过已知的估 计方法,例如期望最大化方法EM能够计算最优的Pi,Ui*E i,i = 1,...,M,即映射模型。图3示出了根据本发明一个实施例的用于基于输入图像进行训练的方法300的流 程图。如图3所示,方法300从步骤301开始。在步骤303,从具有视角类别的多个输入 图像的每个输入图像中提取图像特征。输入图像和姿势视角类别可以是前面参照图1的实 施例描述的输入图像和姿势视角类别。图像特征可以是各种用于对象姿势估计的特征。优 选地,图像特征是输入图像中边缘方向的统计特征,例如梯度方向直方图HOG特征和尺度 不变特征变换SIFT特征。
7
在步骤305,针对多个视角类别中的每个视角类别,通过线性回归分析估计将从属 于该视角类别的输入图像中提取的图像特征转换为与该输入图像相应的三维对象姿势信 息的映射模型。也就是说,对于每个姿势视角类别,可以认为存在某种函数关系或映射关 系,通过该关系,能够将从该姿势视角类别的输入图像提取的图像特征转换或映射为该输 入图像的相应三维对象姿势信息。通过线性回归分析,可根据所提取的图像特征和相应的 三维对象姿势信息,估计出这样的函数或映射关系,即映射模型。对于每个输入图像,预先准备有与该输入图像所包含的对象的姿势相应的三维对 象姿势信息。在一个具体示例中,从输入图像中提取的图像特征(特征向量)表示为Xm,其中m 是图像特征的维数。从η个输入图像中提取的所有图像特征表示为矩阵Xm “。另外,与提 取的图像特征Xm相应的三维对象姿势信息(向量)表示为Yp,其中P是三维对象姿势信息的 维数。从η个输入图像中提取的所有图像特征的相应三维对象姿势信息表示为矩阵Yp * η。假设Yp“ = An“ ± Xm “,于是采用线性回归分析,例如最小二乘方法可计算使得 (Yp*n-Ap“ * Xm*n)2取最小值的Ap “。Ap “就是映射模型。如果有Q个视角类别,则会 产生Q个相应的映射模型。接着在步骤307,基于通过将图像特征与相应三维对象姿势信息连接而得到的样 本,计算联合概率分布模型,其中联合概率分布模型所基于的单概率分布模型对应于不同 视角类别,并且每个单概率分布模型基于包含从相应视角类别的输入图像提取的图像特征 的样本。也就是说,上述联合概率分布模型基于针对不同视角类别的单概率分布模型。通 过已知的方法,能够根据每个视角类别的样本的集合,能够计算出相应的单概率分布模型 (即模型参数),进而能够计算出所有姿势视角类别的单概率分布模型的联合概率分布模 型(即模型参数)。适合使用的联合概率分布模型包括但不限于混合高斯模型、隐马尔科夫模型和条 件随机场。在一个具体示例中,采用混合高斯模型。在这个示例中,利用图像特征(向量)X 和三维对象姿势信息(向量)Y组成联合特征(即样本)[X,Υ]τ。假设联合特征[X,幻工满 足概率分布公式 其中M为姿势视角类别的数目,N(x|Ui,E D为针对姿势视角类别i的单高斯模 型,即正态分布模型。Ui和5 i是正态分布模型的参数,P i表示针对姿势视角类别i的单 高斯模型在混合高斯模型中的权重。根据所有姿势视角类别的联合特征集,通过已知的估 计方法,例如期望最大化方法EM能够计算最优的Pi,Ui*E i,i = 1,...,M,即映射模型。接着,方法300在步骤309结束。图4的框图示出了根据本发明一个优选实施例的用于基于输入图像进行训练的 设备400的结构。如图4所示,设备400包括提取单元401、映射估计单元402、概率模型计算单元403、变换模型计算单元404和特征变换单元405。提取单元401、映射估计单元402、概率 模型计算单元403的功能与图1中的提取单元101、映射估计单元102、概率模型计算单元 103相同,不再重复说明。然而应当注意,提取单元401被配置为向变换模型计算单元404 和特征变换单元405输出所提取的图像特征,并且输入映射估计单元402、概率模型计算单 元403的图像特征来自于特征变换单元405。变换模型计算单元404利用降维方法计算将图像特征降维的特征变换模型。降维 方法包括但不限于主成份分析方法、因子分析方法、单值分解、多维尺度分析、局部线性嵌 入、等距映射、线性鉴别分析、局部切空间排列和最大方差展开。所得到的特征变换模型可 用来将提取单元401提取的图像特征变换为维数更小的图像特征。在一个具体示例中,从输入图像中提取的图像特征(特征向量)表示为Xm,其中m 是图像特征的维数。从n个输入图像中提取的所有图像特征表示为矩阵Xm*n。可利用主成 份分析方法根据图像特征Xm , n。计算矩阵Mapd “,其中d < m。特征变换单元405利用特征变换模型变换图像特征,以用于映射模型的估计和联 合概率分布模型的计算。例如,在前面的示例中,可通过下式来计算变换的图像特征X'…=Map…* X…。变换的图像特征(维数为d)被提供给映射估计单元402、概率模型计算单元403。在上述实施例中,由于经过特征变换模型的变换的图像特征具有更低的维数,利 于降低后续估计和计算的处理量。图5示出了根据本发明一个优选实施例的用于基于输入图像进行训练的方法500 的流程图。如图5所示,方法500从步骤501开始。在步骤502,与方法300的步骤303相同, 从具有视角类别的多个输入图像的每个输入图像中提取图像特征。在步骤503,利用降维方法计算将在步骤502提取的图像特征降维的特征变换模 型。降维方法包括但不限于主成份分析方法、因子分析方法、单值分解、多维尺度分析、局部 线性嵌入、等距映射、线性鉴别分析、局部切空间排列和最大方差展开。所得到的特征变换 模型可用来将提取的图像特征变换为维数更小的图像特征。在一个具体示例中,从输入图像中提取的图像特征(特征向量)表示为Xm,其中m 是图像特征的维数。从n个输入图像中提取的所有图像特征表示为矩阵Xm*n。可利用主成 份分析方法根据图像特征Xm , n。计算矩阵Mapd “,其中d < m。在步骤504,利用特征变换模型变换图像特征,以用于映射模型的估计和联合概率 分布模型的计算。例如,在前面的示例中,可通过下式来计算变换的图像特征X'…=Map…* Xm*n。在步骤505,与方法300的步骤305相同,针对多个视角类别中的每个视角类别,通 过线性回归分析估计将从属于该视角类别的输入图像中提取的图像特征(已经过变换)转 换为与该输入图像相应的三维对象姿势信息的映射模型。接着在步骤507,与方法300的步骤步骤307相同,基于通过将图像特征(已经过 变换)与相应三维对象姿势信息连接而得到的样本,计算联合概率分布模型,其中联合概 率分布模型所基于的单概率分布模型对应于不同视角类别,并且每个单概率分布模型基于 包含从相应视角类别的输入图像提取的图像特征的样本。
接着,方法500在步骤509结束。图6的框图示出了根据本发明一个实施例的用于估计图像中对象姿势视角的设 备600的结构。如图6所示,设备600包括提取单元601、映射单元602、概率计算单元603和估计 单元604。提取单元601从输入图像中提取图像特征。输入图像的规格与前面参照图1的实 施例描述的输入图像相同。图像特征和提取图像特征的方法与要采用的映射模型所基于的 图像特征及其提取方法(如前面参照图1的实施例所描述的)相同。映射单元602针对多个视角类别中的每个视角类别,基于与该视角类别对应的、 用于将图像特征映射到三维对象姿势信息的映射模型,获得图像特征的相应三维对象姿势 信息。映射模型是前面参照图1的实施例描述的映射模型。这里,对于从输入图像中提取 的图像特征Xm,其中m是图像特征的维数,映射单元602假设所有的视角类别对于该输入图 像都是可能的。相应地,映射单元602针对每个假设的视角类别,用相应的映射模型Ap , m 获得相应的三维对象姿势信息Yp = Ap“ * Xm。概率计算单元603根据基于针对视角类别的单概率分布模型的联合概率分布模 型,计算每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联合概率, 并且根据联合概率计算在相应三维对象姿势信息的条件下图像特征的条件概率。联合概 率分布模型是前面参照图1的实施例描述的联合概率分布模型。也就是说,对于每个假设 的视角类别,概率计算单元603用图像特征X和相应的三维对象姿势信息Y组成联合特征 [X,Υ]τ,利用联合概率分布模型计算联合特征[X,Υ]τ的联合概率值Ρ([Χ,Υ]τ)。根据所得 到的联合概率值P ([X,Y]τ),概率计算单元603例如使用贝叶斯法则计算条件概率ρ (Y IX), 即 P(YlX) =p([X,Y]T)/ / p([X,Y]T)dX。估计单元604将针对所有可能视角类别计算的条件概率ρ(Υ|Χ)中最大的条件概 率所对应的视角类别估计为输入图像中的对象姿势视角。图7示出了根据本发明一个实施例的用于估计图像中对象姿势视角的方法700的 流程图。如图7所示,方法700从步骤701开始。在步骤703,从输入图像中提取图像特征。 输入图像的规格与前面参照图1的实施例描述的输入图像相同。图像特征和提取图像特征 的方法与要采用的映射模型所基于的图像特征及其提取方法(如前面参照图1的实施例所 描述的)相同。在步骤705,针对多个视角类别中的每个视角类别,基于与该视角类别对应的、用 于将图像特征映射到三维对象姿势信息的映射模型,获得图像特征的相应三维对象姿势信 息。映射模型是前面参照图1的实施例描述的映射模型。这里,对于从输入图像中提取的 图像特征Xm,其中m是图像特征的维数,在步骤705假设所有的视角类别对于该输入图像都 是可能的。相应地,在步骤705针对每个假设的视角类别,用相应的映射模型Ap , m获得相 应的三维对象姿势信息Yp = Ap , m * Xm。在步骤707,根据基于针对视角类别的单概率分布模型的联合概率分布模型,计算 每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联合概率,并且根据 联合概率计算在相应三维对象姿势信息的条件下图像特征的条件概率。联合概率分布模型是前面参照图1的实施例描述的联合概率分布模型。也就是说,对于每个假设的视角类别, 在步骤707用图像特征X和相应的三维对象姿势信息Y组成联合特征[X,Y]T,利用联合概率 分布模型计算联合特征》,幻工的联合概率值?(》,幻^。根据所得到的联合概率值p([X, 汗),例如使用贝叶斯法则计算条件概率?化| ,即?化| =p([X,Y]T)/ / p([X,Y]T)dX。在步骤708,将针对所有可能视角类别计算的条件概率p (Y | X)中最大的条件概率 所对应的视角类别估计为输入图像中的对象姿势视角。方法700在步骤709结束。图8的框图示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角 的设备800的结构。如图8所示,设备800包括提取单元801、变换单元805、映射单元802、概率计算 单元803和估计单元804。提取单元801、映射单元802、概率计算单元803和估计单元804 分别与图6的实施例的提取单元601、映射单元602、概率计算单元603和估计单元604功 能相同,不再重复说明。然而应当注意,提取单元801被配置为向变换单元805输出所提取 的图像特征,并且映射单元802、概率计算单元803的图像特征来自于变换单元805。变换单元805通过用于降维的特征变换模型将图像特征变换,以用于获得三维对 象姿势信息。特征变换模型可以是前面参照图4的实施例描述的特征变换模型。在上述实施例中,由于经过特征变换模型的变换的图像特征具有更低的维数,利 于降低后续映射和计算的处理量。图9示出了根据本发明一个优选实施例的用于估计图像中对象姿势视角的方法 900的流程图。如图9所示,方法900从步骤901开始。在步骤903,与步骤703相同,从输入图像 中提取图像特征。在步骤904,通过用于降维的特征变换模型将图像特征变换,以用于获得三维对象 姿势信息。特征变换模型可以是前面参照图4的实施例描述的特征变换模型。在步骤905,与步骤705相同,针对多个视角类别中的每个视角类别,基于与该视 角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型,获得图像特征的相 应三维对象姿势信息。在步骤907,与步骤707相同,根据基于针对视角类别的单概率分布模型的联合概 率分布模型,计算每个视角类别的包含图像特征和相应三维对象姿势信息的联合特征的联 合概率,并且根据联合概率计算在相应三维对象姿势信息的条件下图像特征的条件概率。在步骤908,与步骤708相同,将针对所有可能视角类别计算的条件概率中最大的 条件概率所对应的视角类别估计为输入图像中的对象姿势视角。方法900在步骤909结束。虽然前面针对图像说明了本发明的实施例,然而本发明的实施例也可以应用于视 频,其中将视频作为图像的序列来处理。图10是示出其中实现本发明实施例的计算机的示例性结构的框图。在图10中,中央处理单元(CPU) 1001根据只读映射数据(ROM) 1002中存储的程序 或从存储部分1008加载到随机存取映射数据(RAM) 1003的程序执行各种处理。在RAM 1003 中,也根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001,ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口 1005 也连接到总线1004。
下述部件连接到输入/输出接口 1005 输入部分1006,包括键盘、鼠标等等;输出 部分1007,包括显示器,比如阴极射线管(CRT)、液晶显示器(IXD)等等,和扬声器等等;存 储部分1008,包括硬盘等等;和通信部分1009,包括网络接口卡比如LAN卡、调制解调器等 等。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也连接到输入/输出接口 1005。可拆卸介质1011比如磁 盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器1010上,使得从中读出的 计算机程序根据需要被安装到存储部分1008中。在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可 拆卸介质1011安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程 序、与方法相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包 含磁盘、光盘(包含光盘只读映射数据(⑶-ROM)和数字通用盘(DVD))、磁光盘(包含迷你 盘(MD)和半导体映射数据。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘 等等,其中存有程序,并且与包含它们的方法一起被分发给用户。在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理 解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。
权利要求
一种估计图像中对象姿势视角的方法,包括从输入图像中提取图像特征;针对多个视角类别中的每个视角类别,基于与该视角类别对应的、用于将图像特征映射到三维对象姿势信息的映射模型,获得所述图像特征的相应三维对象姿势信息;根据基于针对所述视角类别的单概率分布模型的联合概率分布模型,计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概率;根据所述联合概率计算在所述相应三维对象姿势信息的条件下所述图像特征的条件概率;和将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图像中的对象姿势视角。
2.如权利要求1所述的方法,还包括通过用于降维的特征变换模型将所述图像特征变换,以用于获得所述三维对象姿势信息。
3.如权利要求1或2所述的方法,其中所述图像特征为图像边缘方向的统计特征。
4.如权利要求1或2所述的方法,其中所述联合概率分布模型基于混合高斯模型、隐马 尔科夫模型或条件随机场。
5.一种估计图像中对象姿势视角的设备,包括提取单元,其从输入图像中提取图像特征;映射单元,其针对多个视角类别中的每个视角类别,基于与该视角类别对应的、用于将 图像特征映射到三维对象姿势信息的映射模型,获得所述图像特征的相应三维对象姿势信 息;概率计算单元,其根据基于针对所述视角类别的单概率分布模型的联合概率分布模 型,计算每个视角类别的包含所述图像特征和相应三维对象姿势信息的联合特征的联合概 率,并且根据所述联合概率计算在所述相应三维对象姿势信息的条件下所述图像特征的条 件概率;和估计单元,其将所述条件概率中最大的条件概率所对应的视角类别估计为所述输入图 像中的对象姿势视角。
6.如权利要求5所述的设备,还包括变换单元,其通过用于降维的特征变换模型将所述图像特征变换,以用于获得所述三 维对象姿势信息。
7.如权利要求5或6所述的设备,其中所述图像特征为图像边缘方向的统计特征。
8.如权利要求5或6所述的设备,其中所述联合概率分布模型基于混合高斯模型、隐马 尔科夫模型或条件随机场。
全文摘要
估计图像中对象姿势视角的方法、设备。基于输入图像进行训练的设备包括提取单元,其从具有视角类别的多个输入图像的每个输入图像中提取图像特征;映射估计单元,其针对多个视角类别中的每个视角类别,通过线性回归分析估计将从属于所述视角类别的输入图像中提取的图像特征转换为与所述输入图像相应的三维对象姿势信息的映射模型;和概率模型计算单元,其基于通过将所述图像特征与相应三维对象姿势信息连接而得到的样本,计算联合概率分布模型,其中所述联合概率分布模型所基于的单概率分布模型对应于不同视角类别,并且每个所述单概率分布模型基于包含从相应视角类别的输入图像提取的图像特征的样本。
文档编号G06T7/00GK101872476SQ200910137360
公开日2010年10月27日 申请日期2009年4月24日 优先权日2009年4月24日
发明者吴伟国, 李亮 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1