使用加速来执行基于图像的回归的方法

文档序号:1114795阅读:161来源:国知局
专利名称:使用加速来执行基于图像的回归的方法
技术领域
本发明针对一种用于解决视觉问题的方法,并且更特别地,本发明针对一种用于使用加速(boosting)来执行基于图像的回归以推断与图像相关联的实体的方法。
背景技术
本发明要求于2005年3月17日提交的序列号为60/662,877的美国临时申请的利益,该临时申请整体被引入作为参考。
基于图像的回归(IBR,Image Based Regression)是在视觉处理中的新兴的难题。IBR的问题被定义如下给出图像x,期望推断出与该图像x相关联的实体y(x)。y(x)的含义随着应用的不同而明显变化。例如,可以是表征图像的特征(例如,估算人的年龄)、与图像相关的参数(例如,肿瘤的位置和各向异性的散布(spread))、或者其它有意义的量(例如,心脏内壁的位置)。
一种已知的视觉处理方法使用支持向量回归来推断形状变形向量。另一种视觉处理方法使用相关向量回归来从侧影(silhouette)中估算人的三维(3D)姿势。然而,在这两种方法中,到回归器的输入并不是图像自身,而是处理前的实体、例如标志位置和形状上下文描述符。
通常,已提出了很多机器学习方法来解决回归问题。特别是数据驱动方法已经被普遍使用。这些方法的例子包括非参数核回归(NPR,nonparametric kernelregression)、线性方法及其诸如核脊回归(KRR,kernel ridge regression)和支持向量回归(SVR)的非线性核变型。然而,由于大量难题,这些方法直接应用到视觉问题上常常是困难的或者无效的。一个难题被称为维数的灾难。输入(也就是图像数据)是高维数的。理想地,为了良好地表示样本空间,所要求的图像样本的数目应与输入空间的基数成指数关系。然而,实际上,相比于输入空间的基数,训练样本的数目常常是非常少的。如果没有仔细处理,很可能会出现过拟合。
另一个难题是改变出现在图像中的外观。首先,存在影响感兴趣的前景对象的外观的很多因素。除了对象中的内在区别之外,外在因素包括照相机系统、图像几何学、照明条件、组成(makeup)等。其次,变化源自背景的出现,该背景的外观也变化。第三种变化是由对准引起。为了有效地工作,回归技术必须容忍对准误差或者复原(regress out)对准参数。
多个输出也是难题,因为输出变量也是高维数的。大多数回归方法、诸如SVR能够非常稳定地处理单个输出回归问题。将这些方法扩展到多个输出设置如在SVR的情况下那样是重要的。非常幼稚的实践、即将多个输出去耦合成多个隔离的单个输出任务忽略了在输出变量的不同维数之中的统计学依赖性。
存储和计算也是要考虑的问题。回归技术、诸如非参数核回归(NPR)、核脊回归(KRR)和支持向量回归(SVR)都是数据驱动的。在数据驱动方法中存在两个主要的缺点存储和计算。首先,该技术需要存储大量训练数据。在NPR和KRR中,存储所有训练数据。在SVR中,存储支持向量。因为训练数据是高维数的图像,所以存储训练数据占用很多存储空间。其次,因为将输入图像与所存储的训练图像相比较非常耗费时间,所以评估数据驱动回归函数非常慢。
通常,回归找到以下最小化问题的解决方案g^(x)=argming∈ζϵp(x,y){L(y(x),g(x))}---(1)]]>其中ζ是被允许的输出函数的集合,εp(x,y)是生成分布(generating distribution)p(x,y)下的期望值,以及L(o,o)函数是损耗函数,该损耗函数使回归器输出g(x)与实际输出y(x)之间的偏差恶化。
实际上,由于分布p(x,y)是未知的,所以不可能计算期望值。给出训练例子的集合{(xn,y(xn))}n=1N,费用函数εp(x,y)L(y(x),g(x))被近似为训练误差J(g)=Σn=1N(y(xn),g(xn))/N.]]>如果样本的数目N是无穷大,则上面的近似正好是大数目的规则。不幸的是,特别是当处理图像数据和高维数输出参数时,N的实际值并没有足够大。更严重的问题是过拟合给出有限数目的训练例子,很容易构建产生零训练误差的函数g(x)。为了与这种过拟合相抗争,经常使用额外的正则化约束,这导致组合的费用函数(忽略比例因数N-1)J(g)=Σn=1NL(y(xn),g(xn))+λR(g)---(2)]]>
其中λ>0是控制正则化程度的正则化系数,以及R(g)是正则化项。正则化经常在输出函数上强加了一定的平滑度或者反映了一些有关输出的先验知识。
NPR是k-近邻(kNN)回归的平滑版本。kNN回归器近似于条件平均、L2意义(sense)上的最优估计。NPR使用下面的形式g(x)=Σn-1Nhσ(x;xn)y(xn)Σn-1Nhσ(x;xn)---(3)]]>其中,hσ(o;xn)是核函数。最广泛使用的核函数是RBF核hσ(x;xn)=rbfσ(x;xn)=exp(||x-xn||22σ2)---(4)]]>RBF核具有非紧支柱。具有紧支柱的其它核函数、诸如Epanechnikov核也被使用。通常,当面临基于图像的回归的情形时,NPR(虽然是平滑的)试图过拟合数据,也就是产生低偏差和高方差。
KRR假定,多个输出的回归函数使用线性形式g(x)=Σn=1Nank(x;xn)---(5)]]>其中k(xxn)是再生核函数,以及αn是加权核函数的q×1向量。再生核的选择包括RBF核、多项式核等。从训练数据中得到的多个输出KRR的解决方案是g(x)=Y(K+λI)-1κ(x),(6)其中Yq×N=[y(x1),y(x2),...y(xN)]是训练输出矩阵,KN×N=[k(xi;xj)]是训练数据的格拉姆矩阵,以及κ(x)N×1=[k(x;x1),k(x;x2),...,k(x;xN)]T。
通常,当使用线性核时,因为KRR使用简单的线性形式,所以KRR试图欠拟合数据,也就是产生高偏差和低方差。使用非线性核函数经常提供增强的性能。KRR的一个计算难点在于倒置N×N矩阵κ+λI。
SVR是一种稳定的回归方法。其当前的公式用于单个输出数据、也就是q=1。SVR最小化下面的费用函数12||w||2+CΣn=1N|y(xn)-g(xn)|∈,---(7)]]>其中|o|∈是不受∈影响的函数,具有k(x;xn)的(x)Σn=1Nwnk(x;xn)]]>是再生核函数,以及wn是其权重,以及w=[w1,w2,...,wn]T。因为一些可以通过二次最优化过程得到的系数wn是零值,所以与非零权重相关联的样本xn被称为支持向量。
SVR在偏差和方差权衡之间找到好的平衡并因此非常稳定。不幸的是,对多个输出的回归问题直接应用SVR是困难的。需要能够以使用加速来学习的多个输出设置为目标的回归器。

发明内容
本发明针对一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法。学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的。所学习的回归函数被用来预测与图像相关联的实体,其中该实体是未知的。


在下面将参考附图更详细地介绍本发明的优选实施例,其中相同的参考数字表示相同的元素。
图1是根据本发明的用于执行基于图像的回归的系统的框图;图2举例说明图像的例子,在这些图像的例子上根据本发明执行基于图像的回归任务;图3举例说明根据本发明的用于学习回归函数的方法;图4概述了根据本发明的递增特征选择方案;图5概述了根据本发明的、针对查询图像的最后输出;图6是概述了根据本发明的用于使用加速来执行基于图像的回归的方法的流程图;图7是概述了根据本发明的递增特征选择方案的流程图;图8示出对同一人在不同年龄阶段进行标准化前和标准化后的样本图像;图9示出一些具有标准分割图像(ground truth)和回归结果的相同的CT图像;以及图10示出一些具有标准分割图像和回归结果的超声心动描记图像。
具体实施例方式
本发明针对一种用于使用加速来执行基于图像的回归以推断与图像相关联的实体的方法。图1例示了用于实现本发明的系统的框图。使用照相机102来捕获图像,针对这些图像应用了基于图像的回归。根据基于图像的回归的目的,可以获得许多不同类型的图像。图2例示了图像的一些例子,在这些图像的例子上执行基于图像的回归任务。例如,图像可以是针对其确定年龄估计的人脸202。在另一个例子中,图像可以是肺肿瘤204,其中确定肿瘤的位置和各向异性的散布。另一个例子包括人心脏的超声波图象206或者超声心动图,针对该超声心动图可以自动描绘左心室的心脏内壁。
这些图像被传送到执行将在后面被详细介绍的基于图像的回归任务的处理器104上。一旦基于图像的回归任务已被执行,经由输出设备106可报告该结果。输出设备106提供由基于图像的回归所执行的任务结果。输出设备106包括用于观看处理过的图像的显示器。显示器提供了由照相机102拍摄的图像的视图,以及也提供了从基于图像的回归任务中获取的期望的信息。这些图像被存储在数据库108中。
本发明研究了,如何在给出多个图像及其相关联的实体的情况下学习回归函数。如图3中所描述的,回归函数追踪了图像输入和输出实体的联合空间中的非线性簇(manifold)。所考察的仅仅是来自该簇的样本,也就是图像x1-xN和输出y1-yN。从这些数据库中,推断回归函数。学习任务被制定为最小化费用函数J(g),该费用函数J(g)被构建来反映(i)针对数据库中的数据的回归器g(x)的可预测性;以及(ii)一定的平滑条件,以阻止过拟合。在公式(2)中给出了费用函数的一个例子。
如图4中所示,学习任务通过加速被处理。加速是逐渐最小化费用函数J(g)的迭代过程。换句话说,提高了回归器g(x)的可预测性。假设迭代系数由t表示,则J(gt)是随t单调减小的函数。这可以通过增加一项atht(x)到回归器gt(x)上来实现,也就是gt(x)=gt-1(x)+atht(x),其中at是实系数,以及ht(x)是弱函数。加速将所选择的弱函数集合组合成强函数。加速的最后输出是回归函数g(x)=a1h1(x)+a2h2(x)+...aThT(x),该回归函数被用来预测如图5中所示的针对查询图像xq的输出g(xq)。
本发明通过可被快速评估的高冗余的类似Haar的特征的集合来表示图像。如果回归输出是一维的或者多个特征,则每个弱函数与一特征相关联,如果回归输出是多维的,则每维表示一个回归输出。包括所有弱函数的集合被称为字典集合(dictionary set)H。因此,每次加速迭代从字典集合(或者类似的一个或多个相关特征)中选择弱函数,以致最大地减小费用函数。在完成加速以后,不需要保持训练数据(该训练数据的知识已经被弱函数及其系数完全吸收)。在测试过程中,不需要对训练数据进行存储,并且几乎立刻评估回归函数。使用简单的决策柱(decision stump)作为弱函数,因为这些决策柱对于外观变化是稳定的。
在描述用于使用加速来执行基于图像的回归的方法时,集中在L2损耗函数上。为了允许通常的处理以及处理不同的数据维数的缩放作用(scalingeffort),使用下面的标准化的误差费用L(y(x),g(x))=[y(x)-g(x)]TA[y(x)-g(x)]---(8)]]>=||y(x)-g(x)||A2]]>其中Aq×q是必须为正定的标准化矩阵,以及q是输出变量的维数。
正则化以各种各样的形式存在。使用数据驱动正则化项‖μ-g(x)‖B2,其中Bq×q是必须为正定的标准化矩阵。这个正则化项具有子空间解释,其中μ表示平均数,以及B-1表示协方差矩阵。
接着,下面的费用函数必须被最小化。
J(g)=Σn=1N||y(xn)-g(xn)||A2+λΣn=1N||μ-g(xn)||B2---(9)]]>=Σn=1N||r(xn)||A2+λΣn=1N||s(xn)||B2]]>=tr{ARRT}+λtr{BSST}]]>=||R||A2+λ||S||B2]]>其中r(x)=y(x)-g(x)是近似误差,s(x)=μ-g(x)是偏离误差,以及矩阵Rq×N和Sq×N分别被定义如下R=[r(x1),r(x2),...,r(xN)],S=[s(x1),s(x2),...,s(xN)] (10)给出上面的费用函数,很容易检查到,在迭代t时的费用函数J(gt)如下与J(gt-1)相关J(gt)=J(gt-1)(1-ϵ2(ht))=J(gt-1)(1-tr2{(AR+λBS)HT}tr{ARRT+λBBST}tr{(A+λB)HHT}),]]>其中H=[ht(x1),ht(x2),...,ht(xN)]。同样地,对于迭代t,选择最大化ε(ht)的值的最佳函数ht(x)。在找到了弱函数后,可相应地将其相关系数αt(ht)计算为αt(ht)=tr{(AR+λBS)HT}tr{(A+λB)HHT}.]]>对本发明的加速方法的总结在图6中示出。首先,迭代系数t被初始化为零(步骤602)。这需要设置固定的参数值μ(平均向量),A和B(标准化矩阵),λ(正则化系数),以及η(收缩因数)。接着,设置与停止标准相关的值Tmax(迭代的最大数目),Jmin(最小费用函数),εmin,和αmin。接着,设置初始值,t=0,g0(x)=0,r0(x)=y(x),以及s0(x)=μ。
接着,确定针对t=1,......,Tmax的迭代。首先,找出h^t=argmaxh∈Hϵt(h)]]>和其相应的 和 (步骤604)。形成新的函数gt(x)=gt-1(x)+ηα^th^t(t)]]>(步骤606)。接着,评估近似误差rt(x)=y(x)-gt(x)、偏离误差st(x)=μ-gt(x)、以及费用函数J(gt)(步骤608)。然后,检查收敛性,例如,确定J(gt)<Jmin,αt<αmin,εt<εmin,或者其组合是否成立(步骤610)。
正如在前面部分中提及的,字典集合H通过类似Haar的特征涉及图像。直观上,这个函数集合必须足够大,以致该函数集合允许通过线性组合绘制高度复杂的输出函数y(x)。最初使用一维决策柱来构建字典集合H。使用决策柱的优点包括(i)这些决策柱对于外观变化是稳定的;(ii)这些决策柱具有本地特征;(iii)使用所谓的积分图像可以快速评估算这些决策柱;并且特别重要的是,(iv)这些决策柱允许递增特征选择方案,该方案将在后面被详细描述。
一维(1D)决策柱h(x)与Haar滤波器特征f(x)、决策阈值θ、以及采用+1或者-1的二进制值的奇偶性方向指示符p相关联。
每个Haar滤波器f(x)具有其自己的属性类型、窗口位置、和窗口大小。给出中等大小的图像,可以通过改变滤波器属性来生成很多数目的Haar滤波器。Haar滤波器的数目由M来表示。对于每个Haar滤波器,通过调整阈值θ(称为K偶数-空间级别(even-spaced level))可以进一步创建K个决策柱。总之,存在2KM个1-D决策柱。注意到,数目2KM非常大,以致在训练期间存储所有这些决策柱是非常困难的。
假定输出的维数是q。弱函数被构建为q维(q-D)决策柱h(x),该决策柱h(x)简单地堆积q个1D决策柱。
h(x)q×1=[h1(x),h2(x),...,hq(x)]T(12)注意到,上面的每个hj(x)可以与不同的参数相关联。因此,可以构建包含(2KM)q个函数的足够大的弱函数集合。
加速作为特征选择启示程序(oracle)。在每轮加速中,选择可以最大减小费用函数的特征。如在图6中所概述的那样,方法包括步骤604中的贪心特征选择方案,评估该贪心特征选择方案花费太多,因为这包括评估(2MNK)q个决策柱,这是艰难的计算任务。
根据本发明的一个实施例,q-D回归问题可以被分离为q个独立的1D回归问题,从而导致独立特征选择方案。因此,在每轮加速中,仅仅评估2qMNK个决策柱。但是这种分离忽略了在输出维数中可能存在的统计学依赖性。
根据本发明的另一个实施例,使用递增特征选择方案来将q-D回归问题分离为q个独立的1D回归问题。在图7中概述了递增的特征选择方案。通过创建随机排列{1,2,...,q}、产生{<1>,<2>,...,<q>}来执行初始化(步骤702)。接着,执行随着输出变量的维数i=1,2...,q的迭代。首先,从字典集合中取样M’个Haar滤波器(步骤704)。形成弱函数的被降低的集合H’(步骤706)。接着,来自训练集合的N’个数据点被取样(步骤708)。在滤波器系数m=1,2,...,M’和阈值水平系数k=1,2,...,K上进行循环,以找到h<i>=arg maxh∈H,ε<i>(h)(步骤710)。形成新的向量h<i>=[h<i-1>T,h<i>]T]]>(步骤712)。计算可以再度使用的量tr{D<i>H<i>T}和tr{‖H<i>‖C<i>2}。
上面的方案使用递增向量hi(x)i×1=[h1(x),h2(x),...,hi(x)]T=[hi-1(x)T,hi(x)]T,(13)以及递增矩阵Ci、Di和Hi,Ci=Ci-1Ci-1Ci-1Tci,Di=Di-1diT,Hi=Hi-1hiT---(14)]]>递增系数被定义为ϵi(h)=tr{DiHiT]/||Hi||Ci2---(15)]]>因此,一次学习一个1D决策柱hi(x)。
h^i=argmaxh∈Hϵi(h)---(16)]]>根据计算,递增选择方案需要评估2qMNK个决策柱,这与独立选择方案相同。相比于独立方案,因为必须计算矩阵的量、诸如tr{DiHiT}和‖Hi‖Ci2,所以在递增方案中需要上述的计算;但是,在独立特征选择方案中,对应部分是向量的内积。然而,可再度使用的计算可以被合并。例如,如下所示||Hi||Ci2=||Hi-1||Ci-12+2hiTHi-1Tci-1+cihiThi,]]>tr{DiHiT}=tr{Di-1Hi-1T}+diThi---(17)]]>为了提高稳定性和去除偏差,输出变量的维数的次序是可以随机改变的。其它先前提及的、提高计算效率的方法包括(i)对字典集合进行随机取样,也就是通过较小的M′来替代M;和(ii)对训练数据集合进行随机取样,也就是通过较小的N′来替代N。
如上面所指出的那样,本发明的方法可被用来解决很多不同的问题。图5通常概述了本发明的方法。接收查询图像,以及回归函数被应用到图像查询,以确定被提供为输出的实体的存在。
例如,可以使用本发明的基于图像的回归方法来确定年龄估计。下面将要描述一例子。老化建模(aging modeling)对于面部分析和识别是重要的。这的一个方面是估算人的年龄。使用面部图像数据库。利用近似80%的、用于训练的图像创建五个随机部分,而剩余的20%的图像用于测试。年龄范围是从0到69岁。通过对准多个标志点并然后执行零平均单位方差(zero-mean-unit-variance)操作来完成标准化。
输入x是60×60的图像;输出y是他/她的标准化年龄。实际年龄被转换成y=log(y+1),以避免负的回归器输出。面部图像包括所有可能的变化,这些变化包括照明、姿势、表情、胡须、髭、眼镜等。图8示出了一个人在不同年龄时和具有多种外观变化的样本图像。一个图像集合802在标准化之前被示出,以及另一个集合804示出了被标准化后的图像。计算绝对的年龄差异作为误差测量结果。在本实例中,评估500个弱函数,正则化系数λ=0.1,以及收缩因数η=0.5。
本发明的另一个应用检测计算机断层(CT)图像中的肺肿瘤。给出输入CT图像,复原肿瘤的中心位置(t,s)和各向异性的散布。通过2×2正定矩阵[a11,a12;a12,a22]来描述2D各向异性的散布,其中a11>0,以及a22>0。使用CT图像的数据库,这些CT图像被分成四个随机部分。近似80%的图像被指定为训练图像,而剩余的20%的图像被指定为测试图像。中心位置大致位于图像中心的6个像素内,但是根据比例尺和定向,各向异性的散布是任意的。
输入x是33×33图像;输出y在变白后是5-D变量,也就是q=5。为了避免a11和a22的负的输出值,使用log(a11)和log(a22)。因此,变白滤波器被应用到[t,s,log(a11),a12,log(a22)]T上。图9示出一些具有标准分割图像和回归结果的CT图像的例子。这些图像包括典型的外观变化杂乱的背景、成像噪声、任意的形状、伪造的信号等。
由于每个输出参数在2D图像中的椭圆602上被定义,所以使用区域非重叠比率r来测量性能。给出两个椭圆A和B,r被定义为r=1-[area(A∩B)/area(A∪B)]。比率越小,两个椭圆之间就重叠得越多。
在处理超声心动图像(也就是心脏的超声波2D图像)时,心肌壁的定位和追踪是非常困难的任务。特别地,左心室的精确定位对临床心脏分析是非常重要的。在这个例子中,集中于在顶点的四个心室视图中定位左心室的心脏内壁。使用超声波图像的数据库,超声波图像的数据库被划分为五个随机部分。近似80%的图像被指定为训练图像,而剩余的20%的图像被指定为测试图像。
输入x是80×74图像;输出y是7-D变量,也就是q=7。心脏内壁由17个控制点来参数化的非刚性开放轮廓、也就是具有34个变量。在变白以后,仅仅保持顶部的7个主要部分。依据声图仪操作者(sonographer)的成像经验以及患者的解剖学结构和组织特征,包括心脏顶点、隔膜壁、侧壁、乳头肌、环带等的左心室外观随患者显著变化。在超声波成像中也经常发现信号遗失。因此,心脏内的边界有很多变形。图10示出举例说明外观变化的样本超声波图像。针对控制点测量平均像素误差||(g(x)-y(x)||2/34.]]>已经描述了用于使用加速来执行基于图像的回归以推断与图像相关联的实体的方法,应注意,按照上面的教导,本领域技术人员可以作出修改或者变化。因此,应理解,可以对落入由随后的权利要求所定义的本发明的范围和精神内的所公开的本发明的具体实施例进行改变。已经按照专利法的要求对本发明进行了详细和具体的描述,在随后的权利要求中阐述了受专利证书保护的、所要求的和所期望的内容。
权利要求
1.一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法,该方法包括如下步骤学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的;以及使用所学习的回归函数来预测与图像相关联的实体,其中该实体是未知的。
2.如权利要求1所述的方法,其中,使用加速来学习回归函数的步骤进一步包括以下步骤使该回归函数近似为加性函数;在每次迭代该加性函数时,将更多的特征加入到该回归函数中;通过所迭代的回归函数,确定所增加的特征是否提高了实体的可预测性;以及选择那些最大提高所迭代的回归函数的可预测性的所增加的特征。
3.如权利要求2所述的方法,其中,所述选择所增加的特征的步骤进一步包括以下步骤从过完整的(overcomplete)特征集合中选择那些特征,所述特征最小化对于可得到的数据库而言告知所述回归函数的可预测性的费用函数,该费用函数包括L2损耗函数和正则化项;以及以或者贪心、或者递增、或者独立的方式在输出维数上应用特征选择。
4.如权利要求2所述的方法,其中,每个特征被表示为Haar滤波器。
5.如权利要求3所述的方法,其中,所述对象是多维的。
6.如权利要求5所述的方法,其中,针对特征选择如下使用决策柱h^i=argmaxh∈Hϵi(h)]]>其中ϵi(h)=tr{DiHiT]/||Hi||Ct2;]]>Ci=Ci-1Ci-1Ci-1Tci,]]>Di=Di-1diT,]]>Hi=Hi-1hiT.]]>
7.如权利要求1所述的方法,其中,使用所学习的回归函数的步骤进一步包括以下步骤接收对象的图像,其中相关联的实体是未知的;在所述回归器中评估所述特征函数;以及组合所有的特征函数来推断与所述对象相关联的实体。
8.如权利要求7所述的方法,其中,所述对象是人脸,以及被推断的实体是年龄。
9.如权利要求7所述的方法,其中,所述对象是解剖学结构,以及所述实体是肿瘤的位置和各向异性的散布。
10.如权利要求7所述的方法,其中,所述对象是人的心脏,以及所述实体是心脏内壁的位置。
全文摘要
公开了一种用于使用加速来执行基于图像的回归以推断与对象的图像相关联的实体的方法。学习多个图像的回归函数,其中,针对每个图像,相关联的实体是已知的。使用所学习的回归函数来预测与图像相关联的实体,其中该实体是未知的。
文档编号A61B6/00GK1900972SQ20061007741
公开日2007年1月24日 申请日期2006年3月17日 优先权日2005年3月17日
发明者S·K·周, B·乔治斯库, X·周, D·科曼尼丘 申请人:西门子共同研究公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1