采用照明不变神经网络的计算机视觉系统和方法

文档序号:6422590阅读:181来源:国知局
专利名称:采用照明不变神经网络的计算机视觉系统和方法
技术领域
本发明涉及计算机视觉系统,更具体而言,涉及利用径向基函数(radial basis function network)网络分类图像数据中的对象。
计算机视觉技术时常用于自动检测或分类图像中的对象或事件。区分对象的能力是有效运行许多计算机视觉系统的一项重要任务。例如,在某些应用中,对于计算机视觉系统而言重要的是要区分诸如人和宠物之类的有生物,以及诸如家具和门之类的无生物。模式识别技术例如尝尝应用于图像以判断出现在图像中的给定对象或对象类别的似然性(概率)。对于模式识别或分类技术的详细论述,例如参见R.O.Duda和P.Hart所著的Pattern Recognition and Scene Analysis(模式识别和场景分析),纽约Wiley(1973年);R.T.Chin和C.R.Dyer所著的″Model-Based Recognition in Robot Vision(在机器人视觉中基于模型的识别)″,ACM conputing survey,18(1),67-108(1986年3月);或P.J.Besl和R.C.Jain所著的″Three-Dimensional Object Recognition(三维对象识别)″,conputing survey,17(1),75-145(1985年3月),将每一篇都在此引入以供参考。
基于外外部特征的技术已被广泛用于对象识别,由于它们的固有能力是采用基于图像的信息。基于外部特征的技术试图通过查找对象外部特征和所存储原型的二维图像表示之间的最佳匹配来识别对象。总体上,基于外部特征的方法为了进行比较使用高维表示的低维子空间。例如,2001年2月27日提交的名为″Classification of ObjectsThrough Model Ensembles″的美国专利申请序列号09/794,443,披露了一种区分居住家庭环境中的人和宠物的对象分类引擎。最初,利用速度和画面长宽比信息来滤出无效的运动对象,比如家具。尔后,从剩余的对象中提取梯度图像并将所述梯度图像应用于径向基函数网络以便把运动对象分类为人或宠物。
总体上,径向基函数网络包含三个不同的层。输入层由源节点组成,尝尝称为输入节点。第二层是隐藏层,是由隐藏的节点组成的,它的功能是将数据进行聚类(cluster),通常用来使其维度减小至所限定的程度。输出层提供网络对加到输入层上的活动模式的响应。从输入空间到隐藏单元空间的变换是非线性的,而从隐藏单元空间到输出空间的变换是线性的。最初,利用将要识别的对象的示例性图像来训练径向基函数网络。当给出了要识别的图像数据时,径向基函数网络计算输入数据与每个隐藏节点之间的距离。所计算出的距离提供了能用来分类对象的分数。
如果要分类的训练图像和测试图像都不是在相似照明(illumination)的条件下获取,则输入图像与每个隐藏节点之间的比较就会出错,由此导致较差的分类或识别。因此,需要有一种改进的方法和设备,以用来比较在照明不均匀的条件下所获得的图像。
总体上,披露了一种用于分类在照明变化的条件下的对象的方法和设备。所公开的分类器使用改进的神经网络,比如径向基函数网络,来分类对象。分类器采用归一化的交叉相关(normalization crosscorrelation-NCC)测量,来比较在照明不均匀的条件下所获得的两个图像。
最初,利用常规的分类技术来处理待分类的输入模式,以便给输入模式分配试验性分类标签和分类值(常称为″概率值″)。总体上,把输入模式分配给在径向基函数网络中具有最大分类值的输出节点。尔后,根据本发明的一个方面,判断输入模式和与所述输入模式被分类到的节点相关联的图像(称为节点图像)是否具有均匀照明。
如果测试图像和节点图像两者都是均匀的,则接受节点图像并且把概率设置为高于用户规定的阈值的数值。如果测试图像是均匀的,而节点图像是不均匀的(或反之亦然),则不接受该图像并且将分类值保持为与分类器所分配的值相同的数值。最后,如果测试图像和节点图像两者都不是均匀的,则使用归一化的交叉相关测量并且将分类值设置为NCC值。
通过参考下列详细说明和附图,将获得对本发明的更彻底的理解以及本发明的进一步的特征和优点。


图1举例说明了使用径向基函数网络(RBF)的示例性的现有技术的分类器;图2是依照本发明的、说明性的模式分类系统的示意性框图;图3是描述示例性的RBFN训练过程的流程图,所述RBFN训练过程用于训练图2的模式分类系统;和图4是描述示例性的对象分类过程的流程图,所述对象分类过程利用图2的模式分类系统来进行模式识别和分类。
本发明提供了一种对象分类方案,其采用改进的径向基函数网络来比较在照明不均匀的条件下所获得的图像。尽管在此论述的示例性实施例采用了径向基函数网络,但是应当注意,正如本领域普通技术人员所显而易见的那样,也同样能够采用其它的神经网络,比如反向传播网络、基于多层感知器的网络和基于贝叶斯定理的神经网络。例如,正如普通技术人员所显而易见的那样,还可以采用基于主要成份分析(Principle Component Analysis-PCA)或独立成份分析(Independent Component Analysis-ICA)的神经网络或基于贝斯技术或线性判别式分析(“Linear Discriminant Analysis-LDA)的分类器。
图1举例说明了使用径向基函数网络(RBF)的示例性的现有技术的分类器100。正如先前指出的那样,用来分类的RBF神经网络的结构包含三个不同的层。输入层由源节点组成,在此称为输入节点。第二层是隐藏层,它的功能是对数据进行聚类,并且总体上用来将其维度减小到所限定的程度。输出层提供网络对加到输入层上的活动模式的响应。从输入空间到隐藏单位空间的变换是非线性的,而从隐藏单位空间到输出空间的变换是线性的。
因此,分类器100包括(1)输入层,其包括输入节点110和单位权重115,所述输入层将输入节点110连接到隐藏节点120;(2)″隐藏层″包括隐藏节点120;和(3)输出层,其包括线性权重125和输出节点130。对于模式识别和分类而言,添加一个选择最大值装置140和最终输出150。
应当注意,单位权重115是这样的使得每一个从输入节点110到隐藏节点120的连接基本上保持相同(即,每一个连接都是按一″倍增″的)。然而,线性权重125是这样的使得隐藏节点120和输出节点130之间的每一个连接都按权重倍增。所述权重是在训练阶段期间确定和调整的,正如下面结合图3所述的那样。
在图1的示例中,有五个输入节点110,四个隐藏节点120和三个输出节点130。然而,图1仅仅是示例性的,在下面给出的说明中,有D个输入节点110、F个隐藏节点120和M个输出节点130。每个隐藏节点120都具有用特定均值向量μi和方差向量σi2表示的高斯加非线性,其中i=1,…,F,而F是隐藏节点120的数目。注意,σi2表示高斯加i的协方差矩阵(covariance matrix)的对角项。给定D维的输入向量X,每个BF节点i都输出一个标量值yi,反映由那个输入所引起的BF的活动,如下 此处h是该方差的比例常数,Xk是输入向量X=[X1,X2,…,XD]的第k个分量,而μik和ik分别是基结点i的中值向量和方差向量的第k个分量。靠近高斯BF中心的输入产生较高的活动,而那些远离中心的输入产生较低的活动。由于RBF分类器100的每个输出节点都形成隐藏节点120活动的线性组合,因而连接中间层和输出层的网络100的部分是线性的,如下面所示zj=Σiwijyi+woj,---(2)]]>其中Zj是第j个输出节点的输出,yi是第i个BF节点的活动,wij是将第i个BF节点连接到第j个输出节点的权重,而wij是第j个输出节点的基或阈值。这个基源自于与无论输入为何都具有恒定的单位输出的隐藏节点120相关联的权重。
把未知向量X分类到属于与具有最大输出Zj的输出节点j相关联的类别,所述最大输出Zj由选择最大值装置140选择出。选择最大值装置140将比较来自于M个输出节点的输出中的每一个,以确定最终输出150。最终输出150是已被选择为与输入向量X相对应的类别的那个类别的指示。在训练期间学习有助于关联输入向量X的类别的线性权重125。总体上,不利用诸如梯度下降之类的迭代式最小化方法来求解分类器100的线性部分权重wij。相反,这些权重通常利用矩阵伪逆技术来快速而确切地加以确定。例如在下列文献中描述了关于RBF分类器的这种技术和附加信息R.P.Lippmann和K.A.Ng所著的″Comparative Study of the Practical Characteristic of NeuralNetworks and Pattern Classifiers″,MIT Technical Report894,Lincoln Labs.(1991年);C.M.Bishop所著的″Neural NetworksforPattern Recognition″,第5章(1995年);J.Moody和C.J.Darken所著的″Fast Learning in Networks of Locally TunedProcessing Units″,Neural Computation,第1卷,128-94(1989年);或Simon Haykin所著的″Neural NetworksA ComprehensiveFoundation″,Prentice Hall,256-317(1999年),将每一篇都在此引入以供参考。
下面结合图3和4来论述示例性的径向基函数网络分类器的详细算法说明。最初,RBF网络的尺寸是通过选择隐藏节点的数目F来确定的。适当的F值是针对特定问题的,并且通常取决于要形成的决策区域的复杂度和问题的维度。一般而言,可以凭经验通过尝试各种不同的F值来确定F,或者可以把F设置成某各恒定的数目,通常大于该问题的输入维度。
在设置F之后,能够利用各种方法来确定BF的中值mi和方差σi2向量。可以利用反向传播梯度下降技术来连同输出权重一起训练它们,但是这通常需要长的训练时间并且可能会导致次最佳的局部最小值。作为选择,也可以在训练输出权重之前确定中值和方差。网络的训练于是就会仅仅涉及到确定权重。
正常地选择BF中心和方差,以便覆盖兴趣空间。已经提出了不同的技术。一种这样的技术使用了对输入空间进行采样的等距BF的网格。另一种技术使用了诸如K中值之类的聚类算法(clusteringalgorithm)以确定BF中心的集合,而其它的技术已经从训练集中选出随机向量作为BF中心,以确保每一个类别都被表示了。对于RBFN的进一步论述而言,例如参见2001年2月27日提交的名为″Classification of Objects Through Model Ensembles″的美国专利申请序列号09/794,443,将该篇在此引入以供参考。
总体上,每个径向基函数网络分类器100都将会指示一个给定对象是与对应节点相关联的类别的成员的概率。对于从输入强度图像中提取水平梯度、垂直梯度和组合梯度以用作特征向量的论述而言,例如参见2001年2月27日提交的名为″Classification of ObjectsThrough Model Ensembles″的美国专利申请序列号09/794,443,将该篇在此引入以供参考。总体上,所述过程涉及处理一组模型对象的序列集合,并且提取每个对象的水平梯度、垂直梯度和组合梯度以形成与每个对象相对应的图像向量的集合。
图2是依照本发明所修改的、使用图1的径向基函数网络100的例证性的模式分类系统200。图2包括模式分类系统200,示出了它与输入模式210和数字化多功能盘(DVD)250之间的交互并且产生分类240。
模式分类系统200包括处理器220和存储器230,所述存储器230本身包括下面结合图3所论述的RBFN训练过程300和下面结合图4所论述的对象分类过程400。模式分类系统200接收输入模式并对模式进行分类。例如,输入模式可以是来自于视频的图像,并且模式分类系统200能被用来将人与宠物区分开来。
模式分类系统200可以具体化为包含诸如中央处理单元(CPU)之类的处理器220和诸如随机存取存储器(RAM)和只读存储器(ROM)之类的存储器230的任何计算装置,比如个人计算机或工作站。在可选的实施例中,在此公开的模式分类系统200能够作为(例如图象处理系统的一部分的)专用集成电路(ASIC)加以实现。
正如在该技术领域中所知的那样,这里所论述的方法和设备可以作为制造产品来分发,所述产品自身包括具有在其上具体化的计算机可读代码装置的计算机可读介质。计算机可读程序代码装置可结合计算机系统来进行操作,以执行所有步骤或一些步骤,以便执行这里所论述的方法或创建这里所论述的设备。计算机可读介质可以是可记录介质(例如,软盘、硬盘、比如DVD 250之类的光盘、或存储卡)或可以是传输介质(例如,包括光纤的网络、万维网、电缆或采用时分多路访问、码分多路访问的无线信道或其它射频信道)。可以使用任何已知的或已开发出的、能够存储信息且适用于供计算机系统使用的介质。计算机可读代码装置是用于允许计算机读取指令和数据的任何机制,所述指令和数据比如是磁性介质上的磁性变化或光盘(比如DVD 250)表面上的高度变化。
存储器230将把处理器220配置成能实施这里所公开的方法、步骤和功能。存储器230可以是分布式的或者位于本地的,而处理器220可以是分布式的或单独的。存储器230可以实现为电学的、磁性的或光学的存储器,或者作为这些或其它类型的存储装置的任何组合。应该把术语″存储器″足够广泛地解释成包含任何能够从由处理器220访问的可寻址空间中的地址中读取出或写入到所述地址中的信息。利用这种限定,有关网络的信息仍然处在模式分类系统300的存储器250中,因为处理器220能够从所述网络中获取到该信息。
图3是描述图2的RBFN训练过程400的示例性实施方式的流程图。正如在该技术领域中所知的那样,训练模式分类系统通常是按照分类器能够把模式分成类别的次序来执行的。总体上,采用RBFN训练过程300,利用来自于包含正确对象分类的指示的适当背景真实数据集的图像数据,来训练径向基函数神经网络100。正如先前指出的那样,在训练阶段期间,在径向基函数神经网络100中给输入层110和模式(隐藏层)120之间以及模式(隐藏层)120和输出层130之间的每一个连接分配权重。
如图3所示,示例性的RBFN训练过程300在步骤310期间初始化RBF网络100。正如先前指出的那样,初始化过程典型地包含下列步骤(a)通过选择基函数的数目F来固定网络结构,此处每个基函数I都具有下列输出yi=φi(||X-μi||)=exp[-Σk=1D(xk-μik)22hσ2ik],]]>此处k是分量下标;(b)利用K中值聚类算法来确定基函数中值μI,此处I等于1,…,F;(c)确定基函数方差σI2,其中I等于1,…,F(可以将基函数方差σI2固定到某个全局值或设置为反映BF中心附近的数据向量的密度);以及(d)通过经验搜索来确定基函数方差的全局比例系数H,以供(通过搜索H的空间以获得产生良好性能的数值,它的合适值被确定)重新调节BF宽度的比例。
在设置BF参数之后,下一步是训练输出权重。由此,在步骤320期间,示例性RBFN训练过程300向初始化后的RBF网络100呈送训练图像数据。在一个实施例中,训练图像呈送过程典型地包含下列步骤(a)将训练模式X(p)和它们的类别标记C(p)输入到分类器,此处模式下标是p,等于1,...,N;(b) 计算基函数节点yI(p)的输出,此处I等于1,...,F,来自模式x(p);(c) 按如下函数计算基函数输出的FxF相关矩阵RRil=∑pyi(p)yl(p)(d) 按如下函数计算FxM输出矩阵B,此处dj是期望的输出值,而M是输出类别的数目Blj=∑pyl(p)dj(p),此处 此处,j=1,...,M.
应当注意每一个训练模式都产生一个R矩阵和一个B矩阵。最终的R和B矩阵是N个单独的R矩阵和B矩阵的总和结果,其中N是训练模式的总数目。一旦已经向分类器呈送了所有N个模式,就可以确定输出权重wij。
由此,在步骤330期间示例性RBFN训练过程300确定RBF网络100的输出权重wij。在一个实施例中,按如下计算初始化后的RBF网络100的权重(a)将最终的FxF相关矩阵R转置以获得R-1;以及(b)使用下列等式求解网络中的权重w*ij=∑l(R-1)lBlj尔后,RBFN训练过程300的程序控制终止。
对于径向基函数分类器100的训练技术的进一步论述,例如参见2001年2月27日提交的名为”Classification of Objects ThroughMode1 Ensombles″的美国专利申请序列号09/794,443,将该篇在此引入以供参考。
图4是描述并入本发明的特征的示例性对象分类流程400的流程图。如图4所示,当呈送或获得未知模式Xtest时,示例性的对象分类过程400从步骤410开始。应当注意例如可以按已知方式根据每个所检测的运动对象的检测出的速度和画面长宽比,来对图像Xtest进行预处理以便从检测到的运动对象中滤出不想要的运动对象。
在步骤420期间,将输入模式Xtest应用于径向基函数分类器100以计算分类值。尔后,在步骤430期间,由RBF网络100使用常规的技术来对输入模式Xtest进行分类。在一个实施方式中,按如下对输入模式Xtest进行分类(a)对于所有F个基函数,按如下计算基函数输出yi=φ(‖Xtest-μi‖)(b)按如下计算输出节点活动zj=Σiwijyi+woj]]>(c)选择具有最大值的输出zj并且将Xtest分类为类别j。
RBF输入通常包括作为1D向量而馈送到网络100的n个大小归一化的面部图像。隐藏(不受监督的)层实施增强的k中值聚类过程,此处动态地设置高斯聚类节点的数目及其方差的数目。在步骤5中,聚类的数目从训练图像的数目的1/5变化为训练图像的的总数n。把每个聚类的高斯宽度设置为最大值(是聚类的中心与最远成员之间的距离;在类别直径内,是把聚类的中心与距离所有其它聚类最近的模式之间的距离)乘以重叠系数o,这里等于2。进一步利用不同的比例常数h来动态地精化所述宽度。隐藏层产生函数面部基的等效值,此处每个聚类节点来对跨面部空间的一些常见的特性进行编码。输出(受监督的)层沿着这样的空间将面部编码(″扩展″)映射到它们对应的ID类别,并利用伪逆技术来查找对应扩展(″权重″)系数。应当注意对于那个在对相同的训练图像进行测试时关于ID分类产生100%的准确度的配置(聚类数目和特定的比例常数h)而言,聚类数目是冻结的。
根据本发明的一个特征,在步骤440期间执行测试以判断在步骤430期间分配给输入模式的分类值是否低于预定的可配置阈值。如果在步骤430期间判定分类值不低于所述阈值,则程序控制终止。然而,如果在步骤430期间判定分类值低于所述阈值,则在步骤450至480期间执行进一步处理以判断较差的分类值是否是由于照明不均匀而造成的。
由此,在步骤450期间评估输入模式Xtest和与把Xtest分类到的那个隐藏节点相关联的图像,以判断它们是否具有均匀照明,其中。例如,为了查明图像是否是均匀的,将强度值归一化到0和1之间。尔后,把图像分成多个区域并且计算中值和方差。如果中值和方差都介于任何两个区域之间的范围内,则就认为该图像是均匀的。
如果在步骤450期间,判定测试图像和分类器把测试图像分配到的那个隐藏节点两者都是均匀的,则在步骤460期间接受该图像并且将概率设置为高于用户规定的阈值的数值。
如果在步骤450期间,判定测试图像是均匀的而隐藏节点是不均匀的(或反之亦然),则在步骤470期间不接受该图像并且将分类值保持为由分类器100所分配的数值。
最后,如果在步骤450期间判定测试图像和隐藏节点两者都是不均匀的,则在步骤480期间使用归一化的交叉相关(NCC)测量并且将分类值设置成NCC值。NCC的等式可以如下来表示NCC=Σ(xi-x‾)·(ri-r‾)Σ(xi-x‾)2·Σ(ri-r‾)2]]>此处x是测试图像,而r是隐藏节点。通常,NCC是通过将测试节点和隐藏节点划分成多个子区域,然后对其中每一个区域的计算结果进行求和来执行的。总体上,NCC将通过匹配每个图像内的分段并且判断每个分段离中值有多远来使图像平滑。尔后,对距离每个分段的中值的偏差求平均值。
在进一步变形中,依照图3来训练网络100。尔后,对于每一个测试图像而言,计算欧几里得(Eucliedian)距离量度。对于无论哪个距离最小的节点而言,仅仅利用图4的步骤450至480来处理与最小节点相关联的图像和测试图像。
将要理解的是,这里所示出和描述的实施例和变形仅仅是为了说明本发明的原理,并且在不脱离本发明的范围和精神的情况下,本领域的技术人员可以对其实施各种修改。
权利要求
1.一种用于对图像数据中的对象进行分类的方法,包括下列步骤将所述图像数据分配给神经网络中的节点,所述节点具有相关联的节点图像;以及如果所述图像数据和所述节点图像是在照明不均匀的条件下获得的,则应用归一化的交叉相关测量来比较所述图像数据和所述节点图像。
2.如权利要求1所述的方法,其中所述对象的分类值是通过所述归一化的交叉相关测量来确定的。
3.如权利要求1所述的方法,其中对所述图像是否在照明不均匀的条件下获得的判断进一步包括下列步骤归一化所述图像中的强度值,把所述图像划分成多个区域,计算所述区域的中值和方差并且根据所述中值和方差值来判断所述图像是否是均匀的。
4.如权利要求1所述的方法,其中如果所述图像数据和所述节点图像两者都是在照明均匀的条件下获得的,则将与所述节点相关联的所述分类值分配给所述图像数据。
5.如权利要求1所述的方法,其中如果只有所述图像数据和所述节点图像的其中之一是在照明均匀的条件下获得的,就不接受所述节点图像。
6.如权利要求1所述的方法,其中如果所述分类值不满足预定阈值,则仅仅执行所述应用步骤。
7.如权利要求1所述的方法,其中所述节点具有一个相关联的类别标记,标识所述对象对应的类别;和一个分类值,表示该对象属于所述类别的概率。
8.如权利要求1所述的方法,进一步包括下列步骤根据所述归一化的交叉相关测量来输出类别标记。
9.如权利要求1所述的方法,其中所述神经网络是径向基函数网络。
10.如权利要求1所述的方法,其中所述神经网络是反向传播网络。
11.如权利要求1所述的方法,其中所述神经网络是基于多层感知器的网络。
12.如权利要求1所述的方法,其中所述神经网络是基于贝叶斯定理的神经网络。
13.一种用于对图像数据中的对象进行分类的设备,包括存储器;和至少一个处理器,耦合于所述存储器,可操作用于将所述图像数据分配给神经网络中的节点,所述节点具有相关联的节点图像;以及如果所述图像数据和所述节点图像是在照明不均匀的条件下获得的,则应用归一化的交叉相关测量以便比较所述图像数据和所述节点图像。
14.如权利要求13所述的设备,其中所述对象的分类值是通过所述归一化的交叉相关测量来确定的。
15.如权利要求13所述的设备,其中所述处理器还被配置成通过归一化所述图像中的强度值,把所述图像划分成多个区域,计算所述区域的中值和方差并且根据所述中值和方差值来判断所述图像是否是均匀的,来判断所述图像是否在照明不均匀的条件下获得的。
16.如权利要求13所述的设备,其中如果所述图像数据和所述节点图像两者都是在照明均匀的条件下获得的,则将与所述节点相关联的所述分类值分配给所述图像数据。
17.如权利要求13所述的设备,其中如果只有所述图像数据和所述节点图像的其中之一是在照明均匀的条件下获得的,就不接受所述节点图像。
18.如权利要求13所述的设备,其中所述节点具有一个相关联的类别标记,标识所述对象对应的类别;和一个分类值,表示该对象属于所述类别的概率。
19.如权利要求13所述的设备,其中所述神经网络是径向基函数网络。
20.如权利要求13所述的设备,其中所述神经网络是反向传播网络。
21.如权利要求13所述的设备,其中所述神经网络是基于多层感知器的网络。
22.如权利要求13所述的设备,其中所述神经网络是基于贝叶斯定理的神经网络。
23.一种用于对图像数据中的对象进行分类的产品,包括包含一个或多个程序的机器可读介质,当执行所述程序时实施下列步骤将所述图像数据分配给神经网络中的节点,所述节点具有相关联的节点图像;以及如果所述图像数据和所述节点图像是在照明不均匀的条件下获得的,则应用归一化的交叉相关测量来比较所述图像数据和所述节点图像。
全文摘要
利用归一化的交叉相关(NCC)测量来对对象进行分类,以比较在照明不均匀的条件下所获得的两个图像。对输入模式进行分类,以分配试验性的分类标签和数值。将输入模式分配给在径向基函数网络中具有最大分类值的输出节点。如果输入模式和与该节点相关联的图像(称为节点图像)两者都具有均匀的照明,则接受该节点图像并且将概率设置为高于用户规定的阈值。如果测试图像或节点图像不均匀,则不接受该节点图像并且将分类值保持为分类器所分配的数值。如果测试图像和节点图像两者不均匀,则使用NCC测量并且将分类设置为NCC值。
文档编号G06K9/00GK1723468SQ200380105643
公开日2006年1月18日 申请日期2003年12月8日 优先权日2002年12月11日
发明者V·菲洛明, S·古塔, M·特拉科维克 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1