经高维数据分类的识别的制作方法

文档序号:6592495阅读:342来源:国知局
专利名称:经高维数据分类的识别的制作方法
技术领域
本公开涉及用于即使在数据至少被部分遮挡时经高维数据分类进行识别的方法 和系统,其复盖从语音识别到其它对象和面部识别。
背景技术
存在用于识别例如语音和图像的方法,但历史上它们对遮挡并不是非常健壮。通 常,遮挡经常在数据对象的上下文中发生,并且在捕捉戴有帽子、太阳镜或不同程度的面毛 遮盖的人的图像时相对面部出现。诸如噪声、反射等其它意外的对象也可能遮挡需要识别 或标识的数据对象。这些遮挡可包括在尝试识别语音时语音数据的噪声或电磁干扰。许多 现有方法要求测试对象或图像的先验知识和/或测试对象或图像内遮挡的位置的先验知 识或有关遮挡的其它信息。已用于图像识别的一种方法是称为最近邻(NN)的典型识别算法,该算法将与下
面本文公开的方法进行比较。NN分类器计算测试向量y与训练向量V1.....Vn之间的欧几
里德距离,并将y的成员关系指派为等于具有最近距离的训练向量之一。已用于图像识别的另一种方法是称为最近子空间(NS)的有关算法,例如,到每个 主体的图像跨越的子空间的最小距离。正如将示出的,本公开的方法在识别率方面要优越 得多,特别是存在遮挡时。


通过参考附图,将提供上面简要描述的公开内容的更具体描述。要理解,这些附图 只提供有关典型实施例的信息,因此不可视为其范围的限制,公开内容将通过使用附图,借 助于另外的特异性和细节来进行描述和解释。图IA是使用高维数据分类、用于捕捉、对准和识别部分被遮挡的测试图像中的对 象的系统100的框图。图IB是示出识别系统的执行的系统图,其使用I1最小化来恢复稀疏系数以增强 识别。图2A在左侧显示属于右侧八个人之一的被遮挡的面部。
11
图2B显示图2A中人物的成功识别,由作为训练图像的集合的稀疏线性组合加上 由于遮挡造成的稀疏误差的测试图像来表示。图3A显示通过从子空间R(Aj)之一采样点Axtl、并通过稀疏向量e扰动它而生成 被遮挡的测试图像y。图3B显示耶鲁面部数据库B中的三个人的图像的混合线性结构;每个人的图像通 过(仿射)三维子空间很好地近似。图4A、4B、4C和4D分别显示㈧被遮挡的测试图像y ;⑶通过最小化I2范数来 估计的相对训练集合的系数&; (C)误差〗2;以及(D)从估计的系数的重构。图5A和5B显示I1最小化器(I1Hiinimizer)对稀疏误差的健壮性,其中分别显示 (A)通过将球体(I2球)居中χ放置并将它扩展到触及R(A)而获得的I2最小化器;和(B) 通过将I1球(多面体)居中χ放置并将它扩展到触及R(A)而获得的I1最小化器。图6显示经I1最小化的分类的几何形状。图7显示来自扩展耶鲁B数据库的人面部图像的示例。图8A显示面部识别,带有12X10下采样图像为特征,并在图中绘出,测试图像y 的从算法1恢复的稀疏系数的值及对应于两个最大稀疏系数的两个训练示例。图8B显示相对于通过I1最小化的投射稀疏系数^的图8A的测试图像的残差 (residual) Ti (y) 0图8C使用来自图8A的测试图像,显示来自常规I2最小化的系数,其显示不稀疏 的已恢复解。图8D显示相对于通过I2最小化获得的系数的投影的图8C的测试图像的残差。图9显示图8的测试图像与训练图像之间的欧几里德距离。图IOA和IOB分别显示右眼特征和半边面部特征的示例。图11A、11B、11C、11D和IlE显示变化的遮挡程度下的识别,分别是㈧来自扩展 耶鲁B的30%被遮挡的测试面部图像;(B)估计的稀疏误差《;(C)绘出的估计的稀疏系数 ^i; (D)重构的图像L ;以及(E)算法1和三个竞争者的绘出的识别率。图12A、12B、12C、12D和12E显示随机损坏下的识别,分别是㈧来自扩展耶鲁B 带有随机损坏的图像,逐行从顶部到底部,损坏量为30%、50%和70% ; (B)估计的误差 (C)绘出的估计的稀疏系数.烏;(D)重构的图像L ;以及(E)算法1和三个竞争者的绘出的 识别率。图13A到13D显示分别遮挡不同区域鼻子、嘴巴和眼睛的效应和每个遮挡的识别率。图14A、14B、14C和14D显示尽管有掩盖物的识另I」,分别是㈧来自 Aleix-Robert(AR)数据库的测试图像,有太阳镜遮挡;(B)估计的稀疏误差&的量值;(C) 估计的稀疏系数向量以及⑶重构的图像图15A、15B、15C和15D显示失败的识别示例,分别是㈧来自AR数据库的测试 图像,大致40%被围巾遮挡;(B)估计的稀疏误差$的量值;(C)估计的稀疏系数向量名;以
12及(D)具有最大系数的训练图像,一名有胡须的男性。图16A、16B和16C显示有效的测试图像,分别是㈧30%被遮挡的测试图像;⑶ 恢复的系数;以及(C)对于每个类i的等式(10)的值。图17A、17B和17C显示一个无效测试图像以便与图16A-16C对比,分别是 (A) 30%被遮挡的测试图像;⑶恢复的系数;以及(C)对于每个类i的等式12的值,其中, 用于有效测试图像(图16B)的系数稀疏得多,并且来自等式10的比率大得多。图18A、18B、18C和18D显示用于异常值拒绝的受试者工作特征(receiver operator characteristics) (ROC)曲线,分别是(A)无遮挡;(B) 10%遮挡;(C) 30%遮挡; 以及(D)50%遮挡,其中,每个图的最顶部曲线表示带有如在算法1中的稀疏表示并随后经 等式12拒绝异常值的计算。图19A、19B、19C和19D显示处理邻接掩盖物的划分方案,分别是㈧有围巾遮挡 的测试图像,包括整体的和划分的;(B)估计的稀疏误差《;(C)估计的稀疏系数以及(D) 重构的图像y。图20显示扩展耶鲁B的四个子集中的一种健壮设计,包含越来越极端的光照条件 以展示对于每个子集的等效崩溃点(EBP)。图21显示使用来自AR数据库的四个面部表情以从四个面部表情的不同对展示 EBP的健壮设计。图22A、22B和22C显示测试主体的配准和照明的复合效应,分别是㈧来自 Viola和Jones的面部检测器的输入面部(黑框);(B)通过算法2与训练很好对准的输入 面部(白框),但只为用于识别的训练图像使用24个正面照明;以及(3)通过使用很好对 准的输入面部和训练中充分的照明而获得的信息性表示。图23A、23B、23C和23D显示通过I1 (顶部)和I2 (底部)最小化的佩戴太阳镜的 主体的比较,其中分别是(A)虚线是面部检测器给出的初始面部边界,并且实线是对准的 结果;(B)使用y。的估计变换的扭曲的测试图像;(C)使用训练图像重构的面部AiX ;以及 ⑶误差e的图像。图24A和24B显示算法对其成功对准合成扰动的测试图像的主体的一小部分,其 中,转换的量表示为以度表示的平面内旋转的量和外眼角之间的距离的一小部分,分别是 (A)X和y方向中的同时转换;以及(B)y方向中的同时转换和平面内旋转Θ。图25显示主体的A到J姿势与正面训练图像的对准,其中,A到I显示对于_45° 到+45°有良好的对准,并且J是基于极端姿势、算法失效的一个姿势。图26A和26B分别是训练图像采集系统的透视图和训练图像采集系统的框图。图27是按顺序显示单元的照明模式以在模式的每个相应照明捕捉主体的图像的 方法的流程图。图28是训练图像采集系统的顶视图。图29A和29B分别是从图28的顶视图可观看的主体的前方和后方照明。图30是训练图像采集系统的侧视图。图31A和31B分别是从图30的侧视图可观看的主体的前方和后方照明。图32A和32B分别是覆盖实验的照明模式和用于实现训练图像采集系统的选取的 照明模式。
图33A和33B分别是显示在改变环的数量和单元的数量的实验期间、训练图像采 集系统的照明模式的覆盖和粒度的图。图34显示使用图32B的模式、从训练图像采集系统采集的38个训练图像的集合 的示例。图35通过采集、面部检测、与训练图像数据库对准和识别的步骤来显示测试图像 的流程。图36是Multi-PIE上的大型实验的图,显示与对于NNm、NS ^n LDAm的那些ROC曲 线比较的对于算法的ROC曲线(标记为I1)。图37显示失败的Multi-PIE主体的代表性示例。图38显示分类在类别1-3中的主体的代表性示例,每个类别一行,其中,类别1是 未戴眼镜的主体,类别2是戴眼镜的主体,以及类别3是戴太阳镜的主体。图39显示分类在类别4中的主体或带有明显的表情、姿势、轻度模糊和有时遮挡 的主体的代表性示例,其中,顶部的行包括成功识别的那些主体,并且底部的行包括未识别 出的那些主体。图40显示分类在类别5中的主体或带有少量控制的主体的代表性示例,其中,顶 部的行包括成功识别的那些主体,并且底部的行包括未识别出的那些主体。
具体实施例方式在下面的描述中,提供编程、软件模块、用户选择、网络事务、数据库查询、数据库 结构等的许多特定细节以便彻底理解本文中公开的系统和方法的各种实施例。然而,公开 的系统和方法能通过其它方法、组件、材料等来实践,或者能在没有一个或多个这些特定细 节的情况下实践。在一些情况下,未详细示出或描述公知的结构、材料或操作。此外,描述的特征、结 构或特性可在一个或多个实施例中以任何适合的方式组合。如本文一般描述和图中示出的 实施例的组件能以多种广泛不同的配置来布置和设计。正如本领域的技术人员将明白的, 可更改结合公开实施例所述的方法的步骤或动作的顺序。因此,在例如流程图等图中的或 具体实施例方式部分中出现的任何顺序只是用于说明目的,并无意暗示必需的顺序。所述实施例的几个方面示为软件模块或组件。在本文中使用时,软件模块或组件 可包括位于存储器装置内和/或作为电信号通过系统总线或有线或无线网络传送的任何 类型的计算机指令或计算机可执行代码。软件模块可例如包括计算机指令的一个或多个物 理或逻辑块,这些块可组织为执行一个或多个任务或实现特定抽象数据类型的例程、程序、 对象、组件、数据结构等。在某些实施例中,特定软件模块可包括存储在存储器装置的不同位置中的离散指 令,这些指令一起实现模块的所述功能性。实际上,模块可包括单个指令或多个指令,并且 它可在几个不同的代码段上、在不同的程序之间和跨几个存储器装置来分布。一些实施例 可在分布式计算环境中实践,其中,由通过通信网络链接的远程处理装置执行任务。在分布 式计算环境中,软件模块可位于本地和/或远程存储器存储装置中。如在本文中所述的,对象指希望识别的内容,如图像内的特定主体(或人)或音频 剪辑内来自某个人的特定语音等。对象指的是数据,表示能够通过分类来识别的事物。因此,关于面部,一个主体具有一个唯一的三维(3D)面部形状和颜色等。本文中公开的系统 能够将3D面部标识为对象,并且在其标识后,对象可称为人物主体。如在本文中所述,类描述例如在数据库中捕捉的所有对象的划分。每个主体采用 单个类,例如,该主体的3D面部外观。类使得该划分是独占性的,这意味着对象被分类为单 个类,如A类(MichaelChase)或B类(Andrew Wight),而不是A类和B类两者或它们的某 种混合。图像是被捕捉和存储的包含对象并在其上可执行分类的数字信息。异常值图像是 与任何可用类无对应关系或者仅通过不止一个类的混合有对应关系的那些图像。作为一般 规则,异常值图像或测试数据被拒绝。大多数现代面部识别算法在实验室条件下工作良好,但在更少控制的环境中测试 时降级。这大部分是由于难以同时处理照明、对准、姿势和遮挡的变化。提议的一种可行的 面部识别系统对所有这些变化实现了高度的健壮性和稳定性。使用来自稀疏表示的工具显 示在存在显著配准误差和遮挡的情况下将测试面部图像与正面训练图像的集合对准。对于 有关例如在Carnegie Mellon University(CMU)开发的公共面部数据库Multi-PIE的公共 面部数据集的提议的对准算法,详尽表征的是吸引的区域。其中描述的研究显示如何获得 训练照明的充分集合以用于线性插入可行光照条件。包括基于投影仪的训练采集系统的完 整面部识别系统已实现,以便评估开发的算法在实际测试条件下如何工作。该公开的系统 能仅将提议照明下的正面图像用作训练,有效和高效地在多种现实条件下识别面部。遮挡对健壮的现实对象识别造成了显著障碍。考虑捕捉人面部的图像的相机,希 望实现其自动识别。图像能视为从相同面部的可能图像的相当严格的集合采样的一种测 量。现在假设面部被部分遮挡(图2A和2B)。遮挡损坏了测量的图像,引入误差,这些误 差量值大(过失误差(gross error));只集在部分图像上(稀疏误差);和/或位置不可 预测(随机支持的误差)。图IA是使用如本文中公开的高维数据分类、用于在部分被遮挡的测试图像中捕 捉、对准和识别对象的系统100的框图。系统100可包括服务器110,该服务器可包括但不 限于存储器114、处理器118、特征提取器122、面部检测器124、I1最小化器126、识别器 130、通信接口 134及用户接口 138,它们中的任何项可相互耦合。服务器110可还包括或耦 合训练图像的图像数据库150和表示测试图像的源的测试图像数据库154,数据库154能 包括足以将测试图像通过用户接口 138传递到服务器110的任何存储器源。在本文中,词 语“耦合”定义为表示直接连接或通过一个或多个中间组件间接连接。系统100可包括网 络160,使得服务器110可通过网络160接收和发送图像和/或测试图像,并且可远程执行 其处理的任何部分。最后,系统100可还包括图像采集系统164和图像对准系统166,这将参照图26A、 26B和27-35更详细公开。训练数据库150中存储的图像对于给定主体在数量上可以是多 个,每个图像在姿势、角度和/或照明方面有某种程度的变化。因此,本文中公开的图像采 集系统164允许从相同主体采集和记录多个变化的图像,存储在训练图像数据库150中以 供以后使用。在基于训练图像可进行测试图像的标识前,数据库154中的测试图像和数据 库150中的训练图像需要相互对准。图像对准系统166提供此类相互对准。图像对准系统 166和图像采集系统164耦合在一起,并且可集成为单个采集和对准系统,包括但不排除集 成在服务器110内。
15
特征提取器122可用于从图像数据库150和测试图像数据库154的任一个提取图 像的特征。I1最小化器126可由服务器110-或另一计算装置(包括移动装置)用于恢复 稀疏系数,以在部分被遮挡的测试图像中恢复对象的相关和未损坏的数据,以便如下面将 更详细解释的可由识别器130识别图像。用户接口 138可用于例如从测试图像数据库154 或图像采集系统164搜寻和/或采集要识别的测试图像。通信接口 134可由服务器110用 于通过网络160通信。网络160可包括通过使用有线或无线连接而连接到的因特网或万维 网(“Web”)、广域网(WAN)、局域网(“LAN,,)和/或外联网。图IB是示出识别系统100的执行的系统图,其使用I1最小化来恢复稀疏系数以 增强识别。训练图像数据库150包含η个图像,图像在框170进行特征提取。测试图像174 在框178进行特征提取。特征提取可由特征提取器122执行。系统100在框180经I1最 小化恢复稀疏系数,这些系数由X1、X2. · ·、xn表示,最终在框184产生测试图像174的识别。 I1最小化器128可用于在前者中恢复稀疏系数,而识别器130可用于在后者中识别即使存 在部分遮挡的测试图像174。为识别测试图像中的未知对象,系统100首先为测试图像(通过框178处的特征 提取),以及为其中之一是测试对象的k个对象的η个训练图像的图像数据库(通过框170 处的特征提取),计算有意义的图像特征。其次,I1最小化过程在框180通过恢复将测试特 征的稀疏表示恢复为训练特征的线性叠加。最后,在框184基于表示的已恢复稀疏系数,实 现对象的识别。下面是系统100的实现的细节。假设有图像I,特征选择或提取过程(框170和178)将图像转换成d维特征向量 ve沢d。图像特征的一些示例包括离散傅立叶变换(DFT)、离散余弦变换(DCT)、小波变换、 主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)及非线性内核图。在图IB中,
用于数据库中η个图像的特征向量表示为Vl、V2.....vn,而用于测试图像的特征向量表示为1。测试图像的识别是基于其特征向量y相对于数据库150中训练图像的特 征向量Vi、V2、. . .、Vn的稀疏表示。更具体地说,假设y = X1V^X2V2+- +XnVn = Ax,
⑴其中,x = (Xu X2,...,々/ "是未知标量系数,以及A = (vi; V2, ... , vn) E^ldxn是特
征向量的矩阵,其可包括堆叠为向量的所有图像像素,或者该矩阵能包括在某些变换后的 图像。稀疏性约束规定测试特征向量y应该仅使用相同对象的训练图像来线性表示。同样
地,等式1中的系数&、&.....Xn应全部为零,但与测试对象为相同对象的图像相关联的那
些系数除外。也就是说,系数是稀疏的。此类稀疏表示使用I1最小化来计算未知的系数X = (X1, X2, ... , xn)T经以下 两种优化方法的任一个来计算(P1)Hiin |x| I1以y = Ax为条件;(2) (P2) mini Ixll1以I |y-Ax| |2 < σ为条件,其中,σ是数据噪声的有界能(bounded energy)的 估计。优化能使用线性规划或凸规划算法来有效地解决。理想的情况是在恢复X后,X中的所有非零项将全部与单个主体相关联,并且测试 图像y容易被指派到该主体。然而,由于噪声,非零项可能与多个主体相关联。许多分类器 能解决此问题。例如,y可被指派到具有χ中最大的多个非零项的主体(多数票);或者y 能被指派到具有χ的单个最大项的主体。
16
图2A在左侧显示属于右侧八个人之一的被遮挡的面部。图2B通过将测试图像生 成为训练图像的集合的稀疏线性组合加上由于遮挡造成的稀疏误差而显示图2A中人物的 成功识别。编码理论的基本原则是测量中的冗余对于检测和校正过失误差是必需的。冗余 在对象识别中出现,这是因为图像像素的数量一般远远大于生成图像中的自由度的数量。 在这种情况下,即使一小部分像素由于遮挡而被完全损坏,基于剩余像素,识别也仍是可 能的。另一方面,基于降维或特征提取(例如,PCA、ICA、LDA)的方案丢弃冗余信息,从而 降低对表示的误差容限。在 A. Leonardis 禾口 H. Bischof■的 “Robust recognition using eigenimages,,(Computer Visionand Image Understanding, vol. 78, no. 1, pp. 99-118, 2000)中提到了丢弃冗余信息的缺陷,该文提议随机采样以在PCA框架中处理遮挡。没有表 示比原始图像本身更冗余或更具信息性。当然,没有利用它的有效计算工具,冗余是无用的。直接利用原图像的冗余性的 困难促使研究者转而关注于空间局部性作为用于健壮识别的指导原则。仅从一小部分图 像像素计算得出的局部特征明显比整体特征更不可能被遮挡损坏。在面部识别中,诸如 ICA和局部非负矩阵分解(LNMF)等方法尝试通过适应性地选取局部集中的过滤基(filter base)来利用此观察。有关的方案将图像划分成固定区域,并为每个区域计算特征。但要注 意的是,投射到局部集中的基上变换遮挡问题的域,而不是消除损坏。有关原始像素的误差 变成了已变换域中的误差,并且甚至可能变得更不具局部性。实现空间局部性中的特征提 取的作用因此是可疑的没有基或特征比原始图像像素更空间局部化。用于健壮和准确识别的一个中心因素是在对象识别中自然出现的稀疏性。优选的 是测试图像应该仅根据相同对象的训练图像、整个训练集合的一小部分来解释。遮挡造成 的损坏一般也是稀疏的,只影响图像像素的一小部分。稀疏表示在信号处理和信息理论中已吸引了极大关注。最近的进展集中在用于恢 复稀疏表示的I1范数的效力。一个相当重要的含义是在很一般的条件下,对线性等式系统 求稀疏解的组合问题能通过最小化I1范数,经凸优化而有效和准确地得以解决。在面部识 别中,以前已提议I1范数作为最近邻(NN)分类器的距离度量。I1范数的此使用与本申请 的主题不直接相关,并且在稀疏性或健壮性方面未表达相同的优点。关于稀疏表示的早期工作已由D. Geiger、T. Liu和M. Donahue的“Sparse Representations for Image Decompositions", (IJCV, vol. 33,no. 2,1999)
小型库的已转换面部模板。而公开的I1范数的使用产生了易处理的凸性问题。Geiger等人 利用非凸性Ip范数(P < 1),因此必须采取贪婪的匹配追踪策略(greedy matchingpursuit strategy) 0由于使用小得多的图像库,测试图像的身份诱发的稀疏性未在Geiger等人中 被标识为关键因素。与此相反,本文中初次公开了 I1最小化如何提供一种原则性的框架以用于利用健 壮识别问题中固有的两种类型的稀疏性解释测试图像方面的稀疏性和遮挡引起的测量误 差中的稀疏性。提议的是在存在遮挡时用于识别的算法。该算法使用I1最小化,利用原图 像数据中的冗余,将测试图像表示为给定训练图像的稀疏线性组合加上由于遮挡造成的稀
疏误差。直接利用问题的稀疏结构使方法能够使用原图像数据来实现技术现状的性能,无需降维、特征选择、合成训练示例或域特定的信息(如照明模型所要求的)。另外研究了此 框架对识别系统的工程的含义,显示如何预测算法能处理多少遮挡及如何选取训练数据以 使对遮挡的健壮性最大。有关公开可用数据库的广泛实验证明了提议方法的功效。虽然提议的方法如上所述是通用的,但下面的实验结果局限于人面部识别。通过 图21论述的提议的方法未明确考虑到对象姿势。基于I1的框架对例如由于配准误差而造 成的姿势方面的小变化具有健壮性。此类检测未假设,因此,面部的归一化和裁剪已在应用 本申请的前半部分中的公开的算法之前执行。在从图22A、22B和22C开始的本申请后半部 分中,公开了用于对姿势或未对准的自动对准和补偿的系统和方法。因此,公开的算法步骤 在本申请的第二半部分中与第一半部分相比时有一定程度的变化,这是因为第二半部分自 始至终自动进行对准和识别过程。图3A显示通过从子空间R(Aj)之一对点Axtl采样、并通过稀疏向量e扰动它而表 示的被遮挡的测试图像y。图3B显示耶鲁面部数据库B中三个人的图像的混合线性结构; 每个人的图像通过(仿射)三维子空间很好地近似。对象识别中的基本问题是使用来自k个不同对象类的标记的训练图像正 确地确定其身份最初未知的测试图像的类。WXh灰阶图像利用通过堆叠其列或行 而产生的向量(m=w/z>被标识。系统100将给定训练图像布置为单个矩阵 A=[ V1, ν2, ..., vn]列,并且让表示来自第i个类的Ili个训练图像的子 矩阵。已提议统计、生成和判别模型的一个巨大变化以便为识别利用Ai的结构。一个特别 简单和高效的方案将来自单个类的图像建模为取决于线性子空间。子空间模型灵活多变, 足以捕捉实际数据集中的许多变化,并且特别是在面部识别的上下文中有明确目的,其中, 已观察到在变化光照条件下面部的图像取决于特殊的9维子空间(参见图3A)。因此,给定充分的训练图像,第i个对象的测试图像y将近似位于来自相 同类的训练图像的线性跨度(linear span)中y = AiXi,其中,Xi e 9Γ'是系数的 向量。测试图像y也能根据完整的训练集合A = [A1, ...,Ak]来表示y = Ax0,
(3)其中, Ox/'0...0f。在存在噪声的情况下,线性子空间模型未精确成立,并且写成
y = ΑΧ(ι+ζ可能更实际,其中,ζ是小量值(例如高斯)误差的向量。为了讲解的简明,系 统100可忽略ζ的效应。然而,所述几何形状和算法在噪声下可证明是稳定的。通过将下 面算法1 (表1)中的线性规划替代为E. Candes和P. A. Randall的“Highly robusterror correction by convex programming"(preprint,http://arxiv. org/abs/cs. IT/0612124, 2006)中公开的二阶锥规划(second-order cone program),能明确考虑到ζ项。现在假设被观测的图像y也被部分遮挡。假设P是被遮挡区域中的像素的部 分。因此,像素的部分(I-P)属于来自K个对象类之一的图像Υ(ι:Υ = Υ(ι+Θ = ΑΧ(ι+Θ,
(4)其中,^曰识”^是误差的向量。误差可具有任意量值,并且因此无法通过为小量值噪声设 计的技术忽略或处理。然而,要注意的是,真正的e是稀疏的;其非零项取决于对应于被遮 挡的像素的大小为P m的集合(图3A和3B)。给定此公式化,考虑在遮挡下解决识别的以下问题(问题1)。给定来自k类的训 练图像的标记集合A1, Ak和通过从第、类采样图像并随后任意扰动其值的部分P而 生成的测试图像y,系统100可标识正确的类iQ。
作为解决此问题的第一步,要注意的是由于其特殊稀疏结构,向量Xtl对于分类极 具信息性。由于Xtl最初是未知的,因此,对于线性等式系统寻求(近似)解Ax = y。在 图像像素的数量m大于训练图像的数量η时,系统被超定,并且可能不具有确切的解。这 种情况下,通过将残差的I2范数最小化,传统常识压倒性地赞成最小二乘意义上的解
=argmin||^-^ll2-(5)传统常识将此常见惯例包括在计算机
.V
视觉中。一些技术将y表示为基础向量的线性叠加,基础向量的系数通过将I2范数最小化 而计算得出。对于正交基,这些系数只是y到基础向量上的投影。图4A、4B、4C和4D分别显示㈧被遮挡的测试图像y ;⑶通过最小化I2范数估 计的相对训练集合的系数(C)误差〗2;以及⑶从估计系数的重构。在存在各向同性高斯噪声的情况下,&是χ的最大似然估计。不过,由遮挡引发的 误差e是高度非高斯的,由集中在图像像素的子集上的过失误差组成。在此情况下J2能够 是任意不良的;由于I |e| |2是不受限的,因此,Ii2-X0II2也不受限的。图4A到4D给出此现 象的视觉展示。注意,通过I2最小化来估计的误差和系数力都受密集支持。不出所料的 是,图4D中的重构相当差(与图IlD的结果相比较)。该结论是不可避免的常规最小二 乘解未适当地利用问题1中固有的稀疏性,并且因此对遮挡不具健壮性。下面示出如何通过最小化I1范数而不是I2范数来利用稀疏性,从而产生在存在遮 挡情况下用于识别的简单、健壮和有效的算法。图5A和5B显示I1最小化器(126)对稀疏误差的健壮性,其中分别显示(A)通过 将球体(I2球)居中于χ放置并将它扩展到触及R(A)而获得的I2最小化器;和(B)通过将 I1球(多面体)居中于χ放置并将它扩展到触及R(A)而获得的I1最小化器。由于误差e已知是稀疏的,但属于任意量值,因此,最小化残 差的I2范数的一个合理备选方案是转而寻求给出最稀疏残差的χ: x0=argmin||^-/i4.(6)此处,1 “范数” | |χ| |。对向量 χ 的非 零项的数量进行计数。I |x| Io不是真范数,因为对于α乒0,11 αχ| ι。= ι X ι。。计算等 式6给出A范围内的向量^fo,使得误差.e 二 y-力各具有最少的非零项。 实际上,如果A在一般的位置中,并且误差e具有少于m/2的支持(少于一半的图 像被遮挡),则々=而。也就是说,真解(truesolution) X0给出最稀疏残差,并且能通过解等 式(6)而确切地得出。不过,计算、通常是非确定性多项式(NP)难题(nondeterministic polynomial (NP) -hard),并且要求检查误差e的每个可能支持。因此,似乎计算真X0可能 是毫无希望、难以解决的。不过,对于问题1,情况不是如此。能够看到,如果误差e足够稀 疏,则1°最小化器i0.等于I1最小化器式=毛,(7)其中,
= arg min,v || y - Ax||,。这是凸优化问题,其解是唯一的,并且能通过线性规划而有效地计 算得出。 总之,如果y = Ax0+e,并且误差e足够稀疏,则通过生成系数,X0能通过将误差 e的I1范数最小化而被准确地恢复。此等效性的证明和它成立的技术条件的详细讲解 超出本申请的范围。要了解证明,参见J.Wright和Y. Ma的“Dense Error CorrectionviaLl—Minimization,,(2008 年 8 月提交至Ij IEEE Transactions on InformationTheory, http//perception, csl. uiuc. edu/ jnwright/ffright08-IT. pdf)。然而,图5A和5B给出I1最小化器为何在健壮性方面表现出此类极大优点的基本 直觉,其中,观察y通过对在A范围内的点Axtl采样、然后沿坐标轴之一按e扰动它而生成。 将I2范数最小化相当于查找触及A的范围R(A)的y周围的最小半径球体。它触及的点是
并且不等于-Jio,除非e丄R(A),一个有限的特殊子集。另一方面,I I · I I1的水平集合(level set)是八面体的,与坐标轴对准。将I1范 数最小化相当于将I1球(八面体)围绕y居中,并且扩展它直到它触及R(A)。此交叉点是
為,在这种情况下,它等于AX(I。注意,图5B的图形是比例不变的。这暗示I1最小化恢复真 解Xtl的能力是与e的量值无关的,并且只取决于e的符号和子空间R(A)的相对几何形状 及单位I1球。从图5B的几何形状,应明白,在且仅在子空间R(A)到对应于e的单位I1球 上的(稀疏)点的转换R(A)e/| e I1仅在e/| e I1与球相交时,尽二%。前面显示了在超定系统(m >> η)中,将残差的I1范数最小化能如何恢复Xtl,即 使存在任意大的误差(假设那些误差是稀疏支持的)。此方案未明确强制估计的系数向量 乓的稀疏性。不过,随着训练图像的数量η增大,等效性高二、=^0.开始崩溃。从检查线性 系统Ax = y明白此崩溃的原因。在η增大时,此系统变成平方的,然后变得欠定。R(A)将 因而跨所有9Τ1,并且甚至被遮挡的测试图像χ将可表示为A的列的线性组合。从纠错角度而言,增大η(例如,通过扩展数据库中对象类K的数量)似乎降低了 表示的冗余性相同数量的图像像素必须表示更大数量的自由度。然而,注意情况并不是 这样。每个测试图像仍具有高度冗余的表达式yo = Ax0-它只取决于Xtl的几个(彡η,)非 零项。但是,为利用此类冗余表示中固有的健壮性,需要强制估计的系数具有此类稀疏结 构。因此,为χ和e寻求同时稀疏的解。将等式4重写为
V = [^e =彻.(8)此处,β e 9Γ,Χ( +1Η)因此系统 Bw
=y欠定,并且不具有唯一解。然而,从上面的论述,生成w最多具有ni+pm个非零项。这
W0 = argminiyi.,s.t. Bw =3/(=Ax + e).
促进寻求对此等式系统的最稀疏解。
(9)实际上,如果矩阵B是在一般位置,则对于具有少于m/2个非零项的某一 ,只要
m 一 Yii
y = Bw 便是唯一最稀疏解=众因此,如果遮挡e遮盖少于"^个像素,或者大约
^JVVvoL .
50%的图像,则对于等式9的解是真生成器(true generator) [X(1e]。像等式6的超定问题一样,求得对于线性等式系统的最稀疏解通常是NP难 题。不过,对应的等效性结果表明如果最稀疏解Wtl足够稀疏,则它等于最小的I1范数解, W, = arg ITiiinIwI1 s.t. Bw ^y (= Ax + e).
(10)实际上,健壮性地求解超定系统y = Ax+e的问题和稀疏性地求解欠定系统y = Bw 的问题是相当的,并且能相互变换。等式10的结果暗示只要遮挡e和系数Xtl足够稀疏,它们便能通过I1最小化有效和准确地计算得出。至此,在I1-Itl等效性的理论中的几个结果已简述,并且显示了这些结果如何提供 有效和易处理的方式以利用健壮识别问题中固有的两种类型的稀疏性。然而,确定这些结 果是否实际相关要求有关Wtl何时“足够稀疏”的更精确概念。为了量化何时I1-Iq等效性成立(S卩,何时汍=W0 ),Donoho将矩阵B的等效崩 溃点(EBP)定义为最大数k,使得对于具有少于k个非零项的某一 Wtl,如果y = Bw0,则对 于系统Bw = y的最小f范数解為等于该稀疏生成器W(l。“对于大多数大的欠定线性等 式系统,最小I1范数角军也是最稀疏角军(For most large underdetermined systems of linearequations the minimal I1-norm solution is also the sparsest solution),,, Comm. Pure and Applied Math.,vol. 59,no. 6,pp. 797-829,2006。在该文献中已为常数 P。 的存在给出多个充分的条件,使得EBP (B) P评(S卩,对于具有通过I1最小化可恢复的非零项 的不消失部分的解)。例如,Candes等人指出,即使对于从高斯系综(Gaussian ensemble) 得出的随机矩阵B,当m —c 时,具有极大的可能性EBP (B) > P Qm。Ε. Candes、M. Rudelson、 Τ·Tao 禾口 R. Vershynin, "Error correction via linearprogramming" (IEEE Symposium on FOCS, pp. 295-308,2005)。有关EBP(B)的一个重要上界来自中央邻近多面体的理论 EBP(J ) < L(m-Η l)/3j.(11) D. Donoho, "Neighborly polytopes and sparse solution of underdetermined linear equations,,(preprint, 2005)。此结果指 Tj^ 如果Iii+1 support (e) I > m/3,则不应期望完美地恢复[x0e] 0通常,(m > > Iii),因此,等式 (11)暗示在其之下能希望仍实现完美重构的最大部分的遮挡是33%。此界限由下面论述 的如图IlA到IlE所示的实验结果来证实。假设接收根据等式8生成的测试图像y,并且还假设支持(A) < EBP(Zi).,使得等式 9和10等效。随后,通过以[A I]w = y为条件将I k| I1最小化,能恢复系数向量Xtl和遮 挡引起的误差e。图6显示经I1最小化的分类的几何形状。B = [A I]的列的凸包是9Γ中的高维 多面体。此多面体的每个顶点是训练图像或只照亮单个像素的图像(对应于B的身份子矩 阵)。给定某个测试图像,解决I1最小化问题必需定位测试图像落在多面体的哪个小平面 上,其中,小平面类似于自然出现在晶体上或者在宝石上切割的平坦抛光表面之一。算法查 找带有最少可能顶点的小平面。只有该小平面的顶点对表示有贡献;所有其它顶点没有贡 献,或换而言之,在烏中的其系数为零。存在估计充和^的许多可能的方式能用于分类。例如,设置兄.补偿遮挡的效
应。随后,能基于它离哪个面部子空间R(A1).....R(Ak)最近来分类重构的图像l。然
而,注意稀疏系数乂已经将测试主体的身份编码。因此,能直接使用烏,指派y到其系数
最接近它的类。更精确地说,k函数可定义为9Γ,第i个其保留对应于第i组
的系数,并将其它系数设置为零A(X)=IoLoiVoloiTeIir j艮据第i组相关联的系
数的近似因而是 = + ^,并且通过指派y到将I I y-A δ i (χ) -e | 12最小化的组,分 类能够实现。整个过程概括为下面表1中的算法1。基于S. Boyd和L. Vandenberghe的 Convex Optimization(Cambridge University Press, 2004)禾口 Ε· Candes 禾口 J. Romberg 的 "l^magic :Recovery of sparsesignals via convex programming" (http://www. acm.
21caltech. edu/llmagic/,2005),此实现经用于线性规划的原始对偶算法,将I1范数最小化。 算法1 (经C1最小化的健壮识别) 1: 输入划分到A:个类A1、...、Ak的η个训练样本和测试样本少。
2:i9LM.B = [Aj,...,Ak 7]。 表丄 3: 计算仏广“屯础一叫州丨丨’使得通过线性规划,万巧。 4: for i=l\k
5: 计算残差卜-圳识)-純 6: End
7输出^>) = argmin,=1, ki)如上所述,算法1优选地补偿覆盖多达(EBP⑶-Iii)个像素的遮挡。超出此 范围,理论不再保证准确的恢复,并且因此识别性能可能受损。不过,体验体(body of experience)暗示将I1范数最小化仍助长稀疏性。另外,由于I1最小化器在存在噪声的情 况下稳定,因此,从高度遮挡的图像计算得出的Xtl的估计可仍对识别是有用的。在下一节 中,这被示出为确实如此。图7显示来自扩展耶鲁B数据库(150)的人面部图像的示例。此处,一个示例 用于演示上述方法超越现有方法在面部识别应用上的优点。扩展耶鲁B数据库(http:// vision, ucsd. edu/ leekc/ExtYaleDatabase/ExtYaleB. html)是一个免费的公共数据库, 它提供测试面部识别方法的性能的基准。数据库(150)由来自38个人物主体的图像大小 为192X168的2414个有效正面图像组成。图像在实验室控制的照明变化下捕捉。作为演示,数据库中一半的图像(即1207个图像)是随机选择以用于训练的,并 且面部图像的身份因此假设为未知。随后,剩余的1207个图像用于测试对于每个测试图 像,相对于1207个训练图像恢复稀疏表示X,并且将图像中主体的身份分类。图8A显示带有12X10下采样图像作为特征并在图表中绘出的面部识别、从测试 图像y的算法1恢复的稀疏系数的值及对应于两个最大系数的两个训练示例。在此第一实 验中,将一个12X 10下采样图像选取为图像特征。特征提取功能(图IB的框170)将每个 图像从原始分辨率192X 168转换到12X 10。下采样图像的像素值用作120-D特征-堆叠 为算法1中矩阵A的列。因此,矩阵A大小为120X 1207,并且系统y = Ax欠定。图8A示 出使用I1最小化方法、由算法1为来自第一主体的测试图像174恢复的稀疏系数χ。图8A 还示出对应于两个最大系数的原始图像和特征。两个最大(或最主要)系数均与来自主体 1的训练样本相关联。图8B显示相对于通过I1最小化的投射稀疏系数^(巧的图8A的测试图像的残差 rjy)。两个最小残差之间的比率大约为1 8.6。残差相关于38个投射的系数次(幻,i = 1,2,. . . .,38。利用12X 10下采样图像作为特征,算法1跨扩展耶鲁B数据库实现92. 1%
22的总体识别率。虽然对于欠定系统y = Ax的更常规最小I2范数解一般相当密集,但最小 化I1范数有利于稀疏解,并且当这个解足够稀疏时可证明地恢复最稀疏的解。为示出此对比,图8C使用来自图8A的测试图像174,显示来自常规I2最小化的系 数,这显示了不稀疏的已恢复解。图8D显示相对于通过I2最小化获得的系数的投影戍0)、 图8C的测试图像174的残差。两个最小残差之间的比率大约为1 1.3。这些系数比图 8B中由I1最小化给出的那些系数稀疏性少得多,并且主要系数不与主体1相关联。结果, 图8D中的最小残差不对应于正确的主体(主体1)。还考虑公开的方法与最近邻(NN)识别算法的比较。NN分类器计算测试向量y与
训练向量力.....Vn之间的欧几里德距离,并将y的成员关系指派为等于具有最近距离的训
练向量之一。图9显示图8A的测试图像174与训练图像之间的欧几里德距离。明显的是, 使用距离度量执行的识别比图8中的I1解决方案效率更低。在数量上,公开方法在整个测 试集合上的总识别准确率是92. 4%,NN的准确率是61.81%。图IOA和IOB分别显示右眼特征和半边面部特征的示例。在第二实验中,使用下 面两个部分面部特征来测试提议的算法(1)半边面部系统100使用面部图像的左半边作 为部分面部特征(在图IOB和表2中示出),该特征对应于主体的右半边面部;以及(2)右 眼在人类视觉的研究中,已知的是眼睛周围的区域是用于面部识别的最具信息性特征之 一(在图IOA和表2中示出)。从面部图像提取60 X 84右眼区域作为另一类型的部分面部 特征。下面的表2比较提议的方法和NN分类器的性能。通常,基于图像的对象识别和图 像归类中所有技术现状的系统不利用稀疏性约束,因此,在与提议的方法比较时表现相当
差。表2
特征右眼半边面部维度(d)5,04016,128算法]93. 598. 4NN [% ]60. 7365. 12图11A、11B、11C、11D和IlE分别显示在变化的遮挡程度下的识别(A)来自扩展 耶鲁B的30%被遮挡的测试面部图像;(B)估计的稀疏误差(C)绘出的估计的稀疏系数 .充;⑶重构的图像L ;以及(E)算法1和三个竞争者的绘出的识别率。扩展耶鲁B面部数据库(经裁剪和归一化)用于此实验。此数据集包含各种照明 条件下38个主体的正面图像。子集1和2(717个图像,一般到适中光照条件)被选取用于 训练,并且子集3 (453个图像,更极端的光照条件)被选取用于测试。在无遮挡的情况下, 这是较简单的识别问题。此选择是故意的,以便隔离遮挡的效应。图像大小调整为96X84 像素,因此,在此情况下,B是8064X8761矩阵。每个训练图像Vi被换算为具有单位I2范 数。对于此数据集,EBP(B) 1185,意味着能在高达13. 3%百分比遮挡时实现完美的重构。用于估计ΕΒΡ(·)的工具基于图5Α和5Β的直觉和I1球的几何形状。虽然用于 正确计算ΕΒΡ( ·)的已知算法在本质上是组合式的,但通过将对于R(B)与I2球之间的交
23叉的搜索限制到R(B)的适当子集,能获得良好的上界。如在图IlA中一样,通过将每个测 试图像的随机定位块替代为不相关的图像,我们模拟从0%到50%的各种程度的遮挡。由 于遮挡的不可预测的位置,选择图像的固定面部特征或块的方法在此处不太可能成功。图IlA示出30%遮挡情况下算法1的两个代表性结果。在第二行中,面部的整个 中心被遮挡,这即使对人而言也是个困难的识别任务。图IlB示出估计的误差^的量值。注 意,&不但补偿由于狒狒造成的遮挡,而且补偿鼻子下阴影造成的线性子空间模型的违反。 图IlC绘出估计的系数向量烏。暗、高的项是对应于测试图像的真正类的系数。在两个示例 中,估计的系数实际上是稀疏的,并且只对相同人的训练图像具有大的量值。在两种情况 下,算法1正确地将被遮挡图像分类。公开的方法在数量上与视觉文献中的三个通用技术进行比较。Turk等人的主成 分分析(PCA)方案对遮挡不具健壮性,但为比较提供了标准基线。M. Turk和A. Pentland 的"Eigenfaces forrecognition,,(Journal of Cognitive Neuroscience, vol. 3, no. 1, pp. 71-86,1991)。根据Georghiades等人所述,系统100在应用PCA前将图像像素归一化 为具有零均值禾口单位方差。A. Georghiades、P. Belhumeur 禾口 D. Kriegman 的"From few to many :Illumination cone models for facerecognition under variable lighting and pose" (IEEE Transactions onPattern Analysis and Machine Intelligence, vol. 23, no. 6,pp. 643-660,2001)。对于PCA、独立成分分析(ICA)和局部化非负矩阵分解(LNMF), 基础成分的数量被选取为在范围{100,200,300,400,500,600}上给出最佳测试性能。ICA 文献I尝试将训练集合表示为统计上独立的基础图像的线性组合。LNMF将训练集合近似为 通过向稀疏基础(sparsebase)的偏置来计算的基础图像的相加性组合。图IlE示出所有四个算法的识别率,最顶部曲线是来自算法1的曲线,它与其竞争 者相比,对所有程度的遮挡表现都要好得多。对于高达30%的遮挡,算法1表现几乎完美, 正确地识别超过98%的测试主体。甚至在40%遮挡的情况下,只将9. 7%的主体分类错误 (表3)。表3量化性能算法1有关具有变化遮挡程度的扩展耶鲁B的识别率
遮挡0%10%20%30%40%50%识别率100%100%99. 8%98. 5%90. 3%65. 3%此结果对有关面部识别中使用整体与局部特征的争论具有有趣的含义。已建议 ICAI和LNMF均对遮挡具有健壮性因为它们的基是局部集中的,因此,遮挡只损坏系数的 小部分。相反,如果使用I2最小化(正交投影)根据整体基础(例如训练图像本身)来表 示被遮挡的图像,则所有系数可能损坏(如在图4D中)。此处的含义是问题不是根据整体 或局部基础来表示测试图像的选择,而是如何计算该表示。适当地利用冗余和稀疏性直接 与纠错和健壮性相关。提取局部或脱节的特征只能降低冗余,并且因此降低健壮性。尽管存在随机损坏,识别也可实现。前面的示例考虑了阻挡面部邻接区域的结构 化遮挡。然而,注意公开的方法不假设有关被遮挡区域的支持;它能够完全随机地被选取。 在此示例中,来自扩展耶鲁B测试图像的变化百分比的随机选取的像素被损坏,将它们的 值替代为来自均勻分布的独立相同分布式(iid)样本。被遮挡像素的百分比从0%到70% 变化。
图12A、12B、12C、12D和12E分别显示随机损坏下的识别(A)来自扩展耶鲁B的带 有随机损坏的图像,逐行从顶部到底部损坏量为30%、50%和70% ; (B)估计的误差(C) 绘出的估计稀疏系数.元;(D)重构的图像y…以及(E)算法1和三个竞争者的绘出的识别率。图12A显示了几个结果。对于人眼,损坏的图像可刚刚识别为面部;确定其身份 似乎是不可能的。然而即使在此极端情况下,算法1如图12D所示正确地恢复主体的身份。 虽然损坏的此类随机模式不是典型的现实遮挡,但此健壮性可能对极不可靠的通信信道上 的识别有用,或者甚至对室外环境中识别面部有用(例如,有雨或部分遮挡的叶子的情况 下)。图12E绘出算法1和三个竞争者如上所述作为损坏程度的函数的识别性能。从0 直到50%遮挡,算法1正确地将所有主体分类。即使在70%遮挡,识别率也仍是93. 2% (参 见表4)。从图12E中,看到算法1表现比竞争者好得多。在50%损坏时,其它竞争者均未 实现高于60%的识别率,而提议的方案表现完美。表4算法1有关具有变化程度的随机损 坏的扩展耶鲁B的识别率
权利要求
一种用于在存在遮挡时识别高维数据的计算机实现的方法,包括由计算机接收包括遮挡并属于未知类的目标数据,其中所述目标数据包括已知对象;通过所述计算机采样多个训练数据文件,所述多个训练数据文件包括与所述目标数据的对象相同的对象的多个不同类;以及由所述计算机使用l1最小化,通过所采样的训练数据文件的线性叠加来标识所述目标数据的类,其中具有最稀疏数量的系数的线性叠加用于标识所述目标数据的类。
2.如权利要求1所述的方法,其中所述多个训练数据文件包含所述目标数据,以及其 中识别所述目标数据的类是通过执行包括I1最小化的算法以去除所述遮挡,以便允许标识 所述目标数据。
3.如权利要求2所述的方法,其中所述目标数据的对象包括测试语音文件,以及其中 所述多个训练数据文件包括训练语音文件。
4.如权利要求2所述的方法,其中所述目标数据的对象包括多个像素被部分遮挡的测 试图像(y),以及其中所述多个训练数据文件包括多个训练图像。
5.如权利要求4所述的方法,其中单个矩阵(A)表示所采样的多个训练图像,以及其中 所述算法恢复y = Ax0+e形式的表示,其中Xtl包括产生所述最稀疏数量的系数的解,并且其 中e包括误差的向量,它也是y的稀疏表示。
6.一种用于在存在遮挡时识别高维数据的计算机实现的方法,包括由计算机接收包括遮挡且其身份未知的测试数据(y),其中所述测试数据包括已知对象;通过所述计算机采样多个标记的训练数据文件,所述多个标记的训练数据文件由包括 多个(k)不同身份的矩阵A= [A1... Ak]来表示,其中所采样的训练数据文件具有与y的对 象相同的对象;以及通过所述计算机,使用I1最小化将y表达为所述多个训练数据文件(A)的稀疏线性组 合加上由于所述遮挡造成的稀疏误差(e),其中所述测试数据y的身份由所述计算机来识 别。
7.如权利要求6所述的方法,其中所述测试数据y的对象包括测试语音或音频文件。
8.如权利要求6所述的方法,其中所述测试数据y的对象包括多个像素被部分遮挡的 测试图像,以及其中所述多个训练数据文件包括多个训练图像。
9.如权利要求8所述的方法,其中将y表达为A的稀疏线性组合和e包括生成系数00,使得7 =々1(^,其中托沢1"包括111空间中非零项的误差向量,并且&和 e包括通过I1最小化的y的同时稀疏表示,其中的非零项取决于对应于所遮挡的像 素的大小为Pm的集合,其中m包括所述测试图像中像素的总数,并且P包括对应于遮挡 的像素的数量的部分。
10.一种用于在存在遮挡时识别高维数据的计算机实现的方法,包括由计算机接收包括遮挡且其身份未知的测试数据(y),其中所述测试数据包括已知对象;由所述计算机将多个的η个训练样本划分成k个类以产生矩阵A = [A1. . . Ak],其中所 述训练样本的对象与所述测试数据y的对象相同, 设置 B= [A11--AkI];计算承=argminw4vi;,||w ||,,使得通过I1线性规划,Bw = y ; 对于i = l:k,计算残差G =I少式伐以及由所述计算机输出fGO = argminM, _…以将y指派到其系数与它最佳接近的类,由此识别所述测试数据ι的身份。
11.如权利要求10所述的方法,其中所述测试数据y的对象包括测试语音或音频文件。
12.如权利要求10所述的方法,其中所述测试数据y的对象包括多个像素至少部分被 遮挡的测试图像,以及其中所述多个的η个训练样本包括多个训练图像。
13.如权利要求10所述的方法,其中所述η个训练样本的k个类的至少一个类包括所 述测试数据1。
14.一种用于在存在遮挡时识别高维数据的系统,包括 处理器,与存储器耦合;数据库,与所述处理器耦合;用户接口,接收包括遮挡且属于未知类的目标数据,其中所述目标数据包括已知对象;特征提取器,与所述数据库和所述处理器耦合,采样多个训练数据文件,所述多个训练 数据文件包括与所述目标数据的对象相同的对象的多个不同类,其中所述数据库包括所述 训练数据文件;I1最小化器,与所述处理器耦合,使用I1最小化来线性叠加所采样的训练数据文件;以及识别器,与所述I1最小化器耦合,通过使用所叠加的采样的训练数据文件来标识所述 目标数据的类,其中具有最稀疏数量的系数的线性叠加用于标识所述目标数据的类。
15.如权利要求14所述的系统,其中所述I1最小化器执行包括I1最小化的算法以去 除所述遮挡,以便允许标识所述目标数据。
16.如权利要求15所述的系统,其中所述目标数据的对象包括测试语音文件,以及其 中所述多个训练数据文件包括训练语音文件。
17.如权利要求15所述的系统,其中所述目标数据的对象包括多个像素被部分遮挡的 测试图像(y),以及其中所述多个训练数据文件包括多个训练图像。
18.如权利要求17所述的系统,其中单个矩阵㈧表示所采样的多个训练图像,所述 算法恢复y = Ax0+e形式的表示,其中Xtl包括产生所述最稀疏数量的系数的解,以及其中括含有y的稀疏表示的误差的向量,其中的非零项取决于对应于所遮挡的 像素的大小为Pm的集合,其中m包括y中像素的总数,并且P包括对应于遮挡的像素的 数量的部分。
19.一种用于在存在遮挡时识别高维数据的系统,包括 处理器,与存储器耦合;数据库,与所述处理器耦合,所述数据库包括多个的η个训练样本;用户接口,接收包括遮挡且属于未知类的目标数据(y),其中所述目标数据包括已知对象;特征提取器,与所述处理器和所述数据库耦合,将多个的η个训练样本划分成k个类以产生矩阵A = [A1. . .Ak],其中所述训练样本的对象与所述测试数据y的对象相同,其中所 述特征提取器设置B = [A1. . . AkI]; I1最小化器,与所述处理器耦合 计算化=argmin,4vcl||w ||,,使得通过I1线性规划,Bw = y ;对于i = i:k,计算残差η =Ik-J^(iI)-aIly以及识别器,与所述I1线性最小化器耦合,输出= ai’gminM丨”…,并将y指派到其系数与它最佳接近的类,由此识别所述测试数据y的身份。
20.如权利要求19所述的系统,其中所述测试数据y的对象包括测试语音或音频文件。
21.如权利要求19所述的系统,其中所述测试数据y的对象包括多个像素至少部分被 遮挡的测试图像,以及其中所述多个的η个训练样本包括多个训练图像。
22.如权利要求19所述的系统,其中所述η个训练样本的k个类的至少一个类包括所 述测试数据y。
23.一种用于采集主体的训练图像的集合以便包含在图像训练数据库中的系统,所述 系统包括投影仪的集合,照亮多个相邻反射表面,所述多个相邻反射表面在其之间在邻接点形 成至少一个角度,其中所述反射表面反射来自所述投影仪的光,其中其图像要被采集的主 体在投影仪的所述集合前所述邻接点的预定距离内的位置是可安置的;计算装置,与投影仪的所述集合耦合,具有使得能够定义来自投影仪的所述集合的照 明的模式的计算机代码,其中所述照明模式包括多个单元,所述多个单元从离开所述反射 表面的不同角度按顺序照亮所述主体的面部;以及相机,安置在两个位置之一,所述两个位置包括在所述邻接点的第一位置和投影仪的 所述集合与所述主体位置之间的第二位置,朝所述主体位置定向所述相机以在来自投影仪 的所述集合的照明的变化角度记录所述主体的面部的多个训练图像。
24.如权利要求23所述的系统,其中所述多个反射表面包括墙壁或屏幕,并且所述邻 接点包括房间的上角。
25.如权利要求24所述的系统,其中投影仪的所述集合包括四个数字光处理(DLP)投 影仪,所述投影仪的一对安置在底部一对投影仪的顶部上,其中所述顶部一对投影仪照亮 所述房间的角落的上半部,并且所述底部一对投影仪照亮所述房间的角落的下半部。
26.如权利要求25所述的系统,其中定向投影仪的所述集合使得所述照明模式不直接 照射在安置在所述主体位置的所述主体上。
27.如权利要求23所述的系统,其中所述计算装置还使得能够改变照明的所述模式的 强度。
28.如权利要求23所述的系统,其中所述相机包括第一相机,所述系统还包括安置在 所述第一和第二位置的另一位置并且朝所述主体位置定向的第二相机,其中所述主体可旋 转以面对所述第一和第二相机的每个,使得在短时期内能够从两个相机记录所述主体的图像。
29.如权利要求28所述的系统,其中所述第一和第二相机以相对彼此的某个角度来安 置,包括大约180度。
30.如权利要求28所述的系统,其中所述第一和第二相机的任何一个或两个相机与所 述计算装置耦合,以及其中通过所述计算装置的所述计算机代码,同步记录所述主体的图 像,使得所述计算装置在所述照明模式的顺序照明单元的每个记录图像。
31.一种用于采集主体的训练图像的集合以便包含在图像训练数据库中的方法,所述 方法包括通过投影仪的集合照亮多个相邻的反射表面,其中所述反射表面在邻接点形成至少一 个角度,并且反射来自所述投影仪的光;在房间的所述邻接点与投影仪的所述集合之间安置要采集其图像的主体; 将计算装置与投影仪的所述集合耦合,其中所述计算装置包括使得能够定义来自投影 仪的所述集合的照明的模式的计算机代码,其中所述照明模式包括多个单元,所述多个单 元从离开所述反射表面的不同角度按顺序照亮所述主体的面部;在两个位置之一安置相机,所述两个位置包括在所述邻接点的第一位置和在投影仪的 所述集合与所述主体位置之间的第二位置;以及朝所述主体定向所述相机以在来自投影仪的所述集合的照明的变化角度记录所述主 体的多个训练图像。
32.如权利要求31所述的方法,其中所述多个反射表面包括墙壁或屏幕,并且所述邻 接点包括房间的上角。
33.如权利要求31所述的方法,其中投影仪的所述集合包括四个液晶显示器(LCD)投影仪。
34.如权利要求31所述的方法,还包括通过所述计算装置来改变投影仪的所述集合的照明模式的强度。
35.如权利要求31所述的方法,其中所述相机包括第一相机,所述方法还包括 在所述第一和第二位置的另一位置安置第二相机;以及朝所述主体定向所述第二相机,其中所述主体可旋转以面对所述第一和第二相机的每 个,使得在短时期内能够从两个相机记录所述主体的图像。
36.如权利要求35所述的方法,还包括将所述第一和第二相机的任何一个或两个相机与所述计算装置耦合;以及 通过所述计算装置的所述计算机代码,记录所述主体的多个图像,使得所述计算装置 在所述照明模式的顺序照明单元的每个记录图像。
37.如权利要求31所述的方法,还包括定向投影仪的所述集合,使得所述照明模式不直接照射在安置在所述主体位置的所述 主体上。
38.一种用于对准图像内的主体以便与数据库内其它图像进行比较的计算机实现的方 法,所述方法包括使用计算机执行的面部检测器来生成图像(y)内所述主体的变换的初始估计(τ。); 通过计算机以τ C1扭曲所述图像(y),以创建y ο τ fe,其中e是配准误差;以及 由所述计算机以所述变换τ重复地扭曲y,使得e变得尽可能小和稀疏,由此通过迭代 地执行以下操作来对准所述图像通过求解yo τ+J Δ τ =AkX+e,线性化关于τ的当前估计,其中Ak包括多个训练图像的矩阵,χ是所述多个训练图像的至少一些的线性组合乂=并且Δ τ是用于当前迭代的τ中的步长变化;找到将e在其I1范数方面最佳稀疏化为傲穷-,Ι/* y + JAT^Akx + em Δ τ,其.XtCyCiTQ./中T包括变形群;以及设置τ +1等于τ、Δ τ。
39.如权利要求38所述的方法,还包括在所述计算机执行所述迭代扭曲时,通过将y ο τ的线性化替代为归一化版本的雅可 比行列式’将所扭曲的图像y ο τ归一化。
40.如权利要求38所述的方法,其中执行迭代地扭曲y,直到Δτ达到预定的低阈值。
41.如权利要求38所述的方法,还包括在每图像(k)基础上,在多个训练图像(K)的每个上执行所述迭代扭曲对准;以及 在数据库中保存每个对准的训练图像以及相应的最终τ值以用于在标识测试图像中 使用。
42.如权利要求41所述的方法,其中所述图像(y)是具有遮挡且其身份未知的测试图 像,所述方法还包括通过所述计算机从所述数据库采样包括多个不同主体的由矩阵A = [A1. . . Ak]表示的 多个标记的训练图像,其中所采样的训练数据文件包括与y的对象相同的对象;以及通过所述计算机,使用I1最小化将y表达为所述多个训练图像(A)的稀疏线性组合加 上由于所述遮挡造成的稀疏误差(e),其中所述测试图像y的身份由所述计算机来识别。
43.如权利要求42所述的方法,其中所述遮挡由多个被遮挡的像素来表示,其中将y表 达为A的稀疏线性组合和e包括生成系数(χ。),使得y = AxQ+e,其中ee9T包括m空间中的非零项的误差向量,并且X(l 和e包括通过I1最小化的y的同时稀疏表示;
44.一种计算机实现的方法,用于对准测试图像内的主体以便与数据库内多个训练图 像进行比较,以在存在遮挡时识别所述测试图像,所述方法包括使用计算机执行的面部检测器来生成测试图像(y)内的所述主体的变换的初始估计 (τ Q),其中所述测试图像包括遮挡且其身份未知;对于训练图像的所述数据库内的多个主体(K)的每个主体(k),通过计算机迭代地执行从τ ^开始,通过计算机以变换(τ )来扭曲y,以创建y ο τ fe,使得配准误差e变得 尽可能小和稀疏;通过求解yo τ+J Δ τ =AkX+e,线性化关于τ的当前估计,其中Ak包括K个主体的多 个训练图像的矩阵,χ是所述多个训练图像的至少一些的线性组合,T-(^0O并且Δ τOT,是用于当前迭代的τ中的步长变化;找到将e在其I1范数方面最佳稀疏化为傲穷予卞丨^"^· y ++ Δ τ,其.ν ret中T包括变形群;以及只要Δ τ保持大于预定的低阈值,就设置τ +1等于τ、Δ τ ;保留具有最小残差 e I1WAk中的最前⑶数量的训练图像;设置A等于。< I A1。<卜.· I 乂。<1,其中<包括用于第S个训练图像的逆变换 τ值;通过所述计算机来解决包括“Μη^ψ4 +\\e\[subj γ = Ax+e,x彡ο的I1最小化问题;对于i = k1;...,ks,通过所述计算机来计算残差”,_b)=|v-冼天I2;以及从所述计算机将1输出为argminiri(y),由此具有最稀疏数量的系数的线性叠加用于 标识所述测试图像1。
45.如权利要求44所述的方法,还包括通过将yo τ的线性化替代为归一化版本的雅可比行列式y-^TJ^jk将所扭曲的测试图像y ο τ归一化。
46.如权利要求44所述的方法,其中所述训练图像的对象与y的对象相同。
47.如权利要求44所述的方法,还包括在迭代地扭曲y以将y与其对准之前,将Ak中的所述多个训练图像归一化。
48.如权利要求44所述的方法,还包括 设置S为大约10。
49.一种计算机实现的方法,用于对准测试图像内的主体以便与数据库内多个训练图 像进行比较,以在存在遮挡时识别所述测试图像,所述方法包括使用计算机执行的面部检测器来生成测试图像(y)内的所述主体的变换的初始估计 (τ Q),其中所述测试图像包括遮挡且其身份未知;对于训练图像的所述数据库内的多个主体(K)的每个主体(k),通过计算机迭代地执行从τ ^开始,以变换(τ)来扭曲y,以创建y ο τ fe,使得配准误差e变得尽可能小和 稀疏;通过将yo τ的线性化替代为归一化版本的雅可比行列式“7= Ijj^jk将所扭曲的测试图像yο τ归一化;通过求解yo τ+J Δ τ =AkX+e,线性化关于τ的当前估计,其中Ak包括K个主体的多'Ν个训练图像的矩阵,χ是所述多个训练图像的至少一些的线性组合,^(^0 O并且Δ τστ ,是用于当前迭代的τ中的步长变化;找到将e在其I1范数方面最佳稀疏化为狱容r^lrtra饭y + ^T = Akx + em Δ τ,其中τ包括变形群;以及只要Δ τ保持大于预定的低阈值,就设置τ +1等于τ、Δ τ ;通过所述计算机采样具有最小残差I |e| |工的所述训练图像的多个(S),其中,所述S个训练图像包括对应于y的类 的多个不同类;通过相应的变换τ k,将所述S个训练图像的每个与y对准;以及 由所述计算机使用I1最小化,通过所采样的训练图像的线性叠加来标识y的类,其中 具有最稀疏数量的系数的线性叠加用于标识y的类。
50.如权利要求49所述的方法,还包括设置A等于ΙΑ,。< I Aki。<丨…I々。< j,其中‘ 1包括用于第S个训练图像的逆变换 τ值;解决包括义二 arS1^nH1 +14‘”妨y = Ax+e, X彡0的I1最小化问题; 对于i = k1;...,ks,计算残差/^)=||>-4克||2;以及将y输出为arg Hiini巧(y),由此通过最稀疏数量的系数的线性叠加来标识所述测试 图像。
51.如权利要求50所述的方法,还包括在迭代地扭曲y以将y对准其之前,将Ak中的所述多个训练图像归一化。
52.如权利要求50所述的方法,还包括 设置S为大约10。
53.一种计算机实现的系统,用于对准图像内的主体以便与数据库内其它图像进行比 较,所述系统包括存储器,与处理器和训练图像数据库耦合;面部检测器,与所述处理器耦合,以生成图像(y)内的所述主体的变换的初始估计 (、);其中所述处理器以τ ^扭曲所述图像(y),以创建y ο τ fe,其中e是配准误差,并且以 所述变换τ重复地扭曲y,使得e变得尽可能小和稀疏,由此通过迭代地执行以下操作来对 准所述图像通过求解yo τ+J Δ τ =AkX+e,线性化关于τ的当前估计,其中Ak包括所述数据库 中的多个训练图像的矩阵,X是所述多个训练图像的至少一些的线性组合乂 = T-(^0O并OT,且Δ τ是用于当前迭代的τ中的步长变化;找到将e在其I1范数方面最佳稀疏化为傲穷1^llii'"权y + '^T = Akx + em Δ τ,其中T包括变形群;以及设置τ +1等于τ、Δ τ。
54.如权利要求53所述的系统,其中在所述计算机执行所述迭代的扭曲时,通过将 yo τ的线性化替代为归一化版本的雅可比行列式V=Ij^jk所述处理器还将所扭曲的图像y。τ归一化。
55.如权利要求53所述的系统,其中执行迭代地扭曲y,直到Δτ达到预定的低阈值。
56.如权利要求53所述的系统,其中所述处理器在每图像(k)基础上,在多个训练图像(K)的每个上执行迭代的扭曲对准;并且将每个对准的训练图像以及相应的最终τ值保存 在所述训练图像数据库中以用于在标识测试图像中使用。
57.如权利要求56所述的系统,其中所述图像(y)是具有遮挡且其身份未知的测试图 像,其中所述处理器从所述数据库采样包括多个不同主体的由矩阵A = [A1. . . Ak]表示的多个标记的训练 图像,其中所采样的训练数据文件包括与y的对象相同的对象;以及使用I1最小化将y表达为所述多个训练图像(A)的稀疏线性组合加上由于所述遮挡 造成的稀疏误差(e),其中识别出所述测试图像y的身份。
58.如权利要求57所述的系统,其中所述遮挡由多个被遮挡的像素来表示,其中将y表 达为A的稀疏线性组合和e包括所述处理器生成系数(Xtl),使得y = Ax0+e,其中括m空间中的非零项的误差向量,并且Xtl和e包括通过I1最小化的y的同时稀疏表示。
59.一种计算机实现的系统,用于对准测试图像内的主体以便与多个训练图像进行比 较,以在存在遮挡时识别所述测试图像,所述系统包括存储器,与处理器和具有多个训练图像的训练图像数据库耦合; 面部检测器,与所述处理器耦合,生成测试图像(y)内的所述主体的变换的初始估计 (τ C1),其中所述测试图像包括遮挡且其身份未知;其中,对于训练图像的所述训练图像数据库内的多个主体⑷的每个主体(k),所述处 理器迭代地从τ ^开始,通过计算机以变换(τ )来扭曲y,以创建y ο τ fe,使得配准误差e变得 尽可能小和稀疏;通过求解yo τ+J Δ τ =AkX+e,线性化关于τ的当前估计,其中Ak包括来自所述训 练图像数据库的K个主体的多个训练图像的矩阵,χ是所述多个训练图像的至少一些的线性组合乂 = T-(^0O并且Δ τ是用于当前迭代的τ中的步长变化;OT,找到将e在其I1范数方面最佳稀疏化为浙容1^IHU"权= + Δ τ,其中τ包括变形群;以及只要Δ τ保持大于预定的低阈值,就设置τ +1等于τ、Δ τ ; 其中所述处理器在所述训练图像数据库中保存具有最小残差I |e| I1WAk中的最前(S)数量的训练图像;设置A等于。r;; I Aki。Γ-' I--Mij O 、1 j,其中<包括用于第S个训练图像的逆变换τ值;解决包括i = argminH, +\\e\[subj y = Ax+e,x彡ο的I1最小化问题; 对于i = k1; ...,ks,计算残差G(V)Hk-以及将y输出为arg Hiini巧(y),由此具有最稀疏数量的系数的线性叠加用于标识所述测 试图像。
60.如权利要求59所述的系统,其中所述处理器通过将yο τ的线性化替代为归一化版本的雅可比行列式将所扭曲的测试图像y O τ归一化。
61.如权利要求59所述的系统,其中所述训练图像的对象与所述测试图像y的对象相同。
62.如权利要求59所述的系统,其中在迭代地扭曲y以将y与其对准之前,所述处理器 将Ak中的所述多个训练图像归一化。
63.如权利要求59所述的系统,其中S由所述处理器设置在8与10之间。
全文摘要
本文公开一种用于在存在遮挡时识别高维数据的方法,包括接收包括遮挡且属于未知类的目标数据,其中,目标数据包括已知对象;采样多个训练数据文件,所述训练数据文件包括与目标数据的对象相同的对象的多个不同类;以及使用l1最小化,通过所采样的训练数据文件的线性叠加来标识目标数据的类,其中,具有最稀疏数量的系数的线性叠加用于标识目标数据的类。
文档编号G06T7/00GK101965588SQ200980000494
公开日2011年2月2日 申请日期2009年1月29日 优先权日2008年1月31日
发明者A·W·沃纳, A·Y·杨, J·N·赖特, 马毅 申请人:伊利诺伊大学评议会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1