使用多模匹配方案的对象辨识的制作方法

文档序号:7792416阅读:241来源:国知局
使用多模匹配方案的对象辨识的制作方法
【专利摘要】本发明揭示用于辨识和定位场景中的一或多个对象的方法、系统和制品。俘获所述场景的图像和/或视频。使用在所述场景处记录的音频,缩窄所述所俘获场景的对象搜索。举例来说,可确定声音的到达方向DOA且用以限制所俘获图像/视频中的搜索区域。在另一实例中,可基于在所述所记录音频中识别的声音的类型来选择关键点标志。关键点标志对应于系统经配置以辨识的特定对象。随后可使用移位不变特征变换SIFT分析,将所述所俘获场景中识别的关键点与所述选定关键点标志进行比较来辨识所述场景中的对象。
【专利说明】使用多模匹配方案的对象辨识
[0001] 根据35U.S.C.§119丰张优先权
[0002] 本专利申请案主张2012年4月13日申请的第61/623,910号美国临时申请案的 优先权,所述美国临时申请案转让给本受让人且特此以引用方式并入本文。

【技术领域】
[0003] 本发明大体上涉及对象辨识设备和方法。

【背景技术】
[0004] 各种应用可得益于具有能够识别视觉场景中的对象的机器或处理器。计算机视觉 的领域尝试提供准许识别场景中的对象或特征的技术和/或算法,其中对象或特征可通过 识别一或多个关键点的描述符来表征。例如SIFT(尺度不变特征变换)的这些技术常常也 应用于对象辨识、对象检测、图像匹配、3维结构构造、立体对应和/或运动跟踪、面部辨识 以及其它应用。
[0005] 大多数对象辨识技术仅依赖于从场景俘获的视觉信息,例如视频、图像或图片。


【发明内容】

[0006] 此
【发明内容】
不是所有预期实施例的延伸概述,且既定不识别所有实施例的重要或 关键元素,也不描绘任何或所有实施例的范围。其唯一目的是以简化形式呈现一或多个实 施例的一些概念,作为随后呈现的更详细描述的序言。
[0007] 揭示用于辨识和定位场景中的一或多个对象的改进技术。这些技术并入了在场景 处记录的音频以及视觉信息的使用,以帮助辨识场景中的对象。根据这些技术的一方面,一 种设备包含:关键点选择器,其经配置以基于在场景处记录的音频选择对应于所述场景中 的对象的关键点;以及关键点匹配装置,其经配置以基于所述选定关键点识别所述对象。
[0008] 根据又一方面,一种辨识场景中的对象的方法包含:基于在所述场景处记录的音 频选择对应于所述对象的关键点;以及基于所述选定关键点识别所述对象。
[0009] 根据又一方面,一种体现可由一或多个处理器执行的指令集的计算机可读媒体。 所述媒体存储用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的编 程代码;以及用于基于所述选定关键点识别所述对象的编程代码。
[0010] 所属领域的技术人员在检视附图和详细描述后将明白或变为明白其它方面、特征 和优点。既定所有此些额外特征、方面和优点包含在本描述内且由所附权利要求书保护。

【专利附图】

【附图说明】
[0011] 应了解,附图仅用于说明目的。此外,图中的组件不一定按比例绘制,而是强调说 明本文描述的技术和装置的原理。在图中,相同参考标号在全部不同视图中指定对应部分。
[0012] 图1是说明示范性听觉场景和视听场景分析系统的概念图。
[0013] 图2是描绘操作图1的视听场景分析系统的方法的过程框图。
[0014] 图3是展示使用图1的听觉场景分析系统对听觉场景进行分解和处理的示范性方 法的流程图。
[0015] 图4是展示识别听觉场景中的声音产生对象的示范性方法的流程图。
[0016] 图5A到5B展示识别听觉场景中的声音产生对象的第二示范性方法的流程图。
[0017] 图6是说明可与图1的听觉场景分析系统一起使用的示范性对象辨识子系统的某 些组件的框图。
[0018] 图7是说明用于对所记录图像执行对象辨识的功能阶段的框图。
[0019] 图8说明示范性图像处理阶段中的高斯尺度空间产生。
[0020] 图9说明示范性图像处理阶段中的特征检测。
[0021] 图10说明示范性图像处理阶段中的特征描述符提取。
[0022] 图11说明用于照明不变特征/关键点检测的尺度空间正规化的实例。
[0023] 图12说明可如何获得经正规化尺度空间差的一个层级的一个实例。
[0024] 图13说明用于产生经正规化尺度空间差以获得改进特征检测的方法。
[0025] 图14是说明特征/关键点检测装置的实例的框图。
[0026] 图15是说明图像匹配装置的实例的框图。
[0027] 图16A展示根据一般配置的设备AlOO的框图。
[0028] 图16B展示包含麦克风阵列RlOO和设备AlOO的实例的装置DlO的框图。
[0029] 图16C说明从点源j接收的信号分量相对于阵列RlOO的麦克风MClO和MC20的 轴线的到达方向θρ
[0030] 图17展示设备AlOO的实施方案AllO的框图。
[0031] 图18A展示滤波器更新模块UMlO的实施方案UM20的框图。
[0032] 图18B展示滤波器更新模块UM20的实施方案UM22的框图。
[0033] 图19A展示具有相机CMlO的阵列RlOO的四麦克风实施方案R104的布置的一个 实例的俯视图。
[0034] 图19B展示用于到达方向估计的远场模型。
[0035] 图20展示设备AlOO的实施方案A120的框图。
[0036] 图21展示设备A120和A200的实施方案A220的框图。
[0037] 图22展示从使用SRP-PHAT用于DOA估计得到的直方图的实例。
[0038] 图23展示使用IVA调适规则(40到60度的源分离)调适的解混矩阵的不同输出 通道的一组四个直方图的实例。
[0039] 图24是经配置以在图像或视频俘获期间检测场景中的对象的视差的示范性图像 俘获装置的图。
[0040] 图25是图24的装置中可包含的示范性图像处理系统的框图。
[0041] 图26A到26B是与所感知对象深度相关的对象视差的说明性实例的图。
[0042] 图27A展示根据一般配置的方法MlOO的流程图。
[0043] 图27B展示方法MlOO的实施方案M200的流程图。
[0044] 图27C展不根据一般配置用于分解音频信号的设备MF100的框图。
[0045] 图27D展示根据另一一般配置用于分解音频信号的设备AlOO的框图。
[0046] 图28A展示方法MlOO的实施方案M300的流程图。
[0047] 图28B展示设备AlOO的实施方案A300的框图。
[0048] 图28C展示设备AlOO的另一实施方案A310的框图。
[0049] 图29A展示方法M200的实施方案M400的流程图。
[0050] 图29B展示方法M200的实施方案M500的流程图。
[0051] 图30A展示方法MlOO的实施方案M600的流程图。
[0052] 图30B展示设备AlOO的实施方案A700的框图。
[0053] 图31展示设备AlOO的实施方案A800的框图。
[0054] 图32说明模型Bf=y。
[0055] 图33说明图32的模型的修改B'f=y。
[0056] 图34说明其中多个声音源在作用中的情形。

【具体实施方式】
[0057] 参考且并入有附图的以下详细描述描述且说明一或多个具体实施例。并非为了限 制而是仅为了示范和教示而提供的这些实施例得到展示且用足够细节来描述,以使得所属 领域的技术人员能够实践所主张的内容。因此,为了简明,描述可省略所属领域的技术人员 已知的某些信息。
[0058] 词语"示范性"贯穿本发明用以表示"充当实例、例子或说明"。在本文中描述为 "示范性"的任何内容不一定解释为比其它方法或特征优选或有利。除非由其上下文明确限 制,否则术语"信号"在此用以指示其普通意义中的任一者,包含如在电线、总线或其它传输 媒体上表达的存储器位置(或存储器位置集合)的状态。
[0059] 虽然在此描述的对象辨识技术可应用于许多不同场景,但本文描述的实例涉及音 乐场景,其中在单个场景中存在许多声音源,例如音乐家、演奏家、乐器和类似物。某些视频 游戏(例如,GuitarHero?、RockBand?)和音乐会音乐场景可涉及在同时表演的多个乐 器和歌手。当前的商业游戏和音乐制作系统要求循序地或用靠近定位的麦克风来播放这些 情景以能够分析、后处理以及增频混合从它们单独记录的音频。这些约束可能在音乐制作 的情况下限制了控制干扰和/或记录空间效果的能力,且在视频游戏的情况下可能导致有 限的用户体验。
[0060] 如果有助于缩窄正在演奏何种乐器以及在场景中存在多少音乐家和/或声音源 的一些先验知识或其它信息可用,那么听音乐场景分解可大大简化。
[0061] 本文揭示的对象辨识技术克服了对在具有多个声音源的场景处记录的音频进行 分解的先前尝试的许多限制。大体上,对象或特征辨识可涉及识别图像中的关注点(也称 为关键点)和/或那些关键点周围的局部化特征以用于特征识别和/或对象辨识的目的。 在本文揭示的系统和方法中,组合了某些基于图像的乐器和基于音频的音符/乐器辨识技 术。许多不同装置能够使用计算机视觉执行特征识别和/或对象辨识。此些装置的实例 可在以下各项中实施:电话手持机(例如,蜂窝式手持机);能够进行视频记录的手持式移 动装置,用以记录音频和视频内容的个人媒体播放器;个人数字助理(PDA)或其它手持式 计算装置;以及笔记本、笔记本计算机、膝上型计算机、平板计算机或其它便携式计算装置。 另外,能够执行可涉及在同时表演的多个乐器和歌手的视频游戏(例如,GuitarHero?、 RockBand?)和音乐会音乐场景的装置。此类便携式计算装置当前包含具有如下名称的装 置,例如:膝上型计算机、笔记本计算机、超便携式计算机、平板计算机、移动因特网装置、智 能本和智能电话。
[0062] 在第一方法中,仅基于音频知识的信息有助于界定在场景中正在搜索的声音源的 类型且减少在基于图像的尺度不变特征变换(SIFT)搜索中应当考虑的对象形状的关键点 标志的搜索全域。另外,此关键点搜索不一定限于静止图像,而是也可涉及取决于深度(范 围)层搜索的需要而使用单个或多个相机来分析典型音乐家运动模式的周围视频帧。关键 点搜索是经由多模贝叶斯估计而集成以用相关联可能性产生经辨识乐器。
[0063] 在第二方法中,声音源(例如,乐器)位置是从多麦克风声音局部化信息和乐器形 状辨识来估计以计算图像的某些部分中的稳定乐器关键点。此方法可与第一方法组合以改 善对象辨识。
[0064] 在第三方法中,例如语音/音频辨识中使用的梅尔频率倒谱系数(MFCC)等声学特 征连同例如使用第二方法确定的相关联多麦克风声音源局部化信息一起直接在多模贝叶 斯估计中使用以提供声音源辨识。第三方法可与第一方法组合以改善对象辨识。
[0065]以上方法可准许例如在对从场景记录的音频进行分解的稀疏恢复分解方法的情 况下基函数库存的大小的较精细界定。
[0066] 图1是说明示范性听觉场景10和示范性听觉场景分析系统12的概念图。听觉场 景分析系统12包含场景分析系统14、麦克风阵列18以及一或多个相机16。相机16可包含 一或多个静止图像相机和/或一或多个摄像机,其相对于场景10布置在各种位置和角度。
[0067] 场景分析系统14包含对象辨识子系统20和声学分解子系统22。对象辨识子系统 20经配置以根据本文描述的方法基于在场景处记录的音频、图像和/或视频来辨识和定位 场景10中的声音源。声学分解子系统22经配置以基于来自对象辨识子系统20的信息将 场景分解为单独的声音源,使得可个别地处理经分离的音频。
[0068] 图2是描绘操作图1的视听场景分析系统10的示范性方法的过程框图50。所述 过程说明用于分析在场景处记录的视听信息以定位和识别场景中的一或多个乐器的步骤。 所述方法包含音频分析框52、图像和/或视频处理框54和音频处理框56。
[0069]所揭示方法可将所俘获音频和/或视频信号处理为一系列片段。典型的片段长度 范围是从大约一秒到十秒。在一个特定实例中,将信号划分为一系列不重叠片段或"帧",其 各自具有大约一秒的长度。通过此方法处理的片段也可为通过不同操作处理的较大片段的 片段(即,"子帧"),或反之亦然。
[0070] 音频分析框52包含基于在场景处记录的音频信息确定场景中的声音源位置的步 骤(方框61)。音频信息可由麦克风阵列18俘获。基于来自场景中的源的声音的估计到达 方向(DOA)和/或针对所述源确定的范围信息可确定声音位置。源的DOA可使用本文在以 下描述的音频DOA估计技术来估计,且声音源的范围可使用本文在以下参考图18到29描 述的范围发现技术来估计。
[0071] 音频分析框52还包含提供场景中的每一源的声音源的可能类型的步骤(方框 62)。举例来说,对于乐器,可使用乐器音符库来分析在场景处记录的声音以匹配声音源与 产生声音的可能类型的乐器。
[0072] 来自方框61、62的声音源位置和类型估计传递到图像/视频处理框54且用以限 制针对声音源的视觉识别的搜索。在方框64中,估计位置信息用以缩窄场景的记录图像中 的空间搜索空间以用于关键点匹配。在方框66中,基于可能的乐器类型而缩窄图像关键点 搜索。这两个步骤均可显著改善识别场景中的乐器的可靠性,且还可减少实行乐器的视觉 辨识所需的处理量。
[0073]在方框68中,对在场景处记录的图像和视频数据执行视觉对象辨识分析以识别 场景中的乐器。所述分析可涉及视觉特征分析方案,例如场景的尺度不变特征变换(SIFT) 分析,其中基于来自方框61、62的音频导出的信息而缩窄待分析的图像的关键点和区域。 本文在以下参考图7到17揭示示范性SIFT分析方法的细节。
[0074] 视觉特征分析(方框70)的结果是声音源(例如,乐器)候选及其在场景中的对 应位置的列表,其提供到音频处理框56。
[0075] 音频处理框56进一步分析从场景记录的音频以分解音频,使得可更好地隔离、识 别和处理单独的声音源以增强所记录音频的质量。在方框72中,来自图像/视频处理框52 的位置信息用以产生用于分别朝向所识别源位置子扇区中的每一者引导的多麦克风阵列 的空间滤波器。这有助于分离所记录音频数据中的声音源。在方框74中,将基于单通道基 函数库存的稀疏恢复技术应用于经分离声音子扇区中的每一者以改善乐器声音源的识别。 信号通道恢复技术可使用乐器类别注释的减少集合来减少基函数库存,其中所述减少是通 过由图像/视频处理框54提供的乐器候选列表来导引(方框70)。本文在以下结合图30 到37描述可在方框70中使用的示范性稀疏恢复技术。
[0076] 图3是展示使用图1的听觉场景分析系统12对听觉场景进行分解的示范性方法 的流程图200。在步骤202中,系统12记录音频和视觉信息(静止图像和/或视频)。在 步骤204中,对象辨识子系统20识别且定位场景10中的声音产生对象中的一或多者。在 步骤206中,声学分解子系统22将声学场景分解为单独的声音源。在步骤208中,声学分 解子系统22将基于信号通道基函数库存的稀疏恢复应用于经分离声音。
[0077] 图4是展示识别听觉场景中的声音产生对象的第一示范性方法的流程图300。此 方法可由对象辨识子系统20执行。在步骤302中,识别所俘获图像中的关键点。在步骤304 中,基于在场景处记录的音频来选择对应于例如乐器等声音产生对象的一或多个关键点标 志。在步骤306中,通过将图像中的关键点与选定关键点标志进行比较来识别场景中的至 少一个对象。
[0078] 图5A到5B展示识别听觉场景中的声音产生对象的第二示范性方法的流程图400。 此方法可由对象辨识子系统20执行。在步骤402中,识别所俘获图像中的关键点。在步骤 404中,从所识别关键点中选择稳定的关键点。在步骤406中,基于从场景记录的音频来选 择场景的图像中的关注区(ROI)。在步骤408中,选择ROI中的稳定关键点。
[0079] 在步骤410中,从场景的视频计算局部运动向量(LMV)。在步骤412中,选择ROI 中的LMV。
[0080] 在步骤414中,基于在场景处记录的音频来选择对应于例如乐器等声音产生对象 的一或多个关键点标志。
[0081] 在步骤416中,基于从场景记录的音频计算音频置信度值(CV)。音频CV可基于例 如MFCC分类器的音频特征匹配装置的输出。音频CV可为向量,其中所述向量的每一元素 指示对象是特定类型的对象(例如,小号、钢琴等等)的可能性。
[0082] 在步骤418中,基于场景的所俘获数字图像计算图像置信度值(CV)。图像CV可基 于例如SIFT匹配装置的匹配装置的输出。SIFT匹配装置将ROI中的稳定关键点与选定关 键点标志进行比较以产生图像CV。图像CV可为向量,其中所述向量的每一元素指示对象是 特定类型的对象(例如,小号、钢琴等等)的可能性。
[0083] 在步骤420中,基于从场景记录的视频计算视频置信度值(CV)。视频CV可基于比 较ROI中选择的LMV的直方图匹配过程的输出。视频CV可为向量,其中所述向量的每一元 素指示对象是特定类型的对象(例如,小号、钢琴等等)的可能性。
[0084] 音频、图像和视频CV可各自经正规化。
[0085] 在步骤422中,基于音频、图像和视频CV识别场景中的对象。举例来说,最终CV 可计算为首频、图像和视频CV的经加权和。用于每一CV的加权系数可基于相应记录|旲态 的信噪比(SNR),且尤其可为当前记录帧的SNR的函数。
[0086] 在其中模态CV为向量的情况下,最终CV也是向量,其中向量的每一元素指示对象 是特定类型对象(例如,小号、钢琴等等)的可能性。指示最大可能性的元素识别对象。
[0087] 图6是说明可与图1的听觉场景分析系统12 -起使用的示范性对象辨识子系统 500的某些组件的框图。子系统500包含音频处理器502、图像处理器504、视频处理器506、 SIFT匹配装置532、关键点标志数据库(DB) 534、声学特征数据库536、声学特征匹配装置 538、直方图匹配装置540、对象局部运动向量(LMV)直方图数据库542,和多模分类器544。
[0088] 音频处理器502接收且记录在场景处来自麦克风阵列18的音频信号。图像处理 器504从拍摄场景的图片的一或多个相机508接收且记录场景的一或多个图像。视频处理 器506从记录场景的一或多个摄像机510接收且记录视频信号。
[0089] 音频处理器502包含到达方向(DOA)检测器512、关注区(ROI)选择器514、声音 分类器516以及声学特征提取器518。根据从麦克风阵列18接收的麦克风信号,DOA检测 器512确定从位于场景内的声音源放射的声音的到达方向。本文结合图18到25描述DOA 检测器512的示范性组件和功能。根据阵列的DOA和位置,可确定场景中的声音源的位置 的估计。将此DOA信息传递到ROI选择器514。ROI选择器514基于DOA信息和麦克风阵 列18的已知位置来估计声音源的位置。ROI选择器514随后基于位置信息来选择场景的图 像的特定部分。选定部分或ROI含有声音源,且因此可用以将关键点搜索和LMV计算限于 仅场景的部分。
[0090] 声音分类器516基于所记录音频的特性来分类声音源的类型。举例来说,分类器 516可使用乐器音符库来识别一类乐器作为声音源。
[0091] 声音分类器516的输出是音频置信度值,且其作为输入提供到关键点标志数据库 534。基于音频置信度值从关键点标志数据库534选择一或多个关键点标志。将这些选定 关键点标志提供到SIFT匹配装置532。
[0092] 声学特征提取器518计算从麦克风信号导出的声学特征,例如MFCC或类似物。将 这些提取的特征提供到声学特征匹配装置538,其通过将提取的特征与用于不同类型声音 源的声学特征数据库536进行比较来识别声音源。声学特征匹配装置的输出可为声学特征 置信度值,其可为具有与上文针对其它CV论述的元素类似的元素的向量。
[0093] 图像处理器504包含关键点检测器520、稳定关键点检测器522和ROI关键点选择 器524。关键点检测器520使用本文描述的方法确定场景的所俘获数字图像中的关键点。 稳定关键点检测器522精炼关键点搜索,且仅选择稳定的那些检测到的关键点。ROI关键点 选择器524从ROI选择器514接收识别所俘获图像中的ROI的坐标信息。基于坐标信息,ROI关键点选择将图像关键点选择缩窄到位于ROI内的那些稳定关键点。
[0094] 随后将在ROI内检测到的稳定关键点提供到SIFT匹配装置532。
[0095] 本质上,SIFT匹配装置532将稳定ROI关键点与从关键点标志数据库534检索的 关键点标志进行比较以产生图像CV。
[0096] 视频处理器506包含LMV计算器526、ROILMV选择器528,和ROILMV直方图计 算器530。LMV计算器526从相机510接收数字视频信号且计算场景的预定记录持续时间 中的LMV。随后将LMV传递到ROILMV选择器528。ROILMV选择器528从ROI选择器514 接收ROI的坐标信息,且基于坐标信息选择ROI内的那些LMV。
[0097] 随后将ROI内的LMV传递到ROILMV直方图计算器530,其根据ROI计算LMV直 方图。随后将场景的LMV直方图传递到直方图匹配装置540。直方图匹配装置540将场景 LMV直方图与存储在对象LMV直方图数据库542中的对象LMV直方图进行比较以找到最接 近的匹配。直方图匹配装置540基于此比较输出视频CV。
[0098] 多模分类器544基于SIFT匹配装置532、声音分类器516、声学特征匹配装置538 和直方图匹配装置540的输出来识别场景中的对象。多模分类器544可通过计算最终置信 度值向量来实现此情形,所述向量可为音频CV、图像CV、视频CV、声学特征CV的经加权和。 分类器544可执行贝叶斯估计以用相关联可能性产生经辨识乐器。CV的加权系数可类似于 结合图4A到4B描述的加权系数。
[0099] 另外,子系统500也可输出场景中辨识的每一对象的经精炼对象位置。经精炼对 象位置可基于来自多模分类器544、相机508的输出,以及来自音频处理器502的ROI选择 器514的估计对象位置。经精炼对象位置可反馈到DOA检测器512和/或ROI选择器514 以改善其在估计关注区或对象位置时的准确性和速度,例如,前一视频/图像帧中确定的 估计DOA或对象位置可移交到下一帧作为初始坐标供音频处理器502用于其ROI选择过 程。
[0100] 关键点诜择和SIFT兀配裝置
[0101] 如下描述示范性关键点检测器520、关键点选择器522和SIFT匹配装置532的操 作。
[0102] 大体上,对象或特征辨识可涉及识别图像中的关注点(也称为关键点)和/或那 些关键点周围的局部化特征以用于对象辨识的目的。虽然图像数据中的此些独特元素在此 称为"关键点",但应了解,如本文使用的术语"关键点"可涉及个别像素、像素群组、分数像 素部分、一或多个描述符、其它图像分量,或者其任一组合。具有特征的高稳定性和可重复 性在这些辨识算法中非常重要。因此,可选择和/或处理关键点以使得其对于图像尺度改 变和/或旋转是不变的,且提供在失真、视点改变和/或噪声和照明改变的实质范围上的稳 健匹配。此外,为了良好适合于例如对象辨识等任务,在单个特征可以高概率与来自多个目 标图像的较大特征数据库正确匹配的意义上,特征描述符可优选为独特的。
[0103] 在检测且定位图像中的关键点之后,可通过使用各种描述符来识别或描述它们。 举例来说,描述符可表示图像中的内容的视觉特征,例如形状、颜色、纹理、旋转和/或运 动,以及其它图像特性。随后使对应于关键点且由描述符表示的个别特征匹配于来自已知 对象的特征数据库。
[0104]作为识别且选择图像的关键点的部分,由于缺乏精度或置信度可能需要丢弃已经 选择的一些点。举例来说,可基于不良对比度和/或沿着边缘的不良局部化的底限而拒绝 一些初始检测到的关键点。在相对于照明、噪声和定向变化增加关键点稳定性方面,此些拒 绝是重要的。最小化错误关键点拒绝也是重要的,错误关键点拒绝将降低特征匹配的可重 复性。
[0105]大体上认识到,图像中的照明可通过空间变化的函数来表示。因此,通过抽取照明 函数的正规化过程,可中和照明效果(例如,遮影、亮图像、暗图像等等)以用于特征/关键 点检测的目的。举例来说,可通过使用具有某一范围的平滑因数的函数G(即,内核或滤波 器)渐进地模糊图像以产生图像的经平滑尺度空间L来处理图像。随后可通过取得经平滑 尺度空间层级的邻近对之间的差(Li-LiJ来获得图像的尺度空间D的差。随后通过将尺度 空间层级的每一差除以经平滑尺度空间层级Lk来实现尺度空间L的差的正规化,所述Lk 与用以获得尺度空间层级的特定差Di的尺度空间层级1^中的最平滑者一样平滑或更平滑。
[0106] 图7是说明用于对所记录图像执行对象辨识的功能阶段的框图。在图像俘获阶 段702,可俘获关注的图像708 (即,所记录图像)。图像708可由图像俘获装置俘获,所述 装置可包含一或多个图像传感器和/或模/数转换器,以获得数字俘获图像。图像传感器 (例如,电荷耦合装置(CCD)、互补金属半导体(CMOS))可将光转换为电子。电子可形成模 拟信号,所述模拟信号随后由模/数转换器转换为数字值。以此方式,可以数字格式俘获图 像708,所述数字格式可将图像I(X,y)例如界定为具有对应颜色、照明和/或其它特性的 多个像素。
[0107]在图像处理阶段704中,随后通过产生对应尺度空间710 (例如,高斯尺度空间), 执行特征检测712,且执行特征描述符提取716来处理所俘获图像708。特征检测712可针 对所俘获图像708识别高度独特的关键点和/或几何关注的关键点,其可随后在特征描述 符提取716中用来获得多个描述符。在图像比较阶段706,这些描述符用以执行与已知描述 符的数据库的特征匹配722(例如,通过比较关键点和/或关键点周围的关键点或片的其它 特性)。随后对关键点匹配执行几何检验或一致性检查724以确认正确的特征匹配且提供 匹配结果726。以此方式,所记录图像可与目标图像数据库进行比较和/或从其识别。
[0108]已观察到,图像中的照明改变可对图像的特征/关键点辨识的稳定性和/或可重 复性具有有害影响。也就是说,图像中的局部和/或全局照明改变可影响图像的特征/关 键点的检测。举例来说,特征/关键点的数目和/或位置可取决于图像中的照明(例如,遮 影、对比度等等)而改变。因此将有益的是,在图像中的特征/关键点检测之前大体上消除 或最小化局部和/或全局照明改变的影响。
[0109]进行此做法的一种方法可为处理图像本身以在开始特征/关键点检测之前移除 或补偿局部和/或全局照明改变。然而,此过程可能在计算上密集。另外,经常难以确定图 像中是否存在局部和/或全局照明改变。此过程也将必须应用于数据库中的图像。在不 首先处理目标图像和数据库图像以校正照明改变的情况下,特征/关键点匹配可能不会成 功。但在没有照明可如何影响特定图像的先前知识的情况下,此过程相当难以自动实施。 [0110] 因此,需要可在无实质处理开销的情况下执行的替代方案。根据一个实例,通过在 对尺度空间的差执行特征/关键点检测之前正规化尺度空间的差可消除或减少用于特征 检测的图像上的照明的影响(均匀或不均匀)。此正规化过程可使用已经可用的经平滑尺 度空间来执行,因此最小化任何另外的计算。
[0111] 根据一个实例,尺度空间正规化器714可实施为尺度空间产生710的部分以减少 或消除照明改变对图像中的关键点/特征辨识的影响。
[0112] 图8说明示范性图像处理阶段704中的高斯尺度空间产生。已经开发例如尺度不 变特征变换(SIFT)等若干算法来执行图像中的特征检测。针对图像中的特定对象的检测 的第一步骤是基于所记录对象的局部特征来分类所述对象。目标是识别和选择对例如照 明、图像噪声、旋转、缩放和/或视点的小改变不变和/或稳健的特征。也就是说,尽管两个 图像之间的照明、图像噪声、旋转、尺度和/或视点之间的差异,也应当发现查询图像与比 较目标图像之间的匹配。进行此做法的一种方法是对图像的片执行极端检测(例如,局部 最大值或最小值)以识别高度独特的特征(例如,图像中的独特的点、像素和/或区)。
[0113] SIFT是用于检测和提取对照明改变、图像噪声、旋转、缩放和/或视点的小改变合 理地不变的局部特征的一种方法。用于SIFT的图像处理阶段704可包含:(a)尺度空间极 端检测,(b)关键点局部化,(c)定向指派,和/或(d)关键点描述符的产生。应明了,用于 特征检测和后续特征描述符产生的替代算法,包含加速稳健特征(SURF)、梯度位置和定向 直方图(GLOH)、基于局部能量的形状直方图(LESH)、压缩梯度直方图(CHoG)等等,也可得 益于本文描述的特征。
[0114] 在高斯尺度空间产生710中,数字图像I(x,y) 708经逐渐地高斯模糊(即,平滑) 以构造高斯金字塔752。高斯模糊(平滑)大体上涉及在尺度cs下使原始图像I(x,y)与 高斯模糊/平滑函数G(X,y,cs)卷积,使得高斯模糊/平滑函数L(X,y,cs)界定为L(x,y, cs) =G(x,y,cs)*I(x,y)。此处,G是高斯内核,cs表示用于模糊图像I(x,y)的高斯函数 的标准偏差。由于乘数c是变化的(Ctl <C1 <C2 <C3 <C4),因此标准偏差CS变化且获得 逐渐模糊/平滑。西格玛s是基本尺度变量(例如,高斯内核的宽度)。较高尺度(即,较 低分辨率)比较低尺度(即,较高分辨率)模糊/平滑更多。因此,尺度层级越宽(即,较 低分辨率),图像越平滑(更模糊)。
[0115] 当初始图像I(X,y)与高斯G递增卷积以产生模糊图像L时,模糊图像L由尺度 空间中的常数因数c分离。在高斯模糊(平滑)图像L的数目增加且为高斯金字塔752提 供的近似接近连续空间时,所述两个尺度也接近一个尺度。在一个实例中,卷积图像L可通 过八元组分组,其中八元组可对应于标准偏差s的值的加倍。而且,乘数c的值(例如,Ctl <C1 <C2 <C3 <C4...)经选择以使得每八元组获得固定数目的卷积图像L。每一八元组的 缩放对应于明确的图像重定大小。因此,在通过逐渐模糊/平滑函数模糊/平滑原始图像 I(x,y)时,像素数目逐渐减少。应注意,虽然本文使用高斯平滑函数用于说明,但也可采用 其它类型的平滑内核/函数。
[0116] 通过计算高斯金字塔752中的任何两个连续高斯模糊图像的差来构造高斯差 (DoG)金字塔 754。在DoG空间 754 中,D(X,y,a)=L(x,y,cns)-L(x,y,ClriS)。DoG图像 D(x,y,s)是在尺度cns和ClriS下两个邻近高斯模糊图像L之间的差。D(x,y,s)的尺度 位于cns与(V1S之间的某处。DoG图像D可从每八元组的邻近高斯模糊图像L获得。在每 一八元组之后,可以因数2将高斯图像向下取样且随后重复过程。以此方式,图像可变换为 对平移、旋转、缩放和/或其它图像参数和/或失真稳健或不变的局部特征。
[0117] 一旦产生,用于所记录图像的DoG空间754便可用于极端检测以识别关注特征 (例如,识别图像中的高度独特的点)。这些高度独特的点在本文称为关键点。这些关键点 可通过每一关键点周围的片或局部区的特性来识别。可针对每一关键点及其对应片产生描 述符,其可用于查询图像与所存储目标图像之间的关键点比较。"特征"可称为描述符(即, 关键点及其对应片)。一组特征(即,关键点和对应片)可称为群集。
[0118] 图9说明示范性图像处理阶段704中的特征检测。在特征检测712中,DoG空间 754可用以识别图像I(x,y)的关键点。特征检测712试图确定图像中的特定样本点或像 素周围的局部区或片是否是潜在关注片(几何上来说)。
[0119] 大体上,识别DoG空间754中的局部最大值和/或局部最小值,且将这些最大值和 最小值的位置用作DoG空间754中的关键点位置。在图9中说明的实例中,关键点760已 经以片758识别。找到局部最大值和最小值(也称为局部极端检测)可通过将DoG空间 754中的每一像素(例如,关键点760的像素)与在相同尺度下其八个相邻像素以及在关键 点808的两侧上的每一相邻尺度中的九个相邻像素(邻近片756和762)(总共26个像素 (9x2+8 = 26))进行比较来实现。此处,片界定为3x3像素区。大体上,如果关键点758的 像素值是片758、756和760中的全部二十六(26)个比较像素当中的最大值或最小值,那么 将其选择为关键点。可进一步处理关键点以使得更准确地识别它们的位置且可丢弃一些关 键点,例如低对比度关键点和边缘关键点。
[0120] 图10说明示范性图像处理阶段704中的特征描述符提取。大体上,特征(例如, 关键点及其对应片)可由描述符表示,其允许特征(来自查询图像)与存储在目标图像数 据库中的特征的有效比较。在特征描述符提取716的一个实例中,每一关键点可基于局部 图像梯度的方向而被指派一或多个定向或方向。通过基于局部图像性质对每一关键点指派 一致的定向,关键点描述符可相对于此定向来表示且因此实现对图像旋转的不变性。量值 和方向计算可针对商斯1?糊图像L中和/或关键点尺度下的关键点760周围的相邻区中的 每个像素执行。位于(x,y)的关键点760的梯度的量值可表示为m(x,y),且在(x,y)处的 关键点的梯度的定向或方向可表不为Γ(X,y)。关键点的尺度用以选择具有与关键点760 的尺度最接近的尺度的高斯平滑图像L,使得以尺度不变方式执行所有计算。对于在此尺度 下的每一图像样本L(x,y),使用像素差来计算梯度量值m(x,y)和定向Γ(X,y)。举例来 说,量值m(x,y)可计算为:

【权利要求】
1. 一种在装置中辨识场景中的对象的方法,其包括: 基于在所述场景处记录的音频选择对应于所述对象的关键点;以及 基于所述选定关键点识别所述对象。
2. 根据权利要求1所述的方法,其进一步包括: 基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志; 识别所述场景的图像中的多个关键点;以及 将所述关键点与所述关键点标志进行比较以识别所述对象。
3. 根据权利要求1所述的方法,其进一步包括: 基于在所述场景处记录的所述音频选择场景图像的一部分;以及 仅从所述图像的所述部分内选择所述关键点。
4. 根据权利要求3所述的方法,其中基于在所述场景处记录的所述音频选择所述图像 的一部分包含: 从所述音频确定音频到达方向DOA ;以及 基于所述音频DOA选择所述图像的所述部分。
5. 根据权利要求4所述的方法,其中确定所述音频DOA包含: 在位于所述场景处的多个麦克风处接收所述音频,借此产生多个麦克风信号;以及 基于所述麦克风信号确定所述音频DOA。
6. 根据权利要求1所述的方法,其进一步包括: 从所述场景的视频记录计算多个局部运动向量;以及 通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比 较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。
7. 根据权利要求1所述的方法,其进一步包括: 从在所述场景处记录的所述音频计算多个声学辨识特征;以及 通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比 较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。
8. 根据权利要求7所述的方法,其中所述声学辨识特征包含梅尔频率倒谱系数。
9. 根据权利要求1所述的方法,其进一步包括: 确定出现在所述图像中的一或多个对象的范围信息;以及 基于所述范围信息分析所述关键点。
10. 根据权利要求9所述的方法,其中确定范围信息是选自由以下各项组成的群组:使 用自动聚焦相机确定范围信息,使用多相机图像视差估计确定范围信息,和前述各项的任 一合适组合。
11. 一种设备,其包括: 关键点选择器,其经配置以基于在场景处记录的音频选择对应于所述场景中的对象的 关键点;以及 匹配装置,其经配置以基于所述选定关键点识别所述对象。
12. 根据权利要求11所述的设备,其进一步包括: 关键点检测器,其经配置以识别场景的图像中的多个关键点; 其中所述关键点选择器经配置以基于在所述场景处记录的音频选择对应于一或多个 对象的一或多个关键点标志; 其中所述匹配装置经配置以将所述关键点与所述关键点标志进行比较以识别所述场 景中的对象。
13. 根据权利要求11所述的设备,其进一步包括: 第一选择器,其经配置以基于在所述场景处记录的所述音频选择所述场景的图像的一 部分;以及 第二选择器,其经配置以仅从所述图像的所述部分内选择所述关键点。
14. 根据权利要求13所述的设备,其中所述第一选择器包含: 检测器,其经配置以从所述音频确定音频到达方向DOA ;以及 第三选择器,其经配置以基于所述音频DOA选择所述图像的所述部分。
15. 根据权利要求14所述的设备,其中所述检测器包含: 位于所述场景处的用于接收所述音频的多个麦克风,其产生多个麦克风信号;以及 音频处理器,其经配置以基于所述麦克风信号确定所述音频DOA。
16. 根据权利要求11所述的设备,其进一步包括: 视频处理器,其经配置以从所述场景的视频记录计算多个局部运动向量; 其中所述匹配装置经配置以通过将所述局部运动向量与对应于一或多个对象的预定 局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识 别所述对象。
17. 根据权利要求11所述的设备,其进一步包括: 音频处理器,其经配置以从在所述场景处记录的所述音频计算多个声学辨识特征; 其中所述匹配装置经配置以通过将所述声学辨识特征与对应于一或多个对象的预定 声学辨识特征数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识 别所述对象。
18. 根据权利要求17所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。
19. 根据权利要求11所述的设备,其进一步包括: 范围检测器,其经配置以确定出现在所述图像中的一或多个对象的范围信息;以及 关键点检测器,其经配置以基于所述范围信息分析所述关键点。
20. 根据权利要求19所述的设备,其中所述范围检测器包含选自由以下各项组成的群 组的检测器:自动聚焦相机,多相机阵列,和前述各项的任一合适组合。
21. -种设备,其包括: 用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的装置;以及 用于基于所述选定关键点识别所述对象的装置。
22. 根据权利要求21所述的设备,其进一步包括: 用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志 的装置; 用于识别所述场景的图像中的多个关键点的装置;以及 用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的装置。
23. 根据权利要求21所述的设备,其进一步包括: 用于基于在所述场景处记录的所述音频选择所述场景的图像的一部分的装置;以及 用于仅从所述图像的所述部分内选择所述关键点的装置。
24. 根据权利要求23所述的设备,其中所述用于基于在所述场景处记录的所述音频选 择所述图像的一部分的装置包含: 用于从所述音频确定音频到达方向DOA的装置;以及 用于基于所述音频DOA选择所述图像的所述部分的装置。
25. 根据权利要求24所述的设备,其中用于确定所述音频DOA的装置包含: 用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的装 置;以及 用于基于所述麦克风信号确定所述音频DOA的装置。
26. 根据权利要求21所述的设备,其进一步包括: 用于从所述场景的视频记录计算多个局部运动向量的装置;以及 用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进 行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。
27. 根据权利要求21所述的设备,其进一步包括: 用于从在所述场景处记录的所述音频计算多个声学辨识特征的装置;以及 用于通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进 行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。
28. 根据权利要求27所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。
29. 根据权利要求21所述的设备,其进一步包括: 用于确定出现在图像中的一或多个对象的范围信息的装置;以及 用于基于所述范围信息分析所述关键点的装置。
30. 根据权利要求29所述的设备,其中用于确定范围信息的装置是选自由以下各项组 成的群组:用于使用自动聚焦相机确定范围信息的装置,用于使用多相机图像视差估计确 定范围信息的装置,和前述各项的任一合适组合。
31. -种体现可由一或多个处理器执行的指令集的计算机可读媒体,其包括: 用于基于在场景处记录的音频选择对应于所述场景中的对象的关键点的代码;以及 用于基于所述选定关键点识别所述对象的代码。
32. 根据权利要求31所述的计算机可读媒体,其进一步包括: 用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志 的代码; 用于识别所述场景的图像中的多个关键点的代码;以及 用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的代码。
33. 根据权利要求31所述的计算机可读媒体,其进一步包括: 用于基于在所述场景处记录的所述音频选择图像的一部分的代码;以及 用于仅从所述图像的所述部分内选择所述关键点的代码。
34. 根据权利要求33所述的计算机可读媒体,其中所述用于基于在所述场景处记录的 所述音频选择所述图像的一部分的代码包含: 用于从所述音频确定音频到达方向DOA的代码;以及 用于基于所述音频DOA选择所述图像的所述部分的代码。
35. 根据权利要求34所述的计算机可读媒体,其中用于确定所述音频DOA的代码包 含: 用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的代 码;以及 用于基于所述麦克风信号确定所述音频D0A的代码。
36. 根据权利要求31所述的计算机可读媒体,其进一步包括: 用于从所述场景的视频记录计算多个局部运动向量的代码;以及 用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进 行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。
37. 根据权利要求31所述的计算机可读媒体,其进一步包括: 用于从在所述场景处记录的所述音频计算多个声学辨识特征的代码;以及 用于通过将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进 行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。
38. 根据权利要求37所述的计算机可读媒体,其中所述声学辨识特征包含梅尔频率倒 谱系数。
39. 根据权利要求31所述的计算机可读媒体,其进一步包括: 用于确定出现在图像中的一或多个对象的范围信息的代码;以及 用于基于所述范围信息分析所述关键点的代码。
40. 根据权利要求39所述的计算机可读媒体,其中用于确定范围信息的代码是选自由 以下各项组成的群组:用于使用自动聚焦相机确定范围信息的代码,用于使用多相机图像 视差估计确定范围信息的代码,和前述各项的任一合适组合。
【文档编号】H04R3/00GK104246796SQ201380019248
【公开日】2014年12月24日 申请日期:2013年3月7日 优先权日:2012年4月13日
【发明者】埃里克·维瑟, 王海音, 哈西卜·A·西迪基, 金莱轩 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1