基于场景结构的自我姿势估计的制作方法

文档序号:6533176阅读:132来源:国知局
基于场景结构的自我姿势估计的制作方法
【专利摘要】使用在查询图像中俘获的场景结构和来自数据库的参考图像执行姿势估计。所述参考图像中的每一者具有相关联位置估计。基于所述查询图像和所述多个参考图像产生描述所述查询图像的相机中心的未知的位置与每一参考图像的参考相机中心之间的方向的方向向量。可使用例如单应性、本质矩阵或基本矩阵来产生所述方向向量。使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由度的姿势估计。例如可通过使用所述方向向量和每一参考图像的所述相关联位置估计解决三点姿势问题来确定所述姿势估计。
【专利说明】基于场景结构的自我姿势估计
[0001] 待决临时申请案的夺叉参考
[0002] 本申请案主张2012年7月12日申请且名称为"基于场景结构的自我姿势估计"的 第13/547, 987号美国申请案的优先权,所述美国申请案又在35USC119下主张2012年3月 2日申请且名称为"基于场景结构的自我姿势估计"的第61/606, 209号美国临时申请案的 优先权,以上两者转让给本受让人且以引用的方式并入本文中。

【技术领域】
[0003] 本文所述的标的物的实施例大体上涉及位置和跟踪,且更具体地说涉及基于视觉 的跟踪。

【背景技术】
[0004] 姿势估计描述确定相机相对于环境的外部校准的任务,其可为已知或未知的。最 近基于图像的姿势估计方法已经证实为用于解决实现非常精确的6自由度(6D0F)姿势估 计的任务的良好备选择。基于图像的姿势估计传统地需要场景的某种重构或3D模型。稀 疏3D模型的使用就当其进行在线姿势估计时的准确性和速度而言是有利的,然而,这些模 型的建造通常是复杂的离线过程。因此,所需的3D模型的可扩展性和可维护性仍然是未解 决的问题。


【发明内容】

[0005] 使用在查询图像中俘获的场景结构和来自数据库的参考图像执行姿势估计。所述 参考图像中的每一者具有相关联位置估计。基于所述查询图像和所述多个参考图像产生描 述所述查询图像的相机中心的未知的位置与每一参考图像的参考相机中心之间的方向的 方向向量。可使用例如单应性、本质矩阵或基本矩阵来产生所述方向向量。使用所述方向 向量和每一参考图像的所述相关联位置估计来确定具有六个自由度的姿势估计。例如可通 过使用所述方向向量和每一参考图像的所述相关联位置估计解决三点姿势问题来确定所 述姿势估计。
[0006] 在一个实施方案中,一种方法包含:接收以相机俘获的场景的查询图像;从数据 库接收所述场景的多个参考图像,每一参考图像具有相关联位置估计;基于所述查询图像 和所述多个参考图像产生描述所述查询图像的相机中心的未知的位置与每一参考图像的 参考相机中心之间的方向的方向向量;以及使用所述方向向量和每一参考图像的所述相关 联位置估计来确定具有六个自由度的相机的姿势。
[0007] 在一个实施方案中,一种设备包含:第一接口,其能够接收以相机俘获的场景的查 询图像;第二接口,其能够从数据库接收所述场景的多个参考图像,每一参考图像具有相关 联位置估计;以及处理器,其经耦合以从所述第一接口接收所述查询图像且从所述第二接 口接收所述多个参考图像,所述处理器经配置以基于所述查询图像和所述多个参考图像产 生描述所述查询图像的相机中心的未知的位置与每一参考图像的参考相机中心之间的方 向的方向向量,且使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六 个自由度的所述相机的姿势。
[0008] 在一个实施方案中,一种设备包含:用于接收以相机俘获的场景的查询图像的装 置;用于从数据库接收所述场景的多个参考图像的装置,每一参考图像具有相关联位置估 计;用于基于所述查询图像和所述多个参考图像产生描述所述查询图像的相机中心的未知 的位置与每一参考图像的参考相机中心之间的方向的方向向量的装置用于;以及用于使用 所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由度的所述相机 的姿势的装置。
[0009] 在一个实施方案中,一种包含存储于其上的程序代码的非暂时性计算机可读媒 体,包含:用以接收以相机俘获的场景的查询图像的程序代码;用以从数据库接收所述场 景的多个参考图像的程序代码,每一参考图像具有相关联位置估计;用以基于所述查询图 像和所述多个参考图像产生描述所述查询图像的相机中心的未知的位置与每一参考图像 的参考相机中心之间的方向的方向向量的程序代码;以及用以使用所述方向向量和每一参 考图像的所述相关联位置估计来确定具有六个自由度的所述相机的姿势的程序代码。

【专利附图】

【附图说明】
[0010] 图1A和1B在下文分别图解说明能够使用基于场景结构的姿势估计的移动装置的 前侧和背侧。
[0011] 图2图解说明展示其中移动装置接入数据库以获得参考图像用于基于场景结构 的姿势估计的系统的框图。
[0012] 图3是说明使用图像的数据库确定6D0F姿势的方法的流程图。
[0013] 图4示意性地图解说明使用图像的数据库确定6D0F姿势。
[0014] 图5示意性地图解说明产生参考图像的数据库。
[0015] 图6是能够使用基于场景结构的姿势估计的移动装置的框图。
[0016] 图7图解说明能够使用图像数据库确定6D0F姿势的服务器的框图。

【具体实施方式】
[0017] 以下图1A和1B分别图解说明移动装置100的前侧和背侧,所述移动装置100能 够使用基于场景结构的姿势估计来确定6D0F姿势而无需3D重构。如本文所描述,姿势估 计是使用在查询图像中俘获的场景结构和来自数据库的参考图像执行的。所述参考图像中 的每一者具有相关联位置估计。举例来说,对于由所述查询图像和这些参考图像中的每一 者所形成的对,使用例如SIFT (比例尺-不变量-特征-变换)等图像特征来估计极几何。 从已知的极几何,可获得核点且连同所述参考图像的已知位置一起可处理为所述查询图像 的单个2D-3D对应。基于至少三个参考图像,可使用标准三点姿势问题。查询相机的完整 6D0F姿势可例如通过在稳健求解器中应用基于RANSAC(随机样本共识)的方案而在全局上 下文中估计。此方法和从真实世界点及其图像观察估计相机的姿势大不相同。将已知参考 相机位置处理为世界点且将相机相对于查询相机的放置处理为所述观察。
[0018] 如图1所说明,移动装置100包含外壳101、可为触摸屏显示器的显示器102以及 扬声器104和麦克风106。移动装置100进一步包含面朝前的相机110以对环境成像。移 动装置100捕获场景的图像,例如作为视频帧,且使用所述图像与来自数据库的地理标记 的参考图像以确定移动装置100的位置。移动装置100使用所述地理标记的参考图像与所 述俘获的查询图像以基于多个单应的、本质的或基本的矩阵来确定6DOF姿势估计。
[0019] 如本文中所使用,移动装置指代任何便携式电子装置,例如蜂窝式或其它无线通 信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PM)、个人数字 助理(PDA)或其它合适的移动装置。移动装置可能够接收无线通信和/或导航信号,例如 导航定位信号。术语"移动装置"也既定包含(例如)通过短程无线、红外线、有线连接或 其它连接而与个人导航装置(PND)通信的装置,而不管装置处或PND处是否发生卫星信号 接收、辅助数据接收和/或定位相关处理。并且,"移动装置"既定包含能够俘获其环境的图 像(或视频)的所有电子装置,包含无线通信装置、计算机、膝上型计算机、平板计算机等。
[0020] 图2图解说明展示其中移动装置100可经由无线网络120使用远程服务器130接 入数据库135的系统的框图。数据库135可包含地理标记的参考图像。地理标记的参考图像 的相关集可位于数据库135中,例如基于成像匹配或使用查询图像的粗略位置估计。查询 图像的粗略的位置估计可使用常规定位技术从移动装置100获得,例如使用卫星定位系统 (SPS) 122的粗略的GPS测量或使用例如接入点124或蜂窝式塔126等无线源的三边测量。 发射器的SPS系统122经定位以使得实体能够至少部分地基于从发射器接收的信号确定其 在地球上或上方的位置。在特定实例中,此类发射器可位于地球轨道人造卫星(SV)上,例 如,例如全球定位系统(GPS)、伽利略、Glonass或Compass等全球导航卫星系统(GNSS)或 其它非全球系统的群集中。因此,如本文所使用,SPS可包含一或多个全球和/或地区性导 航卫星系统和/或扩增系统的任何组合,且SPS信号可包含SPS、SPS状和/或与此类一或 多个SPS相关联的其它信号。
[0021] 移动装置100还可将查询图像(或来自查询图像的特征集合)提供到服务器130, 且将在服务器130上执行发现地理标记的参考图像的相关集合的工作负荷以及任何其它 所希望的在此所述的过程。可替代地,服务器130可提供一组参考图像,或每一参考图像的 预先计算的特征集合到移动装置1〇〇,且移动装置1〇〇可执行在此所述的过程。另外,参考 图像的数据库或参考图像的预先计算的特征集合可存储在所述移动装置100上,进而避免 通过网络120接入远程服务器130的需要。
[0022] 图3是说明使用图像的数据库确定6D0F姿势的方法的流程图。如所说明,接收由 相机俘获的场景的查询图像1 (202)。所述查询图像可为例如视频帧。举例来说,在服务器 130执行姿势估计过程的情况下,所述查询图像I可由服务器130经由网络120从移动装 置1〇〇接收。如果移动装置1〇〇执行姿势估计过程,那么所述查询图像I可例如由移动装 置100中的处理器从相机110接收。所述查询图像可具有相关联位置估计,即,俘获所述查 询图像的相机中心的大致位置估计,其可在俘获所述查询图像的时间期间或接近所述时间 获得。与查询图像相关联的相关联位置估计可使用已知定位技术获得,包含GPS测量或使 用无线源的三边测量,且因此是限于定位技术的准确性的大致位置,例如用于GPS类型测 量的10到50英尺。
[0023] 从数据库接收场景的多个参考图像Γ,每一参考图像具有相关联位置估计 (204)。举例来说,在服务器130执行姿势估计过程的情况下,所述多个参考图像Γ可由服 务器130中的处理器从数据库135接收。如果移动装置100执行姿势估计过程,那么所述 多个参考图像Γ可由移动装置100经由服务器130和网络120从数据库135接收。每一 参考图像的相关联位置估计可不包含相关联定向。因此,举例来说,基于查询图像的相关联 位置估计,可通过过滤数据库而收集Ν个相关图像的第一集合S。第一集合S中的每一参考 图像具有接近与查询图像相关联的位置估计的相关联位置估计。查询图像的位置估计与每 一参考图像的位置估计之间的可接受距离可取决于若干因素,例如位置,例如对于大峡谷 可使用比城市大的距离,以及参考图像的可用性,例如如果存在很少参考图像或场景结构 远离则较大距离可为可接受的。举例来说,场景结构如果是通常从大距离成像的则可为远 离的,例如,自由女神像通常是从大距离的船上拍照的。在第一集合S中的每一参考图像靠 近拍摄查询图像的位置定位的情况下,很可能这些参考图像中的一些将描绘同一场景。参 考图像集合可经精炼以仅包含描绘与查询图像相同场景的参考图像。举例来说,通过将查 询图像中的特征与参考图像的第一集合中的每一参考图像中的特征进行比较且几何学上 检验匹配特征,相关图像的第一集合S可经过滤以产生相关图像的第二集合V。借助于实 例,对于通过查询图像和参考图像所形成的所有图像对,可使用图像特征估计极几何。由于 由特征匹配引起的可能错误而可使用用于离群值移除的稳健方案。
[0024] 基于查询图像I和多个参考图像Γ产生三维(3D)方向向量,其描述针对查询图 像I的相机中心的未知的位置与针对每一参考图像Γ的参考相机中心之间的方向(206)。 换句话说,确定查询相机C与参考相机C'之间的相对平移。可使用例如基本矩阵、本质矩 阵或单应性,基于从查询图像I和每一参考图像Γ提取的极几何产生方向向量。使用所述 方向向量和每一参考图像的相关联位置估计来确定具有六个自由度的相机的姿势(208)。 举例来说,可通过使用所述方向向量和每一参考图像的相关联位置估计解决三点姿势问题 来确定具有六个自由度的相机的姿势。
[0025] 图4示意性地图解说明使用图像的数据库确定6D0F姿势。如所说明,俘获查询图 像I且使用查询图像I的粗略的位置估计304来从数据库135获得参考图像Γ 306的集 合S。
[0026] 图5借助于实例示意性地图解说明数据库135的产生。图5图解说明包含建筑物 310、312的场景309的俯视图,其中存在通过场景309中的正方形识别许多图像Γ Α、Γ Β、 Γ c和Γ D(有时统称为图像Γ )的位置。所述图像Γ以及当拍摄图像时相机的相关 联位置估计(P〇s)提供到数据库135且存储在其中。必要时,也可以将例如内部相机校准 等与图像Γ相关联的额外信息存储在数据库中。必要时,数据库135可仅存储从图像Γ 提取的特征,而不是整个图像自身。
[0027] 提供查询图像I和参考图像Γ的集合S用于几何恢复316。如上文所论述,可 使用查询图像I的粗略的位置估计产生的参考图像的初始集合可通过从使用例如SIFT、 SURF(加速稳健特征)等提取的图像I和Γ的图像特征的匹配318而精炼。可在计算图 像对之间的极几何同时执行匹配318过程。模型估计320产生每一图像对I与Γ之间的 相对姿势作为例如基本矩阵F、本质矩阵E或单应性H。
[0028] -般来说,如果没有关于相机的信息是已知的,那么可确定基本矩阵F,而如果内 部校准K对于相机是已知的,那么可确定本质矩阵E。如果另外可假定所述场景中存在主要 平面,那么可确定引起的单应性H。另外,所需的最小数目的对应随着额外信息减少,例如, 基本矩阵F需要至少7个,本质矩阵需要5个,且单应性Η需要仅4个。
[0029] 通过基本矩阵F描述的例如查询图像I和参考图像Γ中的每一者的图像对之间 的极几何可使用例如SIFT(比例尺不变量特征变换)、SURF(加速稳健特征)等图像特征 来估计。对于两个图像I和Γ,将任意场景特征点X描绘为I中的观察X和Γ中的观察 V。通过匹配所述观察X和V的描述符,建立图像I与Γ之间的对应。对于大量图像 特征,可以此方式获得对应性的整个集合。可从所述集合S丢弃具有小于匹配所述查询图 像的特征的阈值的任何参考图像。所述阈值可取决于许多因素,包含:a)所描绘的场景,b) 所采用特征的估计性能,和c)初始匹配的数目。良好的试探是接受具有至少算法所需的对 应性数目的对以较晚地估计基本矩阵F、本质矩阵E或单应性H,例如如果采用标准8点算 法,那么单应性可使用4+1,同时基本矩阵F、本质矩阵E可使用8+1。
[0030] 基本矩阵F包封查询相机C和参考相机C'的完整固有投影几何,且可使用非线性 优化从查询图像I与参考图像Γ之间的至少6个对应性来估计。可以线性最小平方方式 使用8个对应性。基本矩阵F是3x3矩阵,以使得对于图像I和Γ中的单个场景点\的 观察xjPx' i
[0031]

【权利要求】
1. 一种方法,其包括: 接收以相机俘获的场景的查询图像; 从数据库接收所述场景的多个参考图像,每一参考图像具有相关联位置估计; 基于所述查询图像和所述多个参考图像产生描述所述查询图像的相机中心的未知的 位置与每一参考图像的参考相机中心之间的方向的方向向量;以及 使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由度的 所述相机的姿势。
2. 根据权利要求1所述的方法,其中产生描述所述查询图像的所述相机中心与每一参 考图像的所述参考相机中心之间的方向的所述方向向量包括使用单应性、本质矩阵和基本 矩阵中的至少一者。
3. 根据权利要求1所述的方法,其中通过使用所述方向向量和每一参考图像的所述相 关联位置估计解决三点姿势问题来确定具有六个自由度的所述相机的所述姿势。
4. 根据权利要求1所述的方法,其中从所述数据库接收所述场景的所述多个参考图像 包括: 使用当俘获所述查询图像时所述相机的近似位置来产生参考图像的第一集合;以及 通过将所述查询图像中的特征匹配于每一参考图像中的特征来过滤参考图像的所述 第一集合以产生所述多个参考图像。
5. 根据权利要求1所述的方法,其中每一参考图像的所述相关联位置估计并不包含相 关联定向。
6. 根据权利要求1所述的方法,其中每一参考图像具有相关联相机校准,其中产生所 述方向向量使用每一参考图像的所述相关联相机校准。
7. -种设备,其包括: 第一接口,其能够接收以相机俘获的场景的查询图像; 第二接口,其能够从数据库接收所述场景的多个参考图像,每一参考图像具有相关联 位置估计;以及 处理器,其经耦合以从所述第一接口接收所述查询图像且从所述第二接口接收所述多 个参考图像,所述处理器经配置以基于所述查询图像和所述多个参考图像产生描述所述查 询图像的相机中心的未知的位置与每一参考图像的参考相机中心之间的方向的方向向量, 且使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由度的所 述相机的姿势。
8. 根据权利要求7所述的设备,其中所述设备进一步包括所述相机,并且其中所述第 一接口是所述相机与所述处理器之间的接口且所述第二接口是无线接口。
9. 根据权利要求7所述的设备,其中所述第一接口是无线接口且所述第二接口是所述 数据库与所述处理器之间的接口。
10. 根据权利要求7所述的设备,其中所述处理器经配置以使用单应性、本质矩阵和基 本矩阵中的至少一者产生描述所述查询图像的所述相机中心与每一参考图像的所述参考 相机中心之间的方向的所述方向向量。
11. 根据权利要求7所述的设备,其中所述处理器经配置以通过使用所述方向向量和 每一参考图像的所述相关联位置估计解决三点姿势问题来确定具有六个自由度的所述相 机的所述姿势。
12. 根据权利要求7所述的设备,其中所述处理器进一步经配置以通过将所述查询图 像中的特征匹配于每一参考图像中的特征来过滤所述多个参考图像。
13. 根据权利要求7所述的设备,其中每一参考图像的所述相关联位置估计并不包含 相关联定向。
14. 根据权利要求7所述的设备,其中每一参考图像具有相关联相机校准,其中产生所 述方向向量使用每一参考图像的所述相关联相机校准。
15. -种设备,其包括: 用于接收以相机俘获的场景的查询图像的装置;用于从数据库接收所述场景的多个参 考图像的装置,每一参考图像具有相关联位置估计; 用于基于所述查询图像和所述多个参考图像产生描述所述查询图像的相机中心的未 知的位置与每一参考图像的参考相机中心之间的方向的方向向量的装置;以及 用于使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由 度的所述相机的姿势的装置。
16. 根据权利要求15所述的设备,其中所述用于产生描述所述查询图像的所述相机中 心与每一参考图像的所述参考相机中心之间的方向的所述方向向量的装置使用单应性、本 质矩阵和基本矩阵中的至少一者。
17. 根据权利要求15所述的设备,其中通过使用所述方向向量和每一参考图像的所述 相关联位置估计解决三点姿势问题来确定具有六个自由度的所述相机的所述姿势。
18. 根据权利要求15所述的设备,其中所述用于从所述数据库接收所述场景的所述多 个参考图像的装置使用当俘获所述查询图像时所述相机的近似位置来产生参考图像的第 一集合;以及通过将所述查询图像中的特征匹配于每一参考图像中的特征来过滤参考图像 的所述第一集合以产生所述多个参考图像。
19. 根据权利要求15所述的设备,其中每一参考图像的所述相关联位置估计并不包含 相关联定向。
20. 根据权利要求15所述的设备,其中每一参考图像具有相关联相机校准,其中所述 用于产生所述方向向量的装置使用每一参考图像的所述相关联相机校准。
21. -种包含存储于其上的程序代码的非暂时性计算机可读媒体,其包括: 用以接收以相机俘获的场景的查询图像的程序代码; 用以从数据库接收所述场景的多个参考图像的程序代码,每一参考图像具有相关联位 置估计; 用以基于所述查询图像和所述多个参考图像产生描述所述查询图像的相机中心的未 知的位置与每一参考图像的参考相机中心之间的方向的方向向量的程序代码;以及 用以使用所述方向向量和每一参考图像的所述相关联位置估计来确定具有六个自由 度的所述相机的姿势的程序代码。
22. 根据权利要求21所述的非暂时性计算机可读媒体,其中所述用以产生描述所述查 询图像的所述相机中心与每一参考图像的所述参考相机中心之间的方向的所述方向向量 的程序代码使用单应性、本质矩阵和基本矩阵中的至少一者。
23. 根据权利要求21所述的非暂时性计算机可读媒体,其中通过使用所述方向向量和 每一参考图像的所述相关联位置估计解决三点姿势问题来确定具有六个自由度的所述相 机的所述姿势。
24.根据权利要求21所述的非暂时性计算机可读媒体,其中所述用以从所述数据库接 收所述场景的所述多个参考图像的程序代码包括: 用以使用当俘获所述查询图像时所述相机的近似位置来产生参考图像的第一集合的 程序代码;以及 用以通过将所述查询图像中的特征匹配于每一参考图像中的特征来过滤参考图像的 所述第一集合以产生所述多个参考图像的程序代码。
【文档编号】G06T7/00GK104145294SQ201380011701
【公开日】2014年11月12日 申请日期:2013年1月29日 优先权日:2012年3月2日
【发明者】克莱门斯·阿斯, 格哈德·赖特迈尔, 迪特尔·施马尔施蒂格 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1