用于计算相机或对象姿态的方法和设备的制造方法

文档序号:9422787阅读:331来源:国知局
用于计算相机或对象姿态的方法和设备的制造方法
【专利说明】用于计算相机或对象姿态的方法和设备
【背景技术】
[0001] 对于许多应用(诸如机器人、车辆导航、计算机游戏应用、医疗应用和其他问题领 域),能够在相机在已知环境内移动时找到该相机的定向和位置是有价值的。相机的定向和 位置被称为相机姿态并且可包括6个自由度个平移和=个旋转)。在相机固定而对象 相对于相机移动的情况下,能够计算对象的姿态也是有用的。
[0002] 先前的方法使用关键帖匹配,其中将完整测试图像对照样本训练图像(关键帖) 来匹配。K个匹配关键帖被找到,且运些关键帖的姿态(关键姿态)被内插W生成输出相机 姿态。关键帖匹配通常在姿态结果上非常粗略。
[0003]另一种先前的方法使用关键点匹配,其中稀疏兴趣点集合被在测试图像中检测并 且使用关键点描述符来匹配到已知描述符数据库。给定公认匹配集合,运行稳健优化来寻 找那些匹配中最大数目的匹配在几何上一致的相机姿态。关键点匹配在其中太少关键点被 检测到的情形中遇到困难。
[0004] 现有方法在精确度、稳健性和速度上受到限制。
[0005]W下描述的各实施例不限于解决已知的用于寻找相机或对象姿态的系统的缺点 中的任一个或全部的实现。

【发明内容】

[0006] 下面呈现了本发明的简要概述,W便向读者提供基本理解。本概述不是本公开的 穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是 W简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
[0007] 例如,描述了用于在已知环境中重新定位移动相机(诸如在智能电话上的)或者 用于计算相对于固定相机移动的对象的姿态的相机或对象姿态计算。该姿态信息对于机器 人、增强现实、导航和其他应用是有用的。在其中相机姿态被计算的各实施例中,经训练的 机器学习系统将来自场景的图像的图像元素与该场景的3D世界坐标系中的点相关联。在 其中相机固定而对象的姿态要被计算的示例中,经训练的机器学习系统将来自该对象的图 像的图像元素与对象坐标系中的点相关联。在各示例中,图像元素可能是有噪声且不完整 的,而姿态推断引擎计算该姿态的准确估计。
[0008] 通过结合附图参考W下详细描述,可易于领会并更好地理解许多附带特征。
【附图说明】
[0009] 根据附图阅读W下【具体实施方式】,将更好地理解本发明,在附图中:
[0010] 图1是用于在场景A中重新定位(诸如智能电话中的)移动相机的相机姿态跟踪 器的示意图;
[0011] 图2是握持具有相机和相机姿态跟踪器的移动设备的人的示意图,该移动设备与 增强显示系统通信W使得猫的图像能够W逼真的方式被投影到该场景中;
[0012] 图3是各自具有相机和相机姿态跟踪器的人和机器人的示意图;
[0013] 图4是形成随机决策森林的至少一部分的=个随机决策树的示意图;
[0014] 图5是训练随机决策森林W预测图像元素和场景坐标之间的对应关系;W及使用 经训练的随机决策森林的方法的流程图;
[0015]图6是使用场景的图像来训练随机决策森林的方法的流程图,其中图像元素具有 指示其对应场景坐标的标签;
[0016] 图7是使用经训练的随机决策森林来获得场景坐标-图像元素对的方法的流程 图;
[0017]图8是使用场景坐标-图像元素对来推断相机姿态的在相机姿态推断引擎处的方 法的流程图;
[001引图9是图1的相机姿态跟踪器的示意图,其中该场景的3D模型可用;
[0019] 图10解说可在其中实现相机或对象姿态跟踪器的各实施例的示例性基于计算的 设备。
[0020] 在各个附图中使用相同的附图标记来指代相同的部件。
【具体实施方式】
[0021] 下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可W构 建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,W及用于构建和操作 本发明示例的步骤的序列。然而,可W通过不同的示例来实现相同或等效功能和序列。
[0022] 虽然在本文中将本发明的示例描述并示出为使用随机决策森林来实现,但所描述 的系统只是作为示例而非限制来提供的。本领域技术技术人员应当领会,本发明各示例可 W使用各种不同类型的机器学习系统实现,所述机器学习系统包括但不限于支持向量机、 高斯过程回归系统。
[0023] 图1是用于在场景A中重新定位(诸如智能电话中的)移动相机的相机姿态跟踪 器的示意图。在此示例中,人114正在握持移动相机112,该移动相机与通信设备(诸如智 能电话)集成。人114使用移动相机112来捕捉场景A116 (诸如起居室、办公室或其他环 境)的至少一个图像118。该图像可W是深度图像、彩色图像(被称为RGB图像)、或可包 括深度图像和彩色图像两者。在一些示例中,图像流由移动相机捕捉。
[0024]相机姿态跟踪器100与该智能电话集成或者在与该智能电话通信的另一实体处 提供。相机姿态跟踪器100使用软件和/或硬件实现,如下面参考图10更详细地描述的。 相机姿态跟踪器100包括多个经训练的场景坐标决策森林102、104、106,针对多个场景中 的每个场景有一个决策森林。经训练的场景坐标决策森林可被存储在相机姿态跟踪器处或 可位于与该相机姿态跟踪器通信的另一实体处。每个场景坐标决策森林是一种类型的机器 学习系统,该机器学习系统W图像元素(来自其相关联的场景)作为输入并产生场景中该 图像元素所描绘的点的场景坐标(在世界空间中)的估计。图像元素可W是图像中的像素、 像素组、体素、体素组、团块、补下或其他分量。其他类型的机器学习系统可代替场景坐标决 策森林来使用。例如,支持向量机回归系统、高斯过程回归系统。
[0025] 决策森林包括各自具有根节点、多个分叉节点W及多个叶节点的一个或多个决策 树。在用于在每一个分叉节点处做出决定的过程中,图像中的图像元素可从根到叶节点地 被推动通过决策森林中的各个树。根据图像元素的特性W及测试图像元素的特性来做出该 决定,测试图像元素从图像元素位移达分叉节点处的参数所指定的空间偏移。在分叉节点 处,图像元素沿着根据决定的结果来选择的分支向下前进至树的下一层。随机决策森林可 使用如下文更详细地描述的递归或归类。在训练期间,学习参数值(也被称为特征)W供 在分叉节点处使用,并且在叶节点处累积数据。例如,场景坐标的分布在叶节点处被累积。 [00%] 在训练期间在叶节点处存储所有场景坐标可W是非常存储器密集的,因为通常使 用大量训练数据来用于实际应用。场景坐标可被聚集,W使得场景坐标被W紧致方式存储。 可使用各种不同聚集过程。下面更详细地描述存储场景坐标的分布的模式的示例。
[0027] 在图1的示例中,存在多个经训练的场景坐标决策森林;针对多个场景中的每个 场景有一个决策森林。]然而,具有针对多个场景操作的单个经训练的场景坐标决策森林也 是可能的。运将在下面参考图9来解释。
[0028] 场景坐标决策森林提供用于输入到相机姿态跟踪器100中的相机姿态推断引擎 108中的图像元素-场景坐标对估计110。关于图像元素-场景坐标估计的确定性的信息 也可W可用。相机姿态推断引擎108可使用能量优化方法来寻找良好拟合于场景坐标决策 森林所预测的多个图像元素-场景坐标对的相机姿态。运在W下参考图8更详细地描述。 在一些示例中,每个可用图像元素的场景坐标可被计算并在能量优化中使用。然而,为了在 保持准确性的同时实现性能改进,图像元素的子样本可被用来计算所预测的场景坐标。
[0029] 相机姿态推断引擎108使用许多图像元素-场景坐标对110来使用如上提及的能 量优化方法来推断移动相机112的姿态。远多于=个对(所需的最小值)可被用于改善准 确性。例如,该至少一个所捕捉图像118可能有噪声并且可能有丢失的图像元素,特别是在 所捕捉图像118是深度图像的情况下。另一方面,获得图像中的每个图像元素的场景坐标 预测是计算密集且耗时的,因为每个图像元素需要被推动遍历该森林,如参考图7所述。因 此,在一些示例中,相机姿态推断引擎可使用迭代过程,该迭代过程带来W下益处:图像元 素的子样本被用来计算场景坐标预测,同时将准确性纳入考虑。
[0030] 相机姿态跟踪器所输出的相机姿态120可W是具有6个自由度的参数集的形式, 其中=个自由度指示该相机的旋转,而=个自由度指示该相机的位置。例如,相机姿态跟踪 器的输出是从相机空间到世界空间的变换的配准参数的集合。在一些示例中,运些配准参 数是作为SE3矩阵形式的6自由度化DO巧姿势估计被提供的,该SE3矩阵描述了该相机相 对于现实世界坐标的旋转和平移。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1