单眼视觉同时定位与建图(slam)的快速初始化的制作方法

文档序号:8460772阅读:498来源:国知局
单眼视觉同时定位与建图(slam)的快速初始化的制作方法
【专利说明】单眼视觉同时定位与建图(SLAM)的快速初始化
[0001] 相关申请案的夺叉参考
[0002] 本申请案主张2013年3月14日申请的美国申请案第13/831,405号的权利和优 先权,所述美国申请案又主张2012年11月2日申请的美国临时申请案第61/722,091号的 权利和优先权,所述两个申请案特此以全文引用的方式并入本文中。
技术领域
[0003] 本文中所揭示的标的大体上涉及视觉同时定位与建图。
【背景技术】
[0004] 在增强现实系统和机器人导航中使用同时定位与建图(SLAM)以从环境或场景建 置目标。视觉SLAM (VSLAM)将摄像机或视觉传感器数据或图像用作输入以建置环境的目标 或模型。当结合增强现实(AR)系统来使用VSLAM时,可将虚拟物体插入到用户对真实世界 的视域中并在装置(例如,移动装置、蜂窝式电话或其类似者)上显示所述虚拟物体。
[0005] 使VSLAM追踪或确定摄像机位置和定向(姿势)的一个常见先决条件是使用已知 的参考。例如,已知或先前所获取的参考可为环境或被插入到真实世界中的人工标志的3 维(3D)模型。传统VSLAM也可要求第一参考图像为在初始化和追踪之前的环境中的平面 表面的精确前视图。否则,在无已知的参考或精确俘获的初始图像的情况下,物体可出现在 错误位置处或环境的映射可完全失败。
[0006] 具有单一摄像机的利用VSLAM的追踪系统也可依赖于根据由单一摄像机所俘获 的两个单独参考图像来初始化3D目标。使用传统技术基于两个参考图像来建立3D目标仅 在所述两个参考图像之间的摄像机运动是适当的且还维持两个图像中的场景间的足够重 叠的情况下才有可能。当在两个经特定地界定的参考图像之间存在足够的最小平移时,可 将所述参考图像确定为适当的。
[0007] 传统VSLAM实施方案也可依赖于直接用户输入来选择两个参考图像或提供额外 视觉目标以便可在将3D目标初始化之前记录6自由度(6D 〇F)摄像机运动。
[0008] 例如,一些追踪方法要求用户在无视觉反馈的情况下执行特定非直观运动序列, 使得可使用3D重构建方法来找出环境中的真实平面并根据此平面将3D目标初始化。
[0009] 由于传统VSLAM方法的以上限制,当前的增强现实用户体验可常常为令人沮丧的 且感到不自然。此外,大多数用户不太可能知道或理解进行传统VSLAM初始化所必要的摄 像机运动。典型用户也常对于其为何应不得不在增强现实系统可显示场景的追踪更新之前 执行特定运动而感到困惑。
[0010] 因此,需要改善的VSLAM初始化和追踪。

【发明内容】

[0011] 本文中所揭示的实施例可涉及一种用于视觉同时定位与建图的方法。所述方法包 含根据第一参考图像且在处理后续图像之前初始化三维目标。所述方法进一步包含:处理 一或多个后续图像;以6D〇F来追踪3D目标;和基于对所述一或多个后续图像的处理来细 化3D目标。
[0012] 本文中所揭示的实施例也可涉及一种计算机可读非暂时性存储媒体,其具有用以 执行视觉同时定位与建图的指令。所述媒体包含用于根据第一参考图像且在处理后续图像 之前初始化三维目标的指令。所述媒体进一步包含用于执行以下步骤的指令:处理一或多 个后续图像;以6D 〇F来追踪3D目标;和基于对所述一或多个后续图像的处理来细化3D目 标。
[0013] 本文中所揭示的实施例也可涉及一种设备,其包含用于根据第一参考图像且在处 理后续图像之前初始化三维目标的装置。所述设备进一步包含用于执行以下步骤的指令: 处理一或多个后续图像;以6D 〇F来追踪3D目标;和基于对所述一或多个后续图像的处理 来细化3D目标。
[0014] 本文中所揭示的实施例可另外涉及一种数据处理系统,其包含处理器和可配置以 存储用以执行视觉同时定位与建图的指令的存储装置。所述指令使处理器根据第一参考图 像且在处理一或多个后续图像之前初始化三维目标。所述指令另外使处理器:处理后续图 像;以6D 〇F来追踪3D目标;和基于对所述一或多个后续图像的处理来细化3D目标。
[0015] 其它特征和优势将从随附图式和从详细描述显而易见。
【附图说明】
[0016] 图1为能够执行所揭示方法的系统的一个实施例的框图;
[0017] 图2说明快速VSLAM初始化的一个实施例的流程图;
[0018] 图3说明快速VSLAM初始化的另一实施例的流程图;
[0019] 图4说明摄像机俘获通过平面而初始化的目标的图像的示范性侧面示意图; [0020] 图5说明摄像机俘获场景的图像和由所述摄像机进行的小运动的示范性侧面示 意图;
[0021] 图6说明摄像机俘获场景的图像和由所述摄像机进行的大运动的示范性侧面示 意图;以及
[0022] 图7说明在由摄像机进行的大运动之后在场景的表示中的感兴趣点的经更新集 合的示范性侧面示意图。
【具体实施方式】
[0023] 本文中使用词语"示范性"或"实例"以意谓"充当实例、例子或说明"。本文中被 描述为"示范性"或"实例"的任何方面或实施例未必将解释为较其它方面或实施例优选或 有利。
[0024] 图1为说明能够执行所揭示方法的系统的框图。系统可包括装置100,所述装置 100可包含通用处理器161、图像处理器166、姿势处理器168、图形引擎167和存储器164。 装置100也可包含耦合到一或多个总线177或信号线的若干装置传感器,所述一或多个总 线177或信号线另外耦合到处理器161、166和168中的至少一者。装置100可为:移动装 置、无线装置、蜂窝式电话、个人数字助理、可佩带装置(例如,眼镜、手表、头饰或类似的附 在身体上的装置)、移动计算机、平板计算机、个人计算机、膝上型计算机,或具有处理能力 的任何类型的装置。
[0025] 在一个实施例中,装置100可为移动/便携式平台。装置100可包含用于俘获图 像的装置(例如,摄像机114和/或CMOS/视觉传感器(未图示)),且可任选地包含运动 传感器111,例如,加速计、陀螺仪、电子罗盘或其它类似的运动感测元件。装置100也可在 前置和/或后置摄像机(例如,摄像机114)上俘获图像。装置100可进一步包含用户接口 150,所述用户接口 150包含用于显示增强现实图像的装置(例如,显示器112)。用户接口 150也可包含键盘、小键盘152或用户可藉以将信息输入到装置100中的其它输入装置。如 果需要,将虚拟小键盘集成到具有触控屏幕/传感器的显示器112中可避免使用键盘或小 键盘152。用户接口 150也可包含麦克风154和扬声器156 (例如,如果装置100为例如蜂 窝式电话的移动平台)。装置100可包含各种其它元件,例如卫星定位系统接收器、功率装 置(例如,电池)以及通常与便携式和非便携式电子装置相关联的其它组件。
[0026] 装置100可充当移动或无线装置且可经由无线网络经由一或多个无线通信链路 进行通信,所述一或多个无线通信链路是基于或以其它方式支持任何合适的无线通信技 术。例如,在一些方面中,装置100可为用户端或服务器,且可与无线网络相关联。在一些 方面中,网络可包括人体局域网或个人局域网(例如,超宽带网络)。在一些方面中,网络可 包括局域网或广域网。无线装置可支持或以其它方式使用多种无线通信技术、协议或标准 (例如,CDMA、TDMA、OFDM、OFDMA、WiMAX和Wi-Fi)中的一或多者。类似地,无线装置可支持 或以其它方式使用多种对应的调制或多工方案中的一或多者。移动无线装置可与其它移动 装置、蜂窝式电话、其它有线和无线计算机、因特网网站等无线地通信。
[0027] 如上文所描述,装置100可为便携式电子装置(例如,智能型手机、专用增强现实 (AR)装置、游戏装置,或具有AR处理和显示能力的其它装置)。可将装置100 (其可实施本 文中所描述的AR系统)用于多种环境(例如,大型购物中心、街道、办公室、家或用户可使 用其装置的任何地方)中。用户可能够在广泛多种情形中与装置100的多个特征建立接口 连接。在AR的内容脉络中,用户可使用装置100以经由显示器112来检视真实世界的表示。 用户可通过使用摄像机114来接收真实世界图像/视频而与具AR能力的装置100交互。装 置100可接着以将额外或替代信息叠加到所显示的真实世界图像/视频上的方式来处理所 述图像。在一些实施例中,在装置100上的AR实施方案中,真实世界物体或场景可实时、接 近实时或在图像俘获的短时间窗内被替换或更改,且在显示器112上向用户加以显示。可 将虚拟物体(例如,文本、图像、视频)插入到在装置显示器上所描绘的场景的表示中。
[0028] 在一个实施例中,如本文中所描述的快速VSLAM初始化模块(FVI)可提取或检测 一或多个感兴趣点(例如,与目标物体或物体/场景的群组相关联的3D感兴趣点),且可根 据点对应性的集合来估计6D 〇F摄像机位置和定向(姿势)。术语模块用以指能够执行所陈 述的功能的硬件、固件、软件或其某一组合。在一些实施例中,FVI可实时、接近实时或在图
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1