利用一个或多个摄像机生成和/或使用三维信息的系统和方法与流程

文档序号:36974673发布日期:2024-02-07 13:26阅读:26来源:国知局
利用一个或多个摄像机生成和/或使用三维信息的系统和方法与流程

本公开总体上涉及可用于使用至少部分从一个或多个摄像机获得的数据来确定场景信息的设备、系统和/或方法。场景信息可以是三维(three-dimensional,3d)信息。


背景技术:

1、关于3d环境的场景信息可用于许多应用,包括例如车辆在传统道路和高速公路上的安全自动驾驶,以及例如用于导航、勘测、环境监测、作物监测、矿山勘测以及检查已建结构的完整性。

2、创建这种场景信息的一种方式是使用一个或多个激光器的设备,这些激光器潜在地会频闪(strobing)以覆盖场景来发射光脉冲,并且测量接收反射脉冲的时间延迟来确定3d场景中的表面与激光源的距离—这种设备通常被称为激光雷达(lidar)。该方案有许多缺点,例如:(1)很难在远距离上实现横向精度(角分辨率是固定的,因此误差随距离而增加);(2)当环境中有许多有源激光器时(常见的情况是交通充满了配备有lidar的车辆),激光脉冲会潜在地干扰;(3)返回的脉冲需要来自目标物理表面在响应方向上的合理反射率,以及(4)雨、灰尘和雪通过潜在的多重反射场景变得混乱而造成困难,这些反射打破了光脉冲沿直线传播到目标并返回的假设。此外,lidar不会捕获目标物理表面的视觉外观(通常包含在可见电磁波谱的红-绿-蓝(red-green-blue,rgb)部分中),从而限制了一些处理和分析。

3、创建3d场景信息的另一种方法是使用雷达。然而,雷达的角度分辨率比lidar更有限,并且反射更依赖于目标的物理表面特征;例如,金属反射良好,但是人体会吸收大部分雷达信号。

4、通过适当的处理,可以使用光学摄像机系统来生成3d场景信息。捕获图像对的双目摄像机可用于基于双目视差(即,场景中固定特征在两个图像中的位置之间的差异)推导出3d场景信息,特别是深度信息。通常,双目视差方法匹配由具有已知物理分离或基线的摄像机捕获的图像对中的局部区域。根据视差,可以基于光学(假设光沿直线传播)和几何三角测量原理来确定匹配区域的深度。双目视差方法在平原区域容易出错,在平原区域,几乎没有或没有纹理可用于识别两个独立视图之间的精确匹配。双目视差方法也受到对象周围的模糊性的影响,其中这些对象的部分被一个或两个摄像机遮挡。

5、在本领域中已知使用协同工作两个以上摄像机从不同位置查看场景的光学摄像机系统,这些系统通常简称为摄像机阵列。这些阵列从多个不同的方向和/或位置捕获场景的一组2d图像。然后,可以使用与双目摄像机相似的原理,基于来自摄像机阵列中不同摄像机的图像对之间匹配的局部图像区域的视差来获得深度信息。摄像机阵列系统的一种实现是微透镜阵列,即,设置在位于微型单个摄像机传感器前面的固定网格中的小透镜阵列。然而,这种阵列中摄像机对之间的基线通常受到制造过程的尺寸和分辨率的限制(这使得基线非常小),因此限制了深度和角度分辨率和精度。

6、另一种方案是使用安装在平台上的摄像机并随时间从摄像机采集一系列图像,该平台在场景(例如,车辆)内移动。因此,这些图像可以表示来自多个位置的场景视图,在这些位置之间,基线可以至少部分地由在捕获图像的时间段内车辆移动的距离来定义。

7、采用这些方法的先前系统可能产生大量数据,然后必须对这些数据进行管理(通常每个摄像机每秒处理数百万像素值),这可能需要大量的计算资源来从中确定精确的深度和其他期望的场景信息。在一种方案中,三维空间中的采样点和它们在每个摄像机视场中的表观(appearance)之间的映射可能需要为每个摄像机单独确定,并针对在一段时间内拍摄的多个图像“帧”上的运动进行调整。如果需要以高分辨率覆盖场景的大部分,这些采样点的数量可能非常大。对于每一帧(利用当前技术可以容易地以超过60帧/秒的速度捕获),场景中的采样点和来自摄像机的图像数据中的像素之间的映射通常需要大量的计算资源。如果这些图像的大部分用于估计3d场景信息,则总的计算量可能变得无法实现可接受的帧速率。因此,这种系统通常以受限的分辨率或受限的帧速率运行。也许可以预先计算图像数据中的采样点和像素之间的映射(即,在制造期间计算一次或在系统启动时计算一次)以节省计算工作量。然而,在这种情况下,必须在计算机存储器中存储大量的参数,然后将其应用于变换图像数据,如此,以实时速度构建或操作是不切实际的。在任何情况下,高计算要求或需要存储的大量参数使得难以构造可以以合适的实时帧速率传递精确、高分辨率3d场景信息的系统。

8、本公开旨在克服和/或改善现有技术的至少一个或多个缺点,这将从本文的讨论中变得明显。本公开还提供了如本文所讨论的其他优点和/或改进。


技术实现思路

1、本公开的某些实施例涉及针对使用至少部分从在场景内移动的一个或多个摄像机获得的数据来确定场景信息的设备、系统和/或方法。场景信息可以是3d信息。

2、在某些实施例中,系统可以被配置成实时或基本实时地生成三维信息。

3、在某些实施例中,系统可以被配置成以实时帧速率或基本实时帧速率生成三维信息。

4、某些实施例针对使用一个或多个示例性公开系统来生成三维视频信息的方法。

5、某些实施例针对可用于估计真实生活场景中物理表面的速度的系统。

6、本公开的某些实施例针对一种用于生成场景的三维信息的系统,包括:一个或多个摄像机,所述一个或多个摄像机配置为被定位以观察所述场景,以及生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据;所述一个或多个摄像机还配置为将至少部分地与至少两个图像相关联的像素数据传输到一个或多个计算机系统;以及所述一个或多个计算机系统配置为:根据所述至少两个图像获取所述相关联的像素数据;以及使用所述相关联的像素数据的至少一部分来确定所述场景中一个或多个物理表面的可能位置。

7、本公开的某些实施例针对一种用于生成场景的三维信息的系统,包括:一个或多个摄像机,所述一个或多个摄像机配置为被定位以观察所述场景,以及生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据;所述一个或多个摄像机还配置为将至少部分地与所述至少两个图像相关联的像素数据传输到一个或多个计算机系统;以及所述一个或多个计算机系统配置为:根据所述至少两个图像的获取所传输的所述相关联的像素数据;提取所述相关联的像素数据的至少一部分;使用所述相关联的像素数据的至少一部分来生成3d邻域的表示,所述3d邻域至少部分地基于所述3d邻域在至少一个所述图像中的投影来代表所述场景的至少一部分;以及使用所述相关联的像素数据的至少一部分来确定所述场景中的一个或多个物理表面与所述3d邻域相交的可能性。

8、本公开的某些实施例针对一种用于生成场景的三维信息的系统,包括:一个或多个摄像机,所述一个或多个摄像机配置为被定位以观察所述场景,以及生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据;所述一个或多个摄像机还配置为将至少部分地与所述至少两个图像相关联的像素数据传输到一个或多个计算机系统;以及所述一个或多个计算机系统配置为:获取所传输的像素数据;使用所述像素数据的至少一部分来生成一个或多个3d邻域的一个或多个表示,所述一个或多个3d邻域至少部分代表所述场景的一部分;以及使用所述一个或多个表示确定所述一个或多个3d邻域包含来自所述场景的至少一个物理表面的可能性。

9、本公开的某些实施例针对一种用于生成场景的三维信息的方法,包括:使用一个或多个摄像机生成在相对于所述场景的不同位置拍摄的至少两个图像,所述一个或多个摄像机被定位以观察所述场景,以及使用所述一个或多个摄像机生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据;将至少部分地与所述两个图像相关联的像素数据从所述一个或多个摄像机传输至一个或多个计算机系统;在所述一个或多个计算机系统处根据所述至少两个图像接收所述相关联的像素数据;以及使用所述相关联的像素数据的至少一部分来确定所述场景中一个或多个物理表面的可能位置。

10、本公开的某些实施例针对一种用于生成场景的三维信息的方法,包括:使用一个或多个摄像机生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据,所述一个或多个摄像机被定位以观察所述场景;将至少部分地与所述至少两个图像相关联的像素数据从所述一个或多个摄像机传输至一个或多个计算机系统;在所述一个或多个计算机系统处根据所述至少两个图像获取所传输的相关联的像素数据;在所述一个或多个计算机系统中提取所述相关联的像素数据的至少一部分;使用所述相关联的像素数据的至少一部分来生成3d邻域的表示,所述3d邻域至少部分地基于所述3d邻域在至少一个所述图像中的投影来代表所述场景的至少一部分;以及使用所述相关联的像素数据的至少一部分来确定所述场景中的一个或多个物理表面与所述3d邻域相交的可能性。

11、本公开的某些实施例针对一种用于生成场景的三维信息的方法,包括:使用一个或多个摄像机生成代表在相对于所述场景的不同位置拍摄的至少两个图像的像素数据,所述一个或多个摄像机被定位以观察所述场景;将至少部分地与所述至少两个图像相关联的像素数据从所述一个或多个摄像机传输至一个或多个计算机系统;在所述一个或多个计算机系统处获取所发送的像素数据;使用所述像素数据的至少一部分来生成一个或多个3d邻域的一个或多个表示,所述一个或多个3d邻域至少部分代表所述场景的一部分;以及使用所述一个或多个表示确定所述一个或多个3d邻域包含来自所述场景的至少一个物理表面的可能性。

12、本公开的某些实施例针对使用本文公开的系统的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1