用于视觉搜索的自动图像校正的制作方法_2

文档序号：9252416阅读：来源：国知局

获装置提供所关注的至少一个潜在对象的深度信息且在图像捕获装置由于所述深度信息而不需要移动时捕获图像。
[0021]应了解，如下文将描述的本发明的各方面可以结合由计算装置101的处理电路110和/或计算装置101和/或其它装置的其它电路执行的指令来实施。具体地，计算装置101的电路包含但不限于处理电路110，其可以在程序、例程的控制下或在指令的执行下运行以执行根据本发明的实施例的方法或过程。举例来说，此程序可以在固件或软件中加以实施(例如，存储在存储媒体112和/或其它位置中)且可以由处理器来实施，例如，处理电路110和/或计算装置101的其它电路。此外，应了解，术语“处理电路”、“处理器”、“微处理器”、“电路”、“控制器”等是指任何类型的逻辑或能够执行逻辑、命令、指令、软件、固件、功能性等的电路。
[0022]此外，计算装置101可以通过无线网络131经由一或多个无线通信链路130通信，所述无线网络基于或以其它方式支持任何合适的无线通信技术。举例来说，在一些方面中，计算装置101可以与包含无线网络131的网络相关联。在一些方面中，网络可以包括人体局域网络或个人局域网络(例如，超宽带网络)。在一些方面中，网络可以包括局域网或广域网。无线装置可以支持或以其它方式使用多种无线通信技术、协议或标准(例如，CDMA、TDMA、OFDM、OFDMA、WiMAX及W1-Fi等)中的一或多者。类似地，无线装置可以支持或以其它方式使用多种对应调制或多路复用方案中的一或多者。无线装置因此可以包含适当组件(例如，空中接口)以使用以上或其它无线通信技术建立一或多个无线通信链路及经由一或多个无线通信链路通信。举例来说，装置可以包含具有相关联发射器及接收器组件(例如，发射器及接收器)的无线收发器，所述无线收发器可以包含促进在无线媒体上的通信的多个组件(例如，信号产生器及信号处理器)。众所周知，计算装置101因此可以无线方式与其它移动装置、蜂窝电话、其它有线及无线计算机、因特网网站等通信。
[0023]另外参考图2，展示流程图以说明用于自动地产生经校正图像的过程200。在一个实施例中，此过程通过将经校正图像自动地产生到正视图中使得视觉搜索服务具有正确地检测所关注的对象的更高机会来改进视觉搜索匹配结果。另外，此过程可以将来自多个图片的对象的部分自动地组合成单个图像。用于这些改进的基础是除了仅使用对于图片的光度测量之外收集关于场景的3D几何知识的系统。此系统构建环境的3D几何模型(例如，环境的密集3D点云映射)。
[0024]在块202处，与计算装置相关联的图像捕获装置捕获一或多个图像。图像捕获装置可以与计算装置一体化或位于计算装置外部。在块204处，计算装置存储一或多个所捕获图像(例如，将图像存储在存储媒体中)。在块206处，所述过程基于一或多个所捕获图像中的至少一者构建用于环境内的所关注的一或多个潜在对象的3D几何模型。对于单目相机，运动结构系统提供3D几何模型的此类几何信息。在一些情况下，计算装置在某一时间段期间捕获图像，其中计算装置在所述时间段的至少一部分内移动。举例来说，用户可以平移环境内的计算装置以捕获环境的图像。可以存在于深度相机(例如，RGB-D相机)上的其它传感器可以用于直接提供深度而不需要运动。在这些情况下，计算装置提供所关注的至少一个潜在对象的深度信息且在计算装置不需要移动时捕获图像。深度相机提供所捕获像素的深度信息。深度相机可以从每一对象的表面感测反射光。出于实际目的，需要实时(例如，立即、几乎立即)重构场景的几何结构的实时系统。近来，同时定位与映射(SLAM)系统已变得足够高效和稳固以实际用于包含移动电话的计算装置上。通过SLAM系统，用户指向在所关注的对象处的相机且开始移动。在用户与相机一起移动时，SLAM系统追踪相机图像中的细节且构建环境的几何模型。在配备有RGB-D相机的装置的情况下，单个图像足以构建可以通过运动伸长的初始几何模型。所关注的对象不必完全可见，用户也不必位于所述所关注的对象的正前方。大部分对象在相机图像中的一些点处可见是足够的。SLAM系统还获取其需要用于其内部目的的图片(例如，关键帧)，同时SLAM系统构建环境的几何模型。可以周期性地(例如，每隔2至5秒)获取关键帧以确定环境中的相机位置。
[0025]在一个实施例中，计算装置捕获一或多个图像且自动地产生位于一或多个所捕获图像中的所关注的潜在对象的至少一个经校正图像用于视觉搜索，而不接收用户输入。举例来说，用户将相机朝向所关注的对象对准且相机捕获所关注的对象及其它所关注的潜在对象的图像。计算装置随后自动地校正所关注的对象及其它所关注的潜在对象并且经校正图像可以用于视觉搜索。计算装置的用户接口可以不指示经自动校正的图像将用于视觉搜索。
[0026]在一些情况下，计算装置在后台操作期间捕获图像而不接收用于捕获图像的用户输入。在后台操作期间，计算装置的用户接口可以不指示图像被捕获或经校正图像将用于视觉搜索。在块208处，在可能在短时间段中(例如，至多几秒)出现的基于3D几何模型至少部分完成环境的重构后，所述过程搜索3D几何模型以找出与环境内的所关注的一或多个潜在对象相关联的至少一个平面结构(例如，主要平面结构)。这些所关注的潜在对象可以包含基于用户将相机朝向对象对准而捕获的对象及此外位于环境内的其它对象。以此方式，与可能已由用户既定或完全看到的所关注的潜在对象的数目相比，所述过程搜索用于平面结构的更广泛数目的所关注的潜在对象。部分完成的重构可足够用于搜索且随后稍后的搜索可以搜索稍后已完成的环境的其它部分。计算装置可以具有用于每一平面结构的可信度度量。在块210处，所述过程以正视图或正交视图产生(例如，自动地产生)具有所关注的至少一个潜在对象的至少一个经校正图像用于视觉搜索。产生经校正输出图像可以包含通过SLAM系统将平面结构的输入图像从之前获取的图片展开，以便产生平面结构的经校正视图。用户可能已既定捕获一些经校正输出图像，而其它经校正输出图像可能尚未既定被捕获。用户可能不知道经校正输出图像中的任一者或一些将用于视觉搜索或计算装置可能不接收用于视觉搜索的用户输入。
[0027]在已产生经校正图像之后，在块212处，系统可以向用户呈现所述经校正图像以进行确认或立即将所述经校正图像自动地上载到视觉搜索服务器。在现今带宽通常可用于移动电话的情况下，上载图像及接收搜索结果通常仅花费几秒。因此，自动方法通常将是优选的。如结合图5及图6所论述，使用经校正图像可以潜在地加速在服务器侧上所需的描述符提取及匹配。
[0028]图3及图4说明校正输入图像300以产生输出图像400。图3是如通过计算装置捕获的广告牌302的图像300。在图像300的捕获期间，计算装置相对于广告牌302不正交或垂直。相反地，计算装置以某一角度倾斜向上以便捕获图像300。图4是在计算装置已校正图像300之后广告牌402的图像400的正视图。对于此任务，广告牌的平面在单个图像中是否完全可见或广告牌的平面是否跨越多个图像是无关紧要的。计算装置可以将图像400发送到服务器用于视觉搜索。
[0029]在实施例中，用户构建整个房间的3D几何模型。举例来说，房间可以包含多个小平面对象(例如，图片、海报、产品盒子、杂志等)。构建3D几何模型的计算装置还定位小平面对象的平面结构、校正这些平面结构且将所述平面结构发送到服务器用于视觉搜索而用户不必识别及选择对象。
[0030]在另一实施例中，用户不能够获取覆盖足够大部分的所关注的对象的单个图片。这在相机不具有宽视野(与移动电话相机的情况一样)且不存在用以足够远离对象移动使得其在相机图像中完全可见的足够空间时发生。举例来说，计算装置可以重构包含具有大型绘画的窄走廊的环境，使得计算装置(例如，移动电话)的相机无法在单次相机拍摄(不具有太陡峭的角度)中捕获整个绘画。计算装置检测覆盖整个绘画的大平面、将来自多个所捕获输入图像的绘画校正成一个经校正输出图像

完整全部详细技术资料下载

当前第2页1 2 3 4 5