便携式设备上的图像标注的制作方法

文档序号：6594637阅读：281来源：国知局

专利名称：便携式设备上的图像标注的制作方法
技术领域：
本发明涉及用于在便携式显示设备，特别是无线通信网络中的此类设备上对图像和视频进行标注(annotate)的方法。
背景技术：
手持便携式设备(例如智能电话、掌上电脑、便携式媒体播放器、个人数字助理 (PDA)等)的快速发展导致提出包括涉及图像处理的新颖特征和应用。在这样的应用中，即在图像标注或字幕中，用户将便携式设备指向场景(例如阿尔卑斯山风景、建筑物、或博物馆中的绘画)，并且显示器将图像和关于场景的叠加信息一起显示。此类信息可以包括例如山和住所的名称、建筑物的历史信息以及诸如广告之类的商业信息(例如餐馆菜单)。标注信息可通过无线通信网络中的服务器提供给便携式设备。此处将具有服务器和便携式设备的通信网络的相应功能配置指定为标注系统。在标注系统中，特别关注标注位置的精度和鲁棒性。精度可通过同时使用不同的技术(例如基于传感器和基于图像的技术)得以加强，并且通过选择用于确定标注位置的技术来加强鲁棒性。一旦移动设备获取图像，可使用不同的技术确定图像中标注的放置。使用不同技术来标注图像的方法和系统的示例特别在US6208353和EP1246080中有所描述。EP1622081描述了一种视频对象识别设备，用于识别视频图像中包含的对象并标注该对象。候选搜索装置读取数据库中存储的地理候选对象的位置信息和对象识别设备的位置信息。随后，该设备搜索可能已经成像的地理对象，并执行那些候选对象与图像之间的视觉比较。存在概率计算装置计算候选对象的图像被捕获的概率，并且相似性计算装置计算候选对象和视频图像的视觉特征之间的相似性。随后，使用存在概率和相似性来确定对象的图像是否被捕获。该方法可用于确定特定对象是否应该被标注，但不能指示显著点 (salient point)的最可能位置或者图像中应该添加标注的位置。W005114476描述了一种基于移动图像的信息获取系统，包括移动电话和远程识别服务器。在该系统中，利用移动电话的相机(camera)所拍摄的图像被传输到执行识别过程的远程服务器。这引起对用于传输图像的高带宽需求，并引起在服务器中计算标注并将它们传回移动电话的延迟。再有，该系统给出相似性得分，其与预定义阈值进行比较以确定在图像中对象是否可见，但并不指示该对象在图像中最可能的位置。

发明内容
本发明的目的是更好地使用在移动标注设备中可用的不同传感器和方法以确定设备和所成像对象的位置和定向。另一目的是改进图像中标注的放置，特别是当可能考虑不同的位置时，或当图像中的最优位置含糊不清时。优选的方法确定2D或3D概率分布，此处称为概率模板(probability mask)，其表示在图像的每个点处表示所指定对象的概率。该概率依赖于用于确定图像中显著对象位置的方法。例如，计算参考候选对象和使用计算机视觉获得的图像特征之间的相似性的基于图像的方法，在正常照明条件下，其可以以很高的精度确定对象的位置。但是当照明太低时，或当许多外观类似的对象出现在同一场景中时，该方法可产生若干候选，即表示候选对象的概率非零的若干区域。其他情况中，计算机视觉方法不能够识别图像中存在的候选对象且产生零或明显统一的概率分布。概率模板也可基于定位传感器所递送的信息而生成。例如，如果在标注设备中可获得诸如GPS之类的定位系统，其与罗盘和倾斜仪一同在三个轴上，则可以以高精度计算设备的位置和定向，且概率模板的高概率值被分布到特定图像点周围。根据位置和定向角的精度来确定非零区域的大小。不同的便携式设备可包括不同组传感器，产生不同形状和大小的概率模板。例如，如果标注设备具有GPS和倾斜仪，但没有罗盘，则只能确定设备的偏航角和侧倾角，而不能确定方向。这种情况将对应于带状的或3D中盘状的概率模板的非零区域。标注设备中可以具有或附加的其他传感器包括多轴加速仪和/或陀螺仪，从中可以确定设备的过去轨迹，和垂直方向。其他传感器也可被附加到对象以标注并发射由图像采集设备接收的信号。这些传感器可包括RFID标签、信标(beacon)、或无线电发射器(例如蓝牙，WIFI或Zigbee发送器)。标注设备可确定传感器的方向和可能地到该传感器的距离(基于例如飞行时间和/ 或幅度测量)，并且使用无线电信号中包括的信息来识别对象。这种情况中，概率模板的非零区域可以是圆，分别地具有相对大直径的球。进一步使用基于图像的方法和/或传感器，移动设备的位置和定向可通过使用对于通信网络的站或组件而言可用的信息来确定。例如，标注设备的位置可通过三角测量，使用不同位置的网络基站发送或接收的信号的飞行时间和/或幅度来计算。另一种可能性是同时确定多个移动设备的位置和定向。某些设备可能具有不止一种或另一类型的传感器，用于增强精度确定，这还有利于网络中的其他标注设备。例如，一个设备具有GPS并且在没有装备GPS的第二设备附近。如果这两个设备能够通信(例如通过近距离无线接口)，则可使用测距技术确定它们之间的距离，并且第二设备的位置的估计可提供给第一设备。不考虑用于确定位置和定向的技术，结果将产生显著对象到图像平面上的映射，具有概率模板所表示的精度。独立于每项技术的精度，一些技术比其他技术更为可靠。例如，基于传感器的技术通常比基于图像的技术更可靠，后者可产生错误肯定(false positive)或错误否定(false negative) 0特定技术的可靠性可以是先验已知的，并存储为算法所获取的预定义值。或者其可能依赖于图像和/或条件，且由不同技术使用的相应传感器或算法产生。例如，基于图像的方法的可靠性可作为计算机视觉算法的输出而产生，并依赖于图像采集条件。另一示例中，基于卫星位置传感器的可靠性可由GPS芯片和算法输出，并尤其依赖于接收到的GPS 信号的数目和卫星的位置。进一步，与图像的不同部分和不同候选对象相关联的可靠性可以是不同的；例如，图像可包括照明良好的部分(对此计算机视觉算法可产生可靠的结果)，和欠曝光或过曝光或未被良好聚焦的部分(对此该方法的可靠性就更成问题)。而且，与不那么独特的对象相比，某些对象更容易以高可靠性识别。另一示例中，基于待标注对象和标注系统之间的无线电路径的方法的可靠性尤其可能依赖于距离、障碍和反射。因此，可以计算可靠性分布函数，其指示在图像的每个点处的测量的可靠性。此外，定位的精度依赖于不同的测量，并且可能依赖于每个候选对象以及图像的每个点。例如，与具有模糊边缘的对象相比，可以更容易地以高精度相对于参考图像定位具有清晰边缘的候选对象。类似地，GPS定位系统的精度一点也不恒定。因此，精度(或平均位置误差)可能与每个图像、每个候选对象和/或图像的每个点相关联。通过结合不同技术产生的估计，考虑到概率模板以及可能地可靠性模板，鲁棒性和精度可被最大化。一种提高鲁棒性的方式是计算不同技术的概率模板之间的交集。如果交集为空，或如果两项技术产生的高概率区域没有重叠，那么这两项技术是不一致的。这种情况下，较不可靠的技术(例如基于图像的技术)所产生的结果应该被丢弃或者至少给予较低的权重。一般地说，可以为不同的技术定义可靠性分级。如果技术的结果不一致，即概率模板的交集为空，则最不可靠的技术(或对于其他技术指示的高概率区域而言较不可靠)应该被丢弃，并且该过程对该组其余技术反复应用。一旦确定一组一致的技术，显著对象位置的精确投影可通过结合该组技术生成的测量方法而被确定。例如，结合测量方法的简单方式是加权平均，其中权重从概率模板得到。显著对象在输入图像上的映射的最终精度可用于确定标注细节的级别。例如，如果一组对象的位置只能以低精度确定，则该组可作为一个单元被标注，而非标注每个单独对象。这可以通过使用对象的多分辨率表示来实现。例如，分级建筑物具有不同的子部分 (例如状态，架构元素等)，其可被独立于建筑物本身而被标注。这些子部分可被集合成与整个建筑物的标注相关联的单个对象。或者可以将一组建筑物(例如对应于城镇的一部分)与单个标注相关联。标注中，标注的分辨率级别可通过为每个分辨率级别确定对象位置上的精度来确定。所选择的级别是给出最大分辨率，但使得加标注对象位置的混淆区域不重叠的级别。综上，某个或某些方法能够提供不同的值1)在特定位置和/或整个图像处具有特定对象的概率。该值可针对整个图像和/ 或图像或3D场景的每个点来计算。在为每个点计算概率的情况中，计算概率密度函数(或概率模板)，其用于指示在特定位置处具有对象的概率。该概率密度函数可在图像平面上在二维中和/或在三维中(如果场景或场景中对象的三维模型可获得的话)计算。该概率可以由实值指示，例如百分比。具有特定候选的概率不为空，或至少高于阈值的点一起构成所谓的混淆区域。2)可靠性，也就是与图像或图像的点相关联的显著对象不是错误肯定的，且该对象确实存在的概率。对于整个图像、图像的不同部分、图像中的每个点、和/或给定的候选对象，该可靠性可以是先验已知的或计算的。该可靠性可以由实值指示，例如百分比。3)精度，也就是位置上误差的标准偏差。对于整个图像、图像中的区域、图像中的每个点、和/或给定的候选，该精度可以是先验已知的或再次计算的。这些不同的值可进一步随时间而变化，例如在标注视频图像的过程中。确定图像标注设备的位置和定向，应用不同的技术来将显著对象映射到图像上，以及生成最终结果所需的计算能够分布在完整标注系统的不同组件上。考虑到移动设备和系统中的其他组件(即服务器和其他移动设备)的计算能力，这些分布可被优化。优化可用于，例如最小化获得加标注图像中的延迟或最小化通信成本。在简单的情况中，处理能力非常有限的移动设备可以简单地将所采集的图像与传感器信息一起发送到服务器之一，并且服务器将生成结果图像并将其发送回移动设备。在具有更强大能力的移动设备的情况中，该设备附近的加标注对象的模型可以被下载，所有处理将由移动设备执行，而服务器不处理任何资源。当服务器可能变得过载时，第一种替换方案可能慢于第二种。当可能不使用许多下载的模型时，第二种替换方案在通信成本方面更为昂贵，但标注能够非常快地执行。在某种意义上介于两种替换方案之间的是，可以将计算负载分布在服务器和移动设备之中。

进一步确定标注位置的精度和成本(例如延迟、通信成本或能耗)之间的平折衷是有利的。事实上，当结合多种技术能够提高精度时，也将增加总成本。可通过计算每项技术的成本和相应精度，并然后找到这些技术之间的可用预算的最优分配来确定折衷。标注系统的商业可行性将依赖于对于用户而言可用的标注对象的数量。为将加标注对象提供给数据库，随后介绍三种示例性技术。第一种允许用户上传加标注图像或3D 模型。这可直接从移动设备或通过万维网进行。因为是自组织的，该技术能够潜在地提供大量加标注对象，但难以保证服务质量。在第二种技术中，中央机构生成某个区域(例如城镇)的一组加标注对象，由此保证了内容的一致性和质量。第三种示例性技术包括使用从先前存在的图像和视频数据库(例如万维网)获取的图像和数据。这些通常被发现与位置信息、关键词和到网站的链接相关联。这些信息可被自动访问以为移动设备生成加标注对象。生成可以是实时的，并基于与感兴趣的场景或区域相关的、剔除数据重复并促成标注的简化更新的请求。

图1是示例性标注系统的示意性表示。图2是指向建筑物的标注系统中的标注移动设备的描绘。图3是包括用于显著对象的条目的数据库的表格表示。图4A是显示地形海拔的等高线。图4B是场景的对象的示意性表示。图5是图示将显著点映射到移动设备图像平面上的示意图。图6A是图6B的显著对象位置P的概率模板或“混淆区域”的图形表示。图6B是包括显著位置的场景的略图。图7A是在罗盘信息不可用时候选对象的示例性概率模板的表示。图7B是图7A中示出的对象的可能位置的略图。图8A是具有三个局部最大值的概率模板的表示，用于在具有其他类似对象的场景中的候选对象的基于图像的检测。图8B是包括三个具有相似外观的对象的场景的表示，对应于图8A的概率模板。图9A到9C是使用多种技术的显著对象的检测的图示。图IOA是基于传感器的单候选方法和基于图像的三候选方法的概率模板的比较的图示。图IOB中，顶行是采集在标注数据库中存储的图像的图示，并且图10B，底行是以不同定向拍摄图像的标注的图示。图11对应表1，是显著对象的三个级别的分辨率下的标注的图示。图12是作为成本函数的标注位置的最终误差的图形。
具体实施例方式在图像/视频标注系统中，可以将不同的技术用于图像采集。一种技术可以基于移动标注设备上传感器的使用，例如使用传感器提供关于设备位置和定向的信息。可用的传感器由不同的精度和可靠性来表征。例如，GPS系统允许以依赖于可见卫星的数量的精度来确定位置。但是，当设备处于建筑物内时，GPS确定变得不可靠，并且不得不使用另一种不那么精确类型的传感器来采集所必需的位置，例如通过移动电话网络基础设施来确定位置。根据传感器信息，标注系统能够推断标注设备所观察到的场景并从数据库中获取一组可见的显著对象及其标注。传感器信息可进一步用于将这组显著对象位置映射到图像坐标，用于在对应于显著对象的位置处将标注叠加在场景的图像上。其他传感器可以附于所述对象以标注，并发出由标注设备所接收的信号。例如，场景可包括对象(包括人)，该对象标记或装备有RFID、蓝牙、或ZigBee发送器、或任何发送射频、红外或音频/超声波信号的发送器或信标，所述信号可被图像标注设备接收并用于识别这些对象和/或用于确定在所采集图像内它们的位置。该技术可用于识别并定位例如具有无线移动设备的用户和车辆。作为使用传感器的替代方式，图像处理和计算机视觉技术(包括人脸识别算法) 可用于计算参考图像或模型和图像特征之间的相似性。将标注设备所采集的图像与存储在数据库的参考图像(其中每个图像对应于待标注的对象)进行比较。由于对于存储在数据库中的图像而言实际视角和照明条件可能不同，因此比较算法应该除去这些参数的影响。可替换地，可存储对应于不同视角和照明条件的多个图像。另外的更为复杂的图像标注技术使用3D参考模型。在便携式设备靠近待标注的对象的情况下(也就是说视差明显的情况下)，该技术特别有利。在建筑物的情况下，例如，对象的结构与待标注的细节一同被存储在数据库中。便携式设备所采集的图像被与3D对象的可能视图进行比较，并且如果匹配视图之一，则对象被识别且相应标注被叠加到图像上。进一步在基于传感器和基于图像技术之间选择，提供便携式设备和服务器设备之间的关于分区和分布计算任务的选择。如果便携式设备的计算能力低，则标注可完全在服务器端执行。相反的，如果便携式设备能够执行标注任务，则所有或部分标注信息数据库可被下载到该设备，而不请求在服务器端上进行处理。第一种情况中，在与服务器的数据交换中，成本以延迟的方式出现，且服务器上具有更高的计算负荷。第二种情况中，成本主要是由于从服务器下载的更大信息量而引起。图1显示了标注系统，包括四个移动设备1(包括一个或多个标注设备，例如具有标注软件和硬件能力的移动电话)和四个基站2。每个基站具有天线20，用于与移动设备1进行通信。基站中的两个还具有(每个具有另一天线21)例如卫星通信碟形天线21，用于和卫星4进行通信，卫星4用于中继通信并定位移动设备(例如通过使用全球定位系统 (GPS))。某些移动设备还可以包括自己的卫星定位系统，例如它们自己的GPS接收器。基站通过通信链路而互连，例如陆上线路电话连接。基站连接到服务器3和相关联的数据库 30，例如通过因特网。至少一个移动设备1可包括数码相机，图像标注软件和/或标注数据库。移动设备1可与基站2、与服务器3和可能相互通信以确定他们的位置，对象的位置，并产生加标注的图像。图2显示标注移动设备1，已经采集并显示场景4的视图10，场景4包括至少一个显著对象40，此处是瑞士的洛桑大教堂，并且被显示的视图10标注有文本11，此处是 “CATHEDRAL(LAUSANNE)(大教堂(洛桑))”。其他添加到图像的标注可以包括链接、位图或图形元素，例如箭头、图标、象形图、高亮元素等。首先，为了标注由移动设备1所采集的视图10，在视图中识别显著对象40。在基本实现中，例如，显著对象由在二维或三维坐标系中放置在就其而言在数据库中可获得标注的位置处的点所表示。或者，显著对象可由表面补丁(surface patch)或区域表示，从而允许用户点击区域以获得标注。两种情况中，与显著对象相关联的主要信息是它们的位置，所述位置可以从一个或多个数据库与对应标注一起获得。为便于识别，可使用显著点的多种表示。图3图示了示例性标注数据库30的一部分，该数据库可以被存储在服务器3和/ 或标注设备1中。对每个参考对象来说，数据库条目包括以下中的一个或多个使用经纬度和海拔的地理位置、对象的一个或多个图像、3D模型(可选)、和期望的标注(例如这里所示的文本)。通用图像和/或3D模型还可与若干对象相关联。此外，特定的边面信息被存储，例如采集图像的相机的位置和定向、图片被拍摄的时间和日期、相机的设置等。如果显著对象是表面补丁而不是点，则还存储每个图像上的表面投影。在可替换表示中，还包括一组显示显著对象的图像。例如，建筑物的另一表示可采用3D模型的形式。一种表示3D模型的方式是使用线框架(wire frame)，从而近似实际对象表面。此外，纹理可被存储作为参考。显著对象在3D模型上在三维中定位。与在2D图像的情况一样，可通过点或3D表面补丁或体积来指示。在后一情况下，补丁可被投影到图像上以确定显著对象的区域。在一些情况下，有利的是可以使用另外的数据库或数据库条目来促进确定从特定位置来看哪些对象是可见的。这种数据库优选地包括移动设备周围的表面的海拔。海拔可由图4A所示的地形图表示，或由图4B中场景的对象40的几何近似表示。在实际实现中，为提高效率，两个数据库可被以不同方式组织。事实上，由于图像和3D模型可包括多个显著对象，所以有利的是，对于3D标注位置、图像和3D模型具有不同的数据库。每个数据库的条目将与一个或多个对应于标注的标识符相关联。在基于传感器的标注的情况中，地理位置可用于确定对象是否为设备可见，哪些对象被隐藏，包括确定移动标注设备的位置和定向。例如，这可通过使用GPS、罗盘和倾斜仪获得。设备可见的显著对象通过选择数据库中包括在移动设备相机的视场41中的对象 40来获得，如图5所示。对于视场中没被其他对象遮挡的对象，可确定所采集的图像上的投影。该投影对应于其中对象的标注应被放置的位置。
每个传感器的精度影响投影位置的精度。例如，在图6B中，位置P对应于待标注的对象之一。位置P的不确定性由图6A中描绘的概率分布表示，其中黑色对应于该对象在该位置的概率高，并且白色对应于该对象在该位置的概率低。概率分布对应于混淆区域42，其中包括正确的位置，并且其中对于区域内每个点具有候选对象P的概率大于零。如果传感器的数量和/或精度不足以清楚地确定对象的位置，那么仍可以确定对象所处的区域及对应的概率分布。例如，如果GPS和倾斜仪可用，但没有罗盘，则将可以确定与对象所位于的水平线平行的线形混淆区域。这在图7A和7B中绘出。相应地，在线的区域中，概率值不为零。即使对象的位置不能完全确定，这个概率模板也可结合其他技术所给出的概率模板(例如基于传感器和图像的技术)以获得具有较高精度和可靠性的最终标注位置。在基于图像的技术中，所采集的图像被与候选对象的一组2D参考图像和/或3D 模型的投影进行比较。例如，在图3所示的数据库中，采样图像和3D模型与至少某些显著对象相关联。如果候选对象的图像或投影在输入图像中的特定位置被找到，则该位置被记录为用于所考虑的显著对象的标注的可能候选。被用于找到图像中显著对象位置的算法由位置的特定精度表征，这依赖于例如锐度、照明条件、对象自身和采样图像的数量及质量。对候选对象的搜索可被限制到最可能出现在场景中的对象，例如依赖于基于来自一个或多个传感器的信息做出的视场的粗略估计。对于同一个显著对象，计算机视觉算法可确定几个候选位置。例如，图8B中，对一个候选对象确定了三个可能的位置(表示为A、B、C)。如在基于传感器的技术中一样，每个候选的位置精度由概率分布表示。例如，图8A中显示了一个候选的概率分布。该概率分布包括三个局部最大值，对应于与候选的参考图像类似的图像的三个特征A、B、C。可能发生其他情况，其中计算机视觉算法没有找到候选对象的任何匹配和任何可能的位置，即使该对象存在于场景中。基于图像技术的可靠性比其他技术要低，特别是当图像采集条件比较艰难时，或者具有相似外观的若干对象在同一场景中时。如上所述，通过使用标注系统中可用的所有信息，能够确定显著对象的候选位置。例如，可以使用由基站2接收的对信号的测量以推出标注移动设备1的位置并最终推出显著对象P的标识和位置。附加的测量可由所考虑的设备附近的移动设备1获得。根据系统的配置和所应用的算法，每个候选位置将由不同的概率分布来表征。此外，特定可靠性与方法相关联，这指示出算法给出有意义结果的可能性。基于传感器技术的可靠性很高(即待标注的对象能够指示其自身的标识和位置)，例如移动设备的GPS和基于网络的地理定位的技术的可能性居中，而基于图像技术的可靠性较低。图9显示了由不同技术给出的结果的示例，图9A是基于传感器的，图9B是基于地理定位的，图9C是基于图像的技术。对每项技术，显示不确定性区域(即其中包括候选对象的概率高过阈值的图像部分)的典型形状。第一种方法(图9A)使用安装在移动设备和/或标注对象40内的传感器结果非常可靠，但只能计算对象的垂直坐标，并且不确定性区域为带状。第二种技术(图9B)基于对在移动网络的基站2处发送和/或接收的信号的测量。这种情况下，移动标注设备1和对象的位置全部被计算，但精度低，即混淆区域很大。由于在一些个别情况中多径可导致移动设备的不正确定位，因此可靠性居中。第三种技术(图9C)是基于图像的，并产生同一对象的若干候选。每个候选的位置以高精度计算，但由于该方法依赖于图像采集条件，所以可靠性低。对于每种方法，可靠性依赖于条件，并且针对每个图像或者甚至针对图像中的每个点而被确定。例如，如前所述，基于计算机视觉的技术的可靠性很大程度上依赖于照明条件，焦点和视场内候选的数量。基于GPS技术的可靠性依赖于其中接收信号的卫星的数量。这样，可对每个要标注的图像和每项技术计算新的可靠性指数，并使之与阈值相比较以便确定该技术是否提供有用的结果。用于识别和定位图片上显著对象的不同方法的候选可被分析以除去与大多数可靠的候选不一致的候选。在图像中放置候选对象的第一个可能的过程如下1、按照可靠性增加的次序考虑每种方法M。2、考虑M给出的每个对象的可能位置，并检查它是否与其他方法给出的位置兼容。如果否，则除去该位置。3、对于M是否还有剩余的位置？如果否，则除去方法M。4、如果存在未被分析的方法，则返回步骤1。例如，在图IOA中将基于图像的圆形不确定性区域42和由基于传感器的方法给出的带状不确定性区域42’进行比较。基于图像的技术的候选中只有候选A与基于传感器的技术的不确定性区域可兼容，因此存在其中两种概率模板都不为零的区域。在这种情况下，丢弃基于图像的技术的候选B和C。在两个不确定性区域的重叠部分内，该算法将把显著对象定位在其中组合概率或加权组合概率最高的点处。在图像中放置候选对象的另一可能过程如下1、考虑每种方法M。2、除去对于当前图像来说可靠性指数低于预定义阈值的所有方法。3、对在视场中识别的每个显著对象，确定其在图像中最可能的位置。最可能的位置优选地基于由剩余的不同技术给出的概率分布函数。这可以包括平均对于每个点由每种技术给出的概率的步骤，或者加权平均，其中与每种概率相关联的权重依赖于每种技术的
可靠性。可以使用第三种方法，特别是当可获得指示每个点处每种或一些方法的可靠性的可靠性分布函数时。1、连续地考虑图像的每个点。2、除去其在该点处的可靠性低于预定义阈值的每种方法。3、计算由剩余方法给出的在该点处具有一个候选显著对象的概率的平均。4、图像中是否有更多的点。如果有，则返回步骤1。5、如果该平均概率高于给定阈值，则为该标注选择依赖于最高平均概率的位置，否则丢弃该标注。因此，在所有方法中，候选对象位于具有最高概率的点，即指示候选的最可能位置的点。具有最高概率的该点基于与不同传感器相关联的概率模板，例如通过平均概率分布函数。不是足够可靠的方法或在特定点处不可靠的方法被丢弃。该方法对可以在场景中发现的所有候选对象重复。更一般地，一旦一组兼容的候选被确定，就通过组合由不同方法给出的位置来计算标注的最终位置。在一个实施例中，最可能位置的计算考虑到每种方法的精度。例如，可以使用加权平均，例如xi 丨 σχ0 /(Σ17少=(Σyi丨cr^o7(Σι;
其中(xi，yi)是候选位置i的位置，并且(X，y)是标注的最终位置。参数ο xi， σ yi是关于候选位置i的误差的标准偏差，并且它们与混淆区域的大小相关联；这些偏差依赖于每种方法，也经常依赖于每次测量。最终位置的精度可以从兼容的候选的概率分布而被计算。例如，这可通过计算最终位置的标准偏差的估计来实现。提高最终标注位置的精度和鲁棒性的另一种方式是联合地应用多种技术，而不是独立地应用。采用这种方式，例如可将传感器测量和基于图像的技术结合起来。事实上，上述基于图像的技术可能对观察者的位置比较敏感。例如，如果2D模型被用于确定输入图像的特定区域和参考图像之间的匹配，那么移动设备的3D旋转可能导致不正确或错失的匹配，这在图IOB中绘出。顶部图像表示采集在标注数据库30中存储的参考图像。加标注对象40在平坦表面上，其平行于相机1的图像平面，从而生成存储在数据库中的参考图像45，并且从该特定视角看，其是加标注对象的2D缩放表示(scaled !^presentation)。作为代替，如底部图像所示，当移动设备1被用于生成加标注图像时，相机平面不必与生成参考图像期间所使用的平面平行并且与加标注对象平行，而可以与另一对象47平行。对于不同的定向，如果数据库中的图像和采集的图像之间的匹配不考虑透视投影，例如如果使用2D转换，则正确的对象40可能被错失或者与另一对象47的不正确匹配可能产生。为了规避该风险，可以使用补偿来提高检测到所采集图像和标注数据库中的图像之间的正确匹配的概率。该补偿可以包括例如标注设备1所采集的图像的预处理以便补偿不同的视角，不同的照明条件(光度/色温/阴影等)和用于图像采集的更一般的不同条件。该补偿可基于其他传感器提供的数据(包括本地传感器，时间和日期信息等)和与参考图像或3D模型相关联的对应信息。例如，知道日期和时间可用于照明和光色补偿，并且从GPS和罗盘得知位置和定向可用于补偿视角变化引起的几何变形和视差。通常，该补偿的目的在于从所采集的图像计算其他图像或数据(例如，对应于参考图像或模型的图像采集条件的图像)以使得匹配过程更容易、更快速且更鲁棒。这样，该补偿提高了检测到所采集图像和标注数据库中的图像之间正确匹配的概率。位置和定向以一定的误差被确定，该误差导致计算补偿图像的方式的不确定性。为此，可采样可能的位置和定向的空间。对每个采样，计算经补偿的图像并应用基于图像的技术。为减少最终候选的数量，若干种技术是可行的，例如-保持对应于相机的最可能位置和定向的经补偿图像的(一个或多个)候选；-保持与数据库图像具有最好匹配的(一个或多个)候选，例如给出最小均方差的候选；-保持所有候选，并将结果与其他上述技术进行比较，例如其他基于传感器的技术或基于3D图像的技术。显著对象位置的精度可用于确定哪些标注应被显示在结果所得到的图像上。事实上，如果位置精度不是很高，则更适当的是降低标注细节的级别。一种方式是将显著对象组织成对应于不同分辨率的一组分级级别。表1显示了三个级别的示例。显著对象被组织成树状，其中每个节点对应于子节点的一般性描述。通过计算树的每个对象的混淆区域和找到没有重叠区域的最高级别来确定适当级别的选择。对于每个级别，图11显示了概率分布和结果所得的标注。显然，级别 2给出的细节级别相对于所获得的精度而言太高，一不同对象的不确定性区域重叠，并且标注因此可能与图片中错误的对象相关联。级别0太粗糙，因为很多显著对象未标注。细节级别的确定也受用户的影响。例如，用户可确定显著对象的分级中将被考虑的级别的范围。可替代的是根据标注位置的局部精度，允许图像的不同部分具有不同的细节级别。而且，细节级别可依赖于标注的大小，标注之间的距离和/或复原期间的缩放因子，以便避免重叠标注。
权利要求
1.一种计算机化的方法，用于将标注放置在场景的图像上，包括以下步骤(a)获得场景的原始图像；(b)获得对在图像中表示的场景的特征的标注；(c)对图像中多个位置中的每个位置，确定将标注放置于该位置的可能性；和(d)通过将标注包括在可能性更大的位置处，来形成加标注图像。
2.如权利要求1所述的方法，其中，确定概率分布函数，用于指示在图像中的每个所述位置处具有候选对象的概率。
3.如权利要求1或2之一所述的方法，其中多种方法被用于获得所述标注。
4.如权利要求3所述的方法，其中多种所述方法给出根据该方法的概率分布函数，并且其中标注被包括在通过结合由不同方法给出的多个所述概率分布函数所确定的位置处。
5.如权利要求2或3之一所述的方法，包括在所述概率分布函数中计算局部最大值的步骤，且根据所述局部最大值将所述标注放置于一位置。
6.如权利要求3到5之一所述的方法，其中不同的精度与每种方法相关联，且其中所述位置的计算优选最精确的方法。
7.如权利要求6所述的方法，其中确定精度分布函数，用于指示至少一种方法在所述图像的不同点处给出的定位精度。
8.如权利要求3到7之一所述的方法，其中不同的可靠性与每种方法相关联，且其中所述位置的计算优选最可靠的方法。
9.如权利要求8所述的方法，其中确定可靠性分布函数，用于指示至少一种方法在所述图像的不同点处的可靠性。
10.如权利要求3到9之一所述的方法，其中在通信成本和延迟方面计算与每种方法相关联的成本，且其中所述位置的计算优选更便宜的方法。
11.如权利要求1到10之一所述的方法，包括基于所述位置和定向预处理所述图像以便补偿所述图像的几何变形的步骤。
12.如权利要求1到11之一所述的方法，其中确定所述候选元素的位置的精度；且根据所述精度调整标注信息的细节的级别。
13.一种标注设备，包括(a)相机，用于获得场景的原始图像；(b)标注装置，用于获得对在图像中表示的场景的特征的标注；(c)计算装置，用于确定将标注放置于图像中多个位置中的每个位置的可能性，并用于通过将标注包括在可能性更大的位置处来形成加标注图像。
14.如权利要求13所述的标注设备，进一步包括位置传感器，用于确定所述标注设备的位置；计算机视觉装置，用于确定所述特征和所述特征的参考图像或模型之间的相似性；计算装置，用于基于来自所述位置传感器的信息和来自所述计算机视觉装置的信息计算概率分布函数，所述概率分布函数指示在图像中每个所述位置处具有候选对象的概率。
15.一种标注系统，包括(a)标注设备，包括用于获得场景的原始图像的相机；(b)标注装置，用于获得对在图像中表示的场景的特征的标注；(C)计算装置，用于确定将标注放置于图像中多个位置中的每个位置处的可能性，并用于通过将标注包括在可能性更大的位置处来形成加标注图像。
16.如权利要求15所述的标注系统，其中所述标注的计算被分布在移动设备和服务器之间，且其中所述分布被自动且动态地调整以便改进标注精度、通信成本、延迟和/或功耗之间的折衷。
17.一种其中存储有计算机程序的计算机程序载体，当所述计算机程序由数据处理装置执行时，所述计算机程序被安排为使所述数据处理装置执行权利要求1到11之一的步棸ο
全文摘要
一种用于自动标注图像和视频的系统将移动设备指向感兴趣的对象，例如建筑物或风景，以供设备将场景的图像及对象的标注一起显示。标注可包括名称、历史信息以及到图像、视频和音频文件的数据库的链接。可使用不同的技术确定标注的位置放置，并且通过使用多种技术，可以使定位更为精确且可靠。可根据所使用技术的精度来调整标注信息的细节级别。所需的计算可分布在标注系统中，包括移动设备、服务器和互连网络，允许加标注图像适应不同复杂度级别的移动设备。可考虑标注精度和通信成本、延迟和/或功耗之间的折衷。标注数据库可以以自组织的方式更新。可将web上提供的公开信息转换为标注数据。
文档编号G06T7/00GK102204238SQ200980134248
公开日2011年9月28日申请日期2009年9月2日优先权日2008年9月2日
发明者L·斯拜滋, M·维特里申请人:瑞士联邦理工大学，洛桑(Epfl)

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｌ·斯拜滋
技术所有人：瑞士联邦理工大学，洛桑（ＥＰＦＬ）
我是此专利的发明人

上一篇：用于电视机集成环绕声系统的系统和方法
上一篇：用于建立多在线法律研究应用的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。