自动发现受欢迎的地标的制作方法

文档序号：6594221阅读：133来源：国知局

专利名称：自动发现受欢迎的地标的制作方法
技术领域：
本发明总体上涉及数字图像集合，更具体地涉及识别大型数字图像集合中的受欢迎的地标(landmark)。
背景技术：
随着数字图像的使用增加、数字存储介质的容量和可用性增大以及由诸如因特网的数字传输介质提供的互连性，数量日益增大的人群可访问愈加大型的数字图像库。来自遍及世界的各种位置的具有广泛兴趣的人拍摄各种主题的照片，并且使那些照片例如在因特网上可用。例如，来自世界各地的各种地标和旅游地点的数字照片可以由具有拍摄照片的不同技能水平的人拍摄，并且被张贴(post)到web上。照片可以示出来自不同角度、以及从相同或不同距离拍摄的相同地标。为了利用包含在这些大型数字图像库中的信息，必要的是，对所述库进行组织。例如，在诸如Google照片或Picasa的数字图像网站，起始于高级菜单，人们可以向下钻取 (drill down)至对其而言照片可用的详细的主题收录。替选地，人们可以能够搜索具有数字照片的一个或多个站点。例如，一些旅游信息网站下载了与已公布的受欢迎的旅游地点列表相关联的地标的图像。然而，没有可以从这些大型集合自动提取诸如最受欢迎的旅游目的地的信息的已知系统。随着大量新的照片被添加到这些数字图像集合，可能不可行的是，用户以会增加那些数字图像集合的有用性的完整和一致的方式人工标记照片。因此所需要的是，可以自动识别并标记大型数字图像集合中的受欢迎的地标的系统和方法。

发明内容
在一个实施例中，本发明是一种用于填充(populate)以及更新地标图像数据库的方法，所述方法包括根据地理接近性对地理标注(geo-tagged)图像进行地理聚类 (geo-cluster)以生成一个或多个地理集群(geo-cluster)，以及根据图像相似性对一个或多个地理集群视觉聚类以生成一个或多个视觉集群。在另一个实施例中，本发明是一种用于从数字图像识别地标的系统，其包括以下组件地理标注图像数据库；地标数据库；与所述地理标注图像数据库通信的地理聚类模块，其中所述地理标注图像被聚组成一个或多个地理集群；以及与所述地理聚类模块通信的视觉聚类模块，其中所述一个或多个地理集群被聚组成一个或多个视觉集群，以及其中视觉集群数据被存储在地标数据库中。在一个进一步实施例中，本发明是一种增强用来检索地标图像的用户查询的方法，包括以下阶段接收用户查询；识别用户查询中的一个或多个触发词；从地标数据库中选择与一个或多个触发词相对应的一个或多个对应的标签(tag)；以及用一个或多个对应的标签增补用户查询，生成增补的用户查询。在又另一个实施例中，本发明是一种自动标注新的数字图像的方法，包括以下阶段将新的数字图像与地标图像数据库中的图像进行比较，其中地标图像数据库包括一个或多个地标的图像的视觉集群；以及基于所述视觉集群中的至少一个用至少一个标签标注新的数字图像。

将参考本发明的实施例，这些实施例的示例可以在附图中图示。这些附图意在说明而非限制。尽管在这些实施例的语境中一般地描述了本发明，但是应当理解的是，这并不意在将本发明的范围限制在这些特定实施例。图1是根据本发明的一个实施例的用来填充和更新地标图像数据库的系统。图2示出了实现本发明的一个实施例的方法的高层级流程图。图3是示出了在一个实施例中的图2中所示的地理聚类阶段的更详细操作的流程图。图4是示出了在一个实施例中的图3中所示的地理集群创建阶段的更详细操作的流程图。图5是示出了在一个实施例中的图2中所示的视觉聚类阶段的更详细操作的流程图。图6是在本发明的一个实施例中使用的图形用户接口。图7是根据本发明的一个实施例的更新地标图像数据库的方法。图8是根据本发明的一个实施例的使用已存储的地标信息来增强用户查询的方法。图9是根据本发明的一个实施例的用来自动注释包含地标的图像的方法。图10是根据本发明的一个实施例的示出了关于根据用户指定的选择标准检索的地标和对应的集群的信息的示例用户界面屏。图11是根据本发明的一个实施例图示了用来维护集群和地标的方法的操作的流程图。图12是根据本发明的一个实施例的示出了有关一个视觉集群的细节的示例用户
界面屏。图13是根据本发明的一个实施例图示了用来维护视觉集群的方法的操作的流程图。
具体实施例方式虽然在此参考用于特定应用的说明性实施例描述了本发明，但是应当理解的是，本发明不限于此。本领域的技术人员使用在此的教导将认识到额外修改、应用和在本发明的范围以及本发明在其中将是大量利用的额外领域内的实施例。本发明包括用于自动识别并分类数字图像中的对象的方法和系统。例如，本发明的实施例可以基于在因特网上可访问的数字图像集合来识别、分类以及排序最受欢迎的旅游地标。本发明的方法和系统可以使得能够对最受欢迎的旅游位置的最新列表和图像集合的有效维护，其中旅游位置的受欢迎度可以由该位置被用户张贴到因特网上的图像的数量来估算。
在图1中示出了根据本发明的一个实施例的受欢迎的地标识别系统100。处理模块101包括地理聚类模块102和视觉聚类模块103。视觉聚类模块103还可以包括受欢迎度模块104。在下面描述了模块102-104的处理功能关于图3-4描述了地理聚类模块102 ；关于图5描述了视觉聚类模块。可以在软件、硬件或以上的组合中实现模块102-104的处理功能。例如，可以将模块102-104完全实现为软件模块，或可以使用诸如现场可编程门阵列 (FPGA)的硬件来实现地理聚类模块102的一些功能。本领域技术人员将理解的是，处理模块101可以包括帮助本发明的功能的额外组件和模块。例如，处理模块101可以包括一个或多个处理器、存储器、存储设备、用于连接到包括图形用户接口 130、地理标注图像库110 和地标数据库系统120的外部设备的模块。地标数据库系统120可以包括地标数据库121和相关联的索引122。地标数据库系统120可以与模块101共同位于同一处理平台或可以分立定位。地标数据库121可以包括系统100所识别的地标的集合。地标数据库121中的为每一个地标存储的信息可以包括地标的图像或图像列表、图像和特征模板以及来自图像的包括地理坐标、时间和用户信息的元数据。地标数据库121还可以包含处理模块101中的处理所需的视觉聚类和地理聚类数据。索引122可以包括按照例如而非限制受欢迎度、地理区域、时间或如感兴趣的主题的其它用户定义的标准中的一个或多个的顺序将地标安排在地标数据库121中的索引。链路 141可以是包括例如而非限制，外围组件互连(PCI)总线、IEEE 1394火线接口、以太网接口或IEEE 802. 11接口的互连机制中的任何一个或组合。用户接口 130允许用户或其它外部实体与处理系统101、地标数据库系统120以及地理标注图像库110交互。可以使用包括例如而非限制，PCI总线、IEEE 1394火线接口、以太网接口或IEEE 802. 11接口的互连机制中的任何一个或组合将用户接口 130连接到系统 100的其它实体。可以将图形用户接口、web接口以及应用编程接口中的一个或多个包括在用户接口 130中。地理标注图像库110可以包括跨一个或多个网络分布的一个或多个数字地理标注图像库。本领域技术人员将理解的是，还可以将库110实现为指向遍及网络分布的可访问的地理标注图像集合的链接的集合。还可以通过制作在分布式位置可用的全部或部分图像的副本(例如，下载并存储在本地存储中)来实现库110。在一些实施例中，地理标注图像库的一部分可以存在于与处理系统101和/或地标数据库系统120相同的处理平台上。构成地理标注图像库110的不同地理标注图像集合可以通过因特网、内联网或其它形式的互联网络互连。处理系统101将从地理标注图像库可用的图像作为输入。在一些实施例中，可以在将来自分布式图像集合的图像存储在库110中时或输入到处理模块101之前将其转换为诸如GIF的标准图形格式。实施例还可以要求其它形式的标准化，诸如降低或增强分辨率，或在下述之前执行对图像的处理将图像存储在库110时或输入到处理模块101 之前。可以通过链路142和143使用包括例如而非限制，PCI总线、IEEE 1394火线接口、以太网接口或IEEE 802. 11接口的互连机制中的任何一个或组合将库110连接到系统的其它组件。图2是使用来自图像库110的地理编码图像来创建或更新地标数据库121的本发明的一个实施例的过程200的流程图。过程200包括两个主要处理阶段地理聚类阶段201 和视觉聚类阶段202。给定地理编码数字图像集合，例如大型的各种旅游目的地数字图像集合，地理聚类阶段201可以基于每一个照片的地理位置代码将可用图像分成分立的组。地理聚类阶段使用在每一个照片中可用的地理编码以将图像相对快速地分隔成不同的组或地理集群。可以利用预配置的参数，包括在其内的图像被认为属于同一地理集群的默认半径。然后可以将在地理聚类阶段201生成的地理集群输入到视觉聚类阶段202。在视觉聚类阶段202，系统试图通过基于图像相似性将每一个地理集群中的图像再分成同一对象或地标的图像集群(即，视觉集群)来分隔每一个地理集群中的图像。注意到，总的来说，至少部分由于对照片集合的地理聚类是比较已包括在每一个照片中的地理位置信息，所以对照片集合的地理聚类在计算上比对同一图像集合的视觉聚类花费更少。例如，相比之下，视觉聚类202可以包括执行对象识别、特征向量生成以及对图像的每一个中的每一个可识别的对象的比较，然后比较不同图像的特征向量。在一些实施例中，可以将包括相关联的图像和/或对相关联的图像的引用的视觉集群信息存储在诸如地标数据库121的数据库中。存储在地标数据库121中的图像和/或虚拟图像可以使用允许基于包括受欢迎度的可配置的标准访问已存储的视觉集群的一个或多个索引122来访问。例如，已存储的视觉集群可以由更新索引122以允许按照向每一个集群提交了图像的独特(unique)用户的数量的顺序访问的受欢迎度模块104处理。在一些实施例中，所选择的视觉集群可以经受用户查阅和/或可以由计算机程序进一步处理。例如，可选地，满足指定标准，诸如具有少于预定数量的图像，的视觉集群可以经受用户查阅。用户可以通过包括以下的行为来修改一个或多个视觉集群删除图像、添加图像或将图像重新分配到另一个集群。用户还可以指定新的标签信息或修改现存标签信息。本领域技术人员将理解的是，根据从用户或计算机程序接收的外部数据来处理视觉集群可以要求系统执行额外的功能以维护存储在数据库系统120中的地理集群和视觉集群信息的一致性。图3示出了两个处理阶段，创建地理集群301和验证地理集群302，在本发明的一些实施例中所述阶段包括在地理聚类阶段201中。创建地理集群301可以包括使用一个或多个预定义半径参数来基于两个图像上的地理位置代码确定一个图像是否在另一个图像的地理半径内。注意到，地理聚类算法可能需要考虑实际指示相机的位置而不是对象或地标的位置的地理位置编码。对照片的地理标注可以通过若干装置来实现，所述装置包括具有GPS能力的数码相机、连同匹配软件的与相机分离的GPS设备、使用诸如Google地球的工具或对照片的可交换图像格式(EXIF)标签的人工编辑。地理标注的方法在本领域一般已知，因此在本公开中没有描述。并且，尽管默认的地理集群半径可以适于感兴趣的大部分地标或对象，但是一些地标可能需要不同的集群半径参数以产生对图像的最有效的聚组。在阶段301，基于地理接近性来生成一个或多个图像的集群。在地理集群验证阶段302，可以基于所选择的标准来验证在创建地理聚类阶段 301生成的地理集群中的每一个。例如，在本发明的一个实施例中，目标可以是确保选择用于进一步处理的每一个地理集群合理地包括旅游地标，即受欢迎的地标。相应地，验证标准可以是仅进一步处理具有来自比预定阈值多的独特用户的图像的地理集群。诸如具有至少预定数量的提交了同一地标的图像的独特用户的验证标准可能滤除没有什么受欢迎吸引力的其它建筑物、构筑物和名胜古迹、公园、山峦、风景等的图像。例如，张贴自己的没有太大受欢迎吸引力的新近建造的房屋的图片的热情房主不太可能张贴他的房屋的若干数量的图像，其中该图像的数量与由因特网数字图像集合站点的所有用户张贴的任何受欢迎的地标的图像的数量相比较是可观的。在一个实施例中，可以每季节和/或每地理区域设置阈值。在其它实施例中，可以通过针对独特用户的分布首先分析地理集群来导出阈值。在又其它实施例中，可以为每一个类型的地标设置阈值。对用于设置阈值的方法的前述描述仅用于说明的目的。本领域技术人员将理解的是，存在许多其它方法，通过其可以根据每一次使用的焦点来验证地理集群。图4图示了在本发明的一个实施例中的地理聚类阶段中的处理的进一步细节 301。对于每一个地理标注图像，可以重复阶段401-405。对于尚不属于集群的每一个地理标注图像，在阶段401确定从图像到每一个集群的距离。距离确定可以基于图像的中心的地理坐标。例如，在一个实施例中，距离可以是从图像的中心到集群的移动平均图像中心，其中每当新的图像被添加到集群时移动平均被更新以及移动平均可以被计算为集群中的图像中的每一个的中心的平均。在阶段402，作出关于图像是否与现存集群匹配的决定。决定可以基于落入距集群的中心地理坐标的预定半径所定义的区域内的图像的地理坐标。预定半径可以例如基于每地理区域基础、基于对每一个集群中的图像的中心坐标的分析或基于地标的类型。如果认为图像是对现存集群的匹配，则在阶段403将图像添加到该集群。否则，在阶段404创建新的集群。将图像添加到现存集群或创建新的集群，可能需要计算一些集群参数，诸如集群的地理中心坐标。当过程301为输入的地理标注图像集而完成后，地理集群集应当可用。可以将地理集群与相关联的信息一起存储为地理标注图像库110或处理模块101可访问的另一个存储设备的一部分。与每一个图像或地理集群相关联的信息可以包括地理位置和描述图像的其它元数据、如果可用的话，分配给图像的文本标签以及基于图像的地理位置信息的额外位置信息(即，指定国家和城市的文本标记)。图5是在本发明的一个实施例中的视觉聚类阶段202的详细视图。对于在阶段201 生成的每一个地理集群，重复阶段501-505。到视觉聚类阶段202的输入是在阶段201产生的地理集群集。来自视觉聚类阶段202的输出是有关输入的地理集群中的每一个的一个或多个视觉集群。每一个视觉集群应当包括具有同一例如受欢迎的旅游地标的图像。视觉集群集可以收集以各种相机角度、相机距离和光线条件描绘特定地标的所有图像。该视觉集群集是否包含具有特定地标的所有图像并且只有那些图像，是视觉聚类方法的有效性和参数的函数。无论视觉集群集是否具有包含特定地标的所有图像并且只有那些图像，本公开的教导都适用。对于地理集群，阶段501创建集群中的图像的索引。索引可以是集群中的图像的列表，其具有包括原始图像或对原始图像的引用、从原始图像导出的图像(例如，原始图像的较低分辨率版本)、一个或多个图像模板和特征向量、用户标识、地理标注、时间信息以及已分配的任何标签的数据元素。在阶段502，将地理集群中的每一个图像与对应的索引进行匹配。匹配过程502对于地理集群中的每一个图像，生成对匹配图像的引用。在匹配过程502之后，索引可以对于每一个图像，包含对该地理集群内的所有其它匹配图像的引用。阶段502中的匹配可以包括每一个图像内的对象识别以识别诸如地标的感兴趣的对象、生成每一个所识别的对象的特征向量，然后比较特征向量以获取匹配信息。比较可以基于分配给包括在特征向量中的特征的可配置的数字分值以及将两个图像分类成匹配对的可配置的数字阈值。图像中的对象识别和生成特征向量的方法在本领域众所周知。例如，在希腊科孚岛的 hternational Conference on Computer Vision (1999 年 9 月)第 1150-1157页，David G.Lowe 的〃 Object recognition from local scale-invariant features “中描述了图像中的对象识别的方法。在阶段503，基于在阶段501-502生成的索引和匹配，生成匹配区域图。在匹配区域图中，节点是图像，以及在节点之间的链接指示图像之间的关系。例如，根据阶段502匹配的图像对会具有在它们之间的链接。在阶段504，使用匹配区域图来生成视觉集群。简而言之，视觉集群是在基于阶段504中的额外处理删去弱链接后匹配区域图中的连接的子树。弱链接可以是在图像基于图像或特征模板来匹配的情况下带有小于阈值数量的匹配特征的链接。一些实施例可以将没有匹配指定特征集的链接认作为弱链接。如果可用的话，集群中的图像之间的文本标记协议可以是另一个标准。并且，可以在删去弱链接时考虑集群中的图像的数量，以最小化带有非常少图像的集群。本领域技术人员将理解的是，除在此描述的那些外，删去弱链接可以基于多种标准。最后，在阶段505保存视觉集群数据。可以将视觉集群保存到地标数据库121。连同每一个视觉集群的图像和对象信息外，可以保存其它相关数据，包括但不限于描述集群的一个或多个文本标记以及特别代表集群的一个或多个图像。可以例如通过合并视觉集群的每一个构成图像的文本标记来生成描述该视觉集群的文本标记。特别代表视觉集群的一个或多个图像对于在例如受欢迎的旅游地标的索引中显示可以是有用的。在本发明的另一个实施例中，实现了对生成的视觉集群的用户验证。图6图示了图形用户接口 601，其可以向用户显示每一个视觉集群中的图像，以及向用户提供人工编辑每一个集群的各个方面的能力。例如，图形用户接口可以检索存储在地标数据库621中的视觉集群，以及将编辑后的视觉集群写回到同一数据库621。图形用户接口 601可以包括集群标记模块602，其允许用户将新的文本标记分配给每一个集群和/或图像和/或修改每一个集群和/或图像的当前分配的文本标记。例如，集群标记模块602可以显示每一个集群和它的当前文本标记，以及分配给集群中的个体图像的标记，以及允许用户修改分配给集群的文本标记。集群合并模块603可以允许用户合并或拆分集群。对集群的这样的人工合并或拆分可以是用户在查看了一个或多个集群中的图像后所期望的。集群编辑模块604 可以允许用户从集群添加或删除个体图像。模块604在人工去除集群的对应的地标的低劣表示时以及对于人工添加集群的对应的地标的一个或多个新的图像可以是有用的。除上述外，本发明的实施例可以在用户与系统100交互时向用户提供各种选项。返回到图1，在一些实施例中，受欢迎度模块104可以计算每一个视觉集群的受欢迎度分值，并且相应地对视觉集群进行排名。用于访问地标数据库121的索引122中的一个或多个可以基于受欢迎度模块所计算的受欢迎度排名。集群的受欢迎度分值可以基于以下中的一个或多个集群中的图像的总数、向集群贡献了图像的独特用户的数量、在视觉集群的中心的某一预定半径内的图像或带有独特用户标识符的图像的数量。应当理解的是，还可以使用没有在上面描述的其它方法来计算受欢迎度分值。在本发明的另一个实施例中，逐步生成地标数据库。图7是可以用于逐步生成地标数据库的示例性过程。阶段701中通过其它装置将新近可用的地理标注图像下载到本地存储或使新近可用的地理标注图像对处理模块101可用。在阶段702，在包括新的地理标注图像的所有可用的地理标注图像上实现地理聚类。在上面关于图3-4描述了地理聚类。在阶段703，由阶段702产生的地理集群经受视觉聚类。在上面关于图5描述了视觉聚类。完成了视觉聚类后，在阶段704，一些实施例可以传播用户发起的对先前存储在地标数据库中的视觉聚类中的先前聚类的部分或全部改变。例如，可以将用户分配或修改的标签传播给新的聚类。可选地，在阶段705，新的视觉聚类可以经受用户验证和人工编辑。在上面关于图6描述了若干类型的用户交互。具有地标数据库121的系统100可以使能许多应用。例如，地标数据库121可以用于增补用户查询以使查询更聚焦。图8图示了一个实施例中的可以用于增补用户查询的过程。在阶段802可以为预定触发词集解析所接收的用户查询。例如，诸如“巴黎”的城市名可以用于触发城市中的地标，反之亦然。识别了查询中的触发词后，在阶段803可以为那些触发词搜索地标数据库以识别相关联的标签词。继续前面的示例，“巴黎”的触发词可以促使搜索发现“埃菲尔铁塔”。在阶段804，然后将所识别的相关联的标签词用于增补查询字符串。这样的增补后的查询字符串对于找到更广泛的相关信息可以是有用的。在图9中示出了在本发明的一个实施例中的另一个应用。过程900可以用于对数字图像的在线自动标注。例如，在阶段901，将新的数字图像与地标图像数据库中的图像进行比较。如果找到一个或多个匹配的图像，则在阶段902基于所有匹配的图像生成标签。在阶段903，用新近生成的标签标注新的图像。图10图示了在本发明的一个实施例中的用户接口 1000，其中根据用户输入选择了地标集，并且显示了关于每一个所选择的地标的视觉集群的细节。可以在诸如1010的每一个区域内显示根据用户指定的标准来选择的地标。每一个所选择的地标还可以具有用于接收用户输入的区域，例如复选框1040。对于每一个所显示的地标，可以显示视觉集群的摘要列表。视觉集群的摘要列表可以被显示，使得其被清楚地示出为属于特定所显示的地标，例如，用于第一所显示的地标的视觉集群的摘要列表可以包含在与第一所显示的地标相对应的显示区域1010内。用于所显示的地标的视觉集群的摘要列表的每一个条目1020可以具有对应的位置以接收特定于该集群的用户输入，诸如对应于在1020中表示的视觉集群的复选框1030。每一个条目1020可以包括关于集群的描述信息1022和用来检索进一步细节的链接1021。例如，关于每一个集群的描述信息可以包括图像的数量、就向集群贡献图像的独特用户或作者的数量而言的受欢迎度、关于集群是否被人工修改或验证过的信息以及诸如键的任何访问信息。链接1021包括用来检索所选择的集群的图像和个体图像相关数据的链接方法，诸如用户可导航的超链接。图11是示出了本发明的一个实施例中的与接口 1000有关的处理的流程图。在阶段1110，用户指定一个或多个选择标准，诸如国家、城市、地区和/或其它关键词。包括关键词的用户指定的信息可以用来基于分配给图像的标签搜索图像。用户还可以指定其它检索标准，诸如所显示的地标的最低受欢迎程度以及具有用户所提交的最小数量的图像的地标。例如，用户可能希望查看埃及的至少10个独立用户为其提交过图像的地标。用户还可以指定只有具有至少指定数量的图像的地标才应当被显示。对于满足用户指定的选择标准的每一个地标，重复阶段1112至1120。在阶段1112，找到满足用户指定的选择标准的一个或多个地标。对于每一个所选择的地标，重复阶段1114至1116以显示具有所选择的地标的视觉集群。在阶段1114，选择视觉集群，以及在阶段1116，显示描述1020视觉集群的信息。例如，对于每一个视觉集群，可以显示图像的数量、图像的独特用户标识符或作者的数量、用来访问集群中的图像的链接、其它访问信息等。对于在阶段1116显示的每一个视觉集群，可以显示诸如复选框1030的用户输入图形并且使所述用户输入图形能够用于用户输入。在阶段1118，作出关于是否存在待显示的与所选择的地标相对应的更多视觉集群的确定。如果对于所选择的地标，没有更多视觉集群待被显示，则在阶段1120，显示关于地标的信息。例如，可以显示诸如地标的名称和位置、受欢迎度、图像的数量等的信息。对于在阶段1120中显示的每一个地标，还可以显示对应的用户输入图形，并且使所述用户输入图形能够用于用户输入。例如，在图10中，复选框1040可以接收与在区域1010中显示的地标相对应的用户输入。在阶段1122，作出关于是否存在待被显示的额外地标的确定。如果已显示所有满足用户指定的选择标准的地标，则在阶段1124，接收与视觉集群相对应的用户输入。与视觉集群相对应的用户输入例如可以指示合并一个或多个集群或使一个或多个集群与所选择的地标去关联。在阶段1126，相应地处理视觉集群。在阶段1128，接收与每一个地标相对应的用户输入。与每一个地标相对应的用户输入例如可以指示合并和/或删除一个或多个地标。图12示出了在本发明的一个实施例中的在其中用户可以查看关于所选择的视觉集群的信息的用户接口 1200。接口 1200可以包括在其中显示了代表所选择的视觉集群的一个或多个示例图像的区域1210、在其中列出了包括视觉集群中的每一个图像的细节的描述数据元素组的区域1220以及在其中显示了所选择的图像的区域1230。区域1220对于所选择的集群中的每一个图像，可以包括描述信息12M和诸如复选框1222的对应的用户输入图形。描述信息12M可以包括，例如而非限制，用来检索对应的图像的链接、有关图像的数据和时间信息、图像的作者信息以及标签信息。区域1230可以显示从在1220中显示的列表检索的图像。在区域1230中显示的图像可以例如而非限制，使用户能够查看所显示的图像中的感兴趣的区1232。例如，探明任何图像中的感兴趣的区的能力可以允许用户更好地确定特定图像处于当前集群中的合适性。图13是示出了在一个实施例中的与接口 1200有关的处理的流程图。在阶段1310，接收选择视觉集群的用户输入。在阶段1312，例如在区域1210中选择并显示代表所选择的视觉集群的一个或多个图像。在阶段1314，例如在区域1220中显示有关所选择的集群中的每一个图像的信息。信息关于每一个各种数据元素列出，所述各种数据元素包括例如而非限制，用来检索对应的图像的链接、有关图像的数据和时间信息、图像的作者信息以及标签信息。还可以为每一个列出的图像显示诸如复选框1222的用户输入图形，并且使所述用户输入图像能够用于用户输入。在阶段1316，接收用户输入。在阶段1318，根据所接收的用户输入来处理视觉集群。例如，可以从所选择的集群删除图像、可以改变一些标签信息等。在本发明的一个实施例中，使用众所周知的计算机来实现在此描述的本发明的系统和组件。这样的计算机可以是能够执行在此描述的功能的任何商用和众所周知的计算机，诸如可从 hternational Business Machines (国际商业机器)、Apple、Silicon Graphics 公司、Sun、HP、Dell、Compaq、Digital、Cray 等获得的计算机。包括具有存储在其中的控制逻辑(软件)的计算机可用或可读介质的任何装置或制成品在此被称为计算机程序产品或程序存储设备。这包括但不限于计算机、主存储器、硬盘或可移动的存储单元。具有存储在其中的、在由一个或多个数据处理设备执行时促使这样的数据处理设备如在此所描述的那样操作的控制逻辑的这样的计算机程序产品表示本发明的实施例。应当理解，具体实施方式
部分而不是发明内容和摘要部分意在用于解释权利要求。发明内容和摘要部分可以阐明发明人考虑的本发明的一个或多个而非所有的示例性实施例，因此发明内容和摘要部分并不意在以任何方式来限制本发明和所附的权利要求。在上面借助于说明指定的功能及其关系的实现的功能构造块来描述了本发明。在此为了便于描述，任意地限定了这些功能构造块的边界。可以限定替选边界，只要所述指定的功能及其关系被适当地执行。特定实施例的前述描述如此充分地揭示了本发明的一般特性，使得其他人可以在不背离本发明的一般思想的情况下，通过应用在本领域的技术内的知识而容易地修改和/ 或调整本发明的一般特性以用于这样的特定实施例的各种应用，而不用进行过度的实验。因此，基于在此提供的教导和指导，这样的调整和修改意在在所公开的实施例的等同物的含义和范围内。应当理解的是，在此的措词或术语用于描述而非限制的目的，因此本说明书的术语或措词应当由技术人员根据所述教导和指导来解释。本发明的宽度和范围不应当由上述示例性实施例的任何一个限制，而是应当仅根据所附权利要求及其等同物来限定。
权利要求
1.一种用于填充以及更新地标图像数据库的方法，包括(a)根据地理接近性对地理标注图像进行地理聚类以生成一个或多个地理集群；以及(b)根据图像相似性对所述一个或多个地理集群进行视觉聚类以生成一个或多个视觉集群ο
2.如权利要求1所述的方法，其中所述地理聚类包括验证所述一个或多个地理集群。
3.如权利要求2所述的方法，其中所述验证包括选择具有至少预定数量的相关联的独特用户标识符的所述一个或多个地理集群。
4.如权利要求1所述的方法，其中所述视觉聚类包括基于区域图来选择视觉集群。
5.如权利要求4所述的方法，其中所述区域图是基于地理集群中的匹配的图像来生成的。
6.如权利要求1所述的方法，其中所述视觉聚类包括生成用于至少一个视觉集群的文本标记。
7.如权利要求6所述的方法，其中所述用于至少一个视觉集群的文本标记基于所述至少一个视觉集群中的个体图像的文本标记。
8.如权利要求6所述的方法，其中所述用于至少一个视觉集群的文本标记基于先前分配给在先视觉集群的文本标记，以及其中所述在先视觉集群是具有用户分配的文本标记的集群ο
9.如权利要求1所述的方法，进一步包括(c)接收外部数据；以及(d)基于所述外部数据来处理视觉集群。
10.如权利要求9所述的方法，其中所述外部数据包括文本标签。
11.如权利要求9所述的方法，其中所述外部数据包括用户输入。
12.如权利要求1所述的方法，进一步包括(e)存储视觉集群。
13.一种用于从数字图像识别地标的系统，包括(a)地理标注图像数据库；(b)地标数据库；(c)与所述地理标注图像数据库通信的地理聚类模块，其中所述地理标注图像被聚组成一个或多个地理集群；以及(d)与所述地理聚类模块通信的视觉聚类模块，其中所述一个或多个地理集群被聚组成一个或多个视觉集群，以及其中视觉集群数据被存储在所述地标数据库中。
14.如权利要求13所述的系统，其中所述地标数据库包括地标的图像和相关联的文本标记。
15.如权利要求13所述的系统，进一步包括(e)接口，所述接口用来接收外部数据，其中所述外部数据包括用于所述一个或多个视觉集群的标签。
16.如权利要求15所述的系统，其中所述外部数据进一步包括用于所述一个或多个视觉集群的图像。
17.如权利要求15所述的系统，其中所述接口是图形用户接口。
18.如权利要求13所述的系统，其中所述视觉聚类模块进一步包括受欢迎度索引模块。
19.一种增强检索地标图像的用户查询的方法，包括(a)接收用户查询；(b)识别所述用户查询中的一个或多个触发词；(c)从地标数据库中选择与所述一个或多个触发词相对应的一个或多个对应的标签；以及(d)用所述一个或多个对应的标签增补所述用户查询，生成增补的用户查询。
20.如权利要求19所述的方法，进一步包括(e)基于所述增补的用户查询来检索图像。
21.如权利要求20所述的方法，进一步包括(f)根据地标的受欢迎度来对所检索的图像进行排序。
22.如权利要求21所述的方法，其中所述地标的受欢迎度基于与具有每一个地标的图像相关联的独特用户标识符的数量。
23.一种自动标注新的数字图像的方法，包括(a)将所述新的数字图像与地标图像数据库中的图像进行比较，其中所述地标图像数据库包括一个或多个地标的图像的视觉集群；以及(b)基于所述视觉集群中的至少一个用至少一个标签标注所述新的数字图像。
24.一种包括具有存储在其中的用于促使计算机填充以及更新地标图像数据库的控制逻辑的计算机可用介质的计算机程序产品，所述控制逻辑包括(a)第一计算机可读程序代码，所述第一计算机可读程序代码使所述计算机能够根据地理接近性对地理标注图像进行聚类以生成一个或多个地理集群；以及(b)第二计算机可读程序代码，所述第二计算机可读程序代码使所述计算机能够根据图像相似性对所述一个或多个地理集群进行聚类。
25.—种包括具有存储在其中的用于促使计算机增强用户查询的控制逻辑的计算机可用介质的计算机程序产品，所述控制逻辑包括(b)第一计算机可读程序代码，所述第一计算机可读程序代码使所述计算机能够识别所述用户查询中的一个或多个触发词；(c)第二计算机可读程序代码，所述第二计算机可读程序代码使所述计算机能够从地标数据库中选择与所述一个或多个触发词相对应的一个或多个对应的标签；以及(d)第三计算机可读程序代码，所述第三计算机可读程序代码使所述计算机能够用所述一个或多个对应的标签增补所述用户查询。
26.—种维护图像集合中的地标图像的方法，包括(a)选择第一图像集和第二图像集，其中所述第一图像集和所述第二图像集是第一地标集的成员；(b)显示包括第一列表元素和第二列表元素的第一列表，其中所述第一列表元素包括与所述第一图像集相对应的第一描述数据元素和第一输入，以及其中所述第二列表元素包括与所述第二图像集相对应的第二描述数据元素和第二输入；以及(c)接收所述第一和第二输入中的用户输入。
27.如权利要求沈所述的方法，进一步包括(d)基于所述用户输入来合并所述第一图像集和所述第二图像集。
28.如权利要求沈所述的方法，进一步包括(e)基于所述用户输入从所述第一地标集移除所述第一图像集。
29.如权利要求沈所述的方法，其中所述第一描述数据元素包括至少一个用户可导航的链接。
30.如权利要求沈所述的方法，其中所述选择基于选择标准，以及其中所述选择标准包括用户指定的选择标准。
31.如权利要求30所述的方法，其中所述选择标准包括地标的受欢迎度。
32.—种包括具有存储在其中的用于促使计算机维护图像集合中的地标图像的控制逻辑的计算机可用介质的计算机程序产品，所述控制逻辑包括(a)第一计算机可读程序代码，所述第一计算机可读程序代码使所述计算机能够选择第一图像集和第二图像集，其中所述第一图像集和所述第二图像集是第一地标集的成员；(b)第二计算机可读程序代码，所述第二计算机可读程序代码使所述计算机能够显示包括第一列表元素和第二列表元素的第一列表，其中所述第一列表元素包括与所述第一图像集相对应的第一描述数据元素和第一输入，以及其中所述第二列表元素包括与所述第二图像集相对应的第二描述数据元素和第二输入；以及(c)第三计算机可读程序代码，所述第三计算机可读程序代码使所述计算机能够接收所述第一和第二输入中的用户输入。
33.一种维护图像集合中的地标图像的方法，包括(a)显示至少一个示例图像，其中所述示例图像包括在第一集中，以及其中所述第一集包括具有第一地标的图像；以及(b)显示一个或多个描述数据组，其中每一个描述数据组包括相关用户输入，以及其中每一个描述数据组对应于所述第一集中的一个图像。
34.如权利要求33所述的方法，进一步包括(c)接收用户输入，其中用户输入指示对第一图像的选择，以及其中所述第一图像是所述至少一个示例图像中的一个；以及(d)显示所述第一图像上的感兴趣的有界区，其中所述感兴趣的有界区包含所述第一地标。
35.如权利要求33所述的方法，进一步包括(e)在一个或多个描述数据组的相关用户输入图形处接收用户输入；以及(f)基于所述用户输入从所述第一集移除至少一个图像。
36.一种包括具有存储在其中的用于促使计算机维护图像集合中的地标图像的控制逻辑的计算机可用介质的计算机程序产品，所述控制逻辑包括(a)第一计算机可读程序代码，所述第一计算机可读程序代码使所述计算机能够显示至少一个示例图像，其中所述示例图像包括在第一集中，以及其中所述第一集包括具有第一地标的图像；以及(b)第二计算机可读程序代码，所述第二计算机可读程序代码使所述计算机能够显示一个或多个描述数据组，其中每一个描述数据组包括相关用户输入，以及其中每一个描述数据组对应于所述第一集中的一个图像。
全文摘要
在一个实施例中，本发明是一种用于填充以及更新地标图像数据库的方法，所述方法包括根据地理接近性对地理标注图像进行地理聚类以生成一个或多个地理集群，以及根据图像相似性对一个或多个地理集群进行视觉聚类以生成一个或多个视觉集群。在另一个实施例中，本发明是一种用于从数字图像识别地标的系统，其包括以下组件地理标注图像数据库；地标数据库；地理聚类模块；以及视觉聚类模块。在其它实施例中，本发明可以是一种增强检索地标图像的用户查询的方法，或一种用文本标记自动标注新的数字图像的方法。
文档编号G06F17/30GK102089761SQ200980127106
公开日2011年6月8日申请日期2009年5月12日优先权日2008年5月12日
发明者乌尔里希·布德迈尔, 哈特姆特·内文, 哈特维希·亚当, 费尔南多·A·布鲁切尔申请人:谷歌公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：费尔南多·Ａ·布鲁切尔
技术所有人：谷歌公司
我是此专利的发明人

上一篇：根据过程指令提供安全防篡改的已获取数据的方法
上一篇：文档管理设备、文档管理方法和存储介质的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。