组织与用户关联的图像的制作方法

文档序号:15203827发布日期:2018-08-21 06:20阅读:248来源:国知局

本申请请求2015年12月28日提交的名称为组织与用户关联的图像的申请号是14/980,835的美国专利的优先权,通过引用将其全部内容结合在此。



背景技术:

随着智能手机中的相机的标准化,消费者比以前拍摄了更多的图片和视频。对于消费者来说,在他们的移动装置上存储有数以百计或数以千计的照片并不是罕见的。这些照片有时会被备份到云存储服务,但是在很多情况下,照片仍然被存储在移动装置上。由于与使用云存储服务关联的成本、宽带接入的高成本、宽带连接性的缺乏,或者其他因素,用户可能选择不将他们的照片备份到云端。

搜索特定照片或者一组照片的用户通常必须手动地筛选他们的图像,直到他们找到特定照片或者一组照片。可能没有使用搜索项来搜索存储在云端或者电话上的照片的快速的方式。因为不同的用户可能采用的描述照片中的某个特性或者特征的词语的高差异度,采用自然语言处理技术的媒体搜索引擎可能无法找到特定照片或者一组照片。



技术实现要素:

实施方式通常涉及组织与用户关联的图像。在一些实施方式中,一种方法包括:识别与用户关联的图像,其中,该图像被识别为由与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个。该方法还包含对于图像中的每个图像确定一个以上的标签,其中一个以上的标签是基于元数据和初级注释中的至少一个的。该方法还包含生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。该方法还包含与用户进行交互,以获得用于对一个以上的图像进行分类的识别信息。

在一些实施方式中,该方法进一步包含通过将识别信息添加到一个以上的图像来更新映射。在一些实施方式中,该方法进一步包括:从用户接收用于与用户关联的一个以上的上述图像的一个以上的用户生成的搜索项;确定用户生成的搜索项中的模糊之处;以及请求用户提供澄清信息以解决用户生成的搜索项中的模糊之处。在一些实施方式中,该方法进一步包括:从用户接收将一个以上的图像发送给与第三方应用程序关联的人的指令,确定与该人关联的联系简介;以及基于联系简介,为该人提供一个以上的图像。在一些实施方式中,一个以上的标签包含次级注释,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。在一些实施方式中,与用户进行交互包含传输图像和音频提示,以提供与图像中的实体有关的识别信息。在一些实施方式中,该方法进一步包括:从用户接收购买与上述图像中的一个图像中的实体有关的物品的请求;以及为用户购买该物品。

在一些实施方式中,系统包括:耦接到内存的一个以上的处理器;图像处理模块,图像处理模块存储在内存中并且可被一个以上的处理器执行,图像处理模块可操作为识别与用户关联的图像,并且对于每个图像,确定一个以上的标签,其中,一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。系统可以进一步包含索引模块,索引模块被存储在内存中并且可被一个以上的处理器执行,索引模块可操作为生成一个以上的标签到一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。该系统可以进一步包含图像助理,该图像助理被存储在内存中,并且可被一个以上的处理器执行,图像助理可操作为接收第一搜索查询并且为用户提供对应图像,第一搜索查询包含与一个以上的标签相对应的一个以上的用户生成的搜索项。索引模块可以进一步可操作为与用户进行交互以获得用于对一个以上的图像进行分类的识别信息和通过将识别信息添加到一个以上的图像来指示索引模块更新映射。

在一些实施方式中,该方法可以进一步包括:识别与用户关联的图像的手段,其中,图像被识别为由与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个。该方法还包含对于图像中的每个图像,确定一个以上的标签的手段,其中一个以上的标签是基于元数据和初级注释中的至少一个的。该方法还包含生成一个以上的标签对于一个以上的置信度分数的映射的手段,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度。该方法还包含与用户进行交互的手段,以获得用于对一个以上的图像进行分类的识别信息。

其他方面可以包含对应的方法、系统、设备和计算机程序产品。

如下所述的系统和方法有利地创建用于组织图像的结构化格式,该结构化格式使用搜索查询来提高搜索图像的能力,并且减小检索与该搜索查询匹配的图像所需的计算费用和时间。

附图说明

通过示例并且不通过附图的图的限制来图解本公开,附图中,相同的参考数字用于涉及类似的元件。

图1图示了组织图像的示例系统的方框图。

图2图示了组织图像的示例计算装置的方框图。

图3a图示了可操作为提供与图像中的实体有关的附加信息的用户界面的图形表示。

图3b图示了可操作为提供与图像中的实体有关的附加信息的用户界面的另一个示例的图形表示。

图4a图示了在进行模型传播之前的图表的图形表示。

图4b图示了在进行模型传播之后的图表的图形表示。

图5图示了可操作地询问用户澄清问题的用户界面的图形表示。

图6a-6b是组织图像的示例方法的流程图。

具体实施方式

一些实施方式可能包括用于组织与用户关联的图像的系统和方法。例如,图像可以是通过与用户关联的用户装置被捕获的,被存储在与用户关联的用户装置上的,被存储在云存储器中并且与用户关联的,或者是被用户装置捕获的、被存储在用户装置上并且被存储云存储器中的图像的组合。在一些实施方式中,如果图像被用户捕获或者被用户上传到云端,那么图像可以与用户关联。在一些实施方式中,如果图像被注释为包括用户的标识,例如如果通过用户或者另一个人在图像中标记该用户,那么图像可以与用户关联。对于每个图像,可以确定一个以上的标签。一个以上的标签可以基于元数据、初级注释和次级注释中的至少一个。通过将一个以上的标签映射到一个以上的置信度分数,可以生成索引。置信度分数可以指示标签适用于对应图像的程度。

元数据可以基于用户装置生成的数据或者用户提供的数据,用户装置诸如用于捕获图像的图像捕获装置。可以通过进行图像识别来生成初级注释,以确定出现在图像中的一个以上的实体以及与图像关联的一个以上的特征。例如,实体可以包括图像中的地标或者人,特征可以是雾,并且初级注释可以是地标(埃菲尔铁塔)、人(简多伊)、或者特征(雾)。还可以基于与元数据所表示的东西有关的一个以上的推断,从与图像关联的元数据生成初级注释。例如,元数据可以包括捕获图像时的高度的指示。基于大约35,000英尺的高度,可以推断图像是在飞机上被捕获的。初级注释可以包括“飞行时拍摄”或者“在飞机上拍摄”使得更容易搜索图像。

可以通过识别经由元数据的标签扩展的相关注释或者通过识别与图像关联的初级注释的相关注释来生成次级注释。标签扩展可以包括基于层次分类法的扩展,该层次分类法包括确定比用于实体的种类宽泛的一个以上的较高级标签,例如识别牛头犬并且生成狗、动物和哺乳动物标签。标签扩展还可以包括基于元数据或者初级注释与其他词语的语义类似度的扩展,诸如将咖啡店扩展为小餐馆,或者基于视觉类似度的扩展,诸如将幼犬扩展为狗。在一些实施方式中,标签扩展可以包括视觉和语义类似度两者的组合,诸如扩展初级注释“坐在黑色保时捷上的约翰”,以生成次级注释“坐在深色汽车上的男人”。

可以通过将一个以上的置信度分数关联到与图像关联的标签并且为图像、标签和一个以上的置信度分数编索引来生成索引。置信度分数可以指示一个以上的标签适用于对应图像的程度。例如,成年狗的图像可以具有置信度分数,该置信度分数指示标签“幼犬”不适用于接近标签“狗”的图像。基于对于与每个用户关联的图像确定的标签和置信度分数,对于不同的用户,索引可以被个性化。例如,基于第一用户捕获以“海滩”标签被编索引的图像,第一用户可以与置信度分数关联,该置信度分数指示与“海滩”标签有很强的关联。基于第二用户上传以“小餐馆”标签被编索引的图像,第二用户可以与置信度分数关联,该置信度分数指示与“小餐馆”标签有很强的关联。

索引可以用于各种方式,包括提供匹配用户生成的搜索项的搜索结果给用户,自动完成搜索查询、以及将用户生成的搜索项转换成为分类搜索项以提高搜索结果的质量。在一些实施方式中,照片搜索助手可以组织用户的图像、将附加的标签添加到该图像、提供与包含在该图像中的实体有关的信息、使用口令来编辑图像、以及订购该图像中出现的产品或者订购包括该图像本身的产品。

在此处讨论的系统和方法可以收集与用户有关的个人信息,或者可以使用个人信息(例如,用户数据)的情形中,提供给用户一个以上的机会,以控制如何收集与用户有关的信息以及如何在一个以上描述的特性中使用信息。为用户提供程序或者特性是否收集用户数据(例如,与用户的社交网络、用户特征、社交行为或者活动、用户的爱好、用户创建或者提交的内容、用户的当前位置等有关的信息)的控制。为用户提供程序或者特性是否收集与特殊用户或者与该程序或者特征有关的其他用户有关的用户信息的控制。要收集个人信息的每个用户被呈现有允许控制与用户有关的信息收集的一个以上的选项,以便提供是否收集信息以及要收集信息的哪个部分的许可或者授权。例如,可以通过通信网络为用户提供一个以上的控制选项。此外,某些数据在被存储或者使用之前可以以一个以上的方式被处理,以便删除个人可识别信息。例如,可以处理用户的身份,以便对于该用户没有个人可识别信息可以被确定,或者用户的地理位置可以被广义化为较大的区域,以便无法确定用户的特殊位置。

示例系统

图1图示了组织与用户关联的图像的示例系统100的方框图。图示的系统100包括图像服务器101、用户装置115a-115n、第三方服务器120和网络105。用户125-125n可以与各个用户装置115a-115n关联。在一些实施方式中,系统100可以包括图1没有显示的其他服务器或装置。在图1和其余图中,参考数字之后的字母,例如“115a”表示对具有特殊参考数字的元件的引用。本文中没有后缀字母的参考数字,例如“115”表示对于承担那个参考数字的元件的实施方式的一般引用。

在图示的实施方式中,系统100的实体经由网络105被通信地耦接。网络105可以是常用类型,有线或者无线,并且可以具有包括星形配置、令牌环配置或者其他配置的众多不同的配置。此外,网络105可以包括局域网(lan)、广域网(wan)(例如,因特网)、和/或多个装置可以通信的互连数据路径。在一些实施方式中,网络105可以是对等网络。网络105还可以被耦接到远程通信网的一部分或者包括远程通信网的一部分,用于以各种不同的通信协议发送数据。在一些实施方式中,网络105包括通信网络、或者蜂窝式通信网络,用于发送和接收包括经由短消息服务(sms)、多媒体消息服务(mms)、超级文本传输协议(http)、直接数据连接、电子邮件等等的数据。尽管图1图示了耦接到用户装置115和图像服务器101的一个网络105,但是实际上一个以上的网络105可以被耦接到这些实体。

图像服务器101可以包括处理器、存储器和网络通信能力。在一些实施方式中,图像服务器101是硬件服务器。图像服务器101经由信号线102被通信地耦接到网络105。信号线102可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如wi-fi、蓝牙或者其他无线技术。在一些实施方式中,图像服务器101经由网络105发送数据给一个以上的用户装置115a-115n和第三方服务器120,并从一个以上的用户装置115a-115n和第三方服务器120接收数据。图像服务器101可以包括图像应用程序103a和数据库199。

图像应用程序103a可以是可操作为组织图像的代码和程序。在一些实施方式中,可以使用硬件来实现该图像应用程序103a,该硬件包括现场可编程门阵列(fpga)或者专用集成电路(asic)。在一些实施方式中,可以使用硬件和软件的组合来实现该图像应用程序103a。。

数据库199可以存储用于每个用户的一个以上的索引、与用户关联的图像和用于创建或者细化索引的培训数据。数据库199还可以存储与用户125关联的社交网络数据、来源于第三方服务器120的信息、联系信息等等。

用户装置115可以是包括存储器和硬件处理器的计算装置,例如,便携式计算机、台式计算机、平板电脑、移动电话、可佩带装置、头部安装显示器、移动电子邮件装置、便携式游戏机、便携式音乐播放器、阅读装置、一个以上的处理器内置在其中或者耦接到其的电视机、或者能够访问网络105的其他电子装置。

在图示的实施方式中,用户装置115a经由信号线108被耦接到网络105并且用户装置115n经由信号线110被耦接到网络105。信号线108和110可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如wi-fi、蓝牙或者其他无线技术。用户装置115a-115n分别被用户125a-125n访问。图1中的用户装置115a-115n以示例的方式使用。虽然图1图示了两个用户装置115a和115n,但是本公开适用于具有一个以上的用户装置115的系统结构。

在一些实施方式中,用户装置115可以是包含在用户125佩带的可佩带装置中的移动装置。例如,用户装置115被包含作为夹子(例如,腕带)的一部分、首饰的一部分、或者一副眼镜的一部分。在另一个示例中,用户装置115可以是智能手表。用户125可以从用户125佩带的装置的显示器上的图像应用程序103查看图像。例如,用户125可以查看智能手表或者智能腕带的显示器上的图像。

在一些示例中,图像应用程序103b可以被存储在用户装置115a上。图像应用程序103可以包括存储在用户装置115a上的瘦客户机图像应用程序103b以及存储在图像服务器101上的图像应用程序103a。例如,图像应用程序103可以包括移动应用程序,该移动应用程序运行在用户装置115a上并且将信息发送到存储在图像服务器101上的图像应用程序103a。例如,用户125a可以使用用户装置115a来捕获图像,并将图像传输到图像服务器101以用于图像应用程序103a。存储在图像服务器101上的图像应用程序103a可以处理该图像,并将附加信息发送回到存储在用户装置115a上的图像应用程序103b。例如,图像应用程序103a可以基于该图像生成用于该用户的索引,从用户装置115a上的图像应用程序103b接收用户查询,并且将匹配该用户查询的搜索结果传输到用户装置115a以用于显示。

在一些实施方式中,图像应用程序103可以是存储在图像服务器101上的独立的应用程序。用户125a可以经由使用浏览器的网络页面或者经由用户装置115a上的其他软件来访问图像应用程序103。在这个实施方式中,存储在用户装置115a上的图像应用程序103b可以从存储在图像服务器101上的图像应用程序103a接收指令,以显示图像应用程序103a生成的信息。在一些实施方式中,图像应用程序103可以包含与图像服务器101上包含的部件相同的用户装置115a上的部件。在这些实施方式中,可以通过图像服务器101或者通过用户装置115来组织图像。

第三方服务器120可以包括处理器、存储器和网络通信能力。在一些实施方式中,第三方服务器120是硬件服务器。第三方服务器120经由信号线118被通信地耦接到网络105。信号线118可以是有线连接,诸如以太网、同轴电缆、光纤电缆等等,或者可以是无线连接,诸如wi-fi、蓝牙或者其他无线技术。在一些实施方式中,第三方服务器120经由网络105发送数据给一个以上的图像服务器101和用户装置115a-115n,并从一个以上的图像服务器101和用户装置115a-115n接收数据。

第三方服务器120可以将附加信息提供给图像应用程序103。例如,第三方服务器120可以包含管理社交网络简介的社交网络应用程序、包括用户的简介图像的电子邮件应用程序、提供经度和纬度坐标的地图绘制应用程序、提供关于实体的信息的电子百科全书、可以购买产品或者货物的网站等等。

只要用户同意使用这种数据,第三方服务器120就为图像应用程序103提供用户的简介信息或者简介图像,图像应用程序103可以使用用户的简介信息或者简介图像来识别带有对应社交网络简介的图像中的人。在另一个示例中,第三方服务器120可以为图像应用程序103提供与图像应用程序103使用的图像中识别的实体有关的信息。例如,第三方服务器120可以包含提供与图像中识别的地标有关的信息的电子百科全书、提供用于购买图像中识别的实体的信息的电子购物网站、经受用户同意提供来自图像中识别的用户的旅程的电子日历应用程序、提供与在图像中可以看到的实体的附近位置有关的信息的地图应用程序、供应图像中的菜肴的餐馆的网站等等。

在一些实施方式中,图像应用程序103可以与第三方服务器120共享信息。例如,用户可以指示图像应用程序103“发送这个图片给汤姆”。图像应用程序103可以确定第三方服务器120使用的联系信息,诸如电子邮件地址或者社交媒体别名,来识别汤姆。图像应用程序103可以使用对应的电子邮件地址或者社交媒体别名(socialmediahandle),将该图像传输给第三方服务器120。

尽管根据图像来描述图像应用程序103,但是如下所述的实施方式也可以对其他类型的媒体起作用,其他类型的媒体包括三维影像、视频、虚拟实景视频、全息视频、音频、文档等等。

示例计算装置

图2图示了组织图像的示例计算装置200的方框图。计算装置200可以是图像服务器101或者用户装置115。计算装置200可以包含处理器235、内存237、通信单元239、显示器241、扩音器243、扬声器245和存储装置247。图像应用程序103可以被存储在内存237中。计算装置200的部件可以通过总线220被通信地耦接。

处理器235包括进行计算并提供指令给显示装置的算术逻辑单元、微处理器、通用控制器或者一些其他处理器阵列。处理器235处理数据,并且可以包含各种计算架构,各种计算架构包括复杂指令集计算机(cisc)架构、精简指令集计算机(risc)架构、或者实现指令集的组合的架构。尽管图2包括单个处理器235,但是可以包含多个处理器235。其他处理器、操作系统、传感器、显示器和物理配置可以是该计算装置200的一部分。处理器235经由信号线222被耦接到总线220,用于与其他部件通信。

内存237存储数据和/或可以由处理器235执行的指令。指令可以包含实施这里描述的技术的代码。内存237可以是动态随机存取存储器(dram)装置、静态随机存取存储器(静态ram)或者一些其他存储装置。在一些实施方式中,存储器237还包括诸如(sram)装置或者闪存的非易失性存储器,或者类似的永久存储装置和媒介,包括用于长期存储信息的硬盘驱动器、软盘驱动器、光盘只读存储器(cd-rom)装置、dvd-rom装置、dvd-ram装置、dvd-rw装置、闪存装置、或者一些其他海量存储装置存储器237。以下将更加详细地描述,内存237包括可操作为执行图像应用程序103的代码和程序。内存237经由信号线227被耦接到总线220,用于与其他部件通信。

根据图像应用程序103可以被存储的场所,通信单元239传输数据到用户装置115、图像服务器101和第三方服务器120中的至少一个,并且从用户装置115、图像服务器101和第三方服务器120中的至少一个接收数据。在一些实施方式中,通信单元239包括直接物理连接到网络105或者另一个通信信道的端口。例如,依据图像应用程序103可以被存储的场所,通信单元239包括通用串行总线(usb),安全数字(sd),5类电缆(cat-5),或者与用户装置115或者图像服务器101有线通信的类似的端口。在一些实施方式中,通信单元239包括使用一个以上的无线通信方法或者另一个合适的无线通信方法与用户装置115、图像服务器101或者其他通信信道交换数据的无线收发器,一个以上的无线通信方法包括ieee802.ieee802.16,通信单元239经由信号线226被耦接到总线220,用于与其他部件通信。

在一些实施方式中,通信单元239包括用于通过蜂窝式通信网络来发送和接收数据的蜂窝式通信收发器,蜂窝式通信网络包括经由短消息服务(sms)、多媒体消息服务(mms)、超级文本传输协议(http)、直接数据连接、电子邮件或者另一个适当类型的电子通信。。在一些实施方式中,通信单元239包括有线端口和无线收发器。使用标准网络协议,通信单元239还提供到网络105的其他传统的连接,用于文件和/或媒体对象的分配,标准网络协议包括但不限于用户数据报协议(udp)、tcp/ip、http、http安全(https)、简单邮件传输协议(smtp)、spdy、快速udp因特网连接(quic)等等。

显示器241可以包含可操作为显示来源于图像应用程序103的图形数据的硬件。例如,显示器241可以渲染图形以显示用户界面。显示器241经由信号线228被耦接到总线220,用于与其他部件通信。提供信息给用户的其他硬件部件可以被包含作为计算装置200的一部分。例如,计算装置200可以包含用于音频接口的扬声器、振动或者力反馈装置、或者其他类型的非显示输出装置。在一些实施方式中,诸如计算装置200是图像服务器101的情况下,显示器241可以是可选择的。在一些实施方式中,计算装置200可以不包含所有的部件。在计算装置200是可佩带装置的实施方式中,计算装置200可以不包含存储装置247。在一些实施方式中,计算装置200可以包含这里没有列出的其他部件,例如,一个以上的照相机、传感器、电池等等。

扩音器243可以包含记录来自用户的音频的硬件。例如,扩音器243记录用户说出的要求图像应用程序103提供匹配搜索查询的图像的音频。扩音器243可以传输该音频给计算装置200的操作系统、图像应用程序103、或者单独的应用程序,以将音频转换为图像应用程序103可以理解的信号。扩音器243经由信号线230被耦接到总线220。

扬声器245可以包含生成回放的音频的硬件。例如,扬声器245接收来自图像应用程序103的指令,以生成关于搜索查询的澄清问题。扬声器245将该指令转换为音频,并且生成用于该用户的音频。speaker245经由信号线232被耦接到总线220。

存储装置247可以是存储数据的非临时性计算机可读存储介质,该数据提供本文描述的功能。在计算装置200是图像服务器101的实施方式中,存储装置247可以包含图1中的数据库199。存储装置247可以是dram装置、sram装置、闪存或者一些其他存储装置。在一些实施方式中,存储装置247还包括非易失性存储器或者类似的永久存储装置和媒介,包括用于长期存储信息的硬盘驱动器、软盘驱动器、cd-rom装置、dvd-rom装置、dvd-ram装置、dvd-rw装置、闪存装置、或者一些其他海量存储装置。存储装置247经由信号线234被耦接到总线220,用于与其他部件通信。

在图2所示的图示实施方式中,图像应用程序103包括图像处理模块202、索引模块204、搜索模块206、图像助理208、和用户界面模块210。可以是其他模块和/或配置。

图像处理模块202可以是可操作为处理图像。在一些实施方式中,图像处理模块202可以是处理器235可执行的处理图像的一组指令。在一些实施方式中,图像处理模块202可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。

在一些实施方式中,图像处理模块202接收与用户关联的图像。图像处理模块202可以确定用于图像的一个以上的标签,其中一个以上的标签可以包含元数据、初级注释或者次级注释。以下分别讨论作为元数据、初级注释和次级注释的不同类型的标签,但是一旦标签的类型被图像处理模块202识别或者生成,图像处理模块202就将它们视为与图像关联的标签。

图像可以与元数据关联。示范性的元数据可以包括但不限于用户装置115生成的数据和用户提供的元数据,用户装置115生成的数据诸如是可交换的图像文件格式(exif)数据。用户装置生成的元数据可以包含位置坐标、高度、方向、图像尺寸、图像类型(联合图像专家组(jpeg),标记图像文件格式(tiff),图形交换格式(gif),位图(bmp),可移植的网络图形(png)等等)、颜色深度、图像分辨率、图像的创建者的身份、日期与时间(例如,反映捕获图像的时间的时间戳)等等。用户提供的元数据可以包含实体(人,物体,场所等等)的标记

在一些实施方式中,图像处理模块202可以生成用于图像的初级注释。图像处理模块202可以进行识别图像中的实体(例如人、物体或者场所)的图像识别,并且将初级注释与对应于该实体的图像关联。例如,图像处理模块202可以使用计算机视觉、深度神经网络、或者采用图像识别算法的其他技术来识别图像中的物体和特征。例如,图像处理模块202可以识别包括动物、汽车或者产品的物体,诸如酒瓶标签,手表,汽车,服装,鞋子等等。图像处理模块202还可以识别文本,诸如通过采用光学字符识别(ocr)或者另一个文本识别算法来识别与物体有关的文本,诸如图书封面上的文本或者符号。在一些实施方式中,图像处理模块202可以基于识别的文本将标签添加到图像。例如,图像处理模块202可以从图书封面识别书名,并且添加包括书名的标签。图像处理模块202可以识别表示图像的属性的特征,诸如“在海滩上”,“在雨中”,“雾”,“晴朗的”,“下雪”,“内部”,“外部”,“在前面”等等。

图像处理模块202检查是否已经获得用户同意(例如,用户许可),以便对图像采用图像识别算法来识别图像中的人,并且添加关于人(姓名,标识,特征等等)的信息作为与图像关联的初级注释。一旦用户同意,图像处理模块202就可以通过利用其他图像中识别的人或者公开的可用信息,将该图像与其他图像进行比较,来识别该图像中的人。一旦用户同意,图像处理模块202就可以从第三方服务器120接收用于识别图像中的人的附加信息。例如,图像处理模块202假设可以通过将该图像和与社交网络关联的约翰的用户简介、与用户装置115关联的装置简介(例如,媒体访问控制(mac)地址)、或者由第三方服务器120维护的网站(例如,该网站提供其用户的商业简介)进行比较,来将图像中的人识别为约翰,并且确认约翰的身份。

图像处理模块202可以进行图像识别,以便确定与图像关联的特征。该特征例如可以包括晴朗的、有雾的、下雪或者下雨。在一些实施方式中,图像处理模块202可以基于推论,通过将元数据转换为初级注释来生成初级注释。例如,元数据可以包含为“12/25/2014”的捕获日期。图像处理模块202可以将该捕获日期转换为“圣诞节”。图像处理模块202可以基于用于搜索字符串或者自然语言查询的初级注释的倾向,将元数据转换为初级注释。例如,元数据可以被自动地转换成为标准初级注释,该标准初级注释包含捕获日期、捕获时间、捕获图像的纬度和/或经度坐标、捕获图像的高度等等。可以通过图像捕获软件、捕获图像的用户装置115,或者通过可以被存储在用户装置115或者图像服务器101上的处理模块202,进行将元数据转换为初级注释的处理。

在一些实施方式中,图像处理模块202通过将元数据转换为使得该图像更加容易被搜索的初级注释来生成初级注释。例如,图像处理模块202从元数据识别与图像关联的经纬度坐标,并且将该经纬度坐标转换为语义位置,诸如埃菲尔铁塔。在另一个示例中,图像处理模块202可以从高度是35,000英尺的元数据确定是在飞机上捕获图像。图像处理模块202可以将诸如“飞行时被拍摄”或者“在飞机上拍摄”的初级注释添加到该图像。在又一个示例中,图像处理模块202可以从经纬度坐标及其他信号确定拍摄图像时用户在家。图像处理模块202可以将“家”初级注释与该图像关联。在一些实施方式中,这个可以称为场所初级注释。

在一些实施方式中,基于图像中的实体的标识以及该实体对应于场所初级注释的确定,图像处理模块202将场所初级注释与图像关联。场所初级注释可以包含与用户关联的场所位置、与用户关联的工作位置、与用户关联的教育机构、或者语义的景点的标识。语义的景点例如可以包括泰姬陵、自由女神、帝国大厦等等。

图像处理模块202可以基于语义位置(例如,来自个别信息或者汇总信息)将经纬度信息匹配到景点,或者通过使用数据信号的组合来推断图像中的位置或者景点,来确定场所初级注释。数据信号的组合可以包含全球定位系统(gps)数据、wifi位置数据、蜂窝位置数据、搜索历史、电子邮件数据、日历数据、用户账号简介数据、用户装置115数据、或者其他信号的任意组合。在一些实施方式中,图像处理模块202从一个以上的第三方服务器120接收数据信号,一个以上的第三方服务器120诸如是托管电子邮件应用程序、日历应用程序、社交网络等等的第三方服务器120。

在一些实施方式中,图像处理模块202可以识别用户活动以便与位置关联,并且指示索引模块204将用户活动初级注释与和该位置关联的图像进行关联。例如,图像处理模块202可以将滑雪与特别的度假区关联,并且将高尔夫与特别的高尔夫球场关联。图像处理模块202可以基于用户活动来确定如何将活动与场所关联。例如,图像处理模块202可以基于图像的时间和日期,从图像识别出用户独自旅行或者外出到三个不同的滑雪胜地。图像处理模块202可以基于将滑雪作为活动,集聚来自旅行或者外出的图像。在一些实施方式中,图像处理模块202可以将“滑雪”初级注释添加到与三个滑雪胜地中的任一个关联的任何图像。在一些实施方式中,图像处理模块202聚类这些图像作为独自“滑雪旅行”初级注释。

通过对于元数据或者初级注释进行标签扩展,图像处理模块202可以生成次级注释。在一些实施方式中,图像处理模块202基于层次扩展、语义类似度扩展、视觉类似度扩展、或者语义和视觉类似度扩展的组合来生成次级注释。

在一些实施方式中,图像处理模块202基于层次分类法来进行层次扩展。例如,图像处理模块202可以从元数据识别出图像的位置为戴维斯维尔村庄(davisvillevillage)。层次分类法可以具有组织为戴维斯维尔村庄→多伦多→安大略湖→加拿大的位置。图像处理模块202可以生成次级注释,图像助理208可以使用该次级注释作为搜索字符串以过滤照片。类似地,如果图像处理模块202将图像中的实体识别为泰姬陵(即,景点),那么层次分类法可以被组织为泰姬陵→阿格拉→北方邦→印度。在又一个示例中,图像处理模块202可以识别出图像包括牛头犬。层次分类法可以具有被组织为牛头犬→狗→动物→哺乳动物的实体。层次分类法可以是通常采用的标准或者由图像应用程序103创建的专门的方案。层次分类法可以是复杂的或者简化为几个级别的组织。

通过语义地识别同类项,图像处理模块202可以基于语义类似度扩展来生成次级注释。例如,图像处理模块202可以使用初级注释“小餐馆”来生成次级注释“咖啡店”。通过视觉上识别用于相同实体的类似项或者相关项,图像处理模块202可以基于视觉类似度扩展来生成次级注释。例如,图像处理模块202可以使用初级注释“幼犬”来生成次级注释“狗”。通过基于视觉和语义类似度两者来识别项,图像处理模块202可以基于语义和视觉类似度扩展的组合来生成次级注释。例如,图像处理模块202可以使用初级注释“约翰坐在黑色保时捷上”来生成次级注释“男人坐在深色汽车上”。

在一些实施方式中,图像处理模块202将标签(即,元数据、初级注释、或者次级注释)与图像中的实体的边界关联。图像处理模块202可以将该边界与关于实体的信息进行关联,以便响应于接收实体的边界之内的选择,用户界面模块210为用户提供关于实体的信息。该选择可以包含边界之内的单击、双击,边界之内的长时间按压,边界之内预定压力级别的按压,在该实体周围图一个圆圈,将鼠标悬停在实体上等等。

在一些实施方式中,响应于搜索模块206接收选择该实体的指示,搜索模块206识别对应的标签,并且基于对应的标签检索关于选择的实体的信息。搜索模块206可以从搜索引擎、第三方服务器120等检索信息,第三方服务器120诸如是生成服务器托管的知识图谱的第三方服务器120。搜索模块206可以指示该用户界面模块210提供附加信息给该用户。

附加信息可以采取多种形式。转到图3a,可操作为提供与图像中的实体有关的附加信息的用户界面的图形表示被示出。例如,图像305是站立在泰姬陵307前面的用户的朋友306。例如通过在泰姬陵307的边界之内进行选择,用户可以选择泰姬陵。用户界面模块210可以提供在边缘310中的泰姬陵的背景和历史概要,以及泰姬陵位于印度的地图311。在一些实施方式中,实体可以被进一步细分,从而使得搜索模块206可以确定用户选择的是泰姬陵的尖塔中的一个,并且搜索模块206可以提供关于尖塔的附加信息,诸如关于尖塔的独特的故事。用户可以选择他朋友的脸部。一旦用户同意,用户界面模块210可以为用户提供他朋友的社交媒体供给或者对应于到泰姬陵旅行的一部分社交媒介供给,在这个旅行中游历经过印度时他朋友的旅程的快照,旅行的这个部分在可视化中被突出显示,等等。

图3b图示了可操作为提供与图像中的实体有关的附加信息的用户界面的另一个示例的图形表示350。在这个示例中,图像处理模块202生成的边界可以和图3a中的一样。图像助理208可以检测识别边界之内的实体的口头查询。该查询可以继续图3a图示的交互。因为用户已经询问了该实体,所以图像助理208确定当用户询问“它由什么组成”时的那个“它”指的是泰姬陵。图像助理208可以检索附加信息,以确定泰姬陵是由大理石组成的。

在另一个示例中,图像中孩子站立在特斯拉s型轿车前面。图像处理模块202可以在孩子和特斯拉s型轿车周围生成边界。用户可以在特斯拉s型的边界之内进行选择以获悉更多关于它的内容。用户界面引擎212可以为用户提供关于边沿中的特斯拉s型的信息概要。概要可以包含制造商建议的零售价、范围、马力、关于特斯拉的信息、附近的销售商、销售视频等等。另一个示例可以包含为图像中的孩子生成附加的边界。例如,图像处理模块202可以生成孩子的衣物周围的边界,以便响应于用户以在孩子的夹克的边界之内进行选择,用户界面模块210提供产品总览,该产品总览有夹克的三维互动图像、说明、标价、零售商信息、和运送信息。用户界面还可以包含“购买”按钮(或者另一个类型的图标),如果用户提供财务信息给图像应用程序103,那么经由与第三方服务器120关联的零售商,“购买”按钮允许单击购买。又一个示例可以包含接收花的图像的选择并且提供关于花的类型的信息;接收动物的图像的选择并且提供关于动物的信息;接收建筑物的选择并且提供关于该建筑物的信息、显著的仿真陈述、建筑物在地图上的位置等等;接收在海滩拍摄的大海的图像的选择并且提供带有大海和海滩标签的地图,提供关于与海滩关联的旅馆的信息等等;以及接收食物的图像的选择并且提供关于拍摄图像的餐馆的信息、餐馆的评论、来自餐馆的菜单等等。

在一些实施方式中,标签可以与图像本身关联,并且选择图像的任何部分可以使得用户界面模块210提供与图像中的所有实体有关的信息。可替换地,用户界面模块210可以提供信息的子集,诸如图像的上下文最相关的方面。例如,对于包括泰姬陵、本田汽车和树的图像,基于比较人们访问与那些实体中的每一个实体有关的信息的次数或者现有技术中那些普通技术人员所知的另一个度量标准,图像的上下文最相关的方面可能是泰姬陵。在一些实施方式中,可以为用户个性化上下文相关性。例如,如果基于用户的浏览历史,如从第三方服务器120检索到的,用户正在搜索不同类型汽车,那么图像处理模块202可以相对应其他附加信息,优先考虑有关本田汽车的附加信息。

在一些实施方式中,选择可以是口头指令,诸如用户声明“给我显示有关尖塔的信息”,“告诉我有关那辆汽车的更多信息”,“利萨穿着的是什么样的夹克”,“在什么海滩拍摄的这个”,“那个是什么海”,“告诉我有关那个教堂的信息”等等。用户界面模块210可以生成附加信息的口头说明,而不是提供附加信息的视觉表示。

在以上说明的图像处理模块202中,可以基于机器学习来进行步骤。例如,在次级注释和标签被人工地与图像关联或者自动生成但是人工查看以确认准确度的情况下,图像处理模块202可以使用一组训练数据作为引导。图像处理模块202可以使用训练数据来学习图像分类器,以生成次级注释和标签。

索引模块204可操作为生成索引。在一些实施方式中,索引模块204可以是处理器235可执行的生成索引的一组指令。在一些实施方式中,索引模块204可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。

在一些实施方式中,在标签包含元数据、一个以上的初级注释和一个以上的次级注释的情况下,索引模块204从与一个以上的标签关联的图像生成索引。索引模块204有利地创建用于组织图像的结构化格式,该结构化格式提高使用搜索查询来搜索图像的能力,并且减小检索与该搜索查询匹配的图像所需的计算费用和时间。

索引模块204可以生成是作为图标的索引,其中由图像表示索引中的节点并且边缘是基于与对应图像关联的一个以上的标签。例如,机器学习算法可以通过将要被编索引的图像和有已知标签的图像进行比较、确定图像之间的类似度、以及基于类似度定义边缘权重,来创建图表。在一些实施方式中,机器学习算法是用于基于图表的半监督学习的标签传播算法。索引模块204可以作为输入(1)包含加标签和未加标签的节点的无向图,以及(2)用于图表中的被加标签节点的种子标签和权重;并且为每个循环中的图表中的每个节点计算标签分配。

索引模块204可以将一个以上的标签映射到一个以上的置信度分数。置信度分数可以指示标签适用于对应图像的程度。例如,对于小狗的图像,索引模块204可以分配指示图像极力表示“小狗”标签的置信度分数,并且分配指示图像微弱地表示“大狗”标签的置信度分数,。

在一些实施方式中,索引模块204基于将特定图像与包含已确认标签的图像进行比较,确定分配给一个以上的标签中的每个标签的置信度分数。例如,索引模块204将波士顿猎犬的第一图像和与“狗”标签关联的图像进行比较,以判断该图像是否视觉上类似。索引模块204可以基于图像识别,比较图像的直方图等等来确定视觉类似度。索引模块204可以基于视觉类似度的程度来分配置信度分数。

转到图4a,图示了在进行模型传播之前的图表400的图形表示。在这个示例中节点405是与“猫”标签关联的图像,节点410是与“老鼠”标签关联的图像,节点415是无毛猫的未加标签的图像。索引模块204可以通过比较节点415表示的图像和由节点405以及410表示的图像来进行模型传播,以便确定图像之间的视觉类似度。因为无毛猫看起来像猫,所以索引模块204可以给节点415表示的图像分配指示该图像极力与猫相似的置信度分数。因为无毛猫看起来略微类似于老鼠,所以索引模块204可以给节点415表示的图像分配指示该图像略微表示老鼠的置信度分数。

转到图4b,图示了在进行模型传播之后的图表425的图形表示。基于未加标签的图像与加标签的图像的比较,图4a的节点415所表示的未加标签的图像现在被图示为与包含置信度分数的加标签的图像关联的节点430。与加标签的图像关联的节点430表示置信度分数所指示标签适用于加标签的图像的程度。具体地,节点430被图示为指示该加标签的图像极力地相似于猫并且略微相似于老鼠。

搜索模块206可以接收搜索查询,并且基于该搜索查询进行动作。在一些实施方式中,搜索模块206可以是处理器235可执行的接收搜索查询并且进行动作的一组指令。在一些实施方式中,搜索模块206可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。

搜索模块206可以从用户接收搜索查询,该搜索查询包含用户生成的搜索项,用于与用户关联的一个以上的图像。例如,搜索模块206接收搜索查询,该搜索查询是对于特殊用户、特殊实体,来自特殊时段、来自特殊位置等等的图像的请求。搜索模块206可以接收搜索查询,该搜索查询包含搜索模块206可以与对应的场所标签相匹配的项。例如,搜索模块206可以识别用户生成的搜索项,该用户生成的搜索项对应于家场所标签(例如,“给我显示家的图片”)、工作场所标签、教育场所标签、或者语义景点场所标签。

在一些实施方式中,搜索模块206从用户接收包含用户生成的搜索项的搜索查询,并且对用户生成的搜索项进行分类,以使用户生成的搜索项更好地与匹配图像相匹配。例如,搜索模块206可以基于以下不同的搜索查询来检索相同的匹配图像:“给我显示超级杯的图片”,“给我显示足球比赛中的图片”,以及“给我显示游戏中的图片”。

搜索模块206可以将用户生成的搜索项转换成为分类搜索项,其中种类包含日期、时间(包括时间范围)、位置、高度、或者方向。关于日期,搜索模块206可以如下分类以下的搜索项:基于特定日期分类“2014年8月1日的图片”,基于本周最近的日子分类“星期五的图片”,基于前一天分类“昨天的图片”,基于两天以前的日期分类“前天的图片”,基于一周之前的日期分类“上周的图片”,基于一个月之前的日期分类“上个月的图片”,基于上年度的日期分类“去年的图片”,基于被转换为对应日期的假期分类“圣诞节的图片”,以及基于被转换为对应日期和位置的事件分类“超级杯的图片”。关于时间,搜索模块206可以如下分类搜索项:基于特定时间分类“上午8点的图片”,以及基于被转换为对应的时间范围的时段分类“今天早上的图片”。

关于位置(例如,经纬度坐标),搜索模块206可以分类以下查询以包含他们的语义位置:基于邻近地区、城市、区域以及国家分类“来自旧金山的图片”;基于特定交易或者景点分类“来自探索博物馆的图片”,基于景点的附近地区分类“来自港湾桥附近的图片”,基于特定街道分类“来自第17大街的图片”,基于对应的十字路口分类“来自第24大街和教堂大街附近的图片”,基于推断的用户的家的位置分类“来自家的图片”,基于推断的用户的工作位置分类“工作图片”,通过基于与景点的接近度推断景点来分类“来自埃菲尔铁塔对面的小餐馆的图片”,以及基于将49人队比赛相对于景点的分类来分类“来自49人队比赛的图片”。

关于高度,搜索模块206可以如下分类搜索查询:基于使用高度确认的景点来分类“拍摄自金门大桥的图片”,并且基于使用高度确认的飞机照片来分类“拍摄自飞机的图片”。关于方向,搜索模块206可以如下分类搜索查询:基于方向从确认的风景分类“有太平洋风景的图片”,基于方向从确认的景点分类“埃菲尔铁塔的图片”,以及基于确认方向来分类“泰姬陵的东部尖塔的图片”。

在一些实施方式中,搜索模块206访问来自图1的第三方服务器120,以实时获得附加信息来分类用户查询。搜索模块206可以查询保留知识图谱或者搜索引擎的第三方服务器120。搜索模块206可以从一个查询推断需要的日期、位置、实体、或者另一个类型的附加信息。搜索模块206可以使用附加信息来将一个以上用户生成的搜索项转换成为分类搜索项。

例如,使用上面的用户要求“给我显示圣诞节的图片”的示例,搜索模块206可能需要与对应于“圣诞节”的日期有关的附加信息。搜索模块206可以查询第三方服务器120,以确定“圣诞节”对应于日期12月25日,并且对于2014年12月25日捕获的图像查询索引。搜索模块206可以从第三方服务器120查询附加信息的相似情况包含用户要求梅西日游行、阵亡将士纪念日、和劳动节长周末的图片。

在由上所述的另一个示例中,搜索模块206可以确定用户要求“给我显示49人队比赛的图片”需要附加信息来搜索对应于“49人队”的图像。搜索模块206可以查询第三方服务器120以确定“49人队”是足球队的名称。在一些实施例中,搜索模块206反复查询第三方服务器120,以确定对应于“49人队”的数据的类型,即,确定“49人队”是实体而不是位置等等。在一些实施方式中,搜索模块206可以获得有关“49人队”的附加信息,包括含有比赛地点信息、日期和时间的计划表。搜索模块206可以交叉参考附加信息并且使用该附加信息从索引识别对应图像,该附加信息具有49人队比赛的位置的经纬度坐标、比赛日期、以及比赛时间。

在如上所述的又一个示例中,搜索模块206可以确定“给我显示波士顿马拉松的图片”需要附加信息,以便将该查询转换为包含可能用于搜索索引来查找图像的对应于波士顿马拉松的位置和一个以上的日期。在另一个示例中,搜索模块206可能接收“给我显示加拿大东部的图片”,并且查询第三方服务器120以获得与加拿大东部的省份有关的信息。搜索模块206可以搜索该索引来查找在加拿大东部省份捕获的图像。

搜索模块206可以访问多个第三方服务器120,以获得用于将用户生成的搜索项转换成为分类搜索项的附加信息。例如,搜索模块206可以接收搜索查询“给我显示亚穆纳河的河畔的图片”,并且查询第一第三方服务器120以确定“亚穆纳”是印度的河流。接下来,搜索模块206可以查询第二第三方服务器120,诸如提供测绘服务的第三方服务器120,以确定亚穆纳河流包含河畔的区域周围的界定区域的纬度和经度。然后搜索模块206可以搜索索引以识别在该界定区域之内捕获的图像。这个处理的其他示例可以包含识别邻近地区或者区域的界定区域,诸如在旧金山附近的渔人码头或者纳帕谷。

在一些实施方式中,通过使用索引,搜索模块206可以将用户生成的搜索项转换成为推断搜索项,以扩展搜索项中的措辞或者表达式。推断可以适用于图像中的许多人、室外和室内图像之间的区别、景物识别、以及白天或者夜间属性。

对于基于图像中的人数做出的推断,搜索模块206可以识别用户生成的搜索项表示特殊数量。例如,搜索模块206可以接收搜索查询“给我显示哥斯达黎加海滩上的家人照片”,并且确定用户生成的搜索项“家人”可以被转换为推断搜索项“三个以上的人”。接下来,搜索模块206可以搜索包含三个以上的人的图像。在另一个示例中,搜索模块206可以接收搜索查询“给我显示在泰姬陵前面的我的图片”,并且将“我”转换为推断搜索项“一个人”。在又一个示例中,搜索模块206可以接收搜索查询“给我显示上周的小组照片”,并且将用户生成的搜索项“小组照片”转换为推断搜索项“大于三个”。

对于基于室内和室外区别做出的推断,搜索模块206可以确定默认推断的搜索项是“室外”。例如,搜索模块206可以接收搜索查询“给我显示圣彼得大教堂的图片”,并且推断用户正在请求圣彼得大教堂的室外图片。在另一个示例中,搜索模块206可以接收搜索查询“给我显示圣彼得大教堂内部的图片”,并且基于用户明确地请求“内部图片”,来确定推断的搜索项是“室内”。

对于基于景物辨别做出的推断,搜索模块206可以识别用户生成的搜索项对应于景物属性。例如,搜索模块206可以接收搜索查询“海滩上的日落图片”,并且确定用户生成的搜索项对应于以下推断的搜索项:大海,海滩,湖以及日落。在这个示例中,搜索模块206可以确定“海滩”对应于多个类型的水体(即,大海,海滩以及湖)。在另一个示例中,用户生成的搜索项“树”可以对应于推断的搜索项“树”以及“森林”。在又一个示例中,搜索模块206可以基于用户生成的搜索项来推断不同的天气情况。例如,用户生成的搜索项“多云”可以对应于“雾”以及“下雨”。

对于基于白天和夜间属性做出的推断,搜索模块206可以识别用户生成的搜索项对应于白天以及夜间属性。例如,搜索模块206可以接收搜索查询“夜间东京的图片”,并且确定用户生成的搜索项“夜间”对应于日落之后捕获的图像。在一些实施方式中,搜索模块206可以基于图像中的光的水平、对应于日落之后的捕获时间等等来识别匹配的图像。

在一些实施方式中,搜索模块206从用户接收搜索查询,该搜索查询包含用户生成的搜索项,用于与用户关联的一个以上的图像。搜索模块206可以基于用户生成的搜索项和索引,为自动完成该用户生成的搜索项的用户,生成一个以上的建议的搜索项。在一些实施方式中,搜索模块206可以基于从索引输出的聚集的标签来生成建议的搜索项。具体地,搜索模块206可以通过识别索引中对应于搜索查询的标签、确定标签的频率和排列标签,来生成建议的搜索项。例如,如果用户输入部分用户查询“m的图片”,那么搜索模块206可以确定该索引包含始于“m”的按数量递减的以下标签:mom、martha和monkey。因此,搜索模块206可以建议“mom”自动完成搜索查询或者提供自动完成建议的排列列表。建议的搜索项可以包含基于用户生成的搜索项和索引自动生成的自然语言表达式或者关键字。

在一些实施方式中,搜索模块206扩展用户查询中的一个以上的项的措辞以识别相关的搜索项并且找到与相关的搜索项相匹配的图像。搜索模块206可以基于与原始用户查询的相关性来排列搜索结果。例如,在用户查询是“幼犬照片”的情况下,搜索模块206可以将具有“幼犬照片”的匹配图像作为标签的一部分。搜索模块206可以扩展措辞,并且识别具有用于任何类型狗的标签的图像,以及以小狗相对于大狗优先的方式排列。因此,如果用户使用“幼犬”作为所有狗的通用术语,那么搜索模块206可以捕获与用户的期望目的相匹配的图像。

在一些实施方式中,搜索模块206识别搜索结果,该搜索结果包含与搜索项相匹配的图像。搜索模块206可以基于与对应图像关联的置信度分数来排列搜索结果。例如,在搜索查询是“泰姬陵的图像”的情况下,搜索模块206可以将具有“泰姬陵”的匹配图像作为标签的一部分。搜索模块206可以识别与每个图像关联的“泰姬陵”的置信度分数,并且基于对应的置信度分数排列搜索结果。在一些实施方式中,搜索模块206可以选择置信度分数满足预定阈值的搜索结果。在图像与多个置信度分数关联的情况下,搜索模块206可以判断多个置信度分数的加权总和是否满足预定阈值。搜索模块206可以基于与满足预定阈值的置信度分数关联的搜索结果,将搜索结果的排列列表的至少一部分提供给用户。

在一些实施方式中,搜索模块206可以基于搜索查询中的指示来进行图像过滤。过滤可以包含随后进行搜索结果的缩小。例如,搜索模块206可以接收第一搜索查询,用于与用户关联的图像。在这个示例中,第一搜索查询可以是:“给我显示旧金山的图片”。搜索模块206可以接收第二搜索查询。搜索模块206可以确定第二搜索查询将被用于第一搜索结果。例如,第二搜索查询可以是:“仅仅给我显示上个月的”。搜索模块206可以为用户提供从第一搜索结果过滤并且与第二搜索查询相匹配的第二搜索结果。在这个示例中,第二搜索结果可以包含上个月在旧金山拍摄的图片。搜索模块206可以基于第二搜索结果接收第三搜索查询,第三搜索查询带有将会是第三搜索查询的指示。例如,第三搜索查询可以是:“仅仅给我显示金门大桥附近的”。

在一些实施方式中,搜索模块206可以基于多属性的复杂查询来进行图像的搜索。例如,搜索模块206可以从用户接收以下搜索查询:“给我显示上个月在旧金山拍摄的图片”。搜索模块206可以将用户生成的搜索项“旧金山”转换为与旧金山的经纬度坐标相对应的分类搜索项,将用户生成的搜索项“上个月”转换为与时间范围“上个月”相对应的分类搜索项,并且搜索与分类搜索项相匹配的图像。在另一个示例中,搜索模块206从用户接收以下搜索查询:“给我显示埃菲尔铁塔顶部白天的图片”。搜索模块206可以将用户生成的搜索项“白天”转换为与时间范围“白天”相对应的分类搜索项,将用户生成的搜索项“顶部”转换为与埃菲尔铁塔的“顶部”相对应的高度的图像,将用户生成的搜索项“埃菲尔铁塔”转换为用于景点的分类搜索项,并且在对应于“埃菲尔铁塔”位置的“顶部”的高度的图像搜索与时间范围“白天”相对应的图像。

在一些实施方式中,搜索模块206可以基于来自用户的搜索查询的推断信息和图像识别结果,进行自动加标签。例如,用户可以提供以下搜索查询:“给我显示萨曼塔和我在哥斯达黎加海滩上的照片”。搜索模块206可以识别在海滩附近的哥斯达黎加拍摄的包含两个人的图像,其中一个人是该用户。图像处理模块202可能已经基于图像识别搜索,将该图像与先前标记的用户图像进行比较、将该图像与用户的公开简介进行比较等等,确定了图像中的用户身份。如果只有匹配先前标准的图像包含另一个人,那么搜索模块206可以推断第二用户是“萨曼塔”,并且指示索引模块204将对应图像与萨曼塔的自动标签关联。如果图像中存在多个第二人和/或作为附加的确认步骤,那么搜索模块206可以将第二用户的图像与已知人的图像进行比较,以识别包含萨曼塔的图像。例如,搜索模块206可以从社交网络应用程序请求简介图像,并且将第二用户的图像与简介图像进行比较,以减少进行比较的次数。然后搜索模块206可以指示索引模块204将对应图像与萨曼塔的自动标签进行关联。在一些实施方式中,图像助理208可以在自动对该图像加标签之前,为用户显示对应图像,并且要求用户确认第二人是萨曼塔。

图像助理208可操作为为用户组织图像。在一些实施方式中,图像助理208可以是处理器235可执行的为用户组织图像的一组指令。在一些实施方式中,图像助理208可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行。

图像助理208可以帮助用户自动地组织图像、搜索图像、推荐图像、提供与图像中的实体有关附加信息、添加特殊效果到图像、共享图像并且备份图像。在一些实施方式中,图像助理208可以使用语音交互和用户界面模块210的指令的组合来生成用户界面。图像助理208可以为用户提供选项,以在进行交互的每个步骤从用户界面进行选取或者使用语音命令继续。不管用户采用的与图像助理208交互的用户装置115的类型如何,图像助理208都可以提供这个选项。

图像助理208可以与用户交互,以获得用于分类图像的识别信息、响应以从用户接收到该识别信息、指示索引模块204通过添加识别信息到对应图像来更新索引。例如,图像助理208可以口头地或者通过提供文字来询问如下内容:“我需要确认几件事来组织你的照片。它将仅花费你几分钟的时间。这个是你吗?图像助理208可以指示用户接口模块210显示被图像助理208识别为潜在地包含该用户的一个以上的图像。

转到图5,图示了可操作为为用户提供澄清问题的用户界面的图形表示。在这个示例中,图像助理208组织与用户关联的图像,并且识别要组织的502个图像。在图像助理208请求确认该用户被正确识别的情况下,用户界面模块210在用户界面的面板505中提供一个澄清问题,以及图像510,515。在这个示例中,用户可以使用“是”按钮520和“否”按钮525来确认或者拒绝用户的识别。如果在正确识别出图像中用户时用户识别出图像中的任何一个图像,那么图像助理208可以指示索引模块204将标签添加到识别该用户的图像。标签可以包含用户姓名、“我(me)”和“我(i)”中的至少一个,以便当用户例如要求“给我显示我的图像”时,搜索模块206可以识别图像。如果用户指示两个图像都没有正确地识别用户,那么图像助理208可以指示用户界面模块210识别可能包含该用户的其他的图像。

图像助理208可以通过指示用户界面模块210提供在与用户关联的图像中经常出现的人的图像来组织图像。例如,图像助理208可以识别在阈值数量的图像(例如,5%,10%等等)中出现的人。图像助理208可以指示用户界面模块210显示要识别的人的图像,并且询问用户:“你可以告诉我这些照片中出现的此人是谁吗?”图像助理208可以接收用于图像中的人的不同类型的项,诸如“妈妈”或者用户妈妈的全名。图像助理208可以询问其他的澄清问题。例如,图像助理208可以响应为“你可以告诉我你妈妈全名吗?那样我可以正确地标记该照片,这还使得将来更容易与她共享照片。”用户例如可以响应为“萨曼塔布朗”。图像助理208可以给用户提示,将来如何通过陈述“好的!我还将标记她的照片为‘妈妈’,所以将来你可以说‘与妈妈共享’之类的话”,来搜索图像。

在一些实施方式中,图像助理208访问第三方信息来确认来自用户的信息或者帮助进行推断,以减少展示给用户的问题的数量。例如,如果用户识别图像中的人为“罗伯特”,那么图像助理208可以访问社交媒介简介、电子邮件简介等等,来确定“罗伯特”指的是“罗伯特施泰因”。在一些实施方式中,图像助理208可以生成置信度分数,该置信度分数指示图像中的人和身份证明之间的匹配。如果置信度分数满足阈值,那么图像助理208可以指示索引模块204将标签添加到带有人的身份的图像。如果置信度分数没有满足阈值(例如,如果置信度分数在阈值以下),那么图像助理208可以询问用户来确认图像包含“罗伯特施泰因”。

在一些实施方式中,图像助理208接收一个用户查询,该用户查询具有与一个以上的标签相对应的一个以上的用户生成的搜索项。例如,图像助理208可以要求图像助理208“给我显示我的图片”。图像助理208可以为用户提供包含该用户的一个以上的对应图像。在一些实施方式中,图像助理208从用户生成的搜索项确定一个以上的模糊之处,并且为用户提供问题以便澄清来自用户生成的搜索项的一个以上的模糊之处。例如,用户可以提供以下搜索查询:“给我显示滑雪旅行的图片”。在这个示例中,图像处理模块202可能已经将“滑雪”标签添加到三个不同的滑雪旅行。因此,图像助理208可能确定有三个不同聚类的图像,从三个不同聚类的图像显示与滑雪关联的图像。图像助理208可以要求用户指定该用户愿意看到哪个滑雪旅行。例如,图像助理208可以指示用户界面模块210生成用户界面,该用户界面以本文形式显示问题。图像助理208还可以指示用户界面模块210包含来自每个滑雪旅行的图像、基于例如他们的度假区的日期或者名称(例如,度假区a,度假区b,度假区c)的滑雪旅行的识别、以及问题。可以以诸如音频提示的其他格式来提供该问题。如果用户提供该问题的答案,那么图像助理208可以更新用户查询中的不明确的搜索项。接着上面的示例,图像助理208可以用用户查询中的“滑雪”以及“度假区a”替换“滑雪旅行”,从而获得与到度假区a的滑雪旅行关联的图像。

在另一个示例中,图像助理208可以提供建议或者选项来为多个类似的图像种类消除模糊之处。例如,用户可以要求:“给我显示足球比赛的图片”。该图像助理208可以识别包含足球体育场的位置的图像、集聚与不同日期和位置关联的不同比赛的图像、以及为在那些日期那些时间举行的特定足球比赛来查询第三方服务器120。图像助理208可以响应:你愿意看到你在新英格兰爱国者队比达拉斯牛仔队的比赛,或者在芝加哥熊队比纽约巨人队比赛时拍摄的图片?”

在又一个示例中,图像助理208可以提供建议或者选项来为与相同位置类别关联的多个景点消除模糊之处。例如,用户可以要求:“给我显示博物馆的照片”。图像助理208可以从与用户关联的图像识别包含指定为博物馆的三个不同的景点的图像。图像助理208可以响应:“你愿意看到你在大英博物馆、科学博物馆或者自然历史博物馆拍摄的图片?”用户对图像助理208的响应可以包含除了选择三个博物馆中的一个的选项。例如,用户可以响应:“它是靠近布鲁姆伯利电影院的博物馆”。图像助理208可以查询托管搜索引擎、绘图应用程序等等的第三方服务器120,以确定布鲁姆伯利电影院和三个博物馆之间的距离,并且识别大英博物馆是最近的。因此,图像助理208可以组合来自多个数据源的多条信息,以计算消除图像聚类之间的模糊之处的属性。

在一些实施方式中,图像助理208可以响应于缺少完成用户搜索的信息,来要求后续问题。例如,用户可以声明:“给我显示来自萨曼塔的生日宴会的图片”。图像助理208可能无法访问对应于萨曼塔的生日的日期。图像助理208可以对第三方服务器120查询该信息。如果图像助理208无法定位日期,那么图像助理208可以询问用户:“你知道萨曼塔的生日是什么时侯吗?”一旦图像助理208接收到答案,图像助理208就可以为匹配图像生成标签,该标签包含“萨曼塔的生日宴会”。在一些实施方式中,在图像助理208不能自动地访问第三方服务器120以获得萨曼塔的生日的日期的情况下,用户可能能够指示图像助理208检查第三方服务器120。例如,用户可能能够指定可能包含信息(例如,“检查我的日历”)的数据源。

在另一个示例中,用户可以要求:“给我显示爸爸的住宅的图片”。图像助理208可能已经将“爸爸”作为标签添加到包含用户的父亲的图像,但是图像助理208可能无法访问爸爸的住宅的位置。图像助理208可以询问用户:“你可以告诉我你爸爸的地址(这将会是保持私密的)吗?”响应于接收来自用户的地址,图像助理208可以将街道地址计算成经纬度坐标,以识别在那个位置拍摄的图像。图像助理208还可以将“爸爸的住宅”作为标签添加到匹配图像。

在一些实施方式中,图像助理208可以确认图像应用程序103做出的推断是正确的。例如,图像助理208可以从用户接收搜索查询,该搜索查询使用场所标签(例如,“给我显示工作图片”)。图像助理208可以识别包含工作场所标签的图像,为用户提供对应图像,并且要求用户确认该图像被正确地加标签。

如上所述,响应于用户询问与图像中的实体有关的问题,图像助理208可以为用户提供附加信息。图像助理208可以接收口头地用户查询并且确定用户询问的实体是什么。例如,回到图3a,用户可以询问“那个建筑物是什么?”图像助理208可以从图像识别哪个实体包含“建筑物”标签。然后图像助理208可以将用户查询更新为声明“泰姬陵是什么”,并且与搜索模块206通信以获得与泰姬陵有关的附加信息,并提供给用户。在一些实施方式中,图像助理208可以扩展搜索项的措辞并且获得与扩展的搜索项有关的附加信息。例如,图像助理208可以将“那个建筑物是什么?”扩展为包含“那个陵墓是什么”,并且与搜索模块206通信,以获得有关陵墓的附加信息。

在一些实施方式中,图像助理208基于用户的语音来识别用户,并且为该用户匹配索引。在图像应用程序103被存储在由家庭的多个成员访问的基于语音的电视系统、机顶盒、平板、或者台式计算机上的情况下,图像助理208可以从用户接收搜索查询,并且基于语音签名来识别用户。例如,图像助理208可以接收“给我显示我在泰姬陵前面的图片”。即使全家进行了到印度的相同的旅行,图像助理208也可以依据该用户提供不同的搜索结果。

在一些实施方式中,图像助理208从用户接收指令,以将图像发送给与由图1的第三方服务器120托管的第三方应用程序关联的人。该指令可以是口头的或者文本的。图像助理208可以确定与该人关联的联系简介。例如,用户可以声明:“与约翰共享夏威夷度假照相簿”。通过提供约翰的图像并且询问用户:“你的意思是约翰d吗?”,图像助理208可以确认细节。如果用户回答“是”,那么图像助理208可以询问:“你希望我如何共享照相簿?”用户可以指定发送图像的应用程序的类型,并且图像助理208可以基于联系简介为该人提供一个以上的图像。例如,如果用户回答“电子邮件给他一个照相簿的链接”,那么例如通过为保留用户电子邮件应用程序的第三方服务器120提供到照相簿的链接以及发送链接给约翰哈尔普林的电子邮件地址的指令,图像助理208可以识别约翰哈尔普林的电子邮件地址

在一些实施方式中,图像助理208使用语音命令为用户编辑图像。示例性的编辑指令可以包括:“裁剪照片中的人”,“使这张照片变成黑白”,使它变亮”,以及“使它变暗”。在一些实施方式中,图像助理208可以订购与指定图像关联的产品。例如,用户可以指示图像助理208:“订购带有照片的8x10的海报,并且使它有黑色边框。把它和给萨曼塔的礼物卡送交到萨曼塔的住宅。”在一些实施方式中,图像助理208可以从用户接收请求,来购买与图像中的实体有关的物品,并且为用户购买物品。该请求可以是音频,诸如“购买图像中的夹克”或者该用户可以选择图像中的实体。其他选项可以包含订购上面带有图像的咖啡马克杯或者t恤。在一些实施方式中,图像助理208可以为用户订购图像中的物品。例如,用户可以指示图像助理208去订购图像中描绘的夹克。

用户界面模块210可以是可操作为为用户提供信息。在一些实施方式中,用户界面模块210可以是处理器235可执行的一组指令,以提供如下所述为用户提供信息的功能。在一些实施方式中,用户界面模块210可以被存储在计算装置200的内存237中,并且可以被处理器235访问和执行

在一些实施方式中,图像助理208为用户购买图像中的实体。可以是通过用户借助于语音命令,诸如“购买”来识别实体。

用户界面模块210可以从图像应用程序103中的其他模块接收指令,以生成可操作为显示用户界面的图形数据。例如,用户界面模块210可以生成一个用户界面,该用户界面显示用户捕获的图像、用户可以输入图像搜索的搜索栏等等。在一些实施方式中,用户界面模块210可以显示图像,该图像包含图像中的实体周围的边界。响应于接收实体的边界之内的选择,用户界面模块210可以生成有关该实体的附加信息。示例方法

图6a-6b是组织图像的示例方法的流程图。方法600可以由图像服务器101、用户装置115或者图像服务器101和用户装置115的组合,使用图1图示的图像应用程序103来实现。图像应用程序103可以包含图2图示的图像处理模块202、索引模块204、和搜索模块206。

在方框602,识别与用户关联的图像。该图像可以被存储在用户装置上或者存储在云端。

在方框604,为图像确定一个以上的标签,其中:一个以上的标签是基于元数据、初级注释和次级注释中的至少一个,通过进行以下至少一个来确定初级注释:

(1)进行图像识别,以确定图像中出现的一个以上的实体以及与图像关联的特征,和(2)基于与元数据有关的推断来进行元数据的转换,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。

在方框606,生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于图像的程度。在多个图像与用户关联的实施方式中,映射可以包含图像的图表,其中由图像表示节点,并且节点之间的每个边缘是基于与对应的图像关联的一个以上的标签的。

在方框608,出现与用户的交互,以便获得用于分类图像的识别信息。例如,可以为用户提供一个请求,使用视觉和听觉要素来提供与图像有关的识别信息。可以为用户提供用户的多个照片的视觉资料以及询问用户该照片是否是用户的照片的音频。在方框610,通过将识别信息添加到该图像来更新映射。例如,包含该用户的图像可以被更新为带有“我”标签,以使用户可以请求“给我显示包含我的图像”。

虽然以特定的顺序图示方框602到610,但是随着介入的步骤,其他顺序也是可能的。在一些实施方式中,一些方框可以被添加,跳过或者组合。

在以上描述中,为了说明,阐述了众多细节以便提供对说明书的彻底的了解。然而,对本领域的技术人员显而易见的是,本公开在没有这些细节的情况下也可以被实行。在有些情况下,以方框图形式显示结构和装置,以免使描述不清楚。例如,以上可以主要参考用户界面和特殊的硬件来描述实施方式。然而,实施方式可以适用于可以接收数据和命令的任何类型的计算装置,以及提供服务的任何外围装置。

说明书引用的“一些实施方式”或者“一些情况”意指连同实施方式或者情况一起描述的特殊的特性、结构或者特征可以被归入描述的至少一个实施方式。说明书中不同地方出现的短语“在一些实施方式中”并非必须全部涉及相同的实施方式。

以上具体实施方式的一些部分是按照对于计算机存储器之内的数据位的操作的算法和符号表示来呈现的。这些算法描述和表示是那些擅长于数据处理技术的人员使用的手段,以便最有效地将他们的工作的实质传达给其他本领域的技术人员。这里的算法通常被认为是通向期望结果的自相一致的步骤。步骤是需要对物理量进行物理操纵的那些步骤。通常,然而不一定,这些量采用能够被存储、传送、组合、比较以及其他操纵的电子的或者磁的数据的形式。已经证明有时为了方便,主要为了常见用途,引用这些数据作为比特、值、要素、符号、字符、术语、数量等等。

然而,应当记住的是,所有这些以及类似术语是与适当的物理量关联的,并且仅仅是适用于这些量的方便的标签。除非另外具体地指出,从如下讨论显而易见的,将领会到贯穿本描述,运用包含“处理”或者“计算”或者“运算”或者“确定”或者“显示”等等的术语的讨论,涉及计算机系统或者类似电子计算装置的动作和处理,计算机系统或者类似电子计算装置操纵并且转换被表示为计算机系统的寄存器之内的物理(电子)量,并且将它们存储为被类似地表示为计算机系统存储器或者寄存器或者其他这种信息存储器、传输装置、或者显示装置之内的物理量的其他数据。

说明书的实施方式还可以涉及处理器,该处理器进行以上描述的方法的一个以上的步骤。该处理器可以是通过存储在计算机中的计算机程序被选择性激活或者重新配置的专用的处理器。这种计算机程序可以被存储在非临时性计算机可读存储介质,非临时性计算机可读存储介质包括但不限于任何类型的盘或者适合于存储电子指令的任何类型的介质,任何类型的盘包括软盘、光盘、rom、cd-rom、磁盘、ram、eprom、eeprom、磁卡或者光卡、包括带有非易失性存储器的usb键的闪存、或者任何适用于存储电子指令的介质,其各自被耦接到计算机系统总线。

说明书可以采用一些完全硬件实现、一些完全软件实现或者一些含有硬件和软件元件两者的实现形式。在一些实施方式中,以软件实现说明书,软件包括但并不限于固件、常驻软件、微编码等等。

此外,说明书可以采用可从计算机可用的或者计算机可读的介质访问的计算机程序产品的形式,计算机可用的或者计算机可读的介质通过或者连同计算机或者任何指令执行系统来提供供使用的程序代码。为了说明,计算机可用的或者计算机可读的介质可以是可以包含、存储、通信、传送或者输送供使用或者与指令执行系统、设备或装置连接的程序的任何设备,。

适合于存储或者执行程序代码的数据处理系统将包含经由系统总线直接或者间接被耦接到存储元件的至少一个处理器。存储元件可以包含程序代码的实际执行期间采用的局部存储器、大容量存储器、以及提供至少一些程序代码的临时存储器,以便减少执行期间必须从大容量存储器检索代码的次数。

进一步的实施方式被下面的示例概括:

示例1:一种计算机实现的方法,该方法包括:识别与用户关联的图像,其中,图像被识别为由与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个;对于上述图像中的每个图像,确定一个以上的标签,其中一个以上的标签是基于元数据和初级注释中的至少一个的;生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度;以及与用户进行交互;以获得用于对一个以上的图像进行分类的识别信息。

示例2:示例1的方法,进一步包括:通过将识别信息添加到一个以上的图像来更新映射。

示例3:示例1或者2的方法,进一步包括:从用户接收用于与用户关联的一个以上的上述图像的一个以上的用户生成的搜索项;确定用户生成的搜索项中的模糊之处;以及请求用户提供澄清信息以解决用户生成的搜索项中的模糊之处。

示例4:示例1到3中的一个的方法,进一步包括:从用户接收将一个以上的图像发送给与第三方应用程序关联的人的指令,确定与该人关联的联系简介;以及基于该联系简介,为该人提供一个以上的图像。

示例5:示例1到4中的一个的方法,一个以上的标签包含次级注释,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。

示例6:示例1到5中的一个的方法,与用户进行交互包含传输图像和音频提示,以提供与图像中的实体有关的识别信息。

示例7:示例1到6中的一个的方法,进一步包括:从用户接收购买与上述图像中的一个图像中的实体有关的物品的请求;以及为用户购买该物品。

示例8:一种计算机系统,包括:耦接到内存的一个以上的处理器;图像处理模块,该图像处理模块存储在内存中并且可被一个以上的处理器执行,图像处理模块可操作为识别与用户关联的图像,并且对于每个图像,确定一个以上的标签,其中,一个以上的标签是基于元数据、初级注释以及次级注释中的至少一个的,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释;索引模块,该索引模块被存储在内存中并且可被一个以上的处理器执行,该索引模块可操作为生成一个以上的标签到一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度;和图像助理,图像助理被存储在内存中,并且可被一个以上的处理器执行,图像助理可操作为接收第一搜索查询并且为用户提供对应图像,第一搜索查询包含与一个以上的标签相对应的一个以上的用户生成的搜索项。

示例9:示例8的系统,其中索引模块进一步可操作为:与用户进行交互,以获得用于对一个以上的上述图像进行分类的识别信息;以及通过将识别信息添加到一个以上的上述图像来指示索引模块更新映射。

示例10:示例8或9的系统,进一步包括:搜索模块,该搜索模块被存储在内存中,并且可被一个以上的处理器执行,搜索模块可操作为从用户接收第二请求,第二请求包含一个以上的用户生成的搜索项,用于与用户关联的一个以上的图像;并且其中,图像助理进一步可操作为确定用户生成的搜索项中的模糊之处,并且请求用户提供澄清信息以解决用户生成的搜索项中的模糊之处。

示例11:示例8到10中的一个的系统,其中图像助理进一步可操作为从用户接收将一个以上的图像发送给与第三方应用程序关联的人的指令,确定与该人关联的联系简介,并且基于联系简介,为该人提供一个以上的图像。

示例12:示例8到11中的一个的系统,其中一个以上的标签包含次级注释,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。

示例13:示例8到12中的一个的系统,与用户进行交互包含传输图像和音频提示,以提供与图像中的实体有关的识别信息。

示例14:示例8到13中的一个的系统,其中图像助理进一步可操作为:从用户接收购买与图像中的一个图像中的实体有关的物品的请求;以及为用户购买该物品。

示例15:一种用计算机程序编码的非临时性计算机存储介质,计算机程序包括指令,当指令被一个以上的计算机执行时,使得一个以上的计算机进行操作,该操作包括:识别与用户关联的图像,其中,图像被识别为被与用户关联的用户装置捕获的图像、被存储在与用户关联的用户装置上的图像、以及被存储在与用户关联的云存储器中的图像中的至少一个;对于图像中的每个图像,确定一个以上的标签,其中一个以上的标签是基于元数据和初级注释中的至少一个的;生成一个以上的标签对于一个以上的置信度分数的映射,其中,一个以上的置信度分数指示一个以上的标签适用于对应图像的程度;以及与用户进行交互;以获得用于对一个以上的图像进行分类的识别信息。

示例16:示例15的计算机存储介质,其中指令进一步可操作为进行操作,操作包括:通过将识别信息添加到一个以上的图像来更新映射。

示例17:示例15或16的计算机存储介质,其中指令进一步可操作为进行操作,该操作包括:从用户接收用于与用户关联的一个以上的图像的一个以上的用户生成的搜索项;确定用户生成的搜索项中的模糊之处;以及请求用户提供澄清信息以解决用户生成的搜索项中的模糊之处。

示例18:示例15到17中的一个的算机存储介质,其中指令进一步可操作为进行操作,该操作包括:从用户接收将一个以上的图像发送给与第三方应用程序关联的人的指令,确定与该人关联的联系简介;以及基于联系简介,为该人提供一个以上的图像。

示例19:示例15到18中的一个的算机存储介质,其中一个以上的标签包含次级注释,并且通过对于元数据和初级注释中的至少一个进行标签扩展来生成次级注释。

示例20:示例15到19中的一个的算机存储介质,与用户进行交互包含传输图像和音频提示,以提供与图像中的实体有关的识别信息。

在以上讨论的系统收集个人信息的情形中,系统为用户提供控制程序或者特性是否收集用户信息(例如,关于用户社交网络、社交动作或者活动、职业、用户爱好,或者用户当前位置的信息),或者控制是否和/或如何从可能与用户更加有关的服务器接收内容的一个机会。此外,某个数据在被存储或者使用之前可以以一个以上的方式被处理,以便去除个人可识别信息。例如,可以处理用户的身份,以便对于该用户,没有个人可识别信息可以被确定,或者位置信息被获得之处的用户的地理位置(诸如城市、邮政编码或者州级别)可以被广义化,以便无法确定用户的特殊位置。因此,用户可以控制如何收集关于用户的信息以及服务器如何使用信息。

权利要求书(按照条约第19条的修改)

1.一种计算机实现的方法,其特征在于,包括:

识别与用户关联的图像,其中,所述图像被识别为被与所述用户关联的用户装置捕获的图像、被存储在与所述用户关联的所述用户装置上的图像、以及被存储在与所述用户关联的云存储器中的图像中的至少一个;

对于所述图像中的每个图像,确定一个以上的标签,其中所述一个以上的标签是基于元数据和初级注释中的至少一个;

生成所述一个以上的标签对于一个以上的置信度分数的映射,其中,所述一个以上的置信度分数指示所述一个以上的标签适用于对应图像的程度;以及

与所述用户进行交互,以通过提供显示第一人的图形数据来获得用于分类所述一个以上的所述图像的识别信息并且请求所述用户识别所述第一人,其中,在至少阈值数量的所述图像中识别所述第一人。

2.如权利要求1所述的方法,其特征在于,进一步包括:

通过将所述识别信息添加到所述一个以上的所述图像来更新所述映射。

3.如权利要求1所述的方法,其特征在于,进一步包括:

从所述用户接收一个以上的用户生成的搜索项,用于与所述用户关联的一个以上的所述图像;

确定所述用户生成的搜索项中的模糊之处;以及

请求所述用户提供澄清信息以解决所述用户生成的搜索项中的所述模糊之处。

4.如权利要求1所述的方法,其特征在于,进一步包括:从所述用户接收将一个以上的所述图像发送给与第三方应用程序关联的人的指令,

确定与所述人关联的联系简介;以及

基于所述联系简介,为所述人提供所述一个以上的所述图像。

5.如权利要求1所述的方法,其特征在于,所述一个以上的标签包含次级注释,并且通过对于所述元数据和所述初级注释中的至少一个进行标签扩展来生成所述次级注释。

6.如权利要求1所述的方法,其特征在于,所述与所述用户进行交互包含传输图像和音频提示,以提供与所述图像中的实体有关的所述识别信息。

7.如权利要求1所述的方法,其特征在于,进一步包括:

从所述用户接收购买与所述图像中的一个图像中的实体有关的物品的请求;以及

为所述用户购买所述物品。

8.一种计算机系统,其特征在于,包括:

耦接到内存的一个以上的处理器;

图像处理模块,所述图像处理模块存储在所述内存中并且可被所述一个以上的处理器执行,所述图像处理模块可操作为识别与用户关联的图像,并且对于每个所述图像,确定标签,其中,所述标签是基于元数据、初级注释以及次级注释的,并且通过对于所述元数据和所述初级注释中的至少一个进行标签扩展来生成所述次级注释;

索引模块,所述索引模块被存储在所述内存中并且可被所述一个以上的处理器执行,所述索引模块可操作为生成每个所述标签对于对应的置信度分数的映射,以使得一个图像关联多个标签和对应所述多个标签中的每个标签的置信度分数,其中,置信度分数指示所述标签适用于对应图像的程度;以及

图像助理,所述图像助理被存储在所述内存中,并且可被所述一个以上的处理器执行,所述图像助理可操作为接收第一搜索查询并且为所述用户提供对应图像,所述第一搜索查询包含与所述一个以上的标签中的一个或多个相对应的一个以上的用户生成的搜索项。

9.如权利要求8所述的系统,其特征在于,所述图像助理进一步可操作为:

与所述用户进行交互,以获得用于对一个以上的所述图像进行分类的识别信息;以及

通过将所述识别信息添加到所述一个以上的所述图像来指示所述索引模块更新所述映射。

10.如权利要求8所述的系统,其特征在于,进一步包括:

搜索模块,所述搜索模块被存储在所述内存中,并且可被所述一个以上的处理器执行,所述搜索模块可操作为从所述用户接收第二搜索查询,所述第二搜索查询包含用于与所述用户关联的一个以上的所述图像的一个以上的用户生成的搜索项;以及其中,所述图像助理进一步可操作为确定所述用户生成的搜索项中的模糊之处,并且请求所述用户提供澄清信息以解决所述用户生成的搜索项中的所述模糊之处。

11.如权利要求8所述的系统,其特征在于,所述图像助理进一步可操作为从所述用户接收将一个以上的所述图像发送给与第三方应用程序关联的人的指令,确定与所述人关联的联系简介,并且基于所述联系简介,为所述人提供所述一个以上的图像。

12.如权利要求8所述的系统,其特征在于,基于层次分类法进行所述标签扩展,以及确定一个以上的更高级标签,所述一个以上的更高级标签比所述元数据和所述初级注释中的至少一个更宽泛。

13.如权利要求8所述的系统,其特征在于,所述与所述用户进行交互包含传输图像和音频提示,以提供与所述图像中的实体有关的所述识别信息。

14.如权利要求8所述的系统,其特征在于,所述图像助理进一步可操作为:

从所述用户接收购买与所述图像中的一个图像中的实体有关的物品的请求;以及

为所述用户购买所述物品。

15.一种用计算机程序编码的非临时性计算机存储介质,所述计算机程序包括指令,当所述指令被一个以上的计算机执行时,使得所述一个以上的计算机进行操作,所述操作包括:

识别与用户关联的图像,其中,所述图像被识别为被与所述用户关联的用户装置捕获的图像、被存储在与所述用户关联的所述用户装置上的图像、以及被存储在与所述用户关联的云存储器中的图像中的至少一个;

对于所述图像中的每个图像,确定一个以上的标签,其中所述一个以上的标签是基于元数据和初级注释中的至少一个;

生成所述一个以上的标签对于一个以上的置信度分数的映射,其中,所述一个以上的置信度分数指示所述一个以上的标签适用于对应图像的程度;以及

与所述用户进行交互,以通过提供显示第一人的图形数据来获得用于分类所述一个以上的所述图像的识别信息并且请求所述用户识别所述第一人,其中,在至少阈值数量的所述图像中识别所述第一人。

16.如权利要求15所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:

通过将所述识别信息添加到所述一个以上的所述图像来更新所述映射。

17.如权利要求15所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:

从所述用户接收一个以上的用户生成的搜索项,用于与所述用户关联的一个以上的所述图像;

确定所述用户生成的搜索项中的模糊之处;以及

请求所述用户提供澄清信息以解决所述用户生成的搜索项中的所述模糊之处。

18.如权利要求15所述的计算机存储介质,其特征在于,所述指令进一步可操作为进行操作,所述操作包括:

从所述用户接收将一个以上的所述图像发送给与第三方应用程序关联的人的指令,确定与所述人关联的联系简介;以及

基于所述联系简介,为所述人提供所述一个以上的所述图像。

19.如权利要求15所述的计算机存储介质,其特征在于,所述一个以上的标签包含次级注释,并且通过对于所述元数据和所述初级注释中的至少一个进行标签扩展来生成所述次级注释。

20.如权利要求15所述的计算机存储介质,其特征在于,所述与所述用户进行交互包含传输图像和音频提示,以提供与所述图像中的实体有关的所述识别信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1