基于图像内容的自动标记生成的制作方法

文档序号：6497133阅读：150来源：国知局

基于图像内容的自动标记生成的制作方法
【专利摘要】提供了从具有可辨认对象的图像的照片（或视频）中自动提取数据和给照片（或视频）自动加标记的方法。图像识别与包括地理和日期/时间信息的所提取元数据的组合被使用来找出和识别照片或视频中的对象。在找到对于所识别的对象的匹配的标识符后，用与所识别的对象相关联且相对应的一个或多个关键字给照片或视频自动加标记。
【专利说明】基于图像内容的自动标记生成
【背景技术】
[0001]随着数码相机变得越来越普遍，以及数字存储装置变得越来越便宜，在用户的收集(collection)(或库)中的相片(“照片”)和视频的数目也将呈指数级增加。
[0002]对那些照片进行归类是费时的，而且让用户快速找出他们生活中特定时刻的图像是一种挑战。当前，在数码照片的整理、保存和搜索中使用标记作为辅助。加标记涉及到给数字数据指派关键字的过程。然后可以按照关键字或‘标记’来组织数字数据。例如，数码照片的主题可被使用来创建关键字，然后这些关键字可以作为一个或多个标记而与该数码照片相关联。
[0003]虽然标记可以人工地加到特定的数码照片上以帮助照片的归类和搜索，但当前只有几种加到照片的自动标记。例如，大多数相机给数码照片指派日期和时间的自动标记。另夕卜，越来越多的相机正包括地理位置来作为照片的自动标记的一部分。最近，已经开发了软件解决方案来提供对于照片中的人的自动识别(并且匹配于特定的身份)。
[0004]然而，用户当前只限于通过日期、地理、人标记和人工添加的标记来查询照片。

【发明内容】

[0005]提供了用于给数码照片和视频自动指派标记的方法。不是仅仅具有可由相机自动指派给照片的、来自提供日期、时间和地理位置的元数据的标记，而是可以从照片或视频中自动提取附加信息，并且可以把与该附加信息相关联的关键字或代码作为标记自动指派给该照片或视频。这个附加信息可包括不能直接从图像和与图像相关联的元数据明显地得到的信息。
[0006]例如，从图像中可以提取关于某些条件的信息，包括但不限于天气、地理地标、建筑地标和显著的环境特征。在一个实施例中，照片的时间和地理位置元数据被使用来提取对于该特定的位置和时间的天气。所述提取可以通过查询天气数据库以确定对于在拍摄照片时的特定位置和时间的天气而被执行。在另一个实施例中，照片的地理位置元数据和图像识别被使用来提取地理和建筑地标。在再一个实施例中，图像识别被使用来从图像提取显著的环境特征(包括背景、色彩、色调和亮度)和已知的物理对象，且根据所提取的特征和对象把标记自动指派给照片。
[0007]按照一个实施例，当在某个照片中识别一个或多个确定的条件时，关键字或对象标识符的数据库可被提供来用作为标记。当一个特定的条件被识别时，与该特定的条件相关联的一个或多个关键字或对象标识符被自动指派为对于该照片的标记。
[0008]之前与特定的照片相关联的标记可被使用来生成附加标记。例如，日期信息可被使用来生成与该日期相关联的带有关键字的标记，诸如季节、学校学期、假期和有报道价值的事件。
[0009]在另一个实施例中，所识别的对象可以通过知名度进行排名，且该排名被反映为附加标记。另外，在辨认所识别的对象时使用的数据库可包括各种水平的特异性(specificity) / 粒度(granularity)。[0010]本概要被提供来以简化的形式介绍概念的选择，这些概念还将在下面的详细说明中进行描述。本概要既不打算确认所要求保护的主题的关键特征或必要特征，也不打算被使用来限制所要求保护的主题的范围。
【专利附图】

【附图说明】
[0011]图1图示按照本发明的某些实施例的自动标记生成过程。
[0012]图2图示按照本发明的某些实施例的图像识别过程。
[0013]图3显示按照本发明的某些实施例的自动标记生成过程的流程。
[0014]图4图示按照本发明的实施例的、用于自动标记生成过程的、通过从照片中提取建筑地标而生成标记的过程。
[0015]图5图示按照本发明的实施例的、用于自动标记生成过程的、通过从照片中提取地理地标而生成标记的过程。
【具体实施方式】
[0016]描述了用于进行与照片相关联的一个或多个标记的自动生成的技术。自动添加标记可以发生在数码照片(或视频)被装载到或以别的方式传送到可被存储在本地、远端或分布式数据库的照片集时。在其它实施例中，自动添加标记可以在用户发起时发生，以便给现有的照片加标记。
[0017]图像可包括但不限于在照片或视频帧中所出现的对象、形状和特征的视觉代表。按照某些实施例，图像可以由数码相机捕获(以照片的形式或作为视频的一部分)，并且它可以以由数码相机的图像传感器定义的像素的形式被实现。在一些实施例中，术语“照片图像”在这里被用来指数码照片的图像，与照片所关联的元数据或其它元素相对，并且它可以与术语“图像”互换使用，而不背离本发明的某些实施例的范围。术语“照片”、“图像”和“照片图像”的意义从它们的上下文中将容易理解。
[0018]在某些实施例中，当在这里被使用时，图像可以是指由数码相机的图像传感器得到的电数值的视觉代表。图像文件(和数码照片文件)可以是指计算机可读的并且在存储设备中可存储的图像的形式。在某些实施例中，图像文件可包括但不限于.jpg、, gif和.bmp文件。图像文件可以被重建，以便在例如显示设备或衬底上(例如，通过打印在纸上)提供视觉代表(“图像”)。
[0019]虽然某些示例性实施例可能是参照照片描述的，但应当理解，这些实施例也可以适用于任何图像(甚至于不是由相机捕获的那些图像)。而且，本主题技术可应用于静止图像(例如，相片)和运动图像(例如，视频)，并且可把音频成分包括到文件。
[0020]被写入到数码照片文件中的元数据常常包括标识谁拥有该照片(包括版权和联系信息)和创建该文件的相机(和设置)的信息，以及说明性信息，诸如用于使得文件在用户的计算机上和/或在互联网上可搜索的、关于照片的关键字。某些元数据由相机编写，而其它元数据在数码照片文件从相机、存储器设备或另外的计算机转送到计算机(或服务器)后，由用户人工输入或由软件自动输入。
[0021]按照本发明的某些实施例，图像及其元数据被使用来生成附加元数据。附加元数据是通过从图像和用于图像的元数据进行提取或推断而被生成的。用于图像的元数据可包括拍摄图像的地理位置和日期，以及与图像相关联的、可得到的任何其它信息。用于图像的元数据可以是图像本身的一部分或可以分开地提供。当元数据是图像本身的一部分时，在图像的数字文件被使用来生成附加元数据之前，首先从图像的数字文件提取数据。附加元数据一旦被生成就可以回过来与原先的图像相关联或被使用于其它用途。提取的和/或创建的元数据和附加元数据可以作为标记而与原先的图像相关联。
[0022]一种类型的标记是关键字标记。关键字标记可以结合对一个或多个图像执行操作而被使用，诸如像根据具有匹配于特定准则的关键字的标记而归类、搜索和/或检索图像文件。
[0023]图1图示按照本发明的某些实施例的自动标记生成过程。
[0024]参照图1，接收具有图像及其对应的元数据的照片100。本发明的实施例的自动加标记过程可以在接收到照片后自动开始。例如，所述过程可以在用户上载照片图像文件到照片共享站点后开始。作为另一个例子，所述过程可以在用户把照片从相机装载到用户的计算机后开始。作为再一个例子，用户的移动电话可包括用于自动标记生成的应用，其中加标记过程可以在通过使用移动电话的相机来捕获图像或选择所述应用后开始。
[0025]在接收照片后，提取与照片相关联的元数据110。元数据的提取可包括读取和分析与照片相关联的元数据的具体类型。可被提取的元数据的类型可包括但不限于:可交换的图像文件格式(EXIF)、国际新闻电信理事会(IPTC)和可扩展的元数据平台(XMP)。
[0026]除了元数据提取110以外，还执行图像识别120，以便识别和辨认照片图像中的形状和对象。在图像识别执行期间所使用的特定的图像识别算法可以是对于特定的应用或处理约束条件可得到的、任何适当的图像或模式识别算法。图像识别算法可能受用于提供照片中的对象与已知对象的匹配的可用数据库限制。作为一个例子，图像识别算法可牵涉到图像的预处理。预处理可包括但不限于:调节图像的对比度、转换到灰度和/或黑白、剪切、重新定尺寸、旋转、以及它们的组合。
[0027]按照某些图像识别算法，诸如(但不限于)色彩、尺寸或形状那样的有区别的特征可被选择来用于检测特定的对象。当然，可以使用提供对象的有区别的特性的多个特征。为了确定图像中对象的边缘(或边界)，可以执行边缘检测(或边界识别)。在图像识别算法中可以进行形态研究(morphology)，以对像素组实施动作，包括去除不想要的分量。另外，可以执行区域的噪声减小和/或填充。
[0028]作为图像识别算法的一个实施例的一部分，一旦在图像中找到/检测到一个或多个对象(和它们的相关联的性质)，就可以在图像中定位所述一个或多个对象的每个对象，然后对其进行分类。可以通过按照涉及到有区别的特征的特定技术规范来评估所定位的对象，而对所定位的对象进行分类(即，被辨认为特定的形状或对象)。特定的技术规范可包括数学计算(或关系)。作为另一个例子，代替(或附加于)在图像中定位可识别的对象，可以执行模式匹配(pattern matching)。可以通过把图像中的单元和/或对象与“已知的”(先前辨认的或分类的)对象和单元相比较而完成匹配。计算和/或比较的结果(例如，数值)可被归一化，以代表对于分类的最佳拟合(f it)，其中比起较低数字(例如，0.2 )的归一化的结果来说，较高的数字(例如，0.9)表示被正确地分类为特定的形状或对象的较高或然率。阈值可被使用来给所辨认的对象指派标签。按照各种实施例，图像识别算法可以利用神经网络(NN)和其它学习算法。[0029]应当理解的是，虽然所描述的实施例和例子中的某一些可能参考了照片，但这不应当被解释为把所描述的实施例和例子限制于照片。例如，视频信号可以由这里描述的某些系统接收，并经历如按照本发明的某些实施例描述的自动标记生成过程。在一个实施例中，可以接收视频信号的一个或多个视频帧，其中视频帧可包括图像和元数据，并且可以执行图像识别和元数据提取。
[0030]在一个实施例中，可以对于图像执行第一遍识别步骤，以辨认在图像中存在基本形状或对象。一旦基本形状或对象被辨认，就执行第二遍识别步骤，以得到对形状或对象的更具体的辨认。例如，第一遍识别步骤可辨认出在照片中存在有建筑物，而第二遍识别步骤可辨认具体的建筑物。在一个实施例中，辨认在照片中存在有建筑物的步骤可以通过在照片与可供执行图像识别的机器/设备使用的一组图像或模式之间进行的模式匹配而完成。在某些实施例中，用于第一遍识别步骤的模式匹配的结果可足以辨认具有足够的特异性的形状或对象，这样使得不执行附加的识别步骤。
[0031]在某些实施例中，在图像识别过程期间，提取的元数据可被使用来例如通过提供关于照片中的形状或对象可能是什么的线索而帮助实行图像识别。在对于第一遍/第二遍过程的建筑物例子中，从元数据中提取的地理信息可被使用来帮助辨认具体的建筑物。在一个实施例中，图像识别120的执行可以通过使用图2所示的图像识别过程来实行。参照图2，基本图像识别算法可被使用来辨认图像中的对象221。这个图像识别算法被称为“基本的”，以指示在步骤221中的图像识别过程没有在使用提取的元数据，并且不应当被解释为仅仅指示过分简单化的或以别的方式受限制的过程。图像识别算法可以是可供特定的应用或处理约束条件使用的、任何适当的图像或模式识别算法，并且它也可牵涉到图像的预处理。一旦从图像中辨认出对象，就可以使用所提取的元数据211通过查询数据库(例如，“标识数据库(DB)”) 222，来获得用于所辨认的对象的名称或标签。数据库可以是包含名称和/或标签、在通过查询设定的约束条件内提供对于对象的标识的任何适当数据库。由标识DB查询而产生的名称和/或标签然后可被使用来查询包含图像的数据库(例如，“图片DB”)，以便找到与名称和/或标签相关联的图像223。由图片DB搜索而产生的图像然后可被使用来执行模式匹配224，以便更具体地辨认图像中的对象。在某些实施例中，可以针对由图片DB搜索而产生的对象的图像有多类似于在经历图像识别过程的图像中所辨认的对象来提供分数。
[0032]使用以上的建筑物例子和相对于图2描述的、按照图像识别过程的实施例的图像识别过程，基本图像识别221可被使用来辨认目标“建筑物”，而且算法可以返回例如“建筑物”、“灰色建筑物”或“高的建筑物”。当提取的元数据211是拍摄照片处的经度和纬度时(可以在?102英尺量级的范围内)，标识DB的查询222可以是“找出接近于这个地理位置的所有的建筑物”(其中地理位置是通过使用由所提取的元数据提供的经度和纬度而被辨认的)。然后，可以查询图片DB 223，以“找出对于那些特定建筑物中的每个建筑物的所有已知的图片”(其中特定的建筑物是来自标识DB的查询的、所辨认的建筑物)。然后可以执行模式匹配224，以比较由图片DB的查询得到的图像与经历图像识别过程的图像，来确定是否有特别明显的或接近的匹配。
[0033]在另外的实施例中，当在单个图像中辨认出多个对象时，也可以识别对象相互之间的相对位置。例如，可以执行高级的识别步骤，以识别所辨认的船是在所辨认的河上或所辨认的人是在所辨认的池中。
[0034]回到图1，所提取的元数据和在照片中识别/辨认的对象然后可以通过被使用于向数据库查询相关信息，而被用来获得对于该照片的附加信息130。为了获得来自查询的结果，可以执行字词匹配。这个步骤可包括使用地理信息、日期/时间信息、图像中的辨认的对象或它们的各种组合来查询各种各样的数据库，以便获得关于照片中的对象和在照片中或附近发生的事件的相关信息。数据库查询的结果可以被接收140，并被用作为对于照片的标记150。例如，具有2011年11月24日的提取日期、在美国的提取位置和在桌子上煮熟的火鸡的被识别对象的照片可以导致“感恩节”的附加信息标记，而在美国以外的提取位置对于相同的图像就不一定导致“感恩节”的附加信息标记。作为另一个例子，具有2008年美国总统选举的提取日期和被识别为总统奥巴马的图像的照片可以导致“总统选举”的附加信息标记，或者如果时间也匹配，则附加信息标记可包括“总统候选人所做的提名演讲”。
[0035]图3图示按照本发明的某些实施例的自动加标记过程。类似相对于图1描述的过程，接收到具有图像301和对应的元数据302的照片。提取从元数据202中可得到的任何地理信息(310)和对应的日期/时间信息(320)。如果没有地理信息和日期/时间信息可得到，则可以返回空结果(作为结束过程)。另外，图像301被输入到图像分类器330，该图像分类器扫描已知的对象(即，由图像分类器使用的数据库中已被定义的和/或编目的对象)，并辨认和提取在图像中的任何已知的物理对象。
[0036]图像分类器使用形状和项目(对象)的数据库来从图像中提取尽可能多的数据。图像分类器可以搜索和识别各种各样的对象、形状和/或特征(例如，色彩)。对象包括但不限于面孔、人、产品、角色、动物、植物、显示的文本和图像中其它可区分的内容。数据库可包括与可识别的形状和项目(对象)相关联的对象标识符(元数据)。在某些实施例中，图像分类器的灵敏度可以使得即使在图像中只有部分形状或对象的一部分是可得到的情形下也能够识别对象。从图像分类器过程获得的元数据可被用作为对于照片的标记。元数据可以被写回到照片中或以别的方式与照片相关联，并且被存储(335)。
[0037]从所提取的元数据和从图像分类器过程获得的元数据，可以通过利用元数据的组合而自动生成附加标记。例如，图像可以经历一遍或多遍，以辨认和提取各种各样的识别的特征。在辨认和提取各种各样的识别的特征期间，代表所识别的特征被正确地辨认的概率的置信度值可作为与照片相关联的标记的一部分被提供。置信度值可以作为图像识别算法的一部分被生成。在某些实施例中，置信度值是当把图像中的特征/对象与基础特征(basefeature)(或特定的技术规范)匹配时，由图像识别算法生成的匹配权重(它可以被归一化)。例如，当图像中被搜索的有区别的特性是:整个图片是蓝色，但在匹配算法中使用了具有不同的蓝色色调的某个图像时，所生成的置信度值将依赖于所使用的算法和所述图像之间的增量(delta)。在一种情形中，如果该算法识别边缘和颜色，则结果可能指示90%匹配，而在另一种情形中，如果该算法只针对边缘，而没有针对颜色，则结果可能指示100%匹配。
[0038]在某些实施例中，置信度值可以是以带有置信度水平的表格的形式。表格可以作为标记本身的一部分被存储。在一个实施例中，表格可包括属性和相关联的确定性。例如，给定某种蕉(plantain)的照片(其中不清楚该种蕉是芭蕉还是香蕉)，照片(在经历按照本发明的实施例的自动标记生成过程后)可以用下面的表格I加标记。应当理解，该表格仅仅提供来用于举例说明的目的，不应当被解释为限制形式、组织或属性选择。[0039]
【权利要求】
1.一种自动标记生成的方法，包括: 从与图像相关联的图像文件中提取元数据，所述元数据包括与该图像被捕获的位置有关的地理信息，以及任选地还包括与该图像被捕获的时间有关的日期和时间信息；执行图像识别，以便辨认图像中的一个或多个对象、形状、特征或纹理；用与所述一个或多个对象、形状、特征或纹理有关的信息或代码自动给图像加标记；通过以下步骤确定所述一个或多个对象、形状、特征或纹理中的被辨认的对象或形状的对应细节: 使用与该被辨认的对象或形状有关的信息或代码以及该地理信息来查询至少一个数据库，以便将该被辨认的对象或形状以及该图像被捕获的位置与该对象或形状以及该图像被捕获的位置有关的对应细节进行匹配，或使用与该被辨认的对象或形状有关的信息或代码以及该日期和时间信息来查询至少一个数据库，以便将该被辨认的对象或形状以及该图像被捕获的时间与该对象或形状以及该图像被捕获的时间有关的对应细节进行匹配，或使用与该被辨认的对象或形状有关的信息或代码以及该地理信息与日期和时间信息来查询至少一个数据库，以便将该被辨认的对象或形状以及该图像被捕获的位置和该图像被捕获的时间与该对象或形状以及该图像被捕获的位置和该图像被捕获的时间有关的对应细节进行匹配；以及用与所述对应细节有关的信息或代码自动给该图像加标记。
2.按照权利要求1的方法，其中执行图像识别来辨认图像中的一个或多个对象、形状、特征或纹理使用了从图像文件中提取的地理信息。
3.按照权利要求1-2的任一项的方法，包括执行地标识别来辨认图像中的一个或多个地标；以及用与所述一个或多个地标有关的信息或代码自动给图像加标记。
4.按照权利要求3的方法，其中执行地标识别包括: 通过使用与在执行图像识别期间所辨认的图像中的被选择的一个或多个对象有关的信息或代码、以及从图像文件中提取的地理信息，来查询建筑或地理地标的数据库。
5.按照权利要求1-4的任一项的方法，还包括: 通过使用从与图像相关联的图像文件中提取的地理信息与日期和时间信息，来确定在图像被捕获的位置处和在图像被捕获的日期和时间期间出现的对应的事件条件，以便查询至少一个数据库；以及用与所述对应的事件条件有关的信息或代码自动给图像加标记。
6.—种计算机可读介质，其上存储有在被执行时执行权利要求1-5的任一项的方法的指令。
7.一种计算机可读介质，包括在其上存储的用于执行自动标记生成的计算机可读指令，所述指令包括步骤用于: 从与图像相关联的图像文件中提取元数据，所述元数据包括与该图像被捕获的位置有关的任何地理信息，所述图像包括照片或视频的帧；执行图像识别，以便辨认图像中的对象；通过以下步骤确定对应于该对象和该图像被捕获的位置的至少一个特定的条件:向数据库查询匹配于该对象和该图像被捕获的位置的至少一个特定的条件，以及从数据库接收与所述至少一个特定的条件相关联的信息或代码；以及用与所述至少一个特定的条件相关联的信息或代码自动给该图像加标记。
8.按照权利要求7的计算机可读介质，其中所述指令还包括步骤用于: 在执行图像识别以辨认图像中的对象后，用与图像中的该对象相关联的字或代码自动给图像加标记。
9.按照权利要求 7-8的任一项的计算机可读介质，其中执行图像识别还包括使用从图像文件中提取的元数据来帮助辨认对象。
10.按照权利要求7-9的任一项的计算机可读介质，其中从图像文件中提取的元数据包括与图像被捕获的时间有关的日期和时间信息；以及其中与所述至少一个特定的条件相关联的信息或代码包括事件信息或代码、天气信息或代码、地理地标信息或代码、建筑地标信息或代码、或它们的组合。
【文档编号】G06K7/10GK103930901SQ201280056443
【公开日】2014年7月16日申请日期:2012年11月16日优先权日:2011年11月17日
【发明者】J.E.米兰达-斯泰纳申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.E.米兰达-斯泰纳
技术所有人：微软公司
我是此专利的发明人

上一篇：基于读和写响应时间要求的降级速率的调整的制作方法
上一篇：基于平铺块的呈现中的镶嵌的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。