基于跨域上下文来对图像加标签的制作方法

文档序号：6359557阅读：163来源：国知局

专利名称：基于跨域上下文来对图像加标签的制作方法
基于跨域上下文来对图像加标签背景至少部分由于技术的不断进步和成本的持续降低，数码相机极其流行。例如，当前许多便携式蜂窝电话都配备有数码相机。数码相机允许用户随时间捕捉相对大量的图像并将它们存储在计算设备的数据储存库中。传统上，这些所捕捉的图像是基于捕捉每一相应图像的时间来自动组织的。图像的所有者可向图像手动提供名称，以提供关于图像内容的指示(例如，谁在特定图像中，等等)。允许个人向图像提供标签或标记的数字图像组织应用在当前是可供使用的。例如，某一个人可审阅图像并向其分配指示该图像中捕捉到了特定人的标签。此后，该个人可以基于分配给这些图像的标签来组织图像。在一示例中，如果该个人希望向自己提供包括某一特定人的所有图像，则该个人可通过选择与该特定人相对应的图形图标来组织图像。这可使得向该个人呈现图像集合，其中该集合中的每一图像包括该特定人。
尽管允许用户对图像加标签是一种用于组织图像的相对高效的机制，但对大集合的图像中的图像加标签可能是相当耗时的。因此，脸部识别应用已被合并到图像组织应用中，以帮助基于图像中识别出的脸部来自动和/或半自动地对图像加标签。一般而言，可以分析图像，并且可以从中提取与该图像中的各人的身份有关的特征，如某一个人的眼睛颜色、所穿衣服的颜色、某一个人的鼻子形状、以及其他特征。这些特征被提供给用于脸部识别的数学模型，并且该数学模型被配置成以特定概率来输出图像中的脸部对应于特定人。尽管利用脸部识别应用来帮助自动对照片加标签在提高对图像加标签的效率方面是有益的，但脸部识别应用的准确性可能不尽如人意。概述以下是在本文更详细描述的主题的简要概述。本概述不旨在是关于权利要求的范围的限制。本文描述了与通过使用一种稳健的框架来向图像自动及半自动分配标签有关的各种技术。本文描述的框架包括多个域的模型和所习得的这些域之间的关系模型。在一示例中，该框架可包括语义层和特征层。语义层可包括多个域的模型。例如，这些域可包括表示可被包括在某一图像集合中的人的人域、表示与图像相对应的一个或多个事件的事件域、以及表示与图像相对应的位置的位置域。每一图像可具有对应于域的一个或多个元素。例如，一图像可包括三个不同的个人，其中这些个人中的每一个都可以是人域中的元素。在另一示例中，该图像可对应于某一事件，其中该事件可以是事件域中的元素。类似地，该图像可与特定位置有关，其中该特定位置可以是位置域中的元素。图像中的每一元素可具有与之相关联的合乎需要地推断出的标记。例如，该图像可包括多个个人，并且推断出这些个人中的每一个的名字可能是合乎需要的。在另一示例中，该图像可与特定事件有关，并且推断出这一事件的名称可能是合乎需要的。在对图像中的元素的标记进行推断方面，可使用来自补充源的信息。第一源可以是某一图像集合中的各图像中的观察到的特征。例如，某一图像中的每一元素可由一个或多个观察到的特征来表征。例如，一个人可以由他或她的相貌和衣着来描述。类似地，对应于数字图像的时间戳可被用来表征该数字图像中捕捉的事件。在另一示例中，某一图像中观察到的活动可被用来表征事件。此外，GPS标签可以提供与捕捉该图像的位置有关的信息。在另一示例中，自动背景场景分析可被用来表征位置(例如，色彩签名可以表征位置)。用来推断元素的标记的第二补充源可以是跨域上下文(例如，某一域中的某一元素的标记如何影响其他域中的元素标记)。具体而言，元素共同出现在某一图像中可构成语义上下文。由于习得的共同出现元素之间的关系，这些语义上下文可传达与要如何对元素进行标记有关的信息。因此，该框架在对图像中的不同域中的元素的标记进行推断方面利用该语义上下文。例如，该框架可被配置成考虑以下各项之间的关系哪些人参加了哪个事件、哪些人往往处于同一图像中、哪个事件发生在哪个位置、以及哪些人处于特定位置。因而，该框架可包括关于特定域的多个概率模型，其中这些概率模型被用来推断元素在特定域中的标记。这些概率模型可利用从图像中提取的特征来作出这些推断，并且还可利用跨域所习得的元素之间的关系。在操作中，可向该框架提供某一数字图像集合。此后，可从这些图像中提取特征，包括脸部特征、在数字图像中捕捉到的个人所穿的衣服的特征、对应于数字图像的时间戳、与数字图像中捕捉的背景场景有关的数据，等等。可邀请用户对与该数字图像集合中的图像相对应的一小组人、事件、以及位置手动地加标记。至少部分地基于所提取的特征和用户所提供的标记，可以至少部分基于用户所提供的标记和由概率模型为元素推断出的标记来按迭代的方式学习域之间的关系模型。在阅读并理解了附图和描述后，将明白其他方面。附图简述图I是便于向一图像集合自动分配标记的示例系统的功能框图。图2是示出多个语义模型和所习得的它们之间的关系模型的功能框图。图3是不同的域的各元素之间的关系的示例描绘。图4是示例关系表。图5是在向图像分配标记方面可使用的示例图形用户界面。图6是示出用于向图像自动分配标记的示例方法的流程图。图7是示出用于向至少一个图像分配至少一个标记的示例方法的流程图。图8是不例计算系统。详细描述现在将参考附图来描述关于向数字图像自动分配一个或多个标记的各种技术，在全部附图中相同的附图标记表示相同的元素。另外，本文出于解释的目的示出并描述了各示例系统的若干功能框图；然而要理解，被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地，例如，一组件可被配置成执行被描述为由多个组件执行的功能。参考

图1，示出了便于向一图像集合中的至少一个图像自动或半自动分配一个或多个标记的示例系统100。系统100包括数据存储102，它可以是硬盘驱动器、存储器、便携式闪存驱动器、⑶、DVD、或其他合适的计算机实现的数据存储。数据存储102包括图像104的集合、分配给这些图像104的多个标记106、以及标记跨图像104的子集的共同出现。如在下文中更详细地描述的，标记106的第一子集可由一个或多个用户分配给图像104的某一子集，且标记106的第二子集可通过机器学习和推断来自动分配给图像104的某一子集。界面组件110可以访问数据存储102并检索图像104的子集以呈现给用户112。根据一示例，界面组件106可使得图形用户界面被生成并在计算设备的显示屏上显示给用户112，其中该图形用户界面便于从用户接收一图像或一系列图像的标记。界面组件110可以接收由用户分配给图像的标记，并且可使得这些标记与适当的图像相对应地被存储。例如，用户可a)向某一图像分配指示该图像中的一个或多个人的身份的第一标记；b)向某一图像分配指示对应于该图像的事件的第二标记；和/或c)向某一图像分配指示对应于该图像的位置的第三标记。界面组件110可被配置成向用户指示就一个或多个图像而言要分配多少标记。用户112分配给图像104的子集的这些标记可被用于该系统中，以自动学习域之间的关系并自动推断分配给图像的标记。如本文所使用的，“域”可指某一类型的标记例如，第一类型的标记可以是人的身份，第二类型的标记可以是对应于图像的事件，而第三类型的标记可以是对应于图像的位置。因而，界面组件110能以交互式的方式来操作，请求用户112向某些图像分配标记并向用户112提供与图像的标记有关的、用户112可以确认的猜测。这一交互性可以使得对图像的自动加标记能以更加用户友好且高效的方式来发生。提取器组件114能访问数据存储102中的图像104，并且能从图像104中的一个或多个中提取一个或多个特征。可由提取器组件114提取的特征可包括与图像104中的人的身份相对应的特征、关于图像104所发生的事件、和/或关于图像104的位置。例如，提取器组件114可被配置成识别图像中存在的一个或多个脸部并可提取关于这些脸部的特征，包括例如眼睛颜色、一个或多个脸部特征的形状、发色，等等。另外，提取器组件114可被配置成提取与某些个人所穿的衣服有关的数据。此外，提取器组件114可以提取与对应于图像中的一个或多个图像的事件有关的数据，如图像的时间戳、图像中标识的活动(例如，某一个人正在奔跑或跳跃)等等。此外，提取器组件114可被配置成提取与对应于图像的位置有关的数据。例如，配备有GPS功能的数码相机可将地理坐标嵌入图像中，提取器组件114可被配置成从图像中提取这些坐标。在另一示例中，提取器组件114可被配置成生成与图像的背景场景有关的色彩签名或可指示关于图像的位置的其他特征。系统100还包括可访问数据存储102并从中检索标记106和共同出现108的访问器组件116。共同出现指示图像具有对应于第一域的第一标记以及对应于第二域的第二标记。在一示例中，共同出现108可包括指示以下信息的数据某一图像包括标识第一人的标记并包括该图像对应于第一事件的另一标记。因而，第一人和第一事件是该图像中的共同出现。这些共同出现108可以从由用户112分配给图像的标记中以及自动分配给数据存储102中的图像的标记中获得。系统100还包括被配置成对某些域以及不同域的元素之间的关系进行建模的多个计算机实现的模型118。具体而言，多个模型118包括被配置成对两个不同的域进行建模的两个模型120-122。例如，模型120-122可以是隐马尔科夫模型、贝叶斯网络、分类器集合、或其他合适的模型。多个模型120-122可对应于任何合适的多个域。在一示例中，第一模型120可对应于人域而第二模型122可对应于事件域，使得第一模型120被配置成输出在图像中捕捉到的人的标记而第二模型122被配置成输出关于图像的事件的标记。对于任何图像，人域可具有例如多个元素(图像中捕捉的人)和这些元素的多个类(不同的可能标记)。在人域示例中，图像中的元素可以是人并且分类可以是这个人的名字。在事件域中，对于特定图像，元素可以是对应于该图像的事件，而类可以是该事件的可能标记(生日宴会、圣诞宴会、家庭团圆)。因而，至少部分基于由用户112分配给图像的子集的标记和特征提取器组件114所提取的特征，模型120和122可各自被配置成输出图像104中的元素的标记的概率推断，其中来自第一模型120的概率推断对应于第一域中的元素而来自第二模型122的概率推断对应于第二域中的元素。多个模型118还包括对由模型120和122建模的域的各元素之间的关系进行建模的关系模型124。例如，第一模型120可以对人域进行建模，而第二模型122可以对事件域进行建模。在这一示例中，关系模型124可以指示哪些人可能参加关于图像的哪些事件(并还可指示在已知图像中的人的身份时在该图像中哪些事件可能被捕捉)。在一示例中，关系模型124可以是关系表的形式，其中该表的各值指示不同域的元素在一图像中彼此相对应的似然性。
可以用由访问器组件116访问的数据和由提取器组件114提取的特征来配置模型120和122以及关系模型124。具体而言，第一模型120和第二模型122可以接收数据存储102中的标记106、由提取器组件114从图像104中提取的特征、以及关系模型124的当前状态。在初始阶段，关系模型124的状态可以是某一常数(例如，O)。推断组件126可以分析模型120和122的状态，并且可输出至少部分基于模型120和122的状态来为图像104中的元素推断出的标记。在一示例中，推断组件126可以输出概率推断。例如，推断组件126可以输出图像中的元素的标记连同该标记正确的概率的某一指示。这样的推断(连同相关联的概率)可与标记106 —起被保留在数据存储102中，并且可至少部分基于这些标记(由用户112分配给图像的标记和推断组件126所输出的推断出的标记)来更新共同出现108。系统100还可包括可被用来估计/学习关系模型124 (例如，学习关系表的各值)的学习组件128。在一示例中，学习组件128可以接收来自数据存储102的标记106和共同出现108，并可基于这些标记106和共同出现108来估计/学习关系模型124。如上所示，由关系模型124表示的所习得的关系可被用来配置模型120和122，并且可至少部分基于所习得的关系来推断图像的标记。可至少部分基于推断出的标记来更新所习得的关系。这一过程可以迭代，直至以阈值概率推断出标记或对应于标记的概率收敛为止。标记分配器组件130可以接收推断组件126所输出的推断，并且可至少部分基于这些推断来向数据存储102中的图像104的子集自动分配标记。在另一示例中，标记分配器组件130可在从用户112接收到标记正确的指示时向图像分配标记。例如，标记分配器组件118可从推断组件126接收关于图像中的某一元素的特定标记，其中该特定标记具有相对应的某一概率。标记分配器组件130可将这一概率与预定义阈值相比较，并且如果该概率高于阈值，则标记分配器组件130可以用推断组件126所输出的该标记来对元素加标记。如果该概率低于阈值，则标记分配器组件130可以与推断组件110进行通信，并且可通知推断组件110图像中的特定元素不能用该标记正确的足够高的概率来加标记。推断组件110随后可请求用户112向所标识的元素分配标记。现在将提供关于提取器组件114的更多细节。如上所示，提取器组件114可被配置成从图像104提取特征。提取器组件114可以将所提取的特征之间的距离转换成表示特征之间的相似性的核心值。这可通过利用以下算法来进行KXllX2) = exp (-^d2O1,X2))。在(!(X1, X2)和 k(x1; x2)分别是特征 X1 和 X2 之间的以
核心值为单位的距离。可分别通过交叉确认来为不同类型的特征设置核心参数σ。如果提取器组件114所提取的特征是时间戳，则在各时间戳处于同一时间单位内时核心值可被设置成1，否则为O。可基于应用来设置时间单位。例如，时间单位可以是一天、一小时、一星
期7等等。现在，将关于生成包括域的模型以及关系模型的概率框架来提供更多细节。可以假定，存在M个域，并且第Y个域可由Yu表示。Yu中的元素和不同标记的数量可分别由Nu和Ku表示。Yu中每一元素的标记可由随机变量7&来建模，yu:i可取值{1，...，KU}，其中i是元素Yu的下标。对应于元素yu:i的特征可由xu:i表示。此外，可假定，如果两个不同元素(不同域或同一域中)与同一图像相关联，则它们共同出现。元素在域Y1^P Yv中的共同出现可由通过以下算法定义的指示符函数COuv和COvu来捕捉
权利要求
1.一种方法，包括以下计算机可执行的动作接收数字图像，其中所述数字图像包括对应于第一域的第一元素和对应于第二域的第二元素；以及至少部分基于一标记对应于所述数字图像中的所述第一元素的计算得到的概率来向该第一元素自动分配该标记，其中所述概率是通过利用被配置成推断所述第一域中的元素的标记的第一模型和被配置成推断所述第二域中的元素的标记的第二模型来计算得到的，其中所述第一模型接收标识所述第一域中的元素与所述第二域中的元素之间的所习得的关系的数据，并且其中所述概率是至少部分基于所习得的关系通过所述第一模型计算得到的。
2.如权利要求I所述的方法，其特征在于，还包括从所述数字图像提取特征，其中所述概率是至少部分基于所述特征来计算得到的。
3.如权利要求2所述的方法，其特征在于，所述特征是所述第一域中的元素的特征，其中所述特征被所述第一模型用来计算所述概率。
4.如权利要求2所述的方法，其特征在于，所述特征是所述第二域中的元素的特征，其中所述特征被所述第二模型用来计算所述第二元素要被分配第二标记的第二概率，并且其中所述第一域中的元素与所述第二域中的元素之间的所习得的关系是至少部分基于所述第二概率来计算得到的。
5.如权利要求2所述的方法，其特征在于，所述特征是以下之一所述数字图像中的个人所穿的衣服、所述数字图像的色彩签名、分配给所述数字图像的时间戳、或分配给所述数字图像的位置数据。
6.如权利要求I所述的方法，其特征在于，所述第一模型被配置成在概率上推断人域、位置域、或事件域之一中的元素的标记方面被使用，并且所述第二模型被配置成在概率上推断所述人域、所述位置域、所述事件域之一中的元素的标记方面被使用。
7.如权利要求I所述的方法，其特征在于，所述标记标识以下各项之一所述数字图像中的个人、对应于所述数字图像的事件、或关于所述数字图像的位置。
8.如权利要求I所述的方法，其特征在于，所习得的关系是通过最大化后验估计的方式来学习的。
9.如权利要求I所述的方法，其特征在于，还包括接收多个数字图像；以及向所述多个图像中的每一图像自动分配标签。
10.一种系统，包括以下计算机可执行组件接收数字图像并从所述数字图像提取至少一个特征的提取器组件；以及向所述数字图像中的元素自动分配标记的标记分配器组件，其中所述元素对应于第一域，并且其中所述标记分配器组件至少部分基于所述第一域中的元素与第二域中的元素之间的所习得的上下文关系来向所述数字图像分配所述标记。
11.如权利要求10所述的系统，其特征在于，所述第一域是以下之一人域、事件域、或位置域，并且其中所述第二域是以下之一人域、事件域、或位置域。
12.如权利要求10所述的系统，其特征在于，所述标记分配器组件至少部分基于所述第一域中的元素之间的所习得的关系来向所述数字图像中的元素自动分配所述标记。
13.如权利要求10所述的系统，其特征在于，所习得的关系包括不同域中的元素共同出现在所述数字图像中的概率。
14.如权利要求13所述的系统，其特征在于，还包括提供图形用户界面的界面组件，所述图形用户界面被配置成从人类接收与分配给多个数字图像中的元素的标记有关的输入。
15.如权利要求14所述的系统，其特征在于，所述界面组件被配置成接收确认分配给所述元素的标记正确的用户输入。
全文摘要
本文描述的方法包括接收数字图像，其中该数字图像包括对应于第一域的第一元素和对应于第二域的第二元素。该方法还包括至少部分基于关于一标记对应于数字图像中的第一元素的计算得到的概率来向该第一元素自动分配该标记，其中该概率是通过利用被配置成推断第一域中的元素的标记的第一模型和被配置成推断第二域中的元素的标记的第二模型来计算得到的。第一模型接收标识第一域中的元素与第二域中的元素之间的所习得的关系的数据，并且该概率是至少部分基于所习得的关系通过第一模型计算得到的。
文档编号G06F9/44GK102741815SQ201180008344
公开日2012年10月17日申请日期2011年2月4日优先权日2010年2月4日
发明者A·卡珀, S·J·贝克, 华刚, 林达华申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·J·贝克;A·卡珀;华刚;林达华
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。