用于生成和标记照片集合中的事件的方法和系统的制作方法

文档序号:6649545阅读:194来源:国知局
专利名称:用于生成和标记照片集合中的事件的方法和系统的制作方法
用于生成和标记照片集合中的事件的方法和系统
背景技术
下文描述了本发明的背景技术和问题领域。EXIF :可交换图像文件格式EXIF是向现有文件格式,如JPEG和TIFF添加特定元数据标签的行业标准。照相机制造商广泛使用EXIF标准,在拍摄时将相关元数据写入图像文件。所采用的元数据标签多种多样,但是趋向于包括拍摄的日期和时间,照相机设置,例如快门速度、孔径、ISO速度、焦距、测光模式、闪光的使用(如果有的话)、图像方向、GPS坐标、用于快速查看的缩略图以及版权信息等。EXIF标准的最新版本是 2. 21 版,可以在 http://www. cipa. jp/exifprint/index_ e. html上查到。GPS :全球定位系统—种基于卫星技术确定地理位置的方法。目前已有具有内置GPS技术支持的专用照相机,许多具有内置照相机的智能手机也具有GPS功能。在这些情况下,在拍摄照片时,照相机的经度和纬度,即当前GPS检索到的位置,被写入结果文件的EXIF元数据中。社交图谱社交图谱是基于个体及其相互依赖关系的社会结构的表示。图谱上的节点表示个体,节点间的关系定义相互依赖关系的类型,比如朋友、亲属、合作伙伴以及包括任意类型的业务关系的其他类型的关系。可以添加任意数量的与进一步说明相互依赖关系相关的附加属性来充实图谱。任何(通常是在线)服务的用户之间的关系可以通过社交图谱表达。人们对强调用户间互动的服务(例如社交网络服务)的社交图谱特别感兴趣。特别地,所述包含用户、用户照片和谁有访问这些照片的权限的社交图谱是本发明的相关图谱。通常通过利用服务的应用程序接口(如果可用)而衍生自这些服务的社交图谱趋于变得详细、最新以及信息密集。社交图谱或网络可以通过采用基于网络和图谱理论的数学技术进行分析。可能的应用范围为从提供用户目标服务到方便通信和内容共享以及行为预测、广告和市场分析。对象识别和计算机视觉基于内容的图像检索(CBIR)属于将具有相似内容的图像作为查询图像进行搜索的领域。本文中的术语“内容(content) ”可以指颜色、形状、纹理或可以从图像自身导出的任何其他信息,最新概况参见[I]。对象识别为使用计算机视觉和图像分析在图像集合中自动查找相似的对象、背景或场景的过程,是一种与本发明关系最密切的CBIR的子领域。年度PASCAL挑战赛[2]对富于挑战性的和成长性的数据集的算法进行评估。当前最先进的对象识别使用应用到被检测兴趣点的、在整张照片上密集采样的或全部应用到照片本身的局部描述符(经常是几个不同类型的组合)。特征描述符的实例为SIFT兴趣点检测器和描述符[3],HOG描述符[5](均包含照片局部梯度方向上发生的事情)以及其它局部检测器和描述符[4]。这些特征描述符和其他特征描述符在全局照片水平上也是适用的。对象识别建立在对这些描述符(可能与其他类型的数据相结合)的比较和分析上。

发明内容
本发明不局限于或依赖于特征描述符的任何特定选择(局部或全局)并且应认为以上参考是指示描述符类型的参考而非任何特定的选择。本发明描述了一种利用上述数据源自动将照片组织为事件的方法和系统。换言之,提供了一种将图像中的目标、背景、场景和元数据的识别与社交图谱数据相结合用于自动检测感兴趣事件的方法和系统。
具体实施例方式事件 事件定义为在相同地点和相同时间间隔内拍摄的一组照片,展现真实世界发生的事情。这种发生的事情可以是任何事情,从社交集会或聚会到新闻事件或到旅游胜地参观。特别地,事件可以包括由任意数量的个体(例如婚礼上的多位客人)所拍摄的照片,每位客人使用任意数量的成像设备拍摄自己的那组照片。事件通过对用户来说自然的方式将照片集合分段。同时,事件将自然属于一体的照片绑定在一起,即使这些照片可能来自不同的人和来源并且可能包括不同文件格式的图像。事件需求由使用所有可能在线方法的全部用户社交关系共享的所有照片可很快加到一起形成数量巨大的内容。由于用户没有花费时间以便于个体(对这些个体来说,照片具有相关性)检索或共享的方式来标记照片,这些内容大部分常常是无组织的。因此,大部分在线照片的结局是没有被看到也没被使用。事件为消耗组织结构提供了方便,这有助于使大量照片集合有意义。通过使用由事件组织的照片的整个社交图谱,用户可以更容易的获得全部可用内容的概览。由于是根据“真实世界”发生的事情进行逻辑组织而非由摄影师来分段,因此检索变得更加自然。所有情境相关的照片一同呈现,因此再也不需要查看多个地点以清楚的了解相关内容。事件本身具有元数据集,包括但并非严格包括或限于日期和时间范围、地理位置、描述名字或标记、任意类型的组织标签和身份信息,所述身份信息属于包含在事件内的照片中出现的人。事件的创建事件可以由人们手动创造,人们利用某些现有在线服务或工具对事件进行组织并且将某一真实世界发生的事情的照片手动添加到某一处的普通相册,但是这在实际上很少发生。尽管有用性(如之前部分所述)是很清楚的,但这种方法明显存在几个问题I.概念陌生。在线照片仍然是一种较新的现象,并且大多数用户仍然认为只有实体相册能将某人在一个地方的照片保存一段时间。2.缺乏工具。事实上,不存在专用于此用途的工具(在线的或其它类型的)。现有工具或服务可以重新设置或适应来实现此项功能,但是由于这些工具并非为方便此功能而设计,所以对工具常常具有严格的限制。3.技术困难。将来自一个地点的几个来源的照片聚集起来并且利用自建或重新设置的工具和服务对照片进行组织是一项技术上的挑战,因此普通用户无法做到。4.费力费时。虽然现有工具和服务可以保存一组照片并且使相关人员可以访问这些照片,但是上传、分类以及将这些照片组织为一个有用的相关整体要耗费大量时间、精力以及用户间的合作。所要消耗的时间要多于用户预期的平均值。本发明介绍了通过由社交图谱联系的个体自动创建照片以外的事件的方法。除了利用社交图谱自身聚集的信息外,元数据、EXIF信息、GPS坐标和计算机视觉技术用于将照片集合分段成事件并且将相关元数据添加到每个事件中以方便与事件相关的人检索和分
享事件。数据源 下述方法和数据源可以用于将照片集合分段,将这些片段和其他片段相关联,从而形成事件并提供元数据使得可以容易地检索(通过浏览或搜索)和共享每个事件。将这些方法和数据源联合使用可以生成一种用于将遍及在线服务,社交网络和个体的照片组织起来的稳定系统。日期和时间(用于分段)日期和时间是分段照片的有效方式。通常可以用两个基本时间戳(拍摄时间和上传时间)在在线场景下进行分段。通过对在同一时间点上传的全部照片进行聚类,可以对照片进行很粗糙的初步分段。此处做出如下假设所拍摄的一件现实世界发生的事情的照片基本上全部在同一时间上传。通过查看拍摄时间,可以进一步划分前一步骤得到的片段。通过将拍摄的、在未超过一定阈值时及时进一步分开的照片分组来进行划分。EXIF数据(用于分段)通过分析每张照片的EXIF数据,也可以将照片分段或对分段进一步微调。分段可以用来检测场景或主题的快速变化,从而提示应创建一个片段边界。本发明使用下列连续拍摄的照片中的场景或主题的快速变化作为指标I.快门速度的大幅变化。在相同的场景/位置内,采光趋向于基本一致。大的变化表明场景/位置已经发生变化,例如由于摄影师自身的位置从建筑内部变化到外部或从外部变化到内部。2.闪光的使用。在亮度降低的情况下,大多数照相机会自动启动闪光功能,特别是在设置为自动模式时。因此,使用闪光可以用来表明上述的场景/位置变化。相反地,突然中断闪光的使用,特别是快门速度提高时,也可表明场景/位置变化。3. ISO速度大幅变化。大多数照相机会由于亮度的变化自动改变ISO速度。亮度越高,ISO速度越低,反之,ISO速度越高,亮度越低。这些再次表明场景/位置变化。4.白平衡变化。大多数照相机会由于场景/位置变化而改变自身的白平衡。“白炽”白平衡用于在照相机所认为的室内白炽灯下拍摄,而室外拍摄采用“日光”白平衡。对象识别(用于分段)照片也可以基于重叠的视觉外观进行分段。通过采用对象识别系统,特征描述符可以对每个图像进行计算,并进行比较用于可能的配对。这些特征描述符可以是任意类型的表示照片内区域的局部描述符(例如REF或类似内容),或表示一整幅照片的全局描述符(例如REF或类似内容)一个实例是将连续图像之间的描述符配对以确定视觉内容的不连续性,从而建议应创建新的分段边界。另一个可替代的实例是将任意一对图像间的描述符进行配对,从而确定片段在时间上并非是严格连续的。社交图谱(用于关联)可以基于用户社交图谱选择被判定为社交关系足够密切的个体使之令人感兴趣(朋友,家人等)。从所有这些个体分段的照片基本上与初始用户的那些片段相关联。通过进一步采用下述相关法,不同用户的片段可以相互配对从而建立最终事件。日期和事件(用于关联)在通过社交图谱建立了片段集合之后,片段必须彼此关联以建立一个事件。从其他用户为用户自己的片段找到配对片段是早期步骤,需要找到时间段重合的片段。每个片段具有一个开始时间戳和一个结束时间戳。所述开始时间戳是所述片段第一幅照片的时间戳,相反地,所述结束时间戳是所述片段最后一幅照片的时间戳。当一特定片段的开始或结束时间戳在另一个片段的开始时间戳和结束时间戳之间时,则判定两个片段重合。假定基于此方法的任意不重合的片段为独立事件,即这些事件的照片由同一摄影师拍摄。不再对其进行进一步处理。重叠片段变为候选片段簇。该簇中的每个片段与至少一个其他片段重合。发送该簇,利用GPS数据(如果可用),或人脸识别和其它计算机视觉技术等进一步配对。GPS数据(用于关联)如果候选片段簇中的两个或两个以上片段包含嵌入了 GPS数据的照片,或另外提供了照片的位置数据,则可以计算这些位置之间的距离。如果一个片段的一幅或多幅照片的位置为距离其它片段的照片在一定阈值距离内,将候选片段加入一个事件。进一步地,如果这些片段对的位置也足够近,可以将簇的片段对加入此事件。对具有GPS或其他位置数据的所有片段重复以上过程。利用人脸识别和其它计算机视觉技术对每个簇的尚未被加入到其它簇中形成事件的任何剩余候选片段进行处理,从而进一步找出配对。人脸识别(用于关联)人脸识别技术可以用于把簇内的候选片段彼此相关联并通过多种方式建立除此之外的事件。所有这些都取决于找出各个片段的每张照片内的人脸和之前使用例如日期、时间或GPS坐标创建的事件。然后,可以使用命名或未命名的人脸将片段配对。使用命名人脸配对人脸可以通过两种方式命名I.手动用户具有一张人脸并请求为其命名。可以重复该过程直至命名完所有人脸。2.自动基于一组已命名的人脸,如果人脸看起来足够相似,人脸识别技术可以根据某些阈值自动命名未命名的人脸。
可将两种方法相结合用户命名一部分,以及系统进一步全部自动命名相似的人脸,或者系统向用户提供认为是同一个人的人脸列表并且请求用户验证。一旦已经命名了每个候选片段或事件的一组人脸(虽然并非必须是全部),就可以进行配对。如果候选片段簇或之前创建的事件的两个或两个以上片段具有片段内命名的相同的人或人群,这些片段和/或事件联合在一起形成新的事件。这是基于同一个人不会在同一时间出现在两个地点的原则。由于候选片段簇的所有片段在时间上重合,并且这个人出现在几个片段或事件的照片中,几乎可以确定这些片段属于同一真实世界发生的事情。命名时,社交图谱可以用于唯一地定义可能具有相同名字的人。使用未命名人脸进行配对。与上述类似,可以单独基于人脸识别而不受用户影响地仅仅将候选簇中的片段配对。如果由人脸识别引擎判断的两个或两个以上片段中的人脸足够近,就被称为人脸配对。如果在一个簇或之前创建的事件中任意数量的片段间超过人脸配对的阈值,所述片 段和/或事件联合起来形成一个新的事件。对象识别(用于关联)如果候选片段簇中的两个或两个以上片段包含具有配对特征描述符的照片,可以计算相似度得分来表明照片的相似度。取决于所采用的特征描述符,得分将表明是相似的目标还是相似的全局照片内容。如果相似度得分低于某个阈值(低分表明能更好地配对),将候选片段加入一个事件。剩余片段处理此时,可以和其它簇自动相关联的簇中的所有片段已经结合形成事件。剩余的任意片段由于自身的因素变为单独的独立事件,即所有照片均由一个摄影师拍摄的事件。现在,收集元数据以便标记事件,使得事件更容易检索和浏览。对象识别(用于元数据)对象识别技术可以用于为事件自动提取元数据。这使得可以通过出现在事件中的目标类型或种类浏览事件。任意最新的对象识别系统,例如年度PASCAL挑战赛[2]中所述的系统,可以用于描述照片的内容。为了提取元数据,对象识别采用两种不同的方式。 分类在全局水平上为照片分配标签表示照片的种类或种类的层次。·目标定位为照片内的区域分配标签,例如将标签分配给边界框,表明标签应用到特定区域。人脸识别(用于元数据)一个事件的照片中出现的所有独一无二的人的名字可以作为元数据添加到事件中。这样,可以使事件中的人浏览事件或搜索包含特定人或人群的事件。这些名字连同日期和事件也成为事件标签的一部分。日期和时间(用于元数据)特定事件(见之前部分)的开始时间戳和结束时间戳存储为该事件的元数据。如果缺乏基于计算机视觉技术的或手动提供的名字,这些可能成为涉及事件的主要方式。本发明的一个实施例提供了一种将照片自动分组的方法,该方法包括下述步骤
-利用社交图谱、日期、时间、EXIF和对象识别的任意数据源或组合将照片集合进行分段;-进一步利用社交图谱、日期、时间、GPS、人脸识别和对象识别的任意数据源或组合将这些片段相关联;-提供元数据进行检索。本发明的另一个实施例提供了一种计算机程序,所述计算机程序存储于计算机可读存储介质中并且在计算单元内执行从而将照片自动分组,其包括如下步骤-利用社交图谱、日期、时间、EXIF和对象识别的任意数据源或组合将照片集合进行分段;-进一步使用社交图谱、日期、时间、GPS、人脸识别和对象识别的任意数据源或组合将这些片段与其他片段相关联;-提供元数据进行检索。本发明的又一个实施例提供了一种包含根据上述实施例所述的计算机程序的将照片自动分组的系统。本发明的另一个实施例提供了一种用于通过例如从网站下载照片来获得照片、分析照片、存储数组照片代表以及提供检索或查看这些照片组的方式的系统或装置。我们已经描述了本发明的基本方法连同实施例列表。参考文献[I]R. Datta, D. Joshi, J. Li, and J. Wang. Image retrieval Ideas, influences,and trends of the new age. ACM Comput. Serv. 40,2(2008).[2]Everingham, M. and Van Gool, L. and Williams, C. K. I. and Winn, J. andZisserman, A·, The PASCAL Visual Object Classes Challenge 2009(V0C2009)Results, " http://www. pascal-network.org/challenges/V0C/voc2009/workshop/index, html[3]D.Lowe, Distinctive Image Features from Scale-Invariant Keypoints,International Journal of Computer Vision,60,2,2004.[4]K. Mikolajczyk and C.Schmid,Scale and Affine Invariant Interest Point Detectors, International Journal of Computer Vision,60,1,2004.[5]Qiang Zhu, Shai Avidan, Mei-Chen Yeh, Kwang-Ting Cheng, Fast HumanDetection Using a Cascade of Histograms of Oriented Gradients, TR2006-068 June2006, Mitsubishi Electric Research Laboratories.
权利要求
1.一种将属于一个或多个用户的照片自动分组的方法,包括下列步骤 -使用社交图谱、日期、时间、EXIF和对象识别的任意数据源或组合将照片集合进行分段; -进一步使用社交图谱、日期、时间、GPS、人脸识别和对象识别的任意数据源或组合将这些片段与其他片段相关联; -提供元数据以使得能够检索。
2.根据权利要求I所述的方法,其中,所述集合是用户相册或相册的一部分。
3.根据权利要求I所述的方法,其中,所述片段在社交网络用户之间或照片分享网站之间相互关联。
4.根据权利要求I所述的方法,其中,所述元数据是使用人脸识别计算得到的名字或身份。
5.根据权利要求I所述的方法,其中,所述片段的关联是使用通过人脸识别与下述方面结合来进行的 -任何用户的用户互动,或 -任何用户预标记的人脸。
6.根据权利要求I所述的方法,其中,所述片段的关联是通过对存在足够多的人脸配对时的分组的片段以及未命名人脸的人脸识别来进行的。
7.一种存储在计算机可读介质中的计算机程序,所述程序在计算单元中执行以实现根据权利要求I所述的照片的自动分组。
8.一种包括根据权利要求7所述的计算机程序的将照片自动分组的系统。
9.根据权利要求8所述的系统,所述集合是相册。
10.根据权利要求8所述的系统,所述集合在社交图谱上创建。
全文摘要
一种自动将照片组织为事件的方法。事件定义为在相同地点和相同时间间隔内拍摄的一组照片,展现真实世界发生的事情。所述方法包括如下步骤使用照片上的已知日期、时间、EXIF数据对照片集合进行分段或进行对象识别。基于人脸、对象识别或社交图谱将具有相似日期、时间或GPS信息的片段相关联。提供元数据以便标记事件。
文档编号G06F17/30GK102687146SQ201080059694
公开日2012年9月19日 申请日期2010年10月7日 优先权日2009年10月27日
发明者尼科拉耶·尼霍姆, 杰弗·帕克, 简·艾瑞克·索姆, 蒂基斯·斯塔岚霍夫 申请人:苹果公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1