利用图像获取参数和元数据自动和半自动的图像分类、注释和标签的制作方法

文档序号：6349205阅读：143来源：国知局

专利名称：利用图像获取参数和元数据自动和半自动的图像分类、注释和标签的制作方法
技术领域：
本发明涉及用于检索引擎或检索引擎一部分的系统和过程，其中该检索引擎使用自动、半自动或手工获得的元数据和/或非元数据，以基于语义图像属性和内容表征、检索和找回图像知识库。
背景技术：
产生的电子图像的数量正在高速增长，利用语义检索它们是巨大的挑战。许多可用的未加工的图像几乎没有有意义的语义内容的直接注释，这限制了它们的检索和发现。虽然一些图像知识库或网址鼓励手工纳入标签或关键词，而这远远还不普遍。语义图像内容的手工表征经常主观、劳动量大并且不一致。手工表征或注释的相对耗时的过程也不可能跟上通过数字和非数字方法产生图像的速率。在图像领域已有表征图像内容的尝试。例如，美国专利No. 7，555，165涉及一种利用照相机数据和基于内容的提示进行语义场景表征的方法。但是，该专利没有利用GPS数据，时间信息或诸如脸部检测、脸部识别的图像识别技术，这限制了可以确定的有关未知图像的信息量。该专利也限制于将图像放置于类中，并且不能提供更丰富和更通用的注释。公开的美国专利申请2009-022M32涉及对照片和视频元数据打上地理信息标签并自动产生。虽然使用GPS坐标有助于图像的分类，但是它不提供表征图像内容的方法。由本发明人撰写并于 2008 年 11 月在 IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol. 30,No. 11,pp. 1933-1944 公开的内容在此援引并入，其讨论了利用元数据抽取的图像的语义注释。颜色特征抽取、形状特征抽取、以及纹理特征抽取进一步应用于图像，以产生图像的语义数据库。但是，现有技术中还有一种需要，即改进的语义图像内容的注释和分类。例如，利用本发明，图像可以自动注释为“Jack Kennedy在印度洋海啸的前夜，澳大利亚金海岸日落时的海边”，这对于上述技术来说是不可能的。

发明内容
本发明涉及用于检索引擎或一部分检索引擎的系统和过程，其中该检索引擎利用自动、半自动、或手工获取的元数据和/或非元数据，以基于图像内容和语义属性，表征、检索和找回图像知识库。它提供了一种基于图像的内容和语义属性，自动或半自动产生图像的注释、标签、和分类的机制，其中该内容和语义属性导致图像能够被识别、发现和找回。本发明可以应用于网络检索、个人检索、社区检索、以及互联网、局域网、外联网或特定知识域中的广泛或垂直检索引擎。本发明的一个方面涉及一种支持图像的检索和识别，以识别、分类和特别注释图像的语义属性和内容的方法，该方法利用了自动获得的图像获取和相关的参数之间的关系，其中该参数例如为曝光时间、焦距、焦距比数(f-number)、相对光圈、闪光触发信息、ISO 设置、视角、物距、时间戳、以及GPS(全球定位系统)信息。该方法包括规则的应用，该规则是确定性的或概率性的，将这些参数的值相关联以推断和分类图像的语义内容。从该过程看出，通过图像的语义属性和内容可以检索和找回图像，而无需手工注释或加标签。可以通过特定图像处理的集中应用和确认、SIFT和相关技术，并与其他形式的元数据，例如标题或关键词以及本质和公知推理一起，执行图像语义的进一步丰富。本发明实现了自动产生高精度语义图像注释和表征，据此高精度检索大量其他未标弓丨的图像收集变得可行。通过该自动技术，借助自动装置，通过图像的语义属性和内容检索图像成为可能。

图1示意了根据本发明的方法的概念性结构图，该方法用于自动提供图像的语义属性和内容的语义表征。
具体实施例方式本发明通常涉及图像内容和语义属性的表征，其可以采取人们使用的任何找回标准的形式，以检索和找到图像。相应地，附图和描述可以认为实质上是示意性的，而不是限制性的。本发明对于自动标引图像尤其有用。本发明消除了执行耗时的手工标引的必要，手工标引已表现出成本很高，并且如果由不具代表性的小组来完成的话，也会产生有偏差和主观性的标引结构。本发明利用了元数据，其是嵌入在图像内的描述性信息。某些描述性信息典型地在图像产生时自动产生。例如，EXIF信息(可交换图像文件形式)，其取决于图像记录器，例如照相机的制造和模型，通常包括下述信息例如记录图像的日期和时间、分辨率、照相机设置(诸如快门速度、ISO、焦距、曝光时间、焦距比数、相对光圈、应用的压缩量、颜色信息、闪光触发信息、视度、物距等。较新的数码相机还经常包括GPS (全球定位系统)参数。经常与图像文件相关的其他类型的元数据是由新闻局初始建立的IPTC(国际新闻通信委员会)，由Adobe建立的XMP (可扩展的元数据平台)，以及MPEG-7 ( “多媒体内容描述接口”)。MPEG-7提供了一组视听描述工具(元数据元素及其结构和关系，其由描述符和描述方案形式的标准限定)以产生多媒体内容的描述。但是，本发明适用于嵌入在图像文件中或与图像文件关联的任何元数据，而不管其是何种格式类型。参照图1，描述了一般性的结构图，用于示意本发明的方法的一个方面。它包括图像的知识库(1001)，其中该图像典型地，但非必要的是数字图像。该图像可以结合上述的诸如图像获取参数的元数据，以及诸如时间戳和GPS(全球定位系统)信息的其他元数据。也有一些与图像有关的数据，例如内容分类、注释、标签、注释、标题、关键词、大标题、评语、备注、题目、相关文本、周围文本、或者链接文本。该图像获取参数、元数据、和/或相关数据将被识别和抽取(100 。通过任何传统技术，例如使用搜索引擎，来执行该识别和抽取，该搜索引擎在检索中使用元数据参数，其中该元数据参数例如在因特网上可以购买到。接下来(100 是图像的语义表征，包括场景分类、注释、或者加标签。该步骤 (1003)将包括图像获取参数和元数据的处理，规则的形成和应用，该规则将图像获取参数值链接到图像的语义属性和内容。另外，也可以应用(1004)算术和/或计算程序。该程序能够进一步抽取有关图像的信息。这些包括，但不限于，尺度不变特征变换(SIFT)、边缘检测、感兴趣点的检测、角落检测、斑点检测、感兴趣的区域的检测、脊柱检测、特征抽取、特征检测、颜色抽取、颜色组成、颜色柱状图构成、颜色检测、形状检测、边界检测、脸部检测、以及脸部识别。利用这些技术，可以从初始的基于规则的注释，进一步确定和确认物体、场景、建筑、人等的存在。最终的数据，要么是未处理的形式，要么是处理的形式，可以用做有意义的找回标准。例如，图像数据的表征可以是规则的形式，要么是确定的、要么是概率性的或其组合，和/或其他计算程序和算法。该表征可以直接或间接导致图像的分类、注释、加标签、丰富、标引、检索、标识或找回。例如，利用特殊的规则来表征图像会导致向图像自动增加注释信息，这更有助于该图像的语义检索。由本发明的方法表征的图像可以是网络图像，非网络图像或其他公共或私人图像知识库中的图像。它们可以是数字的或非数字的图像。该方法可以应用于图像数据库，网络检索，个人检索，社区检索，以及互联网、局域网、外联网或其他用途的广泛的或垂直的检索引擎。根据本发明的另一方面，通过查询外部或内部数据库可以丰富和扩展表征或元数据；例如，可以通过从单独的数据库找回给定地方、某一时间(例如从图像日期和时间戳确定)的温度或天气信息，来注释或标引给定位置的温度或天气，该信息可以用于访问或表征相关的图像。该表征，包含任意丰富信息，可以采用人们使用的任何形式的图像找回标准。与图像获取参数和图像内容相关的规则的另一示例可以是当焦距属于一组特定值、曝光时间属于一组特定值、物距属于一组特定值、时间戳属于一组特定值、以及相对光圈属于一组特定值时，那么这暗示图像可能是某一种场景或包括某几种内容。这些规则可以利用图像获取参数、相关数据、和元数据的属性组合中的结合和/或分离。注意，元数据、非元数据、图像获取参数和/或其他形式的内部或外部数据虽然包含或不包含在图像文件形式中，但是可以直接或间接可记录或可抽取。例如，这些可以包括脸部、指纹、或其他生物的存在、检测或识别或相关数据。进一步，标题、关键词、大标题、标签、评语、备注、相关文本、周围文本、链接文本、和/或描述也可以被检查，并用于表征图像和/或丰富图像的语义属性。另外，也可以使用图像处理算法和程序，例如SIFT (尺寸不变特征变换)、形状、颜色、特征、纹理抽取技术，来表征图像和/或丰富图像的元数据。根据本发明的再一方面，管理图像获取参数的规则可以指示如日出或日落场景中的图像，其和GPS坐标与时间戳、脸部识别一起，并联系脸部数据库和新闻数据库，使得图像自动注释为“澳大利亚金海岸的秋天的大海的日落”。随后，这些数据可以从外部数据或多个数据库(1005)，例如天气日志、给定地方在给定时间的新闻数据、或者脸部数据库，进一步关联和丰富。这些语义表征(1003)、算术和计算程序(1004)和任何丰富信息(100 —起可以将图像注释为“Jack Kennedy在印度洋海啸的前夜，澳大利亚金海岸日落时的海边”(1006)，这可以用作图像找回标准，以检索相关的图像。可以从这些建立恰当的标引(1006)以有助于检索过程。也就是说，丰富信息可以和图像相关联用作元数据和/或增加至标引以便于检索。注意，语义内容可以是用户感兴趣的任何内容；该内容可以是，也可以不是直接或间接机器可抽取的。该内容的示例包括图像中的物体(例如，事物、人)；图像中物体的关系；图像中物体或关系的属性或特性；图像中的场景；图像中的环境；图像的情境；图像中的界标；拍摄图像的位置；拍摄图像的时间；图像中的背景；图像中的特征；图像中的场合；图像中的事件；拍摄图像的原因；图像中的活物和非活物；图像中人的情绪；以及图像中的动作。丰富信息可以用于自动在MPEG-7结构注释数据型、关键词注释数据型、文本注释数据型、或者MPEG-7标准或其他诸如XMP标准中的其他数据型中填入场或信息。可以自动、半自动或手工产生图像元数据，非元数据，图像获取参数和/或其他形式的内部或外部数据。根据本发明，自动产生高精度语义图像注释和表征，据此高精度检索大量其他未标引的图像收集变得可行。通过该自动技术，借助自动装置，通过图像的语义内容检索图像成为可能。说明书中描述的操作可以由数据处理装置对于一个或多个计算机可读存储设备中存储的数据或从其他来源接收的数据执行操作来实现。术语“数据处理装置”包含用于处理数据的各种装置、设备、以及机器，包括借助下述示例，可编程处理器、计算机、芯片系统、或其组合。该装置可以包括特殊应用逻辑电路，例如FPGA(现场可编程逻辑门阵列)或 ASIC(专用集成电路)。该装置除了硬件之外，也包括产生用于所讨论的计算机程序的执行环境的编码，例如构成处理器固件的编码、协议栈、数据库管理系统、操作系统、交叉平台运行时间环境，例如虚拟机，或者它们中一个或多个的组合。该装置和执行环境可以实现多种不同的计算模型结构，例如网络服务、分布式计算和网格计算结构。虽然根据上述的实施例，描述了前述发明，但是许多变形都是可以的。相应地，如上述建议的，但不限于此的修改和改变也被认为落入下述权利要求的范围中。
权利要求
1.一种通过分析图像获取元数据、与图像相关的数据、和/或图像本身来语义地表征数字或非数字图像的语义属性和内容的方法，所述图像、图像获取元数据、以及与图像有关的数据存储在非暂时性计算机可读存储介质中，并利用元数据和/或相关的数据之间的概率性的或确定性的关系，产生语义图像表征，其用于丰富先存在的元数据和/或相关数据，或者用于标引计算机可读存储介质中的图像内容，以有助于今后通过数据处理装置，利用语义术语找回图像。
2.如权利要求1所述的方法，其中所述图像获取元数据从焦距、曝光时间、相对光圈、闪光灯信息、ISO设置、视角、物距、时间戳、或GPS信息中的至少一个选择。
3.如权利要求1所述的方法，其中所述相关的数据从内容分类、注释、标签、多个注释、标题、关键词、大标题、评语、备注、题目、相关文本、周围文本或链接文本中的至少一个选择。
4.如权利要求2所述的方法，其中该表征利用规则、和/或其他计算程序和算法。
5.如权利要求1所述的方法，其中所述图像可以是网络图像、非网络图像、位于其他公共或私人图像知识库中的图像；所述方法可以应用到图像数据库，网络检索，个人检索，社区检索，以及互联网、局域网、外联网或其他用途的广泛的或垂直的检索引擎。
6.如权利要求2所述的方法，其中通过将元数据和/或相关数据与外部或内部数据库相关联，可以增强该表征。
7.如权利要求6所述的方法，其中所述关联包括利用GPS坐标和时间戳元数据，以从用于图像位置和时间的天气或新闻数据库，或者从其他地理信息系统或数据库确定天气或新闻信息。
8.如权利要求1所述的方法，其中所述语义表征包括图像中的一个或多个物体，图像中物体之间的关系，图像中物体或关系的属性或特性，图像中的场景，图像中的环境，图像的情境，图像中的界标，拍摄图像的位置，拍摄图像的时间，图像中的背景，图像中的特征，图像中的场合，图像中的事件，拍摄图像的原因，图像中的活物和非活物，图像中人的情绪，或者图像中的动作。
9.如权利要求1所述的方法，其中所述图像元数据和/或相关的数据可以自动、半自动或手工产生。
10.如权利要求4所述的方法，其中所述表征规则通过确定当焦距属于一组特定值、曝光时间属于一组特定值、物距属于一组特定值、时间戳属于一组特定值、以及相对光圈属于一组特定值时，来从图像获取元数据中推断图像内容，该图像是某种场景或包含某种内容。
11.如权利要求10所述的方法，其中所述表征规则利用图像获取元数据的组合特性中的结合和/或分离。
12.如权利要求1所述的方法，其中所述图像获取元数据包括可交换图像文件形式即 EXIF元数据。
13.如权利要求1所述的方法，其中图像的表征产生于图像的分析，包括脸部检测、脸部识别、指纹识别或其他生物数据的识别。
14.如权利要求13所述的方法，其中可以对来自生物数据的数据库的图像增加注释。
15.如权利要求14所述的方法，其中所述生物数据是脸部特征或指纹。
16.如权利要求1所述的方法，其中所述图像的表征包括利用图像处理算法分析图像，以确定图像的形状、颜色、特征或纹理。
17.如权利要求14所述的方法，其中所述图像处理算法是尺寸不变特征变换即SIFT。
18.如权利要求1所述的方法，其中丰富先存在的元数据包括自动填入MPEG-7标准内的一个或多个场。
19.如权利要求16所述的方法，其中所述MPEG-7的场选自结构注释数据型、关键词注释数据型、和/或文本注释数据型。
全文摘要
提供一种利用图像获取参数和元数据自动或半自动表征图像内容的方法。该方法在不同类型的元数据与图像的语义属性和内容之间建立概率性的和确定性的关系。它提供了一种基于图像的内容、语义属性和元数据特性，自动和半自动将图像分类、注释、加标签、标引、检索、标识或找回的机制。该方法利用，但不限于，图像捕获元数据，例如焦距、曝光时间、相对光圈、闪光灯信息、ISO设置、视角、物距、时间戳、GPS信息和其他形式的元数据，该其他形式的元数据包括但不限于可以自动、半自动或手工产生的标题、关键词、大标题、标签、评语、备注、题目。本发明可以应用于图像数据库，网络检索，个人检索，社区检索，以及互联网、局域网、外联网和其他用途的广泛的或垂直的检索引擎。
文档编号G06F17/30GK102422286SQ201080020757
公开日2012年4月18日申请日期2010年3月11日优先权日2009年3月11日
发明者刘际明, 梁灏锵, 黄振奋申请人:香港浸会大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁灏锵;黄振奋;刘际明
技术所有人：香港浸会大学
我是此专利的发明人

上一篇：用于文档管理、转换和安全性的系统和方法
上一篇：用于比较分子标签的设备和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。