对象检测元数据的制作方法

文档序号:6360357阅读:85来源:国知局
专利名称:对象检测元数据的制作方法
技术领域
本发明的实施例一般地涉及对象检测元数据。
背景技术
相机和其他计算设备挑选出照片和视频数据帧中的对象的一个或多个位置的能力正在日益增强。例如,一些计算设备可以挑选出面部(例如,人类面部)的一个或多个位置。面部检测是确定面部(例如,人类面部)在静止或视频图像数据中的某一位置出现的处理。面部匹配是确定在一图像帧中检测到的面部与在另一图像帧中检测到的面部相同的可能性的处理。第三个处理是面部标识,这是一种用检测到的面部的名字或其他标识符来标识面部的处理
发明内容
在一个实施例中,生成对象检测元数据。在第一坐标系中生成围绕图像数据帧中检测到的对象的周界。所述周界从第一坐标系转换到与第一坐标系具有相同宽高比的第二坐标系。生成包括有第二坐标系的维度的第一元数据条目。生成第二元数据条目,其中该第二元数据条目包括有用于定义检测到的对象的位置和经转换的周界在第二坐标系中的维度的信息。在另一个实施例中,对象检测元数据条目包括第三元数据条目,其中所述第三元数据条目包括额外检测到的对象的位置以及经转换的周界。第二元数据条目和第三元数据条目可以包括分层值。分层值指示第二元数据条目的检测到的对象与第三元数据条目的额外检测到的对象相比是更接近于相机还是与之相距更远。在再一个实施例中,图像数据中的第一帧的第二元数据条目包括匹配值,所述匹配值可以是分配给检测到的对象的唯一索引值。如果在图像数据的不同帧中检测到了该对象,那么与图像数据的所述不同帧相对应且指示了对象在所述不同元数据帧中的位置的元数据条目可以包括用于指示检测到的这两个对象是同一对象的相同的唯一索引值。在另一个实施例中,第二元数据条目包括检测到的对象的加权。该加权指示检测到的对象实际上是所述检测到的对象的概率。例如,检测到的对象加权可以提供检测到的加权实际上是人类面部的概率。在又一个实施例中,第二元数据条目包括匹配对象加权。所述匹配对象加权指示两个匹配对象实际上是同一对象的概率。例如,匹配对象加权可以提供在不同图像帧中检测到的两个对象与同一个人的面部相对应的概率。


本发明在附图中举例例示且并不受附图限制。在附图中,相似的参考符号指示类似的元素。图I是例示了根据本发明实施例的对象检测周界的图示;
图2是例示了根据本发明实施例的重叠对象检测周界的图示;图3是例示了根据本发明实施例的帧间对象匹配的图示;图4是例示了根据本发明实施例生成对象检测元数据的方法的流程图;图5是例示了根据本发明实施例的提取对象检测元数据的方法的流程图;图6是例示了根据本发明实施例的传送对象检测元数据的方法的流程图;图7是例示了根据本发明实施例的对象分层的流程图;图8是例示了根据本发明实施例的对象匹配的流程图;图9是例示了根据本发明实施例的对象检测元数据格式的图示; 图10是可以与本发明实施例一并使用的数据处理系统的图示;图11是可以与本发明实施例一并使用的设备的图示;图12是例示了根据本发明实施例的对对象检测元数据的索引进行搜索的方法的流程图;以及图13是例示了图像数据轨道与对象检测元数据轨道之间的关系的图示。
具体实施例方式本发明的各种实施例和方面将参考如下讨论的细节来描述,并且附图将例示所述的各种实施例。以下描述和附图对本发明做出例示,并且不应被解释成限制本发明。描述了众多的具体细节以提供对本发明各种实施例的全面理解。然而,在某些实例中,众所周知或常规的细节并未被描述,以提供对本发明的实施例的简明论述。在一个实施例中,对象检测元数据描述了对象在照片、视频帧以及其他图像数据中的位置。对象检测元数据可被存储作为与静止或视频图像数据相关联的基于剪辑的元数据或者与视频轨道相关联的定时元数据。定时元数据可被存储在与视频轨道相关联的元数据轨道中。在一个实施例中,元数据轨道和视频轨道可以依照加利福尼亚州库珀蒂诺市的Apple Inc.开发的QuickTime文件格式或是根据其他文件格式来生成。在一个实施例中,对象检测元数据可以包括面部检测元数据,所述面部检测元数据可以包括关于人类或动物面部的元数据。在其他实施例中,对象检测元数据可以包括可在图像数据中检测到的其他对象(例如汽车、车牌或是其他任何可检测对象)的元数据。不同的检测技术可被用于检测不同的对象。例如,一种技术有可能较适合检测人类面部,而另一种技术则有可能较适合检测非面部对象。虽然以下的描述例示地将本发明的一些实施例应用于面部检测元数据,但对本领域普通技术人员而言显见的是,本发明也可被应用于其他对象检测元数据。图I是例示了根据本发明实施例的对象检测周界的图示。在一个实施例中,图像数据帧中的每个面部的位置可以用简单矩形来描述。该矩形的左上角、宽度以及高度可被存储在名为检测到的对象或检测到的面部的条目的面部检测元数据内。在下文中将会结合图9来更详细地描述检测到的面部的条目。设置信息可以包括所述帧在与像素无关的等间隔的单位下的视觉维度。在其他实施例中,图像数据帧中的一个或多个对象的位置可以使用不同形状的周界来描述。图I中例示图像具有的维度是高度113和宽度111。面部检测矩形105具有的维度是高度109和宽度107,并且具有起始点101。面部检测矩形105限定面部103。所述图像可以是扫描面部的初始图像数据,由此生成面部检测矩形105。在一个实施例中,图像和矩形的维度在与像素无关的坐标中表示。可以选择与像素无关的坐标,以给出对确定面部检测处理的精度的近似指示。举例来说,如果图像数据的宽高比是4:3并且与像素无关的坐标被设置成100:75,那么所述指示表明所述矩形应该是在大约百分之一的精度以内放置的(即,精确到视频维度的1%以内)。该指示可以是一种近似。在一个实施例中,为了标识面部检测矩形的实际像素值,矩形的维度和左上角可被重新定标,以计及图像帧的实际大小以及在图像帧中使用的像素宽高比。在一些实施例中,图像帧的实际视觉宽高比不同于设置维度的宽高比。这表明所述图像数据可能已在没有考虑面部检测元数据的情况下被处理(例如剪裁、旋转等等)。在这些实施例中,面部检测矩形会被认为是不可靠的。图2是例示了根据本发明实施例的重叠对象检测周界的图示。在图像数据中检测到的对象可以是重叠的。如果对象检测处理可以确定哪一个对象离相机更远,那么该处理可以为所述更远的周界分配较大的层号。层O可被用作默认层。例如,面部201就捕捉图 像的相机的位置而言是“前方”面部205。在一个实施例中,检测归因于相机位置的一个位于另一个之上的面部分层。在这个实施例中,分配有面部检测矩形203的层在分配有面部矩形207的层之上。图3是例示了根据本发明实施例的帧间对象匹配的图示。帧301和帧309可以是视频数据处于不同时间点的帧。例如,帧301可在时间X出现,而帧309则在时间x+1出现。面部303是在帧301中的标牌307的左侧检测到的,而面部311是在帧309中在标牌307的右侧检测到的。在一个实施例中,在面部检测完成之后,帧301会与面部检测矩形305相关联,而帧309则与面部检测矩形313相关联。在这个实施例中将会进行面部识别处理,其中帧与帧之间的面部将被比较,以便确定在不同的帧中出现相同面部的可能性。如果这种可能性超出了阈值,则假设面部311与面部303是同一面部。图4是例示了根据本发明实施例来生成对象检测元数据的方法的流程图。举例来说,在方框401,该方法对诸如来自摄录像机的视频数据之类的图像数据的至少一个帧执行面部检测。在方框403,该方法使用像素坐标生成围绕检测到的面部的矩形。也就是说,所述矩形的起始点以及所述矩形的维度是以与图像帧本身相关的像素进行量度的。在方框405,基于像素的矩形被转换到与像素无关的空间。与像素无关的空间的维度可被选择,以使与像素无关的空间的宽高比与图像数据的宽高比相匹配。举例来说,如果图像数据是640像素x320像素,那么所述宽高比是宽度除以高度,而这将会得到2:1的宽高比。与像素无关的空间可以是120单位x60单位,以具有相同的宽高比。在方框407,该方法生成规定了图像数据帧在与像素无关的空间中的维度的面部设置条目。以下将会结合图9来更详细地描述面部设置条目。在方框409,该方法生成规定了所述面部在与像素无关的空间的至少一个图像数据帧中的位置的检测到的面部的条目。以下将会结合图9来更详细地描述所述检测到的面部的条目。根据对照图4例示描述的所述处理也可以生成用于图像中的其他对象的检测元数据。面部检测元数据仅仅是可被生成的对象检测元数据的一个示例。图5是例示了根据本发明实施例的提取对象检测元数据的方法的流程图。例如,在方框501,该方法从与图像数据帧相对应的元数据轨道中提取面部设置条目。该面部设置条目指示在该图像数据中检测到了多少个面部以及该图像数据与像素无关的维度。在方框503,该方法确定图像数据帧的像素维度。在判定框505,来自面部设置条目的与像素无关的维度的宽高比将会与该图像数据的宽高比相比较。如果所述宽高比不匹配,那么该方法移至方框511,并且确定面部检测坐标可能是不可靠的。例如,可以用一种改变宽高比的方式来重新调整该图像数据的大小。该图像数据可被从宽屏格式修改成标准格式。这种修改改变视频数据的宽高比。面部检测矩形的位置取决于初始图像数据的宽高t匕。如果该图像数据的宽高比改变,那么面部检测矩形的位置变得不可靠,并且可被丢弃。如果图像数据和面部设置条目的宽高比匹配或基本相似,那么在方框507,该方法从与图像数据帧相对应的元数据轨道提取检测到的面部的条目。检测到的面部的条目描述的是在图像数据中检测到的特定面部,并且在下文中将会结合图9来对其进行更详细的描述。在方框509,该方法使用在方框503提取的图像大小来定标检测到的面部的元数据的坐标。所述定标处理被用于获取面部检测矩形相对于图像数据帧的像素坐标。·例如,初始图像数据可以是640像素x480像素。可以对初始图像数据执行图4例示的对象检测方法,以获取面部检测矩形。所得的面部检测矩形的与像素无关的维度及坐标将会对应于初始图像数据的宽高比。随后,图像数据可以用一种保持该宽高比的方式而被重新调整大小。例如,图像数据可以从640像素x480像素缩减至320像素x240像素。宽高比将会保持相同,但是图像数据的量将会降低,这样可能会有助于该图像数据在低带宽连接上的流传输(例如,在该图像数据包含视频数据的情况下)。归因于图像大小的降低,图像数据及其对应面部检测矩形中的面部的像素坐标将会改变。通过基于图像数据的当前大小来重新定标所述矩形,所述面部检测矩形会在重新调整了大小的图像数据中精确定位所述面部。根据对照图5例示描述的所述处理也可以提取用于图像中的其他对象的检测元数据。面部检测元数据仅仅是可被提取的对象检测元数据的一个示例。图6是例示了根据本发明实施例来传送对象检测元数据的方法的流程图。举例来说,在方框601,该方法对图像数据帧执行面部检测。该图像数据可以是初始由摄像机捕捉的,或者该图像数据可以是已预先对其初始形式进行修改而来的。在方框603,该方法生成包括有面部设置条目和多个检测到的面部的条目的面部检测元数据。每一个检测到的面部的条目都对应于在图像数据帧中检测到的面部,而面部设置条目则规定了与像素无关的图像数据的维度,并且可以包括用于指示在图像数据中检测到了多少个面部的值。在方框605,该方法向图像数据(例如,视频数据)添加元数据轨道。所添加的轨道包括生成的面部检测元数据。在一个实施例中,面部设置条目是所添加的元数据轨道中的第一元素。在方框607,该方法传送包括所添加的元数据轨道的图像数据。例如,所述图像数据可被流传输至远程客户机。作为替换,所述图像数据可被下载至远程客户机,随后可在该远程客户机上本地播放。在方框611,该方法例如在远程客户机处接收所传送的图像数据。在方框613,该方法例如在图像数据回放期间,从接收到的图像数据中提取面部检测元数据。在方框615,该方法使用接收到的图像数据的维度来定标来自面部检测元数据的坐标,以便提供关于面部检测矩形的精确像素坐标。在一个实施例中,图6例不的方法由一个以上的设备执行。例如,方框601-607可以由第一设备执行,并且方框611-615可以由第二设备执行。在另一实施例中,单个设备将使用其生成的对象检测元数据。设备可被专门化,可以使其只存储和/或服务对象检测元数据和/或相关联的图像数据。根据对照图6例示描述的所述处理也可以传送用于图像中的其他对象的检测元数据。面部检测元数据仅仅是可被传送的对象检测元数据的一个示例。图7是例示了根据本发明实施例的对象分层的流程图。举例来说,多个面部可以在图2所示的图像帧中分层。例如,一个人可以相对于图像捕捉设备站在另一个人的前方。在一个实施例中,面部被分配了不同的层。层的顺序可以指示一个面部与同一帧中的另一个面部相比是否更接近于相机。在方框701,该方法识别同一图像数据帧中的第一面部和第二面部。在一个实施例中,这种识别是作为图像数据中的面部检测的一部分进行的。在方框703,该方法使用本领域已知的技术来确定第一面部与第二面部相比离相机更远。 在方框705,由于第一面部与第二面部相比距离更远,因此该方法为第一面部分配一个比第二面部要高的层索引,并且反之亦然。在方框707,该方法将第一检测到的面部的条目和第二检测到的面部的条目存储在与图像数据的当前帧相对应的元数据中。以下将会结合图9来更详细地描述检测到的面部的条目。根据对照图7例示描述的所述处理也可以处理用于图像中的其他对象的检测元数据。面部检测元数据仅仅是对象检测元数据的一个示例。图8是例示了根据本发明实施例的对象匹配的流程图。举例来说,面部匹配可以是在面部检测完成之后或者是在面部检测进行之时执行的。面部匹配确定如图3例示的在第一帧中检测到的面部与第二帧中检测到的面部是否为同一面部。面部匹配能够实现对面部的逐帧追踪。在方框801,该方法识别图像数据的第一帧中的第一面部。在方框803,该方法将面部索引值分配给与图像数据的第一帧相对应的元数据中的第一面部。该元数据可以是检测到的面部的条目。在一个实施例中,每当检测到一个新面部,就会使用本领域已知的面部识别技术将该面部与在前的面部相比较,并且如果发现匹配,则分配相同的面部索引。在替换实施例中,在面部检测处理期间为每个面部分配一个索引值,并且后续的面部匹配处理将会在不同帧中确定检测到的面部是否是同一面部。在方框805,该方法识别图像数据的第二帧中的第二面部,并且在方框807确定第一帧中的第一面部与第二帧中的第二面部相匹配。在一个实施例中,面部匹配处理生成表明检测到的两个面部对应于同一“真实”面部的可能性的置信值。也就是说,每个个体都具有一个面部。所述面部可以是在两个或更多的帧中获取的。捕捉到面部的每个帧都包括检测到的面部。所述置信值指示检测到的两个面部对应于同一个体面部的可能性。如果置信值超出预定阈值或是以预定方式与预定阈值相比较,则可以认为这两个面部是“匹配的”。该阈值可以由用户或管理员修改。在方框811,如果面部匹配,那么该方法为与图像数据的第二帧相对应的元数据中的第二面部分配相同的面部索引值。根据对照图8例示描述的所述处理也可以处理用于图像中的其他对象的检测元数据。面部检测元数据仅仅是对象检测元数据的一个示例。图9是例示了根据本发明实施例的对象检测元数据格式的图示。对象设置条目901提供了面部设置条目的一个示例,并且可以包括最大值标识符、宽度以及高度。最大值标识符指示的是在面部检测期间所分配的最大面部标识符。在这个示例中,最大值标识符是7,指示在面部检测期间检测到了七个面部。在交织有面部检测与面部匹配的实施例中,最大值标识符可以指示检测到的互不相同的面部的数量。在面部匹配在面部检测之后进行的实施例中,最大值标识符可以指示检测到的面部总数,而非指示是否存在一个或多个匹配。面部设置条目901的宽度和高度指示的是图像数据的与像素无关的维度。在一个实施例中,与像素无关的维度的宽高比始终与初始图像数据的宽高比相匹配。检测到的对象的条目903提供了图像数据的元数据轨道中的检测到的面部的条目的一个示例。X和Y可以对应于在与像素无关的坐标中量度的面部检测矩形的左上角的坐标。宽度和高度则对应于在与像素无关的坐标中量度的面部检测矩形的宽度和高度。ID是分配给由检测到的面部的条目903描述的具体面部的数值标识符。层对应于上文参考图2和7描述的层索引。在另一个实施例中,对象周界可以是圆形或椭圆形。在这个实施例 中,所存储的可以是圆形或椭圆形的半径和中心点,而不是左上角的坐标以及宽度和高度。所述半径和中心点提供了对象周界的位置和维度。此外,其他形状同样是可以使用的。在再一个实施例中,对象周界的位置和维度可由坐标规定(例如,左上角和右下角,而不是左上角以及宽度和高度)。检测加权可以是具有范围值(例如,O与255之间)的置信值。检测加权指示的是由检测到的对象的条目描述的对象检测周界包含希望检测到的对象(例如,面部)的可能性。在这个示例中,检测加权值是243,它可以表明面部检测矩形包含面部的可能性很大。在一个实施例中,将检测加权与预定阈值相比较。如果检测加权小于该阈值,则不会为检测到的面部生成检测到的面部的条目。所述阈值可由用户或管理员修改。匹配加权可以是检测到的对象的条目903的另一个元素。匹配加权可以是某一范围(例如,O与255之间)内的值,并且其指示的是由检测到的对象的条目903描述的对象(例如,面部)与使用同一对象ID的其他检测到的对象的条目相同的可能性。在一个实施例中,对象检测是针对图像数据执行的,并且所得的对象检测元数据可被存储作为基于剪辑的图像数据或是作为基于时间的元数据。在基于时间的元数据中,每一个检测到的对象的条目都会应用于视频数据中的一个或多个在时间上对准的帧。如果检测到的对象的条目的持续时间跨越一个以上的视频帧,那么它可以是针对其中一帧的正确条目,并且“适合”其他帧。一般而言,该条目对于第一个在时间上对准的视频帧最为精确。在另一个实施例中,在对视频数据执行了对象检测之后,所述视频数据将被处理以减小帧速率。在这种情况下,一个以上的检测到的对象的条目可以在时间上对应于视频数据中的同一个帧。在这种情况下,第一检测到的对象的条目会被认为是最具描述性的。图10示出了可以与本发明的一个实施例一并使用的数据处理系统的一个示例。注意到虽然图10例示了计算机系统的各种组件,但这并不旨在呈现任何用于互连组件的特定架构或方式,因为这些细节并不与本发明密切关联。此外还将理解,网络计算机、平板计算机及具有更少组件或者有可能具有更多组件的其他数据处理系统也是可以和本发明一并使用的。如图10所示,采用了数据处理系统形式的计算机系统1000包括与一个或多个微处理器1005、R0M (只读存储器)1007、易失性RAM1009以及非易失性存储器1011耦合的总线1003。微处理器1005耦合至高速缓存1004。微处理器1005可以从存储器1007、1009、1011中检索指令,并且可以通过运行指令来执行上述操作。总线1003将所述各种组件互连在一起,并且还将这些组件1005、1007、1009和1011互连至显示控制器和显示设备1013以及周边设备,诸如可以是鼠标、触摸屏、触摸板、触敏输入设备、键盘、调制解调器、网络接口、打印机以及本领域已知的其他设备的输入/输出(I/O)设备。典型地,输入/输出设备1015通过输入/输出控制器1017与系统相耦合。易失性RAM (随机存取存储器)1009通常被实现为需要持续供电来刷新或保持存储器中的数据的动态RAM (DRAM)0大容量存储设备1011通常是磁性硬盘、磁性光驱、光驱、DVDRAM、闪存或是其他类型的即便在从系统中移除供电之后也能保持数据(例如,大量数据)的存储系统。典型地,大容量存储设备1011还将会是随机存取存储器,但这并不是必需的。虽然图10示出了所述大容量存储设备1011是直接耦合到数据处理系统中的其余组件的本地设备,但是将会理解,本发明也可以使用远离系统的非易失性存储器,例如通过调制解调器、以太网接口或无线网络之类的网络接口耦合至数据处理系统的网络存储设备。总线1003可以包括通过本领域周知的各种桥接器、控制器和/或适配器相互连接的一个或多个总线。 图11示出了可以与本发明的一个实施例一并使用的另一个数据处理系统的示例。图11所示的数据处理系统1100包括处理系统1111,它可以是一个或多个微处理器,或者可以是片上系统集成电路,并且所述系统还可以包括用于存储数据以及可供处理系统执行的程序的存储器1101。系统1100还包括音频输入/输出子系统1105,其中所述子系统可以包括麦克风和扬声器,例如用于回放音乐或是借助于扬声器和麦克风来提供电话功倉泛。显示控制器和显示设备1107为用户提供了可视用户界面;这个数字界面可以包括与在运行OS X操作系统软件的Macintosh计算机上示出的用户界面相类似的图形用户界面。系统1100还包括用于与另一个数据处理系统通信的一个或多个无线收发信机1103。无线收发信机可以是WiFi收发信机、红外收发信机、蓝牙收发信机和/或无线蜂窝电话收发信机。将会理解的是,在某些实施例中,未示出的额外组件也可以是系统1100的一部分,并且在某些实施例中,在数据处理系统使用的组件可以少于图11示出的组件。数据处理系统1100还包括一个或多个输入设备1113,提供这些设备以允许用户向系统供应输入。这些输入设备可以是数字键盘、键盘、触摸板或多点触摸板。数据处理系统1100还包括可选的输入/输出设备1115,其中该设备可以是用于坞站的连接器。将会理解的是,正如本领域已知的那样,未示出的一个或多个总线可被用于互连各种组件。图11所示的数据处理系统可以是手持计算机或个人数字助理(PDA)、具有类似于PDA的功能的蜂窝电话、包含了蜂窝电话的手持计算机、诸如iPod之类的媒体播放器、或是组合了这些设备的各方面或功能的设备,例如将媒体播放器与PDA和蜂窝电话结合在一个设备中。在其他实施例中,数据处理系统1100可以是网络计算机或位于另一设备内部的嵌入式处理设备,或者可以是具有比图11所示组件更少或更多组件的其他类型的数据处理系统。图12是例示了用于搜索存储了对象检测元数据的索引的方法的流程图。在方框1201,该方法生成对象检测元数据。对象可以包括人类面部、动物面部以及其他物理对象(例如汽车、车牌等等)。不同的技术可被用于检测不同的对象。例如,与人类面部相比,一种技术有可能更适合检测动物面部。对象检测元数据在格式上可以与如上所述的例示面部检测元数据相似,可以基于对围绕检测到的对象的周界的使用,和/或在与像素无关的坐标空间中表示。在方框1203,该方法使用对象检测元数据生成对象标识元数据。对象标识元数据会为检测到的对象分配一个标识。举例来说,如果对象检测周界限定一牌照,那么对象标识元数据可以包括与牌照内容相对应的字母数字串,并且可以使用本领域已知的光学字符识另Ij (OCR)技术来获取。在一个实施例中,对象的属性可被检测和/或识别并包含在元数据中。举例来说,如果对象是汽车,那么可以识别该汽车的颜色、制造商和型号等,并且将其添加至元数据。在方框1205,该方法将对象检测元数据和对象标识元数据存储在可搜索索引中。该可搜索索引可以是索引数据库。可搜索索引的内容可以包括用于描述静止图像、视频图像数据帧等中的特征的元数据。静止图像和视频可由不同的源捕捉。例如,可搜索索引可以包括用于描述使用用户的蜂窝电话拍摄的照片、使用用户的相机拍摄的照片、使用用户的摄像机捕捉的视频等的元数据。在一个实施例中,还生成对象匹配元数据并将其存储在 可搜索索引中。所述对象匹配处理可以匹配在不同的静止图像和视频图像中都有出现的对象。在方框1207,该方法可以使用搜索查询来搜索索引,以生成搜索结果。所述搜索例如可以是响应于搜索命令而被发起的。搜索查询可以是一个串或其他信息。例如,搜索查询可以是面部有可能在元数据中出现的人的名字。另举一例,所述搜索查询可以针对白色汽车。在方框1209,可以提供和/或显示搜索结果,例如在显示设备1013或1107上。在一个实施例中,单个设备执行方框1201-1209。在另一个实施例中,第一设备生成特征检测元数据(1201 ),第二设备生成特征标识元数据(1203),第三设备将元数据存储在可搜索索引中(1205)并且搜索所述元数据(1207),而第四设备则显示搜索结果(1209)。在其他实施例中,使用不同的工作分布。图13是例示了图像数据轨道与对象检测元数据轨道之间的关系的图示。轨道1301包括随时间变化且可以作为视频而被回放的图像数据帧。轨道1303包括检测到的对象的元数据条目。轨道1301中的帧1305对应于图像帧1309。元数据条目1307则对应于检测到的面部的条目1311,并且包括描述在帧1305中检测到的对象(例如,在图像数据1309中捕捉到的人的面部)的元数据。元数据轨道1303还可以包括如上所述的一个或多个设置条目。在以上的说明中已参考例示实施例描述了对象检测元数据。显见的是,可以对其做出各种修改而不背离由所附权利要求阐明的本发明的更广泛的精神和范围。因此,说明书和附图应被认为是出于例示而非限制的目的。
权利要求
1.一种用于生成面部检测元数据的方法,所述方法包括 生成围绕视频数据帧中检测到的面部的周界,所述周界使用第一坐标系; 由数据处理系统将所述周界从第一坐标系转换到第二坐标系,其中所述周界在第一坐标系中的维度的宽高比与在第二坐标系中的维度的宽高比相匹配; 生成包括所述视频数据帧在第二坐标系中的维度的第一元数据条目; 生成第二元数据条目,其中所述第二元数据条目包括用于提供经转换的周界在第二坐标系中的位置和维度的信息。
2.根据权利要求I所述的方法,其中所述位置包括指示矩形左上角的点,而经转换的周界的维度包括所述矩形的宽度和高度。
3.根据权利要求I所述的方法,其中 第一元数据条目还包括关于检测到的面部的总数的指示;以及 第二坐标系中的视频数据帧的维度包括宽度和高度。
4.根据权利要求I所述的方法,还包括将第一元数据条目和第二元数据条目保存在与视频数据相对应的元数据轨道中。
5.根据权利要求4所述的方法,其中元数据轨道被配置成用于基于时间的元数据存储,所述元数据轨道中的元数据条目是在时间上与视频数据对准的。
6.一种方法,包括 由数据处理系统传送对象元数据,其中所述对象元数据包含有图像数据在与像素无关的坐标空间中的维度以及关于第一对象检测周界的信息,其中关于第一对象检测周界的信息提供了第一周界的第一位置以及第一周界的第一维度,并且该信息是在所述与像素无关的坐标空间中表示的。
7.根据权利要求6所述的方法,其中图像数据包括视频数据,并且对象元数据被并入该视频数据的元数据轨道。
8.根据权利要求7所述的方法,其中对象元数据包含有与在视频数据帧中检测到的重叠面部相对应的多个检测到的面部的条目,其中每个检测到的面部的条目都包括指示该检测到的面部相对于其他检测到的面部的相对位置的层索引。
9.根据权利要求7所述的方法,其中对象元数据是从具有第一组像素维度的初始视频数据生成的,并且其中所传送的视频数据具有与第一组像素维度不同的第二组像素维度。
10.根据权利要求6所述的方法,其中对象元数据还包括关于第二对象检测周界的信息,其中关于第二对象检测周界的信息提供了第二周界的第二位置以及第二周界的第二维度,并且所述信息是在所述与像素无关的坐标空间中表示的。
11.根据权利要求7所述的方法,其中元数据轨道被配置成用于基于时间的元数据存储,所述元数据轨道中的元数据条目是在时间上与视频数据对准的。
12.—种方法,包括 接收与视频数据相对应的元数据轨道中的对象检测元数据; 确定视频数据的像素维度; 从对象检测元数据中提取设置元数据,所述设置元数据包括视频数据在与像素无关的空间中的维度; 从元数据轨道中提取检测到的对象的条目,所述检测到的对象的条目包括提供了对象检测周界的位置和所述周界的维度的信息; 由数据处理系统使用视频数据的像素维度以及所述与像素无关的空间的维度来定标提供了所述周界的位置和维度的信息。
13.根据权利要求12所述的方法,其中检测到的对象的条目包括与特定对象相对应的检测到的对象的索引值,并且其中与不同视频数据帧相对应的另一个检测到的对象的条目包括相同的索引值,表明在这两个帧中均出现了所述特定对象。
14.一种非暂态机器可读存储介质,其中所述介质存储在由处理器执行时使得设备执行操作的指令,所述操作包括 生成围绕视频数据帧中检测到的对象的周界,所述周界使用第一坐标系,并且第一坐标系具有第一宽闻比; 将所述周界从第一坐标系转换到第二坐标系,其中第二坐标系的维度具有与第一宽高比相匹配的第二宽高比; 生成第一元数据条目,所述第一元数据条目包括第二坐标系的维度; 生成第二元数据条目,所述第二元数据条目包括经转换的周界在第二坐标系中的位置和维度。
15.根据权利要求14所述的非暂态机器可读存储介质,其中检测到的对象是人类面部和动物面部之一。
16.根据权利要求14所述的非暂态机器可读存储介质,其中检测到的对象是物理对象。
17.一种非暂态机器可读存储介质,其中该介质存储在由处理器执行时使得设备执行操作的指令,所述操作包括 存储提供了在图像数据中检测到的对象的位置的对象检测元数据,其中所述位置是在与像素无关的坐标系中规定的,并且该与像素无关的坐标系的维度的宽高比与图像数据的像素维度的宽高比相匹配;以及 存储规定了检测到的对象的标识的对象标识元数据。
18.根据权利要求17所述的非暂态机器可读存储介质,所述操作还包括 存储将检测到的对象与在另一视频数据帧中检测到的另一对象相关联的对象匹配元数据。
19.根据权利要求18所述的非暂态机器可读存储介质,所述操作还包括 存储对象检测元数据和对象标识元数据与可搜索索引的关联; 接收搜索查询;以及 使用搜索查询来搜索可搜索索引,以生成包含视频帧的搜索结果,其中所述视频帧包括检测到的具有与搜索查询相匹配的元数据的对象。
20.一种非暂态机器可读介质,其中该介质存储在由处理器执行时使得设备执行操作的指令,所述操作包括 存储包含有图像数据在与像素无关的坐标系中的维度并且包含有检测到的对象总数的指示的设置元数据条目; 为每个检测到的对象存储一个检测到的对象的元数据条目,每个检测到的对象的元数据条目包括提供了围绕检测到的对象的周界的位置和维度的信息,其中所述信息提供了所述周界在所述与像素无关的坐标系中的位置和维度。
21.根据权利要求20所述的非暂态机器可读介质,其中所述位置对应于矩形的左上角,并且所述维度包括所述矩形的高度和宽度。
22.根据权利要求20所述的非暂态机器可读介质,其中第一检测到的对象的元数据条目对应于与捕捉图像数据的相机具有第一关系的第一检测到的对象,并且第二检测到的对象的条目对应于与相机具有第二关系的第二检测到的对象,其中第一关系与第二关系相比更为接近,并且其中第一检测到的对象的元数据条目包括第一层值,而第二检测到的对象的元数据条目包括第二层值,其中第一层值指示的是第一检测到的对象与第二检测到的对象相比更接近于相机。
23.根据权利要求20所述的非暂态机器可读介质,其中第三检测到的对象的元数据条目对应于图像数据的第一帧中的第三检测到的对象,并且第四检测到的对象的元数据条目对应于图像数据的第二帧中的第四检测到的对象,其中第三检测到的对象与第四检测到的对象是相同的,并且其中第三检测到的对象的元数据条目包括第一匹配值,第四检测到的对象的元数据条目包括第二匹配值,以及其中第一匹配值与第二匹配值是相同的。
全文摘要
围绕图像数据帧中检测到的对象的周界可以在第一坐标系中生成。所述周界可被从第一坐标系转换到与第一坐标系具有相同宽高比的第二坐标系。第一元数据条目可以包括图像数据在第二坐标系中的维度。第二元数据条目可以提供经转换的周界在第二坐标空间中的位置和维度。额外的元数据可以指示各帧之间的对象匹配,一个对象相对于帧内其他对象的位置,正确检测到对象的概率,以及在多个图像数据帧中检测到的对象的总数。
文档编号G06F17/30GK102870123SQ201180021940
公开日2013年1月9日 申请日期2011年6月7日 优先权日2010年6月15日
发明者D·W·辛格, C·A·肯尼迪 申请人:苹果公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1