基于属性关系进行图像排序的方法和系统的制作方法

文档序号:6370842阅读:157来源:国知局
专利名称:基于属性关系进行图像排序的方法和系统的制作方法
技术领域
本发明涉及使用计算机视觉应用,用以依据视觉外观(appearance )特征在人类图像数据中自动搜索人。
背景技术
可以搜索摄像机、照相机和其它图像数据馈送(feed),以找到目标物体和个人。例如,为了搜索人,可以向视频档案的管理者提供指示某些个人面部视觉特点的描述信息(例如,戴眼镜、棒球帽等),其中可以手动地扫描档案,以寻找具有类似特征的一个或多个人。这种手动搜索既费时间资源又费人力资源。此外,人的视觉注意力可能是无效的,尤其对于大量图像数据。由于许多因素(示例性地包括很少出现感兴趣的活动、与任务关联的基本枯燥性、以及具有视觉混乱和其它分心事物的环境中对象追踪的较差可靠性),输入信息的人工分析可能既昂贵又无效。已知如下自动输入系统和方法计算机或其它可编程设备直接分析视频数据并尝试通过计算机视觉应用来识别关心的物体、人、事件或活动。一些现有方法针对多个图像属性中的每个学习独立的外观模型,例如,针对秃头、髭(mustache)、络腮胡子(beard)、帽子、太阳镜、浅肤色等。当给定多属性查询时,这样的系统可以将每个单独查询属性的置信度得分(confidencescore)相加。因此,针对(i)男性(ii)戴眼镜和(iii)络腿胡子的搜 索可以检索多个结果,每个结果具有满足所有三个属性的置信度得分,或者每个结果满足一个或多个属性。然而,前一技术可能错过结果,例如,在给定图像中一个属性不清楚,从而导致了该图像被排除。后一技术可能返回太多结果,包括不可能或不太可能满足所有三个属性的结果,诸如,作为年轻女孩的戴着太阳镜的人的图像。因此,所返回的结果可能错过目标,或者返回太多要被高效地分析的命中(hit)。

发明内容
在本发明的一个实施例中,一种用于根据与多属性查询的属性的相关性(relevance)而检索和排序(rank)多属性查询结果的方法包括为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器;以及学习(通过处理器等)来自图像的训练数据集的每对注释属性之间的成对关系(pair-wise correlation)。通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像,其中从该搜索检索图像,所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数,对所检索到的图像进行排序。在另一实施例中,一种系统具有处理单元、计算机可读存储器、和具有程序指令的计算机可读存储介质设备,所述程序指令用以为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器,以及学习来自图像的训练数据集的每对注释属性之间的成对关系。因此,可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像,其中从该搜索检索图像,所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数,对所检索到的图像进行排序。在另一实施例中,一种制品具有计算机可读存储介质设备,所述计算机可读存储介质设备中包含计算机可读程序代码,所述计算机可读程序代码包括指令,当计算机处理器执行所述指令时,所述指令使得计算机处理器为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器,以及学习来自图像的训练数据集的每对注释属性之间的成对关系。因此,可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像,其中从该搜索检索图像,所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数,对所检索到的图像进行排序。在另一实施例中,一种用于 根据与多属性查询的属性的相关性而检索多属性查询结果并提供对所述多属性查询结果进行排序的服务的方法包括提供一个或多个物品,所述物品包括图像属性检测器训练器和属性映射器设备,其为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器,以及学习来自图像的训练数据集的每对注释属性之间的成对关系。还提供多属性检索和排序模型,其通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像;从该搜索检索图像,所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息;以及依据所检索到的图像的属性也在多个属性的查询子集中的相应总数,对所检索到的图像进行排序。


从下面结合附图对本发明的各个方面的详细描述中,将更容易理解本发明的这些和其它特征,其中图I是根据本发明的用于根据与多属性查询的相关性而对多属性查询结果进行排序的方法或系统的实施例的流程图。图2A至图2E是根据本发明的实施例的用于提取特征矢量的图像场构造的概略图。图3是根据本发明的实施例的、依据多属性查询的示例图像检索和排序的概略图。图4是本发明的实施例的计算机实施方式的框图。图5是本发明的装置或设备实施例的框图。这些图不一定成比例。这些图仅是示意表示,而不意在刻画本发明的具体参数。这些图仅意在描述本发明的典型实施例,因此不应被认为是对本发明的范围的限制。在这些图中,同样的附图标记表示同样的要素。
具体实施方式
本领域的技术人员知道,本发明的多个方面可以体现为系统、方法或计算机程序产品。因此,本发明的多个方面可以采取以下形式完全的硬件实施例、完全的软件实施例(包括固件、驻留软件、微代码等)、或者组合本文一般统称为“电路”、“模块”或“系统”的软件和硬件方面的实施例。此外,本发明的方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读程序代码。可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置或器件、或任何以上的合适组合。计算机可读存储介质的更具体的示例(非穷举的列表)将包括以下有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任何合适的组合。在本文件的语境中,计算机可读存储介质可以是任何可包含或存储程序的有形的介质,该程序被指令执行系统、装置或者器件使用或者与其结合使用。 计算机可读信号介质可包括例如在基带中或者作为载波的一部分传播的、其中体现计算机可读程序代码的数据信号。这种传播的信号可以采取多种形式,包括——但不限于——电磁的、光的或其任何合适组合。计算机可读信号介质可以是并非为计算机可读存储介质、但是可以传送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序的任何计算机可读介质。计算机可读介质上包含的程序代码可以用任何适当的介质传送,包括一但不限于——无线、电线、光缆、RF等等、或者任何上述合适的组合。用于执行本发明的方面的操作的计算机程序码可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言(诸如Java、SmalltalKC++之类)、以及常规的过程式程序设计语言(诸如“C”程序设计语言或类似的程序设计语言)。程序代码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者,可以(例如,利用因特网服务提供商来通过因特网)连接到外部计算机。以下参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的方面。要明白的是,流程图和/或框图的每个方框、以及流程图和/或框图中方框的组合可以由计算机程序指令实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令产生实施流程图和/或框图的方框中规定的功能/动作的部件。也可以把这些计算机程序指令存储在可以指示计算机、其它可编程数据处理装置或其它器件以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实施流程图和/或框图的方框中规定的功能/动作的指令的制品。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它器件上,使得在计算机、其它可编程装置或其它器件上执行一系列操作步骤,以产生计算机实施的过程,从而在计算机或其它可编程装置上执行的指令提供实施流程图和/或框图的方框中规定的功能/动作的过程。现在参照图1,例示了根据与多属性查询的相关性而对多属性查询结果进行排序的方法、系统或处理。以各种不同的属性(例如,金发、长发、眼镜、棒球帽、耳环、络腮胡子等)注释的人的图像的训练数据集102被用于在104中训练或学习图像检测器,并由此产生用于各个经注释的属性的单独检测器的集合106。在108中,例如,经由处理器、编程器件等,从图像的训练数据集学习来自属性集合的每对属性之间的多个成对关系。在114中,经由经训练的属性检测器在输入图像数据集112中搜索包括至少一个或满足该多属性查询110的属性的图像。输入图像数据集112的示例包括存储在存储部件中的存档视频数据、通过计算机视觉处理实时处理的现场视频图像、静止照片或图像档案或实时馈送,并且还可以实践其它图像数据集112。在116中,从图像数据集112的搜索检 索多个图像,每个所述图像包括至少一个查询属性,同时还考虑(因此,响应于)来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。因此,在118中,依据所检索到的结果的属性中也是查询属性的总数而对所检索到的结果进行排序。例如,排序功能将包含查询中的最多数目的属性的图像排序在顶部(top),接下来是具有次多数目的匹配属性的图像,并依次类推。更具体地,单独图像检测器106响应于存在于训练数据集102中的多属性样本的特征矢量输出被用于通过在108中学习所有属性对的成对关系而学习多属性检索和排序模型。因此,本发明的实施例提供多属性检索和排序模型,其从搜索图像数据检索多个结果图像,(i)每个结果图像包括至少一个查询110的属性,并且(ii)其中所学习的成对关系指示所返回的图像的其它属性还与查询属性和/或所考虑的属性的完整集合内不是查询的一部分但与查询属性相关的其余属性共存。该模型还依据所返回的结果的属性也是查询属性的总数而对所返回的结果进行排序或排列优先顺序(prioritize),其中具有较多数目的查询属性的图像排在具有较低数目的图像之前。因此,该模型依据相关属性的总数以及查询属性与其余属性的成对关系,检索和排序所搜寻的满足查询110的目标图像。在一些实施例中,可以对属性加权,因此排序依据加权的属性的总值。例如,如果两个结果具有相同数目的匹配属性、但具有不同的权重,则具有更重加权的属性的结果将被排在前面。可以提取各种各样的特征用于表示每个训练数据集102或图像数据集112的图像。基于颜色的特征包括颜色直方图、颜色相关图、颜色小波和色矩。可以使用小波纹理和局部二值模式(LBP )直方图来对纹理进行编码,同时使用边缘直方图、形状矩以及基于尺度不变特征变换(SIFT)的视觉字等表示形状信息。现在参考图2A至图2E,在一个实施例中,关于5个不同的构造而从每个面部图像203的图像场201中提取特征矢量并将它们串接;图2A的布局构造从3乘3阵列网格202的每个中提取特征;图2B的中心构造仅从中心网格203提取特征(因此,其关注于下面的(underlying)面部图像203的面部特征205);图2C的全局构造从整个图像场201提取特征而与网格202无关;图2D的垂直构造从由网格202形成的三个垂直列204提取特征;以及图2E的水平构造从由网格202形成的三个水平行206提取特征。这使得能够局部化单独属性检测器例如,在一个实施例中,用于“帽子”或“秃头”属性的属性检测器可以对从图2E的水平构造中的网格202的最上面的行206t、以及在图2A的布局构造中的最上面的三个网格202tl、202t2和202t3中提取的特征给予
更高的权重。可以通过最小化排序损失来完成对多属性检索和排序模型的训练。在一些实施例中,在104中的训练包括提取图像特征和采用Adaboost——自适应提升机学习算法,来为每个检测器属性学习区别特征。此外,多种提取的属性可以被用在训练数据集102中,以在104中学习或训练检测器,从而基于语义(semantic)属性在所学习的模型106中排序和检索图像。示例包括描述人的物理特点的属性,包括面部属性(例如,头发颜色,络腮胡子或髭的存在、眼镜或太阳镜的存在,等等)、身体属性(例如,衬衣和裤子的颜色、条纹衬衣、长/短袖等)、人口统计学属性(例如,年龄、种族、性别)、以及甚至非视觉属性(例如,声音类型、温度和气味),其可以潜在地从其它传感器获得。此外,虽然搜索人的图像可能仅包括单个对 象类(人脸),但实施例可被用于对包含多个对象类(例如,衣服、关联的有形物品,诸如背包或自行车等)的图像的基于属性的检索。对于本领域技术人员而言,其它类和属性将也是显而易见的。现有技术方法通常为每个属性学习独立的外观模型,并且,当给定多属性查询时,简单地将每个单独属性的置信度得分相加以返回结果。然而,这样的方法仅考虑作为查询的一部分的属性,用于检索相关图像,并且一般不能考虑这些属性之间的共存关系、以及查询之外的其它不同属性之间的共存关系。相反,本发明的实施例还考虑与所考虑的属性的完整集合内的不是查询的一部分但对排序结果有用的其余属性的成对关系。例如,亚洲人很不可能具有金发,但很可能具有黑发,并且女人极不可能具有络腮胡子或髭;在现有技术方法中仅将独立检测器的置信度相加将不反映这些共存关系,因此将不能考虑不是查询的一部分的属性。本发明的实施例提供多属性图像检索和排序的框架,其不仅基于作为查询110的一部分的词,而且还考虑词汇中可能潜在提供关于查询的信息的其余属性,来检索图像。例如,图3示出了针对“戴太阳镜的年轻亚洲女人”的查询110的一个应用。关于与作为查询的一部分的属性302的相关性而检索和排序图像,并且还考虑不是查询的一部分的属性304,通过成对属性关系推断如果图像还具有髭306、络腮胡子308、秃头310或者金发/浅红头发312的属性,则它们不太可能相关(因此,排序为较低或者在某些情况下被剔除),但是,如果图像具有黑发属性314,则它们更可能相关(因此,排序更高),从而产生经排列优先顺序和排序的图像结果320。成对关系的共同出现可能在排序效果上变化。例如,对于包含属性“年轻”的查询,可以丢弃包含具有灰头发的人的照片,因为灰头发通常仅发生在年长的人中,并且具有灰头发的人不太可能是“年轻”的;因此,这种图像结果可能被从依据所述特定成对共存而在116 (图I)中检索以及/或者在118 (图I)中排序的结果中滤除或者去除。类似地,当查询的构成属性之一是“女人”时,包含秃头的人或者具有络腮胡子和髭(它们是男人的特定属性)的人的图像可以在检索116和/或在118中的排序期间被丢弃或者很大程度上不考虑(并因此被排序得更低)。虽然用于属性“女人”的单独检测器可以隐性地学习这样的特征,但实验已经发现当基于包含精细粒度部分和属性的查询搜索图像时,显性地建模属性之间的关系和联系可以产生好得多的结果。
基于单个属性的排序有时可能似乎不必要例如,对于单个属性“络腮胡子”的查询,可以简单地将图像分类为具有络腮胡子的人和不具有络腮胡子的人。然而,根据应用,多属性查询可能对检索和排序具有多个层级(level)的相关性。例如,关于“穿红衬衣并戴太阳镜的男人”的查询,因为可以容易地摘除太阳镜,所以可以合理地假设包含穿红衬衣但不戴太阳镜的男人的图像也与查询相关,因此本发明的实施例可以不去除这样的图像,而仅将它们排序为更低,因为不如既穿红衬衣又戴太阳镜的男人的图像相关。在另一示例中,对于各自具有查询属性中的两个的两个图像,依据所学习的成对关系,具有红衬衫和太阳镜的女人的图像可以被排序得比穿红衬衫但不戴太阳镜的男人的图像更低,一方面,因为太阳镜可以被容易地摘除,而人的性别却不容易改变。传统上,排序被认为是信息检索内的独特问题。然而,本发明的实施例在相同结构化的学习框架中将排序整合到检索处理中,其中学习排序和检索是同一模型根据不同性能度量的简单优化。支持基于多标签查询的图像检索和排序是重要的,因为对于大小为L的词汇量的可能的多标签查询的数目是2L。大多数现有技术图像排序/检索方法通过为每个单独的标 签学习独立的分类器并通过启发式地(heuristically)组合单独标签的输出来检索多标签查询,来处理此问题。相反,本发明的实施例引入用于多标签查询的训练和检索的原理框架106,其中单个对象类别内以及甚至跨多个对象类别的属性是互相依赖的,从而对它们之间的关系建模在检索和排序上产生显著的性能提高。本发明的某些实施例使用结构化的支持矢量机(SVM)来解决涉及复杂(complex)输出的预测问题。结构化的SVM为结构化的输出问题提供高效的解决方案,同时也对经常出现在这种问题的输出空间中的互相依赖性进行建模。它们可以被有效地用于对象局部化和对属性之间的共存联系进行建模,在108中施加单个经学习的框架用于排序和检索,同时还对属性之间的关系进行建模。本发明的实施例基于反向学习的概念提供图像检索和排序。因此,给定标签集合{X}和训练图像的集合{Y},学习对应于标签集合内的每个标签IxJ的映射,以预测包含所述标签的图像{/}的集合。因为反向学习具有结构化的输出(图像的集合),所以其很好地适合结构化的预测框架,并且允许基于对应于多种性能度量的损失函数的最小化而学习示例包括汉明损失(hamming loss)、查准率(precision)和查全率(recall),也可以在本发明的实施例中实践其它性能度量。本方法以三个不同方式改进了反向学习方法。首先,提供单个框架用于检索和排序两者。这通过采用输出是由相关性排次(order)的图像集合的排序方法来实现,从而使得能够在同一框架内整合排序和反向学习。第二,基于由多标签构成的查询,促进训练以及检索和排序。最后,针对检索和排序,建模、学习和充分利用不同标签(属性)之间的成对关系。检索.给定多属性查询中的标签的集合{Q},其是所有可能属性标签的集合{X}的子集,本发明的实施例从图像的输入源(例如,源视频、数据库等)检索图像作为与多属性查询标签集合{Q}相关的训练图像的集合{Y}。在反向学习公式化下,针对输入,可以根据等式(1),通过最大化权重矢量{w}上的得分的预测函数,来为包含所有构成属性{Q}的图像{y*}的集合确定输出
靠 · f\V = arg max u' ir\Q,y) (I)
ircyx ,
其中权重矢量{w}由两个分量构成{wa},用于建模单独属性的外观;以及{wp},用于建模它们之间的依赖性。等式(I)的分量可以如下定义
权利要求
1.一种用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的方法,所述方法包括 为在人的图像的训练数据集中注释的多个不同属性中的每个,训练多个图像属性检测器中的每个; 通过处理器学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系; 通过经训练的属性检测器在输入图像数据集中搜索包括多个所注释的属性的多属性查询子集中的至少一个属性的图像; 从对所述输入图像数据集的搜索检索多个图像,所述多个图像各自包括所述查询子集的多个属性中的至少一个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息;以及 依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数,对所检索到的多个图像进行排序。
2.如权利要求I所述的方法,其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权;并且 其中依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序还包括将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另一个结果更高,并且所述一个结果和所述另一个结果具有相同总数的也在所述查询子集的多个属性中的属性。
3.如权利要求2所述的方法,其中学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性还包括 反向学习所注释的属性的标签的集合到图像的所述训练数据集中的图像的映射,以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合。
4.如权利要求3所述的方法,其中从对所述输入图像数据集的搜索检索多个图像,所述多个图像各自包括所述查询子集的多个属性中的至少一个属性,并且同时还考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息,还包括 通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的多个图像,其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另一属性之间的依赖性的分量的函数。
5.如权利要求4所述的方法,其中所述学习所述成对关系是最大边际训练。
6.如权利要求5所述的方法,其中通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的图像的集合还包括 使用复杂损失函数,以将加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的一个输出、比所述加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另一个输出折损得更重。
7.如权利要求6所述的方法,其中所述最大边际训练还包括产生多个限制;以及 向所述优化的性能量度迭代地添加所述产生多个限制的被违反最多的限制。
8.一种用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的系统,包括 配置用于为在人的图像的训练数据集中注释的多个不同属性中的每个训练多个图像属性检测器中的每个的部件; 配置用于学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系的部件; 配置用于通过经训练的属性检测器在输入图像数据集中捜索包括多个所注释的属性的多属性查询子集中的至少ー个属性的图像的部件; 配置用于从对所述输入图像数据集的搜索检索多个图像的部件,所述多个图像各自包括所述查询子集的多个属性中的至少ー个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息;以及 配置用于依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序的部件。
9.如权利要求8所述的系统,其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权;并且 其中配置用于排序的部件还被配置用于通过将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另ー个结果更高而依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数来对所检索到的多个图像进行排序,并且所述ー个结果和所述另ー个结果具有相同总数的也在所述查询子集的多个属性中的属性。
10.如权利要求9所述的系统,其中配置用于学习的部件还被配置用于通过反向学习所注释的属性的标签集合到图像的所述训练数据集中的图像的映射以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合,而学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性。
11.如权利要求10所述的系统,其中配置用于检索的部件还被配置用于 通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的多个图像,其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另ー属性之间的依赖性的分量的函数, 来从对所述输入图像数据集的搜索检索多个图像,所述多个图像各自包括所述查询子集的多个属性中的至少ー个属性,并且同时考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信知、O
12.如权利要求11所述的系统,其中配置用于检索的部件还被配置用于通过使用复杂损失函数以将所加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的ー个输出、比所加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另ー个输出折损得更重,来通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的图像的集合;并且 其中配置用于学习的部件还被配置用于通过最大边际训练来学习所述成对关系,所述最大边际训练包括 产生多个限制;以及 向所述优化的性能量度迭代地添加所述产生多个限制的被违反最多的限制。
13.ー种提供用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的服务的方法,所述方法包括提供 图像属性检测器训练器和属性映射器装置,其为在人的图像的训练数据集中注释的多个不同属性中的每个训练多个图像属性检测器中的每个,并且学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系;以及 多属性检索和排序模型装置,其与所述图像属性检测器训练器和属性映射器装置通信,所述多属性检索和排序模型装置通过经训练的属性检测器在输入图像数据集中捜索包括多个所注释的属性的多属性查询子集中的至少ー个属性的图像;从对所述输入图像数据集的搜索检索多个图像,所述多个图像各自包括所述查询子集的多个属性中的至少ー个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息;以及依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数,对所检索到的多个图像进行排序。
14.如权利要求13所述的方法,其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权;并且 其中所述多属性检索和排序模型装置通过将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另ー个结果更高,依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序,其中所述ー个结果和所述另ー个结果具有相同总数的也在所述查询子集的多个属性中的属性。
15.如权利要求14所述的方法,其中所述图像属性检测器训练器和属性映射器装置通过反向学习所述注释的属性的标签集合到图像的所述训练数据集中的图像的映射以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合,来学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性。
16.如权利要求15所述的方法,其中所述多属性检索和排序模型装置通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的多个图像,其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另ー属性之间的依赖性的分量的函数, 来从对所述输入图像数据集的搜索检索多个图像,所述多个图像各自包括所述查询子集的多个属性中的至少ー个属性,并同时考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息。
17.如权利要求16所述的方法,其中所述多属性检索和排序模型装置还通过使用复杂损失函数以将所述加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的ー个输出、比所述加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另ー个输出折损得更重,来通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的图像的集合;并且 其中所述图像属性检测器训练器和属性映射器装置通过最大边际训练来学习所述成对关系,所述最大边际训练包括产生多个限制,以及向所述优化的性能量度迭代地添加所述产生多个限制的被违反最多的限制。··
全文摘要
通过为在训练数据集中注释的不同属性训练图像属性检测器,根据与多属性查询的属性的相关性而检索和排序图像。学习来自图像的训练数据集的所注释的属性对之间的成对关系。接着可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像,其中从该搜索检索图像,所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据在查询子集的属性中的属性的相应总数而对所检索到的图像进行排序。
文档编号G06F17/30GK102855268SQ20121017952
公开日2013年1月2日 申请日期2012年6月1日 优先权日2011年6月3日
发明者A.达塔, R.S.费里斯, S.U.潘坎蒂, B.赛迪奎伊 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1