图像内容的语义表示的制作方法

文档序号:13080251阅读:363来源:国知局
图像内容的语义表示的制作方法与工艺

本发明总体而言涉及数据挖掘的技术领域,并且尤其涉及图像内容的自动注释的技术领域。



背景技术:

“多媒体”文件通过语源包括各种信息,通常与不同的感官或认知能力相关(例如,与视觉或听觉有关)。多媒体文件可以是例如伴随有“标记”的图像,也就是说通过注释,或者对应于包括图像和文本的网页。

数字文件通常可以分成几个信息“通道”,其可以包括例如文本信息(例如,源自ocr字符识别)和视觉信息(例如,文件中标识的图示和/或照片)。视频也可以分为几个这样的频道:视觉通道(例如,视频的帧)、声音通道(例如,声道),文本通道(例如,从语音转录成文本的结果,以及视频的元数据,例如日期、作者、标题、格式等)。因此,多媒体文件尤其可以包括视觉信息(即,像素)和文本信息(即单词)。

当在多媒体数据中进行挖掘时,查询过程(即通过数据库进行搜索)可能涉及本身可能采用如下多种形式的查询:(a)一个或多个多媒体文件(组合图像和文本)、和/或(b)单独的视觉信息的形式(搜索称为“基于图像的搜索”或“基于图像内容的搜索”)、或(c)单独的文本形式(大众市场搜索引擎的一般情况)。

多媒体数据库内的信息搜索的技术问题尤其在于从最大可能性地类似于查询的库中检索文件。在注释的数据库(例如,利用标签和/或标记)中,由分类引起的技术问题在于为新的未注释的文件预测这个标签或这些标签。

唯一视觉文件的内容必须与分类模型相关联,所述分类模型确定了文件可能关联的类别,例如在没有标记或注释或基于图像的关键词的描述的情况下(或者例如间接地通过图像的出版的环境)。在可访问这些元数据的情况下,必须以一致且有效的方式来描述多媒体文件的内容(组合有图像和文本)。

因此,初始的技术问题在于确定出确定图像的视觉内容的有效方式,也就是说构建图像的视觉内容的语义表示。如果存在文本注释,则这将需要例如将视觉内容的表示与这些注释相结合。

因而构建的表示的相关性可以采用多种方式实现,其中一个特别是结果的准确性的测量。在图像搜索方面,准确性由语义上与图像查询、文本查询或图像和文本组合查询相似的图像数量给出。在图像分类方面,通过结果的准确性(例如正确预测的标签的比例)及其泛化能力(例如,针对要识别的几类的分类“工作”)来评估相关性。计算时间(通常由表示的复杂度确定)通常是这两个搜索和分类场景的重要因素。

结构化的广泛图像集合的可用性(例如,根据诸如imagenet(deng等人,2009)的概念,以及训练过程的可用性(其展现出足够的缩放可能性)已经导致提出了关于视觉内容的语义表示(参见li等人,2010;su和jurie,2012;bergamo和torresani,2012)。这些表示通常通过从一个或多个基本视觉描述符开始(即,局部或全局或根据两者的组合)来实现。此后,这些描述由训练过程用于构建个体概念的分类器或描述符。分类器或描述符将一个或多个类别(例如,名称、质量、属性等)分配或指定给对象,或者将一个或多个这样的类别与对象(这里是图像)相关联。最后,通过将由测试图像的分类给出的概率分数与构成表示的概念相关联的每个分类器聚合得到最终描述(torresani等人,2010)。另一方面,li等人在2010年引入了objectbank,objectbank是一个由大约200个分类器的响应组成的语义表示,它们通过手动验证的图像库进行预先计算。在2012年,su和jurie手动选择了110个属性来实现图像的语义表示。在2010年,torresani等人引入了“类素(classèmes)”,它们基于使用来自网页的图像训练的2000多个个体概念模型。在这项工作之后,bergamo和torresani在2012年引入了“元类”,即以源自将类似概念组合在一起并共同进行训练的imagenet的概念为基础的表示。在2013年,使用深层神经网络来解决大规模图像分类问题(sermanet等人;donahue等人)。根据这种方法,网络最后一层给出的分类得分可用作图像内容的语义表示。然而,若干硬件限制意味着难以在同一个网络内有效地表示大量的类别和非常大量的图像。处理的类别的数量通常大约为1000,且图像的数量大约为百万。

在2012年,bergamo和torresani发表了一篇题为“预算大规模对象分类的元类特征(meta-classfeaturesforlarge-scaleobjectcategorizationonabudget)”的文章(cvpr.ieee,2012)。作者通过使用其视觉密切关系来将imagenet层级的概念一起分组,提出了图像的紧凑表示。作者使用量化(即,最显著的维度被设置为1,而其它维度被设置为0),从而使得描述符更紧凑。尽管如此,定义“元类”的方法并不能确保图像内容的多样化表示。此外,量化也导致性能下降。

目前的现有技术很少解决与图像搜索的多样性相关的方面。多样性意味着图像中存在的各种概念出现在相关联的表示中。

本文中提出的发明能够至少部分地解决这些需求或限制。



技术实现要素:

公开了一种由计算机实现的用于图像内容的语义描述的方法,包括以下步骤:接收与所述图像相关联的签名;接收多个初始视觉概念组;该方法的特征在于以下步骤:以包括参考初始视觉概念组的分量的矢量的形式来表达图像的签名;以及通过应用适用于所述矢量的分量的过滤规则来修改所述签名。开发特别描述了组内或组间的基于阈值的和/或基于顺序统计量的过滤规则,包括图像的视觉相似性和/或概念的语义相似性的划分技术,可选地将手动注释添加至图像的语义描述。呈现了方法在简约和多样化的语义表示方面的优点。

根据本发明的方法将有利地在多媒体信息搜索和/或文件分类的架构内(例如,在数据挖掘语境中)找到应用。

根据本发明的一个方面,视觉文件由通过将这些文件与各个概念分类器进行比较而获得的概率来表示。

根据本发明的一个方面,允许图像内容的多样化表示。

根据本发明的一个方面,确保表示的紧凑字符而不损失性能。

有利地,本发明的实施方案提出了紧凑且多样化的语义表示。

有利地,本发明提出了关联了多样性和稀疏字符的视觉内容的语义表示,这是在本领域的文献中尚未解决的两个方面。多样性是重要的,因为它保证图像中存在的各种概念出现在表示中。稀疏字符是重要的,因为它可以借助于倒向文档来加速基于相似度的图像搜索的处理。

有利地,本发明确保了语义表示的泛化能力(即,系统可独立于内容本身操作)。

有利地,根据本发明的方法通常很快地计算并用于大量多媒体数据库。

有利地,根据本发明的方法允许多样化和稀疏的语义表示。

本发明将有利地找到在任何工作方面的应用,任何工作是为了搜索或分类该文件而需要描述多媒体文件(组合有视觉和文本信息)的工作。例如,该方法允许实现多媒体搜索引擎;由于该方法的语义表示的稀疏字符,所以对“大量的”多媒体存储的探索通常会大大加快。本发明允许对图像或视频中存在的对象进行大规模识别。例如,为了提出背景广告,可以借助其图像来创建用户配置文件,并且使用这些配置文件来定位或个性化广告。

附图说明

参考下面的附图,本发明的各个方面和优点在支持本发明的优选但非限制性的实施方案的描述中将变得显而易见:

图1示出了文件的分类或注释;

图2示出了监督分类的示例;

图3示出了根据本发明的示例性方法的总体图;

图4详细说明了针对根据本发明的方法的某些步骤。

具体实施方式

图1图示了文件的分类或注释。在所考虑的示例中,文件是图像100。该文件的标签130指示其在所考虑的每个类别110中的隶属程度。例如,通过考虑四个类别(这里是“木材”、“金属”、“土”和“水泥”),标注文件100的标签120是四维的矢量140,矢量的每个分量为概率(如果文件不对应于类别,则等于0,如果文件以一定的方式与类别相对应,则等于1)。

图2示出了监督分类的示例。该方法特别包括两个步骤:第一个所谓的训练步骤200和第二个所谓的测试步骤210。训练步骤200通常是以“离线”方式执行(也就是说以先前的方式或者提前进行)。第二步骤210通常以“在线”的方式(即在实际搜索和/或分类步骤期间实时地)执行。

这些步骤200和210中的每一个包括基于特性(或“特征提取”,步骤203和212)的表示步骤,其使得可以通过固定维度的矢量来描述文件。该矢量通常仅从文件的一个模式(即,通道)提取。视觉特征包括视觉内容或语义表示的局部表示(即,视觉词包、fisher矢量等)或全局表示(颜色的直方图,纹理的描述等)。

语义表示通常通过使用中间分类器来获得,中间分类器提供图像中个体概念出现概率的值,并且包括类素或元类。以示意性的方式,视觉文件将通过类型{“狗”=0.8,“猫”=0.3,“汽车”=0.03,……,“阳光”=0.65}的矢量来表示。

在训练阶段200期间,一系列这样的矢量和相应的标签202输入训练模块(“机器学习”204),从而产生模型213。在测试阶段210中,“测试”多媒体文件211由与训练200期间相同类型的矢量来描述。该矢量被用作先前训练的模型213的输入。测试文件211的标签的预测214作为输出返回。

在步骤204中实施的训练可以包括使用被单独或组合考虑的各种技术,特别是称为“增强”的训练方法的“具有大幅度的分离器”(svm),或者使用神经网络,例如“深度”神经网络。

根据本发明的具体方面,公开了提取有利特征的步骤(步骤203和212)。特别地,所考虑的语义描述符涉及一组分类器(“堆”)。

图3图示了根据本发明的示例性方法的总体图。附图图示了构建与指定的图像相关联的语义表示的示例。

该图说明了“在线”(或“活动”)步骤。这些步骤指定基本上在图像搜索或注释时执行的步骤。该图还说明了“离线”(或“被动”)步骤。这些步骤通常预先执行,即(至少部分地)先前执行。

以先前或“离线”的方式,可以分析提供的数据库的一组图像3201(根据本发明的方法也可以通过累积并逐渐构建数据库和/或通过迭代进行分组来进行)。对于构成图像3201的所述数据库的每个图像(所述数据库被构建为n个概念c),重复提取视觉特征3111和归一化3121的步骤。可以执行一个或多个(可选)训练步骤3123(正面和/或负面示例等)。同时,这些操作还可以用于确定或优化视觉模型323(参见下文)以及分组模型324的建立。

在步骤323,接收一堆视觉模型。这堆模型可以采用各种方式确定。具体地,可以从第三方模块或系统接收模型堆,例如在步骤3101之后。“堆”对应于多个视觉模型v(称为“个体视觉模型”)。“个体视觉模型”与参考库的每个初始概念(“日落”、“狗”等)相关联。与给定概念相关联的图像表示每个概念的正面示例(而例如通过抽样选择的负面示例与表示训练库的其它概念的图像相关联)。

在步骤324中,(初始,即如接收的)概念被分组。接收到分组的模型(例如,从第三方系统)。

通常,根据本发明的方法,要分析的图像300被提交/接收,并形成各种处理和分析310(其有时可以是可选的)的对象,然后该图像的语义描述320由根据本发明的方法来确定。一个或多个注释340被确定为输出。

在步骤310的细节中,在第一步骤311(i),确定图像300的视觉特性。库3201(其通常包括数千个图像或甚至数百万图像)最初(即,预先)构造为n个概念c(在某些实施方案中,对于某些应用,n可以大约为10000个)。在步骤311确定出图像的视觉特征(但是它们也可以从第三方模块接收;例如,它们可以被提供为元数据)。步骤311通常与步骤3111相同。因此,图像300的内容由固定大小(或“签名”)的矢量来表示。在第二步骤312(ⅱ),对图像300的视觉特征进行归一化(在适当的情况下,也就是说如果需要;可能发生接收到的一些视觉特征已被归一化)。

在步骤320(根据该方法的图像内容的语义描述)的细节中,在根据本发明的步骤325(v),确定出每个图像的语义描述。在步骤326(vi),根据本发明,对于一个或几个图像,该语义描述可以被“修剪”(或“简化”或“缩小”)。在可选的步骤327(vii),可以添加或利用不同来源(包括手动注释)的注释。

图4详细解释了针对根据本发明的方法的某些步骤。步骤v、vi和任选的vii(与目前描述的其它步骤结合使用)对应于根据本发明的方法的具体特征。这些步骤使得特别可以获得数据库的图像的多样化和简约的表示。

通过使用组来允许“多样化”表示,而不是诸如由最初注释的数据库提供的初始个体概念,这有利地使得可以表示图像更多样化的方面。例如,一个组将能够包括各种品种的狗和这些概念的各种粒度水平(“金毛猎犬”、“拉布拉多猎犬”、“边境牧羊犬”、“猎犬”等)。另一组将能够与自然概念相关联(例如,与海边场景相关),另一组将涉及气象(“好天气”、“多云”、“暴风雨”等)。

图像的“稀疏”表示对应于在矢量(或图像的签名)中包括减少数量的非零维度的表示。这种简约(或“稀疏”)字符允许甚至大规模地在图像的数据库中进行高效搜索(图像的签名被比较,例如彼此进行比较,通常在随机存取存储器中;这些签名的索引通过例如倒向文档使得可以加速基于相似度的图像搜索的处理)。

“多样化表示”和“简约”的两个字符协同或一致地作用:根据本发明的多样化表示与简约搜索兼容(例如,允许或促进);简约搜索有利地利用多样化的表示。

在步骤324中,将概念分组以获得k个组gx,其中x=1,...k且k<n。

gx={vx1,vx2,...,vxy}(1)

各种程序(可选地组合在一起)可以用于分割成组。该分割可以是静态的和/或动态的和/或配置的和/或可配置的。

在某些实施方案中,分组可以特别地基于图像的视觉相似性。在其它的实施方案中,不一定考虑图像的视觉相似性。

在一个实施方案中,概念的分组可以根据图像的语义相似性来执行(例如,根据可访问的注释)。在一个实施方案中,概念的分组被监督,即得益于人类认知专长。在其它的实施方案中,分组是非监督的。在一个实施方案中,概念的分组可以利用应用于在训练库训练的每个图像的特征矢量的诸如k-均值(或k-中心点法)的“聚类”过程来执行。这导致簇的平均特征矢量。该实施方案特别允许上游的最小人为干预(仅必须选择参数k)。在其它的实施方案中,用户关于分组的干预被排除(例如,通过使用诸如“共享的最近邻”的聚类过程,这使得可以无需任何人为干预)。

在其它的实施方案中,根据等级分组过程和/或期望最大化(em)算法和/或基于密度的算法(诸如,dbscan或optics)和/或诸如自适应映射的连接关系过程来执行分组。

每个组对应于能够表示图像的可能(概念)“方面”。从进行分组的多种可能方式(组的数量和每组的大小,即组内的图像数量)可以产生各种后果或优点。组的大小可以是可变的,以便解决与表示的可变粒度相关的应用需求。组的数量可以对应于比初始概念(例如在原始注释图像库中继承或访问)更精细或更不精细(更粗糙或更不粗糙)的分区。

分割成适当大小的组使得特别可能(或多或少精细地,即根据各种粒度)表征各种概念域。每个组可以对应于例如比初始概念更粗糙(或更广泛)的“元概念”。包括分割或划分概念空间的步骤最终有利于“元概念”的创造(从无到有)。除非另有说明,这些组的集合(或“元概念”)形成表示图像的概念表示空间的新的分区。

在根据本发明的步骤325中,对于每个测试图像,一个或多个视觉特征被计算或确定并被归一化(步骤i和ii),并与概念的视觉模型进行比较(步骤iii),以基于概念库中元素的出现概率p(vxy)(其中,0≤p(vxy)≤1)来获得该图像的语义描述d。

因此,图像的描述根据iv中计算的概念组来构建:

保留的组的数量可以特别地根据应用需要而变化。在简约表示中,使用了少量的组,从而增加了多样化,反而降低了表示的表现力。相反,没有组,表现力是最大的,但多样化减少,因为同一概念将被呈现为若干个粒度水平(在上文所引用的示例中的“金毛猎犬”,“猎犬”和“狗”)。在分组操作之后,三个之前的概念将位于同一个组中,其将由单个值表示。因此,提出了基于“中间组”的表示,这使得可以同时整合多样化和表现力。

在根据本发明的第六步骤326(vi),所获得的描述d被修剪或简化,以便在每个组gx内仅保持一个或多个最高概率p(vxy)并消除低概率(在计算图像的相似度时会产生负面影响)。

在一个实施方案中,每个组与阈值(可选地不同)相关联,并且消除了(例如低于)这些阈值的概率。在一个实施方案中,所有组都与同一个阈值相关联,使得可能过滤概率。在一个实施方案中,一个或多个组与一个或多个预定的阈值相关联,并且可以消除高于和/或低于这些阈值(或阈值范围)的概率。

可以采用各种方式来确定阈值(即,根据其它类型的数学运算符的各种类型的数学平均值)。阈值也可以是预定义算法的结果。通常,阈值可以是静态的(即,在时间上是不变的),或者动态的(例如,取决于一个或多个外部因素,例如由用户控制和/或来自另一个系统)。阈值可以被配置(例如,以先前的方式,即“硬编码”),但也可以是能够配置的(例如,根据搜索的类型等)。

在一个实施方案中,阈值与概率值(例如,得分)无关,而是与数量kp(gx)相关,数量kp(gx)与“保留”或“消除”组gx的概率的秩(排序后)相关联。根据本实施方案,按照值排序(即,排列)概率值,然后选择概率值的确定数量kp(gx)(根据它们的排序或顺序或秩),并且可以应用各种过滤规则。例如,如果kp(gx)等于3,则该方法可以保留3个“最大”值(或3个“最小”或3个“分布在中间值周围”的值等)。规则可以是函数(最大,最小等)。

例如,考虑包括{p(v11)=0.9;p(v12)=0.1;p(v13)=0.8}的组1和包括{p(v21)=0.9;p(v22)=0.2;p(v23)=0.4}的组2,基于阈值等于0.5的过滤的应用将导致对于组1选择p(v11)和p(v13),对于组2选择p(v21)。通过用kp(gx)=2应用滤波规则“保持最大值”,对于组1(与过程1相同的结果)保持p(v11)和p(v13),而对于组2保持p(v21)和p(v23)。

然后可以将语义描述de的修剪版本写成(在这种情况下,kp(gx)将等于1):

de={{p(v11),0,...,0},{0,p(v22),...,0},...,{0,0,...,p(vkc)}}(3)

其中:对于g1,p(v11)>p(v12),p(v11)>p(v1a);对于g2,p(v22)>p(v1b),p(v22)>p(v1b);以及对于gk,p(vkc)>p(vk1),p(vkc)>p(vk2)。

(3)中给出的表示说明了选择称为“最大池化(max-pooling)”的维度的过程的使用。该表示是说明性的,并且所述过程的使用是完全可选的。可以使用其他替代过程来代替“最大池化”,例如称为“平均池化”的技术(每个组gk中的概念的概率的平均值),或者称为“软最大池化”的技术(在每个组内x个最高概率的平均值)。

这些组的得分在下文中将被表示为s(gk)。

式(3)中描述的修剪是组内。最后的组间修剪是有利的,以便得到图像的“稀疏”表示。

更准确地说,从de={s(g1),s(g2),…,s(gk)}开始,并且在应用(3)中描述的组内修剪之前,仅保留具有最高得分的组。例如,假设期望仅具有两个非零维度的描述,并且s(g1)>s(gk2)>…>s(g2),则最终表示将由下式给出:

df={s(g1),0,...,s(gk)}(4)

每个组中的一个或多个概念的选择使得可以获得图像的“多样化”描述,也就是说包括图像的各种(概念)方面的描述。回想一下,概念空间的“方面”或“元方面”对应于从初始概念中选择的概念组。

本发明中提出的方法的优点在于,即使这些方面中的一个最初占主导地位,它也将在或对这些方面(或“元概念”)中的一个或多个“强制”初始图像的表示。例如,如果图像主要由与“狗”、“金毛猎犬”和“狩猎犬”相关联的概念注释,而且在较小程度上,由“汽车”和“灯柱”概念注释,并且如果提出的方法的步骤iv最终形成三个元概念(即组/方面等),对于第一组,三个元概念包含{“狗”+“金毛猎犬”+“狩猎犬”},对于第二组,三个元概念包含{“汽车”+“自行车”+”摩托车“},对于第三组,三个元概念包含{“灯柱”+“城镇”+“街道”},则根据现有技术的语义表示将其大部分权重放在概念“狗”、“金毛猎犬”和“狩猎犬”上,而根据本发明的方法将使得可以识别出这四个概念描述了一个类似的方面,并还将一些权重分配给“汽车”和“灯柱”成员方面,从而使得有可能以更准确的方式检索在城镇、户外、在存在运输工具的情况下拍摄的狗的图像。

有利地,在诸如由根据本发明的方法提出的具有大的初始数量的概念和“稀疏”表示的情况下,根据本发明的方法的表示允许描述的维度的更好的可比性。因此,没有组的情况下,由于这些概念的存在,由“金毛猎犬”表示的一个图像和由“猎犬”表示的另一个图像将具有等于或接近零的相似性。在具有根据本发明的分组的情况下,两个概念的存在因为它们的组的共同成员,将有助于增加图像的(概念上)相似性。

从用户体验的角度来看,根据本发明的基于图像内容的搜索有利地使得可以考虑查询的更多方面(而不仅是根据基于在现有技术中已知的搜索的图像为“主导”的一个概念或多个概念)。该方法产生的“多样化”特别有利。其在当前图像描述符中不存在。通过将组的大小固定在等于1的极限值,获得了图像的语义表示的无需多样化的方法。

在步骤322(vii),如果存在与手动附加的图像相关联的文本注释(通常具有高语义质量),则将相关联的概念以概率1(或至少大于与例如自动分类的任务相关联的概率)添加到图像的语义描述中。该步骤仍然是完全可选的,因为其取决于可能不可用的手动注释的存在)。

在一个实施方案中,根据本发明的方法以独特的方式执行图像的分组(除非另有说明,否则存在n组m个图像)。在一个实施方案中,预先计算不同尺寸的组的“集”,即“集合”(除非另有说明,否则存在a组b个图像,c组d个图像等)。基于图像内容的搜索可以被“参数化”,例如根据呈现给用户的一个或多个选项。如果适当的话,一个或另一个预先计算的集被激活(即,在确定的集内执行搜索)。在某些实施方案中,在搜索的背景下执行各种集的计算。在某些实施方案中,一个或多个集的选择(至少部分地)根据用户反馈来确定。

通常,根据本发明的方法和系统涉及对此所考虑的图像内容的注释或分类或自动描述(即,不一定考虑除了图像内容或相关联的元数据之外的数据源)。本发明公开的自动方法可以与图像的相关语境数据进行补充或组合(例如,与这些图像的发布或视觉再现的模式相关联)。在一个变体实施方案中,可以使用上下文信息(例如从发布所考虑图像的网页产生的关键词,或者如果已知的话,则是再现的上下文)。该信息可以例如用于证实,引起或禁止或确认或拒绝根据本发明的从图像内容的分析中提取的注释。确实可以将各种定制机制与本发明组合(过滤、加权、选择等)。可以对上下文注释进行过滤和/或选择,然后将其添加到语义描述(例如,以适当的置信概率、或因子、或系数、或权重、或间隔)。

下面描述了本发明的实施方案。

描述了一种由计算机实现的用于图像内容的语义描述的方法,其包括以下步骤:接收与所述图像相关联的签名;接收多个初始视觉概念组;该方法的特征在于以下步骤:以包括参考初始视觉概念组的分量的矢量的形式来表达图像的签名;以及通过应用适用于所述矢量的分量的过滤规则来修改所述签名。

与图像相关联的签名,即初始矢量通常被接收(例如从另一个系统)。例如,该签名例如借助于现有技术已知的预定分类器以及各种其它处理(具体地,归一化处理),在提取图像内容的视觉特征之后获得。签名可以在不同参考框架中表示的矢量的形式来接收。该方法“表示”或变换(或转换,或转变)在适当的工作参考框架中接收的矢量。因此,图像的签名是大小为c的恒定大小的矢量(包括分量)。

初始注释的库还提供了初始概念的集合,例如以(文本)注释的形式。这些概念组可以特别地以“堆”的形式接收。然后,参照“初始视觉概念”(文本对象)(即诸如所接收)的组来表示签名。因此,对组的参考因此是矢量的分量。执行矢量的分量与概念的组的匹配。根据本发明的方法根据gx={vx1,vx2,…,vxy}(其中,x=1,…k并且k<n)来操控(即,划分)初始视觉概念,以及创建新的图像签名。

该方法此后通过修改图像的初始签名,即通过保留或删除(例如,设置为零)矢量的一个或多个分量(参考组),来确定图像内容的语义描述。修改的矢量仍然具有大小c。可以应用各种过滤规则。

在开发中,过滤规则包括通过应用一个或多个阈值来将与初始视觉概念组相对应的矢量的一个或多个分量保持或设置为零。

可以通过应用阈值来以组内方式修改语义描述,所述阈值从包括例如数学平均的数学运算符中选择。

修剪可以是组内的(例如,称为“最大池化”或“平均池化”(每组gk中概念的概率的平均值)的维度选择,或者根据称为“软最大池化”的技术(每组中x个最高概率的平均值)。

在开发中,过滤规则包括通过应用顺序统计量来将与初始视觉概念组相对应的矢量的一个或多个分量保持或设置为零。

在统计学中,统计样本的秩k的顺序统计量等于第k个最小值。与秩统计量相关联,顺序统计量构成非参数统计和统计推断的基本工具的一部分。顺序统计量包括样本的最小值、最大值和中位数以及各种分位数等的统计量。

可以组合基于阈值和顺序统计量规则的过滤器(指定,然后作用)(可以单独使用阈值或单独使用顺序统计量或使用二者,假借分量作用于概念组)。

例如,所确定的语义描述可以通过在每个组内应用初始概念出现概率值的数量kp(gx)的预定过滤规则来以组内组的方式进行修改。

在每组中,a)(初始概念出现的)概率的值被排序;b)确定数量kp(gx);以及c)应用预定的过滤规则(该规则从特别地包括如下规则的组中选择:“选择kp(gx)最大值”、“选择kp(gx)最小值”、“选择中位数周围的kp(gx)值”等等)。最后,通过因而确定的概率值来修改图像的语义描述。

在开发中,该方法还包括如下的步骤:确定初始视觉概念组的选择,以及将对应于所选择的视觉概念组的分量(几个分量或全部分量)设置为零。

该开发对应于组间过滤。

在开发中,分割成初始视觉概念组是基于图像的视觉相似性。

训练可能是非监督的;步骤324基于视觉相似性来提供这样的组。

在开发中,分割成初始视觉概念组是基于概念的语义相似性。

在开发中,分割成初始视觉概念组通过选自如下的一个或多个操作来执行:使用k均值和/或等级分组和/或期望最大化(em)和/或基于密度的算法和/或连接算法。

在开发中,至少一个阈值是能够配置的。

在开发中,该方法还包括如下的步骤:接收图像内容的语义描述,并且将一个或多个手动源的文本注释添加至图像内容的语义描述。

在开发中,所述方法还包括如下的步骤:接收与基于搜索查询的图像内容相关联的至少一个参数,所述参数确定了一个或多个视觉概念组;以及在所确定的概念组内进行搜索。

在开发中,该方法还包括如下的步骤:构建初始视觉概念组的集合;接收与基于搜索查询的图像内容相关联的至少一个参数,所述参数确定了初始视觉概念组的集合中的一个或多个集合;以及在确定的集合中进行搜索。

在本开发中,“组中组(groupesdegroupes)”得到了解决。在一个实施方案中,可以从各种预先计算的分区(即,根据不同的分组)中选择(例如,查询的特征)。在非常特定的实施方案中,可以实时地(即在查询时)进行划分(尽管有困难)。

公开了一种计算机程序产品,所述计算机程序包括代码指令,使得能够执行方法的一个或多个步骤。

还公开了根据该方法的一个或多个步骤来实施该方法的系统。

本发明可以在硬件元件和/或软件元件的帮助下实现。它可以作为计算机可读介质上的计算机程序产品来获得。介质可以是电子的、磁性的、光学的或电磁的。实现该方法的一个或多个步骤的设备可以使用一个或多个专用电子电路或通用电路。本发明的技术可以在执行包括指令序列的程序的可重复编程计算机(例如,处理器或微控制器)上或者在专用计算机(例如,一组逻辑门,例如fpga或asic或任何其它的硬件模块)上执行。专用电路可以特别地加速图像的(或者图像的集合或视频的“帧”的)特征提取的性能。通过适用于实现本发明的示例性硬件架构,设备可以包括:通信总线,中央处理单元(cpu)或微处理器连接至通信总线,该处理器可以是“多核”或“众核”的;只读存储器(rom),其能够包括实现本发明所必需的程序;高速缓冲存储器或随机存取存储器(ram),其包括适于记录在执行上述程序的过程中创建和修改的变量和参数的寄存器;以及通信接口或i/o(“输入/输出”),其适用于发送和接收数据(例如,图像或视频)。具体地,随机存取存储器可以允许通过相关联的矢量而快速比较图像。在将本发明安装在可重复编程的计算机上的情况下,相应的程序(也就是说指令序列)可以存储在可移动存储介质中或上(例如,闪存、sd卡、dvd或蓝光盘、大容量存储装置,例如硬盘,例如ssd)或不可移动的易失性或非易失性存储介质,该存储介质可部分或全部由计算机或处理器读取。计算机可读介质可以是便携的的或可通信的或移动的或可传送的(即,通过电信网络:2g、3g、4g、wifi、ble、光纤或其它)。对执行计算机程序时进行上述功能的任一功能的计算机程序的引用不限于在单个主计算机上执行的应用程序。相反,术语计算机程序和软件在这里通常用于指代任何类型的计算机化代码(例如,应用软件包、微软件、微代码或任何其它形式的计算机指令),其可以用于编程一个或多个处理器以实现这里描述的技术的各方面。计算机化的方法或资源可以特别地分配(“云计算”),可选地利用或根据点对点和/或虚拟化技术。软件代码可以在任何合适的处理器(例如,微处理器)或处理器核心或一组处理器上执行,无论它们在单个计算设备中提供还是分布在多个计算设备之间(例如,可能在设备的环境中可以访问)。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1