用于基于文本的图像搜索结果重新排序的自适应视觉相似性的制作方法

文档序号：6594519阅读：171来源：国知局

专利名称：用于基于文本的图像搜索结果重新排序的自适应视觉相似性的制作方法
用于基于文本的图像搜索结果重新排序的自适应视觉相似
性背景用户可以在因特网上搜索的东西之一是图像。一般而言，用户键入一个或多个关键词，希望找到某种类型的图像。图像搜索引擎随后基于所输入的文本来查找图像。例如，搜索引擎可以返回按从图像文件名和环绕文本中提取的文本关键词来排序的成千上万的图像。然而，当代商业因特网范围的图像搜索引擎提供了非常差的用户体验，因为许多所返回的图像是不相关的。有时候，这是有歧义的搜索术语导致的结果，例如“林肯”可以指的是著名的亚伯拉罕·林肯、汽车品牌、内布拉斯加州的州府等等。然而，即使在较少歧义时，图像表示及其意义之间的语义间隙使得很难在受到许多不相关图像的污染的因特网范围的数据库上提供良好的结果。在按相关性对图像排序时使用视觉特征可能是有帮助的，但至今为止这种使用在因特网范围的图像搜索引擎中花费了太多的时间和空间上的成本。概述提供本概述以便以简化形式介绍将在以下的详细描述中进一步描述的一些代表性概念。本概述不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在以限制所要求保护的主题的范围的任何方式来使用。简言之，此处描述的主题的各方面涉及通过其来接收用户选择的图像、将用户选择的图像分成意图类并将其与其他图像进行比较以获得相似性的技术，其中比较操作取决于意图类来使用。例如，比较操作可以取决于被分类到哪个意图类来使用不同的特征加权。其他图像基于其所计算的与用户选择的图像的相似性来重新排序。在一方面，描述了接收对应于一组图像和一个所选图像的数据。所选图像被分类到意图类中，进而使用该意图类来从多个可用比较机制(例如，其他特征权重集)之中选择一种比较机制(例如，一组特征权重)。每一图像被特征化，在比较特征时使用所选比较机制来确定表示每一其他图像相对于所选图像的相似性的相似性分数。图像可以根据每一图像相关联的相似性分数来重新排序并作为经重新排序的搜索结果被返回。结合附图阅读以下详细描述，本发明的其他优点会变得显而易见。附图简述作为示例而非限制，在附图中示出了本发明，附图中相同的附图标记指示相同或相似的元素，附图中

图1是表示在其中搜索图像并基于用户选择按可能改进的相关性重新排序图像的示例因特网搜索环境的框图。图2是表示用于基于用户选择重新排序图像的示例自适应图像后处理机制的框图。图3是示出基于查询图像分类和图像特征重新排序图像所采取的示例步骤的流程图。图4是表示基于相对于相关性的实际用户反馈来重新调整模型的框图。
图5示出可以将本发明的各方面并入其中的计算环境的说明性示例。详细描述此处描述的技术的各方面一般涉及基于图像之间的视觉相似性重新排序基于文本的图像搜索结果。在接收到响应于关键词查询的图像之后，用户可以提供关于特定图像的实时选择，例如，通过在一个图像上点击来将该图像选择为查询图像(例如，图像本身和 /或其标识符)。随后，基于该图像的类来对其他图像重新排序，使用该图像的类来对查询图像的一组视觉特征相对于其他图像的视觉特征进行加权。应当理解，此处阐述的任何示例都是非限制性示例。例如，此处描述和使用来表征图像的特征和/或类仅仅是可以使用的某些特征和/或类，且并非需要使用的所有特征和 /或类。如此，本发明不限于此处所描述的任何特定实施例、方面、概念、结构、功能或示例。相反，在此所描述的实施例、方面、概念、结构、功能或示例中的任何一个都是非限制性的，并且本发明可以按一般在计算、联网和内容检索中提供益处和优点的各种方式来使用。如图1概括地表示的，示出了因特网图像搜索环境，在其中，客户机(用户)将初始查询102提交给图像搜索引擎104，如标有带圈的数字一(1)的箭头概括地表示的。如图所示，图像搜索引擎104访问一个或多个数据存储106并且响应于初始查询102提供一组图像108(带圈的数字二(2))。图像基于文本按相关性进行排序。如标有带圈的数字三(3)和数字四⑷的箭头概括地表示的，用户可以经由重新排序查询110向图像搜索引擎104提供一选择。通常，这通过将“查询图像”选为该选择来完成，诸如通过按照请求重新排序的方式在图像中的一个上点击。当搜索引擎104接收到该重新排序查询110时，图像搜索引擎调用自适应图像后处理机制112来将初始结果重新排序(带圈的数字五(5)和六(6))到重新排序查询响
应114中，所述重新排序查询响应114随后作为经重新排序的图像被返回(带圈的数字七 ⑵)。在一个示例实现中，重新排序基于如下所述的查询图像的分类(例如，景观类图像、肖像类图像等等)。然而，注意，用户选择可以不仅仅包括查询图像，例如，用户可以诸如从类列表中提供意图分类本身和所述查询图像一起来指定类似于“对看上去像该查询图像但却是肖像而非这种图像类型的图像进行排序”的内容；出于简洁的目的不在下文中描述这种选择，相反改为将分类委托给自适应图像后处理机构112。一般而言，自适应图像后处理机构112包括根据所返回的图像与查询的相似性来对这些图像重新排序的实时算法。更具体地，如图2所示，搜索引擎将图像数据和用户选择 (例如，查询图像)发送给自适应图像后处理机构112。注意，只要可以适当地处理图像就不必发送图像本身而发送标识符。如图2所表示的，图像/用户选择208包括可以由意图分类机构220根据一组预定“意图”来分类的查询图像218，诸如将查询图像分类到以下描述的意图类中的一类222 中。此外，查询图像218可以由特征化器机构224处理成各种特征值228，诸如以下描述的那些特征值。注意，分类和/或特征化可以按需动态地完成，或者可以预先计算并从一个或多个高速缓存228中检索。例如，可以保存经常被选为查询图像的流行图像的类和/或特征值以供更高效的操作。其他图像被类似地特征化成其特征值。然而，代替直接将这些特征值与查询图像的特征值进行比较来确定与查询图像218的相似性，可以改为首先基于类相对于彼此对特征加权。换言之，选择不同的比较机制(例如，不同的权重)用于比较特征的相似性取决于该查询图像被分类到哪个类中，即，该查询图像的意图。为此，特征比较机构230从先前训练和/或计算的那些比较机制之中获得合适的比较机制232 (例如，存储在数据存储中的一组特征权重)。排序机构234可以在将各种其他图像与查询图像比较时操作，或者基于相关联的分数来向后排序图像，然后提供最终经重新排序的结果114。转向基于类的特征权重的概念，意图反映了可以组合不同特征来提供不同类别的图像的更好结果的方式。对每一意图类别有差别地调整图像重新排序(例如，经由不同的特征权重)。实际结果已经证明，通过有差别地分类图像，提高了关于相关性的整体检索性能。为了从诸如色彩、形状、纹理等不同角度表征图像，此处描述了一组示例特征。这些特征在描述图像的内容方面是有效的，并且就其计算和存储复杂性而言使用高效。然而，在给定模型中可以使用少于所有这些所例示的特征和/或可以使用其他特征来代替这些示例特征，或除了这些示例特征之外可以使用其他特征。描述图像的色彩组成的一个特征一般被称为色彩签名。为此，在对LAB色彩空间中的像素色彩进行k_均值聚类之后，取各聚类中心及其相对比例作为签名。用于解决图像的不同部分的不同重要性的一种已知的色彩签名被称为Attention Guided Color Signature (注意力引导色彩签名)(ASig)；可以使用注意力检测器来计算图像的特征图，并由该特征图对k-均值聚类执行加权。可以使用已知(例如，Earth Mover距离，即EMD) 算法来高效地计算两个ASig之间的距离。使用另一(并且认为是新的)特征，“Color Spatialet (色彩小空间)”特征来表征图像中的色彩的空间分布。为此，首先将图像由规则网格分成nXn片。在每一片中，将片的主色彩计算为k-均值聚类之后的最大聚类。图像由Color Spatialet(CSpa),η2个色彩值的向量来表征；在一个实现中，η = 9。在计算两个CSpa A和B的距离时可以使用下式来解决图像中的对象的某种空间移动和大小调整
η ηd(A = Σ Σ mil1Bi±hJ±l)}
=ι J=I(1)其中Aiij表示图像中第(i，j)个块的主色彩。Gist是表征图像的整体外观的一种已知方式，并且因此可将其用作特征，如来度量两个自然景观图像之间的相似性。Gist可以突出共有相似语义场景类别的图像。Daubechies Wavelet (Daubechies小波)是另一特征，基于各频带中的小波系数的二阶矩来表征图像中的纹理特性。更具体地，使用Daubechies-4小波变换(DWave)，该变换由某一给定支集的最大数量的零矩来表征。SIFT是同样可以用来表征图像的一个已知特征。更具体地，展示在对象识别任务方面具有出众表现的局部描述符。已知的典型的局部描述符包括SIFT和Geometric Blur (几何模糊)。在一个实现中，使用128-维SIFT来描述Harris兴趣点周围的区域。通过从来自数据库的随机选择的10000个图像的集中提取的150万个SIFT描述符的集上执行分层k-均值来获得450个词的码本。随后该码本量化每一图像内部的描述符。可以使用tf-idf (项频率-逆文档频率)来计算两个SIFT特征的距离，这在考虑词的相对重要性的信息检索中是一种常见的方法。描述了边缘取向的直方图的 Multi-Layer Rotation Invariant Edge Orientation Histogram(多层旋转不变的边缘取向直方图)(MRI-EOH)由于其对光照变化和移动的不变性而长期在可变视觉应用程序中使用。在比较两个EOH时结合旋转不变性，得到多层旋转不变的EOH(MRI-EOH)。为了计算两个MRI-EOH之间的距离，旋转其中的一个来最佳地匹配另一个，并取该距离作为两者之间的距离。以此方式，在某种程度上结合了旋转不变性。注意，在计算MRI-EOH时，使用阈值参数来过滤掉弱边缘；一个实现使用多个阈值来得到多个EOH来以不同比例表征图像边缘分布。另一特征基于梯度的直方图(HoG)，即规则网格所划分的图像块中的梯度的直方图。HoG反映了边缘在图像的不同部分上的分布，并且对于具有强、长边缘的图像特别有效。对于面部特征，面部及其外表的存在给出了图像的清晰语义解释。可以对图像中的每一个使用已知的脸部检测算法来获得面部数量、面部大小和位置以作为面部特征 (脸)来从“面部”角度描述图像。将两个图像之间的距离计算为面部数量差、平均面部大小和平均面部位置之和。有了从多个方面来表征图像的该组特征，可以组合这些特征来作出关于查询图像和任何其他图像之间的相似性&(·)的决定。然而，将不同的特征组合在一起是重要的。考虑有F个不同的特征来表征图像。图像i和j之间在特征m方面的相似性被表示为sm(i， j)。为每一图像i定义向量α i来表达其对不同特征的具体“观点”。0、越大，第m个特征对于图像i就越重要。在不丧失通用性的情况下，一条约束是α彡O且I I α 11 I = 1，提供了对图像i局部相似性的度量
F·) =‘)
(2)对于任意不同的i，对这些相似性具有不同的强调。例如，如果用户选择的查询图像是一般的景观图像，则通过在组合特征时赋予场景特征较大的权重来强调场景特征，而如果查询图像是集体照，则更多地强调面部特征。这种对特征的具体需要在此处被称为意图(Intention)的权重α中反映。为了使不同的特征共同作用于具体图像，则根据不同的查询图像局部地调整特征权重。如以上概括地描述的，一种机制/算法涉及通过意图分类来推断局部相似性。一般而言，如同对自然图像的人类感知，图像一般可以被分类成典型的意图类，诸如在以下意图表中阐述的(注意，在给定模型中可以使用少于所有这些所例示的类，和/或可以使用其他类来代替这些示例类，或除了这些示例类之外可以使用其他类)
一般对象包含一般对象的特写的图像
简单背景对象带有简单背景的对象景观图像
权利要求
1.一种在计算环境中的方法，包括接收关于从多个图像中选择的图像的用户选择数据，所述选择数据包括查询图像；基于每一其他图像与所述查询图像的相关性来确定所述多个其他图像的相似性分数，其中所述相似性分数至少部分地基于与所述查询图像相关联的意图类信息来计算；以及返回对应于基于所述相似性分数来排序的所述图像的结果。
2.如权利要求1所述的方法，其特征在于，接收所述用户选择数据包括基于文本排序的图像结果接收对应于所述查询图像的用户选择。
3.如权利要求1所述的方法，其特征在于，还包括将所述查询图像分类成类，并且基于所述类来选择所述意图类信息。
4.如权利要求1所述的方法，其特征在于，还包括将所述查询图像特征化为第一特征值并且将每一其他图像特征化为第二特征值，并且确定所述相似性分数包括比较对应于所述第一特征值和第二特征值的数据。
5.如权利要求4所述的方法，其特征在于，比较对应于所述第一特征值和第二特征值的数据包括基于所述意图类信息对所述特征值的各部分相对于彼此加权。
6.如权利要求1所述的方法，其特征在于，还包括基于相关性反馈来调整所述意图类 fn息ο
7.一种在计算环境中的系统，所述系统包括一种图像处理机构，所述机构包括获得所选图像的意图类的分类机构、获得所述所选图像的第一特征值和另一图像的第二特征值的特征化器机构、以及耦合到所述分类机构和所述特征化器机构的特征比较机构，所述特征比较机构被配置成使用所述意图类来选择比较机制，并且使用所述比较机制以使用所述第一特征值和所述第二特征值来计算所选图像和所述其他图像之间的相似性分数。
8.如权利要求7所述的系统，其特征在于，所选图像和所述其他图像由耦合到所述图像处理机构的因特网搜索弓I擎提供。
9.如权利要求7所述的系统，其特征在于，所述图像处理机构还包括对所述相似性分数相对于通过处理另一图像获得的至少一个其他相似性分数来进行排序。
10.如权利要求7所述的系统，其特征在于，还包括耦合到所述图像处理机构的高速缓存，其中所述特征化器机构从所述高速缓存获得所述第一特征值中的至少某些，或者所述第二特征值中的至少某些，或者所述第一特征值和所述第二特征值两者中的至少某些。
11.如权利要求7所述的系统，其特征在于，还包括耦合到所述图像处理机构的高速缓存，其中所述分类机构从所述高速缓存获得所述意图类。
12.如权利要求7所述的系统，其特征在于，还包括用于基于相关性反馈来调整所述比较机制的装置。
13.如权利要求11所述的系统，其特征在于，所述比较机构包括从多组特征权重之中选择的一组特征权重。
14.如权利要求13所述的系统，其特征在于，所述特征包括色彩签名、色彩小空间、 gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸，或色彩签名、色彩小空间、gist, Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸的任意组合。
15.如权利要求13所述的系统，其特征在于，所述类包括一般对象、简单背景对象、景观、人物、肖像或其他，或一般对象、简单背景对象、景观、人物、肖像或其他的任意组合。
16.一个或多个具有计算机可执行指令的计算机可读介质，所述计算机可执行指令在被执行时执行以下步骤，包括(a)接收对应于一组图像和一个所选图像的数据；(b)将所选图像分类到意图类中；(c)基于所述意图类从多个可用比较机制之中选择一个比较机制；(d)将所选图像特征化为第一特征值；(e)对于除了所选图像之外的每一图像，将所述图像作为比较图像，将所述比较图像特征化为第二特征值，并且使用在步骤(c)中使用选择的比较机制来比较所述第一特征值和所述第二特征值以确定所述比较图像关于所选图像的相似性分数并将所述相似性分数与所述比较图像相关联；以及(f)返回数据，所述数据对应于基于为每一图像确定的所述相关联的相似性分数而相对于彼此重新排序的比较图像。
17.如权利要求16所述的一个或多个计算机可读介质，其特征在于，选择所述比较机制包括基于所述意图类从不同的特征权重集之中选择一组特征权重。
18.如权利要求16所述的一个或多个计算机可读介质，其特征在于，还具有包括基于用户相关性反馈来改变至少一个比较机制的计算机可执行指令。
19.如权利要求16所述的一个或多个计算机可读介质，其特征在于，所述特征包括色彩签名、色彩小空间、gist, Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸，或色彩签名、色彩小空间、gist、Daubechies小波、SIFT、多层旋转不变的边缘取向直方图、梯度的直方图或面部特征脸的任意组合。
20.如权利要求16所述的一个或多个计算机可读介质，其特征在于，所述类包括一般对象、简单背景对象、景观、人物、肖像或其他，或一般对象、简单背景对象、景观、人物、肖像或其他的任意组合。
全文摘要
描述了一种根据与用户选择图像的视觉相似性对按某种相关性估计(例如，根据基于文本的相似性)被初始排序的图像重新排序的技术。接收用户选择的图像并将其分类到意图类中，诸如景观类、肖像类等等。使用该意图类来确定如何比较其他图像的视觉特征和用户选择的图像的视觉特征。例如，比较操作可以取决于为用户选择的图像确定哪个意图类来使用不同的特征加权。其他图像基于其所计算的与用户选择的图像的相似性来重新排序，并作为查询结果返回。还描述了使用实际的用户提供的相关性反馈来重新调整特征权重。
文档编号G06F17/30GK102144231SQ200980132530
公开日2011年8月3日申请日期2009年6月16日优先权日2008年6月16日
发明者F·闻, X·唐申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｆ·闻
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。