用于致密图像的题目关联和加标记的制作方法

文档序号：15615632发布日期：2018-10-09 21:18阅读：146来源：国知局

本申请的各实施方式涉及用于致密图像的题目关联和加标记。

背景技术：

利用因特网的信息搜索在年轻人和老年人等等中是广泛发展的实践。一般地，希望获得与特定题目或者事物有关的知识(或者以其他方式对它们有兴趣)的人导航至在线搜索引擎，并且将查询输入到合适的查询输入字段中。然后对查询发起，并且与输入的查询相关的搜索结果的选择被呈现以用于由用户检验和/或用户的享受。随着这样的基于查询的搜索实践的普遍扩散，用于响应于输入的查询来定位和呈现相关信息的方法和系统已经变得越来越重要。例如，想要成为用户的用于进行在线搜索的首选(go-to)资源的搜索引擎正在继续精华其用以确定对输入的搜索查询的潜在搜索结果的相关性的系统和方法。

在线信息搜索中的另一发展趋势是在除了基于文本的文档之外或者代替基于文本的文档的，对在线图像的搜索。图像搜索的两种主要方法已经被广泛使用。在第一方法中，用户输入一个或者多个文本关键词，并且作为响应，与关键词相关的图像被呈现。例如，在进行关键词搜索时，可以向输入文本关键词“狗”的用户呈现示出狗的图片的多个图像。在第二方法中，例如，当用户想要查看类似图像和/或检查关于输入图像中所描绘的内容的文本信息时，利用图像作为输入的查询。通过示例的方式，在执行图像搜索之后，可以向输入文森特·梵高的“繁星之夜”图像的用户呈现文森特·梵高的其他作品和/或关于艺术家、绘画等有关的基于文本的信息。

关于是响应于基于文本的查询还是基于图像的查询来呈现图像，确定特定图像的相对于所查询的信息的相关性可能是艰苦的工作。在一些情况下，用户可以手动地将关键词与图像数据库中包括的图像相关联，和/或可以从结合图像获得和/或与图像接近的信息提取关键词。这样的关键词然后可以作为关键词标签与图像相关联。随后，当用户利用至少类似于与给定图像相关联的关键词标签的关键词来搜索图像时，可以响应于查询来呈现该给定图像。类似地，具有与其相关联的关键词作为关键词标签的输入图像在被搜索时，可以提示类似地具有与其相关联的关键词(或者类似关键词)作为关键词标签的其他图像的返回。然而，诸如这些的基于标签的方法和系统经常呈现与给定查询仅略微相关的图像，特别是在与图像相关联的关键词标签由于多个项目正在图像中被描绘而变化的情况中。

在其他情况中，搜索系统可以从给定图像提取视觉特性，并且试图将这样的特性与图像数据库中的图像的类似视觉特性匹配，以用于响应于查询来向用户呈现。例如，由于图像中可能包括大量视觉信息并且仅其一部分可能与输入查询相关，所以诸如这些类似的基于视觉特性的方法和系统可能呈现与给定查询仅略微相关的图像。

上文陈述的挑战对于致密图像甚至更加严重，致密图像也就是具有高分辨率或者以其他方式具有很多相关联信息的图像。在这样的情况中，关键词或者视觉特性经常仅与图像的一小部分相关联，这可能导致关键词和/或视觉特性信息不如具有相对少的相关联的信息的图像精确的图像。

技术实现要素：

除了其他方面以外，本发明的实施方式涉及一种用于利用嵌入学习来将来自致密图像(即，具有高分辨率或者以其他方式具有丰富的相关联的信息的图像)的视觉信息与指示图像的主题的题目相关联的框架。框架利用多个图像被训练，每个图像具有相关联的关键词标签。关键词标签被用来通过计算针对与图像相关联的标签而被生成的词矢量表示的加权平均，来生成针对每个图像的加权词矢量(或“软题目矢量”)(也就是，表示从标签得到的主体图像的主导概念的特征矢量)。与每个图像相关联的视觉信息包括多个区域。针对每个图像的每个区域，图像特征矢量被生成。针对给定图像的每个区域的图像特征矢量与针对该图像的加权词矢量被对齐(即，使得尽可能彼此接近)到共用嵌入空间中，并且热土针对该图像被计算。热图在视觉上指示主体图像的特定区域相对于某些关键词标签的相关性。热图包括与图像的区域对应的多个区域，并且热图的至少一个区域与标签中的每个标签对应。一旦经训练，在此描述的框架就可以被用来自动地将关键词标签与附加输入图像相关联，并且基于相关联的热图来将图像和/或图像区域相对于查询关键词的相关性排名。

提供了本发明内容以便以简化形式引入概念的选择，其将在下文具体实施方式中被进一步描述。被发明内容不旨在标识所要求保护的主题的关键特征或者本质特征，也不旨在被用作帮助确定所要求保护的主题的范围。

附图说明

下文参考附图对本发明进行详细描述，其中：

图1是图示了根据本公开内容的一些实现方式的用于致密图像的示例性图像到题目关联和加标记系统的框图；

图2是图示了根据本公开内容的一些实现方式的示例性致密图像到题目关联和关键词加标记系统的示意图；

图3是图示了根据本公开内容的一些实现方式的利用图像到题目关联系统针对输入图像被返回的示例性搜索结果的示意图；

图4是图示了根据本公开内容的一些实现方式的用于致密图像到题目关联和关键词加标记的示例性方法的流程图；

图5是图示了根据本公开内容的一些实现方式的用于利用软题目嵌入学习的示例性网络的示意图；

图6是图示了根据本公开内容的一些实现方式的利用完全卷积网络的致密图像到题目关联和关键词加标记的示意图；

图7是图示了根据本公开内容的一些实现方式的具有题目引导的图像到标签嵌入的示意图；以及

图8是图示了根据本公开内容的一些实现方式的适合使用的示例性计算环境的框图。

具体实施方式

除了其他方面以外，本发明的实施方式涉及用于利用嵌入学习来将致密图像(即，具有高分辨率或者以其他方式具有丰富的相关联的信息的图像)与指示图像的主题的题目相关联的框架。框架利用多个图像被训练，每个图像具有相关联的关键词标签。与每个图像相关联的标签信息被用来通过计算针对与图像相关联的标签而被生成的词矢量表示的加权平均来生成针对每个图像的加权词矢量(或“软题目特征矢量”)(也就是，表示从标签得到的主体图像的主导概念的特征矢量)。与每个图像相关联的视觉信息被分为多个区域。针对每个图像的每个区域，一个或者多个视觉特征被计算，图像特征矢量从视觉特征被生成，图像嵌入矢量从图像特征矢量被生成。针对给定图像的每个区域的图像特征矢量与针对该图像的加权词矢量被对齐(即，使得其尽可能彼此接近)到共用嵌入空间中，并且热图针对该图像被计算。热图在视觉上指示主体图像的特定区域相对于某些关键词标签的相关性。热图包括与图像的区域对应的多个区域，并且热图的至少一个区域与标签中的每个标签对应。一旦经训练，在此描述的框架就被用来基于相关联的热图来自动地对附加输入图像加标记，并且对图像和/或图像区域相对于查询的关键词的相关性排名。

在整个说明书中使用各种术语。下文中包括某些术语的定义，以提供对在此公开的构思的更清楚理解：

“卷积神经网络”是可以使用通过卷积层的数据的内部结构(诸如图像数据的二维结构)的前馈神经网络，其中每个计算单元与输入的数据的小区域(例如，大图像的小区域)对应。在卷积神经网络中，数据的小区域被转换为具有与被保存的任务相关的信息的矢量，矢量用于在上层中使用。也就是，通过训练，卷积层学习了数据的小区域的嵌入。

“嵌入”是指结构保存功能，特别地，生成保存预测结构的低维特征的功能。

“视觉特性”是指图像的视觉特点、品质或者性质。

如在此被利用的“关键词标签”是指与图像相关联的元要素，其包括与图像相关联的词或者概念。关键词标签可以包括常见的拼写错误和同义术语。关键词标签可以从图像的特性被提取和/或可以由用户手动提供。

如在此被利用的“视觉特征”是指能够从图像被计算的离散视觉信息，其可以是低水平的(例如，线、曲线等)和/或高水平的(诸如形状、身体部分等)。例如，这样的计算可以利用卷积神经网络被执行。

在线图像搜索的传统方法受制于其响应于输入查询来充分地标识并且呈现可得的最相关图像的能力。关于是响应于基于文本的查询还是基于图像的查询来呈现图像，精化用于确定相对于查询的信息的特定图像的相关性的方法和系统是针对搜索引擎和采用在线搜索功能的其他实体而在进行的工作。基于元数据关键词标签的方法和系统经常呈现与给定查询仅松散相关的图像，特别是在与图像相关联的关键词标签由于图像中描绘的多个项目而变化的情况中。类似地，基于视觉特性的方法和系统可能呈现与给定查询仅松散相关的图像，例如，由于图像中可能包括大量视觉信息，而仅仅其一部分可能与输入查询相关。这些挑战对于致密图像可能甚至更加严重，其中关键词或者视觉特性经常仅仅与图像的一小部分相关联，这可以导致其中关键词和/或视觉特性信息不如具有相对较少的与其相关联的信息的图像更加精确的图像。

本发明的各种实施方式通过提供促进利用嵌入学习来将致密图像与指示图像的主题的题目相关联的方法，解决了这样的技术挑战，即响应于输入搜索查询来适当地标识和呈现可得的最相关图像。在训练阶段期间，多个致密图像被接收，每个图像具有相关联的视觉特性和关键词标签。在一些实施方式中，关键词标签是用户提供的。关于与图像相关联的视觉特性，每个致密图像包括多个区域。每个区域包含小于整个图像，并且区域的总和包括整个图像。针对每个图像的每个区域，一个或者多个视觉特征被计算，视觉特征被用来创建针对每个图像的图像特征矢量。在关键词方面，在训练阶段期间，关键词标签被用来创建图像特定的软题目特征矢量(或者加权词矢量)。更特别地，词矢量表示针对与图像相关联的每个关键词标签被生成，并且生成的词矢量表示的加权平均被计算以生成针对图像的软题目特征(或者加权词)矢量，即，表示关键词标签中的主导概念的特征矢量。针对每个图像区域的图像嵌入和软题目特征矢量被对齐(也就是，使得其尽可能彼此接近)到共用嵌入空间中，并且热图针对该图像被计算。热图在视觉上指示主体图像的特定区域相对于某些关键词标签的相关性。热图包括与图像的区域对应的区域，并且热图的至少一个区域与标签中的每个标签对应。

一旦框架被训练，框架的自动加标记功能就可以被用来预测针对输入图像的关键词标签的列表以及相关联的热图。类似地，并且通过反向应用的方式，由图像自动加标记系统生成的热图可以被用来建立用于标识与输入搜索查询相关的图像的搜索引擎，所述输入搜索查询是基于文本的或者基于图像的查询。

现在参考附图，图1是图示了根据本公开内容的实现的用于致密图像到题目关联和关键词加标记的示例性系统100的框图。应当理解，在此描述的这一布置和其他布置仅作为示例被阐述。除了所示出的那些之外或者代替所示出的那些，可以使用其他布置和元件(例如，机器、接口、功能、顺序和功能的分组等等)，并且一些元件可以被完全省略。而且，在此描述的元件中的很多元件是可以被实现为以任何适当的组合和位置的分立的或者分布式组件或者与其他组件相结合的功能实体。由一个或者多个实体执行的在此描述的各种功能可以由硬件、固件和/或软件实现。例如，各种功能可以由执行在存储器中存储的指令的处理器实现。

系统100是用于实现本公开内容的某些方面的适当架构的示例。在未示出的其他组件之间，系统100包括用户设备102，其与图像嵌入系统104交互，以利用嵌入学习来将致密图像与指示包含在其中的主题的题目相关联。图1中所示的组件中的每个组件可以在一个或者多个计算机设备(诸如以下讨论的图8的计算设备800)上被提供。如图1中所示，用户设备102和图像嵌入系统104可以经由网络106通信，网络106可以包括但不限于一个或者多个局域网(lan)和/或广域网(wan)。这样的联网环境是办公室、企业范围的计算机网络、内联网和因特网中常见的。因此，在此不再进一步描述网络106。应当理解，在本公开内容的实现的范围内，在系统100内可以采用任意数目的用户设备和图像嵌入系统。每个可以包括单个设备或者在分布式环境中协作的多个设备。例如，图像嵌入系统104可以由共同地提供如在此描述的图像嵌入系统104的功能的多个服务器设备提供。另外，未示出的其他组件也可以被包括在网络环境内。

图像嵌入系统104具有对数据存储108的访问权。在本公开内容的实现中，数据存储库108被配置为针对与其相关联地被存储的项目中的一个或者多个项目可搜索。应当理解，与数据存储108相关联地被存储的信息可以是可配置的，并且可以包括相对于(仅以示例的方式)图像、关键词标签、软题目、视觉特征、图像矢量、热图等等的任何信息。这样的信息的内容和量并不旨在以任何方式限制本技术的方面的范围。而且，数据存储库108可以是单个的独立的组件(如所示)或者多个存储设备，例如，数据库集群，其部分可以与图像嵌入系统104、另一外部计算设备(未示出)和/或其任何组合相关联地驻留。另外，在本技术的实施方式的范围内，数据存储库108可以包括多个不相关的数据存储库。

图像嵌入系统104一般被配置用于从用户设备(诸如用户设备102)接收图像，并且利用嵌入学习来将这样的致密图像与指示包含在其中的主题的题目相关联。用户设备102可以经由web浏览器或者在用户设备102上运行的其他应用来访问图像嵌入系统104以及与之通信。图像嵌入系统104包括图像/标签接收组件110，其被配置用于接收多个图像以用于图像到题目关联和加标记。图像接收组件110被配置用于接收包括与其相关联的关键词标签(例如，用户提供的关键词标签)的图像，以用于训练图像嵌入系统104的目的。图像接收组件110还被配置用于接收没有相关联的关键词标签的图像，例如，用于基于与其他图像的比较来关联关键词标签和/或标识相似图像的目的。

图像嵌入系统104还包括图像嵌入矢量生成组件112。图像嵌入矢量生成组件112被配置用于从图像计算一个或者多个视觉特征，从一个或者多个视觉特征生成固定维度的图像特征矢量，并且利用卷积神经网络从图像特征矢量生成嵌入矢量。卷积神经网络在上文中被描述，并且是相关领域普通技术人员已知的。因此，在此不再进一步描述卷积神经网络。根据本发明的实施方式，图像嵌入矢量可以与作为整体的图像相关联，或者与包括少于整个图像的图像的区域相关联。

而且，图像嵌入系统104包括软题目特征矢量生成组件114。软题目特征矢量生成组件114被配置用于针对与图像相关联的多个关键词标签中的每个关键词标签来生成词矢量表示，并且计算生成的词矢量表示的加权平均，以生成软题目特征矢量。软题目特征矢量表示与图像相关联的关键词标签的粗略概要，并且存在于连续词矢量空间中。

图像嵌入系统104还包括对齐组件116。对齐组件116被配置用于将图像特征矢量与软题目特征矢量对齐(也就是，使得尽可能彼此接近)，以计算与图像对应的热图。根据本发明的实施方式，图像特征矢量与包括少于整个图像的图像的区域相关联。软题目特征矢量是图像特定的。热图在视觉上指示主体图像的特定区域相对于某些关键词标签的相关性，并且包括与图像的多个区域对应的多个区域。热图的至少一个区域与关键词标签中的每个关键词标签对应。

图像嵌入系统104附加地包括题目引导的特征矢量生成组件118。题目引导的特征矢量生成组件118被配置用于从矢量图采集(pool)局部特征矢量，将局部特征矢量与软题目特征矢量连结，以形成题目引导的特征矢量。题目引导的特征矢量然后可以被用来生成第二图像嵌入矢量，并且通过将第二图像嵌入矢量与软题目特征矢量对齐到共用嵌入空间中(例如，利用余弦相似性损失)来计算与图像对应的第二热图。

根据本公开内容的实现方式，一旦框架被训练，框架的自动加标记功能性就可以被用来预测输入针对图像的关键词标签和相关联的热图的列表。类似地，并且通过反向应用的方式，由图像自动加标记系统生成的热图可以被用来建立用于标识与输入的搜索查询相关的图像的搜索引擎，输入的搜索查询是基于文本的或者基于图像的查询。在实施方式中，评分函数其中是图像空间，是标签词典，并且f(i，w)量化图像与标签之间的相关性。在学习了评分函数f之后，针对给定图像自动加标记系统利用f(i，w)通过对排行来预测关键词标签。针对查询文本基于文本的图像搜索引擎利用f(i，w)来对图像排名。

本公开内容的实现利用图像到题目嵌入方法。图2中示出了图示了根据本公开内容的实现方式的示例性总体嵌入学习框架200的示意图。框架200一般被配置用于从计算自图像214的视觉特征212创建图像特征矢量，从图像特征矢量210创建图像嵌入216，从与图像相关联的关键词标签220创建软题目特征矢量218，并且利用嵌入学习来将图像嵌入216与软题目特征矢量218对齐。训练集合被表示为d＝{(i，(w1，w2，...，wn)}，其中，i是图像，并且wi是它的相关联的关键词标签，其例如由用户提供。为了利用关键词标签关联性，针对wi使用词矢量表示。嵌入网络被学习以将图像映射至嵌入空间，如e＝embed_net(i)，其中，其具有维度d。继而，在这一空间中可以通过以下公式来直接测量i与v之间的相似性分数：

对于所有的

根据本公开内容的实现方式，逐点互信息(pmi)被用来将标签表示为词矢量。如相关领域普通技术人员所知的，pmi是在信息理论和统计中被利用的关联的度量。其被计算为：

因此，矩阵m的大小是v×v，其中v是标签词典的大小，并且m考虑训练语料库中标签的共现。本征矢量分解继而被应用以将矩阵m分解为m＝usu^t。令则列截短的子矩阵的每行被用作针对所有v个标签的词矢量表示。根据其示例性实现，d被设置为4096。pmi对相关领域普通技术人员是已知的，因此在此不再进一步描述。

在获得针对每个标签的词矢量表示之后，针对与给定图像相关联的用户提供的关键词标签的集合(w1，w2，...，wn)的编码方案被计算。根据本公开内容的示例性实现方式，软题目t被生成作为词矢量集合的加权平均。利用以下公式：

其中t表示软题目特征矢量，i＝1表示主体图像，wi表示主体标签，n表示标签的量，并且αi表示加权函数。

这一编码方案在此被称为“软题目”。软题目是用户提供的标签的粗略汇总，并且其存在于连续词矢量空间中。根据其实现方式而被生成的软题目允许在关键词标签的集合中发现一个或者多个主导概念，从而使系统能够对“嘈杂”的注释鲁棒，也就是，注释具有关于图像的有限的有用信息。

根据本公开内容的实现方式可以利用加权函数αi的若干选择。仅通过示例的方式，可以均匀地计算αi，从而提供具有相等权重的所有关键词标签。通过另一示例的方式，可以利用标签顺序来计算αi。标签顺序假设由用户提供的标签是按时间顺序提供的，该时间顺序与其对图像的相关性具有某些关联性。由此，当第一标签在第二标签之前被提供时，第一关键词标签被指派比第二标签更大的权重。通过又一示例的方式，可以利用逆文档频率(idf)来计算αi。利用idf，特定标签越频繁地与图像的数据集中的任何图像相关联，就被给予越小的权重。而关键词标签越罕见，就被给予越高的权重。本领域普通技术人员将理解和领会，在此描述的加权方案仅通过示例的方式被提供。根据本公开内容的实现方式，可以利用任意数目的加权方案。任何以及所有这样的变型及其任何组合被视作在在本发明的实施方式的范围内。

在图4的示意图中图示了示例性软题目。针对样本图像310和原始关键词标签312，通过公式3形成软题目特征矢量314。软题目特征矢量314然后被用于在具有相似软题目特征矢量的数据集中取回图像316。可以看出，取回的图像316都在题目“花园/花”下，并且来自软题目特征矢量314的恢复的关键词标签318与原始关键词标签312相似，并且在一些情况下相同。

除了关键词标签之外，数据集中的图像也包括多个视觉特性。根据本发明的实现方式，从视觉特性计算视觉特征。仅通过示例的方式，视觉特征可以包括较低水平特征(诸如，线、曲线等)和/或较高水平特征(诸如形状、(人或其他的)身体部分)等等。在实现方式中，利用相关领域普通技术人员已知的卷积神经网络、深度网络功能来计算视觉特征。根据视觉特征，从一个或者多个视觉特征生成n维图像特征矢量(即，固定维度特征矢量，其中n＝正整数)。

然后采用卷积神经网络来将图像特征矢量和软题目特征矢量映射到共用嵌入空间ε中。更具体地，每个图像i被传递通过剩余网络，并且倒数第二层被提取并且用作图像特征矢量v。示例性嵌入网络400在图4中被示出。所图示的嵌入网络400是三层410、412、414全连接卷积神经网络，其中每个全连接层之后是批归一化层和relu非线性激活层。卷积神经网络和所图示的层及其功能对于相关领域的普通技术人员是已知的，因此在此不再进一步描述。

例如，利用余弦相似性损失来对齐图像嵌入e416和软题目特征矢量t418：

在将题目和加标记致密图像(也就是，具有高分辨率或者以其他方式具有丰富的相关联的信息的图像)相关联时，如由图像特定的热图指示的标签及其相关性针对主体图像的每个区域被执行。致密加标记试图针对图像的每个区域来预测标签及其相关性分数。如图5中所示，嵌入学习框架500(先前被图示为图2中的网络200)通过将全连接权重看作1×1卷积核并且将批归一化层看作空间批归一化层而被变换为全卷积网络。“1x1卷积核”是卷积层中被使用的过滤器。过滤器大小是1x1xc，其中c表示通道的数目。“批归一化层”是使得网络训练更快并且更稳定的一种特征归一化层。卷积核和批归一化层是本领域普通技术人员已知的，因此，在此不再进一步描述。在这一变换之后，输出是热图的集合510，每个热图与不同的关键词标签对应。

到目前为止，在每个图像被嵌入到粗略软题目矢量的意义上，嵌入学习在语义空间中仍然是粗略的。为了提升关键词标签预测的特异性，根据本公开内容的实现方式，第二轮图像到标签嵌入学习可以在题目引导下被执行。在这种情况下，嵌入是将图像的特定区域嵌入到特定标签而不是软题目。图6中图示了系统流水线。

致密标记系统被用于针对用户提供的标签w生成热图h(i，j)。然后从特征热图vmap采集局部特征矢量，如：

然后针对图像的区域中的一个区域，利用图像嵌入矢量e来连结局部特征矢量，形成题目引导的特征矢量v′：

v′＝concat(vloc，e)(12)

最后，新的图像到标签嵌入(即，第二图像嵌入矢量)：e’＝embed_net(v’)被生成，并且被与软题目特征矢量对齐。再次通过余弦相似性损失来督导学习：

embed_loss(e′，t)＝1-<e^t，t>(13)

现在转到图7，示出了图示了根据本公开内容的实现方式的用于致密图像到题目嵌入的示例性方法700的流程图。在此描述的方法700和任何其他方法的每个框包括使用硬件、固件和/或软件的任何组合而被执行的计算过程。例如，可以通过执行在存储器中存储的指令的处理器来实现各种功能。该方法还可以被具体化为被存储在计算机存储介质上的计算机可用的指令。仅举个例，方法可以通过独立应用、服务或托管服务(独立的或者与另一托管服务相结合)或者对另一产品的插件来提供。

如框710处所示，多个图像被接收，每个图像与多个关键词标签相关联并且包括多个区域，每个区域包括少于整个图像。在实施方式中，多个区域的总和包括整个图像。在一些实施方式中，图像的至少一部分是致密图像，即，相对于其他图像而言具有高分辨率和/或以其他方式与丰富的信息相关联的图像。针对多个图像中的每个图像的每个区域，一个或者多个视觉特征被计算。仅通过示例的方式，视觉特征可以包括较低水平特征(诸如线、曲线等)和/或较高水平特征(诸如形状、(人或其他的)身体部分)等等。在本公开内容的实现方式中，视觉特征利用相关领域普通技术人员已知的卷积神经网络、深度网络功能被计算。如框712处所示，针对每个图像的每个区域，图像特征矢量从一个或者多个视觉特征被生成。

关于关键词标签，针对每个图像，词矢量表示针对相关联的多个标签中的每个标签被生成。在实现方式中，词矢量表示利用逐点互信息(pmi)被生成。在实现方式中，pmi被用来根据公式2来生成词矢量表示，如上文所阐述的。

如框714处所示，生成的词矢量表示的加权平均被计算以生成图像特定的软题目特征(或者加权词)矢量。如先前所阐述的，软题目特征矢量表示多个关键词标签的粗略概要，并且这样标识在与主体图像相关联的标签中包含的主导概念。在实现方式中，加权平均利用公式3被计算，如上文所阐述的。根据本公开内容的示例性实现方式，加权平均利用标签顺序和逆文档频率(idf)中的一种或者多种被计算。

如框716处所示，针对图像的每个区域的图像嵌入矢量与软题目特征矢量被对齐，并且被映射到共用嵌入空间中，从而使得其彼此相似。热图的多个区域与图像的多个区域对应，并且热图的至少一个区域与多个关键词标签中的每个关键词标签对应。在实现方式中，针对每个区域的图像嵌入矢量和软题目特征矢量根据公式4、利用余弦相似性损失被映射到共用嵌入空间，如上文所阐述的。

已经描述了本公开内容的实现方式，下文描述本发明的实施方式可以实现的示例性操作环境，以便为本公开内容的各种方面提供一般上下文。参考图8，用于实现本发明的实施方式的示例性操作环境被示出并且被一般地指定为计算设备800。计算设备800仅是适当的计算环境的一个示例，而并不旨在暗示对本发明的使用或者功能的范围的任何限制。不应当将计算设备800解释为具有与所图示的组件中的任何一个或者组合相关的任何依赖关系或者需求。

可以在计算机代码或者机器可使用指令的一般上下文中描述本发明，机器可使用指令包括由计算机或者其他机器执行的诸如程序模块的计算机可执行指令，计算机或其他机器诸如个人数字助理或者其他手持设备。一般地，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或者实现特定抽象数据类型的代码。本发明可以在多种系统配置中被实践，包括手持设备、消费者电子产品、通用计算机、较专业的计算设备等。本发明还可以在分布式计算环境中被实践，其中由通过通信网络被链接的远程处理设备执行任务。

计算设备800包括总线810，其直接或间接地耦合以下设备：存储器812、一个或者多个处理器814、一个或者多个呈现组件816、输入/输出(i/o)端口818、输入/输出组件820和说明性的电源822。总线810表示可以是一个或者多个总线(诸如地址总线、数据总线或其组合)的总线。虽然为了清楚起见用线示出了图8的各种框，但是实际上，描绘各种组件并非如此清楚，并且以比喻的方式，线更加准确地将是灰色和模糊的。例如，可以考虑诸如显示设备的呈现组件是i/o组件。而且，处理器具有存储器。发明人认识到这是本领域的性质，并且重申图8的图仅说明可以结合本发明的一个或者多个实施方式而被使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等的分类之间没有进行区分，都被视作在图8的范围内，并且被视作是对“计算设备”的引用。

计算设备800通常包括多种计算机可读介质。计算机可读介质可以是可以由计算设备900访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质二者。通过示例而不是限制的方式，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于信息的存储的易失性和非易失性、可移动和不可移动介质，信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于ram、rom、eeprom、闪速存储器或者其他存储器技术、cd-rom、数字通用盘(dvd)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可以用于存储期望信息并且可以由计算设备800访问的任何其他介质。计算机存储介质自身不包括信号。通信介质通常将计算机可读指令、数据结构、程序模块或者经调制的数据信号中的其他数据(诸如载波)或者其他传送机制具体化，并且包括任何信息递送介质。术语“经调制的数据信号”意指具有其特性集合中的一个或者多个或者以在信号中对信息编码的方式而被改变的信号。通过示例而不是限制的方式，通信介质包括有线介质(诸如有线网络或者直接有线连接)和无线介质(诸如声学、rf、红外和其他无线介质)。以上的任何的组合也应当包括在计算机可读介质的范围内。

存储器812包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的或者其组合。示例性的硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备800包括从各种实体(诸如存储器812或者i/o组件820)读取数据的一个或者多个处理器。呈现组件816向用户或者其他设备呈现数据指示。示例性的呈现组件包括显示设备、扬声器、打印组件、振动组件等。

i/o端口818允许计算设备800被逻辑地耦合至包括i/o组件820的其他设备，其中一些可以是内置的。说明性的组件包括麦克风、操纵杆、游戏板、碟形卫星天线、扫描仪、打印机、无线设备等。i/o组件820可以提供自然用户接口(nui)，其处理由用户生成的隔空姿势、语音或者其他生理输入。在一些情况下，可以向适当的网络元件传输输入以用于进一步处理。nui可以实现话音识别、触摸和手写笔识别、面部识别、生物特征识别、屏幕和邻近屏幕二者的姿势手势、隔空姿势、头和眼追踪以及与计算设备800上的显示器相关联的触摸识别的任何组合。计算设备800可以配备有深度相机，诸如立体相机系统、红外相机系统、rgb相机系统以及用于姿势检测和识别的这些相机的组合。另外，计算设备800可以配备有支持运动检测的加速度计或陀螺仪。

如上所述，本公开内容的实现方式涉及用于利用嵌入学习来将致密图像与指示图像的主题的题目相关联的框架。框架利用多个图像被训练，每个图像具有相关联的关键词标签。关于与每个图像相关联的视觉信息，图像包括多个区域。针对每个图像的每个区域，一个或者多个视觉特征被计算，图像特征矢量从视觉特征被生成，并且图像嵌入矢量从图像特征矢量被生成。关于与每个图像相关联的标签信息，关键词标签被用来通过计算针对与图像相关联的标签而被生成的词矢量表示的加权平均来生成针对每个图像的软题目特征矢量。针对给定图像的每个区域的图像特征矢量与针对图像的软题目特征矢量被对齐到共用嵌入空间中，并且热图针对图像被计算。热图包括与图像的区域对应的多个区域，并且热图的至少一个区域与标签中的每个标签对应。一旦经训练，在此描述的框架就可以被用来自动地对附加输入图像加标记，并且基于相关联的热图来对图像和/或图像区域相对于查询关键词的相关性排名。

已经关于特定实施方式而描述了本发明，特定实施方式在所有方面中旨在是说明性的而不是限制性的。在不脱离本发明的范围的情况下，备选实施方式将对于本发明所属技术领域普通技术人员变得易见。

在此已经以具有特殊性的方式描述了本发明的主题以满足法律要求。然而，说明书本身不旨在限制本专利的范围。相反，发明人已经考虑到所要求保护的主题还能够以其他方式被具体化，以结合其他现有的或者未来的技术，包括与本文档中描述的步骤不同的步骤或者相似的步骤的组合。而且，虽然本文可能使用术语“步骤”和/或“框”来意指所采用的方法的不同元素，但是这些术语不应当被解释为暗示本文公开的各种步骤之中或者之间的任何特定顺序，除非并且除了在明确描述了个体步骤的顺序时之外。

根据上文，可以看出本发明非常适于达到上文阐述的所有结果和目标，以及系统和方法明显和固有的其他优点。可以理解，某些特征和子组合是实用的，并且可以在不引用其他特征和子组合的情况下被采用。这是权利要求的范围所预期的并且被包括在权利要求的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林哲;李英伟;沈晓辉;张健明;金海琳
技术所有人：奥多比公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。