文本图像匹配模型训练方法、图片标注方法、装置、设备与流程

文档序号：32259766发布日期：2022-11-19 11:31阅读：37来源：国知局

1.本技术涉及人工智能技术领域，特别是涉及一种文本图像匹配模型训练方法、图片标注方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.纵观计算机视觉的各种基本任务，诸如图像分类、目标检测，语义分割等等，数据层面长期以来的研究和应用路线一直遵循图片数据集精准标注的学习范式，基于该范式的视觉检测任务取得了不错的效果。但是该方式一直囿于只能利用有限的计算机视觉领域内标签学习机制，并且需耗费较高的人力标注成本。
3.然而，随着深度学习在深度学习领域较为成熟的发展态势，研究者对于模型学习和泛化能力的追求更加极致，应用者对于人力成本、任务学习周期以及部署效率的要求逐渐提高，当前学习范式无疑为该任务的发展造成束缚。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够自动建立图片和文本的匹配关系的文本图像匹配模型训练方法、图片标注方法、装置、计算机设备、存储介质和计算机程序产品。
5.一种文本图像匹配模型训练方法，所述方法包括：
6.获取样本图片、样本文本以及所述样本文本和所述样本图片的标注信息；
7.通过文本图像匹配模型的图像特征提取器提取所述样本图片的全局特征、局部特征以及感兴趣区域特征；
8.通过所述文本图像匹配模型的文本特征提取器提取所述样本文本的原始文本特征以及摘要文本特征，所述摘要文本特征是基于所述样本文本和所述样本图片的标注信息生成的；
9.基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项，基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项；
10.基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失；
11.根据所述匈牙利损失对所述文本图像匹配模型进行训练。
12.在其中一个实施例中，所述样本图片的全局特征的提取过程包括：
13.对所述样本图片按照第一裁剪比例进行裁剪得到全局图片；
14.对所述全局图片进行特征提取得到全局特征；
15.所述样本图片的局部特征的提取过程包括：
16.对所述样本图片按照第二裁剪比例进行裁剪得到局部图片，所述第二裁剪比例小
于所述第一裁剪比例；
17.对所述局部图片进行特征提取得到局部特征；
18.所述样本图片的感兴趣区域特征提取过程包括：
19.识别所述样本图片的感兴趣区域，获取所述感兴趣区域的区域位置信息；
20.对所述感兴趣区域进行图像编码得到图像特征，根据所述图像也正和所述区域位置信息得到感兴趣区域特征。
21.在其中一个实施例中，所述样本文本的原始文本特征的提取过程包括：
22.提取所述样本文本的文本特征作为原始文本特征；
23.所述样本文本的摘要文本特征的提取过程包括：
24.根据所述样本文本和所述样本图片的标注信息对所述样本文本进行过滤；
25.提取过滤后的样本文本的文本特征作为摘要文本特征。
26.在其中一个实施例中，所述基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，包括：
27.计算所述全局特征和所述摘要文本特征的第一相似度，以及所述摘要文本特征与所述局部特征的第二相似度；
28.基于所述第一相似度和所述第二相似度生成第一损失项；
29.所述基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，包括：
30.计算所述局部特征和所述原始文本特征的第三相似度，以及所述原始文本特征与所述局部特征的第四相似度；
31.基于所述第三相似度和所述第四相似度生成第二损失项；
32.所述基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项包括：
33.计算所述感兴趣区域特征和所述原始文本特征的第五相似度，以及所述原始文本特征与所述感兴趣区域特征的第六相似度；
34.基于所述第五相似度和所述第六相似度生成第三损失项；
35.所述基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项，包括：
36.计算所述感兴趣区域特征和所述摘要文本特征的第七相似度，以及所述摘要文本特征与所述感兴趣区域特征的第八相似度；
37.基于所述第七相似度和所述第八相似度生成第四损失项。
38.一种图片标注方法，所述图片标注方法包括：
39.接收待处理图片以及待处理文本；
40.将所述待处理图片和所述待处理文本输入至上述任意一个实施例中训练得到的文本图像匹配模型中，得到所述待处理图片的对应位置的标注文本。
41.一种文本图像匹配模型训练装置，所述装置包括：
42.样本获取模块，用于获取样本图片、样本文本以及所述样本文本和所述样本图片的标注信息；
43.图像特征提取模块，用于通过文本图像匹配模型的图像特征提取器提取所述样本
图片的全局特征、局部特征以及感兴趣区域特征；
44.文本特征提取模块，用于通过所述文本图像匹配模型的文本特征提取器提取所述样本文本的原始文本特征以及摘要文本特征，所述摘要文本特征是基于所述样本文本和所述样本图片的标注信息生成的；
45.损失项生成模块，用于基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项，基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项；
46.匈牙利损失计算模块，用于基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失；
47.训练模块，用于根据所述匈牙利损失对所述文本图像匹配模型进行训练。
48.一种图片标注装置，所述图片标注装置包括：
49.接收模块，用于接收待处理图片以及待处理文本；
50.标注模块，用于将所述待处理图片和所述待处理文本输入至上述任意一个实施例中训练得到的文本图像匹配模型中，得到所述待处理图片的对应位置的标注文本。
51.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。
52.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
53.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
54.上述文本图像匹配模型训练方法、图片标注方法、装置、计算机设备、存储介质和计算机程序产品，以层次结构的形式更精确地对齐图像和文本，基于文本和图像的双流网络，在其两侧构造一个具有不同语义级别的输入金字塔，按照全局特征、局部特征以及感兴趣区域特征，进行视觉建模以及语言建模的原始文本特征以及摘要文本特征，进而基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项，基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项；基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失，使得匹配更加精准，激发文本-图片跨模态视觉表示学习潜力。
附图说明
55.图1为一个实施例中文本图像匹配模型训练方法的应用环境图；
56.图2为一个实施例中文本图像匹配模型训练方法的流程示意图；
57.图3为一个实施例中的对抗学习的示意图；
58.图4为一个实施例中图片标注方法的流程示意图；
59.图5为一个实施例中模型的结构示意图；
60.图6为一个实施例中文本图像匹配模型训练装置的结构框图；
61.图7为一个实施例中图片标注装置的结构框图；
62.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
63.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
64.本技术实施例提供的文本图片匹配模型训练方法、图片标注方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。
65.其中，服务器104获取样本图片、样本文本以及样本文本和样本图片的标注信息；通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征；通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的；基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项；基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失；根据匈牙利损失对文本图片匹配模型进行训练。这样训练得到模型后，后续可以安装在终端，以便于进行图片标注。
66.上述文本图片匹配模型训练方法，以层次结构的形式更精确地对齐图片和文本，基于文本和图片的双流网络，在其两侧构造一个具有不同语义级别的输入金字塔，按照全局特征、局部特征以及感兴趣区域特征，进行视觉建模以及语言建模的原始文本特征以及摘要文本特征，进而基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项，基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项；基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失，使得匹配更加精准，激发文本-图片跨模态视觉表示学习潜力。
67.其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
68.在一个实施例中，如图2所示，提供了一种文本图片匹配模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：
69.s202：获取样本图片、样本文本以及样本文本和样本图片的标注信息。
70.具体地，样本图片和样本文本是对应的一个样本，其中用户预先对样本图片以及样本文本进行标注得到标准信息，例如通过样本文本中的文字来标注样本图片中的区域或整体，以建立样本文本中的局部文字或者整体文字与样本图片的局部或整体的关联关系。
71.s204：通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征。
72.具体地，全局特征是指样本图片的整体的特征，局部特征是指对样本图片进行裁剪后所得到的区域的特征，感兴趣区域特征可以是指样本图片中的一个区域的特征。
73.s206：通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的。
74.具体地，原始文本特征是未对文本进行删减前所提取的文本特征，摘要文本特征是对文本进行删减后所提取的文本特征，其中在样本中，摘要文本特征是基于样本文本和样本图片的标注信息生成的，例如将标注的样本文本作为摘要文本，从而提取摘要文本特征。
75.s208：基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项。
76.具体地，结合图3所示，其中图3为一个实施例中的对抗学习的示意图，视觉模态和语言模态之间的语义不匹配通常存在于文本-图片对中，例如，标题冗余；图片冗余；目标实例之间关系缺失；数据之间的相互兼容性等问题，例如某一文本/图片可以部分对应与另一个或多个文本/图片，传统方法直接将其它视为负样本，而不考虑相关性，可能导致模型过拟合。为此，本实施例以层次结构的形式更精确地对齐图片和文本，基于文本和图片的双流网络，在其两侧构造一个具有不同语义级别的输入金字塔，按照全局图片，局部图片区域以及图片中显著实例的特征，进行视觉建模以及语言建模的原始文本和文本摘要。
77.具体而言，对于层次内部语义对齐，由于图片和文本摘要的全局区域都包含全局语义信息，而局部区域和原始文本包含更细粒度的语义信息，因此它们被视为两对正样本，也即基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项。
78.对于跨层次关系对齐，为了避免视觉编码器对目标关系的建模被场景语义建模所淹没，本实施例将目标实例间的关系与语言元素对齐，也即基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项。
79.s210：基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失。
80.s212：根据匈牙利损失对文本图片匹配模型进行训练。
81.具体地，对于图片/文本对之间的兼容性问题，本实施例在对比学习过程中，对负样本即未配对样本的损失项进行了软化，以此减轻严格的损失约束，进而淡化某些局部相似性的负面影响。
82.对于一个batch中的n个图片文本对其中i表示第i对，通过双流编码器获得相同维度的归一化嵌入向量。其中，图片编码器分别从全局裁剪图片g、局部裁剪图片l和roi特征序列生成，图像编码器分别从全局裁剪图片g、局部裁剪图片l和roi特征序列生成全局特征局部特征感兴趣区域特征文本编码器分别从文本摘要ts和原始文本t
生成原始文本特征文本摘要特征
83.然后，使用上述向量组构造出四个监督信号l
gs
，l
lt
，l
rs
，l
rt
，用于batch内对比学习，旨在从不同的语义层次实现视觉表征和语言表征之间的对齐。
84.在其中一个实施例中，基于全局特征以及摘要文本特征进行对比学习生成第一损失项，包括：计算全局特征和摘要文本特征的第一相似度，以及摘要文本特征与局部特征的第二相似度；基于第一相似度和第二相似度生成第一损失项；基于局部特征和原始文本特征进行对比学习生成第二损失项，包括：计算局部特征和原始文本特征的第三相似度，以及原始文本特征与局部特征的第四相似度；基于第三相似度和第四相似度生成第二损失项；基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项包括：计算感兴趣区域特征和原始文本特征的第五相似度，以及原始文本特征与感兴趣区域特征的第六相似度；基于第五相似度和第六相似度生成第三损失项；基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项，包括：计算感兴趣区域特征和摘要文本特征的第七相似度，以及摘要文本特征与感兴趣区域特征的第八相似度；基于第七相似度和第八相似度生成第四损失项。
85.为了方便理解，以的第一个损失项l
gs
为例。对于第i对，归一化图片与语言相似度以及语言与图片相似度可通过一下公式计算：
[0086][0087][0088]
表示计算全局特征和摘要文本特征的第一相似度，摘要文本特征与局部特征的第二相似度，sim为相似度计算，τ为一个常数项，有了相似度区分，各patch之间的匹配，这里的损失函数计算采用匈牙利损失，得到更加精准的匹配结果:
[0089][0090]
其中，bi是一个向量，它定义了真实框的中心坐标及其相对于图像大小的高度和宽度，ci是目标类标签，其不可能是空集，标识类ci的概率，预测框为l
box
是对边界框进行评分。
[0091]
本实施例中，对于语义对齐后的图片patch，参考其相似度，加入匈牙利匹配损失，使得匹配更加精准，激发文本-图片跨模态视觉表示学习潜力。
[0092]
上述文本图片匹配模型训练方法，以层次结构的形式更精确地对齐图片和文本，基于文本和图片的双流网络，在其两侧构造一个具有不同语义级别的输入金字塔，按照全局特征、局部特征以及感兴趣区域特征，进行视觉建模以及语言建模的原始文本特征以及摘要文本特征，进而基于所述全局特征以及所述摘要文本特征进行对比学习生成第一损失项，基于所述局部特征和所述原始文本特征进行对比学习生成第二损失项，基于所述感兴趣区域特征以及所述原始文本特征进行对比学习生成第三损失项，基于所述感兴趣区域特征以及所述摘要文本特征进行对比学习生成第四损失项；基于所述第一损失项、所述第二损失项、所述第三损失项以及所述第四损失项计算匈牙利损失，使得匹配更加精准，激发文本-图片跨模态视觉表示学习潜力。
[0093]
在其中一个实施例中，样本图片的全局特征的提取过程包括：对样本图片按照第一裁剪比例进行裁剪得到全局图片；对全局图片进行特征提取得到全局特征；样本图片的局部特征的提取过程包括：对样本图片按照第二裁剪比例进行裁剪得到局部图片，第二裁剪比例小于第一裁剪比例；对局部图片进行特征提取得到局部特征；样本图片的感兴趣区域特征提取过程包括：识别样本图片的感兴趣区域，获取感兴趣区域的区域位置信息；对感兴趣区域进行图片编码得到图片特征，根据图片也正和区域位置信息得到感兴趣区域特征。
[0094]
在其中一个实施例中，样本文本的原始文本特征的提取过程包括：提取样本文本的文本特征作为原始文本特征；样本文本的摘要文本特征的提取过程包括：根据样本文本和样本图片的标注信息对样本文本进行过滤；提取过滤后的样本文本的文本特征作为摘要文本特征。
[0095]
其中，对于层次内部语义对齐，由于图片和文本摘要的全局区域都包含全局语义信息，而局部区域和原始文本包含更细粒度的语义信息，因此它们被视为两对正样本。
[0096]
具体地，首先将全局视图g随机裁剪，裁剪比例这里设置为[0.9,1.0]，这一操作依然包含了原始图片中的所有信息，在其他的实施例中，裁剪比例区间在0.9-1.0，假设选择按照0.93即93％的比例进行随机裁剪，那么一张图片裁剪随机裁剪93％，依然可以保留绝大部分有效区域，同时经过了一些裁剪，维持了数据的变化性，该操作主要用来做数据增强，使训练数据形态更加丰富，以致于得到更具备泛化性能的模型。文本摘要ts压缩了原始文本t，删除了原始文本t中的一些冗余和过于详细的信息。g和ts都捕获全局信息，可以用作成对的正样本。通过对比学习，g和ts的投影嵌入vg和ls拉近了距离，其中，v(vision)指的是图片，l(language)指的是文本。
[0097]
对于细粒度局部信息对比学习，由于全局视图g与上述文本摘要ts的对齐相对粗糙，因此在很大程度上丢弃了细粒度信息。而本实施例中想要图片子区域可以与标题的某些描述对齐。为此，本实施例引入细粒度局部对比度。将用于生成局部视图l的随机裁剪比率设置为[0.6，1]，它关注图片i的子区域。原始文本t包含许多详细描述，因此更适合将其视为l的正样本。然后，l和t的投影嵌入v
l
和l
t
也通过对比损失合并在一起。其中，v(vision)指的是图片，l(language)指的是文本。
[0098]
对于跨层次关系对齐，为了避免视觉编码器对目标关系的建模被场景语义建模所淹没，本实施例将目标实例间的关系与语言元素对齐。为了进一步提高对齐精度，这里引入图片中显著对象的roi特征序列，以提供更多的监督。具体地说，给定一幅具有m个显著对象的图片i，使用预训练的对象检测器来提取每个对象区域的视觉语义，将其定义为[o
′m，zm]，其中m表示第m个对象，o
′m是2048维特征向量，zm是4维归一化位置向量，表示左上角和右下角的坐标。
[0099]
通过级联o
′m和zm，可以得到一个2048维度的位置敏感的roi特征向量om，形成一个roi特征序列。为了增强文本编码器对概念关系建模的能力，同时避免削弱视觉编码器的推理能力，(vr，ls)和(vr，l
t
)被用作另两个正对，同时最小化vr和ls之间的距离以及vr和l
t
之间的距离。由于视觉模态使用的实例级输入是非常细粒度的，而语言模态使用的输入是完整的句子即文本摘要和原始文本，因此这里将此训练过程称为跨层次关系对齐。
[0100]
综上，通过线性投影层将patch token投影到更高的维度并进行reshape。接下来，
使用3
×
3深度方向的卷积来捕获局部信息。然后将特征映射到token序列，并重新投影到初始维度。而cls token在过程中是不变的，并与局部增强的patch token连接，生成最终输出。
[0101]
上述实施例中，对于文本-图片数据使用方式，引入基于patch相似度的匈牙利匹配，最大化利用图片patch相似度，得到更佳的匹配效果，其次，解决了传统技术中直接使用文本-图片对直接进行任务学习，忽视了该类型训练数据存在的文本信息冗余，图片信息冗余，图片目标实例之间的相互关系以及不同目标实例之间的相互关系的问题。
[0102]
在一个实施例中，如图4所示，提供了一种图片标注方法，以该方法应用于图1中的服务器或终端为例进行说明，包括以下步骤：
[0103]
s402：接收待处理图片以及待处理文本。
[0104]
s404：将待处理图片和待处理文本输入至上输入任意一个实施例中训练得到的文本图片匹配模型中，得到待处理图片的对应位置的标注文本。
[0105]
具体地，结合图5所示，对于一个给定的文本-图片对，目标是希望文本图片匹配模型能够学到一个通用视觉表示。文本描述包含了对应图片中目标场景的丰富语义信息，诸如目标物体类别、颜色、空间、动作状态等，这些丰富的信息表示对于诸如图像图片分类或者目标检测等下游视觉任务极具价值。
[0106]
为此，对输入文本初步编码，得到一个对应于图片的语义表示，图像图片解码器对图像图片进行视觉特征提取，随后将文本提取器输出的语义表示与提取出的图片特征进行融合学习，这一步，通过一个依赖不同模态的线性映射，将前两步得到的图片特征和文本特征映射到一个共享的嵌入空间。然后将共享空间中的图像图片特征向量和文本特征向量进行级联，级联后得到一个完整独立的包含图像图片特征和文本特征的序列。目标为学习到一个关于图片内容的场景描述器，该描述器预测输出一个关于输入图片的视觉内容表示，从而完成对图片的标注。
[0107]
上述实施例中，通过上述文本-图片语义对齐，使得大批量高质量训练数据的制作变得可能且高效，不再强依赖人工标注，进而使得算法人员任务研发周期缩短，提高业务应用效率。
[0108]
应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0109]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的文本图片匹配模型训练方法、图片标注方法的文本图片匹配模型训练装置、图片标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本图片匹配模型训练装置、图片标注装置实施例中的具体限定可以参见上文中对于文本图片匹配模型训练方法、图片标注方法的限定，在此不再赘述。
[0110]
在一个实施例中，如图6所示，提供了一种文本图片匹配模型训练装置，包括：样本
获取模块601、图片特征提取模块602、文本特征提取模块603、损失项生成模块604、匈牙利损失计算模块605和训练模块606，其中：
[0111]
样本获取模块601，用于获取样本图片、样本文本以及样本文本和样本图片的标注信息。
[0112]
图片特征提取模块602，用于通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征。
[0113]
文本特征提取模块603，用于通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的。
[0114]
损失项生成模块604，用于基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项。
[0115]
匈牙利损失计算模块605，用于基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失。
[0116]
训练模块606，用于根据匈牙利损失对文本图片匹配模型进行训练。
[0117]
在其中一个实施例中，上述图片特征提取模块602还用于对样本图片按照第一裁剪比例进行裁剪得到全局图片；对全局图片进行特征提取得到全局特征；对样本图片按照第二裁剪比例进行裁剪得到局部图片，第二裁剪比例小于第一裁剪比例；对局部图片进行特征提取得到局部特征；识别样本图片的感兴趣区域，获取感兴趣区域的区域位置信息；对感兴趣区域进行图片编码得到图片特征，根据图片也正和区域位置信息得到感兴趣区域特征。
[0118]
在其中一个实施例中，上述文本特征提取模块603还用于提取样本文本的文本特征作为原始文本特征；根据样本文本和样本图片的标注信息对样本文本进行过滤；提取过滤后的样本文本的文本特征作为摘要文本特征。
[0119]
在其中一个实施例中，上述损失项生成模块604还用于计算全局特征和摘要文本特征的第一相似度，以及摘要文本特征与局部特征的第二相似度；基于第一相似度和第二相似度生成第一损失项；计算局部特征和原始文本特征的第三相似度，以及原始文本特征与局部特征的第四相似度；基于第三相似度和第四相似度生成第二损失项；计算感兴趣区域特征和原始文本特征的第五相似度，以及原始文本特征与感兴趣区域特征的第六相似度；基于第五相似度和第六相似度生成第三损失项；计算感兴趣区域特征和摘要文本特征的第七相似度，以及摘要文本特征与感兴趣区域特征的第八相似度；基于第七相似度和第八相似度生成第四损失项。
[0120]
在一个实施例中，如图7所示，提供了一种图片标注装置，包括：接收模块701和标注模块702，其中：
[0121]
接收模块701，用于接收待处理图片以及待处理文本。
[0122]
标注模块702，用于将待处理图片和待处理文本输入至上述任意一个实施例中训练得到的文本图片匹配模型中，得到待处理图片的对应位置的标注文本。
[0123]
上述文本图片匹配模型训练装置、图片标注装置中的各个模块可全部或部分通过
软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0124]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图片匹配模型训练方法、图片标注方法。
[0125]
本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0126]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取样本图片、样本文本以及样本文本和样本图片的标注信息；通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征；通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的；基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项；基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失；根据匈牙利损失对文本图片匹配模型进行训练。
[0127]
在一个实施例中，处理器执行计算机程序时所涉及的样本图片的全局特征的提取过程包括：对样本图片按照第一裁剪比例进行裁剪得到全局图片；对全局图片进行特征提取得到全局特征；处理器执行计算机程序时所涉及的样本图片的局部特征的提取过程包括：对样本图片按照第二裁剪比例进行裁剪得到局部图片，第二裁剪比例小于第一裁剪比例；对局部图片进行特征提取得到局部特征；处理器执行计算机程序时所涉及的样本图片的感兴趣区域特征提取过程包括：识别样本图片的感兴趣区域，获取感兴趣区域的区域位置信息；对感兴趣区域进行图片编码得到图片特征，根据图片也正和区域位置信息得到感兴趣区域特征。
[0128]
在一个实施例中，处理器执行计算机程序时所涉及的样本文本的原始文本特征的提取过程包括：提取样本文本的文本特征作为原始文本特征；处理器执行计算机程序时所涉及的样本文本的摘要文本特征的提取过程包括：根据样本文本和样本图片的标注信息对样本文本进行过滤；提取过滤后的样本文本的文本特征作为摘要文本特征。
[0129]
在一个实施例中，处理器执行计算机程序时所实现的基于全局特征以及摘要文本特征进行对比学习生成第一损失项，包括：计算全局特征和摘要文本特征的第一相似度，以及摘要文本特征与局部特征的第二相似度；基于第一相似度和第二相似度生成第一损失项；处理器执行计算机程序时所实现的基于局部特征和原始文本特征进行对比学习生成第
二损失项，包括：计算局部特征和原始文本特征的第三相似度，以及原始文本特征与局部特征的第四相似度；基于第三相似度和第四相似度生成第二损失项；处理器执行计算机程序时所实现的基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项包括：计算感兴趣区域特征和原始文本特征的第五相似度，以及原始文本特征与感兴趣区域特征的第六相似度；基于第五相似度和第六相似度生成第三损失项；处理器执行计算机程序时所实现的基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项，包括：计算感兴趣区域特征和摘要文本特征的第七相似度，以及摘要文本特征与感兴趣区域特征的第八相似度；基于第七相似度和第八相似度生成第四损失项。
[0130]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：接收待处理图片以及待处理文本；将待处理图片和待处理文本输入至上述任意一个实施例中训练得到的文本图片匹配模型中，得到待处理图片的对应位置的标注文本。
[0131]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取样本图片、样本文本以及样本文本和样本图片的标注信息；通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征；通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的；基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项；基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失；根据匈牙利损失对文本图片匹配模型进行训练。
[0132]
在一个实施例中，计算机程序被处理器执行时所涉及的样本图片的全局特征的提取过程包括：对样本图片按照第一裁剪比例进行裁剪得到全局图片；对全局图片进行特征提取得到全局特征；计算机程序被处理器执行时所涉及的样本图片的局部特征的提取过程包括：对样本图片按照第二裁剪比例进行裁剪得到局部图片，第二裁剪比例小于第一裁剪比例；对局部图片进行特征提取得到局部特征；计算机程序被处理器执行时所涉及的样本图片的感兴趣区域特征提取过程包括：识别样本图片的感兴趣区域，获取感兴趣区域的区域位置信息；对感兴趣区域进行图片编码得到图片特征，根据图片也正和区域位置信息得到感兴趣区域特征。
[0133]
在一个实施例中，计算机程序被处理器执行时所涉及的样本文本的原始文本特征的提取过程包括：提取样本文本的文本特征作为原始文本特征；计算机程序被处理器执行时所涉及的样本文本的摘要文本特征的提取过程包括：根据样本文本和样本图片的标注信息对样本文本进行过滤；提取过滤后的样本文本的文本特征作为摘要文本特征。
[0134]
在一个实施例中，计算机程序被处理器执行时所实现的基于全局特征以及摘要文本特征进行对比学习生成第一损失项，包括：计算全局特征和摘要文本特征的第一相似度，以及摘要文本特征与局部特征的第二相似度；基于第一相似度和第二相似度生成第一损失项；计算机程序被处理器执行时所实现的基于局部特征和原始文本特征进行对比学习生成第二损失项，包括：计算局部特征和原始文本特征的第三相似度，以及原始文本特征与局部
特征的第四相似度；基于第三相似度和第四相似度生成第二损失项；计算机程序被处理器执行时所实现的基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项包括：计算感兴趣区域特征和原始文本特征的第五相似度，以及原始文本特征与感兴趣区域特征的第六相似度；基于第五相似度和第六相似度生成第三损失项；计算机程序被处理器执行时所实现的基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项，包括：计算感兴趣区域特征和摘要文本特征的第七相似度，以及摘要文本特征与感兴趣区域特征的第八相似度；基于第七相似度和第八相似度生成第四损失项。
[0135]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收待处理图片以及待处理文本；将待处理图片和待处理文本输入至上述任意一个实施例中训练得到的文本图片匹配模型中，得到待处理图片的对应位置的标注文本。
[0136]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取样本图片、样本文本以及样本文本和样本图片的标注信息；通过文本图片匹配模型的图片特征提取器提取样本图片的全局特征、局部特征以及感兴趣区域特征；通过文本图片匹配模型的文本特征提取器提取样本文本的原始文本特征以及摘要文本特征，摘要文本特征是基于样本文本和样本图片的标注信息生成的；基于全局特征以及摘要文本特征进行对比学习生成第一损失项，基于局部特征和原始文本特征进行对比学习生成第二损失项，基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项，基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项；基于第一损失项、第二损失项、第三损失项以及第四损失项计算匈牙利损失；根据匈牙利损失对文本图片匹配模型进行训练。
[0137]
在一个实施例中，计算机程序被处理器执行时所涉及的样本图片的全局特征的提取过程包括：对样本图片按照第一裁剪比例进行裁剪得到全局图片；对全局图片进行特征提取得到全局特征；计算机程序被处理器执行时所涉及的样本图片的局部特征的提取过程包括：对样本图片按照第二裁剪比例进行裁剪得到局部图片，第二裁剪比例小于第一裁剪比例；对局部图片进行特征提取得到局部特征；计算机程序被处理器执行时所涉及的样本图片的感兴趣区域特征提取过程包括：识别样本图片的感兴趣区域，获取感兴趣区域的区域位置信息；对感兴趣区域进行图片编码得到图片特征，根据图片也正和区域位置信息得到感兴趣区域特征。
[0138]
在一个实施例中，计算机程序被处理器执行时所涉及的样本文本的原始文本特征的提取过程包括：提取样本文本的文本特征作为原始文本特征；计算机程序被处理器执行时所涉及的样本文本的摘要文本特征的提取过程包括：根据样本文本和样本图片的标注信息对样本文本进行过滤；提取过滤后的样本文本的文本特征作为摘要文本特征。
[0139]
在一个实施例中，计算机程序被处理器执行时所实现的基于全局特征以及摘要文本特征进行对比学习生成第一损失项，包括：计算全局特征和摘要文本特征的第一相似度，以及摘要文本特征与局部特征的第二相似度；基于第一相似度和第二相似度生成第一损失项；计算机程序被处理器执行时所实现的基于局部特征和原始文本特征进行对比学习生成第二损失项，包括：计算局部特征和原始文本特征的第三相似度，以及原始文本特征与局部特征的第四相似度；基于第三相似度和第四相似度生成第二损失项；计算机程序被处理器
执行时所实现的基于感兴趣区域特征以及原始文本特征进行对比学习生成第三损失项包括：计算感兴趣区域特征和原始文本特征的第五相似度，以及原始文本特征与感兴趣区域特征的第六相似度；基于第五相似度和第六相似度生成第三损失项；计算机程序被处理器执行时所实现的基于感兴趣区域特征以及摘要文本特征进行对比学习生成第四损失项，包括：计算感兴趣区域特征和摘要文本特征的第七相似度，以及摘要文本特征与感兴趣区域特征的第八相似度；基于第七相似度和第八相似度生成第四损失项。
[0140]
在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：接收待处理图片以及待处理文本；将待处理图片和待处理文本输入至上述任意一个实施例中训练得到的文本图片匹配模型中，得到待处理图片的对应位置的标注文本。
[0141]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
[0142]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
[0143]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0144]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘世超乔秋飞
技术所有人：上海鱼尔网络科技有限公司
我是此专利的发明人

上一篇：一种基于惯导和卫星方向矢量的组合导航方法
上一篇：光调制器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。