一种模型优化方法、装置、设备、存储介质及程序产品与流程

文档序号：31699902发布日期：2022-10-01 07:35阅读：45来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种模型优化方法、装置、设备、存储介质及程序产品。

背景技术：

2.生活在互联网时代的人们，可以借助于互联网进行数据检索，以快速地获取到符合自身需求的信息，数据检索如：文档检索、图像检索、音频检索等等。在与图像检索相关的任务中，图像检索模型通常需要基于某一给定检索依据(如：文本依据、图像依据等)，从多个候选图像中选取出与该检索依据匹配的目标图像，如：检索依据为文本内容“动物”，则与检索依据匹配的目标图像可以是包括动物画面的图像。然而，当前的图像检索方法通常无法确定出准确的图像检索结果，究其原因是采用传统模型优化方法优化得到的图像检索模型，在基于图像依据进行图像检索后得到的目标图像与图像依据的匹配度较低，进而导致了传统图像检索方法确定出的图像检索结果的准确度较低的问题。

技术实现要素：

3.本技术实施例提供了一种模型优化方法、装置、设备、存储介质及程序产品，采用该模型优化方法进行模型优化得到的图像检索模型可以检索得到准确度较高的图像检索结果。
4.一方面，本技术实施例提供了一种模型优化方法，包括：
5.获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
6.采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
7.分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
8.根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
9.基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
10.再一方面，本技术实施例还提供了一种模型优化装置，包括：
11.获取单元，用于获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
12.匹配单元，用于采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概
率，及所述第二描述文本与所述训练图像不匹配的第二概率；
13.相似度确定单元，用于分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
14.损失值确定单元，用于根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
15.模型优化单元，用于基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
16.再一方面，本技术实施例提供了一种计算机设备，包括：
17.处理器，所述处理器用于实现一条或多条计算机程序；
18.计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行：
19.获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
20.采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
21.分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
22.根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
23.基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
24.再一方面，本技术实施例还提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行：
25.获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
26.采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
27.分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
28.根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
29.基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
30.再一方面，本技术实施例提供了一种计算机产品，所述计算机产品包括计算机程
序，所述计算机程序适于由处理器加载并执行：
31.获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
32.采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
33.分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
34.根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
35.基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
36.在本技术实施例中，计算机设备在对图像检索模型进行模型优化时，不仅构建了图像模态的训练任务，还加入了文本模态的训练任务。并且，在本技术实施例中，计算机设备在执行文本模态的训练任务时所采用的文本模态的数据是计算机设备根据相应图像特征生成的，并非预先标注好的。因此，本技术实施例的文本模态的训练任务无需利用到昂贵的标注，可以有效降低相应检索业务的开发成本以及提升检索速率。此外，本技术实施例中，计算机设备在确定图像检索模型的目标损失值时，同时利用了图像与图像之间的相似度以及文本与图像之间的匹配度。基于这种计算思路计算出的目标损失值进行模型优化，可以使得图像检索模型可以从图像内容特征(如：图像包括的对象、对象的形态等)的提取的角度，以及图像语义理解(如：综合图像内容理解图像所表达的含义)的角度对图像检索进行优化，从而使得优化后的图像检索模型在应用于图像检索时，可以获取到输入图像更加准确的图像特征，进一步也就可以基于该图像特征检索得到准确度较高的图像检索结果。
附图说明
37.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1是本技术实施例提供的一种输入图像与目标图像的示意图；
39.图2是本技术实施例提供的一种模型优化方法的示意流程图；
40.图3a是本技术实施例提供的一种描述文本与训练图像相匹配的示意图；
41.图3b是本技术实施例提供的一种描述文本与训练图像不匹配的示意图；
42.图4是本技术实施例提供的又一种模型优化方法的示意流程图；
43.图5a是本技术实施例提供的一种第一损失值计算流程的示意图；
44.图5b是本技术实施例提供的一种第二损失值计算流程的示意图；
45.图6是本技术实施例提供的一种图像检索方法的流程示意图；
46.图7是本技术实施例提供的一种模型优化装置的结构示意图；
47.图8是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
48.为了使本技术领域的人员更好地理解本技术实施例所提供的方法，下面将结合本技术实施例中的附图，对本技术实施例中的技术方法进行清楚、完整地描述。需要说明的是，本技术实施例中描述的各个具体实施例只是本技术一部分实施例，而不是全部的实施例。基于本技术中的各个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
49.图像检索是人们日常生活中必不可少的信息获取方式之一，为了提升图像检索任务得到的图像检索结果的准确性，本技术实施例结合人工智能技术提出了一种模型优化方法。采用本技术实施例提供的模型优化方法对图像检索模型进行模型优化，可以使得该图像检索模型能够基于输入图像检索得到与输入图像高度匹配的目标图像，从而提升基于目标图像生成的图像检索结果的准确度。
50.本技术实施例利用的人工智能(artificial intelligence，ai)技术是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，基于人工智能可以使机器具有感知、推理与决策的功能。具体来说，人工智能技术可以利用数字计算机或者利用数字计算机控制的机器来模拟、延伸和扩展人的智能，使得数字计算机或相关机器能够感知环境、获取知识。那么，也就是说，基于人工智能可以实现利用数字计算机或相关机器使用其学习到的知识来获得最佳结果的理论、方法、技术及应用系统。在实际应用中，人工智能技术涉及的领域广泛，其既包括硬件层面的技术也包括软件层面的技术。具体地，人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术一般包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习技术等技术。
51.本技术实施例在提出模型优化方法时，主要利用了人工智能技术中的计算机视觉技术以及机器学习技术。为了便于清楚地了解本技术实施例的实现方式，以下对计算机视觉技术以及机器学习/深度学习技术进行简要介绍。
52.计算机视觉技术(computer vision，cv)是一门研究如何使机器具备“看”的能力的科学。更具体的说，采用计算机视觉技术可以实现：用电子设备(如：摄影机、电脑等)代替人眼对图像中的目标进行识别和测量等，以及进一步对图像做图像处理，使处理后的图像处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr(optical character recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d(3dimensions，3维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
53.机器学习(machine learning，ml)技术及深度学习技术则是一门多领域交叉学科，其具体可以涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习技术是一门专门研究采用计算机模拟或实现人类的学习行为的技术。基于机器学习技术，计算机可以不断获取新的知识或技能，并可以重新组织已有的知识结构使计算机可以
不断改善自身的性能，从而达到更好的智能处理效果(如：图像识别效果、文本翻译效果、语音生成效果等)。基于上述描述不难看出，机器学习技术可谓是人工智能技术的核心，是使计算机具有智能的根本途径。因此，机器学习技术的应用遍及人工智能的各个领域。在实际应用中，机器学习技术和深度学习技术通常包括：人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
54.基于上述人工智能技术，本技术实施例针对图像检索模型的模型优化，具体提出了一种模型优化方案。该方案指出：在基于训练样本对图像检索模型进行模型优化的过程中，图像检索模型的目标损失值的计算，既要参考到图像与图像之间的相似度，也要参考到文本与图像之间的匹配度。其中，本技术实施例参考的文本可以包括基于训练图像的相似图像生成的图像描述文本，还可以包括基于训练图像的非相似图像生成的图像描述文本，在实际应用中视具体情况而定。
55.在具体应用中，该模型优化方案可以采用一个或多个计算机设备来执行。其中，计算机设备可以是终端设备，也可以是服务器，当然还可以是终端设备和服务器组成的计算系统，本技术实施例对此不作限制。并且具体地，在本技术实施例中，终端设备可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、车载终端、智能语音交互设备、智能家电、飞行器等。在具体实施例中，终端设备内还可以运行各式各样的应用程序(application，app)和/或客户端，如：多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端以及图像处理客户端，等等。此外，上述提及的服务器可以包括但不限于：独立的物理服务器，多个物理服务器构成的服务器集群或者分布式系统，提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等。
56.此外，为了验证本方案的实用性，本技术相关技术人员对多个图像检索算法进行了对比。经过相关试验表明(试验数据可参见表1)，基于本技术实施例提供的模型优化方案提出的图像检索算法可以检索得到更高准确度的图像检索结果。
57.表1
58.方法名称r@1(％)r@5(％)r@10(％)resnet-15237.2964.4877.88vsrn42.9870.7678.16clip49.3581.0789.25drld(本技术)55.6382.4289.51
59.表1中，resnet-152(深度残差网络152)、vsrn(visual semantic reasoning for image-text matching，图像文本匹配的视觉语义推理)与clip(contrastive language-image pre-training，对比性图文预训练)均可以用于匹配图像和文本。drld(detailed semantic image-image retrieval via learning to describe，基于文本生成的同语义图像检索)为本技术实施例提出的一种图像检索方法，该方法中采用的图像检索模型是基于本技术实施例提出的模型优化方法进行优化得到的。
60.表1中的r@k表示前k个结果的召回率(k＝1或5或10)。召回率(recall rate)也叫查全率，具体指：计算机设备检索出的正样例的数量与数据库中所有正样例的数量之间的
比值。在本技术实施例中，召回率可以具体理解为：在计算机设备采用图像检索模型检索图像a的相似图像时，图像检索模型从图像库中实际检索到的相似图像的数量a与图像库中实际存在的相似图像的数量b之间的比值。那么，前k个结果的召回率可以理解为：采用图像检索模型根据图像a从图像库中检索k个结果后，这k个结果中存在的相似图像的数量与图像库中所有相似图像的数量之间的比值。举例来说，假设当前需要采用图像检索模型从图像库中检索图像a的相似图像，进一步假设图像库总共包括100个图像，且这100个图像中有30个图像是图像a的相似图像。那么，在此情况下，假设图像检索模型可以从图像库中检索到k个图像作为预测相似图像，那么，进一步地，若计算机设备采用图像检索模型检索图像a的相似图像时，该模型检索到的k个预测相似图像中只有m个是正确的相似图像，则r@k的值可以为m/100。
61.为了便于说明，以下实施例中以一个计算机设备来执行模型优化方案为例，来对该模型优化方案的具体实现原理进行详细说明。该模型优化方案的具体实现原理可以如下：计算机设备先获取如下训练数据：训练图像、训练图像的相似图像以及训练图像的非相似图像，相似图像的第一描述文本以及非相似图像的第二描述文本。在获取到训练数据之后，计算机设备可以采用图像检索模型获取第一描述文本所描述的图像内容与训练图像的图像内容相匹配的概率(以下称：第一概率)，以及第二描述文本所描述的图像内容与训练图像的图像内容不匹配的概率(以下称：第二概率)。此外，计算机设备还可以采用图像检索模型获取训练图像与相似图像之间的相似度(以下称：第一相似度)，以及训练图像与非相似图像之间的相似度(以下称：第二相似度)。进一步地，计算机设备可以基于获取到的第一相似度、第二相似度、第一概率以及第二概率来确定图像检索模型的目标损失值，以使计算机设备可以基于目标损失值对图像检索模型的模型参数进行优化，从而使得图像检索模型可以确定出更加准确的相似度或概率，进一步也就使得优化后的图像检索模型可以检索出与输入图像高度相似的目标图像。示例性地，输入图像可以如图1中由10标记的图像所示，目标图像可以如图1中由11标记的图像所示。
62.在上述模型优化方案中，训练数据中的训练图像、相似图像以及非相似图像，主要可以用于优化图像检索模型的特征提取能力，以提升图像检索模型计算得到的两个图像之间相似度的准确性。其中，训练图像与相似图像之间的相似度越高，且训练图像与非相似图像之间的相似度越低，则说明图像检索模型计算的相似度越准确。训练数据中的第一描述文本和第二描述文本，主要可以用于优化图像检索模型的图像理解能力，以使得图像检索模型可以提取到更加准确的图像特征以及图像语义信息。那么，基于上述描述可见，本技术实施例中，计算机设备在对图像检索模型进行模型优化时，同时利用了图像模态的训练数据以及文本模态的训练数据。因此，在本技术实施例中，计算机设备对图像检索模型进行模型优化时是基于多个角度进行的，也就使得本技术实施例中优化后的图像检索模型可以具备更优的图像特征提取能力以及图像语义理解能力，从而使得采用本技术实施例优化后的图像检索模型可以检索得到更加准确的图像检索结果。
63.基于上述模型优化方案的描述，本技术实施例提出了一种模型优化方法。请参见图2，图2是本技术实施例提出的模型优化方法的示意流程图。需要说明的是，在实际应用中，该模型优化方法依然可以由上述提及的计算机设备来执行。那么，以下以计算机设备执行该模型优化方法为例，来对图2中涉及的步骤s201-s205进行详细阐述。
64.s201、获取训练图像、训练图像的相似图像、训练图像的非相似图像、相似图像的第一描述文本以及非相似图像的第二描述文本。
65.在本技术实施例中，一个训练图像可以包括一个多个对象。对象可以包括但不限于：植物(花、树等)、人物(行人、工匠等)、动物(长颈鹿、大象、猫等)或其他物体(桌子、马路、雕塑等)等。那么，也就不难理解，一个训练图像可以包括至少一个图像区域，每个图像区域用于显示至少一个对象的相关画面，如：植物画面、人物画面、动物画面中的任一种或多种。
66.训练图像的相似图像可以理解为：与该训练图像包含的图像特征相同或相似的图像。示例性地，训练图像的相似图像可以包括但不限于以下任一种：(1)与该训练图像包含相同或相似对象的图像，并且可选地，相似图像中各个对象之间的位置关系可以训练图像中相应对象之间的位置关系相同或相似。如：训练图像包括自行车a和人物a时，相似图像可以包括自行车b和人物b，或包括自行车a和人物b。(2)与该训练图像包含相同或相似语义的图像。如：训练图像的图像语义为“长颈鹿在吃树叶”时，相似图像则可以是用于表达“一只长颈鹿站在树下”这一语义的图像，还可以是用于表达“一只长颈鹿在吃草”这一语义的图像。
67.对应地，训练图像的非相似图像可以理解为：与训练图像包含的对象存在较大差异的图像。例如，当训练图像包括长颈鹿和草坪时，训练图像的非相似图像可以为包括汽车和公路的图像。在此情况下，非相似图像可以是计算机设备从负样本图像库中随机采取的一个负样本作为训练图像的非相似图像。这里的负样本可以理解为与训练图像具有较大差异的图像。在其他实施例中，为了提升模型优化后的图像检索模型检索出的图像检索结果的准确性以及提升模型优化的速率，本技术实施例中的非相似图像也可以是计算机设备基于负样本图像库进行难样本挖掘之后确定出来的。基于难样本挖掘后确定出的非相似图像，其图像特征与训练图像之间具有较难识别的非相似点。举例来说，当训练图像为图3a中由30标记的图像(即：一个人牵着狗走路)时，采用随机选取负样本的方式确定出来的非相似图像可以如图3a中由31标记的图像(即：一只小兔子)，而采用难样本挖掘方式确定出来的非相似图像则可以如图3a中由32标记的图像(即：一个人站着给狗拍照)。可见，本技术实施例中基于难样本挖掘方式确定出的非相似图像可以与训练图像包含相似或相同的对象，但需要存在细微的差别，如：非相似图像中各个对象之间位置关系与训练图像之间位置关系存在差异。
68.那么，不难理解，当非相似图像为基于难样本挖掘后确定出的时，由于非相似图像与训练图像包含相同的对象，那么，要使得图像检索模型能够将非相似图像与训练图像判定为不相似的两张图像，则需要图像检索模型具备提取到高阶语义信息(如：图像中各个对象的位置关系、动作关系等)的能力。因此也就不难理解，本技术实施例中在基于采用难样本挖掘后得到的非相似图像对图像检索模型进行模型优化时，可以使得图像检索模型能够不断学习到更加全面的特征提取知识，从而使得优化后的图像检索模型可以提取到包含高阶语义信息的图像特征，也就进一步使得图像检索模型得到的图像检索结果的准确度得到了有效提升。
69.相似图像的第一描述文本可以用于描述相似图像的图像内容，具体可以描述：相似图像中各个对象之间的位置关系(如：对象a在对象b的右侧)、各个对象的对象内容(如：
人、狗)以及对象特征(如：形状特征、颜色特征、动作特征等)等。举例来说，若相似图像为图3a中的图像30，则第一描述文本可以是：一个人牵着一条狗在走路。此外，示例性地，本技术实施例中，第一描述文本可以是计算机设备根据相似图像的图像特征预测得到的。对应地，第二描述文本可以用于描述非相似图像的图像内容。举例来说，如非相似图像为图3a中的图像31，则第二描述文本可以是：一只兔子在草地上。并且，同理地，第二描述文本可以是计算机设备根据非相似图像的图像特征预测得到的。
70.基于上述关于训练图像、相似图像以及非相似图像的定义，以下结合具体示例来对其获取方式进行示例性地详细说明。需要强调说明的是，以下示例仅为一种可实现的方式的示意性说明，不能看作对本技术实施例的限制。
71.在实际应用中，计算机设备可以通过获取训练样本的方式来获取训练图像、相似图像和非相似图像，训练样本可以是计算机设备预先构建的。此外，需要说明的是，计算机设备对图像检索模型进行模型优化时，采用(也即：获取)的训练样本的数量可以为一个或多个，本技术实施例对此并不做限制。其中，一个训练样本包括一个训练图像、一个相似图像以及一个非相似图像，且示例性地，一个训练样本可以表示为(训练图像，相似图像，非相似图像)的三元组。
72.基于此，那么，训练样本可以是计算机设备通过如下方式构建的：计算机设备先获取一个同语义图像对，该同语义图像对即为：两个图像特征相似的图像所组成的图像对。在此情况下，计算机设备可以将同语义图像对中任一个图像作为训练图像，另一个图像则作为训练图像的相似图像。进一步地，针对该同语义图像对，计算机设备可以从负样本图像库中随机采取一个负样本图像来作为训练图像的非相似图像，使得计算机设备最终可以根据同语义图像对以及选取的非相似图像构成(训练图像，相似图像，非相似图像)的三元组，或者称为：(训练图像、正样本、负样本)的三元组。
73.此外，值得一提的是，在本技术实施例中，为了便于后续计算机设备进行图像全局特征的获取，计算机设备获取到的训练样本中的训练图像、相似图像以及非相似图像均可以是由图像区域特征(用vi表示)以及对象标签特征(用ui表示)组成的，那么，每个图像可以是按照(vi,ui)的表达形式输入至计算机设备的。其中，图像区域特征可以是计算机设备基于相应图像中各个图像区域的区域特征生成的，对象标签特征可以是计算机设备基于各个图像区域包括的对象的对象标签生成的。关于图像区域特征以及对象标签特征的生成方式可以参见后续步骤s203中图像全局特征的相关描述，本技术实施例在此不作详述。
74.s202、采用图像检索模型分别将第一描述文本、第二描述文本与训练图像进行跨模态匹配，得到第一描述文本与训练图像相匹配的第一概率，及第二描述文本与训练图像不匹配的第二概率。
75.在具体实施例中，跨模态匹配可以理解为：将不同数据类型的数据进行匹配。其中，数据类型可以包括但不限于以下任意一种或多种：语音类型、视频类型、文本类型、图像类型等。那么，基于此，跨模态匹配可以具体例如：将图像数据与文本数据进行匹配，或，将图像数据与语音数据进行匹配等。在本技术实施例中，跨模态匹配主要指的是将图像数据与文本数据进行匹配，具体可以包括：将第一描述文本与训练图像进行跨模态匹配，以及，将第二描述文本与训练图像进行跨模态匹配。
76.实际应用时，在计算机设备将第一描述文本与训练图像进行跨模态匹配的过程
中，计算机设备确定出的第一描述文本与训练图像相匹配的概率可以称为第一概率。其中，第一描述文本与训练图像相匹配可以理解为：第一描述文本所描述的图像内容与训练图像所呈现的图像内容相同。如：图3b中由331标记的描述文本与图3b中由332标记的图像之间的匹配关系即为相匹配。对应地，在计算机设备将第二描述文本与训练图像进行跨模态匹配的过程中，第二描述文本与训练图像不匹配的概率可以称为第二概率。其中，第二描述文本与训练图像不匹配可以理解为：相关描述文本所描述的图像内容与训练图像所具备的图像内容不同或不相似。如：图3b中由341标记的描述文本与图3b中由342标记的图像之间的匹配关系即为不匹配。
77.在本技术实施例中，由于第一描述文本可以是图像检索模型基于训练图像的相似图像预测得到的，那么，图像检索模型对相似图像的图像语义理解得越准确，计算机设备预测得到的第一描述文本所表达的图像内容就与相似图像的图像内容越匹配，从而计算机设备计算出的第一概率也就越大。对应地，图像检索模型对非相似图像的图像语义理解得越准确，计算机设备采用图像检索模型确定出的第二概率越大。因此可见，在本技术实施例中，图像检索模型确定出的第一概率和第二概率均可用于衡量图像检索模型对图像进行图像识别或图像语义理解时的准确性，在一定程度上也就可以反映图像检索模型在进行图像检索时得到的图像检索结果的准确度。那么，基于此不难理解，本技术实施例中基于跨模态匹配的准确度对图像检索模型进行模型优化，可以使得图像检索模型学习到更加精细的图像识别以及图像理解知识，有益于提升图像检索模型在进行图像检索时得到的图像检索结果的准确度。
78.s203、分别确定相似图像与训练图像之间的第一相似度，以及非相似图像与训练图像之间的第二相似度。
79.在本技术实施例中，第一相似度可以是计算机设备根据相似图像的图像全局特征与训练图像的图像全局特征确定的。同理地，第二相似度可以是计算机设备基于非相似图像的图像全局特征以及训练图像的图像全局特征确定的。其中，图像全局特征可以用于表达相应图像所具备的语义信息，从而表明相应图像包含的图像内容。
80.那么，具体实现中，针对相似图像以及非相似图像中的任一图像，计算机设备在确定该图像与训练图像之间的相似度之前，可以先获取该图像的图像全局特征以及训练图像的图像全局特征。然后示例性地，计算机设备可以直接将图像全局特征之间的特征相似度(如：余弦相似度)作为相应两个图像之间的相似度。可选地，计算机设备也可以根据图像全局特征之间的特征距离(如：欧式距离、马氏距离等)确定相应两个图像之间的相似度。当然，在其他实施例中，计算机设备也可结合特征相似度以及其他维度的相似度(如：时间维度)重新确定一个相似度作为相应两个图像之间的相似度，本技术实施例对此不作限制。
81.为了便于清楚的理解本技术实施例的实现方式，以下对计算机设备获取任一图像的图像全局特征的一种可行方式进行阐述。具体来说，在获取任一图像的图像全局特征时，计算机设备可以先对该图像进行图像识别，以确定出该图像包括的至少一个图像区域。在计算机设备确定出各个图像区域之后，计算机设备可以获取各个图像区域的区域特征以及该图像区域内存在的各个对象的对象标签。进一步地，在计算机设备获取到各个图像区域的区域特征以及相应对象的对象标签之后，计算机设备可以采用图像检索模型中的图文预训练网络，基于各个图像区域的区域特征以及各个图像区域对应的对象标签生成该图像的
图像全局特征。
82.其中，图像区域以及该图像区域内各个对象的对象标签，既可以是计算机设备预先标记好的，也可以是计算机设备在模型优化过程中，通过自身具备的图像识别知识检测出来的，本技术实施例对此并不作限制。此外，每个图像区域中存在至少一个对象，对象可以如人、动物等。图像区域的区域特征可以包括图像区域的区域内容的特征(简称：区域内容特征)以及图像区域在图像中所处的位置特征等。那么，一个图像区域的区域特征可以用于指示：该图像区域内所包括的各个对象的对象特征，如：对象形状特征(圆形、长方形等)、颜色特征(红色、灰色、蓝色等)以及对象内容特征(如：一束花、一个篮球)等。对象标签可以用于指示相应对象的对象类别(如：人类、猫科动物类、日用品类等)。此外，示例性地，图文预训练网络可以例如是：用于构建oscar(object-semantics aligned pre-training，图文一致的预训练)模型的网络，或者，用于构建lxmert(一种视觉语言跨模态框架)模型的网络，或者，用于构建vilbert(即：vision-and-language bert，一种视觉语言预训练框架)模型的网络等等。
83.在具体实现中，计算机设备基于各个图像区域的区域特征以及各个图像区域对应的对象标签生成该图像的图像全局特征的一种可行方式可以具体包括如下步骤(1)-(5)：
84.(1)计算机设备先构建一个文本序列，该文本序列主要用于后续表达相应图像的图像语义。示例性地，计算机设备构建的文本序列至少可以包括[cls]标识符以及至少一个空字符。其中，[cls]标识符可以理解为文本起始标识符，用于指示一个文本序列的开头。
[0085]
(2)计算机设备可以对文本序列进行特征提取，得到该文本序列对应的文本特征。文本序列的文本特征主要可以包括文本序列中各个字符(如：[cls]标识符、空字符)的词特征、各个字符的位置特征以及各个字符的段特征。词特征主要用于表达相应字符的语义。示例性地，词特征可以是计算机设备采用图像检索模型中的词嵌入层对[cls]标识符以及各个空字符进行词嵌入(word embedding，we)后得到的。词嵌入层可以包括可训练的查询词表，该查询词表对应一个权值矩阵，该权值矩阵用于指示相应查询词表中各个词的权重。为了便于后续描述，本技术实施例中，将查询词表的大小记为v，权值矩阵记为权值矩阵的表达式中，d是查询词表中用于表示每个词的特征向量的维度，r代表向量空间。位置特征主要用于表达相应字符在文本序列中所处的位置。位置特征可以是计算机设备采用图像检索模型中的位置嵌入层对各个字符进行位置嵌入(position embedding，pe)后得到的。段特征则主要用于表达相应字符所属的句子(如：第一句、第二句等)。段特征则可以是计算机设备采用图像检索模型中的段嵌入层对各个字符进行段嵌入(segment embedding，se)后得到的。
[0086]
(3)计算机设备采用同样的方式对各个对象标签进行特征提取，以得到各个对象标签对应的对象标签特征，从而基于各个对象的对象标签特征整合得到该图像的对象标签特征。需要说明的是，在计算机设备生成任一对象标签的对象标签特征的过程中，对象标签的位置特征主要用于表示该对象标签所属的图像区域，对象标签的段特征则主要用于表示该对象标签属于哪一信息类别。示例性地，信息类别可以包括但不限于以下任意一种或多种：文本序列、区域特征、对象标签等。
[0087]
(4)计算机设备基于各个区域特征整合得到图像区域特征，在计算机设备确定出文本特征、图像的图像区域特征以及图像的对象标签特征之后，计算机设备可以基于该文
本特征、图像区域特征以及对象标签特征进行特征融合(如：特征相加，或，特征拼接)，得到图文预训练网络的输入特征。
[0088]
(5)计算机设备可以采用图文预训练网络基于输入特征进行自注意力学习，得到相应图像的图像全局特征。示例性地，计算机设备可以将图文预训练网络的隐藏层中，[cls]标识符对应的输出特征作为图像全局特征。图文预训练网络的隐藏层主要用于对输入特征进行多层次的抽象，以展现输入特征在其他维度上更抽象化的特征，这些更抽象化的特征能更好的进行线性划分。[cls]标识符本身不含任何语义，在自注意力学习过程中不会收自身语义影响，从而使得该标识符学习出的特征所表达的语义具有更加公平公正的特点。因此，本技术实施例中采用[cls]标识符对应的输出特征作为图像全局特征可以有助于计算机设备确定出更准确的特征处理结果(如：特征相似度、特征距离等)。
[0089]
s204、根据第一相似度、第二相似度、第一概率及第二概率，确定图像检索模型的目标损失值。
[0090]
在本技术实施例中，第一相似度和第二相似度可以用于衡量图像检索模型在图像相似度计算角度的准确性。由于图像相似度可以根据相关图像的图像全局特征之间的相似度计算得到，因此，计算机设备提取的图像全局特征越准确，则计算机设备确定出的相关相似度就越准确。那么，也就是说，本技术实施例中第一相似度和第二相似度可以用于反映图像检索模型对图像的理解能力(如：判断两个特征是否相似的能力)以及特征提取能力(如：针对图像内容a应该生成相应特征表达的能力)。
[0091]
第一概率和第二概率主要用于衡量图像检索模型在文本预测角度的准确性。具体地，图像检索模型的文本预测结果(第一描述文本、第二描述文本)的准确度越高，则计算机设备确定出的第一概率和第二概率就会越高。由于本技术实施例中文本预测结果是基于相应图像的图像全局特征预测得到的，因此，本技术实施例中第一概率和第二概率还可以反映图像检索模型提取的图像全局特征的准确性和全面性。
[0092]
基于上述描述可见，本技术实施例中图像检索模型的目标损失值是基于多个角度确定的，因此，采用此种目标损失值对图像检索模型进行模型优化，可以有效提升优化后的图像检索模型确定的图像检索结果的准确度。
[0093]
s205、基于目标损失值对图像检索模型进行模型优化，得到优化后的图像检索模型。
[0094]
在具体实施例中，当计算机设备确定出目标损失值之后，计算机设备可以根据目标损失值对图像检索模型进行模型优化。具体地，计算机设备可以按照减小目标损失值的方向对图像检索模型中的相关模型参数进行调整，从而使得计算机设备采用优化后的图像检索模型可以确定出更加准确的图像全局特征以及预测出表达能力更强的图像描述文本。那么，示例性地，计算机设备可以在计算出的目标损失值小于预设损失值后，认为当前的图像检索模型已达到优化目标。在此情况下，计算机设备可以将当前优化后的图像检索模型作为最终应用于图像检索任务的图像检索模型。
[0095]
在本技术实施例中，计算机设备在对图像检索模型进行模型优化时，不仅构建了图像模态的训练任务，还加入了文本模态的训练任务。也就是说，计算机设备在确定图像检索模型的目标损失值时，还利用了相似图像的第一描述文本与训练图像之间的匹配概率，以及，非相似图像的第二描述文本与训练图像之间的不匹配概率。这种模型优化方式使得
图像检索模型不仅可以从图像内容特征(如：图像包括的对象、对象的形态等)的提取的角度对图像检索模型进行优化，还可以从图像语义理解(如：综合图像内容理解图像所表达的含义)的角度对图像检索进行优化，从而使得优化后的图像检索模型在应用于图像检索时，可以获取到输入图像更加准确的图像特征，从而也就可以基于该图像特征检索得到准确度较高的图像检索结果。
[0096]
基于上述模型优化方案以及图2所示的模型优化方法的相关描述，本技术实施例提出了另一种模型优化方法。请参见图4，图4是该模型优化方法的示意流程图。需要说明的是，在实际应用中，该模型优化方法依然可以由上述提及的计算机设备来执行。那么，以下继续以计算机设备执行该模型优化方法为例，来对图4中涉及的步骤s401-s407进行详细阐述。
[0097]
s401、获取训练图像、训练图像的相似图像、训练图像的非相似图像、相似图像的第一描述文本以及非相似图像的第二描述文本。
[0098]
基于步骤s201可知，在本技术实施例中，相似图像的第一描述文本以及非相似图像的第二描述文本，可以是计算机设备采用图像检索模型基于相应图像的图像全局特征进行文本预测之后得到的。
[0099]
需要补充说明的是，第一描述文本的预测方式和第二描述文本的预测方式的原理相同，具体预测过程中存在不同的是：计算机设备在预测第一描述文本时采用的是相似图像的图像全局特征，计算机设备在预测第二描述文本时采用的是非相似图像的图像全局特征。基于此，以下仅对计算机设备获取第一描述文本的方式进行详细阐述，计算机设备获取第二描述文本的方式可参见第一描述文本的获取方式，本技术实施例对其不作详述。
[0100]
具体来说，计算机设备对相似图像进行文本预测，得到第一描述文本的大致过程可以参见如下描述：计算机设备采用图像检索模型分别对相似图像以及训练图像进行图像特征提取，得到相似图像的图像全局特征以及训练图像的图像全局特征。进一步地，计算机设备可以根据相似图像的图像全局特征以及训练图像的图像全局特征，预测得到第一描述文本。在预测第一描述文本的过程中，计算机设备主要利用的是相似图像的图像全局特征，因此，第一描述文本可以用于对相似图像的图像内容进行描述。
[0101]
其中，计算机设备根据相似图像的图像全局特征以及训练图像的图像全局特征，预测得到第一描述文本的具体过程可以包括如下步骤(1)-(3)：
[0102]
(1)计算机设备先获取相似图像的图像全局特征，进而根据相似图像的图像全局特征预测得到相似图像的参考描述文本。示例性地，计算机设备可以采用束搜索的方式预测相似图像的参考描述文本。参考描述文本可以包括多个参考文本词。
[0103]
(2)计算机设备可以采用掩码符号(如：[mask]符号)对多个参考文本词中的目标数量个参考文本词进行掩盖，即：计算机设备将参考描述文本中的目标数量个参考文本词更换为[msak]掩码符号。此步骤是为了计算机设备在对图像检索模型进行模型优化时，能够保证图像检索模型能够将文本模态的训练任务中产生的相关模型损失值进行梯度回传，进而使得计算机设备后续能够基于相关损失函数对图像检索模型底层的模型参数进行优化，从而实现计算机设备可以有效利用到文本模态的训练任务的训练结果。
[0104]
(3)计算机设备可以基于相似图像的图像全局特征以及参考描述文本中未被掩码符号掩盖的参考文本词，对目标数量个掩码符号掩盖的参考文本词进行预测，得到各个掩
码符号掩盖的参考文本词所对应的预测文本词。这一步骤是为了验证图像检索模型是否具备高阶语义信息的编码能力(即：是否具备对图像进行深层次理解的能力)。其中，示例性地，计算机设备在获取预测文本词时，也可以先将添加掩码符号之后的参考描述文本、相似图像的图像区域特征以及对象标签特征输入至图文预训练网络，然后采用该图文预训练网络进行预测得到相应的预测文本词。那么，进一步地，计算机设备可以采用各个预测文本词对相应参考文本词进行更新，以得到第一描述文本。
[0105]
其中，针对任一被掩码符号掩盖的参考文本词(为便于描述，以下称该参考文本词为目标文本词)，计算机设备获取该目标文本词对应的预测文本词的一种具体可行方式可以如下：计算机设备先基于该目标文本词的上下文信息以及相似图像的图像全局特征，预测查询词表v中各个候选文本词的预测概率。预测概率可以用于指示相应候选文本词当前被作为该目标文本词的预测文本词的概率。示例性地，预测概率可以由图像检索模型中图文预训练网络所包括的解码层来预测得到。此外，可选地，计算机设备还可以对各个候选文本词的预测概率进行平滑处理，以得到各个候选文本词更新后的预测概率，这种处理方式可以加快模型收敛的速率。那么，进一步地，计算机设备可以基于各个候选文本词的预测概率(或更新后的预测概率)与权值矩阵mw进行运算，以得到各个候选文本词的选择概率。选择概率可以用于指示相应候选文本词最终被计算机设备确定为预测文本词的概率。示例性地，本技术实施例中，计算机设备可以将选择概率最大的候选文本词作为该目标文本词的预测文本词。
[0106]
在上述预测文本词的确定过程中，计算机设备对各个候选文本词的预测概率进行平滑处理时可以采用如式1所示softmax函数。softmax函数(或称：归一化指数函数)是数学领域(如：概率论相关领域)中一种逻辑函数的推广，该函数能将一个含任意实数的k维向量z“压缩”到另一个k维实向量σ(z)中，从而使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1。本技术实施例中，softmax函数中的元素即为候选文本词的预测概率。
[0107][0108]
在式1所示的函数表达式中，表示平滑处理后的预测概率；υi表示查询词表中第i个候选文本词；υj表示查询词表中第j个候选文本词；τ表示平滑系数，其主要用于调整各个预测概率之间的平滑程度。具体来说，平滑系数越大，则平滑程度越大。在本技术实施例中，τ可以示例性地设置为0.05或0.07。需要说明的是，当然，在其他实现方式中，τ也可以为其他值。如：τ可以根据模型优化次数来进行设置，示例性地，τ的具体设置方式可参见式2所示。
[0109][0110]
式2中τ0为预设平滑参数，t为模型优化次数(即：epoch次数)。这种设置方式可以有效提升模型收敛的速率，从而提升计算机设备对图像检索模型进行模型优化的速率。
[0111]
此外，在上述预测文本词的确定过程中，计算机设备基于各个候选文本词更新后的预测概率与权值矩阵mw进行运算的方式可以如式3所示。式3中θ表示预测文本词，表示查询词表中各个候选文本词的平滑处理后的预测概率。
[0112][0113]
基于上述描述，不难理解，由于参考描述文本是计算机设备基于相似图像的图像全局特征预测得到的，因此，参考描述文本可以用于表达相似图像的图像语义信息。基于此，那么，若图像检索模型能够提取到相似图像的准确的图像语义信息，则计算机设备采用图像检索模型根据相似图像的图像全局特征来预测参考描述文本中被掩盖的参考文本词时，计算机设备应当能较为准确的还原参考描述文本中被掩盖的参考文本词，从而得到与参考描述文本所表达的语义信息相似或相同的第一描述文本。基于此不难理解，本技术实施例中采用图像检索模型生成第一描述文本，可以有效验证图像检索模型能否具备高阶语义信息的编码能力。
[0114]
为了便于清楚地理解本技术实施例，以下结合而具体示例对上述第一描述文本的生成方式进行详细阐述。
[0115]
具体来说，计算机设备可以先提取相似图像的图像全局特征，然后计算机设备基于图像全局特征进行参考描述文本的预测。假设计算机设备对相似图像进行文本预测之后得到的参考描述文本用文本序列c表示：{一条，小，狗，在，一个，人，的，旁边}，那么，计算机设备可以采用掩码符号[mask]对参考描述文本中p％(如：25％)个参考文本词进行掩盖，得到文本序列{[mask]，小，狗，在，人，的，[mask]}。然后，计算机设备可以根据相似图像的图像特征来对文本序列中的[mask]对应的参考文本词进行预测还原，得到相应[mask]掩盖的参考文本词的预测文本词。假设第一个[mask]对应的预测文本词为“一只”，第二个[mask]对应的预测文本词为“身旁”，则计算机设备得到的第一描述文本可以为{一只，小，狗，在，一个，人，的，身旁}。
[0116]
s402、采用图像检索模型分别将第一描述文本、第二描述文本与训练图像进行跨模态匹配，得到第一描述文本与训练图像相匹配的第一概率，及第二描述文本与训练图像不匹配的第二概率。
[0117]
在实际应用中，计算机设备可以采用图像检索模型中的二分类层，根据第一描述文本的文本特征、训练图像的图像区域特征以及对象标签特征，预测得到第一概率。对应地，计算机设备也可以采用图像检索模型中的二分类层，根据第二描述文本的文本特征、训练图像的图像区域特征以及对象标签特征，预测得到第二概率。
[0118]
可选地，二分类层预测出的概率可以以二维概率向量的形式表达。二维概率向量可以如：(a，b)。其中，向量元素a可以表示图像描述文本的语义信息与训练图像所表达的语义信息相同的概率，向量元素b可以表示图像描述文本的语义信息与训练图像所表达的语义信息不同的概率。可选地，二分类层预测出的概率也可以只包括匹配概率，即：图像描述文本的语义信息与训练图像的语义信息相匹配的概率。在此情况下，第二概率则可以为1与计算机设备确定出的匹配概率之差。
[0119]
在一个实施例中，计算机设备获取第一描述文本与训练图像相匹配的第一概率的方式可以如下：计算机设备先获取第一描述文本的文本特征、训练图像的图像区域特征以及训练图像的对象标签特征。然后，计算机设备可以根据文本特征、图像区域特征以及对象标签特征，生成训练图像的第一图像语义特征，第一图像语义特征用于指示：计算机设备参考相似图像的图像语义预测得到的训练图像的图像语义。由于训练图像与相似图像之间相
似，因此，计算机设备基于相似图像的图像语义信息预测出的第一图像语义特征所表达的图像语义应该与训练图像的实际图像语义信息相似。那么，进一步地，计算机设备可以对训练图像进行图像语义理解，以得到训练图像的实际图像语义信息，从而使得计算机设备可以通过：获取第一图像语义特征所指示的语义信息与训练图像的实际图像语义信息之间相匹配的概率，来得到第一概率。示例性地，计算机设备可以通过将第一图像语义特征输入至图文预训练网络中的二分类层，来预测得到第一图像语义特征对应的二维概率向量，从而基于二维概率向量得到第一概率。
[0120]
在具体实现中，计算机设备生成第一图像语义特征的方式可以如下：计算机设备先获取第一描述文本的文本特征，然后计算机设备可以基于第一描述文本的文本特征、训练图像的图像区域特征以及对象标签特征构建输入特征(具体实现方式可以参见步骤s203的相关描述)。进一步地，计算机设备可以将输入特征输入至图像检索模型中的图文预训练网络，以得到第一图像语义特征。示例性地，第一图像语义特征可以是该图文预测网络中[cls]标识符对应的输出特征。
[0121]
在又一个实施例中，由于第一图像语义特征是基于相似图像的第一描述文本以及训练图像的相关图像特征得到的，且相似图像与训练图像具备相似的图像全局特征。因此，若计算机设备提取相关图像特征的能力较弱，则计算机设备基于相似图像以及训练图像生成的第一图像语义特征。其所表达的语义信息应当是逻辑性较差的。那么，基于此，在本技术实施例中，计算机设备还可以在生成训练图像的第一图像语义特征之后，对第一图像语义特征所表达的语义信息进行评估，以得到该第一图像语义特征所表达的语义信息的逻辑合理程度，从而使得计算机设备可以进一步地基于获取到的逻辑合理程度来确定第一概率。具体地，逻辑合理程度可以具体从第一图像语义特征所对应的文本内容的连贯性、用词准确度等角度来考量，并且，示例性地，逻辑合理程度越高，第一概率也就可以越高。
[0122]
同理地，计算机设备获取第二描述文本与训练图像不匹配的第二概率的方式可以如下：计算机设备先获取第二描述文本的文本特征、训练图像的图像区域特征以及训练图像的对象标签特征。然后，计算机设备可以根据第二描述文本的文本特征、图像区域特征以及对象标签特征，生成训练图像的第二图像语义特征。第二图像语义特征用于指示：计算机设备参考非相似图像的图像语义预测得到的训练图像的图像语义。可以理解，由于训练图像与非相似图像之间不相似，因此，计算机设备基于非相似图像的图像语义信息预测出的第二图像语义特征所表达的图像语义应该与训练图像的实际图像语义信息具有较大语义差异。进一步地，计算机设备可以通过将第二图像语义特征输入至图文预训练网络中的二分类层，来预测得到第二图像语义特征对应的二维概率向量，从而基于二维概率向量得到第二概率。
[0123]
此外，需要说明的是，在其他实施例中，计算机设备获取非相似图像的第二描述文本与训练图像之间不匹配的第二概率的其他方式的原理，与上述第一概率的获取方式的相关实施例中所体现的原理类似，本技术实施例在此不再详述。
[0124]
s403、分别确定相似图像与训练图像之间的第一相似度，以及非相似图像与训练图像之间的第二相似度。
[0125]
在具体实施例中，针对相似图像与非相似图像中任一图像，计算机设备获取该图像与训练图像之间的相似度的具体方式可以如下：计算机设备获取该图像的图像全局特征
以及训练图像的图像全局特征；然后，计算机设备可以确定该图像的图像全局特征与训练图像的图像全局特征之间的特征相似度，并进一步将特征相似度作为该图像与训练图像之间的相似度。
[0126]
示例性地，相似图像以及非相似图像中任一图像与训练图像的相似度可以是：相应两个图像的图像全局特征之间的余弦相似度。基于此，计算机设备可以按照如式4所示的方式获取图像全局特征之间的相似度。
[0127][0128]
其中，vec1可以表示相似图像与非相似图像中任一图像的图像全局特征。具体地，在计算机设备计算第一相似度时，vec1可以表示相似图像的图像全局特征；在计算机设备计算第二相似度时，vec1可以表示非相似图像的图像全局特征。vec2则可以表示训练图像的图像全局特征。任一图像全局特征可以采用特征向量的形式来表示，因此，式4中||vec1||可以表示相似图像以及非相似图像中相应图像的图像全局特征的模，||vec2||则可以表示训练图像的图像全局特征的模。
[0129]
s404、采用第一损失函数根据第一相似度以及第二相似度确定第一损失值。
[0130]
本技术实施例中，第一损失值是计算机设备采用第一损失函数根据相关图像的图像全局特征之间的特征相似度确定出来的。示例性地，本技术实施例中的第一损失值主要可以用于指示：图像检索模型的图像准确率与图像准确率优化目标之间的差异。其中，图像准确率可以理解为：计算机设备采用图像检索模型对图像模态的数据(如：训练图像、相似图像以及非相似图像等)进行特征提取后，得到的图像全局特征之间相似度的准确率。图像准确率优化目标则可以理解为：图像检索模型的图像准确率大于第一预设准确率。
[0131]
基于上述描述，不难理解，第一损失值与图像全局特征的准确度有关。那么，在本技术实施例中，计算机设备确定出的第一损失值可以直接作用于图像全局特征。具体来说，本技术实施例中计算机设备可以基于第一损失值对图像检索模型中特征提取网络进行优化，从而拉进图像检索模型在处理相似样本(如：相似图像和训练图像)后得到的图像全局特征之间的距离(即：增大第一相似度)，以及，推远图像检索模型在处理非相似样本(如：非相似图像与训练图像)后得到的图像全局特征之间的距离(即：减小第二相似度)。
[0132]
在当前已有的损失函数种类中，铰链损失函数的思想就是让正样本和负样本之间的距离要足够的远。因此，本技术实施例中计算机设备采用的第一损失函数可以是铰链损失函数(hinge loss)。又基于前述可知，本技术实施例中一个训练样本可以包括训练图像、训练图像的相似图像以及训练图像的非相似图像这三个图像。基于此，本技术实施例中采用的铰链损失函数可以具体是三元铰链损失函数。
[0133]
其中，示例性地，第一损失函数(即：三元铰链损失函数)的函数表达式可以如式5所示。式5中，lh表示第一损失值；γ表示损失参数，通常情况下γ可以等于1；表示训练图像的图像全局特征与相似图像的图像全局特征之间的特征相似度；表示训练图像的图像全局特征与非相似图像的图像全局特征之间的特征相似度。
[0134][0135]
为了便于清楚地理解本技术实施例中计算机设备确定第一损失值的方式，以下结合图5a所示的第一损失值计算流程图来对相关步骤进行详细说明。
[0136]
如图5a所示，计算机设备可以先采用输入特征的构造模块，分别构建训练图像、训练图像的相似图像以及训练图像的非相似图像的输入特征。进一步地，计算机设备可以将各个图像的输入特征输入至图文预训练网络，由图文预训练网络分别基于各个输入特征抽象得到相应图像的图像全局特征。然后，计算机设备可以采用第一损失值计算模块基于各个图像的图像全局特征，计算得到第一损失值。
[0137]
s405、采用第二损失函数根据第一概率和第二概率确定第二损失值。
[0138]
在本技术实施例中，第二损失值可以是计算机设备采用第二损失函数计算出来的。示例性地，本技术实施例中的第二损失值主要可以用于指示：图像检索模型的文本准确率与文本准确率优化目标之间的差异。其中，文本准确率可以理解为：计算机设备采用图像检索模型将文本和图像进行跨模态匹配时得到的相关匹配度的准确率。在本技术实施例中，文本准确率主要指的是：计算机设备采用图像检索模型将第一描述文本或第二描述文本与训练图像进行跨模态匹配时，确定出的相应概率的准确率。文本准确率优化目标则可以理解为：图像检索模型的文本准确率高于第二预设准确率。
[0139]
基于上述描述，不难理解，第二损失值与第二描述文本的准确度以及训练图像的图像全局特征的准确度有关。那么，在本技术实施例中，基于第二损失值对图像检索模型进行模型优化，不仅可以提升图像检索模型对图像进行语义理解的能力，还可以提升计算机设备提取图像全局特征的能力。那么，也就是说，采用本技术实施例提供的第二损失值对图像检索模型进行模型优化，可以使得计算机设备采用优化后的图像检索模型能够提取到更为准确的图像描述文本以及相关的图像全局特征。
[0140]
其中，示例性地，第二损失函数的函数表达式可以如式6所示。在式6中，l
sc
表示第二损失值；表示计算机设备基于相似图像的第一描述文本以及训练图像的图像区域特征和对象标签特征生成的第一图像语义特征。表示计算机设备基于非相似图像的第二描述文本以及训练图像的图像区域特征和对象标签特征生成的第二图像语义特征。表示第一概率，表示第二概率。ψ可以指代图文预训练网络中的二分类层。
[0141][0142]
为了便于清楚地理解本技术实施例中计算机设备确定第二损失值的方式，以下结合图5b所示的第二损失值计算流程图来对相关步骤进行详细说明。
[0143]
如图5b所示，计算机设备生成第二损失值的过程包括三个阶段，分别是由图5b中501标记的硬标题生成阶段，由图5b中502标记的软标题生成阶段，以及由图5b中503标记的跨模态匹配阶段。以下对各个阶段进行详细说明。
[0144]
硬标题生成阶段：针对相似图像以及非相似图像中任一图像(如图5b中的regionsa+tagsa组成的图像)，计算机设备可以生成该图像的文本序列，然后基于该图像的文本序列、图像区域特征(即：regionsa)以及对象标签特征(即：tagsa)生成输入特征。进一
步的，计算机设备可以采用图文预训练网络基于该输入特征进行文本预测，得到该图像对应的硬标题(即：参考描述文本)，如：{一条，坐着，的，狗}。
[0145]
软标题生成阶段：当计算机设备生成硬标题之后，计算机设备可以在参考描述文本中添加掩码标识符[mask]，得到具备掩码标识符的文本序列，如：{一条，[mask]，[mask]，狗}。进一步，计算机设备可以基于添加掩码标识符之后的文本序列、该图像的图像区域特征以及对象标签特征，重新生成一个输入特征，并继续采用图文预训练网络基于该输入特征进行解码处理，以得到各个掩码标识符对应的预测文本词。其中，为了进一步加快模型优化速率，本技术实施例中计算机设备可以采用平滑系数为τ的softmax函数对各个候选文本词的预测概率进行平滑处理，以基于平滑处理后的各个预测概率确定出相应的预测文本词，如图5b中的[worda]以及[wordb]。当计算机设备预测得到各个掩码标识符的预测文本词之后，计算机设备可以基于各个预测文本词以及参考描述文本中未被掩码标识符掩盖的参考文本词生成软标题(即：第一描述文本或第二描述文本)。
[0146]
跨模态匹配阶段：当计算机设备得到软标题之后，计算机设备可以获取训练图像的图像区域特征(即：图5b中的regionsb)以及对象标签特征(即：图5b中的tagsb)，以采用图文预训练网络生成相应的图像语义特征。进一步地，计算机设备可以采用二元分类器(或称：二分类层)基于该图像语义特征预测得到软标题与训练图像相匹配的概率以及软标题与训练图像不匹配的概率。进一步地，计算机设备可以采用第二损失值计算模型基于获取到的概率计算得到第二损失值。
[0147]
s406、根据第一损失值和第二损失值，得到目标损失值。
[0148]
在本技术实施例中，计算机设备在确定目标损失值时，可以先获取第一损失值的权重以及第二损失值的权重。进一步地，计算机设备可以根据获取到的各个权重，对第一损失值和第二损失值进行加权求和，以将加权求和结果作为确定出的目标损失值。其中，第一损失值的权重和第二损失值的权重可以是计算机设备预先设置的，也可以是计算机根据相应损失值的大小确定的。如，第一损失值的权重与第一损失值正相关，第二损失值的权重与第二损失值正相关。可选地，在本技术实施例中，计算机设备还可以对第一损失值的权重和第二损失值的权重进行归一化，使得第一损失值的权重与第二损失值的权重之和为1.
[0149]
示例性地，本技术实施例中计算机设备可以采用如式7所示的方法确定目标损失值。式7中，l表示目标损失值；lh表示第一损失值，第一损失值的权重可以看作1；λ表示第二损失值的权重；l
sc
表示第二损失值。
[0150]
l＝lh+λl
sc
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式7
[0151]
s407、基于目标损失值对图像检索模型进行模型优化，得到优化后的图像检索模型。
[0152]
在一个实施例中，计算机设备基于目标损失值对图像检索模型进行模型优化的方式可以参见上述步骤s205相关的实施例，本技术实施例在此不再赘述。
[0153]
在本技术实施例中，计算机设备在确定目标损失值时利用了相似图像的第一描述文本与训练图像之间匹配的第一概率，以及利用了非相似图像的第二描述文本与训练图像之间不匹配的第二概率。由于第一描述文本以及第二描述文本是计算机设备对相应图像进行图像语义理解之后预测得到的，因此，采用本技术实施例确定的目标损失值对图像检索模型进行模型优化，可以使得图像检索模型学习到提取高阶图像语义特征的能力，从而使
得优化后的图像检索模型能够提取出更加准确的图像全局特征，也即进一步使得优化后的图像检索模型可以确定出准确度较高的图像检索结果。
[0154]
针对本技术实施例提出的模型优化方法(即：图2所示的模型优化方法以及图4所示的模型优化方法)，需要补充说明的是：本技术实施例中，计算机设备得到优化后的图像检索模型之后，可以采用该优化后的图像检索模型进行图像检索处理。请参见图6，图6是本技术实施例提出的一种图像检索方法的流程示意图。如图6所示，该图像检索方法可以包括步骤s601-s603：
[0155]
s601、接收图像检索请求，图像检索请求携带输入图像。
[0156]
具体实施例中，图像检索请求可以携带输入图像。输入图像为需要输入至图像检索模型中的图像。输入图像可以用于指示图像检索模型进行图像检索时的检索依据，相当于文本检索中的检索关键词。那么，也就是说，图像检索模型检索出的图像应当与输入图像具备相同或相似的特征。因此，计算机设备在接收到图像检索请求之后，可以对图像检索请求进行解析以获取该图像检索请求中携带的输入图像，从而使得计算机设备可以基于输入图像进行图像检索。
[0157]
其中，图像检索请求可以是任一与计算机设备建立有通信连接的设备(如：终端设备)发起的。示例性地，终端设备中可以显示图像检索界面，图像检索界面可以包括图像输入入口。当终端设备检测到图像输入入口存在图像输入操作时，计算机设备可以生成图像检索请求，该图像检索请求可以包括该输入入口被输入的图像。
[0158]
s602、采用优化后的图像检索模型，基于输入图像从至少一个候选图像中选取出与输入图像的图像相似度满足相似度条件的目标图像。
[0159]
在实际应用中，目标图像可以是：与输入图像的图像相似度满足相似度条件的目标图像。目标图像的数量可以为一个或多个。相似度条件可以包括但不限于以下任意一种或多种：(1)该图像相似度大于相似度阈值；(2)该图像相似度为计算机设备确定出的所有图像相似度中的最大值；(3)该图像相似度为计算机设备确定出的所有图像相似度中，图像相似度的大小排列前n位的图像相似度。
[0160]
在一个实施例中，计算机设备从至少一个候选图像中选取目标图像的方式可以具体如下：计算机设备先获取输入图像的图像全局特征，并获取至少一个候选图像中任一候选图像的图像全局特征。进一步地，计算机设备可以确定输入图像的图像特征与该候选图像的图像全局特征之间的特征相似度，进一步地当计算机设备确定该特征相似度满足相似度条件时，计算机设备可以将该候选图像作为目标图像。
[0161]
由于本技术实施例中，用于图像检索的图像检索模型是基于图2以及图4所示的模型优化方法优化得到的，因此，该图像检索模型具备较强的高阶语义特征提取能力。那么，在确定目标图像时，计算机设备可以仅采用图像全局特征之间的相似度来确定输入图像与候选图像之间的相似度，从而基于特征相似度确定出目标图像。这种确定目标图像的方式使得计算机设备仅需进行少量的数据处理便可实现图像检索，因此可见，本技术实施例可以在保证检索结果的准确度的同时，有效降低计算机设备的工作量，从而使得本技术实施例在实际应用中还具备较高的图像检索速率。
[0162]
在又一个实施例中，计算机设备从至少一个候选图像中选取目标图像的方式还可以具体如下：计算机设备先确定输入图像与该候选图像之间的特征相似度，然后，针对输入
图像与该候选图像中任一图像，计算机设备可以生成该任一图像的图像描述文本，进一步的，计算机设备可以将图像描述文本与另一图像进行匹配，得到文本与图像之间的匹配度。在此情况下，计算机设备可以基于特征相似度和匹配度确定是否将该候选图像作为目标图像。示例性地，计算机设备可以基于特征相似度和匹配度进行加权求和以确定图像相似度，并在图像相似度满足相似度条件时，将该候选图像作为目标图像。其中，特征相似度和/或匹配度的权重可以是计算机设备预先设置的，也可以是计算机设备根据相应相似度的大小或匹配度的大小确定的，本技术实施例对此不做限制。
[0163]
由于本实施例中候选图像与输入图像之间的图像相似度是基于图文匹配角度以及特征相似角度综合确定的，因此，采用该实施例提出的方式确定出的目标图像可以具备更高的准确度。
[0164]
s603、输出目标图像。
[0165]
在具体实施例中，计算机设备可以通过在发起图像检索请求的终端设备上显示目标图像以完成输出，也可以通过将目标图像发送至终端设备以完成输出。并且，可选地，计算机设备输出目标图像时，可以对目标图像进行包装之后再输出。示例性地，计算机设备可以先对目标图像进行图像分析，然后基于分析结果以及目标图像进行打包，并将打包后得到的文件进行输出。
[0166]
在本技术实施例中，计算机设备可以通过获取相关图像的图像全局特征之间的特征距离(或称：图像相似度)来实现图像检索，这可以使得计算机设备无需将候选图像与输入图像同时输入模型，也能预测得到图像之间的图像相似度，从而使得计算机设备能够以较高速率检索到目标图像。因此，本技术实施例可以应用于大规模数据库的场景下。基于此不难看出，计算机设备是采用的查询无关的检索(即：query-independent retrieval，查询独立检索)方式来实现图像检索，查询无关的检索本身便具有较高的查询效率，又由于本技术实施例中用于图像检索的图像检索模型是基于文本模态的数据以及图像模态的数据共同优化得到的，这种优化方式可以使得图像检索模型具备理解高阶语义的能力，因此，本技术实施例采用的优化后的图像检索模型可以具备较高的准确度。综上可见，本技术实施例有效提升了图像检索的速率，同时保证了图像检索结果的准确度。
[0167]
基于上述模型优化方法的相关描述，本技术实施例还公开了一种模型优化装置。该模型优化装置可以是运行于上述所提及的计算机设备中的一个或多个计算机程序(包括程序代码)。在具体实施例中，该模型优化装置可以用于执行如图2或图4所示的模型优化方法，或图6所示的图像检索方法。请参见图7，该模型优化装置可以包括：获取单元701、匹配单元702、相似度确定单元703、损失值确定单元704、模型优化单元705以及图像检索单元706。
[0168]
获取单元701，用于获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
[0169]
匹配单元702，用于采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
[0170]
相似度确定单元703，用于分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
[0171]
损失值确定单元704，用于根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
[0172]
模型优化单元705，用于基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
[0173]
在一种实施方式中，所述损失值确定单元704具体可以用于执行：
[0174]
采用第一损失函数根据所述第一相似度及所述第二相似度确定第一损失值，所述第一损失值用于指示所述图像检索模型的图像准确率与图像准确率优化目标之间的差异；
[0175]
采用第二损失函数根据所述第一概率和所述第二概率确定第二损失值，所述第二损失值用于指示所述图像检索模型的文本准确率与文本准确率优化目标之间的差异；
[0176]
根据所述第一损失值和所述第二损失值，得到所述目标损失值。
[0177]
在又一种实施方式中，所述损失值确定单元704还可以具体用于执行：
[0178]
获取所述第一损失值的权重以及所述第二损失值的权重；
[0179]
根据获取到的各个权重，对所述第一损失值和所述第二损失值进行加权求和，得到所述目标损失值。
[0180]
在又一种实施方式中，所述获取单元701可以具体用于执行：
[0181]
采用所述图像检索模型，对所述相似图像进行图像特征提取，得到所述相似图像的图像全局特征；
[0182]
根据所述相似图像的图像全局特征进行文本预测，得到所述第一描述文本。
[0183]
在又一种实施方式中，所述获取单元701还可以具体用于执行：
[0184]
根据所述相似图像的图像全局特征预测得到所述相似图像的参考描述文本，所述参考描述文本包括多个参考文本词；
[0185]
采用掩码符号对所述多个参考文本词中的目标数量个参考文本词进行掩盖；
[0186]
基于所述相似图像的图像全局特征及所述参考描述文本中未被掩码符号掩盖的参考文本词，对所述目标数量个掩码符号掩盖的参考文本词进行预测，得到各个掩码符号掩盖的参考文本词所对应的预测文本词；
[0187]
采用所述各个掩码符号掩盖的参考文本词所对应的预测文本词，对所述参考描述文本中相应参考文本词进行更新，得到所述第一描述文本。
[0188]
在又一种实施方式中，所述匹配单元702可以具体用于执行：
[0189]
获取所述第一描述文本的文本特征、所述训练图像的图像区域特征以及所述训练图像的对象标签特征；
[0190]
根据所述文本特征、所述图像区域特征以及所述对象标签特征，生成所述训练图像的第一图像语义特征；
[0191]
获取所述第一图像语义特征所指示的语义信息与所述训练图像相匹配的概率，得到所述第一概率。
[0192]
在又一种实施方式中，所述相似度确定单元703可以具体用于执行:
[0193]
获取所述任一图像的图像全局特征以及所述训练图像的图像全局特征；
[0194]
确定所述任一图像的图像全局特征与所述训练图像的图像全局特征之间的特征相似度；
[0195]
将所述特征相似度作为所述任一图像与所述训练图像之间的相似度。
[0196]
在又一种实施方式中，所述模型优化装置中图像检索单元706可以具体用于执行：
[0197]
接收图像检索请求，所述图像检索请求携带输入图像；
[0198]
采用所述优化后的图像检索模型，基于所述输入图像从至少一个候选图像中选取出与所述输入图像的图像相似度满足所述相似度条件的目标图像；
[0199]
输出所述目标图像。
[0200]
在又一种实施方式中，所述图像检索单元706还可以具体用于执行：
[0201]
获取所述输入图像的图像全局特征及任一候选图像的图像全局特征；
[0202]
当所述输入图像的图像全局特征与所述任一候选图像的图像全局特征之间的特征相似度满足所述相似度条件时，将所述任一候选图像作为所述目标图像。
[0203]
根据本技术的一个实施例，图2、图4以及图6所示的方法所涉及的各个步骤可以由图7所示的模型优化装置中的各个单元来执行。例如，图2所示的步骤s201可以由图7所示的模型优化装置中的获取单元701来执行，步骤s202可以由图7所示的模型优化装置中的匹配单元702来执行，步骤s203可以由图7所示的模型优化装置中的相似度确定单元703来执行，步骤s204可以由图7所示的模型优化装置中的损失值确定单元704来执行，步骤s205可以由图7所示的模型优化装置中的模型优化单元705来执行。再如，图4所示的步骤s401可以由图7所示的模型优化装置中的获取单元701来执行，步骤s402可以由图7所示的模型优化装置中的匹配单元702来执行，步骤s403可以由图7所示的模型优化装置中的相似度确定单元703来执行，步骤s404至步骤s406均可以由图7所示的模型优化装置中的损失值确定单元704来执行，步骤s407可以由图7所示的模型优化装置中的模型优化单元705来执行。再如，图6所示的步骤s601至步骤s603均可由图7所示的模型优化装置中的图像检索单元706来执行。
[0204]
根据本技术的另一个实施例，图7所示的模型优化装置中各个单元是基于逻辑功能划分的。上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者，其中的某个(某些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术实施例的技术效果的实现。在本技术的其他实施例中，上述模型优化装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协助实现。
[0205]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如域名管理设备的通用计算设备上，运行能够执行如图2、图4以及图6所示的方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7所示的模型优化装置，以及来实现本技术实施例的模型优化方法。计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算设备中，并在其中运行。
[0206]
在本技术实施例中，模型优化装置在对图像检索模型进行模型优化时，不仅构建了图像模态的训练任务，还加入了文本模态的训练任务。并且，在本技术实施例中，模型优化装置在执行文本模态的训练任务时所采用的文本模态的数据是模型优化装置根据相应图像特征生成的，并非预先标注好的。因此，本技术实施例的文本模态的训练任务无需利用到昂贵的标注，可以有效降低相应检索业务的开发成本以及提升检索速率。此外，本技术实
施例中，模型优化装置在确定图像检索模型的目标损失值时，同时利用了图像与图像之间的相似度以及文本与图像之间的匹配度。基于这种计算思路计算出的目标损失值进行模型优化，可以使得图像检索模型可以从图像内容特征(如：图像包括的对象、对象的形态等)的提取的角度，以及图像语义理解(如：综合图像内容理解图像所表达的含义)的角度对图像检索进行优化，从而使得优化后的图像检索模型在应用于图像检索时，可以获取到输入图像更加准确的图像特征，进一步也就可以基于该图像特征检索得到准确度较高的图像检索结果。
[0207]
基于上述方法实施例以及装置实施例的相关描述，本技术实施例还提供了一种计算机设备，请参见图8。该计算机设备至少包括处理器801以及计算机存储介质802，且处理器801以及计算机存储介质802可通过总线或其他方式连接。
[0208]
其中，上述提及的计算机存储介质802是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质802既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质802提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的计算机程序，这些计算机程序可以是一个或一个以上的程序代码。需要说明的是，此处的计算机存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储介质。处理器801(或称cpu(central processing unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。
[0209]
在一个实施例中，可以由处理器801加载并执行计算机存储介质802中存放的一条或多条计算机程序，以实现上述有关图2、图4以及图6所示的方法实施例中的相应方法步骤。在具体实现中，计算机存储介质802中的一条或多条计算机程序可以由处理器801加载并执行如下步骤：
[0210]
获取训练图像、所述训练图像的相似图像、所述训练图像的非相似图像、所述相似图像的第一描述文本以及所述非相似图像的第二描述文本；
[0211]
采用图像检索模型分别将所述第一描述文本、所述第二描述文本与所述训练图像进行跨模态匹配，得到所述第一描述文本与所述训练图像相匹配的第一概率，及所述第二描述文本与所述训练图像不匹配的第二概率；
[0212]
分别确定所述相似图像与所述训练图像之间的第一相似度，以及所述非相似图像与所述训练图像之间的第二相似度；
[0213]
根据所述第一相似度、所述第二相似度、所述第一概率及所述第二概率，确定所述图像检索模型的目标损失值；
[0214]
基于所述目标损失值对所述图像检索模型进行模型优化，得到优化后的图像检索模型，所述优化后的图像检索模型用于检索出与输入图像的图像相似度满足相似度条件的目标图像。
[0215]
在一种实施方式中，所述处理器801可以具体用于加载并执行：
[0216]
采用第一损失函数根据所述第一相似度及所述第二相似度确定第一损失值，所述第一损失值用于指示所述图像检索模型的图像准确率与图像准确率优化目标之间的差异；
[0217]
采用第二损失函数根据所述第一概率和所述第二概率确定第二损失值，所述第二损失值用于指示所述图像检索模型的文本准确率与文本准确率优化目标之间的差异；
[0218]
根据所述第一损失值和所述第二损失值，得到所述目标损失值。
[0219]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0220]
获取所述第一损失值的权重以及所述第二损失值的权重；
[0221]
根据获取到的各个权重，对所述第一损失值和所述第二损失值进行加权求和，得到所述目标损失值。
[0222]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0223]
采用所述图像检索模型，对所述相似图像进行图像特征提取，得到所述相似图像的图像全局特征；
[0224]
根据所述相似图像的图像全局特征进行文本预测，得到所述第一描述文本。
[0225]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0226]
根据所述相似图像的图像全局特征预测得到所述相似图像的参考描述文本，所述参考描述文本包括多个参考文本词；
[0227]
采用掩码符号对所述多个参考文本词中的目标数量个参考文本词进行掩盖；
[0228]
基于所述相似图像的图像全局特征及所述参考描述文本中未被掩码符号掩盖的参考文本词，对所述目标数量个掩码符号掩盖的参考文本词进行预测，得到各个掩码符号掩盖的参考文本词所对应的预测文本词；
[0229]
采用所述各个掩码符号掩盖的参考文本词所对应的预测文本词，对所述参考描述文本中相应参考文本词进行更新，得到所述第一描述文本。
[0230]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0231]
获取所述第一描述文本的文本特征、所述训练图像的图像区域特征以及所述训练图像的对象标签特征；
[0232]
根据所述文本特征、所述图像区域特征以及所述对象标签特征，生成所述训练图像的第一图像语义特征；
[0233]
获取所述第一图像语义特征所指示的语义信息与所述训练图像相匹配的概率，得到所述第一概率。
[0234]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行:
[0235]
获取所述任一图像的图像全局特征以及所述训练图像的图像全局特征；
[0236]
确定所述任一图像的图像全局特征与所述训练图像的图像全局特征之间的特征相似度；
[0237]
将所述特征相似度作为所述任一图像与所述训练图像之间的相似度。
[0238]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0239]
接收图像检索请求，所述图像检索请求携带输入图像；
[0240]
采用所述优化后的图像检索模型，基于所述输入图像从至少一个候选图像中选取出与所述输入图像的图像相似度满足所述相似度条件的目标图像；
[0241]
输出所述目标图像。
[0242]
在又一种实施方式中，所述处理器801还可以具体用于加载并执行：
[0243]
获取所述输入图像的图像全局特征及任一候选图像的图像全局特征；
[0244]
当所述输入图像的图像全局特征与所述任一候选图像的图像全局特征之间的特征相似度满足所述相似度条件时，将所述任一候选图像作为所述目标图像。
[0245]
在本技术实施例中，计算机设备在对图像检索模型进行模型优化时，不仅构建了图像模态的训练任务，还加入了文本模态的训练任务。并且，在本技术实施例中，计算机设备在执行文本模态的训练任务时所采用的文本模态的数据是计算机设备根据相应图像特征生成的，并非预先标注好的。因此，本技术实施例的文本模态的训练任务无需利用到昂贵的标注，可以有效降低相应检索业务的开发成本以及提升检索速率。此外，本技术实施例中，计算机设备在确定图像检索模型的目标损失值时，同时利用了图像与图像之间的相似度以及文本与图像之间的匹配度。基于这种计算思路计算出的目标损失值进行模型优化，可以使得图像检索模型可以从图像内容特征(如：图像包括的对象、对象的形态等)的提取的角度，以及图像语义理解(如：综合图像内容理解图像所表达的含义)的角度对图像检索进行优化，从而使得优化后的图像检索模型在应用于图像检索时，可以获取到输入图像更加准确的图像特征，进一步也就可以基于该图像特征检索得到准确度较高的图像检索结果。
[0246]
本技术还提供了一种计算机存储介质，该计算机存储介质中存储了上述模型优化方法对应的一条或多条计算机程序，当一个或多个处理器加载并执行该一条或多条计算机程序，可以实现实施例中对模型优化方法的描述，在此不再赘述。对采用相同方法的有益效果的描述，在此不再赘述。可以理解的是，计算机程序可以被部署在一个或多个能够相互通信的设备上执行。
[0247]
需要说明的是，根据本技术的一个方面，还提供了一种计算机产品或计算机程序，该计算机产品包括计算机程序，该计算机程序存储在计算机存储介质中。计算机设备中的处理器从计算机存储介质读取该计算机程序，然后执行该计算机程序，进而使得该计算机设备能够执行上述图2、图4以及图6所示的模型优化方法实施例方面的各种可选方式中提供的方法。
[0248]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于计算机存储介质中，该计算机程序在执行时，可包括如上述模型优化方法的实施例的流程。其中，计算机存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0249]
可以理解的是，以上所揭露的仅为本技术的局部实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本技术权利要求所作的等同变化，仍属于发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周佳乐
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。