一种模型训练方法、开放域目标检测方法及相关装置与流程

文档序号：33089906发布日期：2023-01-31 22:50阅读：44来源：国知局

1.本文件涉及计算机技术领域，尤其涉及一种模型训练方法、开放域目标检测方法及相关装置。

背景技术：

2.目标检测是计算机视觉的核心技术，也是目标跟踪和识别的基础，在视觉应用中具有举足轻重的重要地位。目前被广泛应用的检测方法都是面向确定类别的专有检测，需要采集大量感兴趣类别的标注数据，通过监督训练得到一个目标检测模型，然后使用该目标检测模型对目标类别进行检测。
3.随着检测业务的不断扩展，对于包含未知类别目标的开放域的目标检测需求日益强烈。然而，现有的对不确定类别的目标检测方案只能将所有的新目标笼统的归为未知类，而无法进一步准确识别新目标（例如，类别、颜色等），限制了开放域的目标检测需求。

技术实现要素：

4.本说明书一个或多个实施例的目的是提供一种模型训练方法、开放域目标检测方法及相关装置，以通过特征交织的方式，提升模型学习能力，得到检测粒度更为精细的目标检测模型，进而，实现对开放域目标的准确检测。
5.为解决上述技术问题，本说明书一个或多个实施例是这样实现的：第一方面，提出了一种模型训练方法，包括：获取待训练的图像样本集以及训练目标样例；从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本；将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同；将所述图像样本的交织特征样本以及图像样本的标注数据，输入待训练的模型进行训练，得到目标检测模型。
6.第二方面，提出了一种开放域目标检测方法，包括：获取待检测图像以及检测目标样例；从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征；将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同；将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模型是基于第一方面所述的模型训练方法训练得到。
7.第三方面，提出了一种模型训练装置，包括：获取模块，用于获取待训练的图像样本集以及训练目标样例；提取模块，用于从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本；交织模块，用于将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同；训练模块，将所述图像样本的交织特征样本以及图像样本的标注数据，输入待训练的模型进行训练，得到目标检测模型。
8.第四方面，提出了一种开放域目标检测装置，包括：获取模块，用于获取待检测图像以及检测目标样例；提取模块，用于从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征；交织模块，用于将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同；检测模块，用于将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模型是基于第一方面所述的模型训练方法训练得到。
9.第五方面，提出了一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述的模型训练方法，或者，执行第二方面所述的开放域目标检测方法。
10.第六方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述的模型训练方法，或者，执行第二方面所述的开放域目标检测方法。
11.由以上说明书一个或多个实施例提供的技术方案可见，将从待训练的图像样本中提取的包含多个尺度特征的第一语义特征样本，与从训练目标样例中提取的第二语义特征样本进行语义特征交织，可以保证第一语义特征样本中特征与第二语义特征样本自适应对齐，得到所需图像样本的交织特征样本，然后以该交织特征样本和图像样本的标注作为输入，对待训练的模型进行反复训练，得到目标检测模型。该方案可以通过特征交织的方式，提升模型学习能力，得到检测粒度更为精细的目标检测模型，进而，实现对开放域目标的准确检测。尤其该特征提取过程可以通过自注意机制实现对目标样例的多个细粒度局部特征进行比对，克服了只能对目标样例使用单一的全局特征的局限性，对于局部相似、部分遮挡等目标具有更好的适应性和识别性，从而，提高模型训练效率以及训练精度，保证后续目标检测准确性。
附图说明
12.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对一个或多个实施例或现有技术描述中所需要使用的附图做简单介绍，显而易见地，以下描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
13.图1是本说明书实施例的模型训练方案以及目标检测方案所基于的网络模型结构示意图。
14.图2a是本说明书实施例提供的一种模型训练方法的步骤示意图。
15.图2b是本说明书实施例提供的训练阶段特征交织的原理示意图之一。
16.图3是本说明书的一个实施例提供的训练阶段特征交织的原理示意图之二。
17.图4是本说明书的一个实施例提供的训练阶段特征交织的原理示意图之三。
18.图5是本说明书的一个实施例提供的训练阶段特征交织的原理示意图之四。
19.图6是本说明书实施例提供的一种开放域目标检测方法的步骤示意图。
20.图7是本说明书实施例提供的检测阶段特征交织的原理示意图之一。
21.图8是本说明书实施例提供的检测阶段特征交织的原理示意图之二。
22.图9是本说明书实施例提供的模型训练-模型检测的框架流程示意图。
23.图10是本说明书实施例提供的一种模型训练装置的结构示意图。
24.图11是本说明书实施例提供的一种开放域目标检测装置的结构示意图。
25.图12是本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
26.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的一个或多个实施例只是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
27.常见的目标检测，主要是面向确定类别的专有检测，这就需要足够的训练样本来支持，同时，该检测类型限定了只能针对特定类别进行检测，即训练样本类别决定了检测类别。所以，面向确定类别的专有检测方案大多针对那些数据获取成本低且来源广泛的目标对象，对于样本稀缺且采集成本高的一些长尾应用或是特定领域，专有检测方案的研发成本高、周期长、效果难以保证。而且，在实际业务中，经常会面临新增检测类别的需求，而面向确定类别的专有检测方案无法针对不在训练集中的新增检测类别进行检测，需要对新增检测类别重新收集数据进行模型训练，研发成本和效率增大。
28.鉴于此，本说明书实施例提出了一种可适用于开放域目标检测的模型训练方案，将从待训练的图像样本中提取的包含多个尺度特征的第一语义特征样本，与从训练目标样例中提取的第二语义特征样本进行语义特征交织，可以保证第一语义特征样本中特征与第二语义特征样本自适应对齐，得到所需图像样本的交织特征样本，然后以该交织特征样本和图像样本的标注作为输入，对待训练的模型进行反复训练，得到目标检测模型。该特征提取过程可以通过自注意机制实现对目标样例的多个细粒度局部特征进行比对，克服了只能
对目标样例使用单一的全局特征的局限性，对于局部相似、部分遮挡等目标具有更好的适应性和识别性，从而，提高模型训练效率以及训练精度，保证后续目标检测准确性。
29.该针对开放域目标检测的模型训练以及检测方案，可以适用于场地巡检、智慧客流、无人驾驶等应用场景，还可以利用视觉图像技术，赋能线下商超、门店、百货等零售行业的数字化能力；在相应场景实现人体检测、人脸检测、车辆检测等目标识别操作。具体可以配合应用场景下的图像采集装置采集场景中目标的视觉图像，并将视觉图像作为待检测图像输入训练好的目标检测模型中进行识别。目标检测模型可以是基于历史视觉图像训练得到，这些历史视觉图像可以来源于当下场景中也可以是来源于类似当下场景的其它场景中。
30.应理解，在本说明书实施例中，目标样例是感兴趣的目标体的代表样例，训练目标样例是模型训练阶段使用的感兴趣的目标体的样例，检测目标样例是模型应用阶段使用的感兴趣的目标体的样例。
31.首先，结合图1介绍本说明书实施例的模型训练方案以及目标检测方案所基于的网络模型结构。参照图1所示，该网络模型可以是基于transformer模型的cross-attention交叉注意结构，具体可以划分为三个操作模块：特征提取模块、特征交织模块以及检测头输入模块。特征提取模块分别提取目标样例和输入图像的语义特征，然后特征交织模块对提取的两个语义特征进行交叉比对，并将交叉比对结果与从输入图像提取的语义特征进行拼接融合得到交织特征，之后，通过网络模型的检测头输入模块完成交织特征的输入，实现对网络模型的训练或是相似语义目标的定位检测。其中，transformer模型是一种基于自注意力学习机制的深度神经网络结构。
32.其中，在特征提取模块中，可以使用骨干网络分别对输入图像和目标样例进行特征提取；需要说明的是，输入图像可以是待训练的图像样本，也可以是待检测图像，以下基于训练阶段为例对该网络模型进行介绍。在该网络模型中，骨干网络可以是resnet50网络，或者，可以是其它类型的特征提取网络，例如，yolov5的csp-darknet53网络，轻量化网络中的mobilenet网络，基于transformer模型的swin网络、pvt网络等。在对输入图像提取特征时，可以采用resnet50+fpn-pan的多尺度特征提取网络，例如，图1中输出三个尺度的第一语义特征样本（包含p1、p2、p3），分别对应8倍、16倍、32倍下采样语义特征图（俗称特征金字塔）。在对目标样例提取特征时，可以采用与输入图像共享的骨干网络，例如resnet50+self-attention自注意力结构，提取到一个尺度的第二语义特征样本，该第二语义特征样本为32倍下采样的语义特征图。
33.其中，这里的多尺度特征提取网络，并不限于图1中所示的三个尺度，还可以是其它尺度以及尺度数目的网络结构。
34.在特征交织模块中，对从输入图像提取的第一语义特征样本与从目标样例提取的第二语义特征样本进行特征交织，使用第二语义特征样本与第一语义特征样本中特征分别进行语义比对，确定输入图像的第一语义特征样本中与目标样例的第二语义特征样本语义相似的特征样本。即在第一语义特征样本中执行基于第二语义特征样本的相似检索，然后将检索到的特征样本再与第一语义特征样本进行特征拼接，得到交织特征样本。在进行特征交织计算时，可以采用注意力交叉计算方式，将第一语义特征样本作为查询元素query（以下简称q向量），第二语义特征样本作为键元素key（以下简称k向量）以及值元素value
（以下简称v向量），进行特征交织计算，得到交织特征样本。
35.在检测头输入模块中，可以将交织特征输入模型的检测头，结合输入图像中目标体的标注，对模型进行训练。参照图1中，可以根据特征提取时提取的尺度层级，在该检测头输入模块设置多尺度检测头，用于对相似性比对的结果，完成相似语义目标的位置和范围的训练，根据标注的目标的位置和大小，对模型进行参数的反复调试，得到最佳目标检测模型。
36.一种可实现的方案，可以针对图1中得到的交织特征（包含三层语义特征图）中每层语义特征图，分别采用独立的检测头进行输入并计算，这样，可以同时对交织特征中三层语义特征图进行并行计算，提高模型的学习训练能力。
37.另一种可实现的方案，还可以针对图1中得到的交织特征，采用多尺度共享的一个检测头，即多个尺度的语义特征图共用一个检测头，也可以实现多尺度语义特征图并行计算的效果，同时还可以节省存储空间和计算资源。不同在于：多检测头的结构中每个检测头会有一份独立的调试参数，而多尺度共享一个检测头的结构中有一份调试参数。
38.应理解，上述所涉及的检测头，在结构上可以包含目标概率，目标框与中心置信度三个分支，每个分支可以由两个3x3的卷积层与一个1x1的回归层组成。本说明书中类别预测是一个二分类问题，同类目标属于正样本，所有非同类的目标以及背景都是负样本。这样，就可以根据输入检测头的交织特征以及标注数据，对模型进行反复训练调试，得到目标检测模型。
39.同理，在使用目标检测模型对待检测图像进行目标检测阶段，也可以按照上述模块分别对待检测图像以及检测目标样例进行特征提取、特征交织以及检测头输入，根据输出结果确定待检测图像中的目标。
40.参照图2a所示，为本说明书实施例提供的一种模型训练方法的步骤示意图，该模型训练方法可以包括以下步骤：步骤202：获取待训练的图像样本集以及训练目标样例。
41.其中，待训练的图像样本集可以是包含多个图像样本的训练数据集，每个图像样本中可以包含与检测服务相关的一个或多个目标体，且每个图像样本可以携带有目标体的标注，该标注可以是表示目标体的类别、大小、颜色等属性特征的标识信息。
42.除了获取待训练的图像样本集外，还可以获取训练目标样例，该训练目标样例可以是图像样本中包含的目标体的图像样例。以检测服务领域是监控领域为例，获取的图像样本是监控画面，监控画面中有过往的大人、小孩、动物、车辆等多个目标体，可以选择其中车辆作为本次训练时使用的目标体，也就是说，后续的模型训练是针对图像样本中所有车辆这类目标体进行训练。
43.在本说明书实施例中，可以基于确定的目标体，从候选样例库中选择匹配的样例作为训练目标样例。具体地，从待训练的图像样本集确定待输入的图像样本，并从待输入的图像样本中确定目标体；将所述目标体与候选样例库中维护的样例进行比对分析，提取鉴别性特征；基于鉴别性特征从候选样例库中选择与所述目标体之间满足第二相似度的样例作为对应待输入的图像样本的训练目标样例。其中，第二相似度可以根据检测服务需求进行设定，例如，按照与目标体的相似程度由高到低进行排序，排序前k个的样例满足第二相似度，其中k的取值为正整数。鉴别性特征，指的是同一类目标之间，在颜色、大小等属性特
征方面的差别性特征。例如，目标体可以是安全帽，根据颜色不同选择与目标体满足第二相似度的一个或多个不同颜色的安全帽的样例。本说明书中鉴别性特征的提取可以通过任意的特征提取器实现，例如可以使用对比语言-图像预训练（contrastive language-image pre-training，clip）特征提取器，提取目标体与候选样例库之间的鉴别性特征。
44.应理解，在本说明书实施例中，可以事先根据确定的感兴趣的目标体，采集并生成候选样例库，该候选样例库中可以维护有多个候选子库，每个候选子库对应一类目标体的一个或多个样例图。
45.步骤204：从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本。
46.其中，每个尺度特征是特定分辨率的特征图，多个尺度特征中包含多个不同分辨率的特征图。该步骤204的特征提取过程可以参照图1中网络模型结构，针对图像样本：基于骨干网络从中提取包含多个尺度的第一语义特征样本，在这里，可以选用降采样的多个尺度的特征图作为第一语义特征样本，便于减小后续的计算量。针对训练目标样例：基于共享的骨干网络从中提取一个尺度的第二语义特征样本，例如，将32倍降采样的语义特征图作为第二语义特征样本。
47.步骤206：将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同。
48.具体实现时，可以将第一语义特征样本与第二语义特征样本进行语义相似比对，根据比对结果将第二语义特征中满足第一相似度的特征与所述第一语义特征样本进行特征拼接，得到图像样本的交织特征样本。由于第二语义特征样本是一个尺度的语义特征图，且第一语义特征样本是多个尺度的语义特征图，这样，在进行语义相似比对时，可以对多个细粒度局部特征进行比对分析，从而可以从第一语义特征样本中比对分析出包含多个局部相似特征的比对结果，然后与第一语义特征样本进行特征拼接，得到包含多个局部相似特征的交织特征样本，为后续模型训练提供更为精准的特征，提升模型训练学习效率。
49.步骤208：将所述图像样本的交织特征样本以及图像样本的标注，输入待训练的模型进行训练，得到目标检测模型。
50.之后，基于图1中所示的检测头输入模块，将图像样本的交织特征样本中每个尺度的语义特征分别输入不同的检测头，结合图像样本的标注，对待训练的模型进行训练调试，得到目标检测模型。该模型训练细节可参照已有的transformer模型的训练过程，在此不做过多描述。
51.通过上述技术方案，将从待训练的图像样本中提取的包含多个尺度特征的第一语义特征样本，与从训练目标样例中提取的第二语义特征样本进行语义特征交织，可以保证第一语义特征样本中特征与第二语义特征样本自适应对齐，得到所需图像样本的交织特征样本，然后以该交织特征样本和图像样本的标注作为输入，对待训练的模型进行反复训练，得到目标检测模型。该特征提取过程可以通过自注意机制实现对目标样例的多个细粒度局部特征进行比对，克服了只能对目标样例使用单一的全局特征的局限性，对于局部相似、部分遮挡等目标具有更好的适应性和识别性，从而，提高模型训练效率以及训练精度，保证后续目标检测准确性。
52.在图2a所示的模型训练方案中，训练目标样例可以是一个，参照图2b所示，从训练目标样例提取的第二语义特征样本，可以由3个条纹表示的特征向量组成；从图像样本提取的第一语义特征样本可以由p1（由10个条纹表示）、p2（由6个条纹表示）、p3，这三个尺度的特征向量组成。在进行特征交织时，将第二语义特征样本作为v向量和k向量，将第一语义特征样本作为q向量，进行特征交织计算，具体计算可参照步骤206的相似度比对、比对结果与第一语义特征样本拼接的过程，最终得到交织特征样本。
53.为了适应图像样本中存在较大差异的多个同类目标体，以及充分利用图像样本中标注信息，还可以采用多个目标样例和/或多个目标类别的联合训练方案，从而，可以支持对每个类别同时输入多个目标样例，以及支持图像样本的所有目标类别参与训练。
54.下面就本说明书实施例中多个目标样例（以下用s表示目标样例的语义特征，si表示第i个目标样例的语义特征）和/或多个目标类别（以下用c表示，cm表示第m个目标类别）的联合训练方案进行详述。
55.第一种情况：训练目标样例中包含同一目标类别且顺序排列的多个目标样例。
56.这多个目标样例可以是基于提取的鉴别性特征从候选样例库中选择的满足第二相似度的多个目标样例，并按照相似程度由高到低排序。
57.从训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；将提取的多个目标样例分别对应的语义特征顺序拼接，得到第二语义特征样本。参照图3所示，该第二语义特征样本由i个目标样例拼接得到，即将s1、s2、s3……
si这一二维特征顺序平铺拼接为一维特征。然后，形成一个第二语义特征样本，将该第二语义特征样本按照步骤206的特征交织方式，与第一语义特征样本进行特征交织计算。这样，可以利用多个目标样例之间的互补性，提高目标样例在特征中的表达能力，实现对存在一定差异的同类目标体的协同表达，提升模型训练精度。
58.第二种情况：训练目标样例中包含多个目标样例，每个目标样例对应不同目标类别。
59.从所述训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征作为对应目标样例所属目标类别的语义特征；将分属不同目标类别的语义特征汇总为第二语义特征样本。之后，将所述第一语义特征样本分别与所述第二语义特征样本中不同目标类别对应的语义特征进行特征交织，得到分属不同目标类别的多个子交织特征样本；将所述多个子交织特征样本作为所述图像样本的交织特征样本。参照图4所示，训练目标样例包含有m个目标类别，每个目标类别包含一个目标样例，这样：第一个目标类别c1对应语义特征s
11
，第二个目标类别c2对应语义特征s
21
，第m个目标类别cm对应语义特征s
m1
；如图4所示，将每个目标类别对应的语义特征分别与第一语义特征样本进行特征交织，具体交织方式可参照步骤206，得到m个子交织特征样本，然后将这m个子交织特征样本作为图像样本的交织特征样本。交织特征样本中，每个子交织特征样本都可以与其它子交织特征样本并行参与模型训练学习，同时，图像样本的第一语义特征样本可以在多个目标类别之间共享，提高模型训练效率以及标注的利用率。
60.第三种情况：训练目标样例中存在多个目标类别，且每个目标类别对应有一个或多个目标样例。
61.从所述训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特
征；将属于同一目标类别的目标样例对应的语义特征进行拼接作为该目标类别的语义特征；将分属不同目标类别的语义特征汇总为第二语义特征样本；之后，将所述第一语义特征样本分别与所述第二语义特征样本中不同目标类别对应的语义特征进行特征交织，得到分属不同目标类别的多个子交织特征样本；将所述多个子交织特征样本作为所述图像样本的交织特征样本。参照图5所示，训练目标样例包含有m个目标类别，有的目标类别包含一个目标样例，有的目标类别包含多个目标样例；这样：第一个目标类别c1对应语义特征s
11
、s
12
、s
13
……s1i
，第二个目标类别c2对应语义特征s
21
、s
22
、s
23
……s2i
，第m个目标类别cm对应语义特征s
m1
、s
m2
、s
m3
……smi
；针对每个目标类别，将该目标类别对应的语义特征拼接为一维语义特征，然后，将每个目标类别对应的一维语义特征分别与第一语义特征样本进行特征交织，具体交织方式可参照步骤206，得到m个子交织特征样本，然后将这m个子交织特征样本作为图像样本的交织特征样本。交织特征样本中，每个子交织特征样本都可以与其它子交织特征样本并行参与模型训练学习，同时，图像样本的第一语义特征样本可以在多个目标类别之间共享，提高模型训练效率以及标注的利用率。
62.应理解，在确定训练目标样例中目标样例时，可以针对每个目标类别选取相同个数的目标样例，即每个目标类别中包含的目标样例个数相同。如果无法选取相同个数的目标样例，也可以在提取语义特征后，为每个目标类别的语义特征进行补齐，例如，训练目标样例中有两类目标类别，其中一个目标类别包含7个目标样例，可以提取7个语义特征，另一个目标类别包含6个目标样例，可以提取6个语义特征，为了保证特征对齐，可以在不足7个的目标样例对应的语义特征中使用0进行特征补齐。
63.通过采用多个目标样例和/或多个目标类别的联合训练方案，可以同时让同一个目标类别的多个目标样例或者多个目标类别的目标样例参与模型训练，这种并行训练的方式可提高学习训练效率。其实，在模型训练阶段，还可以采用数据增强策略、损失函数的选择等可选方案对模型训练方案进行改善，以及采用模型微调、增量学习、模型蒸馏等手段对模型进行优化；提升图1所示网络模型的兼容性和实用性。
64.在通过上述模型训练方式得到目标检测模型之后，可针对检测服务感兴趣的目标体进行目标检测，即使用该目标检测模型进行推理预测。
65.参照图6所示，为本说明书实施例提供的一种开放域目标检测方法的步骤示意图，该开放域目标检测方法可以包括以下步骤：步骤602：获取待检测图像以及检测目标样例。
66.待检测图像是根据检测服务提供的检测对象，该待检测图像可能包含有检测服务希望检测出的目标体。检测目标样例，可以是检测服务中感兴趣的目标体的样例。其中，检测目标样例与训练阶段使用的训练目标样例中可以存在部分相同的目标样例，也可以存在不同的目标样例。
67.步骤604：从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征。
68.该步骤的具体实现以及效果可参照步骤204以及图1所示网络模型结构中特征提取模块的操作。区别在于，步骤204提取的是第一语义特征样本和第二语义特征样本，用于模型训练。而步骤604提取的是第一语义特征和第二语义特征，用于模型推理。
69.步骤606：将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检
测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同。
70.具体地，可以将所述第一语义特征与所述第二语义特征进行语义相似比对，根据比对结果将第二语义特征中满足第一相似度的特征与所述第一语义特征进行特征拼接，得到交织特征。
71.步骤608：将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模型是基于步骤202-步骤208的模型训练方法训练得到。
72.在模型推理阶段，检测目标样例中目标样例的数目n可以大于等于训练目标样例中目标样例的数目i。一般情况下，i《n。
73.检测目标样例中包含同一目标类别的多个目标样例，这样，可以从所述检测目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；基于所述目标检测模型训练时，该目标类别的目标样例拼接的语义特征个数作为分组单位，将提取的多个语义特征划分为至少一个分组，并将每个分组中包含的语义特征顺序拼接作为该分组的语义特征；将所述至少一个分组对应的语义特征汇总为第二语义特征。将所述第一语义特征分别与所述第二语义特征中每个分组的语义特征进行特征交织，得到不同分组的多个子交织特征；将所述多个子交织特征作为所述待检测图像的交织特征。
74.参照图7所示，由于模型训练阶段，训练目标样例提取的语义特征是以i为单位进行拼接的，因此，为了保证推理阶段与训练阶段时的特征大小一致，可以将检测目标样例包含的n个目标样例对应的语义特征以i为分组单位，划分为多个分组（假设得到x个分组），并针对每个分组，对该分组内的语义特征进行顺序拼接得到对应该分组的语义特征，将每个分组对应的语义特征分别与第一语义特征（三个尺度特征图p1、p2、p3）进行特征交织，具体交织方式可参照训练阶段的步骤206。将得到的x个子交织特征并行输入目标检测模型，得到对应不同检测头的检测结果。由于共享待检测图像的多尺度特征，且得到的多个子交织特征并行输入计算，不必一个子交织特征完成之后再执行下一个子交织特征的计算方式，每个待检测图像只需要一次推理输入即可完成所有检测目标样例的检测，可以减少冗余计算，提升检测效率和速度。
75.检测目标样例中包含不同目标类别的多个目标样例，这样，可以从所述检测目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；针对每个目标类别分别执行：基于所述目标检测模型训练时，该目标类别的目标样例拼接的语义特征个数作为分组单位，将提取的多个语义特征划分为至少一个分组，并将每个分组中包含的语义特征顺序拼接作为该分组的语义特征；将不同目标类别划分得到的至少一个分组的语义特征汇总为第二语义特征。将所述第一语义特征分别与所述第二语义特征中每个分组的语义特征进行特征交织，得到不同分组的多个子交织特征；将所述多个子交织特征作为所述待检测图像的交织特征。
76.参照图8所示，假设检测目标样例存在y类感兴趣的目标样例，每类有zu（u=1,2,
…
,y）个目标样例。对每一类先按照i个目标样例的语义特征为一组进行分组，每类得到zu/i个分组。将所有的类别分组以组为单位进行拼接，得到图8所示的多个目标类别的语义特征，每个目标类别中包含多个分组，每个分组对应一个由i个语义特征拼接而成的一维语
义特征。然后将每个目标类别中的每个分组分别与第一语义特征（多尺度特征图p1、p2、p3）进行特征交织，得到多个子交织特征，将每个子交织特征输入后续的检测头得到对应组别的检测结果。所有组别共享多尺度特征，避免了骨干网络的重复计算，提升检测效率和速度。
77.对于图7和图8中的每组子交织特征的检测结果,由于每组的子交织特征均来自同一类别，因此该类别也是输出框的类别。最后对所有组别的输出框按照类别执行非最大抑制（nonmaximun suppression，nms）合并，得到最终的检测结果。
78.其实，本说明书实施例主要涉及针对开放域的目标检测模型的训练以及应用。在训练阶段，需要采集足够多的图像样本，且为了保证训练模型具有较强的泛化和普适性，图像样本所涉及的类别以及服务领域应当尽量充分，且图像样本的来源可以与服务领域所涉及应用场景接近。例如，模型主要服务于监控场景，则可以获取较多监控视角的图像画面，再如，模型主要服务于终端认证识别，则可以获取较多手机拍摄的照片等。在将训练完成的目标检测模型部署于服务场景时，只需要收集少量的感兴趣目标体（包含新增类别目标体）的代表性样例作为检测目标样例，参与到后续的目标检测过程中，即可执行相似目标的检测，不需要对新增类别进行模型再学习，有效提升开放域模型训练效率以及目标检测效率。
79.下面参照图9所示的流程框架图对模型训练以及推理流程进行简述。
80.训练阶段首先，确定图像样本和训练目标样例。
81.准备待训练的图像样本集，标注每个图像样本中感兴趣目标体的目标框和类别。同时，利用特征提取器提取每个目标体的鉴别性特征，对每个标注框利用其鉴别性特征关联其他图像样本中最相似的topk个目标，并保存这些目标样例作为训练目标样例。其中，默认图1所示的网络模型结构已创建，并部署有数据加载、模型预测、损失计算、参数更新的训练流程。同时，设定每张图像样本的目标类别，每个目标类别包含的训练目标样例数目，每个分组的目标样例数目，并构建对应的学习目标=(gt_bboxes,gt_labels).其中gt_bboxes是同类目标的目标框，gt_labels是一个0/1二分类标签，代表正/负。
82.然后，提取第一语义特征样本和第二语义特征样本。
83.按照步骤204的方式对图像样本和训练目标样例提取深层特征图。
84.其次，第一语义特征样本与第二语义特征样本交织。
85.按照分组对检测目标样例的深层语义特征进行平铺与拼接构成一组kv池，然后按照步骤206的方法对多尺度特征与每组kv池执行特征交织的计算操作，交织后的特征与原多尺度特征拼接得到交织特征。
86.之后，输入交织特征进行模型训练。
87.交织特征输入多尺度检测头，输出每组检测目标样例的预测结果。对每组检测目标样例的预测结果根据其目标计算相应的预测损失，并通过梯度反向传递更新模型参数。如此对训练数据迭代足够的轮次，直至模型收敛，得到训练好的目标检测模型。
88.检测阶段首先，确定待检测图像和检测目标样例。
89.然后，提取第一语义特征和第二语义特征。
90.其次，第一语义特征与第二语义特征交织。
91.之后，输入交织特征进行目标检测。
92.对每个待检测图像的各个分组的预测结果，执行类别层面的nms合并，并对合并后的目标框赋予对应的类别标签，至此完成目标检测。
93.该模型训练方案以及目标检测方案可以灵活使用在各类目标检测服务系统中，为目标检测服务系统所在场景提供更为可靠高效的目标检测服务。
94.参照图10所示，为本说明书实施例提供的一种模型训练装置，该装置1000可以包括：获取模块1002，用于获取待训练的图像样本集以及训练目标样例；提取模块1004，用于从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本；交织模块1006，用于将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同；训练模块1008，将所述图像样本的交织特征样本以及图像样本的标注数据，输入待训练的模型进行训练，得到目标检测模型。
95.可选地，作为一个实施例，所述交织模块1006在将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本时，具体用于将所述第一语义特征样本与所述第二语义特征样本进行语义相似比对，根据比对结果将第二语义特征中满足第一相似度的特征与所述第一语义特征样本进行特征拼接，得到图像样本的交织特征样本。
96.在本说明书实施例的一种具体实现方式中，所述提取模块1004在获取训练目标样例时，具体用于从待训练的图像样本集确定待输入的图像样本，并从待输入的图像样本中确定目标体；将所述目标体与候选样例库中维护的样例进行比对分析，提取鉴别性特征；基于鉴别性特征从候选样例库中选择与所述目标体之间满足第二相似度的样例作为对应待输入的图像样本的训练目标样例。
97.在本说明书实施例的再一种具体实现方式中，所述训练目标样例中包含同一目标类别且顺序排列的多个目标样例；所述提取模块1004在从所述训练目标样例中提取第二语义特征样本时，具体用于从所述训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；将提取的多个目标样例分别对应的语义特征顺序拼接，得到第二语义特征样本。
98.在本说明书实施例的再一种具体实现方式中，所述训练目标样例中包含多个目标样例，每个目标样例对应不同目标类别；所述提取模块1004在从所述训练目标样例中提取第二语义特征样本时，具体用于从所述训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征作为对应目标样例所属目标类别的语义特征；将分属不同目标类别的语义特征汇总为第二语义特征样本。以及，所述交织模块1006在将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本时，具体用于将所述第一语义特征样本分别与所述第二语义特征样本中不同目标类别对应的语义特征进行特征交织，得到分属不同目标类别的多个子交织特征样本；将所述多个子交织特征样本作为所述图像样本的交织特征样本。
99.在本说明书实施例的再一种具体实现方式中，所述训练目标样例中存在多个目标类别，且每个目标类别对应有一个或多个目标样例；所述提取模块1004在从所述训练目标样例中提取第二语义特征样本时，具体用于从所述训练目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；将属于同一目标类别的目标样例对应的语义特征进行拼接作为该目标类别的语义特征；将分属不同目标类别的语义特征汇总为第二语义特征样本。以及，所述交织模块1006在将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本时，具体用于将所述第一语义特征样本分别与所述第二语义特征样本中不同目标类别对应的语义特征进行特征交织，得到分属不同目标类别的多个子交织特征样本；将所述多个子交织特征样本作为所述图像样本的交织特征样本。
100.参照图11所示，为本说明书实施例提供的一种开放域目标检测装置，该装置1100可以包括：获取模块1102，用于获取待检测图像以及检测目标样例；提取模块1104，用于从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征；交织模块1106，用于将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同；检测模块1108，用于将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模型是基于图1-图5所描述的模型训练方法训练得到。
101.可选地，作为一个实施例，所述交织模块1106在将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征时，具体用于将所述第一语义特征与所述第二语义特征进行语义相似比对，根据比对结果将第二语义特征中满足第一相似度的特征与所述第一语义特征进行特征拼接，得到交织特征；其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同。
102.在本说明书实施例的一种实现方式中，所述检测目标样例中包含同一目标类别的多个目标样例；所述提取模块1104在从所述检测目标样例中提取第二语义特征时，具体用于从所述检测目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；基于所述目标检测模型训练时，该目标类别的目标样例拼接的语义特征个数作为分组单位，将提取的多个语义特征划分为至少一个分组，并将每个分组中包含的语义特征顺序拼接作为该分组的语义特征；将所述至少一个分组对应的语义特征汇总为第二语义特征。
103.在本说明书实施例的再一种实现方式中，所述检测目标样例中包含不同目标类别的多个目标样例；所述提取模块1104在从所述检测目标样例中提取第二语义特征时，具体用于从所述检测目标样例包含的多个目标样例中，分别提取每个目标样例的语义特征；针对每个目标类别分别执行：基于所述目标检测模型训练时，该目标类别的目标样例拼接的语义特征个数作为分组单位，将提取的多个语义特征划分为至少一个分组，并将每个分组中包含的语义特征顺序拼接作为该分组的语义特征；将不同目标类别划分得到的至少一个分组的语义特征汇总为第二语义特征。
104.在本说明书实施例的再一种实现方式中，所述交织模块1106在将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征时，具体用于将所述第一语义特征分别与所述第二语义特征中每个分组的语义特征进行特征交织，得到不同分组的多个子交织特征；将所述多个子交织特征作为所述待检测图像的交织特征。
105.通过以上技术方案，将从待训练的图像样本中提取的包含多个尺度特征的第一语义特征样本，与从训练目标样例中提取的第二语义特征样本进行语义特征交织，可以保证第一语义特征样本中特征与第二语义特征样本自适应对齐，得到所需图像样本的交织特征样本，然后以该交织特征样本和图像样本的标注作为输入，对待训练的模型进行反复训练，得到目标检测模型。该特征提取过程可以通过自注意机制实现对目标样例的多个细粒度局部特征进行比对，克服了只能对目标样例使用单一的全局特征的局限性，对于局部相似、部分遮挡等目标具有更好的适应性和识别性，从而，提高模型训练效率以及训练精度，保证后续目标检测准确性。
106.图12是本说明书的一个实施例电子设备的结构示意图。请参考图12，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(random-access memory，ram)，也可能还包括非易失性存储器（non-volatile memory），例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。
107.处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是isa(industry standard architecture，工业标准体系结构）总线、pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构）总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
108.存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。
109.处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成模型训练装置或开放域目标检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：获取待训练的图像样本集以及训练目标样例；从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本；将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同；将所述图像样本的交织特征样本以及图像样本的标注数据，输入待训练的模型进行训练，得到目标检测模型。或者，获取待检测图像以及检测目标样例；从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征；将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同；将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模
型是基于模型训练装置所执行的模型训练方法训练得到。
110.上述如本说明书图1-图9所示实施例揭示的装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器（central processing unit，cpu）、网络处理器（network processor，np）等；还可以是数字信号处理器（digital signal processor，dsp）、专用集成电路（application specific integrated circuit，asic）、现场可编程门阵列（field－programmable gate array，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
111.该电子设备还可执行图1-图9的方法，并实现相应装置在图1-图9所示实施例的功能，本说明书实施例在此不再赘述。
112.当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。
113.本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1-图9所示实施例的方法，并具体用于执行以下方法：获取待训练的图像样本集以及训练目标样例；从所述待训练的图像样本集包含的每个图像样本中提取包含多个尺度特征的第一语义特征样本，以及从所述训练目标样例中提取第二语义特征样本；将所述第一语义特征样本与所述第二语义特征样本进行语义特征交织，得到图像样本的交织特征样本，其中，所述交织特征样本包含尺度特征的个数与所述第一语义特征样本包含尺度特征的个数相同；将所述图像样本的交织特征样本以及图像样本的标注数据，输入待训练的模型进行训练，得到目标检测模型。或者，获取待检测图像以及检测目标样例；从所述待检测图像中提取包含多个尺度特征的第一语义特征，以及从所述检测目标样例中提取第二语义特征；将所述第一语义特征与所述第二语义特征进行语义特征交织，得到待检测图像的交织特征，其中，所述交织特征包含尺度特征的个数与所述第一语义特征包含尺度特征的个数相同；将所述交织特征输入目标检测模型，基于输出的预测结果对所述待检测图像进行目标检测，其中，所述目标检测模型是基于模型训练装置所执行的模型训练方法训练得到。
114.总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。
115.上述一个或多个实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
116.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
117.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
118.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
119.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪鼎李鹏王炎
技术所有人：浙江莲荷科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。