图像描述模型的训练和描述方法、系统、设备及存储介质

文档序号：31711503发布日期：2022-10-04 19:20阅读：34来源：国知局

1.本发明涉及图像识别技术领域，具体涉及图像描述模型的训练和描述方法、系统、设备及存储介质。

背景技术：

2.在很多现实场景中，一般的视觉任务例如图像识别、目标检测、图像平移等，总是面临着来自视角、光照、背景、遮挡物、场景变换等方面的严峻挑战。这些不可避免的因素使这些领域转移环境下的任务成为近年来一个具有挑战性和新兴的研究方向。在视频监控、自动驾驶等现实任务中，领域的变换也是一个被广泛认可且迫切需要突破的问题，因此，为了推动这一领域的发展，亟需进行大规模的跨领域基准测试。
3.目前，现有技术中常用的跨域自适应目标检测(cross-domain objectdetection)目的是在领域移动的情况下学习特征相关表示，其中训练数据(源域)是带有包围框标注的丰富标签，而测试数据(目标域)的标签是较少或者没有。源域和目标域之间的特征分布不同，导致训练好的模型泛化性较差，通过在训练过程中对齐两个域的分布，使源域的标签监督对目标域更具有可共享性，从而获得具有增强泛化能力的检测器。然而在域自适应中存在两大难点：第一，域差异无法消除，性能急剧下降，导致无法收敛，所以在源域上训练的分类器不能直接运用到目标域；第二，我们无法得知源域类别空间中的何种部分与目标域类别空间共享特征，因为目标域类别空间在训练中无法访问。
4.因此，需要提供图像描述模型的训练和描述方法、系统、设备及存储介质，以解决上述问题。

技术实现要素：

5.鉴于以上现有技术的缺点，本发明的目的在于提供一种图像描述模型的训练和描述方法、系统、设备及存储介质，以改善现有技术中，由于跨域自适应目标检测方法训练的分类器无法消除域差，分类器在训练中无法对齐源域和目标域的共同特征，致使训练出的分类器无法对目标域图像有效识别的技术问题。
6.为实现上述目的及其它相关目的，本发明提一种跨域图像描述模型的训练方法，包括以下过程：
7.获取训练集，所述训练集包括带有标签的源域图像和不带标签的目标域图像；
8.获取跨域图像描述模型，所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块；
9.基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练，获得训练好的所述跨域图像描述模型，所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
10.在本发明一实施例中，本发明还提供一种跨域图像描述的识别方法，所述跨域图像描述的识别方法采用上述任意一项实施例所述跨域图像描述模型的训练方法训练得到
的跨域图像描述模型，所述跨域图像描述的识别方法包括：
11.获取图像数据；
12.将所述图像数据输入所述跨域图像描述模型，获取所述图像数据的目标识别结果。
13.在本发明一实施例中，本发明还提供一种跨域图像描述模型的训练系统，所述系统包括：
14.数据获取单元，用于获取训练集，所述训练集包括带有标签的源域图像和不带标签的目标域图像；
15.模型调用单元，用于获取跨域图像描述模型，所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块；
16.联合训练单元，基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练，获得训练好的所述跨域图像描述模型，所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
17.在本发明一实施例中，还提供一种计算机设备，包括处理器，所述处理器与存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的方法。
18.在本发明一实施例中，还提供一种计算机可读存储介质，包括程序，当所述程序在计算机上运行时，使得计算机执行上述中任一项所述的方法。
19.本发明中，图像描述模型的训练和描述方法、系统、设备及存储介质，将风格化嵌入对比学习和目标识别，通过对源域图像和目标域图像进行风格化处理，使源域图像带有目标域图像风格，在保留源域图像内容结构的同时消除了域差，从而在对比学习中无域差最大化源域图像和目标域图像中特征的相似性，保证目标识别时可利用源域图像的标签信息来对目标域图像中的识别目标进行准确的定位和分类，获得对目标场景图像的较好的描述结果。
20.综上所述，图像描述模型的训练和描述方法、系统、设备及存储介质，能够最大化减小对比损失以及源域和目标域之间的差异，有效提升了不同域下的检测能力，不需对人工采集的目标域图像进行标注，便能实现对目标域图像进行描述。采用本发明的技术方案，能够有效解决当前数据量大，标签信息无法及时有效标注，用技术手段降低人工标注成本的问题，完成跨域的目标检测任务，提升目标识别的准确度。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1为本发明一实施例中跨域图像描述模型的整体框架图；
23.图2为本发明一实施例中风格迁移模块对源域图像风格迁移的过程图；
24.图3为本发明一实施例中对比学习模块对训练集中图像对比学习提取相似特征的过程图；
25.图4为本发明一实施例中目标检测模块对训练集中图像识别的过程图；
26.图5为本发明一实施例中目标检测模块的ssd框架示意图；
27.图6为本发明一实施例中跨域图像描述模型的训练方法的流程示意图；图7为本发明一实施例中步骤s3的流程示意图；
28.图8为本发明一实施例中步骤s32的流程示意图；
29.图9为本发明一实施例中步骤s33的流程示意图；
30.图10为本发明一实施例中步骤s34的流程示意图；
31.图11为本发明一实施例中跨域图像描述模型的训练系统的结构框图。
32.元件标号说明：
33.10、跨域图像描述模型的训练系统；11、数据获取单元；12、模型调用单元；13、联合训练单元。
具体实施方式
34.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法，通常按照常规条件，或者按照各制造商所建议的条件。
35.请参阅图1至图10。须知，本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一
”ꢀ
等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
36.当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
37.请参见图1至图6，本发明的目的在于提供一种图像描述模型的训练和描述方法、系统、设备及存储介质，以改善现有技术中，由于跨域自适应目标检测方法训练的分类器无法消除域差，分类器在训练中无法对齐源域和目标域的共同特征，致使训练出的分类器无法对目标域图像有效识别的技术问题。
38.请参见图1至图4，基于本发明训练方法训练的图像描述模型，在模型中嵌入风格化网络，将风格化嵌入对比学习，最大化减小对比损失以及源域和目标域之间的差异，有效提升了不同域下的检测能力，减少人工标注数据的成本和时间。
39.请参阅图1至图6，图6显示为本发明一实施例中跨域图像描述模型的训练方法的流程示意图。在本发明一实施例中，提供一种跨域图像描述模型的训练方法，包括以下过程：
40.步骤s1、获取训练集，并对训练集中的图像进行预处理；其中，所述训练集包括带有标签的源域图像和不带标签的目标域图像，所述预处理包括将训练集中全部图像裁剪至224
×
224大小；具体地，所述目标域图像是通过摄像机在目标场景拍摄采集获得，所述源域图像从现有数据集中选取，并通过对应的工具包对选取的源域图像进行标注，以获得带有标签的源域图像。例如，在一实施例中，所述目标域图像是通过摄像机在真实交通场景下拍摄的日常状态图像，具体是通过在交通环境路面上安装静态工业摄像机拍摄来采集该交通场景下日常状态视频流数据，然后按照预设时间间隔选取视频流数据中的关键帧并保存以获得目标域图像；所述源域图像则是从当前流行的数据集cityscapes中获取的图像，并采用pycocotools包对获取的图像进行标注，从而获得带有标签的源域图像；其中，在本实施例中所采用的数据集cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train，500val，1525test)，具有19个类别的密集像素标注(97％coverage)，其中8个具有实例级分割。该大型数据集包含来自50个不同城市的街道场景中记录的多种立体视频序列，集中于对城市街道场景的语义理解图片数据集。
41.步骤s2、获取跨域图像描述模型，所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块；
42.所述风格迁移模块，可用于对输入的源域图像和目标域图像进行风格迁移，用于将源域图像风格化为带有目标域图像风格的图像，具体为保留源域图像的内容特征，将源域图像的风格特征，例如纹理、色彩等特征，迁移为目标域图像的风格特征，获得带有目标域风格的源域图像，从而有效减少源域图像和目标域图像的域差。
43.所述对比学习模块，对目标域图像和带有目标域图像风格的源域图像进行自监督的对比学习比对，将源域图像和目标域图像的特征对齐，从而对源域图像和目标域图像进行分类，并基于源域图像带有的标签为同类的目标域图像打上伪标签。其中，所述对比学习模块采用由imagenet数据集训练vgg19(visualgeometrygroupnetwork，视觉几何群网络)网络模型。
44.所述目标检测模块，用于对目标域图像和带有目标域图像风格的源域图像进行目标识别，基于源域图像带有的标签和目标域图像带有的伪标签，获得目标域图像和带有目标域图像风格的源域图像中目标的定位信息和分类信息，完成对目标域风格场景下图像的目标识别。其中，目标检测模块的采用基于ssd算法(singleshotmultiboxdetector，单激发多框探测器)的目标识别框架，与传统的fastrcnn(fastregionswithcnnfeatures，快速的基于区域的卷积网络方法)相比，该算法没有生成regionproposal的过程，因此极大提高了检测速度。
45.如图4和图5所示，ssd的默认基础网络是vgg16(visualgeometrygroupnetwork，视觉几何群网络)，vgg16网络由2个conv1_x卷积层、2个conv2_x、3个conv3_x、3个conv4_x、3个conv5_x以及5个平均池化层组成，最后3层是一个全连接层，包含卷积核1*1，且数量为4096；所述conv1_x、conv2_x、conv3_x、conv4_x、conv5_x为四种不同大小残差块，详细结构如下所述：
46.conv1_x有两个卷积层，其中包含卷积核3*3，且数量为64，输入图像： 224*224*3，卷积后大小：224*224*64；
47.pool1包含卷积核3*3，且数量为64，输入图像：224*224*64，卷积后大小：112*112*64；
48.conv2_x有两个卷积层，其中包含卷积核3*3，且数量为128，输入图像： 112*112*64，卷积后大小：112*112*128；
49.pool2包含卷积核2*2，且数量为128，输入图像：112*112*128，卷积后大小：56*56*128；
50.conv3_x有三个卷积层，其中包含卷积核3*3，且数量为256，输入图像： 56*56*128，卷积后大小：56*56*256；
51.pool3包含卷积核2*2，且数量为256，输入图像：56*56*256，卷积后大小：28*28*256；
52.conv4_x有三个卷积层，其中包含卷积核3*3，且数量为256，输入图像： 28*28*256，卷积后大小：28*28*512；
53.pool4包含卷积核2*2，且数量为512，输入图像：28*28*512，卷积后大小：14*14*512；
54.conv5_x有三个卷积层，其中包含卷积核3*3，且数量为512，输入图像： 14*14*512，卷积后大小：14*14*512；
55.pool5包含卷积核2*2，且数量为512，输入图像：14*14*512，卷积后大小：7*7*512。
56.由上述内容可知，本发明中跨域图像描述模型，通过风格迁移模块将源域图像风格迁移为目标域图像风格，从而消除源域图像与目标域图像的域差，以便于对比学习模块在自监督对比学习中获取无域差的源域图像目标域图像的相似特征，基于特征对齐利用源域图像的标签为目标域图像打上准确的伪标签，最终在目标检测模块基于伪标签分类完成对目标域图像中目标的准确识别，有效实现了利用已有源域图像的标签分类对目标域风格图像的有效描述。该跨域图像描述模型在现实应用中解决突破了传统的交通场景车辆行人检测中存在大量人工检查、环境复杂(视角、光照、背景、遮挡物、场景变换等方面)引起的肉眼观测的误判、传统监控设备无法提供有效的状态信息等问题，提高了系统检测一般场景中物体的准确率。
57.步骤s3、基于所述训练集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练，获得训练好的所述跨域图像描述模型，所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
58.具体地，将所述训练集输入所述跨域图像描述模型，获得所述风格迁移模块、对比学习模块和目标检测模块的损失函数，计算得到所述跨域图像描述模型总损失函数；
59.采用小批量随机梯度下降的方式，将所述训练集按批次输入所述风格迁移模块、对比学习模块和目标检测模块进行迭代训练，通过迭代训练使所述总损失函数最小化，使跨域图像描述模型能够缩小风格化后带有目标域风格的源域图像与目标域图像的域差，保证模型有效利用源域图像的标签来对目标域图像进行分类，从而使跨域图像描述模型能够完成对不同场景下图像中识别目标的准确定位和分类，以获得训练好的跨域图像描
述模型。
60.在本发明一实施例中，使用权重衰减为0.0005，动量为0.9的小批量随机梯度下降的方式对跨域图像描述模型进行训练，通过多批次的小批量样本对跨域图像描述模型进行迭代训练，对跨域图像描述模型内的参数进行微调直至收敛，从而使跨域图像描述模型的总损失函数最小化。其中，迭代过程遵循相同学习速率，每批次样本在模型中迭代训练50次，使得模型学习率η
p
依据公式从初始学习率η0线性调整增加到1。
61.进一步，请参见图1和图7，所述步骤s3中将训练集输入跨域图像描述模型，获得跨域图像描述模型的总损失函数包括以下过程：
62.s31、将所述训练集输入所述跨域图像描述模型；
63.s32、通过所述风格迁移模块对所述源域图像进行风格迁移，将所述训练集中源域图像的风格迁移为目标域图像风格，根据带有目标域图像风格的源域图像与所述源域图像和目标域图像的比对，获得所述风格迁移模块的第一损失函数l
neural
；
64.s33、通过所述对比学习模块的自监督对比学习，获得所述训练集中图像的相似特征，比对特征获取所述对比学习模块的第二损失函数l
nce
，并基于所述源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签；
65.s34、通过所述目标检测模块对所述训练集的图像进行目标识别，获得对所述具有目标域图像风格的源域图像和目标域图像的目标识别结果，根据所述目标识别结果确定所述目标检测模块的第三损失函数l
ssd
；
66.s35、获得所述跨域图像描述模型的总损失函数l
total
，所述总损失函数l
total
为所述第一损失函数l
neural
、第二损失函数l
nce
和第三损失函数l
ssd
之和，公式表示为l
total
＝l
neural
+l
nce
+l
ssd
。
67.请参见图2和图8，在本发明一实施例中，所述步骤s32包括以下过程：
68.s321、将所述训练集进行分组，使训练集中的全部图像均分为多个迁移组，其中，每个所述迁移组内包括种类相近的一个源域图像和目标域图像；
69.s322、通过风格迁移模块从所述迁移组的目标域图像中提取风格特征图像，具体为利用风格迁移模块中卷积神经网络架构的多个卷积层对目标域图像进行风格特征的提取，从而获得来源于迁移组内一张目标域图像i
p
的多张风格特征图像φ
l
(i
p
)，其中φ
l
(i
p
)表示为目标域图像i
p
在第l卷积层提取的风格特征图像；
70.s323、通过风格迁移模块从同一所述迁移组的源域图像中提取内容特征图像，具体为利用风格迁移模块中卷积神经网络架构的多个卷积层对源域图像进行内容特征的提取，从而获得来源于迁移组内一张源域图像is的多张内容特征图像φ
l
(is)，其中φ
l
(is)表示为源域图像is在第l卷积层提取的内容特征图像；
71.s324、根据获得的风格特征图像φ
l
(i
p
)和内容特征图像φ
l
(is)生成合成特征图像φ
l
(ic)，基于合成特征图像φ
l
(ic)还原出合成图像，所述合成图像是带有目标域图像风格的源域图像，使用合成图像替换所述训练集中对应的源域图像，并保留源域图像的标签，使得所述训练集中所述源域图像的风格迁移为所述目标域图像的风格；其中，所述合成图像φ
l
(ic)保留源域图像的内容特征，如结构特征，并融合了目标域图像的风格特征，
如纹理、色彩等特征；
72.s325、通过将合成图像与同一迁移组内的源域图像和目标域图像进行比对，计算获得风格迁移模块的第一损失函数l
neural
。所述风格迁移模块的第一损失函数l
neural
为风格迁移过程中的内容损失函数l
content
和风格损失函数l
style
的线性叠加，公式表示为l
neural
＝λ
content
l
content
+λ
style
l
style
，λ
content
和λ
style
分别为内容损失函数和风格损失函数的权重因子。
73.其中，所述风格损失函数l
style
通过合成图像和目标域图像比对获得，定义为带有所述目标域图像风格的源域图像之间的风格特征之差，具体为风格迁移模块中各个卷积层获得的合成特征图像和目标域风格图像的gram矩阵之差的累加求和，公式表示为其中，γ
l
为第l卷积层的超参数控制层系数因子；为第l卷积层获得的合成特征图像φ
l
(ic)的gram矩阵，可由合成特征图像φ
l
(ic)根据公式计算获得；为第l卷积层从目标域图像i
p
获得的风格特征图像φ
l
(i
p
)的gram矩阵，可由风格特征图像φ
l
(i
p
)根据公式计算获得。
74.所述内容损失函数l
content
通过合成图像和初始源域图像比对获得，定义为所述源域图像和带有所述目标域图像风格的源域图像之间的内容特征之差，具体为风格迁移模块中合成特征图像和内容特征图像之差，公式表示为其中，为风格迁移模块中第l卷积层合成的合成特征图像
ꢀꢀ
为风格迁移模块中第l卷积层由初始源域图像is提取的内容特征图像
75.请参见图3和图9，在本发明一实施例中，所述步骤s33包括以下过程：
76.s331、对所述训练集中的图像进行两次锚点增强；
77.s332、选取所述训练集中来源于同一图像的两张锚点图像作为正样本，将其他锚点图像作为负样本；
78.s333、通过对比学习模块的自监督对比学习比对正负样本，计算获得对比学习模块的第二损失函数l
nce
；具体为，通过神经网络的基础编码器f(
·
)，获得扩充锚点图像的表征向量h＝f(x)，然后将正样本和负样本中锚点图像的表征向量h＝f(x)经由神经网络映射头g(
·
)映射到对比损失的同一空间，通过比对正样本和负样本锚点图像在同一空间表征向量h＝f(x)的相似度，获得对比学习模块的第二损失函数l
nce
，最后通过使第二损失函数l
nce
最小化来增强正样本中两个锚点图像的相似性，并拉大正样本中两个锚点图像与负样本中其他锚点图像的差异性，从而获得所述正样本对应训练集中图像的相似特征；其中，基础编码器f(
·
)采用resnet结构。
79.s334、根据所述训练集中图像的相似特征，对所述训练集中的图像进行分类，从而在训练集中基于所述源域图像的标签为具有相同相似特征的所述目标域图像打上伪标签。
80.其中，对比学习模块的第二损失函数l
nce
是通过比自监督学习中的正样本和负样
本的特征差异性获得的，公式表示为其中，sim(.)表示余弦相似函数， q表示为源域样本，k
+
表示正样本，k-表示负样本，τ是超参数，也被称为温度系数。
81.请参见图4和图10，在本发明一实施例中，所述步骤s34包括以下过程：
82.s341、通过所述目标检测模块的卷积神经网络提取所述训练集中图像的特征图(feature map)，获得所述训练集中图像在不同卷积层下提取的特征图；其中，在本实施例中，所述目标检测模块使用基于ssd算法的vgg16神经网络作为编码器，以利用vgg16神经网络中的多个卷积层获得训练集中图像的特征图；
83.s342、使用卷积核对所述特征图进行检测，获取所述训练集的图像中识别目标的定位信息和特征信息，所述定位信息为图像中识别目标定位框的坐标信息，所述特征信息为所述训练集中图像上识别目标的特征信息；其中，所述目标检测模块的采用一系列的小卷积核，如尺寸3
×
3的卷积核或1
×
1的卷积核，对不同卷积层获得的特征图进行检测，来预测图像中识别目标的坐标和类别；由于不同卷积层获得的特征图具有不同的感受野(receptive field)，故而检测过程可视为对不同尺寸的特征图的回归和分类。
84.需要说明的是，在卷积神经网络中，感受野的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小，通常尺寸大的感受野可以提取图像的更大范围的特征。因此，在网络的同一层级上采用多个尺度的卷积核，这些卷积核可以适应多种图像特征并在网络的深层可以得到更好的图像表示。这样做的优点是可以提高网络的自适应能力，而且省去了研究者的一些调优工作。
85.s343、对齐所述训练集中图像的特征信息，基于所述训练集中源域图像的标签和目标域图像的伪标签，获得所述特征信息对应的标签或伪标签，从而获得所述训练集中图像的分类信息；
86.s344、基于所述训练集中图像的定位信息和分类信息，分别计算所述目标检测模块在目标识别过程中的定位损失函数l
loc
和置信度损失函数l
conf
，根据定位损失函数l
loc
和置信度损失函数l
conf
获得所述目标检测模块的第三损失函数l
ssd
；同时采用非极大值抑制(non-maximum suppression，nms)的方式减小第三损失函数l
ssd
，从而筛选出置信度最高的定位信息和分类信息，综合所述定位信息和分类信息获得所述训练集中图像的目标识别结果。
87.所述目标检测模块的第三损失函数l
ssd
为定位损失函数l
loc
和置信度损失函数l
conf
之和，公式表示为公式中，n 表示先验框的正样本数量(正样本代表与边界框(ground truth)匹配的先验框，负样本代表不与边界框(ground truth)匹配的先验框)，α为权重项，通过交叉验证设为1，是一个指示参数，当时表示第i个先验框与第j个对应边界框(ground truth)匹配，p为边界框的类别，c为类别置信度预测值，l为先验框的对应边界框(的位置预测值，而g是边界框的位置参数。
88.其中，所述定位损失函数l
loc
为目标检测模块在目标识别过程获得的先验框与对应边界框(ground truth)的定位误差，该定位误差采用smooth
l1 loss表示，定义如下：公式中，
[0089][0090][0091][0092][0093]
由于的存在，所以定位误差仅针对正样本进行计算，另外要先对边界框 (ground truth)的g进行编码得到因为预测值l也是编码值。
[0094]
而对于置信度损失函数l
conf
则采用softmax loss进行表示，定义如下：其中，
[0095]
请参阅图1和图4,请本发明还提供了一种跨域图像描述方法，采用上述跨域图像描述的训练方法训练得到的跨域图像描述模型，所述跨域图像描述方法包括：
[0096]
获取图像数据，并对图像数据进行预处理，将图像数据调整为跨域图像描述模型中网络输入的大小224
×
224；
[0097]
将所述图像数据输入所述跨域图像描述模型，获取所述图像数据的目标识别结果。
[0098]
请参阅图11，图11显示为本发明一实施例中跨域图像描述模型的训练系统10的结构框图。该跨域图像描述模型的训练系统10包括数据获取单元11、模型调用单元12和联合训练单元13。其中，数据获取单元11用于获取数据集，所述数据集包括带有标签的源域图像和不带标签的目标域图像；模型调用单元 12用于获取跨域图像描述模型，所述跨域图像描述模型包括风格迁移模块、对比学习模块和目标检测模块；联合训练单元13，基于所述数据集对所述风格迁移模块、对比学习模块和目标检测模块进行联合训练，获得训练好的所述跨域图像描述模型，所述跨域图像描述模型基于源域图像的标签分类对具有目标域图像风格的图像进行目标识别。
[0099]
需要说明的是，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，但这并不表明本实施例中不存在其它的模块。
[0100]
此外，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本发
明所提供的实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0101]
作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0102]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0103]
本实施例还提出了一种计算机设备，该设备包括处理器和存储器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现上述任务管理方法。处理器可以是通用处理器，包括中央处理器 (central processing unit，简称cpu)、网络处理器(network processor，简称 np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；所述存储器可能包含随机存取存储器(random access memory，简称ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器可以为随机存取存储器(random access memory，ram)类型的内部存储器，所述处理器、存储器可以集成为一个或多个独立的电路或硬件，如：专用集成电路 (application specific integrated circuit，asic)。需要说明的是，上述的存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
[0104]
本实施例还提出一种计算机可读的存储介质，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行上述的任务管理方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(ram)、只读存储器(rom)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(cd-rom)、光盘-读/写(cd-rw)和dvd。
[0105]
本发明中，图像描述模型的训练和描述方法、系统、设备及存储介质，将风格化嵌入对比学习和目标识别，通过对源域图像和目标域图像进行风格化处理，使源域图像带有目标域图像风格，在保留源域图像内容结构的同时消除了域差，从而在对比学习中无域差最大化源域图像和目标域图像中特征的相似性，保证目标识别时可利用源域图像的标签
信息来对目标域图像中的识别目标进行准确的定位和分类，获得对目标场景图像的较好的描述结果。
[0106]
综上所述，图像描述模型的训练和描述方法、系统、设备及存储介质，能够最大化减小对比损失以及源域和目标域之间的差异，有效提升了不同域下的检测能力，不需对人工采集的目标域图像进行标注，便能实现对目标域图像进行描述。采用本发明的技术方案，能够有效解决当前数据量大，标签信息无法及时有效标注，用技术手段降低人工标注成本的问题，完成跨域的目标检测任务，提升目标识别的准确度。
[0107]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆阳赵明杨帆白婷闻斌张立卫星
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：复眼内窥镜的制作方法
上一篇：超声波CT装置及其控制方法、控制程序产品与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。