图像分割及模型训练的方法、装置及设备与流程

文档序号:33024792发布日期:2023-01-20 19:20阅读:105来源:国知局
图像分割及模型训练的方法、装置及设备与流程

1.本技术涉及计算机技术,尤其涉及一种图像分割及模型训练的方法、装置及设备。


背景技术:

2.图像分割是计算机视觉领域的核心技术,在从自动驾驶到遥感图像分析等广泛应用中发挥着关键作用。由于数据收集和标注成本的限制,目前有多个不同场景下的数据集可用。例如,包含室内、室外和自然场景的ade20k数据集,集中于城市街道场景的cityscapes数据集,用于物体检测、分割的coco或cocostuff数据集等。不同数据集。
3.目前的图像分割方案,大多是基于特定的图数分割任务涉及的场景,选择一个数据集,在单一数据集下训练图像分割模型,导致图像分割模型的泛化能力差、图像分割精准度低。


技术实现要素:

4.本技术提供一种图像分割及模型训练的方法、装置及设备,用以解决图像分割模型的泛化能力差、图像分割精准度低的问题。
5.一方面,本技术提供一种图像分割方法,包括:获取待分割的图像和待选的类目名称;将所述图像和所述类目名称输入图像分割模型,通过所述图像分割模型提取所述图像的图像特征,将所述类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据所述图像特征和所述文本嵌入向量,确定所述图像的位置掩码及所述位置掩码对应的类目信息;输出所述图像的位置掩码及所述位置掩码对应的类目信息,其中,所述位置掩码指示所述图像中的分割区域,所述位置掩码对应的类目信息指示所述图像中分割区域的类目信息。
6.另一方面,本技术提供一种图像分割模型训练方法,包括:获取多个数据集和所述数据集的待选类目名称,所述数据集包含样本图像和所述样本图像的图像分割标注结果,所述图像分割标注结果包括所述样本图像的位置掩码及所述位置掩码对应的类目信息;将所述样本图像和所述样本图像所在数据集的待选类目名称,输入待训练的图像分割模型,通过所述图像分割模型提取所述样本图像的图像特征,将所述待选类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据所述图像特征和所述文本嵌入向量,确定图像分割预测结果,所述图像分割预测结果包括所述样本图像的位置掩码的预测结果、及所述位置掩码对应的类目信息的预测结果;根据所述样本图像的图像分割预测结果和图像分割标注结果计算损失,并训练所述图像分割模型的模型参数,以得到训练好的图像分割模型;其中,训练好的图像分割模型用于对输入图像进行图像分割,确定所述输入图像的位置掩码及所述位置掩码对应的类目信息。
7.另一方面,本技术提供一种遥感图像分割方法,包括:获取待分割的遥感图像和待选的地物类目名称;将所述遥感图像和所述地物类目名称输入图像分割模型,通过所述图像分割模型提取所述遥感图像的图像特征,将所述地
物类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据所述图像特征和所述文本嵌入向量,确定所述遥感图像的位置掩码及所述位置掩码对应的地物类目信息;输出所述遥感图像的位置掩码及所述位置掩码对应的地物类目信息,其中,所述位置掩码指示所述图像中的分割区域,所述位置掩码对应的地物类目信息指示所述图像中分割区域的地物类目信息。
8.另一方面,本技术提供一种云服务器,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现上述任一方面所述的方法。
9.另一方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述任一方面所述的方法。
10.本技术提供的图像分割及模型训练的方法、装置及设备,通过将图像分割场景/任务的待选类目名称,与图像一起输入图像分割模型,图像分割模型自动将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量,并提取图像的图像特征,根据图像特征和文本嵌入向量进行图像分割,得到图像的位置掩码及位置掩码对应的类目信息,无需手动建立统一的类目名称和类目表示空间,即可适用于使用不同类目体系的多种图像分割场景/任务,提高了图像分割模型泛化能力和鲁棒性,提高了图像分割的精准度。
附图说明
11.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
12.图1为本技术所基于的一种图像分割的系统架构的示意图;图2为本技术一示例性实施例提供的图像分割方法的流程图;图3为本技术一示例性实施例提供的图像分割模型的框架图;图4为本技术一示例性实施例提供的分类引导解码层的结构示意图;图5为本技术一示例性实施例提供的图像分割方法的详细流程图;图6为本技术一示例性实施例提供的遥感图像分割方法的流程图;图7为本技术一示例性实施例提供的图像分割模型训练方法的流程图;图8为本技术一示例性实施例提供的图像分割模型训练的框架图;图9为本技术一示例性实施例提供的图像分割模型训练方法的详细流程图;图10为本技术一示例性实施例提供的数据增强的示意图;图11为本技术一示例性实施例提供的遥感图像分割装置的结构图;图12为本技术一示例性实施例提供的图像分割模型训练装置的结构图;图13为本技术一示例性实施例提供的一种云服务器的结构示意图。
13.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
14.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
15.图像分割是计算机视觉领域的核心技术,在从自动驾驶到遥感图像分析等广泛应用中发挥着关键作用。由于数据收集和标注成本的限制,目前有多个不同场景下的数据集可用。例如,包含室内、室外和自然场景的ade20k数据集,集中于城市街道场景的cityscapes数据集,用于物体检测、分割的coco或cocostuff数据集等。不同数据集。
16.目前的图像分割方案,大多是基于特定的图数分割任务涉及的场景,选择一个数据集,在单一数据集下训练图像分割模型,导致图像分割模型的泛化能力差、图像分割精准度低。
17.针对现有技术中图像分割模型的泛化能力差、图像分割精准度低的问题,本技术提供图像分割方法,适用于多种不同场景下的图像分割任务,不同场景的图像分割任务的类目体系不同,也即待选的类目名称不同。本技术的方法,将待分割的图像输入图像分割模型,同时将待选的类目名称作为语言引导信息也输入图像分割模型,通过图像分割模型提取图像的图像特征,并将类目名称映射为文本嵌入向量,类目名称的文本嵌入向量反映了类目名称之间的语义关系;进一步地,根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息,在进行图像分割的过程中,在文本嵌入向量的驱动/引导下,将模型的预测结果重定向到输入的待选类目名称,可以适用于使用不同类目体系的场景,图像分割模型的泛化能力和鲁棒性更强,图像分割的精准度较高。
18.本技术还提供一种图像分割模型训练方法,在无需对多个数据集进行类目统一和重标注的前提下,实现使用多个数据集来训练图像分割模型,提高图像分割模型的泛化能力、鲁棒性和精准度。
19.参考图1,图1为本技术所基于的一种图像分割的系统架构的示意图,图1所示系统架构具体可包括服务器以及端侧设备。其中,服务器具体可为设置在云端的服务器集群,该服务器中将存储有训练好的图像分割模型,该图像分割模型支持在多种不同类目体系场景下的图像分割。通过服务器中预设运算逻辑,服务器可实现多种不同类目体系场景下的图像分割功能。
20.端侧设备具体可为具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑、物联网设备、部署在云端的集群等。
21.通过与服务器的通信交互,用户可以通过端侧设备向服务器提交待分割的图像,以及所使用的类目体系包括的类目名称,这些类目名称为待选的类目名称。服务器可以将图像和类目名称输入图像分割模型,通过图像分割模型提取图像的图像特征,将类目名称映射为文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息。服务器可以输出图像的位置掩码及位置掩码对应的类目信息。
22.示例性地,服务器可以在线展示图像的位置掩码及位置掩码对应的类目信息,或者,服务器将图像的位置掩码及位置掩码对应的类目信息发送给端侧设备,或者,服务器向端侧设备提供下载链接,以使端侧设备根据下载链接下载图像的位置掩码及位置掩码对应
的类目信息。
23.另外,服务器还可以存储有多个数据集,不同数据集使用不同的类目体系,也即不同数据集具有不同的类目名称集合。服务器可以使用多个具有不同类目名称集合的数据集来训练图像分割模型,得到适用于多种不同类目体系场景的通用的图像分割模型。
24.需要说明的是,图像分割模型训练方和图像分割方法可以在同一服务器上实现,由服务器使用多个数据集训练图像分割模型,并将训练好的图像分割模型部署为本地服务,对外提供图像分割的服务。
25.可选地,图像分割模型训练方和图像分割方法可以分别在不同的服务器上实现。具体地,第一服务器存储有多个数据集,不同数据集使用不同的类目体系,具有不同的类目名称集合。第一服务器使用多个具有不同类目名称集合的数据集来训练图像分割模型,得到适用于多种不同类目体系场景的通用的图像分割模型,将图像分割模型部署至第二服务器。第二服务器对外提供图像分割服务,获取端侧设备上传的待处理的图像和待选的类目名称,并执行图像分割方法的处理流程,将图像和类目名称输入图像分割模型,通过图像分割模型提取图像的图像特征,将类目名称映射为文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息。第二服务器输出图像的位置掩码及位置掩码对应的类目信息。
26.本技术提供的图像分割方法和图像分割模型训练方法,可以应用于语义分割、实例分割、全景分割等不同的图像分割任务,具体可以应用于遥感图像的地块分割、地物分类检测、地物变化检测,目标检测,医学图像中病灶、脏器的检测,视频监测与对象追踪,零售场景的货架空缺识别等应用场景。另外,进行图像分割的图像数据可以是遥感图像、高清图像、深度图像等各种不同的图像数据,此处不做具体限定。
27.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
28.图2为本技术一示例性实施例提供的图像分割方法的流程图。本技术提供的方法的执行主体为上述用于执行图像分割方法流程的服务器。如图2所示,该方法具体步骤如下:步骤s201、获取待分割的图像和待选的类目名称。
29.本实施例提供的图像分割方法适用于任意的将图像中分割出一个或者多个分割区域,每一分割区域对应一种类目信息,并识别出每一分割区域中对象的类目信息的图像分割场景/任务,具体可以应用于多种不同的图像分割场景/任务。在应用于不同的图像分割场景/任务时,待分割的图像可以是不同类型的图像。例如,待分割的图像可以是遥感影像、高清图像、深度图像等,此处不做具体限定。
30.在应用于不同的图像分割场景/任务时,所使用的类目体系可以不同,待选的类目名称是指当前应的图像分割场景/任务中所使用的类目体系中的类目名称,待选的类目名称的集合即为图像分割的可用类目名称空间。
31.步骤s202、将图像和类目名称输入图像分割模型,通过图像分割模型提取图像的图像特征,将类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息。
32.在获取到待分割的图像和待选的类目名称后,将待选的类目名称作为输入数据,与待分割的图像一起输入图像分割模型,使用该图像分割模型,用输入的待选类目名称来替代统一的类目名称空间,作为本次图像分割使用的类目名称空间,来指导图像分割的过程,实现输入的特定类目名称空间(包括待选类目名称)下的图像分割。
33.具体地,图像分割模型的图像编码模块对输入图像进行编码(特征提取),得到图像的图像特征。图像分割模型的文本编码模块将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量(text embeddding),类目表示空间包含的文本嵌入向量是类目名称的文本表示(也称为文本嵌入,类目表示、或类目嵌入)。进一步地,根据图像的图像特征和待选类目名称的文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息,以文本嵌入向量作为进行图像分割时使用的分类表示,通过将对应于分割区域的分割用查询向量与文本嵌入向量进行对齐,来确定分割区域对应的类目名称,无需手动构建统一的类目名称及类目表示空间,即可实现精准地图像分割。
34.其中,图像分割模型是使用多个具有不同类目名称空间的数据集训练得到的,能够适用于对使用任一数据集的类目名称空间的图像分割场景/任务。该图像分割模型的具体训练过程在后续实施例中进行详细地说明。
35.步骤s203、输出图像的位置掩码及位置掩码对应的类目信息,其中,位置掩码指示图像中的分割区域,位置掩码对应的类目信息指示图像中分割区域的类目信息。
36.本实施例中,图像分割后得到图像的位置掩码及位置掩码对应的类目信息。其中,位置掩码指示图像中的分割区域,位置掩码对应的类目信息指示图像中分割区域的类目信息。位置掩码可以是图像语义分割中的类别区域掩码,用于指示图像中某一类别覆盖的分割区域。位置掩码可以是图像全景分割中的对象实例掩码,用于指示图像中某一对象实例所在的分割区域。
37.示例性地,以图像分割场景为将遥感图像中分割出不同地物的覆盖区域以及地物的类目信息为例,对于输入的遥感图像,图像分割结果可以包括一个或者多个位置掩码,以及每一位置掩码对应的类目信息。其中每一位置掩码用于指示遥感图像中的一块分割区域在遥感图像中的位置,也即分割区域包含遥感图像中的哪些像素。位置掩码对应的类目信息也即是对应分割区域内地物的类目信息。
38.例如,位置掩码可以为二进制掩码,位置掩码的尺寸与遥感图像的尺寸一致,位置掩码中的掩码值与遥感图像中的像素一一对应,该掩码值可以取0或1,分别表示该像素是否包含在分割区域内,在分割区域内的像素对应掩码值为1,不在分割区域内的像素对应掩码值为0,由此,位置掩码可以确定一个包含遥感图像中对应掩码值为1的像素的分割区域。
39.可选地,服务器可以在线展示图像的位置掩码及位置掩码对应的类目信息。
40.可选地,服务器可以将图像的位置掩码及位置掩码对应的类目信息发送给端侧设备,由端侧设备显示。
41.可选地,服务器可以向端侧设备提供下载链接,以使端侧设备根据下载链接将图像的位置掩码及位置掩码对应的类目信息下载到本地,并在本地展示。
42.本实施例中,通过当前图像分割场景/任务的待选的类目名称,与图像一起输入图像分割模型,图像分割模型自动将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量,并提取图像的图像特征,根据图像特征和文本嵌入向量,进行图像分割得到图像的
位置掩码及位置掩码对应的类目信息,无需手动建立统一的类目名称和类目表示空间,即可适用于使用不同类目体系的多种图像分割场景/任务,提高了图像分割模型泛化能力和鲁棒性,提高了图像分割的精准度。
43.在一可选实施例中,输出图像的位置掩码及位置掩码对应的类目信息,还可以采用如下方式实现:根据图像的位置掩码及位置掩码对应的类目信息,生成图像的分割结果信息,分割结果信息包括图像中分割区域的位置信息和对应的类目信息;输出图像的分割结果信息。
44.具体地,根据图像的位置掩码可以确定图像中的一个分割区域,将位置掩码对应的类目信息作为位置掩码确定的分割区域对应的类目信息。
45.示例性地,可以图像上使用不同颜色的区域或边框标记出各个位置掩码对应的分割区域,不同的颜色可以表示不同的类目信息,还可以将类目名称直接展示在分割区域内(或附近区域),形成分割结果图。通过以分割结果图的方式展示图像的位置掩码及位置掩码对应的类目信息,可以更加直观地展示图像分割结果,便于用户查看和区分不同的类目的分割区域。
46.示例性地,以识别遥感图像中不同地块区域及类目信息的图像分割场景为例,待分割的图像是包含至少一个地块的遥感图像,分割结果信息中不同的分割区域对应不同的地块,分割区域对应的类目信息为分割区域对应地块的地物类目信息。在输出图像的分割结果信息时,可以显示遥感图像,并根据分割结果信息,在所显示的遥感图像中标记出分割区域的位置,以及分割区域对应的地物类目信息。
47.示例性地,以识别图像中出现的对象及对象所属类目的图像分割场景为例,待分割的图像包含至少一个目标对象,分割结果信息中不同的分割区域对应不同的对象,分割区域对应的类目信息为分割区域对应对象所属的类目信息。在输出图像的分割结果信息时,显示图像,并根据分割结果信息,在所显示的图像中标记出目标对象所在的分割区域的位置,以及目标对象所属的类目信息。
48.例如,在应用于电商场景时,可以用于识别给定图像中出现的目标商品及目标商品所属的商品类目。在应用于自动驾驶场景时,可以用于识别给定图像中出现的车辆、道路、路侧设备、绿植等对象,并标记出不同对象所在的位置及对象的类目信息。
49.进一步地,响应于对图像的分割结果信息中分割区域的位置信息和/或类目信息的修正操作,更新图像的分割结果信息中的分割区域的位置信息和/或类目信息。
50.示例性地,如果用户需要对某一分割区域的位置进行修正时,可以用户可以通过文本框输入分割区域新的位置信息,或者通过在所显示的图像上通过拖拽等操作调整分割区域的位置。如果用户需要对某一分割区域的类目信息进行修正时,用户可以通过输入框直接输入,或者,通过点击待修正的分割区域的类目信息,在显示的类目的选择列表中选择正确的类目信息,来实现类目信息的修正。
51.本实施例此处对于分割区域的位置信息和/或类目信息的修正操作以及修正方式不做具体限定。
52.在一可选实施例中,图像分割模型可以使用如图3所示的模型框架,参见图3,图像分割模型包括图像编码器、像素特征提取器和文本编码器。
layer perceptron,简称mlp),以进一步提取用于区域分割(回归任务)的特征,以强化分割用查询向量包含的区域特征信息。根据处理后的分割用查询向量和像素特征提取器输出的第二图像特征,可以确定聚合后的每一分割用查询向量对应的位置掩码。
63.示例性地,可以将处理后的分割用查询向量和像素特征提取器输出的像素级的第二图像特征中每个像素的特征向量点乘,得到像素和每个分割用查询向量的相似性概率。根据相似性概率和设定的概率阈值,将相似性概率大于或等于概率阈值的像素对应的掩码值置为1,将相似性概率小于概率阈值的像素对应的掩码值置为0,得到每个分割用查询向量对应的位置掩码。
64.示例性地,参见图4,分类引导解码器可以由多个相同的分类引导解码层堆叠而成,每一分类引导解码层包括多头自注意力(multi-head self-attention,简称mhsa)模块、交叉关注(cross-attention)模块、前馈神经网络(feed-forward network,简称ffn)。
65.其中,多头自注意力用于对输入的多个分割用查询向量进行去重处理(自去重)。交叉关注模块用于将第一图像特征和文本嵌入向量与去重处理后的分割用查询向量聚合,得到聚合后的分割用查询向量。前馈神经网络模块用于对聚合后的分割用查询向量进行非线性变换,以提高分割用查询向量的网表达能力。
66.交叉关注(cross
‑ꢀ
attention)模块可以包括视觉-查询交叉关注(visual-query cross
‑ꢀ
attention)模块和文本-查询交叉关注(text-query cross
‑ꢀ
attention)模块。其中,视觉-查询交叉关注模块用于将输入的图像特征聚合入输入的分割用查询向量,得到新的分割用查询向量。文本-查询交叉关注模块用于将输入的文本嵌入向量聚合入输入的分割用查询向量,得到新的分割用查询向量。其中,视觉-查询交叉关注模块和文本-查询交叉关注模块可以采用现有的交叉关注神经网络实现。
67.需要说明的是,在需要对文本嵌入向量与分割用查询向量进行计算时,可以使用线性适配器来调整文本嵌入向量的维度,以使文本嵌入向量的维度与分割用查询向量的维度一致。
68.另外,可以存储文本编码模块将类目名称映射为的文本嵌入向量,后续对于输入的相同的类目名称,可以直接获取已存储的文本嵌入向量,无需再次使用文本编码模块进行映射处理,可以减少文本编码器引入的计算开销。
69.图4中以分类引导解码层中视觉-查询交叉关注模块在前、文本-查询交叉关注模块在后为例,即先将第一图像特征聚合入分割用查询向量,再将文本嵌入向量聚合入聚合了第一图像特征的分割用查询向量,得到聚合后的分割用查询向量。在其他实现方式中,分类引导解码层中还可以文本-查询交叉关注模块在前、视觉-查询交叉关注模块在后,也即先将文本嵌入向量聚合入分割用查询向量,再将第一图像特征聚合入聚合了文本嵌入向量的分割用查询向量,得到聚合后的分割用查询向量。此处对于视觉-查询交叉关注模块和文本-查询交叉关注模块排布先后顺序(堆叠顺序)不做具体限定。
70.另外,图4中以6个分类引导解码层堆叠成分类引导解码器为例进行实例性地说明,对于分类引导解码器中堆叠的分类引导解码层的数量,此处不做具体限定。
71.分类引导解码器中分割用查询向量的数量可以根据实际图像分割场景中类目名称空间的大小进行设置,分割用查询向量的数量应大于或等于图像分割场景中类目名称空间的大小的最大值,以可以适用于各类图像分割场景。例如,分割用查询向量的数量可以为
100个,通常可以满足图像分割的需要,另外,分割用查询向量的数量可以根据需要将设置和调整,此处不做具体限定。
72.分类引导解码器中分割用查询向量可以初始化为零向量,每个分割用查询向量都与可学习的位置编码相关联。
73.另外,其他实施例中,与图3中图像分割模型包含图像编码器和像素特征提取器不同,图像分割模型仅包含一个图像编码模块,该图像编码器模块可以直接提取图像的像素级的第三图像特征,使用该像素级的第三图像特征同时作为第一图像特征和第二图像特征,实现图像分割的处理过程,相对于图3的模型框架,使用第三图像特征作为第一图像特征进行计算,会增加一定的计算量。
74.本实施例中,分类引导解码遵循转换器的标准架构,使用多头自注意力和交叉关注机制以及ffn模块来转换多个分割用查询向量,通过多头自注意力模块对分割用查询向量的自去重,使得模型能够使用分割用查询向量之间的成对关系,以对多个分割用查询向量对应位置掩码进行全局预测/推断。分割用查询向量和输入图像的图像特征之间的交叉关注,能够将整个图像用作上下文,获取更多的图像信息。分割用查询向量和文本嵌入向量之间的交叉关注,将分割用查询向量引导到与输入类目名称的文本嵌入向量相对应的类目,以实现对分割用查询向量对应类目信息的预测/推断。
75.参见图5,图5为本技术一示例性实施例提供的图像分割方法的流程图,基于图3所示的模型框架,本实施例的图像分割方法的具体步骤如下:步骤s501、获取待分割的图像和待选的类目名称。
76.本实施例提供的图像分割方法适用于任意的将图像中分割出一个或者多个分割区域,每一分割区域对应一种类目信息,并识别出每一分割区域中对象的类目信息的图像分割场景/任务,具体可以应用于多种不同的图像分割场景/任务。在应用于不同的图像分割场景/任务时,待分割的图像可以是不同类型的图像。例如,待分割的图像可以是遥感影像、高清图像、深度图像等,此处不做具体限定。
77.在应用于不同的图像分割场景/任务时,所使用的类目体系可以不同,待选的类目名称是指当前应的图像分割场景/任务中所使用的类目体系中的类目名称,待选的类目名称的集合即为图像分割的可用类目名称空间。
78.步骤s502、将图像输入图像分割模型的图像编码器,将待选的类目名称输入图像分割模型的文本编码器。
79.步骤s503、通过文本编码器,使用训练好的上下文信息,将类目名称映射为文本嵌入向量。
80.具体地,引入可学习(可训练)的上下文信息(也可以称为提示模板、提示文本),该上下文信息包括多个类目名称对应的词向量。在图像分割模型的训练开始阶段,随机初始化该上下文信息包含的词向量,并在迭代训练中对该上下文信息进行优化,训练完成后固定该上下文文信息。
81.该步骤中,通过文本编码器,基于训练好的上下文信息,将输入的类目名称映射到统一的类目表示空间,得到类目名称的文本嵌入向量。其中,统一的类目表示空间不是一个实际场景中存在的类目表示空间,而是模型训练过程中形成的,能够覆盖训练过程中使用的各个数据集的类目名称的嵌入。类目表示空间包含多个类目名称的文本嵌入向量,文本
嵌入向量即是类目名称的文本表示,也称为类目表示。
82.示例性地,该文本编码器的权重参数可以使用预训练的clip(contrastive language-image pre-training)模型的参数进行初始化,并固定文本编码器的权重参数,在图像分割模型的训练过程中不更新文本编码器的权重参数。该clip模型为一种基于对比文本-图像对的预训练模型。本实施例中,将clip模型的文本嵌入向量空间作为统一的类目表示空间,语义相似的类目包含更关系更紧密的文本嵌入向量(也即类目表示)。另外,该文本编码器还可以使用clip类似的预训练模型,此处不做具体限定。
83.其中,文本编码器利用上下文信息(提示模板、提示文本)将输入类目名称映射为文本嵌入向量的具体实现方式,与clip模型中将输入文本映射为文本嵌入向量的实现方式类似,此处不再赘述。
84.该步骤中,通过文本编码器将输入的类目名称自动映射到统一的类目表示,得到每一类目名称对应的文本嵌入向量,使得类目名称的文本嵌入向量包含了不同类目间的语义关系,语义相似的类目名称具有更紧密的关系。因此,无论输入的类目名称是何种类目体系的类目名称空间,文件编码器均可以将输入的类目名称映射到统一的类目表示,从而适用于不同类目体系的图像分割场景/任务,并且易于扩展到更多的图像分割场景/任务。
85.步骤s504、通过图像编码器,对图像进行编码,得到图像的第一图像特征。
86.本实施例中,通过图像编码器对输入图像进行下采样,以提取输入图像的较低维度的图像特征。
87.示例性地,该图像编码器可以使用任意的用于提取图像特征的主干网络模型,例如resnet、resnet改进模型、卷积神经网络(cnn)等,此处不做具体限定。
88.可选地,在训练开始阶段,可以使用预训练的imagenet的权重参数来初始化图像编码器的权重参数;或者,可以使用预训练的clip的权重参数来初始化图像编码器的权重参数。当文本编码器和图像编码器都是用预训练的clip的权重参数初始化时,可以提高图像分割模型的性能和鲁棒性,如提高模型的重叠度(intersection over union,iou)。
89.步骤s505、通过分类引导解码器,对输入的分割用查询向量进行去重处理,并将第一图像特征和文本嵌入向量与去重处理后的分割用查询向量聚合,得到聚合后的分割用查询向量。
90.如图4所示,分类引导解码器包括多层堆叠的分类引导解码层,第一层分类引导解码层输入的分割用查询向量是初始的分割用查询向量。上一分类引导解码层输出的分割用查询向量,作为下一分类引导解码层输入的分割用查询向量。第一图像特征和文本嵌入向量作为每一层分类引导解码层的输入。每一层分类引导解码层执行步骤s505的处理。将初始的分割用查询向量输入分类引导解码器中第一层分类引导解码层多头自注意力模块中,通过分类引导解码器循环执行多次步骤s505的处理,得到最终聚合后的分割用查询向量。
91.可选地,该步骤中可以先将第一图像特征聚合入分割用查询向量,再将文本嵌入向量聚合入聚合了第一图像特征的分割用查询向量,得到聚合后的分割用查询向量。
92.可选地,该步骤中先将文本嵌入向量聚合入分割用查询向量,再将第一图像特征聚合入聚合了文本嵌入向量的分割用查询向量,得到聚合后的分割用查询向量。
93.步骤s506、将聚合后的分割用查询向量与文本嵌入向量进行对齐处理,得到聚合后的分割用查询向量对应的类目预测信息。
94.该步骤中,根据聚合后的分割用查询向量和文本编码器输出的文本嵌入向量进行对齐处理,可以确定每个分割用查询向量对应的类目信息。
95.具体地,通过将每个分割用查询向量与每一文本嵌入向量进行点乘,可以得到分割用查询向量对应到每一文本嵌入向量对应的类目信息的分类预测概率,确定分类预测概率最大的一个类目信息作为分割用查询向量对应的类目信息。
96.步骤s507、通过像素特征提取器,对第一图像特征进行下采样,得到图像的第二图像特征。
97.该步骤中,通过像素特征提取器,对第一图像特征进行下采样,得到图像的像素级的第二图像特征,该像素级的第二图像特征用于进行回归预测,确定图像的位置掩码。
98.步骤s508、根据聚合后的分割用查询向量和第二图像特征,确定聚合后的分割用查询向量对应的位置掩码。
99.该步骤中,通过多层感知机(mlp)对聚合后的分割用查询向量进行特征提取,以进一步提取用于区域分割(回归任务)的特征,强化分割用查询向量包含的区域特征信息,得到处理后的分割用查询向量。进一步地,根据处理后的分割用查询向量和像素特征提取器输出的第二图像特征,来确定聚合后的分割用查询向量对应的位置掩码。
100.具体地,可以将处理后的分割用查询向量和像素特征提取器输出的像素级的第二图像特征中每个像素的特征向量之间点乘,可以得到像素与每个分割用查询向量的相似性概率。根据相似性概率和设定的概率阈值,将相似性概率大于或等于概率阈值的像素对应的掩码值置为1,将相似性概率小于概率阈值的像素对应的掩码值置为0,得到每个分割用查询向量对应的位置掩码。
101.步骤s509、根据聚合后的分割用查询向量对应的类目预测信息和位置掩码,确定图像的位置掩码及位置掩码对应的类目信息。
102.在确定每一分割用查询向量对应的类目预测信息和位置掩码之后,对于每一分割用查询向量对应的位置掩码,可以确定图像中的一个分割区域,并将分割用查询向量对应的类目预测信息作为该分割用查询向量对应位置掩码确定的分割区域的类目预测信息,得到图像的位置掩码及位置掩码对应的类目信息。
103.步骤s510、输出图像的位置掩码及位置掩码对应的类目信息。
104.该步骤与上述步骤s203的实现方式一致,具体参见上述步骤s203的相关内容,此处不再赘述。
105.本实施例提供了一种示例性的图像分割模型框架,并基于该图像分割模型框架对图像分割的具体流程进行详细地说明,通过当前图像分割场景/任务的待选的类目名称,与图像一起输入图像分割模型,图像分割模型自动将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量,并提取图像的图像特征,根据图像特征和文本嵌入向量,进行图像分割得到图像的位置掩码及位置掩码对应的类目信息,无需手动建立统一的类目名称和类目表示空间,即可适用于使用不同类目体系的多种图像分割场景/任务,提高了图像分割模型泛化能力和鲁棒性,提高了图像分割的精准度。
106.在一种可选实施例中,上述的图像分割方法可以应用于遥感图像分割的场景。参见如6,图6为本技术一示例性实施例提供的遥感图像分割方法的流程图。如图6所示,该方法具体步骤如下:
步骤s601、获取待分割的遥感图像和待选的地物类目名称。
107.步骤s602、将遥感图像和地物类目名称输入图像分割模型,通过图像分割模型提取遥感图像的图像特征,将地物类目名称映射为文本嵌入向量,并根据图像特征和文本嵌入向量,确定遥感图像的位置掩码及位置掩码对应的地物类目信息。
108.步骤s603、输出遥感图像的位置掩码及位置掩码对应的地物类目信息,其中,位置掩码指示图像中的分割区域,位置掩码对应的地物类目信息指示图像中分割区域的地物类目信息。
109.在一应用场景示例中,遥感图像分割方法可以用于识别遥感图像中不同的地块区域及类目信息,待分割的图像是包含至少一个地块的遥感图像,分割结果信息中不同的分割区域对应不同的地块,分割区域对应的类目信息为分割区域对应地块的地物类目信息。
110.具体地,在输出遥感图像的位置掩码及位置掩码对应的地物类目信息时,根据遥感图像的位置掩码,确定遥感图像中地块的位置信息;根据位置掩码对应的地物类目信息,确定遥感图像中地块对应的地物类目信息;根据遥感图像中地块的位置信息及地块对应的地物类目信息,在遥感图像中标记出地块的位置及地块对应的地物类目信息。
111.示例性地,可以应用于遥感图像变化检测,具体地,分别对两期遥感图像进行图像分割,识别每一期遥感图像中不同地块区域的地物类目,通过比较两期遥感图像的图像分割结果信息,可以确定类目发生变化的地块区域。例如,由绿地变为建筑的区域、由水域变为道路的区域等。
112.示例性地,可以应用于基于遥感图像的道路分割,待选的地物类目名称可以包括道路、背景。具体地,获取覆盖城市道路的遥感图像,对遥感图像进行图像分割,识别出遥感图像中的道路区域和背景区域(非道路区域),根据遥感图像中的道路区域可以计算出道路的实际位置,并用于构建地图数据。
113.本实施例与上述方法实施例的不同之处在于待处理的图像为遥感图像,待选的类目名称为地物类目名称,具体处理流程与上述图像分割方法的实现流程类似,详细参见上述图像分割方法的实施例,此处不再赘述。
114.图7为本技术一示例性实施例提供的图像分割模型训练方法的流程图。本技术提供的方法的执行主体可以为上述用于进行图像分割模型训练的服务器。
115.本实施实例中,多个数据集可以在不同图像分割场景下的、使用不同类目体系的多个不同的数据集。由于不同数据集使用不同的类目体系,因此不同数据集的类目名称空间(包含待选类目名称)不同。
116.基于多个不同的数据集进行图像分割模型训练的主要问题是,不同数据集使用不同的类目体系,不同数据集的分类类目不一致,包括:类目重合、类目标签(如类目id)冲突,类目的命名差异等。例如,ade20k数据集中的“人”类目,在cityscapes数据集中被标记为“人”和“骑手”。
117.现有的基于多数据集训练图像分割模型的方案中,往往需要用一个热门分类法的类目标签手动建立统一的类目标签,也即建立统一的类目体系,并重新标注每个数据集中的样本图像,然后使用重新标注后的数据集训练图像分割模型,这既耗时又很容易出错。此外,一个热门分类法是不灵活和不可扩展的。
118.本实施例提供的图像分割模型训练方法,无需手动建立统一的类目标签和重新标
注数据集,即可实现使用多个数据集训练图像分割模型,使得图像分割模型适用于各个数据集对应的图像分割场景/任务。
119.图8为本技术一示例性实施例提供的图像分割模型训练的框架图,图8中以使用图3所示的图像分割模型进行训练为例,图像分割模型的结构和具体功能与上述图像分割方法实施例中使用的图像分割模型的结构和功能一致,具体参见上述实施例的相关描述,此处不再赘述。在模型训练时,与样本图像一起输入图像分割模型的类目名称,是样本图像所在数据集的待选类目名称,通常数据集的待选类目名称中还包括背景这一类目,表示不属于数据集其他任意的待选类目。图8中用m表示数据集的数量,c表示输入的样本图像的数量。k表示输入的类目名称的数量(不包含背景类目),不同数据集的样本图像的数量不同。n表示分割用查询向量的数量。h
×
w表示输入的样本图像的分辨率,对于不同的样本图像,分辨率可以不同。
120.如图7所示,本实施例提供的图像分割模型训练方法的具体步骤如下:步骤s701、获取多个数据集和数据集的待选类目名称,数据集包含样本图像和样本图像的图像分割标注结果,图像分割标注结果包括样本图像的位置掩码及位置掩码对应的类目信息。
121.其中,多个数据集可以为已知的用于各种图像分割场景/任务的数据集,不同数据集可以使用不同的类目体系,也即不同数据集可以具有不同的待选类目名称。例如,多个数据集可以包括ade20k、cityscapes、mapillary vistas、coco、cocostuff、城市景观等数据集。
122.每一数据集中都包含多个样本图像,以及每一样本图像的图像分割标注结果。图像分割标注结果包括样本图像的位置掩码及位置掩码对应的类目信息。
123.步骤s702、将样本图像和样本图像所在数据集的待选类目名称,输入待训练的图像分割模型,通过图像分割模型提取样本图像的图像特征,将待选类目名称映射为文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像分割预测结果,图像分割预测结果包括样本图像的位置掩码的预测结果、及位置掩码对应的类目信息的预测结果。
124.在进行模型训练时,将样本图像和样本图像所在数据集的待选类目名称,输入待训练的图像分割模型,通过图像分割模型来预测样本图像的图像分割预测结果。
125.该步骤中,通过图像分割模型提取样本图像的图像特征,将待选类目名称映射为文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像分割预测结果的具体过程,与上述图像分割方法实施例中,通过图像分割模型提取图像的图像特征,将类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息,二者的具体实现方式类似,具体参见上述方法实施例的相关内容,此处不再赘述。
126.步骤s703、根据样本图像的图像分割预测结果和图像分割标注结果计算损失,并训练图像分割模型的模型参数,以得到训练好的图像分割模型。
127.本实施例中,根据图像分割预测结果和图像分割标注结果计算损失,可以采用现有技术中在训练图像分割模型时计算损失的方式,使用相同的损失函数实现,此处不再赘述。
128.通过本实施例的方法训练好的图像分割模型,用于实现前述图像分割方法实施例
提供的方法流程,对输入图像进行图像分割,确定输入图像的位置掩码及位置掩码对应的类目信息。
129.本实施例中,通过将数据集的待选的类目名称与样本图像一起输入图像分割模型,图像分割模型自动将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量,并提取图像的图像特征,根据图像特征和文本嵌入向量,进行图像分割得到图像分割预测结果,根据图像分割预测结果和图像分割标注结果训练图像分割模型的模型参数,无需手动建立统一的类目名称和类目表示空间,实现了跨多个不同的数据集训练图像分割模型,训练好的图像分割模型可适用于使用不同数据集(不同类目体系下)的多种图像分割场景/任务,提高了图像分割模型泛化能力和鲁棒性,提高了图像分割的精准度。
130.在一可选实施例中,待训练的图像分割模型可以采用上述任一方法实施例提供的图像分割模型。该图像分割模型中可训练的参数包括:图像编码器、像素特征提取器和分类引导解码器的权重参数,以及上下文信息。
131.本实施例结合图像分割模型的结构,对图像分割模型训练方法的处理流程进行详细地说明。如图9所示,图像分割模型训练的详细步骤如下:步骤s901、获取多个数据集和数据集的待选类目名称,数据集包含样本图像和样本图像的图像分割标注结果,图像分割标注结果包括样本图像的位置掩码及位置掩码对应的类目标签。
132.该步骤与上述步骤s701的实现方式类型,此处不再赘述。
133.本实施例中,可以通过对数据集中的样本图像进行数据增强,来丰富训练样本的数量和种类。
134.由于本实施例的方法在训练图像分割模型时使用多个不同的数据集,不同的数据集通常具有不同的特征,例如,分辨率、样式、比率、颜色、亮度等。本实施例中,对不同数据集中的样本图像,使用不同的数据增强策略进行数据增强,基于数据增强后的数据集进行图像分割模型的训练。
135.具体地,可以预先配置各个数据集对应的数据增强策略。对每个样本图像进行增强时,确定样本图像所属的数据集,并选择使用所属数据集对应的数据增强策略,对该样本图像增强。
136.任一数据增强策略可以包括如下至少一种增强方式:随机尺度抖动、随机水平翻转、随机裁剪、随机颜色抖动。
137.参见图10,假设图10中的图像a和d属于同一数据集,图像b和c为属于同一数据集,这两个不同的数据集中样本图像的分辨率、亮度等不同。图10中的增强策略a1,增强策略a2,

,增强策略ai分别表示i种不同的数据增强策略。图像a和d自动采用增强策略a1,图像b和c自动采用增强策略ai进行数据增强。增强后的图像输入图像分割模型的图像编码器。
138.例如,在对不同数据集中的样本图像剪裁尺寸时,对于ade20k数据集,使用512
×
512的裁剪尺寸;对于cityscapes数据集,使用512
×
1024的裁剪尺寸;对于coco-stuff-10k数据集,使用640
×
640的裁剪尺寸,对于mapillary vistas数据集,使用1280
×
1280的裁剪尺寸。
139.步骤s902、将样本图像输入图像分割模型的图像编码器,将样本图像所在数据集的待选类目名称输入图像分割模型的文本编码器。
140.步骤s903、通过文本编码器,使用上下文信息,将类目名称映射为文本嵌入向量。
141.本实施例中,引入可学习(可训练)的上下文信息(也可以称为提示模板、提示文本),该上下文信息包括多个类目名称对应的词向量。在图像分割模型的训练开始阶段,随机初始化该上下文信息包含的词向量。在迭代训练中对该上下文信息进行优化,训练完成后固定该上下文文信息。
142.该步骤中,通过文本编码器,使用当前的上下文信息,将输入的数据集的类目名称映射到统一的类目表示空间,得到类目名称的文本嵌入向量。其中,统一的类目表示空间不是一个实际场景中存在的类目表示空间,而是模型训练过程中形成的,能够覆盖训练过程中使用的各个数据集的类目名称的嵌入。
143.示例性地,该文本编码器的权重参数可以使用预训练的clip(contrastive language-image pre-training)模型的参数进行初始化,并固定文本编码器的权重参数,在图像分割模型的训练过程中不更新文本编码器的权重参数。该clip模型为一种基于对比文本-图像对的预训练模型。本实施例中,将clip模型的文本嵌入向量空间作为统一的类目表示空间,语义相似的类目包含更关系更紧密的文本嵌入向量(也即类目表示)。另外,该文本编码器还可以使用clip类似的预训练模型,此处不做具体限定。
144.文本编码器利用上下文信息(提示模板、提示文本)将输入类目名称映射为文本嵌入向量的具体实现方式,与clip模型中将输入文本映射为文本嵌入向量的实现方式类似,此处不再赘述。
145.该步骤中,通过文本编码器将输入数据集的类目名称自动映射到统一的类目表示空间,得到每一类目名称对应的文本嵌入向量,使得类目名称的文本嵌入向量包含了不同类目间的语义关系,语义相似的类目名称具有更紧密的关系。因此,无论输入的是哪个数据集的类目名称,文件编码器均可以将输入的数据集的类目名称映射到统一的类目表示空间,从而能够使用多个具有不同类目名称空间的数据集来训练图像分割模型,训练好的图像分割模型可以适用于不同类目体系的图像分割场景/任务,并且易于扩展到更多的图像分割场景/任务。
146.步骤s904、通过图像编码器,对样本图像进行编码,得到样本图像的第一图像特征。
147.该步骤中,通过图像编码器对样本图像进行下采样,以提取样本图像的较低维度的图像特征。
148.示例性地,该图像编码器可以使用任意的用于提取图像特征的主干网络模型,例如resnet、resnet改进模型、卷积神经网络(cnn)等,此处不做具体限定。
149.如图4所示,分类引导解码器包括多层堆叠的分类引导解码层,第一层分类引导解码层输入的分割用查询向量是初始的分割用查询向量。上一分类引导解码层输出的分割用查询向量,作为下一分类引导解码层输入的分割用查询向量。
150.第一图像特征和文本嵌入向量作为每一层分类引导解码层的输入,将初始的分割用查询向量输入分类引导解码器中第一层分类引导解码层多头自注意力模块中,通过每一层分类引导解码层执行一次步骤s905-s906的处理,通过分类引导解码器循环执行多次步骤s905-s906的处理,得到最终聚合后的分割用查询向量。
151.步骤s905、通过分类引导解码器,对初始的多个分割用查询向量进行去重处理,将
图像特征和文本嵌入向量与去重处理后的分割用查询向量聚合,得到聚合后的分割用查询向量。
152.该步骤中,通过分类引导解码器中的多头自注意力模块,对输入该模块的分割用查询向量进行自去重,以去除重复的分割用查询向量。
153.参见图4,分类引导解码器每一分类引导解码层包括交叉关注模块,交叉关注(cross
‑ꢀ
attention)模块可以包括视觉-查询交叉关注(visual-query cross
‑ꢀ
attention)模块和文本-查询交叉关注(text-query cross
‑ꢀ
attention)模块。视觉-查询交叉关注模块用于将输入的图像特征聚合入输入的分割用查询向量,得到新的分割用查询向量。文本-查询交叉关注模块用于将输入的文本嵌入向量聚合入输入的分割用查询向量,得到新的分割用查询向量。
154.可选地,如图4所示,分类引导解码层中视觉-查询交叉关注模块在前、文本-查询交叉关注模块在后,该步骤中可以先将第一图像特征聚合入分割用查询向量,再将文本嵌入向量聚合入聚合了第一图像特征的分割用查询向量,得到聚合后的分割用查询向量。
155.可选地,分类引导解码层中还可以文本-查询交叉关注模块在前、视觉-查询交叉关注模块在后,该步骤中先将文本嵌入向量聚合入分割用查询向量,再将第一图像特征聚合入聚合了文本嵌入向量的分割用查询向量,得到聚合后的分割用查询向量。
156.步骤s906、将聚合后的分割用查询向量与文本嵌入向量进行对齐处理,得到聚合后的分割用查询向量对应的类目预测信息。
157.该步骤中,根据聚合后的分割用查询向量和文本编码器输出的文本嵌入向量进行对齐处理,可以确定每个分割用查询向量对应的类目信息。
158.具体地,通过将分割用查询向量与每一文本嵌入向量进行点乘,可以得到分割用查询向量对应到每一文本嵌入向量对应的类目信息的分类预测概率,确定分类预测概率最大的一个类目信息作为分割用查询向量对应的类目信息。
159.步骤s907、通过像素特征提取器,对第一图像特征进行下采样,得到样本图像的第二图像特征。
160.该步骤中,通过像素特征提取器,对第一图像特征进行下采样,得到图像的像素级的第二图像特征,该像素级的第二图像特征用于进行回归预测,确定图像的位置掩码。
161.步骤s908、根据聚合后的分割用查询向量和第二图像特征,确定聚合后的分割用查询向量对应的位置掩码。
162.该步骤中,通过多层感知机(mlp)对聚合后的分割用查询向量进行特征提取,以进一步提取用于区域分割(回归任务)的特征,强化分割用查询向量包含的区域特征信息,得到处理后的分割用查询向量。进一步地,根据处理后的分割用查询向量和像素特征提取器输出的第二图像特征,来确定聚合后的每个分割用查询向量对应的位置掩码。
163.具体地,可以将处理后的分割用查询向量和像素特征提取器输出的像素级的第二图像特征中每个像素的特征向量点乘,可以得到像素和每个分割用查询向量的相似性概率。根据相似性概率和设定的概率阈值,将相似性概率大于或等于概率阈值的像素对应的掩码值置为1,将相似性概率小于概率阈值的像素对应的掩码值置为0,得到每个分割用查询向量对应的位置掩码。
164.步骤s909、根据聚合后的分割用查询向量对应的类目预测信息和位置掩码,确定
样本图像的位置掩码及位置掩码对应的类目信息。
165.在确定每个分割用查询向量对应的类目预测信息和位置掩码之后,对于每一分割用查询向量对应的位置掩码,可以确定样本图像中的一个分割区域,并将分割用查询向量对应的类目预测信息作为该分割用查询向量对应位置掩码确定的分割区域的类目预测信息,得到样本图像的位置掩码及位置掩码对应的类目信息。
166.步骤s910、根据样本图像的图像分割预测结果和图像分割标注结果计算损失。
167.该步骤中,根据图像分割预测结果中的样本图像的位置掩码和图像分割标注结果中同一样本图像的位置掩码,计算对比损失(contrastive loss),表示为。
168.根据图像分割预测结果中的样本图像的位置掩码对应的类目信息,和图像分割标注结果中同一样本图像的位置掩码对应的类目信息,计算二进制掩码损失,包括二进制焦距损失(表示为 )和骰子损失(表示为)。
169.根据对比损失 、二进制焦距损失 和骰子损失 ,采用如下方式,计算得到最终的损失l:,其中,m是数据集的数量。是第k个数据集中样本图像的数量。和为超参数,可以分别设置为20.0和1.0。
170.本实施例中,根据图像分割预测结果和图像分割标注结果计算损失,可以采用现有技术中在训练图像分割模型时计算损失的方式,使用相同的损失函数实现,此处不再赘述。
171.步骤s911、根据损失,更新上下文信息,以及图像编码器、像素特征提取器和分类引导解码器的权重参数,得到训练好的图像分割模型。
172.在计算得到损失之后,根据损失反向传播更新图像分割模型中的图像编码器、像素特征提取器和分类引导解码器的权重参数,以及上下文信息。在训练完成后,固定图像编码器、像素特征提取器和分类引导解码器的权重参数,以及上下文信息。
173.通过本实施例的方法训练好的图像分割模型,可以实现前述图像分割方法实施例提供的方法流程,对输入图像进行图像分割,确定输入图像的位置掩码及位置掩码对应的类目信息。
174.本实施例中,通过将数据集的待选的类目名称与样本图像一起输入图像分割模型,图像分割模型自动将输入的类目名称映射为统一的类目表示空间中的文本嵌入向量,并提取图像的图像特征,根据图像特征和文本嵌入向量,进行图像分割得到图像分割预测结果,根据图像分割预测结果和图像分割标注结果训练图像分割模型的模型参数,无需手动建立统一的类目名称和类目表示空间,实现了跨多个不同的数据集训练图像分割模型,训练好的图像分割模型可适用于使用不同数据集(不同类目体系下)的多种图像分割场景/任务,提高了图像分割模型泛化能力和鲁棒性,提高了图像分割的精准度。
175.图11为本技术一示例性实施例提供的遥感图像分割装置的结构图。本实施例提供的装置应用于执行图像分割方法或遥感图像分割方法。如图11所示,图像分割装置110包括:数据获取模块1101、第一图像分割模块1102和结果输出模块1103。
176.其中,数据获取模块1101用于获取待分割的图像和待选的类目名称。
177.第一图像分割模块1102用于将图像和类目名称输入图像分割模型,通过图像分割模型提取图像的图像特征,将类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像的位置掩码及位置掩码对应的类目信息。
178.结果输出模块1103用于输出图像的位置掩码及位置掩码对应的类目信息,其中,位置掩码指示图像中的分割区域,位置掩码对应的类目信息指示图像中分割区域的类目信息。
179.在一可选实施例中,图像分割模型包括图像编码器、像素特征提取器和文本编码器。在实现通过图像分割模型提取图像的图像特征,将类目名称映射为文本嵌入向量时,第一图像分割模块1102还用于:通过图像编码器,对图像进行编码,得到图像的第一图像特征;通过像素特征提取器,对第一图像特征进行变换,得到图像的像素级的第二图像特征;通过文本编码器,使用训练好的上下文信息,将类目名称映射为统一的类目表示空间中的文本嵌入向量。
180.在一可选实施例中,图像分割模型还包括分类引导解码器,分类引导解码器内置有初始的多个分割用查询向量。在实现根据图像特征和文本嵌入向量确定图像的位置掩码及位置掩码对应的类目信息时,第一图像分割模块1102还用于:通过分类引导解码器,对初始的多个分割用查询向量进行去重处理,并将图像特征和文本嵌入向量与去重处理后的分割用查询向量聚合,得到聚合后的分割用查询向量;将聚合后的分割用查询向量与文本嵌入向量进行对齐处理,得到聚合后的分割用查询向量对应的类目预测信息;根据聚合后的分割用查询向量和第二图像特征,确定聚合后的分割用查询向量对应的位置掩码;根据聚合后的分割用查询向量对应的类目预测信息和位置掩码,确定图像的位置掩码及位置掩码对应的类目信息。
181.本实施例提供的装置具体可以用于执行基于上述任一实施例提供的图像分割方法或遥感图像分割方法,具体功能和所能实现的技术效果此处不再赘述。
182.图12为本技术一示例性实施例提供的图像分割模型训练装置的结构图。本实施例提供的装置应用于执行图像分割模型训练方法。如图12所示,图像分割模型训练装置120包括:数据集处理模块1201,第二图像分割模块1202和模型参数训练模块1203。
183.其中,数据集处理模块1201用于获取多个数据集和数据集的待选类目名称,数据集包含样本图像和样本图像的图像分割标注结果,图像分割标注结果包括样本图像的位置掩码及位置掩码对应的类目信息。
184.第二图像分割模块1202用于将样本图像和样本图像所在数据集的待选类目名称,输入待训练的图像分割模型,通过图像分割模型提取样本图像的图像特征,将待选类目名称映射为统一的类目表示空间中的文本嵌入向量,并根据图像特征和文本嵌入向量,确定图像分割预测结果,图像分割预测结果包括样本图像的位置掩码的预测结果、及位置掩码对应的类目信息的预测结果。
185.模型参数训练模块1203用于根据样本图像的图像分割预测结果和图像分割标注结果计算损失,并训练图像分割模型的模型参数,以得到训练好的图像分割模型。其中,训练好的图像分割模型用于对输入图像进行图像分割,确定输入图像的位置掩码及位置掩码对应的类目信息。
186.在一可选实施例中,图像分割模型包括图像编码器、像素特征提取器和文本编码
器,文本编码器包括待训练的上下文信息,在实现通过图像分割模型提取样本图像的图像特征,将待选类目名称映射为文本嵌入向量时,第二图像分割模块1202还用于:通过图像编码器,对样本图像进行编码,得到样本图像的第一图像特征;通过像素特征提取器,对第一图像特征进行变换,得到样本图像的像素级的第二图像特征。通过文本编码器,使用上下文信息,将类目名称映射为统一的类目表示空间中的文本嵌入向量。
187.在一可选实施例中,图像分割模型还包括分类引导解码器,分类引导解码器内置有初始的多个分割用查询向量。在实现根据图像特征和文本嵌入向量,确定图像分割预测结果时,第二图像分割模块1202还用于:通过分类引导解码器,对初始的多个分割用查询向量进行去重处理,并将第一图像特征和文本嵌入向量与去重处理后的分割用查询向量聚合,得到聚合后的分割用查询向量;将聚合后的分割用查询向量与文本嵌入向量进行对齐处理,得到聚合后的分割用查询向量对应的类目预测信息;根据聚合后的分割用查询向量和第二图像特征,确定聚合后的分割用查询向量对应的位置掩码;根据聚合后的分割用查询向量对应的类目预测信息和位置掩码,确定样本图像的位置掩码及位置掩码对应的类目信息。
188.在一可选实施例中,在实现训练图像分割模型的模型参数时,模型参数训练模块1203还用于:根据损失,更新上下文信息,以及图像编码器、像素特征提取器和分类引导解码器的权重参数。
189.在一可选实施例中,在实现获取多个数据集之后,数据集处理模块1201还用于:对不同数据集中的样本图像,使用不同的数据增强策略进行数据增强,基于数据增强后的数据集进行图像分割模型的训练。
190.本实施例提供的装置具体可以用于执行基于上述任一实施例提供的图像分割模型训练方法,具体功能和所能实现的技术效果此处不再赘述。
191.图13为本技术示例性实施例提供的一种云服务器的结构示意图。该云服务器用于运行上述任一方法实施例提供的方法。如图13所示,该云服务器包括:存储器134和处理器135。
192.存储器134,与处理器135通信连接,用于存储计算机程序/计算机执行指令,并可被配置为存储其它各种数据以支持在云服务器上的操作。该存储器134可以是对象存储(object storage service,oss)。
193.存储器134可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
194.处理器135,与存储器134耦合,用于执行存储器134中存储的计算机程序/计算机执行指令,以用于实现上述任一方法实施例提供的方法,具体功能和所能实现的技术效果此处不再赘述。
195.进一步,如图13所示,该云服务器还包括:防火墙131、负载均衡器132、通信组件136、电源组件138等其它组件。图13中仅示意性给出部分组件,并不意味着云服务器只包括图13所示组件。
196.上述图13中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或
无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
197.上述图13中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
198.本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
199.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
200.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
201.在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
ꢀ“
多个”的含义是两个以上,除非另有明确具体的限定。
202.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
203.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1