图像分割方法、遥感图像分割方法以及装置与流程

文档序号:33371274发布日期:2023-03-08 02:21阅读:28来源:国知局
图像分割方法、遥感图像分割方法以及装置与流程

1.本说明书实施例涉及图像处理技术领域,特别涉及一种图像分割方法和遥感图像分割方法。


背景技术:

2.随着计算机技术的发展,人工智能在图像处理领域有了广泛的应用,其中,图像分割是把待分割图像按照一定的分割条件,分割成若干个不同类型的图像区域的技术,运用机器学习的技术手段,分割的效果和效率都有极大提升。
3.目前,使用机器学习技术实现图像分割主要还是基于图像本身的图像特征,利用训练样本对神经网络模型进行有监督或者无监督的预训练,利用训练完成的模型,对待分割图像进行分割。
4.然而,这样仅仅基于图像本身的图像特征对神经网络模型进行预训练,没有充分利用其他特征,分割得到图像区域无法挖掘图像的深层特征,充分结合人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,造成分割结果不够准确,用户体验不足。因而,亟需一种更为准确、用户体验更好的图像分割方法。


技术实现要素:

5.有鉴于此,本说明书实施例提供了一种图像分割方法。本说明书一个或者多个实施例同时涉及一种遥感图像分割方法,一种图像分割装置,一种遥感图像分割装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
6.根据本说明书实施例的第一方面,提供了一种图像分割方法,包括:
7.获取待分割图像;
8.对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
9.根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量;
10.对提示文本向量进行特征提取,获得文本特征向量;
11.根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。
12.根据本说明书实施例的第二方面,提供了一种遥感图像分割方法,包括:
13.接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签;
14.对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
15.根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量;
16.对提示文本向量进行特征提取,获得文本特征向量;
17.根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。
18.根据本说明书实施例的第三方面,提供了一种图像分割装置,包括:
19.第一获取模块,被配置为获取待分割图像;
20.第一提取模块,被配置为对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
21.第一构建模块,被配置为根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量;
22.第二提取模块,被配置为对提示文本向量进行特征提取,获得文本特征向量;
23.第一分割模块,被配置为根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。
24.根据本说明书实施例的第三方面,提供了一种遥感图像分割装置,包括:
25.接收模块,被配置为接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签;
26.第三提取模块,被配置为对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
27.第二构建模块,被配置为根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量;
28.第四提取模块,被配置为对提示文本向量进行特征提取,获得文本特征向量;
29.第二分割模块,被配置为根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。
30.根据本说明书实施例的第五方面,提供了一种计算设备,包括:
31.存储器和处理器;
32.所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像分割方法或者遥感图像分割方法的步骤。
33.根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述图像分割方法或者遥感图像分割方法的步骤。
34.根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像分割方法或者遥感图像分割方法的步骤。
35.本说明书一个实施例或多个实施例中,获取待分割图像,对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量,对提示文本向量进行特征提取,获得文本特征向量,根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。对待分割图像进行特征提取,得到全局图像特征向量和局部图像特征向量,并根据全局图像特征向量、随机文本向量和预设类别标签构建得到提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并提升了用户体验。
附图说明
36.图1是本说明书一个实施例提供的一种图像分割方法的流程图;
37.图2是本说明书一个实施例提供的一种遥感图像分割方法的流程图;
38.图3是本说明书一个实施例提供的一种应用于遥感图像的实体识别的图像分割方法的处理过程流程图;
39.图4是本说明书一实施例提供的一种图像分割系统的系统架构图;
40.图5a是本说明书一实施例提供的一种遥感图像分割方法的待分割遥感图像示意图;
41.图5b是本说明书一实施例提供的一种遥感图像分割方法的待分割遥感图像的分割结果示意图;
42.图6是本说明书一个实施例提供的一种图像分割装置的结构示意图;
43.图7是本说明书一个实施例提供的一种遥感图像分割装置的结构示意图;
44.图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
45.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
46.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
47.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
48.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
49.imagenet:一种用于图像分割的大型图像数据库,其中的图像数据添加有类别标签。
50.clip(learning transferable visual models from natural language supervision,从自然语言监督中学习可迁移的视觉模型):一种通过文本特征指导图像分割的分割方法,具体为利用图像和文本间的对应关对神经网络模型进行预训练,进而实现对待分割图像的深层特征挖掘,实现精准的图像分割。
51.denseclip(language-guided dense prediction with context-aware prompting,具有上下文感知提示的语言引导密集预测):一种利用文本特征指导图像的分割方法,通过对图像特征的稠密化分析,实现像素-文本级别的图像分割。
52.sift(scale-invariant feature transform,尺度不变特征变换算法):一种图像
update、nestrevo momentum update、adagrad、adadelta、rmsprop、adam等方法。
66.目前,clip是预先利用对应的文本和图像样本,对神经网络模型进行预训练,来实现对待分割图像的分割,但其未能充分利用待分割图像自身的相关特征,导致分割结果完全取决于神经网络模型的训练效果,在训练样本不足或者神经网络模型训练效果不足时,对于待分割图像的分割结果准确度不足,在下游的分割结果处理时,无法满足人们的图像使用习惯,得到良好的处理结果,用户体验不足。
67.在clip基础上的denseclip通过对图像特征的稠密化处理,在图像-文本对应特征的基础上得到了像素-文本的对应特征,一定程度上提升了图像分割的准确度,然而其采用统一形式的提示文本向量,来做后续的图像分割,导致了后续无法根据图像本身的高维特征,生成更有针对性的提示文本向量,进而得到更有针对性的文本特征,来与图像特征结合来提升对于单个图像的分割准确度。即通过对神经网络模型的预训练,对应得到静态分析能力,未能充分利用待分割图像自身的相关特征,导致分割结果完全取决于神经网络模型的训练效果,并且难以提升神经网络模型的性能,对于待分割图像的分割结果准确度不足,在下游的分割结果处理时,无法满足人们的图像使用习惯,得到良好的处理结果,用户体验不足。
68.基于上述问题,在本说明书中,提供了一种图像分割方法,本说明书同时涉及一种遥感图像分割方法,一种图像分割装置,一种遥感图像分割装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
69.参见图1,图1示出了本说明书一个实施例提供的一种图像分割方法的流程图,具体包括以下步骤。
70.步骤s102:获取待分割图像。
71.待分割图像为包含多个实体的多媒体图像,可以为图像采集设备采集得到的真实图像,可以为通过图像生成软件生成的虚拟图像,在此不作限定。待分割图像可以为图片、视频帧等形式,在此也不作限定。
72.获取待分割图像,可以为接收用户发送的待分割图像,也可以为通过本地或者远程数据库获取得到的待分割图像。
73.示例性地,接收用户发送的待分割图像image_1。
74.通过获取待分割图像,为后续进行图像特征提取,提供了特征素材基础。
75.步骤s104:对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量。
76.全局图像特征为表征待分割图像的全局高维特征的图像特征,用于表征图像的颜色、纹理、形状、结构、实体分布等特征。全局图像特征向量为全局图像特征的高维向量。局部图像特征为表征待分割图像的局部低维特征的图像特征,用于表征图像的像素、实体边缘等特征。局部图像特征向量为局部图像特征的低维向量。局部图像特征向量可以表征为多张表征不同维度图像特征的特征向量图。
77.对待分割图像进行特征提取,对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,具体方式为,利用图像特征提取算法,对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量。其中,图像特征提取算法可以为非机器学习算法,例如,sift、hog、orb。也可以为机器学习算法,例如,vgg模型、resnet模型、cnn模
型、vit模型等。预先训练的图像特征提取模型,包括全局特征提取模块和局部特征提取模块。
78.示例性地,利用sift算法,对待分割图像进行特征提取,获得全局图像特征向量i和局部图像特征向量image embedding。
79.通过对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,不仅仅局限于局部的图像特征,为后续进行图像分割提供了特征向量基础,并且得到了全局图像特征,为后续构建提示文本向量奠定了特征基础。
80.步骤s106:根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量。
81.随机文本向量为根据随机噪声生成的文本向量,随机文本向量不与实体类别相对应,可以通过后续特征提取,得到对应的实体类别信息,进而表征对应的实体类别特征。具体地,获取随机噪声,对随机噪声进行文本向量编码,生成随机文本向量。
82.预设类别标签为对神经网络模型预先训练后得到的样本图像中样本实体的类别标签向量,例如,样本图像中包含10个实体(椅子、桌子、台灯等),通过该样本图像对神经网络模型进行预先训练的,识别出其中的10个实体的类别,对应给出类别标签。预设类别标签在后续特征编译过程中,对局部图像特征进行有提升性的编译,进而分割得到待分割图像中对应的实体。
83.提示文本向量为在文本特征上附加有其他模态特征的文本向量,提示文本向量用于在图像处理中通过多模态特征对应规定图像处理的处理方向。
84.根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量,具体方式为,将随机文本向量、全局图像特征向量和预设类别标签进行向量融合,得到提示文本向量。其中融合的方式可以为利用神经网络模型的全连接层进行特征融合,也可以为直接进行向量拼接,在此不作限定。
85.示例性地,利用神经网络模型的全连接层随机文本向量v,全局图像特征向量i和预设类别标签cls进行特征融合,得到提示文本向量prompt。
86.根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割图像都充分挖掘其自身的深层特征,使得每个待分割图像都具有对应的动态提示文本向量,进一步加强了文本特征和图像特征之间的相关性。
87.步骤s108:对提示文本向量进行特征提取,获得文本特征向量。
88.文本特征向量为包含待分割图像中实体类别特征、文本特征和全局图像特征的融合向量。
89.对提示文本向量进行特征提取,获得文本特征向量,具体方式为,利用文本提取算法,对提示文本向量进行特征提取,获得文本特征向量。其中,文本特征提取算法可以为非机器学习算法,例如,独热编码、tf-idf。也可以为机器学习算法,例如,transformer模型及其衍生模型等。
90.示例性地,利用tf-idf,对提示文本向量prompt进行特征提取,获得文本特征向量text embedding。
91.对提示文本向量进行特征提取,获得文本特征向量,得到了更丰富、更有针对性、
更深层的文本特征向量,为后续进行特征编译,确定分割结果提供了特征向量基础,并且提升了后续分割结果的准确度。
92.步骤s110:根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。
93.特征编译为根据特征向量的相关性,对多个特征向量进行特征对齐,利用对齐后的特征向量对待分割图像进行图像分割。具体地,特征编译包括:特征对齐和图像分割。特征对齐为将局部图像特征向量和文本特征向量进行特征对齐,使得局部图像特征向量与文本特征向量建立局部图像特征上的图像-文本对应关系。
94.示例性地,根据局部图像特征向量image embedding和文本特征向量text embedding,经过特征对齐,得到对齐后的特征向量embedding,根据特征向量embedding对待分割图像进行图像分割。
95.本说明书实施例中,获取待分割图像,对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量,对提示文本向量进行特征提取,获得文本特征向量,根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。对待分割图像进行特征提取,得到全局图像特征向量和局部图像特征向量,并根据全局图像特征向量、随机文本向量和预设类别标签构建得到提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并提升了用户体验。
96.可选地,步骤s106包括如下具体步骤:
97.对全局图像特征向量进行维度映射,获得与随机文本向量的向量维度相同的全局图像特征向量;
98.对随机文本向量、维度映射后的全局图像特征向量和预设类别标签进行拼接,获得提示文本向量。
99.维度映射为将不同维度的向量映射至统一维度,进而在后续进行向量计算,具体的维度映射方法可以为利用映射器(projector),映射器可以为一种全连接层的神经网络模型的模块,也可以为利用预设的转置矩阵,将不同维度的向量映射至统一维度,在此不作限定。
100.对随机文本向量、维度映射后的全局图像特征向量和预设类别标签进行拼接,获得提示文本向量,具体方式为,将维度映射后的全局图像特征向量,对应拼接至随机文本向量和预设类别标签,获得提示文本向量
101.示例性地,随机文本向量为vn(v1-v20),为20个512维度的向量,预设类别标签为clsn,为对应的20个预设类别标签,全局图像特征向量i为1024维度的向量,通过转置矩阵t1,对全局图像特征向量进行维度映射,获得512维度的全局图像特征向量i’。将维度映射后的全局图像特征向量i’,对应拼接至20个随机文本向量和预设类别标签,获得20个512维度的提示文本向量prompt为:prompt1{v1+i’+cls1},prompt2{v2+i’+cls2},prompt3{v3+i’+cls3}
……
prompt20{v20+i’+cls20}。
102.对全局图像特征向量进行维度映射,获得与随机文本向量的向量维度相同的全局
图像特征向量,对随机文本向量、维度映射后的全局图像特征向量和预设类别标签进行拼接,获得提示文本向量。而且通过维度映射,保证了后续拼接的可行性,同时对单个待分割图像都充分挖掘其自身的深层特征,使得每个待分割图像都具有对应的动态提示文本向量,进一步加强了文本特征和图像特征之间的相关性。
103.可选地,在步骤s110之前,还包括如下具体步骤:
104.对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量;
105.基于目标文本特征向量,对文本特征向量进行微调,获得更新的文本特征向量。
106.交叉注意力计算为通过对神经网络模型预训练,得到各向量对应的向量权重,交叉注意力机制就是要通过权重矩阵来确定向量间深层特征关系,使得利用相应权重进行加权计算得到的图像处理结果向量,不仅仅表征自身的特征,还能表征其相关向量的深层特征。
107.对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量,具体方式为,对文本特征向量和局部图像特征向量进行交叉注意力计算,得到其对应的向量权重,根据加权计算得到目标文本特征向量。
108.基于目标文本特征向量,对文本特征向量进行微调,获得更新的文本特征向量,具体方式为,基于目标文本向量的实体类别特征,对文本特征向量进行微调,获得更新的文本特征向量。
109.示例性地,对文本特征向量text embedding和局部图像特征向量image embedding进行交叉注意力计算,得到其对应的向量权重ω1和ω2,根据向量权重ω1和ω2,进行加权计算得到目标文本特征向量target text embedding。基于目标文本向量target text embedding的实体类别特征,对文本特征向量text embedding进行微调,得到更新的文本特征向量text embedding。
110.对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量,基于目标文本特征向量,对文本特征向量进行微调,获得更新的文本特征向量。通过交叉注意力机制,使得文本特征向量和全局图像特征向量可以更深层表征彼此的特征,得到更丰富、深层特征的文本特征向量,进而在后续特征编译中,得到更准确的分割结果。
111.可选地,对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量,包括如下具体步骤:
112.利用预设的多层结构翻译模型解码器,对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量。
113.多层结构翻译模型为一种多隐藏层结构的文本翻译模型,该多层结构翻译模型的解码器为对表征了更深层向量间的特征向量的译码模块。多层结构翻译模型可以为transformer模型及其衍生模型,在此不作限定。
114.多层结构翻译模型为具有交叉注意力机制的神经网络模型的多隐藏层模型,以transformer模型为例,设置对应的qkv(query,key,value,查询、键、值加权全连接层计算),将文本特征向量设置查询向量,将局部图像特征向量设置为键向量和值向量,得到对应的向量权重ω1和ω2,确定目标文本特征向量。
115.示例性地,将文本特征向量text embedding设置查询向量q,将局部图像特征向量
image embedding设置为键向量k和值向量v,得到对应的向量权重ω1和ω2利用transformer模型解码层,进行加权计算得到目标文本特征向量target text embedding。
116.利用预设的多层结构翻译模型解码器,对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量。使得文本特征向量和全局图像特征向量可以更深层表征彼此的特征,进一步得到更丰富、深层特征的文本特征向量,进而在后续特征编译中,得到更准确的分割结果,并且提升了特征编译效率,提升了图像分割效率。
117.可选地,步骤s110包括如下具体步骤:
118.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量;
119.基于特征对齐向量和局部图像特征向量,经过特征编译,确定待分割图像的分割结果。
120.特征对齐向量为包含局部图像特征和文本特征的多模态特征,特征对齐向量中局部图像特征和文本特征具有空间对应关系。
121.多尺度特征指对局部图像特征进行不同程度的上采样操作,从而得到不同尺度的局部图像特征,而文本特征还是原来的文本特征,将不同尺度的局部图像特征和文本特征进行特征对齐,就得到了不同尺度的多模态特征向量(特征对齐向量)。具体地,上采样操作根据一个预设的采样规则,例如,待分割图像是512x512大小,通过图像特征提取后得到局部图像特征向量对应的特征向量图的16x16的特征向量图,然后对该特征向量图进行3次上采样,分别是2倍、4倍、8倍的上采样,得到32x32,64x64,128x128大小的特征向量图。理论上,尺度越小的特征图表征的局部图像特征越为准确。
122.多尺度特征对齐为根据文本特征向量,对局部图像特征向量进行更细粒度的特征对齐,例如,进行像素-文本级别的特征对齐,使得每个像素都对应表征文本特征。特征对齐可以为利用预先训练的神经网络模型进行特征向量的特征对齐,也可以为利用预设的向量对齐矩阵进行特征向量的特征对齐,还可以为将特征向量进行叉乘进行特征向量的特征对齐。
123.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量,具体方式为,对局部图像特征向量进行上采样,得到多尺度局部图像特征向量,利用文本特征向量对多尺度局部图像特征向量进行细粒度的特征对齐,得到特征对齐向量。
124.示例性地,对尺度为16x16的局部图像特征向量image embedding进行2倍、4倍、8倍的上采样,得到32x32,64x64,128x128大小的局部图像特征向量image embedding{image embedding_1,image embedding_2,image embedding_3},利用文本特征向量分别对32x32,64x64,128x128大小的局部图像特征向量image embedding{image embedding_1,image embedding_2,image embedding_3}进行像素-文本级别的特征对齐,得到特征对齐向量multi-scale alignment。
125.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量,基于特征对齐向量和局部图像特征向量,经过特征编译,确定待分割图像的分割结果。保证了特征对齐向量的准确度,使得后续特征编译得到分割结果更为准确。
126.可选地,对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量,包括如下具体步骤:
127.对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量。
128.对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量,具体方式为,利用局部图像特征向量和文本特征向量的转置矩阵相乘,得到特征对齐向量。
129.示例性地,利用局部图像特征向量image embedding和文本特征向量text embedding的转置矩阵(text embedding)t相乘,得到特征对齐向量multi-scale alignment。
130.通过对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量。快速对局部图像特征向量和文本特征向量进行特征对齐,计算得到了特征对齐向量,保证了特征对齐向量的准确度,保证了后续特征编译得到的分割结果的准确度。
131.可选地,基于特征对齐向量和局部图像特征向量,经过特征编译,确定待分割图像的分割结果,包括如下具体步骤:
132.对特征对齐向量和局部图像特征向量进行对应维度的拼接,获得拼接特征向量;
133.对拼接特征向量进行特征编译,获得待分割图像的分割结果。
134.本说明书实施例中的局部图像特征向量为多尺度局部图像特征向量,可以为实施例中经过多尺度上采样的局部图像特征向量,也可以为另外经过多尺度上采样的局部图像特征向量,在此不作限定。
135.对特征对齐向量和局部图像特征向量进行对应维度的拼接,获得拼接特征向量,具体方式为,利用特征对齐向量,分别对多尺度局部特征向量进行对应维度的拼接,获得拼接特征向量。
136.示例性地,利用特征对齐向量multi-scale alignment,分别对32x32,64x64,128x128大小的局部图像特征向量image embedding{image embedding_1,image embedding_2,image embedding_3}进行对应维度的拼接,获得拼接特征向量concatenate embedding。
137.对特征对齐向量和局部图像特征向量进行对应维度的拼接,获得拼接特征向量,对拼接特征向量进行特征编译,获得待分割图像的分割结果。使得局部图像特征都对应包含了预先包含有更丰富、更深度、更准确的对齐特征向量,同时避免了之前的特征对齐中使得部分特征进行了过拟合,导致局部图像特征无法充分在特征编译中体现,提升了分割结果的准确度。
138.可选地,步骤s104包括如下具体步骤:
139.将待分割图像输入预训练的图像编码器,利用图像编码器对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
140.对应地,步骤s108包括如下具体步骤:
141.将提示文本向量输入文本编码器,利用文本编码器对提示文本向量进行特征提取,获得文本特征向量;
142.对应地,步骤s110包括如下具体步骤:
143.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量;
144.将局部图像特征向量和特征对齐向量输入预训练的译码器,利用译码器对局部图像特征向量和特征对齐向量进行特征编译,确定待分割图像的分割结果。
145.本说明书实施例中局部图像特征向量为多尺度局部图像特征向量,为对应的多尺度特征向量图。
146.图像编码器为预先训练的图像特征提取模型,是一种神经网络模型,可以为vgg模型、resnet模型、cnn模型、vit模型等。包括全局图像特征提取模块和局部图像特征提取模块。文本编码器为预先训练的文本特征提取模型,是一种神经网络模型,可以为transformer模型及其衍生模型等。译码器为一种图像分类模型,是一种神经网络模型,可以对图像中的不同实体进行识别和分类,进而得到待分割图像的分割结果。可以为fcn模型、u-net模型、fpn模型等。
147.将待分割图像输入预训练的图像编码器,利用图像编码器对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,具体方式为,将待分割图像输入预训练的图像编码器,利用图像编码器的全局图像特征提取模块得到全局图像特征提取模块,利用图像编码器的局部图像特征提取模块提取得到局部图像特征向量。
148.将局部图像特征向量和特征对齐向量输入预训练的译码器,利用译码器对局部图像特征向量和特征对齐向量进行特征编译,确定待分割图像的分割结果,具体方式为,将局部图像特征向量和特征对齐向量输入预训练的译码器,利用译码器对局部图像特征向量和特征对齐向量进行特征编译,即基于特征对齐向量对局部图像特征向量的实体类型进行分类,基于实体类型分类结果,得到待分割图像的分割结果。其中,对局部图像特征向量的实体类型进行分类可以为不同粒度的分类,例如,2x2,4x4,8x8粒度的实体分类,或者1x1像素级别的实体分类,通过实体分类使得局部图像特征向量(即不同尺度的特征向量图上的各像素,确定其对应的实体类型),具体的确定方法可以为计算出各像素的实体类型置信度,进而确定置信度最高的一个或多个实体类型作为该像素的实体类型。
149.示例性地,将待分割图像(包含5个实体,实体1,实体2,实体3,实体4,实体5)输入预训练的vgg模型,利用vgg模型的全局图像特征提取模块得到全局图像特征提取模块i,利用vgg模型的局部图像特征提取模块提取得到局部图像特征向量image embedding。将提示文本向量prompt输入transformer模型,利用transformer模型对提示文本向量prompt进行特征提取,获得文本特征向量text embedding。将局部图像特征向量image embedding和特征对齐向量multi-scale alignment输入预训练的fpn模型,利用semantic fpn模型对image embedding和特征对齐向量multi-scale alignment进行特征编译,即基于特征对齐向量multi-scale alignment对局部图像特征向量image embedding的实体类型进行像素级别分类,对其中各个像素确定其实体类型的置信度,确定最高置信度的实体类型为该像素的实体类型,得到分类结果(实体1:桌子,实体2:椅子,实体3:台灯,实体4:猫,实体5:人),得到待分割图像的分割结果。
150.利用预训练的图像编码器对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,提升了获得的全局图像特征向量和局部图像特征向量的准确度,提升了提示文本向量的准确度、后续特征对齐向量的准确度和图像分割的准确度;利用预训练的文本编码器对提示文本向量进行特征提取,提升了文本特征向量的准确度、后续特征对齐向量的准确度和图像分割的准确度;利用预训练的译码器,提升了图像分割的准确度。同时利用预先训练的图像编码器、文本编码器和译码器,提升了图像分割的分割效率。
151.可选地,该方法还包括如下具体步骤:
152.获取样本图像集,其中,样本图像集包括多个样本图像及各样本图像对应的标签图像;
153.从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像,其中,第一样本图像为任一样本图像;
154.将第一样本图像输入预设的图像编码器,利用图像编码器对第一样本图像进行特征提取,获得第一全局图像特征向量和第一局部图像特征向量;
155.根据随机文本向量、第一全局图像特征向量和预设类别标签,构建第一提示文本向量;
156.将第一提示文本向量输入文本编码器,利用文本编码器对第一提示文本向量进行特征提取,获得第一文本特征向量;
157.对第一局部图像特征向量和第一文本特征向量进行多尺度特征对齐,得到第一特征对齐向量;
158.将第一局部图像特征向量和第一特征对齐向量输入预训练的译码器,利用译码器对第一局部图像特征向量和第一特征对齐向量进行特征编译,确定第一样本图像的分割结果;
159.根据第一样本图像的分割结果、第一特征对齐向量和第一标签图像,确定总损失;
160.基于总损失,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件。
161.样本图像集位于预先构建的样本图像的集合,包括多个样本图像及各样本图像对应的标签图像。样本图像为包含多个实体的多媒体图像样本,各样本图像对应的标签图像为预先进行了实体类别标注的多媒体图像样本,标注的方式可以为人工标注,也可以为利用预先训练的实体标注算法进行标注,实体标注算法可以为基于像素层级的像素值分类标注方法,也可以为利用神经网络模型进行图像特征分类的分类标注方法,在此不作限定。样本图像集可以为基于预先进行图像分割的分割结果构建得到的,也可以为通过开源数据库对应获取得到的,还可以为人工根据样本图像进行标注后得到的,在此不作限定。
162.第一全局图像特征为表征第一样本图像的全局高维特征的图像特征,用于表征图像的颜色、纹理、形状、结构、实体分布等特征。第一全局图像特征向量为第一全局图像特征的高维向量。
163.第一局部图像特征为表征第一样本图像的局部低维特征的图像特征,用于表征图像的像素、实体边缘等特征。第一局部图像特征向量为第一局部图像特征的低维向量。第一局部图像特征向量可以表征为多张表征不同维度图像特征的特征向量图。
164.第一提示文本向量为在第一文本特征上附加有其他模态特征的文本向量,第一提示文本向量用于在模型训练过程中通过多模态特征对应规定模型训练的训练方向。第一特征对齐向量为包含第一局部图像特征和第一文本特征的多模态特征,第一特征对齐向量中第一局部图像特征和第一文本特征具有空间对应关系。
165.总损失为将第一标签图像作为验证图像,与第一样本图像的分割结果和第一特征对齐向量分别进行损失值计算得到的分量损失值后,根据分量损失值确定的对于图像编码器和译码器进行模型性能评估的总损失值。
166.停止训练条件为预先设定的模型训练终止条件,可以为预设训练次数,即对模型进行迭代训练,在满足预设训练次数时结束训练,也可以为损失值阈值,在总损失值满足损失值阈值时结束训练。
167.根据第一样本图像的分割结果、第一特征对齐向量和第一标签图像,确定总损失,具体方式为,将第一标签图像作为验证图像,与第一样本图像的分割结果和第一特征对齐向量分别进行损失值计算得到的分量损失值后,根据分量损失值确定的对于图像编码器和译码器进行模型性能评估的总损失值。
168.基于总损失,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件,具体方式为,基于总损失,利用自动梯度更新方法,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件。
169.示例性地,获取样本图像集sample,其中,样本图像集包括多个样本图像image sample{image sample 1,image sample 2
……
image sample n}及各样本图像对应的标签图像image label{image label 1,image label 2
……
image label n},从样本图像集image sample中提取第一样本图像image sample m及第一样本图像对应的第一标签图像image label m,将第一样本图像image sample m输入预设的图像编码器,利用图像编码器对第一样本图像image sample m进行特征提取,获得第一全局图像特征向量i(m)和第一局部图像特征向量image embedding(m),根据随机文本向量v、第一全局图像特征向量i(m)和预设类别标签cls,构建第一提示文本向量prompt m,将第一提示文本向量prompt m输入文本编码器,利用文本编码器对第一提示文本向量prompt m进行特征提取,获得第一文本特征向量text embedding(m),对第一局部图像特征向量image embedding(m)和第一文本特征向量text embedding(m)进行多尺度特征对齐,得到第一特征对齐向量multi-scale alignment(m),将第一局部图像特征向量第一局部图像特征向量image embedding(m)和第一特征对齐向量multi-scale alignment(m)输入预训练的译码器,利用译码器对第一局部图像特征向量第一局部图像特征向量image embedding(m)和第一特征对齐向量multi-scale alignment(m)进行特征编译,确定第一样本图像的分割结果result m,根据第一样本图像的分割结果result m、第一特征对齐向量multi-scale alignment(m)和第一标签图像image labelm,确定总损失loss,基于总损失loss,利用自动梯度更新方法,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件。
170.获取样本图像集,其中,样本图像集包括多个样本图像及各样本图像对应的标签图像,从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像,其中,第一样本图像为任一样本图像,将第一样本图像输入预设的图像编码器,利用图像编码器对第一样本图像进行特征提取,获得第一全局图像特征向量和第一局部图像特征向量,根据随机文本向量、第一全局图像特征向量和预设类别标签,构建第一提示文本向量,将第一提示文本向量输入文本编码器,利用文本编码器对第一提示文本向量进行特征提取,获得第一文本特征向量,对第一局部图像特征向量和第一文本特征向量进行多尺度特征对齐,得到第一特征对齐向量,将第一局部图像特征向量和第一特征对齐向量输入预训练的译码器,利用译码器对第一局部图像特征向量和第一特征对齐向量进行特征编译,确定第一样本图像的分割结果,根据第一样本图像的分割结果、第一特征对齐向量和第一标签图像,确定总损失,基于总损失,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一
样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件。通过第一图像样本和第一标签图像,对图像编码器和译码器进行了有监督的模型训练,并通过总损失来调整图像编码器和译码器的参数,在达到停止训练条件时,结束训练得到训练完成的图像编码器和译码器,保证了训练得到的模型的性能和准确度,提升了图像分割的准确度。
171.可选地,根据第一样本图像的分割结果、第一特征对齐向量和第一标签图像,确定总损失,包括如下具体步骤:
172.根据第一样本图像的分割结果和第一标签图像,利用预设的分割损失函数,计算分割损失;
173.根据第一特征对齐向量和第一标签图像,利用预设的对齐损失函数,计算对齐损失;
174.根据第一特征对齐向量和第一标签图像,利用预设的对比损失函数,计算对比损失;
175.对分割损失、对齐损失和对比损失进行加权,获得总损失。
176.目前,denseclip中采用一个预设类别标签的损失,即仅通过分割损失来进行模型的参数调整,这样的损失值的约束较弱,在特征未对齐和未对比良好的情况下,难以保证样本对模型的训练效果,严重影响了分割结果的准确度,本说明书实施例中,通过添加了对齐损失和对比损失,提升了约束,提升了对模型的训练效果,提升了分割结果的准确度。
177.分割损失为表征风格结果中实体类型的分类损失值。对齐损失为表征特征对齐向量中特征之间的对齐后的空间损失,对比损失为表征特征对齐向量中各特征的对应损失。
178.对分割损失、对齐损失和对比损失进行加权,获得总损失,具体方式为,利用预设的损失权重,对分割损失、对齐损失和对比损失进行加权,获得总损失。具体的加权计算为利用公式1进行,公式1如下所示:
179.loss=γ1loss_seg+γ2loss_align+γ3loss_contrast
ꢀꢀꢀꢀꢀꢀꢀꢀ
公式1
180.其中,loss表示总损失,γ1表示分割损失的权重,loss_seg表示分割损失,γ2表示对齐损失的权重,loss_align表示对齐损失,γ3表示对比损失的权重,loss_contrast表示对比损失。
181.示例性地,根据第一样本图像的分割结果和第一标签图像,利用预设的分割损失函数,计算分割损失为0.18,根据第一特征对齐向量和第一标签图像,利用预设的对齐损失函数,计算对齐损失为0.24,根据第一特征对齐向量和第一标签图像,利用预设的对比损失函数,计算对比损失为0.36,分割损失的权重为0.4,对齐损失的权重为0.2,对比损失的权重为0.4,利用公式1对分割损失0.18、对齐损失0.24和对比损失0.36进行加权,获得总损失为0.264。
182.根据第一样本图像的分割结果和第一标签图像,利用预设的分割损失函数,计算分割损失,根据第一特征对齐向量和第一标签图像,利用预设的对齐损失函数,计算对齐损失,根据第一特征对齐向量和第一标签图像,利用预设的对比损失函数,计算对比损失,对分割损失、对齐损失和对比损失进行加权,获得总损失。保证了总损失的准确度,进而保证了训练得到的模型的性能和准确度,提升了图像分割的准确度。
183.可选地,根据第一特征对齐向量和第一标签图像,利用预设的对比损失函数,计算对比损失,包括如下具体步骤:
184.利用预设的对比损失函数,对第一特征对齐向量和第一标签图像进行逐样本点的对比损失计算,获得对比损失。
185.样本点为第一特征对齐向量和第一标签图像上的特征样本点,为预设粒度的图像特征点,例如1x1,2x2,4x4,8x8粒度的特征样本点。样本点包含难样本点和易样本点,对应于图像中难以进行实体分类的特征样本点和容易进行实体分类的特征样本点,难易是由对比损失和预先设定的对比损失阈值比较确定的。
186.在确定了样本点的难易后,对应进行标注,作为此次训练的训练结果,可以加入后续的迭代训练中,通过先易样本点后难样本点的顺序进行训练,提升了模型的训练效果。
187.利用预设的对比损失函数,对第一特征对齐向量和第一标签图像进行逐样本点的对比损失计算,获得对比损失。为后续确定模型训练提供了参考数据,提升了模型的训练效果,提升了后续分割结果的准确度。
188.可选地,在步骤s110之后,还包括如下具体步骤:
189.将待分割图像的分割结果发送至前端进行显示,以使用户在前端对分割结果进行编辑;
190.接收前端反馈的编辑结果;
191.将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。
192.前端为可执行上述步骤s102-步骤s110的具有图像分割功能的客户端的前端。
193.通过将分割结果发送至前段进行显示,使得用户可以在直接观察分割结果的视觉效果后,执行更进一步的编辑操作。
194.编辑结果为用户对前端显示的分割结果进行编辑操作后得到的图像处理结果,编辑操作可以为调整分割结果中实体的图像区域,也可以为调整分割结果的图像比例、大小、颜色、对比度等显示参数,还可以为调整分割结果中实体的类别,在此不作限定。
195.图形分割模型为具有图像分割功能的模型,包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。图像编码器为具有图像特征提取功能的神经网络模型,可以为vgg模型、resnet模型、cnn模型、vit模型等。文本编码器为具有文本特征提取功能的神经网络模型,可以为transformer模型及其衍生模型等。译码器为具有对图像中实体分类功能的神经网络模型,可以对图像中的不同实体进行识别和分类,进而得到待分割图像的分割结果。可以为fcn模型、u-net模型、fpn模型等。
196.将待分割图像的分割结果发送至前端进行显示,具体方式为,将待分割图像的分割结果中不同的实体区域进行类别标注后,发送至前端进行显示。类别标注的方式可以为文字标注,也可以为轮廓标注,还可以为颜色标注,在此不作限定。
197.示例性地,接收用户通过具有图像分割功能的客户端发送的待分割图像,待分割图像为包含有5个实体的照片,通过执行步骤s102-步骤s110,得到该照片的分割结果,并对分割结果中5个实体的图像区域用不同颜色的类别标注,将经过类别标注的分割结果显示在客户端的前端。接收前端反馈的编辑结果。
198.由于用于图像分割模型训练的样本集一般都为通用样本集,例如ade20k,coco-stuff10k,ade20k-full等样本集,但是在用户实际使用过程中,可能需要更符合实际应用
场景的样本图像和对应的标签图像,而人工构建大量的对应的样本图像和标签图像成本较高,因而可以将分割结果显示在前端后进行用户编辑,得到更符合时间应用场景的编辑结果,作为样本图像,来对图像编码器和译码器进行训练,提升分割结果的准确度,同时节省了模型训练的成本。
199.示例性地,通用样本集中红绿灯是横向的,基于该通用样本集来进行模型训练,会对横向的红绿灯进行实体识别后来分割得到分割结构,而另一地区的红绿灯是竖向的,这样的通用样本集难以分割出包含竖向红绿灯的待分割图像,需要用户进行编辑操作,得到编辑结果作为样本图像在对图像分割模型训练,提升图像分割模型识别并分割该地区竖向红绿灯的能力。
200.将待分割图像的分割结果发送至前端进行显示,可以直观地显示给用户分割结果,使得用户进一步对分割结果进行处理,提升了用户体验。接收前端反馈的编辑结果,将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。提升了图像分割模型的训练效果,提升了对后续待分割图像进行分割的效果,提升了后续分割结果的准确度。
201.参见图2,图2示出了本说明书一个实施例提供的一种遥感图像分割方法的流程图,具体包括以下步骤。
202.步骤s202:接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签;
203.步骤s204:对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
204.步骤s206:根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量;
205.步骤s208:对提示文本向量进行特征提取,获得文本特征向量;
206.步骤s210:根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。
207.本说明书实施例应用在具有遥感图像分割功能的功能服务提供端。
208.遥感图像分割指令为用户通过客户端上传待分割遥感图像和目标分割物的类别标签后,客户端生成并发送给功能服务提供端的图形分割指令。
209.待分割遥感图像为包含多个地表实体的遥感多媒体图像,为遥感图像采集设备采集得到的真实遥感图像,待分割遥感图像可以为图片、视频帧等形式,在此也不作限定。目标分割物为用户需要进行实体识别并分割得到对用图像的地表实体,目标分割物的类别标签为预设变迁类别中与目标分割物对应的一个。
210.本说明书实施例中的具体实现方式已经在上述图1说明书实施例中进行了详尽说明,在此不再赘述。
211.本说明书实施例中,接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签,对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量,根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量,对提示文本向量进行特征提取,获得文本特征向量,根据局部图像特征
向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。对待分割遥感图像进行特征提取,得到全局图像特征向量和局部图像特征向量,并根据全局图像特征向量、随机文本向量和预设类别标签构建得到提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割遥感图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并提升了用户体验。
212.可选地,在步骤s210之后,还包括如下具体步骤:
213.将待分割遥感图像的分割结果发送至前端进行显示,以使用户在前端对分割结果进行编辑;
214.接收前端反馈的编辑结果;
215.将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。
216.前端为具有遥感图像分割功能的客户端的前端。
217.通过将分割结果发送至前端进行显示,使得用户可以在直接观察分割结果的视觉效果后,执行更进一步的编辑操作。
218.编辑结果为用户对前端显示的分割结果进行编辑操作后得到的图像处理结果,编辑操作可以为调整分割结果中地表实体的图像区域,也可以为调整分割结果的图像比例、大小、颜色、对比度等显示参数,还可以为调整分割结果中地表实体的类别,在此不作限定。
219.图形分割模型为具有图像分割功能的模型,包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。图像编码器为具有图像特征提取功能的神经网络模型,可以为vgg模型、resnet模型、cnn模型、vit模型等。文本编码器为具有文本特征提取功能的神经网络模型,可以为transformer模型及其衍生模型等。译码器为具有对图像中地表实体分类功能的神经网络模型,可以对图像中的不同地表实体进行识别和分类,进而得到待分割遥感图像的分割结果。可以为fcn模型、u-net模型、fpn模型等。
220.将待分割遥感图像的分割结果发送至前端进行显示,具体方式为,将待分割遥感图像的分割结果中不同地表实体的图像区域进行类别标注后,发送至前端进行显示。类别标注的方式可以为文字标注,也可以为轮廓标注,还可以为颜色标注,在此不作限定
221.示例性地,接收用户通过具有图像分割功能的客户端发送的待分割遥感图像,待分割遥感图像为包含有3类地表实体(湖泊、道路、建筑物)的遥感卫星图,目标分割物为建筑物,通过执行步骤s202-步骤s210,得到该遥感卫星图的分割结果,并对分割结果中的建筑物的图像区域用不同轮廓的类别标注,将经过类别标注的分割结果显示在客户端的前端。接收用户反馈的编辑结果,编辑结果为用户对分割结果中建筑物的图像区域进行了调整得到的图像处理结果。
222.由于用于图像分割模型训练的样本集一般都为通用样本集,例如ade20k,coco-stuff10k,ade20k-full等样本集,但是在用户实际使用过程中,可能需要更符合实际应用场景的样本图像和对应的标签图像,而人工构建大量的对应的样本图像和标签图像成本较高,因而可以将分割结果显示在前端后进行用户编辑,得到更符合时间应用场景的编辑结
果,作为样本图像,来对图像编码器和译码器进行训练,提升分割结果的准确度,同时节省了模型训练的成本。
223.示例性地,通用样本集中建筑物是高密度的,基于该通用样本集来进行模型训练,会对高密度的地表实体进行实体识别后来分割得到建筑物的目标分割物,而某些地区的建筑物是低密度的,这样的通用样本集难以在该地区的待分割遥感图像分割出的建筑物,需要用户进行编辑操作,得到编辑结果作为样本图像在对图像分割模型训练,提升图像分割模型识别并分割该地区低密度建筑物的能力。
224.将待分割遥感图像的分割结果发送至前端进行显示,可以直观地显示给用户分割结果,使得用户进一步对分割结果进行处理,提升了用户体验。接收用户对分割结果进行编辑操作后反馈的编辑结果,更能满足用户实际使用需求,提升了遥感图像分割的适应性和准确度,提升了用户体验。将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。提升了图像分割模型的训练效果,提升了对后续待分割遥感图像进行分割的效果,提升了后续分割结果的准确度。
225.下述结合附图3,以本说明书提供的图像分割方法在遥感图像的实体识别的应用为例,对所述图像分割方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种应用于遥感图像的实体识别的图像分割方法的处理过程流程图,具体包括以下步骤。
226.步骤s302:接收用户通过客户端发送的待分割遥感图像;
227.待分割遥感图像为包括多个地表实体的多媒体图像。多个地表实体可以为道路、树木、储油罐、交通载具、建筑等。
228.步骤s304:将待分割遥感图像输入vit模型,利用vit模型对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
229.步骤s306:对全局图像特征向量进行维度映射,获得与随机文本向量的向量维度相同的全局图像特征向量;
230.步骤s308:对随机文本向量、维度映射后的全局图像特征向量和预设类别标签进行拼接,获得提示文本向量;
231.步骤s310:根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量;
232.步骤s312:将提示文本向量输入transformer模型,利用transformer模型对提示文本向量进行特征提取,获得文本特征向量;
233.步骤s314:利用预设的6层结构的transformer模型,对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量;
234.步骤s316:基于目标文本特征向量,对文本特征向量进行微调,获得更新的文本特征向量;
235.步骤s318:对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量;
236.步骤s320:对特征对齐向量和局部图像特征向量进行对应维度的拼接,获得拼接特征向量;
237.步骤s322:将局部图像特征向量和特征对齐向量输入semantic fpn模型,利用
semantic fpn模型对局部图像特征向量和特征对齐向量进行特征编译,确定待分割遥感图像的分割结果;
238.步骤s324:将分割结果发送至客户端的前端进行显示。
239.本说明书实施例中,利用vit模型对待分割遥感图像进行特征提取,得到全局图像特征向量和局部图像特征向量,对全局图像特征向量进行维度映射后与随机文本向量和预设类别标签拼接得到提示文本向量,再基于交叉注意力机制和transformer模型,挖掘了提示文本向量更丰富且深层的特征,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并且对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量,保证了后续分割结果的特征相关性,进一步提升了分割结果的准确度,利用semantic fpn模型进行图像分割,再一次提升了分割结果的准确度。
240.图4示出了本说明书一实施例提供的一种图像分割系统的系统架构图。
241.如图4所示,将待分割图像输入图像编码器,提取得到全局图像特征向量和局部图像特征向量,将全局图像特征向量输入映射器,经过维度映射,与随机文本向量和预设类别标签进行拼接,构建得到提示文本向量,将提示文本向量输入文本编码器,提取得到文本特征向量,将文本特征向量和局部图像特征向量输入transformer模型,利用交叉注意力机制,对文本特征向量进行微调,得到更新后的文本特征向量,将文本特征向量和局部图像特征向量进行特征对齐,得到特征对齐向量,将特征对齐向量和局部图像特征向量进行级联后,输入译码器得到待分割图像的分割结果,利用分割结果和预先获取的标签图像进行分割损失计算,得到分割损失,利用预先获取的标签图像与对齐特征向量分别进行对比损失计算和对齐损失计算,得到对比损失和对齐损失。分割损失、对比损失和对齐损失用来调整图像编码器和译码器的参数。
242.图5a示出了本说明书一实施例提供的一种遥感图像分割方法的待分割遥感图像示意图。图5b示出了本说明书一实施例提供的一种遥感图像分割方法的待分割遥感图像的分割结果示意图。
243.本说明书实施例为具有遥感图像分割功能的客户端的前端显示。
244.如图5a所示,待分割遥感图像中包括道路和储油罐的地表实体,图5a为未进行图像分割的待分割遥感图像,通过将预设类别标签设定为“储油罐”对应的向量,经过图2实施例的遥感图像分割方法的处理,得到分割结构,如图5b所示,对待分割遥感图像中的储油罐进行了对应的实体识别,分割得到储油罐对应的实体图像,而未对非预设类别标签的其他地表实体(道路)进行实体识别。
245.与上述方法实施例相对应,本说明书还提供了图像分割装置实施例,图6示出了本说明书一个实施例提供的一种图像分割装置的结构示意图。如图6所示,该装置包括:
246.第一获取模块602,被配置为获取待分割图像;
247.第一提取模块604,被配置为对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
248.第一构建模块606,被配置为根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量;
249.第二提取模块608,被配置为对提示文本向量进行特征提取,获得文本特征向量;
250.第一分割模块610,被配置为根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。
251.可选地,第一构建模块606被进一步配置为:
252.对全局图像特征向量进行维度映射,获得与随机文本向量的向量维度相同的全局图像特征向量;对随机文本向量、维度映射后的全局图像特征向量和预设类别标签进行拼接,获得提示文本向量。
253.可选地,该装置还包括:
254.更新模块,被配置为对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量;基于目标文本特征向量,对文本特征向量进行微调,获得更新的文本特征向量。
255.可选地,更新模块被进一步配置为:
256.利用预设的多层结构翻译模型解码器,对文本特征向量和局部图像特征向量进行交叉注意力计算,确定目标文本特征向量。
257.可选地,第一分割模块610被进一步配置为:
258.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量;基于特征对齐向量和局部图像特征向量,经过特征编译,确定待分割图像的分割结果。
259.可选地,第一分割模块610被进一步配置为:
260.对局部图像特征向量和文本特征向量进行叉乘运算,得到特征对齐向量。
261.可选地,第一分割模块610被进一步配置为:
262.对特征对齐向量和局部图像特征向量进行对应维度的拼接,获得拼接特征向量;
263.对拼接特征向量进行特征编译,获得待分割图像的分割结果。
264.可选地,第一提取模块604被进一步配置为:
265.将待分割图像输入预训练的图像编码器,利用图像编码器对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
266.对应地,第二提取模块608被进一步配置为:
267.将提示文本向量输入文本编码器,利用文本编码器对提示文本向量进行特征提取,获得文本特征向量;
268.对应地,第一分割模块610被进一步配置为:
269.对局部图像特征向量和文本特征向量进行多尺度特征对齐,得到特征对齐向量;将局部图像特征向量和特征对齐向量输入预训练的译码器,利用译码器对局部图像特征向量和特征对齐向量进行特征编译,确定待分割图像的分割结果。
270.可选地,该装置还包括:
271.训练模块,被配置为获取样本图像集,其中,样本图像集包括多个样本图像及各样本图像对应的标签图像;从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像,其中,第一样本图像为任一样本图像;将第一样本图像输入预设的图像编码器,利用图像编码器对第一样本图像进行特征提取,获得第一全局图像特征向量和第一局部图像特征向量;根据随机文本向量、第一全局图像特征向量和预设类别标签,构建第一提示文本向量;将第一提示文本向量输入文本编码器,利用文本编码器对第一提示文本向量进行特
征提取,获得第一文本特征向量;对第一局部图像特征向量和第一文本特征向量进行多尺度特征对齐,得到第一特征对齐向量;将第一局部图像特征向量和第一特征对齐向量输入预训练的译码器,利用译码器对第一局部图像特征向量和第一特征对齐向量进行特征编译,确定第一样本图像的分割结果;根据第一样本图像的分割结果、第一特征对齐向量和第一标签图像,确定总损失;基于总损失,调整图像编码器和译码器的参数,并返回执行从样本图像集中提取第一样本图像及第一样本图像对应的第一标签图像的步骤,直至达到停止训练条件。
272.可选地,训练模块被进一步配置为:
273.根据第一样本图像的分割结果和第一标签图像,利用预设的分割损失函数,计算分割损失;根据第一特征对齐向量和第一标签图像,利用预设的对齐损失函数,计算对齐损失;根据第一特征对齐向量和第一标签图像,利用预设的对比损失函数,计算对比损失;对分割损失、对齐损失和对比损失进行加权,获得总损失。
274.可选地,训练模块被进一步配置为:
275.利用预设的对比损失函数,对第一特征对齐向量和第一标签图像进行逐样本点的对比损失计算,获得对比损失。
276.可选地,该装置还包括:
277.第一编辑训练模块,被配置为将待分割图像的分割结果发送至前端进行显示,以使用户在前端对分割结果进行编辑,接收前端反馈的编辑结果,将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。
278.本说明书实施例中,获取待分割图像,对待分割图像进行特征提取,获得全局图像特征向量和局部图像特征向量,根据随机文本向量、全局图像特征向量和预设类别标签,构建提示文本向量,对提示文本向量进行特征提取,获得文本特征向量,根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割图像的分割结果。对待分割图像进行特征提取,得到全局图像特征向量和局部图像特征向量,并根据全局图像特征向量、随机文本向量和预设类别标签构建得到提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并提升了用户体验。
279.上述为本实施例的一种图像分割装置的示意性方案。需要说明的是,该图像分割装置的技术方案与上述的图像分割方法的技术方案属于同一构思,图像分割装置的技术方案未详细描述的细节内容,均可以参见上述图像分割方法的技术方案的描述。
280.与上述方法实施例相对应,本说明书还提供了遥感图像分割装置实施例,图7示出了本说明书一个实施例提供的一种遥感图像分割装置的结构示意图。如图7所示,该装置包括:
281.接收模块702,被配置为接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签;
282.第三提取模块704,被配置为对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量;
283.第二构建模块706,被配置为根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量;
284.第四提取模块708,被配置为对提示文本向量进行特征提取,获得文本特征向量;
285.第二分割模块710,被配置为根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。
286.可选地,该装置还包括:
287.第一编辑训练模块,被配置为将待分割遥感图像的分割结果发送至前端进行显示,以使用户在前端对分割结果进行编辑,接收前端反馈的编辑结果,将编辑结果作为样本图像,对图像分割模型进行训练,其中,图像分割模型包括进行图像特征提取的图像编码器、进行文本特征提取的文本编码器和进行特征译码的译码器。
288.本说明书实施例中,接收用户输入的遥感图像分割指令,其中,遥感图像分割指令包括待分割遥感图像和目标分割物的类别标签,对待分割遥感图像进行特征提取,获得全局图像特征向量和局部图像特征向量,根据随机文本向量、全局图像特征向量和类别标签,构建提示文本向量,对提示文本向量进行特征提取,获得文本特征向量,根据局部图像特征向量和文本特征向量,经过特征编译,确定待分割遥感图像中针对目标分割物的分割结果。对待分割遥感图像进行特征提取,得到全局图像特征向量和局部图像特征向量,并根据全局图像特征向量、随机文本向量和预设类别标签构建得到提示文本向量,进而在后续利用文本特征和图像特征对图像进行了分割,对单个待分割遥感图像都充分挖掘其自身的深层特征,使得分割结果可以更好地满足人们的图像使用习惯,在下游对分割结果进行再处理时,得到良好的处理结果,提升了分割结果的准确度,并提升了用户体验。
289.上述为本实施例的一种遥感图像分割装置的示意性方案。需要说明的是,该遥感图像分割装置的技术方案与上述的遥感图像分割方法的技术方案属于同一构思,遥感图像分割装置的技术方案未详细描述的细节内容,均可以参见上述遥感图像分割方法的技术方案的描述。
290.图8示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
291.计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(pstn,public switched telephone network)、局域网(lan,local area network)、广域网(wan,wide area network)、个域网(pan,personal area network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.12无线局域网(wlan,wireless local area networks)无线接口、全球微波互联接入(wi-max,world interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
292.在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其
他部件。
293.计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
294.其中,处理器820用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像分割方法或者遥感图像分割方法的步骤。
295.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像分割方法和遥感图像分割方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像分割方法或者遥感图像分割方法的技术方案的描述。
296.本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像分割方法或者遥感图像分割方法的步骤。
297.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像分割方法和遥感图像分割方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像分割方法或者遥感图像分割方法的技术方案的描述。
298.本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像分割方法或者遥感图像分割方法的步骤。
299.上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像分割方法和遥感图像分割方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像分割方法或者遥感图像分割方法的技术方案的描述。
300.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
301.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
302.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块
并不一定都是本说明书实施例所必须的。
303.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
304.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1