全景分割方法及相关装置、电子设备、存储介质与流程

文档序号：32426364发布日期：2022-12-02 23:59阅读：110来源：国知局

1.本技术涉及图像处理技术领域，特别是涉及一种全景分割方法及相关装置、电子设备、存储介质。

背景技术：

2.场景感知作为计算机视觉研究方向的一项基础任务，在诸多实际场景中有着大量的技术落地。在此其中，全景分割作为场景感知的底层任务，一直以来都保持着较高的研究热点。区别于目标检测、语义分割、实例分割等其他场景感知任务，全景分割可以视为语义分割和实例分割的结合，即既要对所有目标对象检测出来，又要区分出同种类别中的不同实例(如，要区分出同属于“人”这一类别的目标对象“甲”、“乙”、“丙”等)。由此可见，全景分割是计算机视觉场景感知任务中复杂度最高，但解析最全面的一项工作。
3.目前，主流的全景分割方案主要包括以下两种技术路线：基于两阶段及后处理融合实现全景分割、基于查询的单阶段端到端实现全景分割。前者先基于实例分割、语义分割得到不同的前景实例类别(things)以及背景类别(stuff)的分割结果，再通过后处理融合得到全景分割，这种方式由于其技术流程较多，且各个原子能力复杂度较高，因此难以在实际落地的边缘设备上进行实时部署；而后者虽然在流程上简化了全景分割任务，但由于transformer中注意力机制的高运算复杂度以及缺乏底层硬件的加速优化，其仍然难以实现在边缘设备上的实时部署。有鉴于此，如何在边缘设备实时部署全景分割成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种全景分割方法及相关装置、电子设备、存储介质，能够在边缘设备实时部署全景分割。
5.为了解决上述技术问题，本技术第一方面提供了一种全景分割方法，包括：提取待分割图像的第一特征图；其中，待分割图像含有若干类别的图像对象，且图像对象包括实例、背景中至少一者；基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息，并基于第一特征图进行特征生成，得到第二特征图；基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息；基于所述第二特征图和各图像对象的位置信息进行全景分割，得到待分割图像的全景分割图。
6.为了解决上述技术问题，本技术第二方面提供了一种全景分割装置，包括：特征提取模块、信息预测模块、特征生成模块、信息提取模块、图像分割模块，特征提取模块用于提取待分割图像的第一特征图；其中，待分割图像含有若干类别的图像对象，且图像对象包括实例、背景中至少一者；信息预测模块用于基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息；特征生成模块用于基于第一特征图进行特征生成，得到第二特征图；信息提取模块用于基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息；图像分割模块用于基于第二特征图和各图像对象的位置信息进
行全景分割，得到待分割图像的全景分割图。
7.为了解决上述技术问题，本技术第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面的全景分割方法。
8.为了解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的全景分割方法。
9.上述方案，提取待分割图像的第一特征图，且待分割图像含有若干类别的图像对象，图像对象包含实例、背景中至少一者。在此基础上，基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息，并基于第一特征图进行特征生成，得到第二特征图，从而基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息位置信息，再基于第二特征图和各图像对象的位置信息进行全景分割，得到待分割图像的全景分割图，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。
附图说明
10.图1是本技术全景分割方法一实施例的流程示意图；
11.图2a是待分割图像一实施例的示意图；
12.图2b是全景分割图一实施例的示意图；
13.图3是全景分割模型一实施例的框架示意图；
14.图4是卷积参数一实施例的示意图；
15.图5是训练全景分割模型一实施例的流程示意图；
16.图6是本技术全景分割装置一实施例的框架示意图；
17.图7是本技术电子设备一实施例的框架示意图；
18.图8是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
19.下面结合说明书附图，对本技术实施例的方案进行详细说明。
20.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
21.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中片段“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
22.本技术公开实施例，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。需要说明的是，边缘设
备具有低功耗、低算力等特性，示例性地，边缘设备可以包括但不限于：扫地机器人、陪伴机器人、教学机器人、车载设备(如，车载的自动驾驶设备)等，在此不做限定。
23.请参阅图1，图1是本技术全景分割方法一实施例的流程示意图。
24.具体而言，可以包括如下步骤：
25.步骤s11：提取待分割图像的第一特征图。
26.本公开实施例中，待分割图像含有若干类别的图像对象，且图像对象包括实例、背景中至少一者。也就是说，待分割图像中可以包含实例，也可以包含背景，还可以同时包含实例和背景，在此不做限定。
27.在一个实施场景中，待分割图像中可以包含：行人“甲”、行人“乙”、行人“丙”、车辆“a”、车辆“b”、道路、天空，则该待分割图像包括四种类别的图像对象，其中包含两种类别的实例(即行人和车辆)，以及包含两种类别的背景(即道路和天空)，此外两种类别的实例总共涉及五个实例(即行人“甲”、行人“乙”、行人“丙”、车辆“a”、车辆“b”)，而全景分割的目的即为分割出上述各个图像对象。其他情况可以以此类推，在此不再一一举例。
28.在一个实施场景中，为了便于理解，请结合参阅图2a和图2b，图2a是待分割图像一实施例的示意图，图2b是全景分割图一实施例的示意图，更为具体地，图2b是图2a经全景分割之后所得到的全景分割图。如图2a和2b所示，图2b不仅以不同颜色标注出不同图像对象，还进一步标记有各个图像对象分别所归属的类别。其他情况可以以此类推，在此不再一一举例。
29.在一个实施场景中，待分割图像可以根据应用场景进行设置。示例性地，在智能家居场景中，待分割图像可以为由扫地机器人通过其内置的摄像头拍摄到的图像；或者，在自动驾驶场景中，待分割图像可以为由车载设备通过车载的摄像头拍摄到的图像。其他情况可以以此类推，在此不再一一举例。此外，需要说明的是，拍摄待分割图像的摄像头可以包括但不限于：普通相机、广角相机、鱼眼相机等，在此不做限定。
30.在一个实施场景中，为了提升全景分割的效率，可以预先训练一个全景分割模型，且该全景分割模型可以进一步包括特征提取网络，特征提取网络可以包括但不限于卷积层等，在此不做限定。示例性地，特征提取网络具体可以设计为诸如残差网络等，在此对特征提取网络的网络结构不做限定。在此基础上，可以基于特征提取网络对待分割图像进行特征提取，得到第一特征图。
31.在一个实施场景中，区别于前述提取方式，为了进一步提升全景分割的准确性，第一特征图可以含有待分割图像多种尺度的特征信息。具体来说，可以基于待分割图像，提取得到多种尺度的第三特征图，并基于多种尺度的第三特征图，融合得到第一特征图。需要说明的是，不同尺度的第三特征图，分辨率也不同。此外，第三特征图的分辨率越大，说明第三特征图所包含的特征信息越为浅层(如，浅层的纹理特征等)，反之，第三特征图的分辨率越小，说明第三特征图所包含的特征信息约为深层(如，深层的语义特征等)。上述方式，基于待分割图像提取得到多种尺度的第三特征图，并基于多种尺度的第三特征图融合得到第一特征图，故第一特征图能够包含待分割图像多种尺度的特征信息，从而后续类别预测、参数预测以及特征生成过程中，能够同时参考浅层特征和深层特征，有助于提升全景分割的准确性。
32.在一个具体的实施场景中，多种尺度的具体数量，以及多种尺度分别对应的分辨
率在此不做具体限定。示例性地，以三种尺度为例，三种尺度分别对应的分辨率可以包括：待分割图像分辨率的四分之一、待分割图像分辨率的八分之一、待分割图像分辨率的十六分之一。其他情况可以以此类推，在此不再一一举例。
33.在一个具体的实施场景中，如前所述，为了提升全景分割的效率，可以预先训练一个全景分割模型，从而待分割图像的全景分割图可以基于全景分割模型对待分割图像进行全景分割得到，区别于前述实施方式中的全景分割模型，本实施方式中全景分割模型可以包括主干网络和融合网络，主干网络可以包括顺序连接的若干特征提取子网络，且若干特征提取子网络分别用于提取不同尺度的第三特征图，融合网络用于融合多种尺度的第三特征图得到第一特征图。示例性地，主干网络可以包括但不限于：resnet、densenet等卷积神经网络，以主干网络设置为resnet为例，特征提取子网络此时可以是resnet中的残差块，其他情况可以以此类推，在此不再一一举例。具体可以根据边缘设备的实际算力以及内存等硬件资源，选择参数量适当的模型结构。请结合参阅图3，图3是全景分割模型一实施例的框架示意图。如图3所示，主干网络的各个特征提取子网络可以分别提取得到不同尺度的第三特征图，即经不同下采样倍率分别所得到的第三特征图。此外，融合网络可以包括但不限于：fpn(feature pyramid networks，特征图金字塔网络)、panet等，在此不做限定。通过融合网络即可将多种尺度的第三特征图进行融合，得到一个统一下采样倍率的特征图，即第一特征图。主干网络进行特征提取的具体过程，可以参阅resnet、densenet等卷积神经网络的技术细节，融合网络将多种尺度的第三特征图进行融合的具体过程，可以参阅诸如fpn、panet等网络的技术细节，在此不再赘述。
34.步骤s12：基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息，并基于第一特征图进行特征生成，得到第二特征图。
35.本公开实施例中，第一特征图中第一像素点的类别信息表征第一像素点所属的图像对象分别为若干类别的可能性。示例性地，类别信息可以以置信度来表示，即类别信息可以包括第一像素点所属的图像对象分别预测为若干类别的置信度，需要说明的是，置信度具体可以表征可信程度，其数值范围可以为正数，第一像素点所属的图像对象预测为某种类别的置信度越高，即表示该第一像素点所属的图像对象为该种类别的可信程度越大，反之，第一像素点所属的图像对象预测为某种类别的置信度越低，即表示该第一像素点所属的图像对象为该种类别的可信程度越小；或者，类别信息也可以以概率值来表示，即类别信息可以包括第一像素点所属的图像对象分别预测为若干类别的概率值，需要说明的是，概率值具体表征事件发生几率，其数值范围可以为0至1，第一像素点所属的图像对象预测为某种类别的概率值越大，即表示“该第一像素点所属的图像对象为该种类别”这一事件发生的几率越高，反之，第一像素点所属的图像对象预测为某种类别的概率值越小，即表示“该第一像素点所属的图像对象为该种类别”这一事件发生的几率越低。上述两种方式仅为实际应用过程中，表达类别信息所采用的两种可能实施方式，并不因此而限定表达类别信息实际采用的具体方式。为了便于描述，以采用概率值表达类别信息且第一特征图的分辨率为s*s为例，则第一特征图中各第一像素点的类别信息可以表示为s*s*c的张量，其中，c表示若干类别的总数。示例性地，以图2a所示的待分割图像为例，若干类别包括挂画、盆栽、门共三种类别的实例，以及墙面、地面共两种类别的背景，即共包括五种图像对象，此时第一特征图中各第一像素点的类别信息可以包括第一特征图中第一像素点所属的图像对象分
别为上述五种图像对象的概率值，即此时第一特征图中各第一像素点的类别信息可以表示为s*s*5的张量。其他情况可以以此类推，在此不再一一举例。
36.在一个实施场景中，如前所述，为了提升全景分割的效率，可以预先训练一个全景分割模型。请继续结合参阅图3，全景分割模型可以包括类别预测网络，且类别预测网络可以用于预测类别信息，即可以将第一特征图输入类别预测网络，得到第一特征图中第一像素点的类别信息。需要说明的是，类别预测网络可以包括但不限于卷积层等，在此对类别预测网络的网络结构不做限定。进一步地，为了便于在边缘设备实时部署全景分割，类别预测网络可以由若干卷积层构成，在此对卷积层的层数不做限定。
37.本公开实施例中，第一特征图中第一像素点的位置信息用于在第一像素点处执行图像分割，以得到第一像素点所属图像对象的分割图像。为了进一步便于在边缘设备实时部署全景分割，第一特征图中第一像素点的位置信息具体可以包括第一像素点的卷积参数。为了便于描述，以第一特征图的分辨率为s*s为例，则第一特征图中各第一像素点的位置信息可以表示为s*s*d1的张量，其中，d1表示卷积参数的维度，即每个第一像素点的位置信息均可以表示为一个d1维的卷积参数。示例性地，d1可以设置为5、10、15等，在此对d1的具体数值不做限定。当然，在实际应用过程中，位置信息也不局限于采用卷积参数来表示。示例性地，第一像素点的位置信息还可以具体包括第一像素点的矩阵参数，每个第一像素点的位置信息均可以表示为一个m*m*d2的矩阵参数，其中，m*m表示矩阵参数的大小，d2表示矩阵参数的维度，如可以设置为3*3*5、5*5*10等，在此不做限定。上述两种方式仅为实际应用过程中，表达位置信息所采用的两种可能实施方式，并不因此而限定表达位置信息实际采用的具体方式。
38.在一个实施场景中，如前所述，为了提升全景分割的效率，可以预先训练一个全景分割模型。请继续结合参阅图3，全景分割模型可以包括位置预测网络，且位置预测网络可以用于预测位置信息，即可以将第一特征图输入位置预测网络，预测得到位置信息。需要说明的是，位置预测网络可以包括但不限于卷积层等，在此对位置预测网络的网络结构不做限定。进一步地，为了便于在边缘设备实时部署全景分割，位置预测网络可以由若干卷积层构成，在此对卷积层的层数不做限定。
39.本公开实施例中，第二特征图的分辨率可以与待分割图像的分辨率相同。为了便于描述，待分割图像的分辨率可以记为h*w，其中，h表示高度，w表示宽度，则第二特征图可以表示为h*w*e，其中，e表示特征维度，示例性地，e可以设置为5、10、15等，在此对e的具体数值不做限定。此外，第二特征图用于结合前述位置信息进行全景分割，以得到待分割图像的全景分割图，具体可以参阅下述相关描述，在此暂不赘述。
40.在一个实施场景中，如前所述，为了提升全景分割的效率，可以预先训练一个全景分割模型。请继续结合参阅图3，全景分割模型可以包括特征生成网络，且特征生成网络可以用于执行特征生成，即可以将第一特征图输入特征生成网络，得到第二特征图。需要说明的是，特征生成网络可以包括但不限于卷积层等，在此对特征生成网络的网络结构不做限定。进一步地，为了便于在边缘设备实时部署全景分割，特征生成网络可以由若干卷积层构成，在此对卷积层的层数不做限定。
41.步骤s13：基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息。
42.在一个实施场景中，可以基于第一特征图中第一像素点的类别信息和位置信息，确定第一特征图中各图像对象的图像区域，并基于图像对象的图像区域的重心位置，确定第一特征图中重心位置处的第一像素点，作为目标像素点，进而提取目标像素点的位置信息，作为图像对象的位置信息。需要说明的是，图像重心(即图像质心)其计算方式，可以参阅关于图像重心(或图像质心)等技术细节，在此不再赘述。上述方式，通过提取中心位置处的位置信息作为图像对象的位置信息，能够在后续图像分割过程中参考图像对象的位置条件，有助于提升各个图像对象的分割精度。
43.在一个具体的实施场景中，可以基于第一特征图中第一像素点的类别信息进行非极大值抑制，得到第一特征图中各图像对象的图像区域和各图像对象归属的类别。需要说明的是，本实施例，最终得到的全景分割图中可以标记有各个图像对象归属的类别。请结合参阅图2a和2b，图2a所示的待分割图像最终得到图2b所示的全景分割图，图2b所示的全景分割图以不同色块标记有各个图像对象，且在各个图像对象的色块上还标记有图像对象归属的类别。此外，为了提升图像区域的准确性，还可以进一步预测第一特征图中各个图像对象的候选区域。需要说明的是，每个图像对象可以对应有至少一个候选区域，且每个候选区域对应有一个预测置信度，该预测置信度表示候选区域内存在图像对象的可能性，在此基础上，可以通过非极大值抑制(non-maximum suppression，nms)对这些候选区域进行筛选，最终可以得到第一特征图中各个图像对象的目标区域。利用非极大值抑制进行区域筛选的过程，可以参阅非极大值抑制的技术细节，在此不再赘述。与此同时，对于第一特征图中每个第一像素点，可以选择其可能性最高的类别，作为该第一像素点所属的图像对象归属的类别。基于此，可以进一步将每个目标区域中由归属于相同类别的第一像素点所形成的连通域，作为该目标区域内图像对象在第一特征图中的图像区域。上述方式，基于第一特征图中第一像素点的类别信息进行非极大值抑制，得到第一特征图中各图像对象的图像区域和各图像对象归属的类别，且全景分割图中标记有各图像对象归属的类别，故通过非极大值抑制，能够有效甄别出各个图像对象，提升后续提取卷积参数的准确性。
44.在一个具体的实施场景中，如前所述，在得到第一特征图中各个图像对象的图像区域之后，可以根据各个图像对象的图像区域的重心位置，确定出各个图像对象的位置信息。请结合参阅图4，图4是位置信息一实施例的示意图。如图4所示，以待分割图像中包含两个图像对象为例，其中一个图像对象的图像区域其重心位置处于(i1,j1)，另一个图像对象的图像区域其重心位置处于(i2,j2)。如前所述，第一特征图中各第一像素点的位置信息可以表示为s*s*d1的张量，则可以取该张量中位于(i1,j1)位置的位置信息，作为第一个图像对象的位置信息，并取该张量中位于(i2,j2)位置的位置信息，作为第二个图像对象的位置信息。其他情况可以以此类推，在此不再一一举例。
45.在另一个实施场景中，区别于前述提取卷积参数的实施方式，以采用概率值表达类别信息为例，在边缘设备的算力、内存等硬件资源相对富余的情况下，第一特征图中第一像素点的类别信息还可以进一步包括第一像素点分别属于各图像对象的概率值。也就是说，类别信息不仅可以包括第一像素点所属的图像对象分别为若干类别的概率值，还可以包括第一像素点分别属于各图像对象的概率值。为了区分上述两种概率值，可以将第一像素点所属的图像对象分别为若干类别的概率值，称之为第一概率值，并将第一像素点分别属于各图像对象的概率值，称之为第二概率值。在此基础上，对于第一特征图中各第一像素
点而言，可以将该第一像素点分别属于各图像对象的第二概率值中最大值所对应的图像对象，确定为该第一像素点所属的图像对象，从而可以将属于相同图像对象的第一像素点所形成的连通域，作为第一特征图中该图像对象的图像区域，与此同时，对于第一特征图中各第一像素点而言，还可以将该第一像素点所属的图像对象分别为若干类别的第一概率值中最大值所对应的类别，确定为该第一像素点所属的图像对象归属的类别。需要说明的是，如前所述，本实施例，最终得到的全景分割图中可以标记有各个图像对象归属的类别。进一步地，对于每个图像对象而言，在得到第一特征图中其图像区域之后，可以进一步在第一特征图中各第一像素点的位置信息(即前述大小为s*s*d1的张量)提取出与该图像区域中各个第一像素点分别对应的若干位置信息，并将这些位置信息进行加权处理(如，可以对前述卷积参数进行加权处理，或对前述矩阵参数进行加权处理)，得到该图像对象最终的位置信息，且位置越靠近图像区域的重心位置的第一像素点，其权重越大，反之位置越远离图像区域的重心位置的第一像素点，其权重越小。上述方式，通过将图像对象的图像区域中各第一像素点分别对应的位置信息进行加权，得到图像对象的位置信息，且第一像素点的权重与第一像素点至重心位置的距离负相关，故一方面能够在图像对象的位置信息中同时参考图像区域中各个第一像素点，另一方面能够对不同位置处的第一像素点分别予以不同程度的参考，因此有助于提升图像对象其位置信息的准确性。
46.在一个具体的实施场景中，可以获取该图像区域中各个第一像素点分别至其重心位置的像素距离，并筛选出最大像素距离，则对于该图像区域中每个第一像素点来说，可以先获取其对应的像素距离与最大像素距离的比值，再将1减去该比值所得到的数值，作为该第一像素点的初始权重，最终可以将该图像区域中各个第一像素点的初始权重进行归一化，得到该图像中各个第一像素点最终的权重。
47.步骤s14：基于第二特征图和各图像对象的位置信息进行全景分割，得到待分割图像的全景分割图。
48.在一个实施场景中，可以基于各图像对象的位置信息分别处理第二特征图，得到各图像对象的分割图像，再基于各图像对象的分割图像进行融合，得到待分割图像的全景分割图。上述方式，先基于图像对象的位置信息分别处理第二特征图，得到各图像对象的分割图像，再基于各图像对象的分割图像进行融合，得到待分割图像的全景分割图，有助于在图像对象的维度进行图像分割、图像融合等操作，有助于细化全景分割的粒度，进而提升全景分割的精度。
49.在一个具体的实施场景中，以采用卷积参数表达位置信息为例，图像对象的分割图像可以由图像对象的卷积参数对第二特征图中各第二像素点逐像素卷积得到。逐像素卷积的具体过程，可以参阅卷积运算的技术细节，在此不再赘述。
50.在一个具体的实施场景中，仍以采用卷积参数表达位置信息且第二特征图表示为h*w*e为例，经某图像对象的卷积参数对该第二特征图进行逐像素卷积之后，可以得到h*w的初始图像，且在该初始图像中各个像素点的像素值表示该像素点属于该图像对象的概率值。基于此，可以将初始图像中像素值低于预设阈值(如，0.5、0.6等)的像素点，其像素值直接置为0，并将初始图像中像素值不低于预设阈值的像素点，其像素值直接置为1，得到像素值用0-1表示的掩码图，作为该图像对象的分割图像。
51.在一个具体的实施场景中，以待分割图像中包含n个图像对象为例，经上述处理，
最终可以得到n个分割图像。此外，为了便于后续处理，每个分割图像可以如前所述，均为0-1表示的掩码图。具体处理过程，可以参阅后续相关描述，在此暂不赘述。
52.在一个具体的实施场景中，如前所述，以各图像对象的分割图像均为0-1表示的掩码图为例，且如图2b所示，不同图像对象在全景分割图中分别由不同颜色的色块标记。可以预先将前述s*s*c的张量(即第一特征图中各第一像素点的类别信息)进行上采样(如，可以进行插值运算)，得到分辨率与待分割图像相同的张量，为了便于描述，可以将该张量记为w*h*c。该张量中位于(i,j,k)的数值表示待分割图像中像素点(i，j)所属图像对象归属第k种类别的概率值。在此基础上，若待分割图像中像素点仅在其中一个图像对象的分割图像中的像素值为1，其他均为0，则可以在全景分割图中将该像素点标记为该图像对象对应的颜色。反之，若待分割图像中像素点在多个图像对象的分割图像中的像素值均为1，则可以继续在张量w*h*c搜索该像素点所属图像对象分别归属于各种类别的概率值，并可以选择最大的概率值对应的类别，作为该像素点所属图像对象归属的类别，最终即可根据该类别确定该像素点究竟属于哪个图像对象，并在全景分割图中将该像素点标记为该图像对象对应的颜色。请结合参阅图2b，经上述实施过程，即可得到图2a所示的待分割图像的全景分割图。其他情况可以以此类推，在此不再一一举例。
53.在另一个实施场景中，区别于前述在图像对象的维度进行图像分割、图像融合等操作，在对全景分割的精度要求相对宽松的情况下，在得到上述第二特征图和各图像对象的位置信息之后，也可以先选择一个图像对象的位置信息对第二特征图进行处理(如在采用卷积参数表示位置信息时，可以利用卷积参数对第二特征图进行逐像素卷积)，得到该图像对象的分割图像，并基于该图像对象的分割图像，在和待分割图像相同分辨率的初始图像上，以与该图像对象对应的图像标记(如某种特定颜色等)标注该图像对象的位置区域，之后再在第二特征图中剔除与该位置区域对应的特征信息，并选择下一个图像对象的位置信息对剔除上述特征信息之后的第二特征图进行处理，得到该第一图像对象的分割图像，并继续在前述初始图像上，以与该下一图像对象对应的图像标记标注该图像对象的位置区域，以此类推，直至全部图像对象均已标注完毕，即可得到待分割图像的全景分割图。
54.上述方案，提取待分割图像的第一特征图，且待分割图像含有若干类别的图像对象，图像对象包含实例、背景中至少一者。在此基础上，基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息，并基于第一特征图进行特征生成，得到第二特征图，从而基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息，再基于第二特征图和各图像对象的位置信息进行全景分割，得到待分割图像的全景分割图，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。
55.请参阅图5，图5是训练全景分割模型一实施例的流程示意图。如前述公开实施例所述，全景分割图可以基于全景分割模型对待分割图像进行全景分割得到。进一步地，全景分割模型基于样本图像训练得到，与待分割图像类似地，样本图像可以含有若干样本类别的样本对象，样本图像标记有标注信息，标注信息包括样本图像中各样本像素点分别所属的样本对象归属的样本类别，样本对象包括实例、背景中至少一者，且全景分割模型基于类
别预测损失和图像分割损失联合训练得到。具体而言，可以包括如下步骤：
56.步骤s51：提取样本图像的第一样本特征图，并基于标注信息，分别得到第一样本特征图中各第一样本像素点分别所属的样本对象实际归属的样本类别和各样本对象的样本分割图像。
57.在一个实施场景中，样本图像的第一样本特征图的提取过程，可以参阅前述公开实施例中“提取待分割图像的第一特征图”的相关描述，在此不再赘述。
58.在一个实施场景中，可以将样本图像缩放至与第一样本特征图相同分辨率，从而对于第一样本特征图中各个第一样本像素点，可以确定出样本图像中与该第一样本像素点对应的样本像素点，并将该对应的样本像素点标注的样本类别，作为该第一样本像素点所属的样本对象实际归属的的样本类别。示例性地，如前所述，样本图像标记有标注信息，标注信息包括样本图像中各样本像素点分别所属的样本对象归属的样本类别。以样本图像的高度、宽度分别表示为h1、w1，且若干样本类别的总数表示为c为例，为了便于描述，可以将第一样本特征图的分辨率记为h2*w2，则上述标注信息可以表示为h1*w1*c的张量。需要说明的是，上述张量h1*w1*c中，位于(i,j,k)的元素值表示样本图像中样本像素点(i,j)所属的样本对象实际归属于第k种样本类别的概率值，且基于标注信息，若该样本像素点(i,j)属于所属的样本对象实际归属于第k种样本类别，则张量h1*w1*c中位于(i,j,k)的元素值可以为1，否则可以为0。在此基础上，可以将上述张量进行缩放至与第一样本特征图相同分辨率，得到新的张量h2*w2*c。需要说明的是，上述张量h2*w2*c中，位于(i,j,k)的元素值表示第一样本特征图中第一样本像素点(i,j)属于第k种样本类别的概率值，进一步地，对于第一样本像素点(i,j)而言，可以将最大的概率值对应的样本类别，作为第一样本像素点(i,j)所属的样本对象实际归属的样本类别。
59.在一个实施场景中，标注信息还可以进一步包括样本图像中各样本像素点分别所属的样本对象。在此基础上，对于每个样本对象的样本分割图像来说，若样本像素点属于该样本对象，则在该样本对象的样本分割图上位于该样本像素点的像素值置为1，否则置为0。以此类推，即可得到每个样本对象的样本分割图像。
60.步骤s52：基于第一样本特征图，分别预测得到第一样本特征图中各第一样本像素点分别所属的样本对象预测归属的样本类别和各第一样本像素点的预测位置信息，并基于第一样本特征图进行特征生成，得到第二样本特征图。
61.在一个实施场景中，类别预测、参数预测和特征生成的具体过程，可以参阅前述公开实施例中相关描述，在此不再赘述。
62.步骤s53：基于标注信息和各第一样本像素点的预测位置信息，提取各样本对象的预测位置信息。
63.具体地，如前所述，标注信息还可以进一步包括样本图像中各样本像素点分别所属的样本对象，则可以参阅前述步骤“基于标注信息，得到第一样本特征图中各第一样本像素点分别所属的样本对象实际归属的样本类别”的实施过程，得到第一样本特征图中各个第一样本像素点分别所属的样本对象，具体地，可以将样本图像缩放至与第一样本特征图相同分辨率，从而对于第一样本特征图中各个第一样本像素点，可以确定出样本图像中与该第一样本像素点对应的样本像素点，并将该对应的样本像素点所属的样本对象，作为该第一样本像素点所属的样本对象。在此基础上，可以将第一样本特征图中属于相同样本对
象的第一样本像素点所形成的连通域，作为该样本对象的样本图像区域，并基于该样本对象的样本图像区域的样本重心位置，确定第一样本特征图中样本重心位置处的第一样本像素点，作为目标样本像素点，以及将目标样本像素点的预测位置信息，作为该样本对象的预测位置信息，具体可以参阅前述公开实施例中关于“提取图像对象的位置信息”的相关描述，在此不再赘述。
64.步骤s54：基于各样本对象的预测位置信息分别处理第二样本特征图，得到各样本对象的预测分割图像。
65.具体地，可以参阅前述公开实施例中步骤“基于各图像对象的位置信息分别处理第二特征图，得到各图像对象的分割图像”的实施过程。此外，如前述公开实施例所述，在采用预测卷积参数表达预测位置信息的情况下，对于每个样本对象而言，可以基于该样本对象的预测卷积参数对第二样本特征图中各第二样本像素点进行逐像素卷积，得到该样本对象的预测分割图像。
66.步骤s55：基于第一样本像素点所属的样本对象实际归属的样本类别和预测归属的样本类别之间的差异，得到类别预测损失，并基于样本对象的样本分割图像和预测分割图像之间的差异，得到图像分割损失。
67.具体地，可以采用诸如交叉熵损失函数、focal loss等损失函数，度量第一样本像素点所属的样本对象实际归属的样本类别和预测归属的样本类别之间的差异，得到类别预测损失，具体度量过程，可以参阅交叉熵损失函数、focal loss等损失函数的技术细节，在此不再赘述。此外，可以采用诸如交叉熵损失函数、dice loss等损失函数，度量样本对象的样本分割图像和预测分割图像之间的差异，得到图像分割损失，具体度量过程，可以参阅交叉熵损失函数、dice loss等损失函数的技术细节，在此不再赘述。为了便于描述，可以将类别预测损失记为l
cls
，可以将图像分割损失记为l
mask
。
68.步骤s56：基于类别预测损失和图像分割损失，调整全景分割模型的网络参数。
69.具体地，可以将类别预测损失和图像分割损失进行加权求和，得到全景分割模型的总损失，并基于总损失，调整全景分割模型的网络参数。示例性地，可以基于总损失，采用诸如梯度下降等优化方式，调整全景分割模型的网络参数，具体调整过程，可以参阅梯度下降等优化方式的技术细节，在此不再赘述。
70.上述方案，提取样本图像的第一样本特征图，并基于标注信息，分别得到第一样本特征图中各第一样本像素点分别所属的样本对象实际归属的样本类别和各样本对象的样本分割图像。在此基础上，基于第一样本特征图，分别预测得到第一样本特征图中各第一样本像素点分别所属的样本对象预测归属的样本类别和各第一样本像素点的预测位置信息，以及基于第一样本特征图进行特征生成，得到第二样本特征图，从而基于标注信息和各第一样本像素点的预测位置信息，提取各样本对象的预测位置信息，并基于各样本对象的预测位置信息分别处理第二样本特征图，得到各样本对象的预测分割图像，以及基于第一样本像素点所属的样本对象实际归属的样本类别和预测归属的样本类别之间的差异，得到类别预测损失，并基于样本对象的样本分割图像和预测分割图像之间的差异，得到图像分割损失，进而基于类别预测损失和图像分割损失，调整全景分割模型的网络参数，故通过类别预测损失和图像分割损失，一方面能够约束全景分割模型尽可能准确地进行特征提取，另一方面通过类别预测损失约束全景分割模型尽可能准确地执行类别预测，并通过图像分割
损失约束全景分割模型尽可能准确地执行参数预测和特征生成，故通过联合训练能够提升全景分割模型的模型精度。
71.请参阅图6，图6是本技术全景分割装置60一实施例的框架示意图。全景分割装置60包括：特征提取模块61、信息预测模块62、特征生成模块63、信息提取模块64、图像分割模块65，特征提取模块61用于提取待分割图像的第一特征图；其中，待分割图像含有若干类别的图像对象，且图像对象包括实例、背景中至少一者；信息预测模块62，用于基于第一特征图，分别预测得到第一特征图中第一像素点的类别信息和位置信息；特征生成模块63，用于基于第一特征图进行特征生成，得到第二特征图；信息提取模块64，用于基于第一特征图中第一像素点的类别信息和位置信息，提取各图像对象的位置信息；图像分割模块65，用于基于第二特征图和各图像对象的位置信息进行全景分割，得到待分割图像的全景分割图。
72.上述方案，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。
73.在一些公开实施例中，信息提取模块64包括区域确定子模块，用于基于第一特征图中第一像素点的类别信息和位置信息，确定第一特征图中各图像对象的图像区域；信息提取模块64包括重心确定子模块，用于基于图像对象的图像区域的重心位置，确定第一特征图中重心位置处的第一像素点，作为目标像素点；信息提取模块64包括信息获取子模块，用于提取目标像素点的位置信息，作为图像对象的位置信息。
74.在一些公开实施例中，区域确定子模块具体用于基于第一特征图中第一像素点的类别信息进行非极大值抑制，得到第一特征图中各图像对象的图像区域和各图像对象归属的类别；其中，全景分割图中标记有各图像对象归属的类别。
75.在一些公开实施例中，图像分割模块65包括特征处理子模块，用于基于各图像对象的位置信息分别处理第二特征图，得到各图像对象的分割图像，图像分割模块65包括图像融合子模块，用于基于各图像对象的分割图像进行融合，得到待分割图像的全景分割图。
76.在一些公开实施例中，位置信息包括卷积参数，图像对象的分割图像由图像对象的卷积参数对第二特征图中各第二像素点逐像素卷积得到。
77.在一些公开实施例中，全景分割图基于全景分割模型对待分割图像进行全景分割得到，全景分割模型基于样本图像训练得到，样本图像含有若干样本类别的样本对象，样本图像标记有标注信息，标注信息包括样本图像中各样本像素点分别所属的样本对象归属的样本类别，样本对象包括实例、背景中至少一者，且全景分割模型基于类别预测损失和图像分割损失联合训练得到。
78.在一些公开实施例中，全景分割装置60包括样本特征提取模块，用于提取样本图像的第一样本特征图，全景分割装置60包括样本信息获取模块，用于基于标注信息，分别得到第一样本特征图中各第一样本像素点分别所属的样本对象实际归属的样本类别和各样本对象的样本分割图像；全景分割装置60包括样本信息预测模块，用于基于第一样本特征图，分别预测得到第一样本特征图中各第一样本像素点分别所属的样本对象预测归属的样本类别和各第一样本像素点的预测位置信息；全景分割装置60包括样本特征生成模块，用于基于第一样本特征图进行特征生成，得到第二样本特征图；全景分割装置60包括预测信
息提取模块，用于基于标注信息和各第一样本像素点的预测位置信息，提取各样本对象的预测位置信息；全景分割装置60包括预测分割获取模块，用于基于各样本对象的预测位置信息分别处理第二样本特征图，得到各样本对象的预测分割图像；全景分割装置60包括类别损失度量模块，用于基于第一样本像素点所属的样本对象实际归属的样本类别和预测归属的样本类别之间的差异，得到类别预测损失；全景分割装置60包括分割损失度量模块，用于基于样本对象的样本分割图像和预测分割图像之间的差异，得到图像分割损失；全景分割装置60包括网络参数调整模块，用于基于类别预测损失和图像分割损失，调整全景分割模型的网络参数。
79.在一些公开实施例中，全景分割图基于全景分割模型对待分割图像进行全景分割得到，全景分割模型包括类别预测网络、位置预测网络和特征生成网络，类别预测网络用于预测类别信息，位置预测网络用于预测位置信息，特征生成网络用于执行特征生成。
80.在一些公开实施例中，第一特征图含有待分割图像多种尺度的特征信息；特征提取模块61包括多尺度特征提取子模块，用于基于待分割图像进行，提取得到多种尺度的第三特征图；特征提取模块61包括多尺度特征融合子模块，用于基于多种尺度的第三特征图，融合得到第一特征图。
81.在一些公开实施例中，全景分割图基于全景分割模型对待分割图像进行全景分割得到，全景分割模型包括主干网络和融合网络，主干网络包括顺序连接的若干特征提取子网络；其中，若干特征提取子网络分别用于提取不同尺度的第三特征图，融合网络用于融合多种尺度的第三特征图得到第一特征图。
82.请参阅图7，图7是本技术电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，存储器71中存储有程序指令，处理器72用于执行程序指令以实现上述任一全景分割方法实施例中的步骤。具体地，电子设备70可以为边缘设备，如可以包括但不限于：扫地机器人、阅读机器人等等，在此不做限定。
83.具体而言，处理器72用于控制其自身以及存储器71以实现上述任一全景分割方法实施例中的步骤。处理器72还可以称为cpu(central processing unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。
84.上述方案，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。
85.请参阅图8，图8是本技术计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81，程序指令81用于实现上述任一全景分割方法实施例中的步骤。
86.上述方案，一方面由于基于单流程端到端的技术体系，能够有效避免人工设计的
启发式后处理流程造成的问题，有助于提升全景分割效果，另一方面由于在全景分割过程中无需transformer等高运算复杂度的算子，极大程度地降低部署全景分割对于算力、存储等资源的消耗。故此，能够在边缘设备实时部署全景分割。
87.在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
88.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
89.在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
90.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
91.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
92.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
93.若本技术技术方案涉及个人信息，应用本技术技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本技术技术方案涉及敏感个人信息，应用本技术技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张圆殷保才
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种车载式水果保鲜运输箱的制作方法
上一篇：一种真空自吸的离心泵的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。