一种场景分割方法、装置、设备及存储介质与流程

文档序号：26584856发布日期：2021-09-10 18:48阅读：85来源：国知局

1.本技术实施例涉及图像处理技术领域，涉及但不限于一种场景分割方法、装置、设备及存储介质。

背景技术：

2.近年来，在城市场景中，新型的智能化执法管理能够大大减少人力成本，实现全天候高效管理。但是在实际应用中，对场景中的语义元素和实例元素进行定位时，由于受自然光的光照明暗、背景杂乱或视角场景变换等因素的影响，无法保证城市场景分割的结果。

技术实现要素：

3.本技术实施例提供一种场景分割技术方案。
4.本技术实施例的技术方案是这样实现的：
5.本技术实施例提供一种场景分割方法，所述方法包括：
6.确定用于对预设场景进行场景分割的语义分割网络；其中，所述语义分割网络是通过采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，进行训练得到的；
7.获取包括所述预设场景的待分割图像；
8.采用所述语义分割网络，基于所述预设语义标签集合，对所述待分割图像进行场景分割，得到分割结果。
9.在一些实施例中，所述确定用于对预设场景进行场景分割的语义分割网络之前，所述方法还包括：获取包括所述预设场景的待标注图像集合；基于所述预设语义标签集合，确定所述待标注图像集合中每一待标注图像的预设场景中的待标注元素；采用与所述待标注元素相匹配的所述预设语义标签集合中的预设语义标签，对所述待标注元素进行标注，得到已标注图像；基于所述已标注图像，创建所述样本图像集。如此，能够提高语义分割网络在该预设场景中对待分割图像进行语义分割的准确度。
10.在一些实施例中，所述采用所述语义分割网络，基于所述预设语义标签集合，对所述待分割图像进行场景分割，得到分割结果，包括：基于所述预设语义标签集合，在所述待分割图像中，确定待分割元素；在所述预设语义标签集合中，确定与所述待分割元素相匹配的候选语义标签；按照所述候选语义标签，对所述待分割图像进行分割，得到所述分割结果。如此，采用深度实验室v3(deeplab v3)网络对待分割图像进行场景分割，能够更加准确的确定场景中的每种元素。
11.在一些实施例中，所述确定用于对预设场景进行场景分割的语义分割网络之前，所述方法还包括：确定与所述预设场景相关的待处理需求；确定实现所述待处理需求相关联的多个对象；基于所述多个对象的类别，设定所述预设语义标签集合。如此，通过分析预设场景下的待处理需求，创建满足该待处理需求的语义标签，从而能够减少标注的样本集中出现多余的标签。
12.在一些实施例中，所述采用所述语义分割网络，基于所述预设语义标签集合，对所述待分割图像进行场景分割，得到分割结果之后，所述方法还包括：基于所述分割结果，对与所述预设场景相关的待处理需求进行处理，得到处理结果。如此，基于分割结果对待处理需求进行处理，既能够提高处理需求的速度，还能够提高处理需求的准确度。
13.在一些实施例中，所述基于所述分割结果，对与所述预设场景相关的待处理需求进行处理，得到处理结果，包括：对所述分割结果的尺寸进行调整，得到尺寸与所述待分割图像的尺寸相同的已调整结果；基于所述已调整结果和所述预设语义标签集合，确定所述待分割图像中待分割元素的类别；基于所述待分割元素的类别，对所述待处理需求进行处理，得到所述处理结果。如此，基于待分割元素的类别，对待处理需求进行处理，能够得到准确响应该待处理需求处理结果。
14.在一些实施例中，在所述预设场景为城市场景的情况下，所述确定与所述预设场景相关的待处理需求，包括：确定与所述城市场景相关联的城市管理事件；将所述城市管理事件，确定为所述待处理需求；所述确定实现所述待处理需求相关联的多个对象，包括：确定实现所述城市管理事件的城市建设信息；确定与所述城市建设信息相关联的城市场景中的物体；将所述的城市场景中的物体，确定为所述对象。如此，对待标注图像中与待处理需求相关联的多个对象进行标注，使得到的样本图像集中的标签更符合应用场景。
15.在一些实施例中，在所述预设场景为工地场景的情况下，所述预设语义标签集合包括：工地扬尘、块状泥土和散状泥土；在所述预设场景为道路积水场景的情况下，所述预设语义标签集合包括：晴天积水和内涝积水；在所述预设场景为城市场景下非机动车场景的情况下，所述预设语义标签集合包括：非机动车倾倒、非机动车正确摆放、非机动车摆放次序混乱、非机动车倚靠其他物体摆放、其他非机动车以及图像背景区域。如此，能够为多种场景提供与该场景匹配的标签，从而能够更广泛对应用于各种场景中。
16.在一些实施例中，所述确定用于对预设场景进行场景分割的语义分割网络，包括：将所述样本图像集中的样本图像输入待训练分割网络，得到样本图像特征；基于所述预设语义标签集合，对所述样本图像特征进行语义分割，得到预测分割结果；采用所述预测分割结果的损失，对所述待训练分割网络的网络参数进行调整，以使得到的所述语义分割网络输出的预测分割结果的损失满足收敛条件。如此，能够提高训练得到的语义分割网络的有效性。
17.本技术实施例提供一种场景分割装置，所述装置包括：
18.第一确定模块，用于确定用于对预设场景进行场景分割的语义分割网络；其中，所述语义分割网络是通过采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，进行训练得到的；
19.第一获取模块，用于获取包括所述预设场景的待分割图像；
20.第一提取模块，用于采用所述语义分割网络，对所述待分割图像进行特征提取，得到图像特征；
21.第一分割模块，用于基于所述预设语义标签集合，对所述图像特征进行场景分割，得到分割结果。
22.本技术实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的场景分割方法。
23.本技术实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时能够实现上述的场景分割方法。
24.本技术实施例提供一种场景分割方法、装置、设备及存储介质，通过获取采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，能够创建对预设场景进行标注的标签库，并基于该样本图像集训练得到语义分割网络；这样，既能够创建标注规范的样本图像集，而且还能够采用该语义分割网络实现对预设场景下采集的待分割图像进行语义分割。对于输入的在预设场景下采集的待分割图像，通过对待分割图像进行特征提取，得到图像特征；最后，通过预设语义标签集合对提取的图像特征进行语义分割，即可得到该待分割图像的分割结果；如此，使用基于该样本图像集进行训练得到的语义分割网络，对待分割图像中的预设场景进行分割，能够有效分割出该预设场景中的多个场景元素。
附图说明
25.图1为本技术实施例提供的场景分割方法的实现流程示意图；
26.图2为本技术实施例提供的场景分割方法的另一实现流程示意图；
27.图3为本技术实施例提供的场景分割方法的又一实现流程示意图；
28.图4为本技术实施例提供的场景分割方法的应用场景示意图；
29.图5为本技术实施例提供的对待分割图像进行场景分割的语义分割图；
30.图6为本技术实施例场景分割装置的结构组成示意图；
31.图7为本技术实施例计算机设备的组成结构示意图。
具体实施方式
32.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本技术，但不用来限制本技术的范围。
33.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
34.在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
35.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
36.对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及的名词和术语进行说明，本技术实施例中涉及的名词和术语适用于如下的解释。
37.1)语义分割，将图片中的各类信息进行分割，例如人的轮廓标记为红色，马路标记为紫色，但是不同的人是没有办法区分的，相当的与将图片中的图片进行了大类的外部轮
廓与标签的匹配。
38.2)残差神经网络(resnet)，由残差模块构建的，用梯度下降算法训练一个神经网络，随着层数增加，训练误差越来越减小，这种方式能够到达网络更深层，有助于解决梯度消失和梯度爆炸的问题，让训练更深网络的同时又能保证良好的性能。
39.下面说明本技术实施例提供的场景分割的设备的示例性应用，本技术实施例提供的设备可以实施为具有图像采集功能的笔记本电脑，平板电脑，台式计算机，相机，移动设备(例如，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。
40.该方法可以应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。
41.本技术实施例提供一种场景分割方法，如图1所示，结合如图1所示步骤进行说明：
42.步骤s101，确定用于对预设场景进行场景分割的语义分割网络。
43.在一些实施例中，预设场景可以是城市场景或乡村场景等室外场景，包括：工地场景、道路积水场景和城市场景下的非机动车场景等。语义分割网络是通过采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，进行训练得到的。该语义分割网络是通过采用鲁棒性较强的模型，对结构简单的待训练分割网络进行指导训练得到的，这样使得该语义分割网络在保持低复杂度的前提下，具有较高的性能。
44.该语义分割网络通过对输入的图像进行特征提取，并对提取的特征进行语义分割，以实现从特征值到预测密度值的映射关系，生成场景分割图；基于该场景分割图和预设语义标签，确定出预设场景中包括的每一分割元素的类别。
45.该样本图像集中的每一样本图像，均已采用预设语义标签集合对画面中的预设场景进行标注。以预设场景为城市场景为例，样本图像集为在城市场景下采集的图像。预设语义标签集合中的预设语义标签，是根据待分割图像中携带的待处理需求设定的。比如，待分割图像中携带的待处理需求是城管执法类的需求，那么在城市场景下，与该城管执法类的需求相关的元素包括：行人道、机动车道和绿化区域等；基于此，设定行人道、机动车道和绿化区域为预设语义标签。通过这些预设语义标签对样本图像中的城市场景进行标注，得到能够作为训练集的样本图像集，以训练神经网络得到语义分割网络。
46.步骤s102，获取包括预设场景的待分割图像。
47.在一些实施例中，待分割图像为包括预设场景的外观复杂的图像，还可以是包括预设场景的外观简单的图像，待分割图像可以是任意采集设备采集到的图像，比如，以预设场景为城市场景为例，在城市截取采集的画面中包括城市场景中的机动车道、非机动车道和绿化区域等的图像。
48.在一些可能的实现方式中，在预设场景为工地场景下，待分割图像为包括工地扬尘的图像。比如，画面内容包括扬尘类、飞尘物料堆放类或准扬尘类等任意一类或多类的图像。或者，待分割图像为包括工程泥土的图像，比如，画面内容包括在宽阔的马路上堆放块状工程泥土的图像，或者画面内容包括堆放散状工程泥土的图像等。
49.在预设场景为道路积水场景下，待分割图像为包括待分类积水的图像，比如，以待分类积水的类别为轻微积水为例，在城市街区采集的画面中包括路面轻微积水的图像。
50.在预设场景为城市非机动车场景下，待分割图像为包括待检测非机动车的图像，比如，以待检测非机动车为共享单车为例，在城市街区采集的画面中包括共享单车的图像。
51.步骤s103，采用语义分割网络，对待分割图像进行特征提取，得到图像特征。
52.在一些实施例中，语义分割网络中包括：用于进行特征提取的残差神经网络、对提取的特征进行语义分割的deeplab v3网络、对语义分割结果进行上采样的上采样模块和最终结果预测模块。
53.在一些可能的实现方式中，将待分割图像输入语义分割网络中的残差神经网络，基于该残差神经网络对待分割图像进方行特征提取，得到待分割图像的特征图，即图像特征。以预设场景为城市场景为例，将包括该城市场景的待分割图像输入语义分割网络的残差神经网络中，以实现对该待分割图像进行特征提取。
54.步骤s104，基于预设语义标签集合，对图像特征进行场景分割，得到分割结果。
55.在一些实施例中，通过语义分割网络中的残差神经网络对待分割图像进行特征提取之后，将图像特征输入deeplab v3网络，以实现对该图像特征中预设场景对应的特征进行语义分割。在一些可能的实现方式中，通过基于预设语义标签集合，在待分割图像中的预设场景占据的图像区域中，确定与预设语义标签相匹配的元素为待分割元素。待分割图像中的预设场景中包括多个待分割元素，待分割元素可以是预设场景中包括的任意元素，而且待分割元素可以是多个不同的元素，基于各自的预设语义标签对图像特征中表征与该语义标签的数据进行语义分割，得到分割结果。以预设场景为城市场景，预设语义标签集合包括：行人道、机动车道和绿化区域为例，如果待分割图像的预设场景中包括行人道和机动车道两个待分割元素，那么基于行人道和机动车道对应的预设语义标签对待分割图像进行语义分割，得到将待分割图像划分为行人道和机动车道两个类别的分割结果。
56.在其他实施例中，在步骤s103之后，还可以基于分割结果和预设语义标签，确定待分割元素的目标类别，以便用于上层应用中。
57.在一些实施例中，由于分割结果中包括按照该预设语义标签对待分割图像进行分割的结果，比如，分割结果中包括多种待分割元素和图像其他区域的分割结果，那么通过预设语义标签与待分割元素的类别之间的对应关系，可以确定出待分割元素为每一类别对应的概率值，从而将概率值最大的类别确定为待分割元素的目标类别。
58.在一个具体例子中，待分割元素为行人道为例，假设预设语义标签集合中包括行人道、机动车道和绿化区域3个语义标签，分割结果中包括采用行人道对应的语义标签对待分割图像进行语义分割的结果，即对于待分割图像中的与该语义标签相匹配的区域标注上相应的标签，这样通过分析语义分割图中的标签即可确定待分割元素的类别。
59.在本技术实施例中，通过获取采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，能够创建对预设场景进行标注的标签库，并基于该样本图像集训练得到语义分割网络；这样，既能够创建标注规范的样本图像集，而且还能够采用该语义分割网络实现对预设场景下采集的待分割图像进行语义分割。并使用基于该样本图像集进行训练得到的语义分割网络，对待分割图像中的预设场景进行分割，能够有效分割出该预设场景中的多个场景元素。
60.在一些实施例中，通过采用预设语义标签集合，在待标注图像中预设场景所在的图像区域对画面中的待分割元素进行标注，以创建训练语义分割网络的样本图像集，即在
步骤s101之前，该方法还包括以下步骤，如图2所示，图2为本技术实施例提供的场景分割方法的另一实现流程示意图，结合图1和2所示的步骤进行以下说明：
61.步骤s201，获取包括预设场景的待标注图像集合。
62.在一些实施例中，待标注图像可以是任意场景下采集到的画面内容包括预设场景的图像，可以是画面内容复杂的图像，也可以是画面内容简单的图像；在一些可能的实现方式中，以预设场景为城市场景为例，待标注图像可以是在城市场景下采集的闹市中的图像或者采集的城市郊区的图像。
63.步骤s202，基于所述预设语义标签集合，确定所述待标注图像集合中每一待标注图像的预设场景中的待标注元素。
64.在一些实施例中，预设语义标签与待标注元素的类别一一对应的映射关系，获取到预设语义标签集合之后，即可基于预设语义标签与待标注元素的类别之间的对应关系，确定出需要分割的元素的类别，从而可得知预设场景中的待标注元素。以预设场景为城市场景为例，预设语义标签可以用数字代码表示，比如，预设语义标签为0，待标注元素的类别为行人道，预设语义标签为1，待标注元素的类别为机动车道，预设语义标签为2，待标注元素的类别为绿化区域。这样，在确定预设语义标签集合以及预设语义标签与待标注元素的类别的对应关系的情况下，即可确定出预设场景中的待标注元素为行人道、机动车道和绿化区域。所述待标注元素为像素级别的元素，所以可基于该待标注元素上标注的标签，实现对待分割图像中的预设场景的分割。
65.在一些可能的实现方式中，在设定语义标签的过程中，通过综合考虑待分割图像携带的待处理需求，确定出实现该待处理需求所需的语义标签，从而能够提高创建的标签的利用率，避免标注大量的无用标签，即在步骤s101之前，还包括以下设定语义标签的步骤s111至步骤s113(图示未示出)：
66.步骤s111，确定与预设场景相关的待处理需求。
67.在一些实施例中，待处理需求可以是其他终端输入的需求，还可以是与基于预设场景确定的，与预设场景相关的待处理需求，可以理解为是在该预设场景下，采用语义分割网络输出的分割结果，需要实现的事务。比如，预设场景为城市场景，与之相关的待处理需求可以是对城市道路交通的监控需求、对城市绿化区域所占面积的监控需求以及对城市内非法占用行人道或机动车道的执法需求等。预设场景不同，待处理需求不同，比如，预设场景为工地场景，待处理需求可以是对工地泥土进行分割的需求，或对工地扬尘进行分割的需求；如果预设场景为城市道路的非机动车停放场景，待处理需求可以是对非机动车分割的需求等。
68.在一些可能的实现方式中，以所述预设场景为城市场景为例，首先，确定与城市场景相关联的城市管理事件；其中，城市管理事件包括但不限于：交通事件、非法占道事件、对绿化区域的踩踏或侵占事件和红绿灯故障事件等。在一个具体例子中，与城市场景相关联的城市管理事件可以是城管人员需要处理的事件，比如，对机动车占据行人道的监控事件或对非机动车占据机动车道的监控事件等。然后，将城市管理事件，确定为待处理需求。比如，城市管理事件为对机动车占据行人道的监控，那么待处理需求为对机动车占据行人道进行监控。
69.步骤s112，确定实现所述待处理需求相关联的多个对象。
70.在一些实施例中，对象为实现该待处理需求的过程中涉及到的预设场景中的对象。比如，预设场景为城市场景，待处理需求为对城市道路交通的监控需求，那么多个对象包括：行人道、机动车道、红绿灯和高架桥等与城市道路交通相关的对象。如果预设场景为道路积水场景，该多个对象包括：城市道路、积水区域和非积水区域。如果预设场景为非机动车停放场景，该多个对象包括：停放的自行车、运行中的自行车和背景区域等。
71.在一些可能的实现方式中，可以通过以下过程确定待处理需求相关联的多个对象：
72.首先，确定实现城市管理事件的城市建设信息。
73.其中，城市建设信息为实现城市建设的工程性基础设施或社会性基础设施等，比如，普通行人道、盲道、机动车道、绿化带、公交站牌和地铁站口等。以城市管理事件为对机动车占据行人道进行监控为例，城市建设信息至少包括执行对机动车占据行人道的监控过程中需要涉及的城市基础建设，比如，道路信息。
74.然后，确定与所述城市建设信息相关联的城市场景中的物体。
75.比如，确定城市建设信息中包括的物体，以城市管理事件为对机动车占据行人道进行监控为例，那么与城市建设信息相关联的物体包括机动车道、行人道和天空等。
76.最后，将所述的城市场景中的物体，确定为所述对象。
77.如此，在预设场景为城市场景，待处理需求为城市管理事件的情况下，通过分析城市管理事件需要的城市建设信息，将该城市建设信息相关联的物体作为待处理需求相关联的多个对象，这样对待标注图像中与待处理需求相关联的多个对象进行标注，使得到的样本图像集中的标签更符合应用场景，从而使得训练的语义分割网络的鲁棒性更强。
78.步骤s113，基于所述多个对象的类别，设定所述预设语义标签集合。
79.在一些实施例中，可以将多个对象的类别名称作为预设语义标签，还可以通过建立多个对象的类别与预设语义标签之间的对应关系，来设定任意类型的预设语义标签。在所述预设场景为工地场景的情况下，所述预设语义标签集合包括：工地扬尘、块状泥土和散状泥土；在所述预设场景为道路积水场景的情况下，所述预设语义标签集合包括：晴天积水和内涝积水；在所述预设场景为城市场景下非机动车场景的情况下，所述预设语义标签集合包括：非机动车倾倒、非机动车正确摆放、非机动车摆放次序混乱、非机动车倚靠其他物体摆放、其他非机动车以及图像背景区域等。
80.上述步骤s111至步骤s113提供了一种设定语义标签的方式，在该方式中，通过分析预设场景下的待处理需求，创建满足该待处理需求的语义标签，从而能够减少标注的样本集中出现多余的标签。
81.步骤s203，采用与所述待标注元素相匹配的所述预设语义标签集合中的预设语义标签，对所述待标注元素进行标注，得到已标注图像。
82.在一些实施例中，对于每一个待标注元素，在预设语义标签集合中，确定与该待标注元素匹配的语义标签，采用该语义标签在待标注图像中对待标注元素进行标注，这样，采用预设语义标签集合标注完成了待标注图像中的每一个待标注元素，得到已标注图像。在一个具体例子中，以预设场景为城市场景，预设语义标签集合中的预设语义标签为汉字：行人道、机动车道和杆状物体，那么对于待标注图像中的待标注元素(行人道)，采用预设语义标签(行人道)进行标注，对于待标注图像中的待标注元素(机动车道)，采用预设语义标签
(机动车道)进行标注，对于待标注图像中的待标注元素(红绿灯支柱)，采用预设语义标签(杆状物体)进行标注等。在一些可能的实现方式中，采用与待标注图像区域相匹配的多边形，和对应的预设语义标签，对所述待标注图像区域的道路积水类别进行标注，得到已标注的样本图像；这样能够提高标注速度。以预设场景为道路积水场景为例，首先，在待标注图像中，确定道路积水所在的待标注图像区域。这里，对于待标注图像集合中的每一个待标注图像，按照道路积水所在的区域划定待标注图像区域。比如，将图像中所在的待标注图像区域。如果在一张待标注图像中，有3个区域存在轻微积水，那么分别确定这三个积水区域，采用轻微积水对应的语义标签进行标识。然后，采用与待标注图像区域相匹配的多边形，和道路积水类别对应的预设语义标签，对待标注图像区域的道路积水进行标注，得到已标注图像。这里，与待标注图像区域相匹配的多边形为待标注图像区域的边缘形成的多边形，这样在待标注图像中，对于每一区域的道路积水，通过采用待标注图像区域形成的多边形，用该类别匹配的预设语义标签，对区域中的道路积水的类别进行标注，以完成对待标注图像中道路积水类别的标注过程。在一个具体例子中，如果待标注图像中包括两处道路积水：轻微积水区域a和区域b，那么轻微积水对应两个待标注图像区域，即对这两个区域均采用轻微积水的语义标签进行标注，得到已标注图像；如此，采用多边形对道路积水类别进行标注，能够调高标注速度。
83.步骤s204，基于已标注图像，创建样本图像集。
84.在一些实施例中，通过对待标注图像中的目标元素进行标注，得到作为训练集的样本图像，基于此对待训练分割网络进行训练，得到语义分割网络，能够提高语义分割网络在该预设场景中对待分割图像进行语义分割的准确度。
85.在一些实施例中，通过分析该预设场景下的待处理需求，设定语义标签，并对待标识图像进行标注，得到作为训练集的样本图像；对于待分割图像，在采用基于该样本图像训练得到的语义分割网络进行场景分割之后，基于得到的分割结果，对待处理需求进行处理，得到处理结果。比如，通过分析分割结果中的每一待分割元素的类别，从而能够响应待处理需求，得到处理结果。
86.在一些可能的实现方式中，可以通过以下过程实现对待处理需求的处理过程：
87.第一步，对所述分割结果的尺寸进行调整，得到尺寸与所述待分割图像的尺寸相同的已调整结果。
88.在一些实施例中，通过对分割结果进行上采样，实现对所述分割结果的尺寸进行调整。由于对待分割图像进行特征提取时，进行了下采样，为使得输出结果的大小与输入的待分割图像的大小相同，所以对分割结果进行上采样，以调整分割结果的大小，从而得到与待分割图像大小一致的二维矩阵，即已调整结果。
89.第二步，基于所述已调整结果和所述预设语义标签集合，确定所述待分割图像中待分割元素的类别。
90.在一些实施例中，该已调整结果是对分割结果进行上采样得到的，已调整结果中仍然包含了对待分割元素按照语义标签进行分割的结果，基于语义标签和待分割元素的类别之间的对应关系，即可确定已调整结果中对待分割元素进行分割的标签的类别，从而得到目标类别。
91.在一些可能的实现方式中，通过分析已调整结果中每一语义标签的概率值，从而
确定最有可能为与待分割元素匹配的语义标签，可以通过以下过程实现：
92.首先，基于已调整结果，确定待分割元素的分割标签为预设语义标签集合中每一预设语义标签的概率值。
93.在一些可能的实现方式中，已调整结果中包括采用预设语义标签对待分割图像进行分割的结果，所以能够在已调整结果中确定出待分割元素的分割结果为每一语义标签的概率值。一个概率值对应一种语义标签，表示该图像中的待分割元素的类别为语义标签对应类别的概率。
94.然后，将概率值最大的语义标签，确定为目标标签。
95.在一些可能的实现方式中，概率值最大的语义标签，说明待分割元素的类别为该语义标签对应类别的可能性最大，将该语义标签确定为目标标签。
96.最后，基于对应关系，确定目标标签对应的类别，以得到待分割元素的目标类别。
97.在一些可能的实现方式中，基于语义标签集合中语义标签与元素类别之间的对应关系，确定所述目标标签对应的类别，以得到所述待分割元素的目标类别。确定出待分割元素的类别为每一语义标签的概率值之后，通过元素的类别与语义标签之间的对应关系，即可分析到目标标签所匹配的类别，将该类别作为待分割元素的目标类别。在一个具体例子中，语义标签为30个，分别确定待分割元素的类别为每一语义标签对应类别的概率值，得到30个概率值，从中确定出最大的概率值，如果最大的概率值对应的语义标签为“1”，那么将标签“1”对应的类别(比如，行人道)，作为待分割元素的目标类别。
98.第三步，基于待分割元素的类别，对待处理需求进行处理，得到处理结果。
99.在一些实施例中，基于待分割元素的类别，对待处理需求进行响应，处理结果即为实现待处理需求的结果。在一个具体例子中，如果预设场景为城市场景，待处理需求为对机动车占据行人道进行监控的需求，那么待分割元素的类别包括：行人道、机动车道和绿化区域等；这样通过对待分割图像中的行人道、机动车道和绿化区域进行分割之后，即可在该待分割图像中看出行人道是否被车辆占据，如果被占据则输出告警信息，如果未被占据则输出表示合法的信息。在道路积水场景下，如果待处理需求为对内涝积水进行告警，那么基于待分割元素的类别(轻微积水和内涝积水等)，对图像进行分割，如果图像中存在内涝积水，则输出告警信息，提示管理人员对该区域进行处理。
100.在城市场景的非机动车停放场景下，如果待处理需求为统计乱停放的非机动车，基于待分割元素的类别(处于倾倒状态的非机动车和停放不规则的非机动车等)，对图像进行分割，如果图像中存在处于倾倒状态的非机动车或停放不规则的非机动车，则输出告警信息，提示管理人员对该区域的非机动进行车管理。
101.在工地场景下，如果待处理需求为对工地扬尘和工地泥土进行管理，基于待分割元素的类别(散状泥土、块状泥土、砂石、扬尘和飞尘等)，对图像进行分割，如果图像中散状泥土、块状泥土、砂石、扬尘或飞尘，则输出告警信息，提示管理人员对该区域的扬尘或泥土进行车管理。
102.在本技术实施例中，采用语义分割网络对待分割图像进行语义分割之后，可将得到的分割结果，用于后续的上层应用中，以基于待分割元素的类别，对待处理需求进行处理，能够得到准确响应该待处理需求处理结果。
103.在一些实施例中，按照待分割图像的语义标签，对图像进行场景分割，即步骤s104
可以通过以下步骤s141至143(图示未示出)实现：
104.步骤s141，基于预设语义标签集合，在待分割图像中，确定待分割元素。
105.在一些实施例中，由于预设语义标签与待分割元素的类别之间具有一一对应的关系，这样，当获取待分割图像之后，按照与预设语义标签对应的待分割元素的类别，在待分割图像中，确定该类别的像素级别的元素，即为待分割元素。待分割元素与待标注元素的级别一致，均为像素级别的元素，比如，预设场景为非机动车停放场景，待分割元素可以是以像素级别表示的非机动车。
106.步骤s142，在预设语义标签集合中，确定与待分割元素相匹配的候选语义标签。
107.在一些实施例中，在待分割图像中，确定出待分割元素之后，基于元素类别与语义标签的对应关系，即可确定与待分割元素相匹配的语义标签，即候选语义标签。
108.步骤s143，按照候选语义标签，对图像特征进行场景分割，得到分割结果。
109.在一些实施例中，对于待分割图像进行特征提取之后，采用deeplab v3网络按照候选语义标签，对图像特征中的待分割元素进行分割，得到能够区分每一类别的待分割元素的分割结果。
110.在本技术实施例中，通过按照基于待处理需求创建的预设语义标签集合，采用deeplab v3网络对待分割图像进行场景分割，能够更加准确的确定场景中的每种元素。
111.在一些实施例中，通过采用预设语义标签对待标注图像的待分割元素进行标注之后，基于该样本图像集对待训练分割网络进行训练，以得到语义分割网络，其中，训练过程包括以下步骤：
112.第一步，将所述样本图像集中的样本图像输入待训练分割网络，得到样本图像特征。
113.在一些实施例中，采用预设语义标签对待分割元素进行标注的样本图像作为训练集，对待训练分割网络进行训练；该样本图像为在预设场景下采集的图像，比如，在城市场景下采集的图像。将任意一张样本图像输入待训练分割网络中，以进行特征提取，得到样本图像特征。在一些可能的实现方式中，采用深度残差网络实现对样本图像的特征提取。
114.第二步，基于预设语义标签集合，对样本图像特征进行语义分割，得到预测分割结果。
115.在一些实施例中，在待分割图像中，确定出待分割元素之后，基于元素类别与语义标签的对应关系，即可确定与待分割元素相匹配的语义标签，采用deeplab v3网络，对图像特征中的待分割元素进行预测，基于预测结果对该样本图像特征中的待分割元素进行分割，得到预测分割结果。
116.第三步，采用预测分割结果的损失，对所述待训练分割网络的网络参数进行调整，以使得到的所述语义分割网络输出的预测分割结果的损失满足收敛条件。
117.在一些实施例中，通过比较该预测分割结果和样本图像中的真值标签，可以确定确定预测分割结果的损失。通过该预测分割结果的损失，对待训练分割网络的权重值和调整量进行调整，使得训练好的语义分割网络输出的预测分割结果的损失收敛。
118.在本技术实施例中，通过获取大量的城市复杂场景的待标注图像，然后，采用预设语义标签对待标注图像中的目标元素进行标注，得到样本图像集，最后，基于该样本图像集对待训练分割网络进行训练，从而使得训练得到的语义分割网络能够有效进行场景分割。
119.下面，将说明本技术实施例在一个实际的应用场景中的示例性应用，以采用创建的标签库，对城市场景进行分割为例，进行说明。
120.在相关技术中，城市场景的执法管理主要依靠人力，往往导致执法成本高和效率低的问题。在新型的智能化执法管理中，对城市场景的准确分割和定位是智能管理的基础。然而，在实际应用中，受光照明暗、背景杂乱和视角场景变换等因素的影响，城市场景分割问题的建模是非常复杂的。而且由于标签上定义不清晰，在模型定义上不统一，使得输出的分割结果不规范。
121.基于此，本技术实施例提供一种场景分割方法，通过创建独立、完备和基础的标签体系，训练轻量级的语义分割网络，从而通过分析分割结果确定场景中的每种城市元素。该场景分割方法的实现过程如下：
122.第一步，根据实际需求，对城市场景的语义标签和对应的输出结果进行定义，创建城市场景语义标签，得到语义标签库。
123.在一些实施例中，语义标签和对应的输出结果包括：
124.a)类别id为0，语义标签为天空，对应的输出结果为天空。
125.b)类别id为1，语义标签为建筑或围墙，对应的输出结果为各种建筑物和高低不同的围墙。
126.c)类别id为2，语义标签为植被，对应的输出结果为城市场景下的绿化区域。
127.d)类别id为3，语义标签为蓝色行人道，对应的输出结果为城市场景下的行人道。
128.e)类别id为4，语义标签为机动车道，对应的输出结果为城市场景下的机动车道。
129.第二步，基于类别标签库，对输入的图像进行语义分割，得到语义分割图。
130.在一些可能的实现方式中，输出结果的格式可以为与原图大小一致的二维矩阵，用于表示语义分割图。
131.第三步，基于语义分割图，确定该图像中城市场景包括的城市元素的类别。
132.本技术实施例提供的场景分割方法，可以通过图3所示的步骤实现，图3为本技术实施例提供的场景分割方法的又一实现流程示意图，结合图3所示的步骤进行以下说明：
133.步骤s301，获取包括城市场景的待分割图像。
134.步骤s302，将图像输入残差神经网络，以进行特征提取。
135.步骤s303，将提取的特征输入卷积网络模型，以进行语义分割，得到语义分割结果。
136.在一些可能的实现方式中，卷积网络模型可以是带有空洞卷积的空间金字塔结构模型(atrous spatial pyramid pooling，aspp)，该模型可以采用deeplab v3网络实现。
137.步骤s304，对语义分割结果进行上采样，得到已调整结果。
138.步骤s305，基于已调整结果，输出每一待分割元素的类别。
139.在一些可能的实现方式中，对语义分割结果进行上采样之后，即对语义分割结果进行放大，从而能够基于语义标签与输出结果的对应关系，得到该语义分割结果所对应的最终预测结果。如图4所示，图4为本技术实施例提供的场景分割方法的应用场景示意图，其中，图像401为采集的待分割图像，将图像401输入残差神经网络以进行特征提取，然后，将特征提取结果输入到deeplab v3网络，以进行语义分割，得到语义分割结果；参见图5所示，图5为本技术实施例提供的对待分割图像进行场景分割的语义分割图，即语义分割结果如
图像501所示，基于语义标签与输出结果的对应关系，即可确定出图像501中每一种语义标签对应的场景场景的类别，即在图像501中，按照语义标签库中的语义标签对图像401中的城市场景下的不同类别进行语义划分，对于每一品类别均采用该类别的语义标签进行语义分割，比如，语义标签库包括：天空、建筑/围墙、杆状物体、植被、行人道和机动车道；那么基于此对图像401进行场景分割，得到分割结果，即图像501，其中，区域502为围墙，对应的语义标签为建筑/围墙；区域503为行人道，对应的语义标签为行人道；区域504为机动车道，对应的语义标签为机动车道；区域505为绿化带，对应的语义标签为植被；杆状物体506对应的语义标签为路灯杆。这样，通过设定的语义标签对城市场景的城市元素进行场景分割，创建的语义标签库能够清晰地覆盖城市场景，实用且易于操作，如此得到的分割结果方便上层预警事件产品使用。
140.在本技术实施例中，通过综合分析城市场景中包括的不同类别，定义完备、独立且基础的语义分割标签体系，从而能够提供轻量级语义分割算法框架，易于快速使用，同时输出标准的语义分割结果。
141.本技术实施例提供一种场景分割装置，图6为本技术实施例场景分割装置的结构组成示意图，如图6所示，所述场景分割装置600包括：
142.第一确定模块601，用于确定用于对预设场景进行场景分割的语义分割网络；其中，所述语义分割网络是通过采用预设语义标签集合对画面中的预设场景进行标注的样本图像集，进行训练得到的；
143.第一获取模块602，用于获取包括所述预设场景的待分割图像；
144.第一提取模块603，用于采用所述语义分割网络，对所述待分割图像进行特征提取，得到图像特征；
145.第一分割模块604，用于基于所述预设语义标签集合，对所述图像特征进行场景分割，得到分割结果。
146.在上述装置中，所述装置包括：
147.第二获取模块，用于获取包括所述预设场景的待标注图像集合；
148.第二确定模块，用于基于所述预设语义标签集合，确定所述待标注图像集合中每一待标注图像的预设场景中的待标注元素；
149.第一标注模块，用于采用与所述待标注元素相匹配的所述预设语义标签集合中的预设语义标签，对所述待标注元素进行标注，得到已标注图像；
150.第一创建模块，用于基于所述已标注图像，创建所述样本图像集。
151.在上述装置中，所述第一分割模块604，包括：
152.第一确定子模块，用于基于所述预设语义标签集合，在所述待分割图像中，确定待分割元素；
153.第二确定子模块，用于在所述预设语义标签集合中，确定与所述待分割元素相匹配的候选语义标签；
154.第一分割子模块，用于按照所述候选语义标签，对所述待分割图像进行分割，得到所述分割结果。
155.在上述装置中，所述装置还包括：
156.第三确定模块，用于确定与所述预设场景相关的待处理需求；
157.第四确定模块，用于确定实现所述待处理需求相关联的多个对象；
158.第一设定模块，用于基于所述多个对象的类别，设定所述预设语义标签集合。
159.在上述装置中，所述装置还包括：
160.第一处理模块，基于所述分割结果，对与所述预设场景相关的待处理需求进行处理，得到处理结果。
161.在上述装置中，所述第一处理模块，包括：
162.第一上采样子模块，用于对所述分割结果的尺寸进行调整，得到尺寸与所述待分割图像的尺寸相同的已调整结果；
163.第三确定子模块，用于基于所述已调整结果和所述预设语义标签集合，确定所述待分割图像中待分割元素的类别；
164.第一处理子模块，用于基于所述待分割元素的类别，对所述待处理需求进行处理，得到所述处理结果。
165.在上述装置中，在所述预设场景为城市场景的情况下，所述第三确定模块，包括：
166.第四确定子模块，用于确定与所述城市场景相关联的城市管理事件；将所述城市管理事件，确定为所述待处理需求；
167.第五确定子模块，用于将所述城市管理事件，确定为所述待处理需求；
168.所述第四确定模块，包括：
169.第六确定子模块，用于确定实现所述城市管理事件的城市建设信息；
170.第七确定子模块，用于确定与所述城市建设信息相关联的城市场景中的物体；
171.第八确定子模块，用于将所述的城市场景中的物体，确定为所述对象。
172.在上述装置中，在所述预设场景为工地场景的情况下，所述预设语义标签集合包括：工地扬尘、块状泥土和散状泥土；
173.在所述预设场景为道路积水场景的情况下，所述预设语义标签集合包括：晴天积水和内涝积水；
174.在所述预设场景为城市场景下非机动车场景的情况下，所述预设语义标签集合包括：非机动车倾倒、非机动车正确摆放、非机动车摆放次序混乱、非机动车倚靠其他物体摆放、其他非机动车以及图像背景区域。
175.在上述装置中，所述装置还包括训练模块，用于对待训练分割网络进行训练得到语义分割网络；所述训练模块，包括：
176.第一输入子模块，用于将所述样本图像集中的样本图像输入待训练分割网络，得到样本图像特征；
177.第一分割子模块，用于基于所述预设语义标签集合，对所述样本图像特征进行语义分割，得到预测分割结果；
178.第一调整子模块，用于采用所述预测分割结果的损失，对所述待训练分割网络的网络参数进行调整，以使得到的所述语义分割网络输出的预测分割结果的损失满足收敛条件。
179.需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本技术装置实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。
180.需要说明的是，本技术实施例中，如果以软件功能模块的形式实现上述的场景分割方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：u盘、运动硬盘、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本技术实施例不限制于任何特定的硬件和软件结合。
181.对应地，本技术实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本技术实施例提供的场景分割方法。
182.本技术实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的场景分割方法。
183.本技术实施例提供一种计算机设备，图7为本技术实施例计算机设备的组成结构示意图，如图7所示，所述计算机设备700包括：一个处理器701、至少一个通信总线、通信接口702、至少一个外部通信接口和存储器703。其中，通信接口702配置为实现这些组件之间的连接通信。其中，通信接口702可以包括显示屏，外部通信接口可以包括标准的有线接口和无线接口。其中所述处理器701，配置为执行存储器中图像处理程序，以实现上述实施例提供的场景分割方法。
184.以上场景分割装置、计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同相应方法实施例相似的技术描述和有益效果，限于篇幅，可案件上述方法实施例的记载，故在此不再赘述。对于本技术场景分割装置、计算机设备和存储介质实施例中未披露的技术细节，请参照本技术方法实施例的描述而理解。
185.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本技术的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
186.在本技术所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或
可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
187.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
188.另外，在本技术各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
189.或者，本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：纪德益;甘伟豪
技术所有人：上海商汤智能科技有限公司
我是此专利的发明人

上一篇：一种焚烧垃圾用布料布气装置的制作方法
上一篇：一种建立随时空变化大气密度模型的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。