标签图像生成及语义分割模型训练方法、装置和存储介质与流程

文档序号：34656527发布日期：2023-07-04 20:06阅读：24来源：国知局

本发明的实施方式总体上涉及图像语义标注，更具体地，涉及一种标签图像生成方法和语义分割模型训练方法及装置和存储介质。

背景技术：

1、语义分割是指通过一定的算法将图像分割成具有语义含义的区域块，并识别出每个区域块的语义类别，实现不同图像区域的语义推理，最终得到一幅具有逐像素语义标注的分割图像，从而实现图像分类、目标检测和图像分割等功能。图像语义分割分为传统方法和基于卷积神经网络的方法。近些年来，随着深度学习技术的不断发展，语义分割技术取得很大的进步，基于卷积神经网络可以自动学习图像特征并进行语义分割，大幅提高语义分割的精度。

2、随着越来越多先进的语义分割算法不断出现，语义分割算法在高级别自动驾驶中的研究应用不断增加。

3、然而，首先，语义分割数据集的标注成本很高。针对语义分割算法，为了能够训练得到精度较高的神经网络模型，需要大量的原始图像及其标签图像。标签图像的生成过程主要为：针对原始图像中的每个像素点，标注其语义类别，并用特定的数字编号表示，生成标签图像。这些类别可能是行人，车辆，建筑物，天空，车道线等，由用户针对自己的需求进行定义。而为了使模型能够有效识别各种类别的场景，需要针对大量的不同场景提取图像，并对其进行标注。综上，单张图像标注复杂度较高，且需标注大量图像，所需的时间和人力成本很高。

4、其次，不同的语义分割任务会需要不同的标注类别。我们在实际工作过程中，会面临不同的语义分割训练任务，针对不同的训练任务，我们会用不同的标签数据。例如：我们可能会训练一个模型用于进行行人，机动车，自行车，摩托车等动态目标的语义分割，因此只需要对这些语义类别进行标注；另一个模型用来对可行驶区域，车道线，红绿灯等语义类别中的一个或几个进行分割，因此只需要对这些语义类别中的一个或几个进行标注。因此，模型训练的任务会多种多样。另外，如果由于语义类别定义使算法产生一些歧义，造成模型训练结果较差，我们也可能会对数据标签类别进行重新定义。以上的需求都会造成数据集标注类别定义的变化，从而需要重新进行标注，耗费大量的成本。

5、目前，公开的数据集都是单层级的语义标注方法。例如cityspace数据集，共定义了平面，人，车辆，建筑，目标，自然，天空，缺省8个组，在各组中又细分定义了共计30种语义类别，图像像素点与语义类别是一一对应的关系，标注文件可以直接用于语义分割训练。另外，通过对语义类别的映射，可将30种语义类别映射为新的语义类别，能够在一定程度上用于多种训练任务。

6、公知领域的解决方案均为单类别的标注方案，即每个像素点被定义为一种语义类别。而实际情况中，在不同的训练任务中，单个像素点会对应不同的所需的语义类别。因此，公知领域的标注方案存在一定局限性，难以通过一次标注满足所有训练需求。

技术实现思路

1、为了解决现有技术中的上述问题，希望能够发明一种柔性化的数据集标注及映射方法，通过一次图像数据标注，能够生成所需的不同语义类型的标签图像，以实现不同的训练任务或优化训练模型。为此，本发明的实施方式提供了一种标签图像生成方法，所述方法包括：针对原始图像中的待标注区域单元，执行多个层级的语义标注，确定每个待标注区域单元在所述多个层级中的每个层级中的语义类别，从而获得每个待标注区域单元的一个或多个标注语义类别，其中，所述多个层级中的每个层级包括多个语义类别，所述多个层级选自包括地面区域的一个或多个层级、动态目标的一个或多个层级、静态目标的一个或多个层级和图像整体属性的一个或多个级别的组；根据所述原始图像中的每个待标注区域单元的一个或多个标注语义类别，获得所述多个层级中的每个层级中的每个语义类别相对应的图像区域；根据每个语义类别相对应的图像区域，生成针对每个语义类别的单个语义类别解析图像，其中所述单个语义类别解析图像中与该语义类别相对应的图像区域具有特定像素值；针对待生成的标签图像相对应的一个或多个标签语义，根据标签语义与标注语义类别的映射关系，从所述单个语义类别解析图像中选取所述一个或多个标签语义所映射到的语义类别相对应的单个语义类别解析图像；对所选取的单个语义类别解析图像的像素值进行运算，确定所述一个或多个标签语义中的每个标签语义对应的图像区域；对所述一个或多个标签语义中的每个不同标签语义对应的图像区域分别赋予不同的像素值，从而生成所述标签图像。

2、在一些实施方式中，对所选取的单个语义类别解析图像的像素值进行运算包括：根据标签语义与标注语义类别的关联关系，将所选取的单个语义类别解析图像分为需叠加的解析图像和需扣除的解析图像；将所有需叠加的解析图像中具有特定像素值的区域进行叠加运算，将所有需扣除的解析图像中具有特定像素值的区域进行扣除运算。

3、在一些实施方式中，所述单个语义类别解析图像是二值图像，并且与其语义类别相对应的图像区域具有的特定像素值是1。

4、在一些实施方式中，所述地面区域的一个或多个层级包括选自地面的功能层级、地面的材质层级和地面的特征层级中的一个或多个层级。

5、在一些实施方式中，所述地面区域的一个或多个层级包括选自地面的通行性层级、地面的标示层级、地面的平整度层级和地面的高度层级中的一个或多个层级。

6、在一些实施方式中，对所选取的单个语义类别解析图像的像素值进行运算包括：根据预先定义的标签语义与标注语义类别的类别映射关系，对所选取的单个语义类别解析图像的像素值进行运算。

7、在一些实施方式中，所述方法还包括：将针对每个语义类别的单个语义类别解析图像及其语义类别存储为标注文件。

8、在一些实施方式中，所述待生成的标签图像相对应的一个或多个标签语义是根据特定的语义分割训练任务而确定的。

9、在第二方面，本发明的实施方式提出了一种语义分割模型训练方法，所述方法包括：将根据上述任何实施方式所述的方法生成的标签图像作为训练样本输入语义分割模型进行训练。

10、在第三方面，本发明的实施方式提出了一种标签图像生成装置，所述装置包括：多层级语义标注模块，配置用于：针对原始图像中的待标注区域单元，执行多个层级的语义标注，确定每个待标注区域单元在所述多个层级中的每个层级中的语义类别，从而获得每个待标注区域单元的一个或多个标注语义类别，其中，所述多个层级中的每个层级包括多个语义类别，所述多个层级选自包括地面区域的一个或多个层级、动态目标的一个或多个层级、静态目标的一个或多个层级和图像整体属性的一个或多个级别的组；单语义图像区域获取模块，配置用于：根据所述原始图像中的每个待标注区域单元的一个或多个标注语义类别，获得所述多个层级中的每个层级中的每个语义类别相对应的图像区域；解析图像生成模块，配置用于：根据每个语义类别相对应的图像区域，生成针对每个语义类别的单个语义类别解析图像，其中所述单个语义类别解析图像中与该语义类别相对应的图像区域具有特定像素值；解析图像选取模块，配置用于：针对待生成的标签图像相对应的一个或多个标签语义，根据标签语义与标注语义类别的映射关系，从所述单个语义类别解析图像中选取所述一个或多个标签语义所映射到的语义类别相对应的单个语义类别解析图像；解析图像运算模块，配置用于对所选取的单个语义类别解析图像的像素值进行运算，确定所述一个或多个标签语义中的每个标签语义对应的图像区域；区域赋值模块，配置用于：对所述一个或多个标签语义中的每个不同标签语义对应的图像区域分别赋予不同的像素值，从而生成所述标签图像。

11、在第四方面，本发明的实施方式提出了一种语义分割模型训练装置，所述装置用于：将根据上述任何实施方式所述的标签图像生成方法生成的标签图像作为训练样本输入语义分割模型进行训练。

12、在第五方面，本发明的实施方式提出了一种存储介质，存储有机器可读指令，当所述指令由处理器运行时，执行上述任何实施方式所述的标签图像生成方法或语义分割模型训练方法。

13、本发明的实施方式提出的标签图像生成方法、语义分割模型训练方法及装置和存储介质可以针对用户在语义分割训练方面的需求，通过多类别的语义标注，可以将用户所有期望训练的语义类别进行表达和标注。利用本发明的方法得到的标注文件，可以通过映射得到各类实际训练所需的标签图像，从而大大减少图像重新标注的时间，缩短研发周期，降低研发成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈亭姜新明李冰
技术所有人：一汽-大众汽车有限公司
我是此专利的发明人

上一篇：透明导电薄膜前驱体溶液/浆料及其制备方法和应用与流程
上一篇：一种基于LoRaWAN的高并发数据传输方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。