用于高质量图像分割的条带解码器和内外损失的制作方法

文档序号：36318355发布日期：2023-12-08 11:55阅读：35来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及机器学习图像分割的领域。具体地，本发明还涉及包括用于高质量图像分割的条带解码器和内外损失模块的系统。

背景技术：

1、在传统的对象检测任务中，通常使用定位损失(l2/l1损失)来测量预测值与基准真值之间的差。然而，由于l2/l1损失的对称特性，扩展的边界框或收缩的边界框可以产生相同的l2/l1损失值。

2、然而，在应用级别处，扩展的边界框优于收缩的边界框。当边界框内部的对象将被裁剪并用于另一任务例如分割时尤其如此。

3、收缩的边界框将导致对象的不完整表示，这将导致分割故障。例如，第一阶段中的不完整边界框可能在所得到的分割中切除一些对象身体部分例如手。扩展的边界框将使分割过程集中在背景上并且生成低分辨率掩码。

4、此外，使用最大池化、之后是感知器结构的传统的解码器结构不能捕获长距离依赖关系。为了解决该缺陷，本发明引入了条带解码器，其沿水平、竖直、45度和-45度方向取特征的平均值。该长内核形状能够捕获长距离依赖关系与局部细节。

5、因此，一方面，扩展的边界框是优选的，并且其应当被分配有较低的损失值。另一方面，条带解码器通过在不同方向上使用更多的全局信息来预测更准确的边界框。

6、qibin hou的题为“strip pooling:rethinking spatial pooling for sceneparsing”的研究论文公开了条带池化。hou具体公开了空间池化架构设计，该空间池化架构设计引入了新的条带池化模块，该条带池化模块使得骨干网络能够有效地对长距离依赖关系进行建模。该架构提出了新颖的构建块，该构建块以不同的空间池化为核心。此外，hou系统地比较了所提出的条带池化和常规的空间池化技术的性能。

7、已经证明空间池化在捕获用于逐像素预测任务例如场景解析的长距离上下文信息方面非常有效。除常规空间池化之外的现有技术通常具有n×n的规则形状，并且通过引入新的池化策略——称为条带池化——来临时制定空间池化，该池化策略考虑了长但窄的内核。

8、尽管这样的现有技术参考文献集中于条带池化并且提供了改进的分割方法，但是这些参考文献没有公开用于图像分割的系统，该系统具有提供扩展但仍具准确结果的边界框预测以及引入内外损失以降低将背景噪声误分类为目标对象的概率的架构。

9、因此，为了克服现有技术的缺陷，当前需要提供这样的用于图像分割的系统。此外，这样的系统包括使用roi检测之后进行图像分割以改善分割结果。

10、现在明显的是，在现有技术中开发的许多方法和系统足以适用于有限的目的。此外，即使这些发明可能相应地适于它们所要解决的特定目的，但是它们也不适于如前所述的本发明的目的。因此，需要提供包括用于高质量图像分割的条带解码器和内外损失模块的系统。

技术实现思路

1、对象检测在计算机视觉应用中具有广泛的功能。例如，在自主驾驶应用中，行人和车辆检测对于准确地引导汽车的移动是至关重要的。在摄像装置应用中，根据用户的编辑偏好利用照片对象检测来引导对象分割。在理想情况下，作为n维中的点集(s)的预测边界框将是最小周长边界框；这意味着包括面积和体积的几何度量达到它们的最小值。然而，难以预测现实世界环境中的理想边界框。在大多数情况下，预测出大于或小于最小周长边界框的边界框，并且这样的情况可能导致问题。例如，在自主驾驶中，如果行人的预测边界框太小，则汽车可能做出不正确的移动决定并且撞击行人。另一方面，如果行人的边界框太大，则汽车可能比所需行驶得更慢。

2、对于两阶段分割方法，本发明检测要用作引导的感兴趣区域(region ofinterest，roi)。如果第一阶段roi边界框太大，则第二阶段输入将具有较低的分辨率，这意味着第二阶段不能捕获对象的许多细节。这将导致分割掩码的粗略边界。另一方面，如果边界框太小，则在随后的分割阶段中对象的一部分将不可见。这样的缺失部分不可恢复，并且将导致不完整的分割掩码。

3、较大边界框优于较小边界框，因为高估目标对象的尺寸比低估目标对象的尺寸更好。稍微扩展的边界框将增加对象检测模型的鲁棒性。然而，大多数边界框损失处理方法同等地处理较大边界框和较小边界框。

4、本发明的主要目的是提供用于高质量分割的系统，其中，该系统包括对象检测器和分割单元。

5、对象检测器检测图像中的对象。解码器模块是条带池化解码器，其利用不同方向上的长内核形状来捕获经处理的图像中的长距离依赖关系和多个局部细节，以提高对象检测的准确度并且形成第一经处理的图像。内外损失模块计算对象的内外损失以清楚地将对象与第一经处理的图像的背景分离并且产生第二经处理的图像。

6、分割单元对从第二经处理的图像的背景中检测到的对象执行高质量分割。

7、本发明的另一目的是促进对象检测在诸如自主驾驶、行人和车辆检测的现实生活场景中以及在摄像装置应用中的广泛应用。

8、引入内外损失以降低将背景噪声误分类为目标对象的概率。

9、在本发明中，不同的方向包括水平方向、竖直方向、45度和-45度方向。45度和-45度池化解码器能够检测倾斜对象。

10、在本发明中，通过召回率计算内外损失。内外损失确定对象的召回率，并且测量被正确地检测为背景的背景像素的数目。

11、在本发明中，条带池化解码器被设计成通过沿不同方向增加感受域来增加边界框预测的准确度。

12、在本发明中，将内外损失引入至检测到的对象中，以提高对象roi检测的准确度。高准确度检测提供了适当的roi以改善分割结果。

13、在本发明中，引入条带解码器和内外损失单元以提高图像分割的准确度。条带池化解码器利用不同方向上的长内核形状来捕获长距离依赖关系。长内核形状集中于图像中的局部细节，以提高由条带池化解码器进行的对象检测的准确度。

14、此后，引入内外损失以降低将背景噪声误分类为目标对象的概率。本发明使用两阶段分割方法，该方法部署roi检测之后进行图像分割以改善分割结果。

15、结合附图，本发明的其他目的和方面将从以下详细描述中变得明显，所述附图作为示例示出了根据本发明的实施方式的特征。

16、为了实现以上目的和相关目的，本发明可以以附图中所示的形式体现，然而，注意以下事实：附图仅是说明性的，并且在所附权利要求的范围内可以对所示出和所描述的具体结构进行改变。

17、尽管以上按照各种示例性实施方式和实现方式描述了本发明，但是应当理解，在各个实施方式中的一个或更多个中描述的各种特征、方面和功能在其适用性上不限于利用其对所述各种特征、方面和功能进行描述的具体实施方式，而是可以单独地或以各种组合应用于本发明的其他实施方式中的一个或更多个，无论是否对这样的实施方式进行描述并且无论这样的特征是否作为所描述的实施方式的一部分被提出。因此，本发明的广度和范围不应受到上述示例性实施方式中的任何示例性实施方式限制。

技术特征：

1.一种用于生成增强的图像的系统，其特征在于，所述系统包括：

2.根据权利要求1所述的系统，其特征在于，所述内外损失降低将所述图像中的所述背景误分类为所述对象的概率。

3.根据权利要求1所述的系统，其特征在于，所述多个方向包括水平方向、竖直方向、45度方向和-45度方向。

4.根据权利要求3所述的系统，其特征在于，所述45度方向和所述-45度方向检测所述图像中的一个或更多个倾斜对象。

5.根据权利要求1所述的系统，其特征在于，通过召回率计算所述内外损失。

6.根据权利要求5所述的系统，其特征在于，所述内外损失单元利用所述对象的所述召回率并且测量被检测为所述背景的背景像素的数目。

7.根据权利要求1所述的系统，其特征在于，长内核形状捕获所述图像内的长距离依赖关系和局部细节。

8.根据权利要求1所述的系统，其特征在于，所述条带池化解码器通过沿所述多个方向增加感受域来增加边界框预测的准确度。

9.一种用于对图像中的对象执行两阶段分割以生成增强的图像的系统，其特征在于，所述系统包括：

10.一种用于对图像中的对象进行高质量分割以生成增强的图像的方法，其特征在于，所述方法包括：

11.一种具有计算机程序逻辑的计算机可用介质，其特征在于，所述计算机程序逻辑用于使系统的计算机系统中的至少一个处理器能够执行高质量分割，所述计算机程序逻辑包括：

技术总结
本发明公开了用于检测对象的图像分割系统。更具体地，该系统对图像中的对象执行两阶段分割以生成增强的图像。第一阶段是对象检测，之后是包括分割的第二阶段。本发明从图像的背景分割对象以创建增强的图像。

技术研发人员：关西贝佳,吴铁成,李博
受保护的技术使用者：黑芝麻科技公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：关西贝佳吴铁成李博
技术所有人：黑芝麻科技公司
我是此专利的发明人

上一篇：一种考虑磁化曲线的的制作方法
上一篇：基于国产化数据分发服务的的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。