用于对图像进行语义分割的方法和设备与流程

文档序号：38026542发布日期：2024-05-17 13:01阅读：9来源：国知局

本发明涉及一种用于对图像进行语义分割的方法，所述图像已经由尤其自动化地运动的设备的环境检测器件采集，涉及一种这样的设备以及用于实施所述方法的一种计算系统和一种计算机程序。

背景技术：

1、可移动的加工设备、像例如割草机器人、抽吸或擦拭机器人或其它家用机器人典型地在有待处理的环境中、例如在花园中或在住宅中运动。在此，基本问题在于确定允许的处理面、也就是比如就割草机器人而言例如确定有待割草的草坪延伸到何处，从而一方面能够尽可能完全对所述草坪进行割草，但是另一方面所述机器人尽可能不越过草坪、例如运动到街道上等等。

技术实现思路

1、根据本发明，提出具有独立权利要求的特征的一种用于对图像进行语义分割的方法、一种设备以及用于实施所述方法的一种计算系统和一种计算机程序。有利的设计方案是从属权利要求以及以下说明的主题。

2、本发明研究优选特别是自动化地运动的可移动的设备、比如优选是机器人、例如割草机器人。尽管下面应主要参照割草机器人来解释本发明，但是也可以考虑其它可移动的设备或机器人、特别是家用机器人、像例如抽吸机器和/或擦拭机器人、地面或道路清洁设备、至少部分自动化的车辆或者甚至无人机。

3、通常期望例如割草机器人保持在花园或者说草坪的边界之内，因为可能存在不适合于最佳运行的区域，比如池塘、泥浆、碎石路、花坛等。为此可能在花园中或者在草坪中、尤其在草坪的边缘处或者说在所述割草机器人应该前往割草的地方铺设电线或线缆，其能够借助于所述机器人中的传感器来检测或探测。在这方面，也能够谈及草坪边缘，在所述草坪边缘处铺设这样的电线。这虽然允许如所期望地限制所述机器人的运动，但是由于铺设电线或者说线缆而需要高的耗费。

4、为了(可移动的)设备能够识别环境中的某些特征、例如在割草机器人的情况下识别草坪边缘，另一种可行方案是使用环境检测器件或一个或多个传感器、像比如摄像头或者说视频摄像头、热摄像头、雷达传感器、激光雷达传感器、激光测距仪、超声波传感器、惯性传感器和/或里程表。在本发明的范围内，尤其应该考虑能够实现环境的图像显示的检测器件或者说传感器、即优选是摄像头或视频摄像头。但是，同样能够例如借助于其他传感器、像比如激光雷达传感器或超声波传感器来必要时获得深度信息，所述深度信息可以用图像或作为(数字)图像来示出。然后，能够对环境的这种图像进行分析，以便识别或辨识环境中的特定的事物或物体、像比如在割草机器人的情况下识别所提到的草坪边缘。

5、这里尤其考虑所谓的语义分割。在此，为图像中的每个像点(像素)分配多个类别之一，也就是说，给所述像点加上标签或进行分类。为此，首先典型地确定或提取所述像点的特征，然后基于所述特征对所述类别进行分配。这样的特征例如能够是形状、颜色、场景、模式、光方差和/或图像场景。因此，例如能够为一个像点分配绿颜色，并且周围的像点同样可能是全绿。这将表明为草坪。

6、在此，作为类别考虑到不同的特征。在割草机器人的示例中，例如在简单的情况下能够使用两个类别、也就是“草坪”和“非草坪”，也就是说为图像的每个像点确定这个像点是否表明是草坪。不言而喻，也能够使用大于两个的类别，以便例如也识别走道、道路、建筑物、车辆或人员并且必要时将其分配给一个像点。根据类别“非草坪”也能够设想类别“背景”，所有未被分配给其它类别的事物都被分配给该类别。通过所有这些标签，与(仅仅)识别图像中的物体的纯物体识别相比，添加了更多信息。

7、原则上，不必为每个单个像点进行分类，而是也能够为图像的分段或部分进行分类，所述分段或部分分别包括多个像点。这样的分段能够固定地被预设或者不过也能够在语义分割的范围内首先形成、必要时也能够在图像之内以不同的大小来形成。为此，优选使用一个或多个人工神经网络或通常基于人工智能的模式识别方法，对此下面还要更详细地进行探讨。

8、因此，通过这种方式能够从图像(输入图像)中产生被分类的结果图像(输出图像)、也就是一种地图，其表明特定的物体或一般特征处于何处。在具有两个类别“草坪”和“非草坪”的简单的示例中，草坪边缘能够通过图像的或是被分配给“草坪”或是被分配给“非草坪”(所属的结果图像例如能够是纯黑白)的区域之间的边界来识别或确定。所述结果图像而后尤其能够用于控制设备，也就是说，例如所述设备能够在达到草坪边缘之前或之时被停住或被拐弯。此外能够设想的是，作为类别例如在还有待割草的草坪与已经被割草的草坪之间进行区分。

9、在此要提及的是，虽然在这样的可移动的设备之处或之中优选考虑摄像头或摄像头，以便采集这样的(数字)图像，然而在本发明的范围内如已经提及的那样也应当将用其他传感器、例如所提及的激光雷达传感器或超声波传感器或者热摄像头所采集的或必要时通过进一步处理获得的环境图示理解为图像；在那里而后能够运用所述语义分割。

10、尤其重复地或连续地为环境的分别当前的图像、即尤其在(可移动的)设备运动时进行该过程，通过这种方式能够基于分别当前的结果图像来运行或控制所述可移动的设备；因此，例如能够如此控制割草机器人，使得其仅仅一直行进至所识别的草坪边缘(并且在此进行割草)，但是而后例如沿着草坪边缘继续行进，但是不超过所述草坪边缘。

11、由于所述语义分割将更多信息添加到图像上，所以所述语义分割能够尤其用在自动驾驶汽车的领域中，以便在图像上(更好地)识别多个物体及其各自的类别、例如汽车、人、交通标志、道路障碍等等。其他自主机器人也能够使用语义分割，以便获得其环境中的更多信息；对于机器人臂来说，所述语义分割例如能够用于识别所述机器人臂应该选择哪些物体，对于无人机来说，所述语义分割例如能够用于识别天空边界和障碍物。

12、但是，这种语义分割典型地需要高的计算能力。因此，在小型的(可移动的并且尤其是自主的)设备或车辆中使用所述语义分割仍然是一个挑战，因为需要高计算要求和深度神经网络的复杂架构，以便使所述语义分割快速而准确。

13、因此，在本发明的范围内提出，在图像中选择一个区域、即图像的一部分，并且在对图像进行语义分割时在这个区域中相对于针对图像的其余部分、即未选择的区域来说使用更高份额的执行用的计算系统的(可供使用的)计算能力、并且更确切地说至少关于选择的区域在图像中的份额。换言之，也就是如此使用或分配可供使用的计算能力(至少只要将其用于或能够用于语义分割)，从而针对所选择的区域相较于针对其余部分每个图像份额使用更高的计算能力。如果所选择的区域例如包括图像的一半(即在图像中存在的像点的一半)，则针对所选择的区域使用大于一半的计算能力、例如四分之三或更多的计算能力。

14、所选择的或者说有待选择的区域在此不必一定是连续的区域，其也能够是图像的分开的部分区域。

15、这允许为所选择的区域、即图像的(和由此环境的)例如在特定的特征方面被分级为特别重要的区域确保快速地并且尽管如此仍然准确地确定或者说识别特征，而尽管如此也在所述图像的其余部分中识别或者说确定所述特征。因此，与将计算能力均匀地用于整个图像的情况相比，能够更有效地使用可供使用的计算能力。同样，在对所选择的区域来说达到相同速度和精度的情况下在识别特征时能够降低所需要的计算能力。这也允许在较小的(可移动的)设备中使用，在所述较小的(可移动的)设备中典型地较少的计算能力可供使用。

16、因此，尤其使用人工智能或者说“深度学习”(优选人工神经网络)，以便实施对于图像的语义分割并且识别例如在草坪区域中的相关分段(就割草机器人而言)。这通过聚焦于相关区域的方式以低的计算资源和高的精度来进行，而不会失去整个图像的场景。这种方案尤其使用对这样的设备或者说机器人的工作环境来说特定的数据集，以便训练深度学习网络，该深度学习网络专注于例如正确的草坪边界或者说草地边界以及草坪区域中的其他相关物体、比如树木、房屋、园艺设备、人等等的分割和定义。由此能够特别容易且快速地在图像中选择感兴趣的区域。

17、这种方案不同于在自动驾驶汽车等的领域中结合语义分割来使用的类似方法。所述语义分割要求高的处理开销，以便其不仅精确地而且快速地进行。对于特别是在地面附近工作的小型设备或车辆来说，这也适用，但是在那里的计算能力通常比在汽车中使用的硬件中更加受到限制。所述应该进行语义分割的图像(即用于语义分割的输入图像)也不能(或者至少不应当)被裁剪到感兴趣的区域，因为场景(即图像的在所选择的区域之外的其余部分)对更小的和更精确的网络(人工神经网络)来说(也)是非常重要的。因此将所述图像用作输入量，对特定的区域进行聚焦(加以选择)，而不丢失完整图像的场景，同时能够实现将艰巨的计算操作聚焦到这样的区域上，以便提高吞吐量(durchsatz)和精度。

18、此外，所提出的过程相对于图像中的不同的环境变化、例如当摄像头的视角被移动时是(比较)稳健的。所述方案相对于环境中的光变化、天气条件、季节、花园中的可能类似的物体等也是稳健的。在用于进行语义分割的人工神经网络中的主要问题在于，如果所述人工神经网络应该是精确的，则它们是复杂的并且是耗时的；然而，如果要求高速度，则在所述网络较小的情况下精度必定降低。现在，所提出的方案允许不仅通过整个图像的保持来实现所述精度而且通过主要专注于图像的相关区域(所选择的区域)的小网络或者说较小网络的使用来实现高速度。

19、所提出的方案更加稳健，因为更多的计算能力被运用到所聚焦的或者所选择的区域上，而未失去整个图像的场景信息。所述感兴趣的或者所选择的区域通常主要是地面，但是所述网络需要例如关于天气条件的信息(例如晴朗或多云)，以便与当前的地面相匹配。例如，当晴朗时，草地或者说草坪对摄像头来说通常看起来比多云时更绿。如果所述网络在方向或颜色上失真，则会在这两种情景之一中出现错误。而用场景信息，所述网络能够更好地一般化(适配)。

20、所提出的过程尤其也相对于其他深度学习解决方案是特殊的，因为其针对所设计的环境(例如花园和外部区域)并且针对靠近(或者说比例如自动行驶的汽车更靠近)地面工作的设备或者说机器人。

21、例如，所述被分割的图像能够用于将草坪边缘或者说草地边界与草坪面隔开。如已经表明的一样，这种隔开足够精确，以便例如能够代替传统的限界线缆。靠近地面操作的机器人必须更多地专注于其附近的物体和边界，但不允许从眼睛中失去更远的物体。这种过程也能够在所述设备或者说机器人对花园的边界进行重新学习或编码时教会其所述花园的界定，因为它有助于识别在花园中或者说在地面中存在的草地、土壤、道路、水、脏物、花坛、杂草等的存在。所述分割的使用也能够有助于定位，方式是：它提供图像对象的场景并且在此帮助理解其环境。

22、大多数用于进行语义分割方法的作用原理是分析整个图像并且为每个区域执行同一组计算操作，这导致也使用同一种计算能力或均匀分布的计算能力。这在其他领域中由于物体在图像上的外观的不可预测性(例如对于自动驾驶汽车来说)是有用的。然而，尤其对于小型自主机器人来说，使用范围和视角由于机器人尺寸、摄像头配置、放置和定向而良好地限定。例如通过对于多个内部的数据集的分析(例如通过事先实施的训练)，能够对例如通常在图像中出现草的区域求平均，并且在投影到图像上之后能够查明、即选择感兴趣的区域。然而，所提出的过程也适用于其他设备，在所述其他设备中应当识别环境的图像中的特征。

23、尤其根据设备中的环境检测器件(例如摄像头)的位置、尤其是关于所述设备在运动时所在的平面或表面(例如基底)来选择图像中的以下区域，为所述区域使用较高的计算能力。有利的是，也根据所述设备在环境内的当前位置、适宜地关于所述设备在环境中的运行范围来选择所述图像中的区域。尤其以数学的方式实施所述用于选择或者说获得感兴趣的区域的过程，也就是例如方式是：对摄像头的相对于地平面的定向进行分析并且选择所述机器人的运行范围的边界；例如，所述机器人应该能够识别所有其在三米之内的物体。

24、在本发明的范围内，人工神经网络(或深度学习网络)优选在图像被定位引擎预处理之后接收该图像(或甚至是图像对)，并且通过人工神经网络的例如小的或较少的卷积层来实施尺寸缩减，典型地通过除了用户定义的批归一化的布局之外还通过池化机制和激活函数。然后提取特征。这首先能够针对整个图像来进行。

25、能够采集图像对，以便生成或者说在网络中识别深度信息。由此提高信息内容。例如，由于墙壁通常具有颜色和较少的纹理，所以对于墙壁的识别是一个挑战；如果存在深度信息，则所述墙壁能够更容易被识别并且正确地被分割。

26、定位引擎尤其用于对所拍摄的图像进行矫正、也就是尤其对镜头的失真进行矫正并且必要时也实施颜色校正。

27、例如，所述尺寸缩减有助于减少(用于神经网络的)输入量或者说输入值的数量，以便通过实施卷积(“convolutions”)并且聚焦于相关特征这种方式使处理过程变得容易。具有例如仅仅720×480个像素和3个颜色位的图像已经导致1,036,800个输入值，这对于处理过程来说通常是太多了。池化通过对于特定的数值的选择实现了“下采样”，所述特定的数值被转交给后续的层(例如所谓的“max pooling(最大池化)”在2×2的矩阵中会选择并且转交最大值，由此2×2像素的大小被降低到1×1)。

28、激活函数例如是集成电路中的逻辑门。所述激活函数决定在神经网络的每个级中激活哪些神经元并且决定最终的输出(例如会为草地或者说草坪的部分激活专注于特定的草地模式、纹理和颜色的神经元)。所述“批归一化”减轻了所谓的内部协变量移位的问题，并且通过使每个堆叠(批次)中的输入量标准化这种方式来平滑目标函数。

29、此外，也选择或者说提取所述图像的感兴趣的区域，以便必要时除了其他操作之外在图像的所选择的区域中运用另一组较大的卷积或者说较高数量的卷积。这允许所述人工神经网络考虑到整个图像并且将较重的卷积核(也就是具有较高权重的卷积核)聚焦于感兴趣的或者说所选择的区域。

30、换言之，因此在所选择的区域中比在图像的其余部分中实施更多的计算操作。这例如能够通过以下方式来进行，即：首先为整个图像实施特征识别，而后为所选择的区域额外地实施进一步的计算操作，由此在那里更准确地或更好地识别所述特征。而后能够在所选择的区域中例如使用附加的神经网络。但是也能够设想，(从一开始)为所选择的区域和图像的其余部分分开地进行所述特征识别。在此，而后能够为所选择的区域和图像的其余部分例如使用不同的人工神经网络，这些人工神经网络例如在层的深度和/或数量上不同。

31、与为感兴趣的(所选择的)区域所实施的计算(卷积、池化、批归一化、激活)相比，用于整个图像的计算更简单。因为分析了整个图像，所以不会丢失场景信息，而是更多地在感兴趣的区域中进行计算，从而能够专注于分割。例如，在图像的上部区域中，通常是(不太令人感兴趣的)天空，其不包含在应当识别草坪边缘时有帮助的相关类别；然而，重要的是识别是否多云、晴朗等。在图像的下部区域中，例如通常存在草地和(靠近机器人的)更近的物体；因此，尤其在那里实施更多的计算，以便获得更精确的分割。

32、因为所述特征识别的结果(由于上面所提到的尺寸减小)被缩小，所以比如也能够事先存储一些数值(根据所述数值来确定或提取所述特征)，以便所述结果的放大变得更准确。在缩小时能够存储数值，并且而后在放大时又使用这些数值，以便获得更精确的输出。如果比如将10×10矩阵缩小到2×2矩阵并且而后最终又将其放大到10×10矩阵，则所述输出(即所产生的图像)将是模糊的并且不准确。然而，如果比如将中间值存储在5×5矩阵中，则在放大时能够使用这些所存储的中间值。然后，能够为特定的类别(也就是比如草地、道路、脏物、人、房屋等)选择所提取的特征、将其链接并且给其配设阈值，并且而后将其放大到特征地图中，也就是将这些类别中的每个类别的概率存储在图像中。这而后代表着结果图像。为了更详细的解释，在此也可以参考关于附图、尤其是图2的解释。

33、按本发明的计算系统、例如计算单元、像比如机器人的控制设备尤其在程序技术上被设立用于实施所述按本发明的方法。

34、此外，本发明涉及一种设备、尤其是可移动的设备，其具有这样的计算系统(例如作为控制设备)以及环境检测器件、像比如用于采集环境的图像的摄像头。所述设备优选被构造为机器人、尤其被构造为割草机器人、被构造为家用机器、例如抽吸机器人和/或擦拭机器人、被构造为地面或道路清洁设备、被构造为至少部分自动化的车辆或被构造为无人机。

35、以具有用于实施所有方法步骤的程序代码的计算机程序或计算机程序产品的形式来实现按本发明的方法也是有利的，因为这尤其在执行用的控制设备还被用于其他任务并且因此本来就存在时引起的成本特别低。最后，提供一种机器可读的存储介质，其具有如上所述的存储在其上面的计算机程序。用于提供所述计算机程序的合适的存储介质或者说数据载体尤其是磁存储器、光学存储器和电存储器、像比如硬盘、闪存盘、eeprom、dvd等。也能够通过计算机网络(互联网、内联网等)来下载程序。在此，这样的下载能够以有线连接的或者说线缆连接的方式或以无线的方式(例如通过wlan网络、3g连接、4g连接、5g连接或6g连接等)来进行。

36、本发明的其它优点和设计方案由说明书和附图得出。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S·韦尔伯斯顶夸克,B·皮纳亚古铁雷斯
技术所有人：罗伯特·博世有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。