用于确定图像的元素的类别、特别是用于操作技术系统的设备和计算机实现的方法与流程

文档序号：37313349发布日期：2024-03-13 21:04阅读：12来源：国知局

本发明涉及一种用于确定图像的元素的类别、特别是用于操作技术系统的设备和计算机实现的方法。

背景技术：

1、对图像分类的物理上可实现的对抗性攻击是特别地针对技术系统的可靠操作的威胁。

2、对抗性补片(adversarial patch)是这种攻击的示例。tom brown、dandelionmane、aurko roy、martin abadi和justin gilmer的adversarial patch.in advancesneural information processing system(neurips)，2017年，url https://arxiv.org/pdf/1712.09665.pdf.arxiv:1712.09665、以及danny karmon、daniel zoran和yoavgoldberg的lavan:localized and visible adversarial noise.in internationalconference on machine learning(icml)，第2507-2515页，2018年，url https://proceedings.mlr.press/v80/karmon18a.html公开了这种补片的方面。

3、mark lee和j.zico kolter的on physical adversarial patches for objectdetection.international conference on machine learning(workshop)，2019年，urlhttp://arxiv.org/abs/1906.11897公开了这种攻击的方面。

4、alexander levine和soheil feizi的(de)randomized smoothing forcertifiable defense against patch attacks.in advances in neural informationprocessing systems(neurips)，volume33，354 2020公开了一种针对这种攻击的防御方法，该方法基于掩蔽输入图像的不同部分。

技术实现思路

1、根据独立权利要求的用于图像分类的方法和设备包括针对利用对抗性补片的攻击的防御，这使得安全性关键应用能够具有针对对抗性补片攻击的改进的鲁棒性。

2、用于确定图像的元素的类别、特别是用于操作技术系统的计算机实现的方法，其中所述方法包括提供表示所述图像的元素的第一集合，提供掩膜集合，确定针对所述类别的预测集合，以及取决于所述预测集合来确定所述元素的类别，其中确定所述预测集合包括：取决于元素的第一集合以及所述掩膜集合中的掩膜来确定表示所述图像的元素的第二集合，其中所述掩膜指示所述图像的未掩蔽元素和/或所述图像的被掩蔽元素；以及取决于元素的第二集合来确定针对所述预测集合的预测。所述元素例如是所述图像的像素。元素的第二集合表示未掩蔽元素和被掩蔽元素。所述预测是取决于未掩蔽元素以及基于未掩蔽元素对被掩蔽元素的重建来确定的。所述元素的类别是例如针对所述图像的语义分割来提供的。

3、确定所述类别可以包括取决于所述预测集合中的、比所述预测集合中的至少一个其他预测更频繁的预测、优选地取决于所述预测集合中的最频繁的预测来确定所述类别。这提供了针对补片攻击的防御。

4、所述方法可以包括针对所述图像的不同元素来确定所述预测集合。这提供了针对补片攻击鲁棒的对所述图像的语义分割。

5、所述方法可以包括确定所述预测集合中的预测是否预测出相同类别的指示。这为语义分割提供了针对补片攻击的经证明的防御。

6、所述方法优选地包括确定包括针对所述图像的不同元素的相应指示的映射。该映射为语义分割结果提供了证明。

7、优选地，所述方法包括：响应于确定至少一个预测不同于所述预测集合中的至少一个预测，输出警报和/或控制技术系统。所述警报关于检测到的攻击进行通知。

8、所述方法可以包括：确定所述掩膜以指示表示所述图像的区域的一组被掩蔽元素，其中所述区域在大小和形状上与预定补片匹配，或者在预定维度中的至少一个维度上大于具有所述预定维度的补片；或者确定所述掩膜以指示表示所述图像的若干个不同区域的若干组被掩蔽元素，其中所述不同区域在大小和形状上个体地与预定补片匹配，或者在预定维度中的至少一个维度上大于具有所述预定维度的补片。该掩膜能够覆盖整个补片，因此有可能在不具有包括所述补片的一部分的所述图像的任何元素的情况下确定至少一个预测。

9、所述方法可以包括确定所述掩膜集合中的不同掩膜，以指示表示所述图像的不同区域的不同组的被掩蔽元素。不同区域中的不同掩膜的这种分布使得有可能在不具有包括所述补片的一部分的所述图像的任何元素的情况下确定至少一个预测。

10、一种用于确定图像的元素的类别的设备包括至少一个处理器和至少一个存储器，其中所述至少一个处理器和所述至少一个存储器被配置用于执行所述方法。

11、一种技术系统，特别是至少部分自主的计算机控制的机器，优选地是机器人、载具(vehicle)、家用电器、电动工具、制造机器、个人助理或访问控制系统，所述技术系统包括所述设备。

12、一种计算机程序，其包括计算机可读指令，所述计算机可读指令在被计算机执行时使得所述计算机执行所述方法。

13、从所包括的描述和附图中得出进一步的实施例。在附图中：

14、图1是用于图像的语义分割的设备，

15、图2是针对图像的语义分割过程的第一示例，

16、图3是针对图像的语义分割过程的第二示例，

17、图4是用于图像的语义分割的方法中的步骤，

18、图5是包括该设备的技术系统。

19、图1描绘了用于语义分割的设备100。

20、设备100包括至少一个处理器102和至少一个存储器104。设备100可以包括输入106。设备100可以包括输出108。输入106可以包括通信接口。

21、设备100被配置用于确定图像110的元素xi，j的类别si，j。

22、设备100例如被配置成存储图像110。设备100例如被配置成在输入106处接收图像110。

23、至少一个处理器102和至少一个存储器104被配置用于执行用于确定图像110的元素xi，j的类别si，j的方法。

24、设备100例如被配置成在输出108处输出警报，特别是取决于图像110的元素xi，j中的至少一个的类别。

25、至少一个处理器102例如被配置成执行包括计算机可读指令的计算机程序，该计算机可读指令在被计算机执行时使得该计算机执行该方法。至少一个存储器104例如被配置成存储该计算机程序。

26、该计算机实现的方法提供了针对对语义分割模型的对抗性补片攻击的经证明的防御。在这种攻击中，补片被放置在图像110中的区域处，以便将该模型误导到错误的语义分割。

27、该方法旨在利用k个掩膜的集合来删除对抗性补片，而不管其位置如何，这得到了被掩蔽的图像，该被掩蔽的图像维持了图像110的结构并且允许从未掩蔽部分恢复所恢复图像中的被掩蔽部分。任意的下游语义分割模型被应用于该所恢复图像，以用于确定元素xi，j的类别si，j。

28、图像110被称为图像集合中的图像x∈x。在该示例中，图像x包括j列和i行。该示例中的图像x包括元素的第一集合{xi，j}i＝1，..，i；j＝1，...，j∈[0，1]h×w×c，其中高度h＝i，并且宽度w＝j，并且通道数量为c，其中1指示存在可见元素，并且0指示不存在可见元素，包括由该元素的索引i，i给出的位置处的相应通道。

29、针对图像110的地面真值分割映射被表示为{si，j}i＝1，..，i；j＝1，...，j∈yh×w，其中指派给一元素的分割映射的有限集合s的类别si，j∈s由该元素的索引i，j来寻址。该示例中的类别si，j表示标签的有限集合y中的给定标签。该标签例如来自域，该域例如用于描述交通基础设施。标签可以是“载具”、“交通标志”、“房屋”、“教堂”、“树”。

30、第一模型f：x→s被配置用于语义分割。

31、第一模型f的准确度是例如可通过映射m(f，x，s)∈{0，1}h×w来评估的，使得m(f，x，s)i，j：＝[f(xi，j＝si，j]，其中如果p＝真，则[p]＝1，否则为零。考虑质量度量q(f，x，s)，语义分割的准确度acc是例如可通过下式来评估的：

32、

33、假定攻击者可以修改图像x的具有矩形形状和h′×w′大小的任意区域，该区域被称为补片。在该示例中，描述了矩形形状的补片。其他形状的补片被同样地对待。掩膜、特别是二元掩膜l∈[0，1]h×w定义了图像110中的补片位置，例如其中1指示存在该补片的元素，并且0指示不存在该补片的任何元素。补片的内容、即修改本身被称为p∈[0，1]h×w×c，其中。假定攻击者可以将该补片放置在任何合适的位置处，则p：＝[0，1]h×w×c×l表示定义了该补片的可能的补片配置(p，l)。

34、在该示例中，掩膜集合中的掩膜mk指示元素第一集合{xi，j}i＝1，..，i；j＝1，...，j中的被掩蔽的元素和元素第一集合中的未被掩蔽的元素。掩膜mk可以是具有与图像x相同的维度的映射{mi，j}ki＝1，..，i；j＝1，...，j∈{*，1}h×w。在该示例中，映射{mi，j}ki＝1，..，i；j＝1，...，j是利用特殊符号(例如*)来指示被掩蔽元素的映射，该特殊符号不对应于任何值，并且具有的性质。可以使用另一个符号或二元映射来指示一元素是被掩蔽元素。如果则掩膜mk隐藏了补片位置1。

35、运算符a(x，p，l)＝(1-l)⊙x+l⊙p将由二元掩膜l定义的p的h′×w′子区域应用于元素第一集合{xi，j}i＝1，..，i；j＝1，...，j，即图像x，同时保持元素第一集合{xi，j}i＝1，..，i；j＝1，...，j的其余部分不变。

36、攻击者的目标是找到

37、如果以下陈述为真，则来自攻击的经证明的恢复是可获得的：

38、

39、利用验证函数v(x)∈{0，1}h×w，对攻击的经证明的检测是可获得的，其中v(x)i，j＝1意味着在元素xi，j中不存在对抗性补片，或者元素xi，j的语义分割不受该补片的影响。如果以下陈述为真，则对攻击的经证明的检测是可获得的：

40、

41、在该示例中，用于经证明的检测的掩膜集合不同于用于经证明的恢复的掩膜集合

42、用于经证明的恢复的示例性掩膜集合包括k≥2t+1个掩膜：

43、

44、使得对于任何补片位置l∈l，存在至少k-t个掩膜完全地隐藏了该补片，即这意味着不超过t个掩蔽(maskings)包含该补片的像素，即受其影响。在这种情境中，掩蔽指代逐元素乘积x⊙mk，其中像素的子集被符号(例如*)所隐藏，而其余部分不变。

45、根据一个示例，针对补片大小h′×w′来确定这种掩膜集合。图像x被划分成大小为h′×w′的块的集合b＝{bi，j}，其中并且考虑q：b→{1，...，k}，使得如果q(bi，j)＝k，则mk被合成，使得bi，j是未掩蔽的，即没有被掩蔽。这意味着，掩膜mk由下式来定义：对于b∈bkq(b)＝k。

46、根据一个示例，对于t＝2，构造掩膜集合m(k，l，2)包括确定是否j＝k mod k，并且如果是，则对于1≤i≤wb，指派q(bi，j)＝k。这意味着，每k个列(every k-th column)被指派给掩膜mk。任何补片可以最多与两个相邻的列相交，因为它具有与列相同的宽度。因此，任何补片可以最多影响两个掩蔽。

47、根据一个示例，对于t＝3，每行中的块可以如下那样被指派给掩膜：对于第一行q(b1，1)＝1；q(b1，2)＝q(b1，3)＝2；q(b1，4)＝q(b1，5)＝3等等，直到到达第一行的末尾。假定第一行以k值结束，则针对第二行的块如下那样被指派给掩膜：q(b2，1)＝q(b2，2)＝k+1；q(b2，3)＝q(b2，4)＝k+2等等，直到到达第二行的末尾。假定第二行以n值结束，则针对第三行的块如下那样被指派给掩膜：q(b3，1)＝n+1；q(b3，2)＝q(b3，3)＝n+2等等，直到到达第三行的末尾。一旦到达了k数量，该指派就以1继续。由于块大小，补片不能够一次与多于四个块相交。这种奇偶校验交替块序列确保了在四个块的任何这种相交中，要么顶部块、要么底部块将属于相同的掩蔽，因此最多t＝3个不同的掩蔽可以被影响。

48、对于t≥4，由于上述块大小，可以使用掩膜的任何指派。在一个示例中，可以使用未掩蔽块的均匀分布。在一个示例中，每个掩蔽保持图像x的大约1＝k个元素是可见的，并且未掩蔽区域在图像x中密集地散布。密集地散布意味着对于任何被掩蔽像素，存在位于与该元素一定距离处的未掩蔽区域，其中该距离取决于k和t。

49、用于经证明的检测的示例性掩膜集合针对大小h′×w′的补片包括k＝w-w′+1个掩膜：

50、

51、使得对于任何补片位置l∈l，存在至少一个完全地隐藏该补片的掩膜。例如在水平位置k上在图像x的左上角处开始，掩膜mk例如隐藏了宽度w′的列。

52、为了获得针对具有较小k的相同位置l的保证，掩膜mk可以包括宽度为w″≥w′并且跨距(stride)为w″-w′+1的跨距列(strided columns)的集合。

53、上面针对列描述了掩膜的方案。也可以以相同的方式针对行的掩蔽来使用该方案。

54、也可以使用大小为h′×w′的块掩膜的集合。然后掩膜的数量随图像大小或分辨率而二次方地(quadratically)增长。

55、为了重建被掩蔽元素，利用第二模型g来确定元素的第二集合。元素的第二集合对应于所重建的图像。示例性第二模型是解掩蔽(demasking)模型，g(x⊙mk)∈[0，1]h×w×c，其中⊙是逐元素乘积。这意味着在用于第二模型g的输入中，被掩蔽元素被设置为符号，例如*，并且该模型被配置成处理该符号。

56、第一模型f被配置成确定分割集合s(m，x，g，f)：＝{sk＝f(g(x⊙mk))|mk∈m}。

57、在该示例中，针对利用来自掩膜集合的不同掩膜mk对图像110进行掩蔽而得到的多个被掩蔽的图像，来确定元素的第二集合。

58、取决于第一模型f来确定针对类别si，j的预测。去往第一模型f的输入是元素的第二集合。示例性第一模型是f(g(x⊙mk))。在该示例中，确定针对类别si，j的k个预测的集合

59、取决于预测集合来确定元素xi，j的类别si，j。

60、在一个示例中，定义了函数h：x→s，该函数经由对通过不同预测被指派给相同元素xi，j的类别si，j进行多数投票(majority voting)，来将类别si，j∈s(m，x，g，f)指派给元素xi，j。以最大数量的预测而被预测的元素xi，j的类别例如被指派给该元素xi，j。在一个示例中，在平局(tie)的情况下，指派具有最小索引k的类别sk。这意味着，该类别被设置为该预测集合中的、比该预测集合中的至少一个其他预测更频繁的预测，优选地被设置为该预测集合中的最频繁的预测。这意味着，类别是取决于该预测集合中的最频繁的预测来确定的。

61、该方法是针对包括具有二个维度的至少一个区域的掩膜mk来描述的。在该示例中，该至少一个区域是矩形的。该区域可以具有另一种形状。在该示例中，该至少一个区域对应于一组元素中的被掩蔽的元素。该至少一个区域可以对应于图像110的至少一列。该至少一个区域可以对应于图像110的至少一行。该至少一个区域可以对应于任何其他的元素组。

62、函数f、g和h的结构可以具有任意的内部形式，只要指定输出是针对指定输入而给出的。

63、图2描绘了针对图像110的语义分割过程的第一示例。

64、在第一示例中，利用第一掩膜m1来确定第一被掩蔽图像201。

65、第一掩膜m1指示表示该图像的三个不同区域的第一组被掩蔽元素202、第二组被掩蔽元素203和第三组被掩蔽元素204。

66、利用第二模型g将第一被掩蔽图像201映射到第一重建图像205。利用第一模型f将第一重建图像205映射到针对图像110的语义分割的第一预测206。

67、在第一示例中，利用第二掩膜m2来确定第二被掩蔽图像207。

68、第二掩膜m2指示表示该图像的四个不同区域的第一组被掩蔽元素208、第二组被掩蔽元素209和第三组被掩蔽元素210以及第四组被掩蔽元素211。

69、利用第二模型g将第二被掩蔽图像207映射到第二重建图像212。利用第一模型f将第二重建图像212映射到针对图像110的语义分割的第二预测213。

70、在第一示例中，利用第三掩膜m3来确定第三被掩蔽图像214。

71、第三掩膜m3指示表示该图像的四个不同区域的第一组被掩蔽元素215、第二组被掩蔽元素216和第三组被掩蔽元素217以及第四组被掩蔽元素218。

72、利用第二模型g将第三被掩蔽图像214映射到第三重建图像219。利用第一模型f将第三重建图像219映射到针对图像110的语义分割的第三预测220。

73、在第一示例中，利用第四掩膜m4来确定第四被掩蔽图像221。

74、第四掩膜m4指示表示该图像的四个不同区域的第一组被掩蔽元素222、第二组被掩蔽元素223和第三组被掩蔽元素224以及第四组被掩蔽元素225。

75、利用第二模型g将第四被掩蔽图像221映射到第四重建图像226。利用第一模型f将第四重建图像226映射到针对图像110的语义分割的第四预测227。

76、在第一示例中，利用第五掩膜m5来确定第五被掩蔽图像228。

77、第五掩膜m5指示表示该图像的四个不同区域的第一组被掩蔽元素229、第二组被掩蔽元素230和第三组被掩蔽元素231以及第四组被掩蔽元素232。

78、利用第二模型g将第五被掩蔽图像228映射到第五重建图像233。利用第一模型f将第五重建图像234映射到针对图像110的语义分割的第五预测234。

79、在第一示例中，取决于给定的掩膜集合不同的区域分布在一图像内以及跨不同的图像而分布。

80、取决于第一预测206、第二预测213、第三预测220、第四预测227和第五预测234来确定针对语义分割的预测235，例如通过对这些预测中针对个体元素的预测进行多数投票，。

81、取决于第一预测206、第二预测213、第三预测220、第四预测227和第五预测234来确定映射236，该映射236针对图像110的元素包括该预测集合中的预测是否预测出相同类别si,j的指示。映射236包括针对图像110的不同元素的相应指示。

82、在训练中，例如取决于地面真值分割映射237来训练第一模型f和/或第二模型g和/或函数h，以预测针对图像110的映射236和/或预测235。

83、图3描绘了针对图像110的语义分割过程的第二示例。

84、在第二示例中，利用第一掩膜m1来确定第一被掩蔽图像301。

85、第一掩膜m1指示表示该图像的区域的一组被掩蔽元素302。该区域在大小和形状上个体地(individually)与预定补片匹配，或者在预定维度中的至少一个维度上大于具有所述预定维度的补片。

86、利用第二模型g将第一被掩蔽图像301映射到第一重建图像303。利用第一模型f将第一重建图像303映射到针对图像110的语义分割的第一预测304。

87、在第二示例中，利用第二掩膜m2来确定第二被掩蔽图像305。

88、第二掩膜m2指示表示该图像的区域的一组被掩蔽元素306。

89、利用第二模型g将第二被掩蔽图像305映射到第二重建图像307。利用第一模型f将第二重建图像307映射到针对图像110的语义分割的第二预测308。

90、在第二示例中，利用第三掩膜m3来确定第三被掩蔽图像309。

91、第三掩膜m3指示表示该图像的区域的一组被掩蔽元素310。

92、利用第二模型g将第三被掩蔽图像309映射到第三重建图像311。利用第一模型f将第三重建图像311映射到针对图像110的语义分割的第三预测312。

93、在第二示例中，利用第四掩膜m4来确定第四被掩蔽图像313。

94、第四掩膜m4指示表示该图像的区域的一组被掩蔽元素314。

95、利用第二模型g将第四被掩蔽图像313映射到第四重建图像315。利用第一模型f将第四重建图像315映射到针对图像110的语义分割的第四预测316。

96、在第二示例中，利用第五掩膜m5来确定第五被掩蔽图像317。

97、第五掩膜m5指示表示该图像的区域的一组被掩蔽元素318。

98、利用第二模型g将第五被掩蔽图像317映射到第五重建图像319。利用第一模型f将第五重建图像319映射到针对图像110的语义分割的第五预测320。

99、第二示例中的该区域在大小和形状上个体地与预定补片匹配，或者在预定维度中的至少一个维度上个体地大于具有所述预定维度的补片。在第二示例中，不同图像的区域取决于给定的掩膜集合而分布。

100、取决于第一预测304、第二预测308、第三预测312、第四预测316和第五预测320来确定针对语义分割的预测321，例如通过对这些预测中针对个体元素的预测进行多数投票。

101、取决于第一预测304、第二预测308、第三预测312、第四预测316和第五预测320来确定映射322，该映射322针对图像110的元素包括该预测集合中的预测是否预测出相同类别si，j的指示。映射322包括针对图像110的不同元素的相应指示。

102、在训练中，例如取决于地面真值分割映射237来训练第一模型f和/或第二模型g和/或函数h，以预测针对图像110的映射321和/或预测322。

103、图4描绘了用于确定图像110的元素xi，j的类别si，j的计算机实现的方法中的步骤。

104、该方法包括步骤400。

105、在步骤400中，表示图像110的元素的第一集合x。

106、该方法包括步骤402。

107、在步骤402中，提供掩膜集合

108、该方法包括步骤404。

109、在步骤404中，预测集合

110、掩膜集合中的掩膜mk指示该图像的未掩蔽元素和/或该图像的被掩蔽元素。掩膜集合中的不同掩膜用于指示表示该图像的不同区域的不同组的被掩蔽元素。

111、该方法包括步骤406。

112、在步骤406中，根据该预测集合来确定元素xi，j的类别si，j。

113、该方法包括步骤408。

114、在步骤408中，确定该预测集合中的预测是否预测出相同类别si，j的指示。

115、在该示例中，确定包括针对该图像的不同元素的相应指示的映射236或322。

116、该方法包括步骤410。

117、在步骤410中，确定是否至少一个预测不同于该预测集合中的至少一个预测。如果至少一个预测不同于该预测集合中的至少一个预测，则执行步骤412。否则，该方法可以结束或者针对另一图像而重复。

118、在步骤412中，输出警报。

119、图5示意性地描绘了技术系统500、特别是物理系统。技术系统500包括设备100。

120、技术系统500可以是至少部分自主的计算机控制的机器、特别是机器人，比如载具、家用电器、电动工具、制造机器、个人助理或访问控制系统。

121、技术系统500包括致动器502。致动器502被配置成控制技术系统500。该技术系统包括例如引擎和/或可转向和/或可移动的部件，例如轮或臂。致动器502例如被配置用于移动技术系统500或该部件。致动器502例如被配置用于操作引擎和/或转向和/或制动技术系统500或该部件。

122、在该示例中，致动器502被配置成取决于图像110的语义分割来操作技术系统500。

123、技术系统500可以包括传感器504。传感器504被配置成捕获图像110。传感器504包括例如相机、激光雷达传感器、雷达传感器、运动传感器、超声传感器、红外传感器。技术系统500可以包括例如从其环境(例如基础设施)接收图像110，特别是在输入106处接收图像110。

124、图6示意性地描绘了操作技术系统500的方法。

125、该方法包括步骤602。

126、在步骤602中，执行用于确定图像110的元素xi,j的类别si,j的计算机实现的方法。图像110例如由传感器504所捕获。

127、该方法包括步骤604。

128、在步骤604中，控制技术系统500。

129、在一个示例中，响应于确定410至少一个预测不同于该预测集合中的至少一个预测，独立于图像110的语义分割来操作技术系统500。否则，可以取决于图像110的语义分割来操作技术系统500。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·亚楚拉,J·H·梅岑,M·海因
技术所有人：罗伯特·博世有限公司
我是此专利的发明人

上一篇：一种煤化工废水快速检测并推算BOD5的方法与流程
上一篇：用于验证或核实技术系统的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。