本发明涉及一种用于确定分类和/或回归结果的计算机实现的方法、用于训练神经网络的方法、用于将所确定的分类和/或回归结果用于确定技术系统的控制信号的方法、计算机程序和机器可读存储设备。
背景技术:
0、现有技术
1、meronen等人的“fixing overconfidence in dynamic neural networks”,2023,https://arxiv.org/abs/2302.06359公开了一种基于贝叶斯推理确定其输出的早退神经网络。
2、waudby-smith和ramdas的“confidence sequences for sampling withoutreplacement”,2020,https://arxiv.org/abs/2006.04347公开了用以使用贝叶斯工具基于在基准真值情况下先验与后验的比率是鞅(martingale)的事实构造频率主义者置信序列的一般方法。
3、背景技术
4、今天,许多应用依赖于使用神经网络来预测真实世界的特定量。常见的应用包括对传感器信号进行分类或者关于传感器信号执行回归,以便确定在其中记录传感器信号的环境的特定物理方面。例如,在机器人学中,神经网络被大量用于基于诸如相机、激光雷达或雷达等的传感器来预测机器人的虚拟环境模型。
5、不确定性量化对于这些应用、尤其是对于自主驾驶中的安全性和可靠性而言至关重要。然而,计算不确定性估计经常是昂贵的,并且该成本在低资源或时延关键设置中如对于机器人应用常见的那样尤其有限。早退神经网络(eenn)为这些问题提供了部分解决方案。如名字暗指的,这些架构具有允许在沿着eenn的架构的任意停止点处生成预测的多个出口。标准的不确定性量化技术,诸如贝叶斯或保形推理,然后可以被应用于每个出口。
6、然而,发明人发现,已知方法导致不确定性量化不足,因为在已知方法中,对于eenn的每个出口(或头部)的不确定性被建模为独立的,而实际上相邻出口的不确定性是相关的。例如,给定出口处的预测的不确定性区间应当与先前和后续出口处的区间一致。如果候选预测(回归结果的分类)在出口t-1处处于一个区间中,并且在出口t处退出该区间,则该预测不应在出口t+1处重新进入该区间,因为该预测已被另一个出口排除。甚至更糟糕的情况将是时间t和t+1处的区间是不相交的集合。这甚至在使用保形推理时也可以发生,因为其覆盖保证仅最低限度地成立(即平均而言)。
7、本发明提出了一种用于将从eenn的不同头部确定的不确定性视为相关的方法。有利的是,这是通过将跨eenn的出口的预测不确定性视为随时有效的置信序列(avcs)来实现的。avcs是为流(数据)设置中的统计推理而开发的,并且因此保证具有不增加的区间宽度。进而,这允许跨eenn的头部进行一致的不确定性估计,这导致对eenn的涉及其自己预测的更好不确定性量化。随后,这导致在eenn的预测上的更多可靠性,并且因此导致在将eenn用于安全性关键应用(诸如自主驾驶)时的降低风险。
技术实现思路
1、在第一方面中,本发明涉及一种用于确定第一元素和第二元素的计算机实现的方法,其中第一元素表征传感器信号的分类或回归结果,并且第二元素表征很可能的分类或回归结果的置信区间,其中第一元素和第二元素由早退神经网络确定,所述方法包括如下步骤:
2、·由早退神经网络确定传感器信号的特征表示,所述特征表示被提供给早退神经网络的头部;
3、·提供预测后验分布或预测后验分布的最大值的自变量(argument)作为第一元素,其中预测后验分布是基于头部的权重集的后验分布和给定头部的权重集的特征表示的似然性来确定的;
4、·从头部的权重集的后验分布中采样权重集;
5、·通过将特征表示处的预测后验分布的值除以给定采样权重集的特征表示的似然性,来确定可能的分类或回归结果的似然比;
6、·将置信区间确定为针对其似然比等于或低于预定义阈值的可能的类或回归结果,并且提供置信区间或表征置信区间的宽度的值作为第二元素。
7、早退神经网络(eenn)一般可以被理解为通过使若干个预测头部从共享主干网络分支出来,来在各种深度处(即,在eenn的特定层之后)确定预测(例如,分类或回归结果)。因此,可以将eenn理解为定义预测模型的序列:f(x|wt,u1:t):x→y,t=1,...,t,其中wt表示出口t处的预测头部的参数(也被称为权重),并且ut标示主干架构中第t个块的参数。换句话说,没有形成头部的至少一部分的eenn的所有层都可以被认为形成主干的至少一部分。通常通过一次拟合(fit)所有出口来训练eenn。在测试时间(也被称为推理时间),eenn的中间预测可以被以多种方式利用。例如,如果在头部t处认为eenn足够置信,则可以停止计算而不传播通过稍后的块,因此加快预测时间。
8、头部可以被理解为执行贝叶斯线性回归,其中权重是贝叶斯线性回归的参数。因此,权重的分布表征可能的权重集的似然性,即,对于贝叶斯线性回归中的每个可能的权重集而言,可以由分布来确定似然性。因此,从分布中采样权重可以被理解为从分布中采样权重集,例如,执行贝叶斯线性回归所必要的所有权重。回归系数(在神经网络领域中也被称为(一个或多个)偏置)被认为是贝叶斯线性回归的权重的部分。
9、表征分类的第一元素可以被理解为包括指示分类的一个或多个值或由其组成的第一元素,例如类索引、类标签和/或可能类集中的每个类的多个概率或逻辑。
10、表征回归结果的第一元素可以被理解为包括指示传感器信号的特性(尤其是输入信号的物理特性)的一个或多个真实值或由其组成的第一元素。例如,输出信号可以被理解为具有早退神经网络的虚拟传感器的结果,所述早退神经网络用作可以从输入信号导出的物理性质的虚拟传感器。示例将是借助于包括电机中的电流和/或电机的外部温度的传感器信号来导出电机(例如,电马达)中存在的温度。
11、传感器信号可以被理解为利用传感器实施测量的结果。所述测量可以恰好在应用该方法之前发生(例如,作为用于分类/执行回归的在线方法的一部分),或者所述测量可以更早发生,并且传感器信号可以从例如数据库中获得。
12、由早退神经网络确定传感器信号的特征表示可以被理解为将传感器信号作为输入提供给eenn,并且将其传播通过eenn的一个或多个层,其中所述层被配置为每个确定特征表示。特征表示中的一个被用作至头部的输入,即用作传感器信号关于头部的特征表示。代替使用传感器信号作为输入,也可以通过一个或多个预处理操作(例如,平滑、归一化、从传感器信号中提取一部分)来变换传感器信号,并且然后将预处理传感器信号的结果作为输入提供给eenn。
13、传感器信号一般可以被理解为使用传感器对真实世界实施测量的结果。eenn可以被配置为例如通过在类似于传感器信号的其他传感器信号上对eenn进行训练,来处理特定的传感器信号。替代地,如果eenn将对预处理的传感器信号实施推理,则可以对预处理的传感器信号实施训练。
14、传感器信号尤其可以是由光学传感器记录的图像,所述光学传感器例如是相机、热相机、激光雷达、雷达或超声波传感器。因此,图像可以由通过测量提取的低水平特征的集合来表示,例如像素、深度测量、体素等。
15、传感器信号还可以包括不同或相似传感器的多个测量,例如,来自不同相机的多个图像是来自至少一个相机和至少一个激光雷达的图像。传感器信号还可以包括一系列测量值,即测量值的时间序列。
16、提供预测后验分布或预测后验分布的最大值的自变量可以被理解为执行贝叶斯推理以确定预测后验分布,即,在头部的权重的后验分布上边缘化预测的分布(即,可能的分类或可能的回归结果),并且然后提供该分布或该分布的最大值的自变量。因此,第一元素可以是可能的分类或回归值的分布,或者这样的分布的最大值自变量。
17、优选地,为权重的分布选取共轭先验,这允许在确定预测后验分布时进行精确的推理(共轭贝叶斯推理)。这在预测回归结果时尤其合适。对于预测分类,近似方法可以被用于贝叶斯推理,例如拉普拉斯近似。
18、通过将特征表示处的预测后验分布的值除以给定采样权重集的特征表示的似然性来确定可能的分类或回归结果的似然比可以根据如下公式实施:
19、
20、其中y是可能的类或回归结果,l是多个头部中的头部的索引,pl是给定训练数据集d和至eenn的输入x(即,传感器信号或预处理传感器信号的结果)的第,个头部的预测后验分布的似然性,并且p是当使用采样权重集wl时在头部,处预测y的似然性。
21、在公式中,预测后验分布是就输入x而言定义的。也就是说,虽然分布以x为条件,但是预测后验分布的评估尤其可以通过将输入传播通过eenn,确定要被提供给第,个头部的特征表示,并且然后通过实施贝叶斯线性回归确定后验预测分布来执行。上面的符号仅仅是对预测后验分布的可能定义的选择。在上面的公式中,训练数据集包括传感器信号xi和关于传感器信号的期望分类或回归结果yi的元组。将也可能的是将x定义为第,个头部的特征表示,并且使数据集包括特征表示xi的元组(即,通过eenn转发来自原始训练数据集的传感器信号来确定,由此确定每个头部和传感器信号的特征表示)和对应的期望分类或回归结果yi。
22、预定义阈值优选地为非负数,并且优选不为零。
23、优选地,早退神经网络包括多个头部,其中每个头部的权重集的特征在于权重集的后验分布,并且所述多个头部的次序由它们在早退神经网络内的定位给出,并且其中在头部的次序中,头部在至少一个其他头部之前,并且其中通过将针对另一个头部确定的类或回归结果的似然比与针对该头部确定的似然比相乘,来确定可能的类或回归结果的似然比。
24、有利的是,在eenn中使用多个头部并且乘以似然比,发明人发现这导致由头部表征的不确定性,以并入关于另一个头部或其他头部的预测的不确定性。作者有利地发现,在统计术语中,似然比可以被理解为鞅,它具备各种各样的有利性质。这些特性之一是借助于似然比确定的置信区间序列表征随时有效的置信序列。
25、换句话说,如果对于头部之一,可能的类或回归值落在相应头部的置信区间之外,则由于乘法,可能的类或回归值不能进入前面的头部的置信区间中。因此,这导致头部“同意”置信区间,即置信区间的并集。
26、发明人发现,考虑到第一元素,这有利地导致更准确的不确定性预测,即,分类或回归结果可以被分配eenn关于其预测有多么不确定的准确值。不确定性值随后可以被用于决定预测(即,第一元素)是否可以信任。
27、优选地,所述多个头部中的任何头部的似然比根据如下公式来确定:
28、
29、其中y是可能的类或回归结果,l是多个头部中的头部的索引,p l是第,个头部的预测后验分布的似然性,p是当使用采样权重集wl时在头部,处预测y的似然性,并且rt(y)是头部t的似然比(鞅)。
30、作者发现,当预测分类时,rt可以针对可以由eenn预测的类集中的每个类来确定,其中置信区间然后由针对其rt小于或等于预定义阈值的所有类表征。预定义阈值可以被认为是该方法的超参数。阈值可以有利地就倒数而言来定义,例如,由公式1/α来表征。这样的公式允许对阈值的直接解释,即置信区间正确(即,置信区间包括正确的分类或回归结果)的概率等于或低于α。优选地,α可以就概率而言来定义。
31、优选地,如果第一元素表征回归结果,并且置信区间通过确定置信区间的界限来确定,其中置信区间的界限是由如下公式表征的函数的根:
32、logrt(y)-log(1/α)=0,
33、其中1/α是预定义阈值。
34、有利地,发明人发现,如果例如预测后验分布是高斯分布,则logrt(y)是二次函数。置信区间的界限因此可以以分析方式找到,因为它们是上面的公式的根。
35、优选地,相应的头部的权重的先验分布是共轭先验。使用共轭先验允许找到根的封闭形式的解决方案,并且因此从计算的角度来看特别有价值,因为它消除了在所有或大量可能的回归结果上迭代的附加开销。
36、优选地,所述头部不是所述多个头部中的最后一个头部,并且其中预测后验分布或预测后验分布的最大值被提供作为第一元素,并且如果置信区间小于或等于预定义阈值但是不为空,则置信区间或表征置信区间的宽度的值被提供作为第二元素,并且其中否则对应于跟随所述头部的头部的预测后验分布或预测后验分布的最大值被提供作为第一元素,并且第二置信区间或表征对应于跟随所述头部的头部的第二置信区间的宽度的值被提供作为置信区间。
37、这也可以被理解为eenn的用户能够在所述头部处停止计算,“窥视”当前结果,并且继续计算关于当前预测足够高的置信度值。如果置信度值不够高,则关于预测的决策可以被“推迟”到eenn的稍后的头部。
38、有利的是,该方法允许降低计算复杂度,因为对于在eenn中早期的头部,大多数预测置信度已经很高。
39、关于头部的预测的置信度可以从置信区间中导出。例如,置信区间的宽度的倒数或负值可以被理解为预测中的置信度。换句话说,置信区间越窄,预测中的置信度越高。置信区间为空的情况可以被认为是特殊情况,因为在该情况下,eenn无法置信地提供任何预测。在该情况下,预测可以被认为是从eenn拒绝的,即,eenn无法做出关于类或回归结果的可靠预测。
40、替代地,也可能的是所述头部处于头部的次序内的最后一个定位处。
41、根据这些实施例,头部的所有置信区间被组合以便确定一个单个置信区间,其中组合可以被理解为所有置信区间的并集。
42、有利的是,发明人发现这些实施例包括所有的置信度,并且因此关于由不同的人做出的决策的集合是最准确的。
43、一般而言,“窥视”置信度并且如果置信度足够的高话则停止或者确定所有置信区间的不同应用可以取决于可用计算和定时约束以及关于置信区间大小的约束来针对彼此权衡。
44、例如,如果预测可能不是高度安全性关键的,但是应当在短时间量内递送,则可以将阈值选取得高,使得从eenn的早期头部提供预测。替代地,如果预测是更安全性关键的,则可以选取更小的阈值,潜在地使该方法运行通过eenn的所有头部。
45、上面呈现的优选或替代实施例中的所有或一些可以被组合以形成该方法的进一步实施例。
46、在另一方面中,本发明涉及一种用于确定表征分类或回归结果的第三元素的计算机实现的方法,其中该方法包括根据权利要求1至6中任一项确定第一元素和第二元素,其中如果由第一元素表征的类或由第一元素表征的回归结果在由第二元素表征的置信区间内,则提供第一元素作为第三元素,并且其中否则提供表征拒绝的值作为第三元素。
47、在另一方面中,本发明涉及一种用于训练eenn的方法。特别地,上面呈现的不同方法可以进一步包括借助于贝叶斯推理、特别是共轭贝叶斯推理来确定权重的后验分布。
48、共轭贝叶斯推理可以被理解为使用共轭先验的贝叶斯推理。有利地,共轭贝叶斯推理导致所确定的似然比的特别有利的性质。特别地,使用共轭贝叶斯推理导致后验分布的精确贝叶斯推理。
49、优选地,早退神经网络在预训练步骤中被预训练,并且其中贝叶斯推理的步骤在预训练之后实施。
50、该方法的这些实施例可以被理解为首先例如使用规则梯度下降来训练eenn,并且由此确定eenn的主干和头部的权重的最大似然估计,并且然后丢弃头部的权重,并且借助于贝叶斯推理确定头部的权重分布。
51、有利地,这允许轻量级贝叶斯推理,即,仅头部被配备有它们相应权重的分布,而不是具有主干,并且由此整个eenn形成贝叶斯神经网络。发明人发现使头部执行贝叶斯推理足以允许准确的置信区间预测。因此,与使整个eenn作为贝叶斯神经网络相比,这降低了该方法的计算复杂度。
52、将参考以下各图更详细地讨论本发明的实施例。各图示出:
53、图1是早退神经网络:
54、图2是包括用于控制其环境中的致动器的早退神经网络的控制系统;
55、图3是控制至少部分自主的机器人的控制系统;
56、图4是控制制造机器的控制系统;
57、图5是控制成像系统的控制系统;
58、图6是用于训练分类器的训练系统。