神经过程的贝叶斯上下文聚合的制作方法

文档序号:29795857发布日期:2022-04-23 18:49阅读:82来源:国知局
神经过程的贝叶斯上下文聚合的制作方法

1.本公开涉及用于为技术设备产生计算机实现的机器学习系统的计算机实现的方法。


背景技术:

2.用于从测量数据中推导出变量之间的定量关系的强大的计算机实现的模型的开发在工程的所有分支中都至关重要。就此而言,基于高斯过程的计算机实现的神经网络和方法越来越多地被用在各种技术环境中。神经网络可以很好地胜任大量训练数据组,并且在训练时在计算上是高效的。缺点是,所述神经网络不提供关于其预测的不确定性的估计,并且此外在小的数据组时可能倾向于过度拟合。此外,可能得出以下问题,神经网络应该为了其成功的应用强烈地被结构化,并且所述神经网络的大小可能自应用的一定复杂性起快速地增加。这可能对为了应用神经网络所需要的硬件提出过高要求。高斯过程可以被看作与神经网络互补,因为所述高斯过程可以提供不确定性的可靠估计,但是所述高斯过程的例如二次或三次缩放在训练时间期间随着上下文数据的数量可能在具有大量数据的任务方面或在典型硬件上的高维问题方面强烈限制应用。
3.为了解决上面提及的问题,已经开发了与所谓的神经过程相关的方法。这些神经过程可以组合神经网络和高斯过程的优点。最后,所述神经过程提供在复数个函数(而不是单个函数)上的分布并且表示多任务学习(“multi-task learning”)方法(即该方法同时在多个任务上被训练)。此外,这些方法通常基于条件潜在变量模型(“conditional latent variable(clv)models),其中使用潜在变量来考虑全局不确定性。
4.例如,计算机实现的机器学习系统可以被用于对技术设备进行参数化(例如用于对特性曲线族进行参数化)。这些方法的另一个应用领域是具有有限硬件资源的较小技术设备,其中电流消耗或低存储容量可能显著地限制较大神经网络或基于高斯过程的方法的使用。


技术实现要素:

5.本发明涉及一种用于产生计算机实现的机器学习系统的计算机实现的方法。该方法包括接收反映设备的动态行为的训练数据组xc、yc,并且在使用贝叶斯推理的情况下并且在考虑训练数据组xc、yc的情况下来计算机器学习系统的至少一个潜在变量z1的聚合。包含在训练数据组中的信息被直接转移到多个潜在变量z1的统计描述中。该方法此外包括产生后验预测分布用于在使用所计算的聚合的情况下并且在训练数据组xc、yc发生了的条件下预测设备的动态行为。
6.本发明此外涉及在不同的技术环境中应用所产生的计算机实现的机器学习系统。本发明此外涉及产生计算机实现的机器学习系统和/或将计算机实现的机器学习系统应用于设备。
7.本发明的技术的目的在于,产生(尽可能)简单和高效的计算机实现的机器学习系
统,与一些现有技术的方法相比,所述计算机实现的机器学习系统提供改善的预测性能和准确性,并且附加地具有计算成本的增益。为此目的,可以基于可用的数据组(例如历史数据)机器地学习计算机实现的机器学习系统。可以从通常给定的函数族中在使用来自在已知数据点处计算的该函数族的给定函数子集的情况下获得这些数据组。
8.尤其是可以避开现有技术的一些技术的平均值聚合的缺点,其中可以给机器学习系统的每个潜在观测(与包含在相应的上下文数据对中的信息量无关地)分派相同的权重1/n。本公开的技术的目的在于改善该方法的聚合步骤,以便产生高效的计算机实现的机器学习系统并且降低由此得出的计算成本。以这种方式产生的计算机实现的机器学习系统可以被用在众多技术系统中。例如,可以借助于计算机实现的机器学习系统设计技术设备(例如,对诸如电机、压缩机或燃料电池之类的设备的特性曲线族的参数化进行建模)。
附图说明
9.图1a示意性地示出条件潜在变量模型(“conditional latent variable(clv)模型”),该模型具有特定于任务的潜在变量和与任务无关的潜在变量θ,其检测在任务之间的共同的统计结构。圆圈中的变量对应clv模型的变量:并且是上下文(c)或目标数据组(t)。
10.图1b示意性地示出具有在clv模型中使用的具有似然变化方法(vi)的现有技术的平均值聚合(ma)的网络。为简单起见,省略任务索引。每个上下文数据对通过神经网络被映射到相对应的潜在观测上。是聚合潜在观测,(平均值)。标有a

[b]的框表示具有分别具有b个单元的a个隐藏层的多层感知器(英文为“multi-layer perceptron”, mlp)。具有名称“平均值”的框表示传统的平均值聚合。标有z的框表示具有随机分布的随机变量的实现,所述随机变量利用通过进入节点给出的参数被参数化。对应于潜在维度,和在图1a的标题中被定义。
[0011]
图2示出具有本公开的“贝叶斯聚合”的网络。为简单起见,省略任务索引。具有名称“贝叶斯”的框表示“贝叶斯聚合”。在一个示例中,除了图1b中介绍的借助于神经网络映射之外,每个上下文数据对可以通过第二神经网络被映射到相对应的潜在观测的不确定性上。在该示例中,参数对近似后验分布进行参数化。其他标记对应于图1b中使用的标记。不使用在图1b中定义的聚合潜在观测。
[0012]
图3比较针对不同方法计算的测试数据组(古田摆(furuta-pendel))的结果,并且根据上下文数据点的数量n示出后验预测分布的对数。ba+pb:在使用在图2上所示的根据本发明的“贝叶斯聚合”(ba)和根据本发明的基于参数的非随机损失函数(pb)的情况下的数值结果,其代替传统的基于变化推理或蒙特卡罗的方法。ma+pb:在使用图1b中概述的传统平均值聚合和根据本发明的pb损失函数的情况下的数值结果。ba+vi:在使用根据本发明的ba和通过似然变化方法近似的传统损失函数的情况下的数值结果。l对应于训练数据组的数量。
具体实施方式
[0013]
本公开涉及用于为设备产生计算机实现的机器学习系统(例如,概率回归器或分类器)的方法,所述机器学习系统在使用借助于贝叶斯推理进行的聚合(“贝叶斯聚合”)的情况下被产生。这些方法由于其计算复杂性在计算机实现的系统中被执行。在随后阐述一些可能的实现之前,首先讨论用于产生计算机实现的机器学习系统的方法的一些一般方面。
[0014]
尤其是,与神经过程相结合的概率模型可以示意性如下来表达。用表示通用函数的族,所述通用函数可以被用于特定的技术问题并且具有类似的统计结构。此外假设对于训练使用的数据组 可用,其中在使用l函数的子集(“任务")的情况下从上面提及的函数族中在数据点处如下来计算:处如下来计算:。在这里,ε是具有平均值零的加性高斯噪声。如图1a中阐明的数据组随后被划分成上下文数据组和目标数据组。基于神经过程的方法的目的在于关于训练后验预测分布(在上下文数据组已发生的条件下),以便尽可能精确地预测目标点处的目标值(例如,具有处于预定阈值之下的误差)。
[0015]
如上所提及的和在图1a中所示的,该方法可以附加地包括使用具有条件潜在变量(clv变量)的模型。具体而言,该模型可以包括特定于任务的潜在变量以及至少一个与任务无关的潜在变量(例如,与任务无关的潜在变量θ),其检测在任务之间的共同的统计结构。潜在变量是对整个方法的概率特征有贡献的随机变量。此外,为了转移在上下文数据组(图1a中的左框)中包含的信息需要潜在变量,以便能够对目标数据组(图1a中的右框)作出相对应的预测。整个方法可能是在计算上相对复杂的,并且可以由多个中间步骤组成。该方法可以被表示为优化问题,其方式是关于至少一个与任务无关的潜在变量θ和关于对近似后验分布进行参数化并且与上下文数据组共同的单个参数组使后验预测似然分布最大化。同时,与潜在变量有关的所有分布都被相应地边缘化,即在上进行积分。最后,可以导出期望的后验预测分布。
[0016]
由于是潜在变量,所以需要一种形式的聚合机制来使得能够使用可变大小的上下文数据组。为了能够表示对数据组的有意义的运算,这样的聚合在上下文数据点和的排列方面必须是不变的。为了满足这种排列条件,通常使用图1b中示意性示出的传统平均值聚合。首先,每个上下文数据对通过神经网络被映射到相对应的潜在观测上。(为了简单起见,在下面省略任务索引。)然后对所产生的组应用置换不变运算以获得聚合潜在观测。就此而言在现有技术中使用的可能性之一是计算平均值、即。应该注意的是,然后使用该聚合观测来对潜在变量z的相对应分布进行参数化。
[0017]
如图2中简述的,这里描述的聚合可以例如被表达为贝叶斯推理问题,其中对于多
个潜在变量z在考虑训练数据组的情况下计算所述聚合。在一个示例中,所接收的训练数据组可以反映设备的动态行为。与现有技术中使用的聚合机制相比,在使用贝叶斯推理(或简称“贝叶斯聚合”)的情况下基于聚合的本方法使得能够将在训练数据组中包含的信息直接转移到多个潜在变量z的统计描述中。如下面进一步所讨论的,尤其是关于多个潜在变量z对相对应的分布进行参数化的参数将不基于用于聚合潜在观测的粗略平均值聚合,所述粗略平均值聚合传统上在现有技术中被使用。根据本发明的聚合步骤可以改善整个方法并且通过产生后验预测分布来在使用所计算的“贝叶斯聚合”的情况下并且在训练数据组发生了的条件下预测设备的动态行为来导致产生高效的计算机实现的机器学习系统。由此得出的计算成本同样可以显著地被降低。利用该方法产生的后验预测分布可以有利地被用于根据与受控设备的动态行为相关的输入参量来预测相对应的输出参量。
[0018]
多个训练数据组可以包括在设备处测量的和/或为设备计算的输入参量。多个训练数据组可以包含关于技术设备的运行状态的信息。附加地或可替代地,多个训练数据组可以包含关于技术设备的环境的信息。在一些示例中,多个训练数据组可以包括传感器数据。计算机实现的机器学习系统可以针对一定的技术设备被训练,以便处理在该设备中和/或其周围环境中积累的数据(例如传感器数据),并且计算一个或多个与监控和/或控制设备相关的输出参量。这可能发生在技术设备的设计期间。在这种情况下,计算机实现的机器学习系统可以被用于根据输入参量计算相对应的输出参量。然后可以将获得的数据填入到技术设备的监控和/或控制设备中。在其他示例中,计算机实现的机器学习系统可以在技术设备的运行中被使用来执行监控和/或控制任务。
[0019]
根据上面的定义,训练数据组也可以被称为上下文数据组,也参见图1a。在本公开中使用的训练数据组(例如,对于所选择的索引,其中)可以包括多个训练数据点并且由第一多个数据点和第二多个数据点组成。可以以与上面进一步谈及的相同的方式示例性地在使用来自第一多个数据点上的一般给定函数族的给定函数子集的情况下来计算第二多个数据点。例如,可以选择函数族,使得所述函数族最好地适合于所考虑的特定设备的运行状态的描述。函数并且尤其是给定的函数子集也可以具有类似的统计结构。
[0020]
在该方法的下一步骤中并且与上述讨论一致地,可以通过第一神经网络1将来自训练数据组的第一多个数据点和第二多个数据点的每个对映射到相对应的潜在观测上。除了到相对应的潜在观测上的所介绍的映射之外,在一个示例中,可以通过第二神经网络2将每个上下文数据对映射到相对应的潜在观测的不确定性上。然后,在多个潜在观测发生了的条件下,可以为多个潜在变量z聚合贝叶斯后验分布(例如,借助于相对应设立的模块3)。就此而言示例性方法在于,通过贝叶斯干涉来更新后验分布。例如,可以执行以下形式的贝叶斯推理计算:可以执行以下形式的贝叶斯推理计算:。最终,可以计算多个潜在观测值和其多个不确定性,也参见图2。如上面进一步已经提及的,根据本发明的方法与传统方法不同之处首先在于,使用开始的两个神经网络中的第一个神经网络用于
映射步骤,而后者仅包括神经网络和用于聚合潜在观测的粗略平均值聚合。由此,包含在训练数据组中的信息可以直接被转移到多个潜在变量的统计描述中。
[0021]
在一个示例中,“贝叶斯聚合”可以借助于因式分解高斯分布来实现。相对应的似然分布可以例如通过相应的高斯分布如下来定义:。在这种情况下,不确定性对应于相对应高斯分布的方差。
[0022]
本公开的方法可以包括在训练数据组发生了的条件下为多个潜在变量z产生第二近似后验分布。在因式分解高斯分布的上述情况下,该第二近似后验分布可以通过参数组来描述,所述参数组可以经由对训练数据组共同的参数被参数化。该参数组可以基于所计算的多个潜在观测和所计算的多个其不确定性迭代地被计算。总而言之,作为贝叶斯推理表达聚合使得能够将在训练数据组中包含的信息直接转移到潜在变量z的统计描述中。
[0023]
此外,迭代地计算第二近似后验分布的参数组可以包括关于潜在变量z实现其他多个因式分解高斯分布。在该示例中,参数组可以对应于高斯分布的多个平均值和方差。
[0024]
此外,该方法包括接收另一训练数据组,所述另一训练数据组包括第三多个数据点和第四多个数据点。另一训练数据组也可以对应于上面进一步提及的目标数据组(也参见图1a)。本方法示例性地包括在使用来自一般给定函数族的相同的给定函数子集的情况下计算第四多个数据点,其中该给定函数子集在第三多个数据点上被计算。该方法此外包括产生第三分布,所述第三分布与参数组的多个潜在变量z、与任务无关的变量θ和另一训练数据组(例如目标数据组)有关。该第三分布可以在一个优选的示例中通过第三和第四神经网络4、5产生。
[0025]
该方法的下一步骤包括关于与任务无关的变量θ和共同的参数优化似然分布。在第一示例中,优化似然分布可以包括关于与任务无关的变量θ和共同的参数最大化似然分布。在这里,最大化可以基于所产生的第二近似后验分布和所产生的第三分布。就此而言,最大化似然分布此外可以包括计算在潜在变量z的函数上的积分,所述函数包括第二近似后验分布和第三分布的相应乘积。
[0026]
为了通过使似然分布最大化来优化与任务无关的变量θ和共同的参数,可以近似关于多个潜在变量z的积分。为此,关于多个潜在变量z的积分可以通过非随机损失函数来近似,所述非随机损失函数基于第二近似后验分布的参数组。由此可以比使用传统的基于变化推理或蒙特卡洛的方法的现有技术的一些方法更快地计算整个方法。最后,可以在似然分布中使用通过优化导出的与任务无关的变量θ和共同的参数,以便产生后验预测分布。
[0027]
在图3中,比较标准问题(古田摆)的结果,所述结果是针对不同的方法计算的。该图根据第一多个数据点(即一定数量的上下文数据点)n示出后验预测分布的对数。如从该图中可以看出,与相应的传统方法、即平均值聚合(ma)或似然变化方法(vi)相比,本公开的方法尤其是在小训练数据组的情况下可以改善计算机实现的机器学习系统的总体性能。
[0028]
如上面进一步已经谈及的,可以在不同的技术设备和系统中使用本公开的计算机实现的机器学习系统。例如,可以使用计算机实现的机器学习系统来控制和/或监控设备。
[0029]
第一示例涉及技术设备或技术系统的设计。就此而言,训练数据组可以包含测量数据和/或合成数据和/或软件数据,其对技术设备或技术系统的运行状态起作用。输入或输出数据可以是技术设备或技术系统的状态参量和/或技术设备或技术系统的控制参量。在一个示例中,产生计算机实现的概率机器学习系统(例如,概率回归器或分类器)可能包括将一个维数的输入向量映射到第二维数的输出向量。在这里,例如输入向量可以表示用于设备的至少一个所测量的输入状态参量的时间序列的元素。输出向量可以表示设备的至少一个所估计的输出状态参量,其根据所产生的后验预测分布被预测。在一个示例中,技术设备可以是机器,例如发动机(例如内燃机、电动机或混合电动机)。在其他示例中,技术设备可以是燃料电池。在一个示例中,设备的所测量的输入状态参量可以包括转速、温度或质量流量。在其他示例中,设备的所测量的输入状态参量可以包括它们的组合。在一个示例中,设备的所估计的输出状态参量可以包括扭矩、效率、压力比。在其他示例中,所估计的输出状态参量可以包括它们的组合。
[0030]
在运行期间,不同的输入和输出参量在技术设备中可以具有复杂的非线性相关性。在一个示例中,借助于本公开的计算机实现的机器学习系统可以对用于设备(例如用于内燃机、电动机、混合电机或燃料电池)的特性曲线族的参数化进行建模。根据本发明的方法的经建模的特性曲线族特别是使得能够在运行中快速且精确地提供设备的不同的状态参量之间的正确关系。可以例如在设备(例如发动机)的运行中使用以这种方式建模的特性曲线族来监控和/或控制发动机(例如在发动机控制设备中)。在一个示例中,该特性曲线族可以说明:机器(例如发动机)的动态行为(例如能量消耗)如何与机器的不同的状态参量(例如转速、温度、质量流量、扭矩、效率和压力比)有关。
[0031]
可以使用计算机实现的机器学习系统来对时间序列进行分类,尤其是对图像数据进行分类(即技术设备是图像分类器)。图像数据例如可以是(例如由相对应的传感器产生的)摄像机、激光雷达、雷达、超声或热图像数据。在一些示例中,计算机实现的机器学习系统可以被设计用于(例如制造过程和/或用于质量保障的)监控设备或用于医学成像系统(例如用于发现诊断数据)或可以被用在这样的设备中。
[0032]
在其他示例中(或附加地),计算机实现的机器学习系统可以被设计或使用来监控至少部分自主的机器人的运行状态和/或环境。至少部分自主的机器人可以是自主车辆(或另一至少部分自主的交通工具或运输工具)。在其他示例中,至少部分自主的机器人可以是工业机器人。在其他示例中,技术设备可以是(例如工业层(industrielage)的)一个机器或一组机器。例如,可以监控机床的运行状态。在这些示例中,输出数据y可以包含关于相应技术设备的运行状态和/或环境的信息。
[0033]
在其他示例中,要监控的系统可以是通信网络。在一些示例中,网络可以是电信网
络(例如,5g网络)。在这些示例中,输入数据x可以包含网络的节点中的利用率数据,并且输出数据y可以包含关于资源分配的信息(例如信道、网络信道中的带宽或其他资源)。在其他示例中,可以识别网络故障。
[0034]
在其他示例中(或附加地),计算机实现的机器学习系统可以被设计或被使用来控制(或调节)技术设备。技术设备又可以是上面(或下面)讨论的设备之一(例如,至少部分自主的机器人或机器)。在这些示例中,输出数据y可以包含相应技术系统的控制参量。
[0035]
在其他示例中(或附加地),计算机实现的机器学习系统可以被设计或被使用来对信号进行滤波。在某些情况下,信号可以是音频信号或视频信号。在这些示例中,输出数据y可以包含经滤波的信号。
[0036]
可以在计算机实现的系统上执行用于产生和应用本公开的计算机实现的机器学习系统的方法。计算机实现的系统可以具有至少一个处理器、至少一个存储器(其可以包含在被执行时执行本公开的方法的程序)以及至少一个用于输入和输出的接口。计算机实现的系统可以是经由网络(例如互联网)进行通信的独立系统或分布式系统。
[0037]
本公开还涉及利用本公开的方法产生的计算机实现的机器学习系统。本公开还涉及计算机程序,所述计算机程序被设立用于执行本公开的方法的所有步骤。此外,本公开涉及其上存储有计算机程序的机器可读存储介质(例如光学存储介质或固态存储器、例如闪存),所述计算机程序被设立用于执行本公开的方法的所有步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1