用于运行控制系统的方法和设备与流程

文档序号:24728395发布日期:2021-04-16 17:21阅读:88来源:国知局
用于运行控制系统的方法和设备与流程

1.本发明涉及一种用于对机器学习系统进行参数化的方法、一种训练系统、一种控制系统、一种用于运行控制系统的方法、一种计算机程序和一种机器可读存储介质。


背景技术:

2.从de 20 2017 102 238 u公知一种用于训练机器学习系统的方法,其中利用针对机器学习系统的具有观测值和所属的所希望的第一输出值的训练集合来训练机器学习系统的参数。


技术实现要素:

3.本发明的优点在下文中,x表示输入空间(input space)而y表示输出空间(target space(目标空间))。给定训练数据记录s = ((x1, y1), ..., (x
m
, y
m
))。在这种情况下,根据关于(x, y)的固定且未知的分布p来取得数据。还给定损失函数(loss function)。对于函数f: x
ꢀ→ꢀ
y来说,通过r[f]: = 来定义预期损失(英文“expected loss”)。经验风险(英文“empirical risk”)通过来定义。该参量在下文中也被称作特征参量。
[0004]
机器学习方法的任务是:学习函数类别f中的使预期损失r[f]最小化的函数f: x
ꢀ→ꢀ
y。由于这通常不可能,所以该任务被基于训练数据记录s来学习函数类别f中的使经验风险(expected risk)最小化的函数f
s
: x
ꢀ→ꢀ
y的任务所替代。
[0005]
如果函数f
s
是以这种方式来获得的,则中心问题是f
s
针对新的数据点的通用化程度如何。这通过差来表征。
[0006]
可以利用多个参数来描述机器学习系统、例如神经网络。这些参数可以被划分成:架构参数,比如深度、过滤器的数目和形式、对非线性和连接的选择;和优化参数,如步长、批次大小和迭代次数。换言之,架构参数表征函数f,而优化参数表征在训练期间使用的优化方法。
[0007]
对这些参数的选择例如可以基于经验知识或者神经网络在验证数据记录上的性能能力。由于神经网络通常通过作为数据点给出的多得多的参数来被参数化,所以存在网络花费高地学习训练数据的风险。这样训练的网络可能不太适合于在安全关键的功能、例如用于自动化驾驶的功能中使用,因为针对新数据点的输出也许不能良好地被掌控。
[0008]
具有独立权利要求1的特征的方法防止了机器学习系统在训练时花费高地学习训练数据,也就是说可以通过参数搜索来自动化地确定架构参数和/或优化参数。这样确定的架构参数和/或优化参数导致:机器学习系统可以经改善地通用化。
发明内容
[0009]
在第一方面,本发明涉及一种具有独立权利要求1的特征的方法。本发明的其它方面是并列独立权利要求的主题。有利的扩展方案是从属权利要求的主题。
[0010]
考虑机器学习系统、尤其是人工神经网络。以便解决分类任务、即将输入空间的输入信号x分配到数目为k个更多类别中的类别y。该分配例如借助于函数来进行,其中是欧几里得空间。f(x)的成分分别对应于这些类别之一并且在这种情况下分别表征所属的类别y是输入信号x的正确分类的概率。为了将输入信号x分配给特定类别,可以使用argmax函数。argmax函数输出f的最大值的坐标,也就是说给特定类别,可以使用argmax函数。argmax函数输出f的最大值的坐标,也就是说。
[0011]
训练数据包括多个训练点(x
t
, y
t
),这些训练点是示例性的输入数据x
t
和所属的所希望的分类y
t
的对。如果机器学习系统的分类n(x
t
)正确,则f(x
t
)的第i个坐标的值是值中的最大值。也就是说,适用于所有。
[0012]
裕度(英文:margin)m通过来定义。如果裕度为正,则分类正确;如果裕度为负,则分类错误。
[0013]
本发明基于如下观察:训练数据的裕度的直方图遵循不同的分布,这取决于机器学习系统是否正确地学习了输入数据x
t
与分类y
t
之间的关系的基础结构。图11示例性示出了这样的分布。分别在横坐标上绘制裕度m,在纵坐标上绘制频率h。
[0014]
如果利用训练数据(x
t
, y
t
)来对机器学习系统进行训练,则当对输入数据x
t
和分类y
t
的分配不能正确地被学习时得到如图11a或图11b中所示的分布,并且当对输入数据x
t
和分类y
t
的分配能正确地被学习时得到如图11c中所示的分布。得到这些分布中的哪些分布取决于超参数(在下文用θ
h
来表示)。
[0015]
超参数θ
h
的特征可在于:这些超参数在训练机器学习系统时保持不变。超参数θ
h
例如可包括架构参数θ
a
和/或优化参数θ
o

[0016]
架构参数θ
a
表征机器学习系统的结构。如果机器学习系统是神经网络,则架构参数θ
a
例如包括神经网络的深度(也就是说层数目)和/或过滤器的数目和/或表征过滤器形式的参数和/或表征神经网络的非线性的参数和/或表征神经网络的哪些层与神经网络的哪些其它层连接的参数。
[0017]
优化参数θ
o
是表征用于使参数θ适配的优化算法的特性的参数,这些参数在训练期间被适配。例如,这些参数可包括数值步长和/或数据堆(英文:“batches(批次)”)的大小和/或最小或最大迭代次数。
[0018]
对于超参数θ
h
的不同的值来说,对机器学习系统的训练的学习成功率有所不同。为了将机器学习系统的通用化设计得尽可能最佳,已认识到:将超参数θ
h
选择为使得:正确标记的数据记录可以良好地被学习,即得到与图11c中所示的情况类似的裕度m的分布,而对于错误地、尤其是随机化标记的其类别相对于正确标记的数据记录x
c
发生变化、尤其是按顺序被置换的数据记录来说,得到与在图11a或11b中所示的情况类似的裕度m的分布。优选地,例如包括正则化参数、尤其是l1‑
正则化参数λ的超参数θ
h
恰好被选择得如此大,使得如图11b中所示的裕度m的分布具有第二最大值作为裕度的函数
(也就是说正则化参数被选择得如此大,使得该分布具有第二最大值,但是在正则化参数被选择得较小的情况下不具有第二最大值)。
附图说明
[0019]
随后,本发明的实施方式参考随附的附图进一步予以阐述。在附图中:图1示意性地示出了本发明的实施方式的构造;图2示意性地示出了用于控制至少部分自主机器人的实施例;图3示意性地示出了用于控制生产系统的实施例;图4示意性地示出了用于控制私人助理的实施例;图5示意性地示出了用于控制访问系统的实施例;图6示意性地示出了用于控制监控系统的实施例;图7示意性地示出了用于控制医学成像系统的实施例;图8示意性地示出了训练系统;图9以流程图示出了用于确定最佳超参数的方法的可能的流程;图10以流程图示出了用于运行机器学习系统的可能的流程;图11示例性地示出了裕度的统计分布。
具体实施方式
[0020]
图1示出了在其周围环境20中与控制系统40进行交互的执行器10。执行器10和周围环境20也共同被称作执行器系统。利用传感器30以优选地均匀的时间间隔来检测该执行器系统的状态,该传感器也可以通过多个传感器来给出。传感器30的传感器信号s或在有多个传感器的情况下每个传感器信号s被传送给控制系统40。因此,控制系统40接收传感器信号s的序列。控制系统40据此确定操控信号a,所述操控信号被传输给执行器10。
[0021]
控制系统40在可选的接收单元50中接收传感器30的传感器信号s的序列,该接收单元将传感器信号s的序列转换成输入信号x的序列(替选地也可以直接各采用传感器信号s作为输入信号x)。输入信号x例如可以是传感器信号s的片段或者对传感器信号s的进一步处理。输入信号x例如可以包括图像数据或图像,或者包括视频录制的各个帧。换言之,根据传感器信号s来确定输入信号x。输入信号x被输送给机器学习系统60,该机器学习系统例如是神经网络。
[0022]
机器学习系统60优选地通过参数θ来被参数化,这些参数存放在参数存储器p中并且由该参数存储器来提供。
[0023]
机器学习系统60根据输入信号x来确定输出信号y。输出信号y被输送给可选的改型单元(umformeinheit)80,该改型单元据此来确定操控信号a,所述操控信号被输送给执行器10,以便相对应地对执行器10进行操控。
[0024]
执行器10接收操控信号a,相对应地被操控并且实施相对应的行动。在这种情况下,执行器10可包括(不一定在结构上集成的)操控逻辑,该操控逻辑根据操控信号a来确定接着用来操控执行器10的第二操控信号。
[0025]
在其它实施方式中,控制系统40包括传感器30。在另外其它实施方式中,替选地或附加地,控制系统40也包括执行器10。
[0026]
在其它优选的实施方式中,控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46,在该机器可读存储介质上存储有命令,当这些命令在处理器45上被实施时,这些命令促使控制系统40实施按照本发明的方法。
[0027]
在替选的实施方式中,替选于执行器10或除了执行器10之外,还设置显示单元10a。
[0028]
图2示出了如下实施例,在该实施例中,控制系统40被用于控制至少部分自主机器人、这里是至少部分自主机动车100。
[0029]
传感器30例如可以是一个或多个优选地布置在机动车100中的视频传感器和/或一个或多个雷达传感器和/或一个或多个超声传感器和/或一个或多个lidar(激光雷达)传感器和/或一个或多个位置传感器(例如gps)。替选地或附加地,传感器30也可以包括确定关于执行器系统的状态的信息的信息系统、诸如天气信息系统,该天气信息系统确定了在周围环境20中的天气的当前或将来的状态。
[0030]
机器学习系统60可以根据输入数据x来探测例如在至少部分自主机器人的周围环境中的对象。输出信号y可以是表征在至少部分自主机器人的周围环境中对象所在的位置的信息。于是,输出信号a可以根据该信息和/或与该信息相对应地来被确定。
[0031]
优选地布置在机动车100中的执行器10例如可以是机动车100的刹车装置、驱动装置或转向装置。接着,操控信号a可以被确定为使得该执行器或这些执行器10被操控为使得尤其是当涉及某些类别的对象、例如行人时,机动车100例如防止了与由机器学习系统60所标识的对象相撞。换言之,操控信号a可以根据所确定的类别和/或与所确定的类别相对应地来被确定。
[0032]
替选地,该至少部分自主机器人也可以是其它移动机器人(未绘出),例如是这种通过飞行、漂浮、潜水或步行来前进的机器人。该移动机器人例如也可以是至少部分自主割草机或者至少部分自主清洁机器人。在这些情况下,操控信号a也可以被确定为使得移动机器人的驱动装置和/或转向装置被操控为使得该至少部分自主机器人例如防止与由机器学习系统60所标识的对象相撞。
[0033]
在另一替选方案中,该至少部分自主机器人也可以是花园机器人(未绘出),该花园机器人利用成像传感器30和机器学习系统60来确定在周围环境20中的植物的类型或状态。于是,执行器10例如可以是化学品的供料机。操控信号a可以根据所确定的植物的类型或者所确定的植物的状态来被确定为,使得化学品的与所确定的类型或所确定的状态相对应的量被施加。
[0034]
在还有其它替选方案中,该至少部分自主机器人也可以是家用电器(未描绘)、尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机。利用传感器30、例如光学传感器可以检测用家用电器来处理的对象的状态,例如在洗衣机的情况下可以检测处在洗衣机中的洗涤物的状态。接着,利用机器学习系统60可以确定该对象的类型或状态并且由输出信号y来表征该对象的类型或状态。接着,操控信号a可以被确定为使得家用电器根据该对象的所确定的类型或所确定的状态来操控。例如,在洗衣机的情况下,该洗衣机可以根据处在其中的洗涤物由何种材料构成来被操控。接着,操控信号a可以根据确定了洗涤物的何种材料来被选择。
[0035]
图3示出了如下实施例,在该实施例中,控制系统40被用于操控生产系统200的生产机器11,其方式是对控制该生产机器11的执行器10进行操控。生产机器11例如可以是用
于冲压、锯切、钻孔和/或切割的机器。
[0036]
于是,传感器30例如可以是光学传感器,该光学传感器例如检测制成品12的特性。可能的是:控制生产机器11的执行器10根据所确定的制成品12的特性来被操控,以便生产机器11相对应地实施该制成品12的随后的加工步骤。也可能的是:传感器30确定由生产机器11来加工的制成品12的特性,而且根据此针对下一个制成品来使对生产机器11的操控适配。
[0037]
图4示出了如下实施例,在该实施例中,控制系统40被用于操控私人助理250。优选地,传感器30是声音传感器,该声音传感器接收用户249的语音信号。替选地或附加地,传感器30也可以被设立为接收光学信号、例如用户249的姿态的视频图像。
[0038]
根据传感器30的信号,控制系统40确定私人助理250的操控信号a,例如其方式是机器学习系统执行姿态识别。接着,将该所确定的操控信号a传送给私人助理250并且该私人助理因此相对应地被操控。该所确定的操控信号a尤其可以被选择为使得该操控信号对应于用户249所设想的所希望的操控。该所设想的所希望的操控可以根据由机器学习系统60识别出的姿态来予以确定。接着,控制系统40可以根据所设想的所希望的操控来选择用于传送给私人助理250的操控信号a和/或选择用于传送给与所设想的所希望的操控相对应的私人助理250的操控信号a。
[0039]
该相对应的操控例如可包含:私人助理250从数据库中调用信息并且以对于用户249来说可接收到的方式重现这些信息。
[0040]
替代私人助理250,也可以设置家用电器(未绘出),尤其是洗衣机、炉灶、烤箱、微波炉或洗碗机,以便相对应地被操控。
[0041]
图5示出了如下实施例,在该实施例中,控制系统40被用于操控访问系统300。访问系统300例如可以包括物理访问控制装置、例如门401。传感器30例如可以是光学传感器(例如用于检测图像或视频数据),该光学传感器被设立为检测面部。借助于机器学习系统60,可以解释该所检测到的图像。例如可以确定人员的身份。执行器10可以是锁,该锁根据操控信号a来开启访问控制装置或者不开启访问控制装置,例如将门401打开或者不打开门401。为此,操控信号a可以根据机器学习系统60的解释来被选择,例如根据所确定的人员身份来被选择。替代物理访问控制装置,也可以设置逻辑访问控制装置。
[0042]
图6示出了如下实施例,在该实施例中,控制系统40被用于控制监控系统400。在图5中示出的实施例与该实施例的区别在于:替代执行器10,设置显示单元10a,该显示单元由控制系统40来操控。例如,机器学习系统60可以确定由光学传感器所记录的对象是否可疑,而且操控信号a接着可以被选择为使得该对象由显示单元10a用颜色突出呈现。
[0043]
图7示出了如下实施例,在该实施例中,控制系统40被用于控制医学成像系统500、例如mrt仪器、x光仪器或超声仪器。传感器30例如可以通过成像传感器来给出,通过控制系统40来操控显示单元10a。例如,机器学习系统60可以确定由成像传感器所记录的区域是否异常,而且操控信号a接着可以被选择为使得该区域由显示单元10a用颜色突出呈现。
[0044]
图8示意性地示出了用于训练机器学习系统60的训练系统140的实施例。训练数据单元150确定适合的输入信号x,这些适合的输入信号被输送给机器学习系统60。例如,训练数据单元150访问其中存储有训练数据记录的计算机实现的数据库,并且例如从该训练数据记录中随机选择输入信号x。可选地,训练数据单元150也确定被分配给输入信号x的所希
望的或者“实际的”输出信号y
t
,这些输出信号被输送给评估单元180。
[0045]
人工神经网络x被设立为:根据被输送给该人工神经网络的输入信号x来确定所属的输出信号y。这些输出信号y被输送给评估单元180。
[0046]
训练系统140包括第二参数存储器q,在该第二参数存储器中存储有超参数θ
h

[0047]
更改单元160例如利用在图9中图解说明的方法来确定新参数θ'并且将这些新参数输送给参数存储器p,在该参数存储器处,这些新参数替代参数θ。更改单元160例如利用在图9中图解说明的方法来确定新的超参数θ'
h
并且将这些新的超参数输送给第二参数存储器q。
[0048]
评估单元180例如可以借助于取决于输出信号y和所希望的输出信号y
t
的成本函数(英文:loss function(损失函数))来确定特征参量,该特征参量表征了机器学习系统60的性能能力。参数θ可以根据特征参量来被优化。
[0049]
在其它优选的实施方式中,训练系统140包括一个或多个处理器145和至少一个机器可读存储介质146,在该机器可读存储介质上存储有命令,当这些命令在处理器145上被实施时,这些命令促使控制系统140实施按照本发明的方法。
[0050]
图9以流程图示出了按照实施方式的用于确定最佳超参数θ
h
的方法的流程。
[0051]
首先(1000),超参数θ
h
被初始化,例如随机地被初始化或者被初始化到可固定地预先给定的值。紧接着,由训练数据单元150提供正确标记的训练数据x
c = (x
t
,y
t
)的记录。参数θ被设置到可预先给定的初始值,例如这些参数可以被设置到随机选择的值。
[0052]
接着(1100),借助于实数随机数发生器或者伪随机数发生器来产生对输入信号x
t
和所属的输出信号y
t
、即分类的分配的随机置换。根据该随机置换,通过对分类y
t
的置换来确定随机化分类,并且产生不正确地标记的数据记录。
[0053]
替选地,在步骤(1100)中,也可以借助于实数随机数发生器或者伪随机数发生器也通过从可能的类别的集合中随机抽取来产生随机化分类,而且这样产生不正确地标记的数据记录。
[0054]
接着(1200),根据正确标记的训练数据记录x
c
来确定输入信号x=x
t
,将这些输入信号输送给机器学习系统60并且据此来确定输出信号y。为此,针对每个输入信号x,确定函数k维参量f(x)并且将输出信号y确定为f(x)的具有最大值的那个成分。
[0055]
紧接着(1300),在评估单元180中提供输出信号y和被分配给输入信号x的实际的、即所希望的输出信号y
t

[0056]
紧接着(1400),根据所确定的输出信号y和所希望的输出信号y
t
来确定特征参量。接着,借助于优化方法、例如梯度下降法来确定新参数θ',这些新参数对特征参量进行优化,其方式是步骤(1200)和(1300)分别利用新参数θ'必要时多次迭代地被实施,直至确定了最佳的新参数θ'。接着,将这些最佳的新参数存储在第一参数存储器p中。
[0057]
最后(1500),借助于所确定的已针对最佳的新参数θ'得到的k维参量f(x),确定裕度m以及表征裕度m的统计分布的指标、例如为正的那些裕度m的份额。参数θ重新被设置到可预先给定的初始值,例如这些参数可以被设置到随机选择的值。
[0058]
现在,步骤(1200)至(1500)相对应地针对不正确地标记的数据记录x
r
来被重复。
[0059]
为此,首先(1600)根据不正确地标记的训练数据记录x
r
来确定输入信号x=x
t
,将这些输入信号输送给机器学习系统60并且据此来确定输出信号y。为此,针对每个输入信号x,
确定函数k维参量f(x)并且将输出信号y确定为f(x)的具有最大值的那个成分。
[0060]
紧接着(1700),在评估单元180中提供输出信号y和被分配给输入信号x的实际的、即所希望的输出信号。
[0061]
紧接着(1800),根据所确定的输出信号y和所希望的输出信号来确定特征参量。接着,借助于优化方法、例如梯度下降法来确定新参数θ',这些新参数对特征参量进行优化,其方式是步骤(1600)和(1700)分别利用新参数θ'必要时多次迭代地被实施,直至确定了最佳的新参数θ'。
[0062]
最后(1900),借助于所确定的已针对对于不正确地标记的训练数据x
r
来说最佳的新参数θ'得到的k维参量f(x),确定第二裕度m'以及表征第二裕度m'的统计分布的指标、例如为正的那些第二裕度m'的第二份额。
[0063]
现在(2000)检查所确定的份额是否大于第一阈值以及所确定的第二份额是否小于第二阈值。如果情况不是如此,则超参数θ
h
被改变,例如随机地被改变到可预先给定的离散网格上,而且分岔回到步骤(1000)并且该方法利用改变后的超参数θ
h
重新被执行(在这种情况下在步骤(1000)中当然超参数θ
h
并没有重新被初始化)。如果超参数θ
h
的所有可能的值都被检查,则该方法以出错报告来中断。
[0064]
而如果所确定的份额大于第一阈值并且所确定的第二份额小于第二阈值,则将超参数θ
h
的当前值存储在第二参数存储器q中。该方法以此结束。
[0065]
替代于对超参数θ
h
的逐渐改变和评价,也可能的是:首先针对超参数θ
h
的在可预先给定的离散网络上所有可能的值来分别确定所述份额和所述第二份额;并且从超参数θ
h
的所有可能的值中选择对其来说最好地、例如帕累托(pareto)最佳地满足所确定的份额大于第一阈值并且所确定的第二份额小于第二阈值的条件的那些值。
[0066]
图10示出了用于运行机器学习系统60的方法的流程。机器学习系统60接收(2000)输入数据x并且借助于通过参数θ来参数化的函数f来确定所属的输出数据y。可以根据输出数据y来确定操控信号a(2100)。该方法以此结束。
[0067]
应理解的是:这些方法不仅仅可以如所描述的那样完全以软件来实现。这些方法也可以以硬件来实现,或者以软件和硬件的混合形式来实现。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1