自主自学习系统

文档序号：27611858发布日期：2021-11-27 04:05阅读：187来源：国知局

1.本发明涉及自动的自主工作系统领域。本发明特别是涉及一种借助实现人工神经网络的智能体控制技术系统的方法。

背景技术：

2.现有技术中已揭露过所谓的深度神经网络。
3.在此，对于本发明而言尤为重要的人工神经网络领域中的技术是所谓的循环神经网络(反馈型神经网络)和所谓的强化学习(增强学习或增强式学习)。两者都适用于对用于控制技术系统的智能体进行建模。
4.循环神经网络是一种能够将一般自动装置表现为可学习系统的技术。就此而言的示例在图1和图2中作为简化框图示出。
5.图1示出由现有技术已知的循环神经网络。此循环神经网络具有输入x、状态h
t
和输出y。将输入x和当前状态h
t
共同转变为新状态h
t+1
，即由输入x和当前状态h
t
生成神经网络的新状态h
t+1
。然后由这个新状态h
t+1
生成输出y。
6.图1和图2中用虚线箭头示出的转变是可学习的。其中，每个箭头都是通用函数逼近器。在最简单的情况下，这些函数逼近器可以由具有隐藏层的全连接网络构成。也可以使用更深度的所谓的前馈模型。为此，需要训练网络。
7.就训练而言，必须已知包括输入向量x和参考向量y*的对。这样就能进行所谓的监督训练，为此可以使用不同的优化或训练方法，例如所谓的梯度下降法或所谓的模拟退火法。也可以使用其他优化或训练方法。
8.图2示出现有技术中已揭露的针对循环神经网络的替代方案，即所谓的长短期记忆网络(lstm)。这些长短期记忆网络还具有内存储器c
t
。设置这种内存储器c
t
还可以对长期相关性进行建模。
9.更复杂的存储器访问也可以借助人工神经网络来实现。就此而言的一个示例是所谓的记忆增强神经网络或神经图灵机。
10.强化学习能够实现对自动式系统的训练，这些系统试图获得最大的未来奖励。这些系统试图尽可能好地解决给定的问题。
11.现有技术中已揭露的人工神经网络的缺点在于，无论使用何种训练方法，训练神经网络的一个重要前提是必须精确地表述问题并且必须精确地预设目标变量，即奖励。这样例如就能解决诸如象棋或围棋之类的游戏，其中可以精确地表述问题并且可以精确地预设目标变量。
12.另外，现有技术中已揭露的方法的一个基本问题在于，或是对于训练而言，参考y*是必不可少的，或是必须对整个世界包括所有游戏规则和公理进行建模以进行训练。
13.现有技术中未揭露过基于人工神经网络的通用问题解算机，其自学规则，即问题描述和解决方案，进而可以解决新的、未知的问题。

技术实现要素：

14.因此，本发明的目的是提供能够用来控制技术系统而无需对所述技术系统的环境进行建模的解决方案。
15.本发明用以达成上述目的的解决方案在于根据独立权利要求所述的一种借助第一智能体控制技术系统的方法。本发明的有利技术方案和改进方案在从属权利要求中给出。
16.因此，提供一种借助第一智能体控制技术系统的方法，其中所述第一智能体实现第一人工神经网络，其中将所述第一神经网络的第一输入向量和所述第一神经网络的当前状态共同转变为所述第一神经网络的新状态，其中由所述第一神经网络的新状态生成所述第一神经网络的第一输出向量，且其中
17.‑
将所述第一神经网络的第一输出向量馈送至第二人工神经网络作为所述第二神经网络的第一输入向量，其中由第二智能体来实现所述第二神经网络，
18.‑
将所述第二神经网络的第一输入向量和所述第二神经网络的当前状态共同转变为所述第二神经网络的新状态，
19.‑
由所述第二神经网络的新状态生成所述第二神经网络的第一输出向量，其中所述第二神经网络的第一输出向量表示所述第二神经网络对所述第二神经网络的第一输入向量的预期反应，以及
20.‑
将所述第二神经网络的第一输出向量与所述第一神经网络的第一输入向量进行对比，以便训练所述第一神经网络。
21.借此，整个系统可以完全自主地学习其周围环境。
22.可以借助第一智能体进行控制的技术系统例如可以是机器人或自动驾驶车辆。
23.第二智能体可以实现第三人工神经网络，其中
24.‑
将所述第二神经网络的第一输出向量馈送至第三神经网络作为所述第三神经网络的第一输入向量，
25.‑
将所述第二神经网络的第二输出向量馈送至所述第三神经网络作为所述第三神经网络的第二输入向量，其中所述第二神经网络的第二输出向量表示所述第二神经网络的新状态的预期情绪，
26.‑
将所述第三神经网络的第一输入向量、第二输入向量和当前状态共同转变为所述第三神经网络的新状态，
27.‑
由所述第三神经网络的新状态生成所述第三神经网络的第二输出向量，其中所述第三神经网络的第二输出向量表示所述第三神经网络的新状态的预期情绪，以及
28.‑
由所述第三神经网络的新状态生成所述第三神经网络的第一输出向量，将所述第一输出向量馈送至第二神经网络作为所述第二神经网络的另一输入向量。
29.有利的是，为了训练第三神经网络，将第三神经网络的第二输出向量与第三参考进行对比，其中第三神经网络的第二输出向量与第三参考的对比包括距离函数、优选欧几里得距离的计算，且其中第三参考表示第三神经网络的第二输出向量的理想状态，进而表示第三神经网络的新状态的预期情绪的理想状态。
30.此外，有利的是，将第一神经网络与第三神经网络彼此耦合，特别是将第一神经网络的新状态与第三神经网络的当前状态彼此耦合，以便基于第一神经网络对第三神经网络
进行训练或者基于第三神经网络对第一神经网络进行训练。
31.经证实是有利的是，
32.‑
将第二输入向量馈送至所述第一神经网络，
33.‑
将所述第一神经网络的第二输入向量、第一输入向量和当前状态共同转变为所述第一神经网络的新状态，其中所述第一神经网络的第二输入向量表示一个情绪，以及
34.‑
除了所述第一神经网络的第一输出向量之外，还由所述第一神经网络的新状态生成所述第一神经网络的第二输出向量，其中所述第一神经网络的第二输出向量表示所述第一神经网络的新状态的预期情绪。
35.借此，可以将情绪，例如疼痛(类似于碰撞)、饥饿(类似于电池的电量)或喜悦(类似于实现目标，例如解决某个问题)，用于训练整个系统或第一神经网络。
36.为了训练第一神经网络，将第一神经网络的第二输出向量与第二参考进行对比，其中第一神经网络的第二输出向量与第二参考的对比包括距离函数、优选欧几里得距离的计算，且其中第二参考表示第一神经网络的第二输出向量的理想状态，进而表示第一神经网络的新状态的预期情绪的理想状态。
37.有利的是，
38.‑
将第一神经网络的第二输出向量与第一神经网络的第二输入向量进行对比，和/或
39.‑
由第一神经网络的新状态和第一神经网络的第一输出向量生成第一神经网络的第二输出向量。
40.此外，经证实是有利的是，
41.‑
由所述第二神经网络的新状态生成所述第二神经网络的第二输出向量，以及
42.‑
将所述第二神经网络的第二输出向量与所述第一神经网络的第二输入向量进行对比，以便训练所述第一神经网络。
附图说明
43.本发明的细节和特征以及本发明的具体的、特别是有利的实施例参见结合附图的以下描述。其中：
44.图1为现有技术中已揭露的作为循环神经网络的人工神经网络；
45.图2为现有技术中已揭露的作为长短期记忆网络的另一人工神经网络；
46.图3为作为图1所示人工神经网络的扩展的根据本发明的系统；
47.图4为作为图2所示人工神经网络的扩展的根据本发明的系统；
48.图5为作为图1所示人工神经网络的扩展的根据本发明的系统；
49.图6为图5所示系统的根据本发明的扩展；
50.图7为图6所示系统的根据本发明的扩展；
51.图8为图7所示系统的根据本发明的扩展；以及
52.图9为图8所示系统的根据本发明的扩展。
具体实施方式
53.以下所述神经网络都是指人工神经网络。
54.借助本发明可以提供用于控制技术系统的自主自学习智能体。这些智能体以及相应的受控技术系统不仅可以自主工作，而且还可以自适应且自主地适应新环境。用途例如是机器人、自动驾驶、航天或医疗应用。例如可以将机器人用于不同环境，其中机器人可以在环境改变后自主学习新环境，进而可以使其行为适配新环境。
55.根据本发明，为了实现上述目的，提出两个针对现有技术的重要扩展。
56.‑
第一扩展涉及引入神经网络(在下文中称为第一神经网络nn1)的本征参考，即第一神经网络nn1的自我意象。该本征参考在下文中被称为情绪。
57.‑
第二扩展涉及在使用另一神经网络(在下文中称为第二神经网络nn2)的情况下学习作为整个系统的一部分的世界模型。该世界模型在下文中也被称为世界观。
58.可以将两个扩展相互组合。
59.图3示出图1所示结合情绪的循环神经网络nn1的根据本发明的扩展。神经网络nn1(第一神经网络)由第一智能体s实现。智能体s在下文中也被称为自我。
60.在现有技术中，将第一神经网络nn1的第一输入向量x和第一神经网络nn1的当前状态h
t
共同转变为第一神经网络nn1的新状态h
t+1
。然后由第一神经网络nn1的新状态h
t+1
生成第一神经网络nn1的第一输出向量y。在此情况下，为了训练第一神经网络nn1，可以例如使用距离函数、优选欧几里得距离函数将第一输出向量y与第一参考y*或第一参考向量进行对比。
61.除了由现有技术已知的第一输入向量x之外，还将第二输入向量e馈送至第一神经网络nn1。在此，第一神经网络nn1的第二输入向量e表示自我或第一神经网络nn1或第一智能体s的情绪。
62.因为x和e都是向量，所以可以借助两个输入向量x、e对任意数量的标量输入和情绪进行建模。因此，系统的当前情绪可以包含多个变量，例如疼痛(例如当机器人发生碰撞时)、饥饿(例如当蓄电池电量不足时)或喜悦(例如待控制的技术系统解决任务时的奖励)。
63.此外，除了由现有技术已知的第一输出向量y之外，还产生第二输出向量e'。第二输出向量e'表示自我或第一神经网络nn1或第一智能体s的下一状态h
t+1
的预期情绪。
64.根据本发明产生第二输出向量e'，具体方式在于，将第一神经网络nn1的第二输入向量e、第一输入向量x和当前状态h
t
共同转变为第一神经网络nn1的新状态h
t+1
。与由现有技术已知的神经网络不同，由如此产生的新状态h
t+1
产生第一输出向量y，即将第二输入向量e考虑在内。同样由如此产生的新状态h
t+1
生成第一神经网络nn1的第二输出向量e'。
65.在此情况下，为了训练第一神经网络nn1，可以例如使用距离函数、优选欧几里得距离函数将预期情绪或第二输出向量e'与第二参考e*或第二参考向量进行对比。在此，第二参考e*表示第一神经网络nn1的第二输出向量e'的理想状态，进而表示第一神经网络nn1的新状态h
t+1
的预期情绪的理想状态。
66.任何适用的距离函数都可以用于e'与e*之间或y与y*之间的对比。
67.例如，预期情绪的理想状态可以是0(表示不存在)或1(表示存在)，其中也可以采用0至1之间的值。
68.结合图3所示根据本发明的扩展，这个系统能够对借助虚线箭头导引至第二输出向量e'的所有可学习的参数进行训练。就训练本身而言，也可以采用既优化当前情绪又以类似于所谓的强化学习的方法将未来预期情绪考虑在内的方法。
69.然而，针对输出向量y的虚线箭头无法单独借助情绪进行训练，因此，必须使用第一参考y*或第一参考向量进行此训练。
70.图4示出图2中所示结合情绪的长短期记忆网络的根据本发明的扩展。除了所基于的神经网络之外，图4所示实施例与图3所示实施例相对应。
71.但也可以将图3和图4所示扩展用于其他类型的神经网络。
72.针对情绪训练，即针对从新状态h
t+1
导引至第二输出向量e'的连接的训练，就图3和图4所示扩展而言，可以采用两个另外的替代方案，但也可以结合基于第二参考e*的训练来使用这两个替代方案：
73.1)不仅将第二输出向量e'(输出情感)与第二参考e*进行对比，还将其与第二输入向量e进行对比。这样就能确保第二输出向量e'实际上与第二输入向量e相匹配，即与输入情感相匹配。
74.2)由第一神经网络nn1的新状态h
t+1
，在将第一输出向量y考虑在内的情况下推导出第二输出向量e'(输出情感)，即由新状态h
t+1
和第一输出向量y推导出第二输出向量e'。这样就能完全通过情绪来训练网络中的所有参数。
75.也可以将这两个替代方案组合在一起。
76.此外，可以将这两个替代方案应用于图6至图9所示根据本发明的神经网络的扩展。
77.图5示出作为图1所示人工神经网络的扩展的根据本发明的系统。
78.借助图5所示扩展可以省去用于训练第一输出向量y的理想参考，即省去第一参考y*。在现有技术中，对于训练神经网络nn1而言，精确预设的目标变量是绝对必要的，而就图5所示扩展而言，则不再需要这种目标变量。
79.在图5所示扩展中，除了第一神经网络nn1之外，还设有第二神经网络nn2。将第一神经网络nn1与第二神经网络nn2耦合，其中将第一神经网络nn1的第一输出向量y馈送至第二神经网络nn2作为第二神经网络nn2的第一输入向量y。
80.在此，第二神经网络nn2由第二智能体w来实现。第二智能体w在下文中也被称为世界观，因为借助第二神经网络nn2可以学习作为整个系统的一部分的世界模型。也就是说，借助第二神经网络nn2对世界的行为进行建模，例如对机器人所在的环境进行建模。第二神经网络nn2例如可以是循环神经网络，尽管也可以使用任何其他类型的神经网络。
81.第二神经网络nn2基于第一输入向量y(＝第一神经网络nn1的第一输出向量y)生成第二智能体w或世界观对第二神经网络nn2的第一输入向量y的预期响应。该预期响应可用作第二神经网络nn2的第一输出向量x'。为了生成第二神经网络nn2的第一输出向量x'，将第二神经网络nn2的第一输入向量y和第二神经网络nn2的当前状态w
t
共同转变为第二神经网络nn2的新状态w
t+1
。然后由第二神经网络nn2的新状态w
t+1
生成第二神经网络nn2的第一输出向量x'。
82.将第二神经网络nn2的第一输出向量x'与第一神经网络nn1的第一输入向量x进行对比，以便训练第一神经网络nn1。也就是说，根据第二神经网络nn2的行为或第二神经网络nn2的第一输出向量x'对第一神经网络nn1进行训练。
83.可以结合实际输出和所生成的期望或第二神经网络nn2的第一输出向量x'对图5所示整个系统进行全面训练，从而可以评估所有可学习的参数。
84.图6示出图5所示系统的根据本发明的扩展，其中图6所示系统是图3和图5所示系统的组合。
85.在此，一方面可以通过情绪(第一神经网络nn1的第二输入向量e或第一神经网络nn1的第二输出向量e')对实际的控制系统，即用来控制技术系统(例如机器人)的智能体s，进行控制或训练。由此确保第一神经网络nn1或第一智能体s遵循尽可能理想的状态。
86.另一方面，通过世界观(即通过第二神经网络nn2或通过第二智能体w)将第一神经网络nn1的输出(即第一神经网络nn1的第一输出向量y)与第一神经网络nn1的输入(即与第一神经网络nn1的第一输入向量x)进行对比，因为世界观可以产生一个预期的输入(即第二神经网络nn2的第一输出向量x')，其中借助第二神经网络nn2的第一输出向量x'对第一神经网络nn1的第一输入向量x进行训练。这样就能在没有参考的情况下进行训练。
87.因此，系统或第一智能体s能够完全在没有注释数据的情况下进行训练并且只需要将状态标识为理想或不理想的激励。可以通过注释，例如诸如碰撞之类的极端事件或易于检测的参数(例如下降的能级)，对这些激励进行编码。
88.上述两种用于情绪训练的变型也可以用于图6所示系统。
89.图7示出图6所示系统的根据本发明的扩展。
90.在此情况下，除了第二神经网络nn2的第一输出向量x'之外，还生成第二神经网络nn2的第二输出向量e”。在此，由第二神经网络nn2的新状态w
t+1
推导出第二神经网络nn2的第二输出向量e”。在此情况下，第二神经网络nn2的第二输出向量e”表示第二神经网络nn2的新状态w
t+1
的预期情绪。
91.预期情绪例如可能由世界上的另一参与者(即对方)的行动而引起。如果例如使对方大笑，则也可以预料到积极的反应，或者，如果例如一个机器人与另一机器人发生碰撞，则可以预料到另一机器人的报警信号。也可以将这些预期情绪或第二神经网络nn2的第二输出向量e”与第一神经网络nn1的第二输入向量e进行对比，这样也能对第一神经网络nn1进行训练。
92.从所谓的多任务学习的意义上来说，借助第二神经网络nn2的第二输出向量e”对第一神经网络nn1的训练可以有助于稳定第一神经网络nn1的整个训练。基于第一神经网络nn1通过第二智能体w或第二神经网络nn2的连接，可以对抽象影响，例如第一神经网络nn1的输出y对世界观的影响、由此引起的世界观的状态变化以及由此产生的对自我或第一神经网络nn1的情绪反馈，进行建模。
93.图8示出图7所示系统的根据本发明的扩展。
94.根据图8所示扩展，第二智能体w实现第三神经网络nn3，因此，借助第二智能体w或第二神经网络nn2不仅可以对世界观的状态进行编码，还可以对世界观的自我意象的模型进行评估。
95.将第二神经网络nn2的第一输出向量x'馈送至第三神经网络nn3作为第三神经网络nn3的第一输入向量x'。此外，将第二神经网络nn2的第二输出向量e”馈送至第三神经网络nn3作为第三神经网络nn3的第二输入向量e”。如上所述，第二神经网络nn2的第二输出向量e”表示第二神经网络nn2的新状态w
t+1
的预期情绪。在此，由第二神经网络nn2的新状态w
t+1
生成第二神经网络nn2的第二输出向量e”。
96.共同使用第三神经网络nn3的第一输入向量x'、第二输入向量e”和当前状态h'
t
，
以便将第三神经网络nn3转变成新状态h'
t+1
。
97.由第三神经网络nn3的新状态h'
t+1
生成第三神经网络nn3的第一输出向量y'，将这个第一输出向量馈送至第二神经网络nn2作为第二神经网络nn2的另一输入向量。借助两个神经网络nn3和nn2通过第三神经网络nn3的第一输出向量y'的连接，将第二智能体w的世界观与自我意象耦合。这样一来，在没有第一神经网络nn1的情况下，这两个神经网络nn3和nn2也能够模拟交互。
98.此外，由第三神经网络nn3的新状态h'
t+1
生成第三神经网络nn3的第二输出向量e”'。在此，第三神经网络nn3的第二输出向量e”'表示第三神经网络nn3的新状态h'
t+1
的预期情绪。
99.为了训练第三神经网络nn3，将第三神经网络nn3的第二输出向量e”'与第三参考e**进行对比。在此，第三神经网络nn3的第二输出向量e”'与第三参考e**的对比还可以包括距离函数的计算，例如上述距离函数中的一个。在此情况下，第三参考e**表示第三神经网络nn3的第二输出向量e”'的理想状态，进而表示第三神经网络nn3的新状态h'
t+1
的预期情绪的理想状态。
100.此外，可以将第一神经网络nn1与第三神经网络nn3彼此耦合，具体方式例如在于，将第一神经网络nn1的新状态h
t+1
与第三神经网络nn3的当前状态h'
t
彼此耦合。该耦合在图8(和图9)中通过箭头p标示。这样就能有利地基于第一神经网络nn1对第三神经网络nn3进行训练或者基于第三神经网络nn3对第一神经网络nn1进行训练。
101.自我意象或第三神经网络nn3不生成任何可以用作第二智能体w的输出或输出向量的输出或输出向量。但可以将自我意象或第三神经网络nn3用于结合第三神经网络nn3的第一输出向量y'(在第二智能体w外部无法使用)，基于自我意象的变化来研究世界观的变化。
102.借助耦合p还可以在两个不同的状态下操作整个系统，这两个状态在此称为清醒阶段和做梦阶段。
103.在清醒阶段，第一智能体s或第一神经网络nn1与第二智能体w或第三神经网络nn3耦合(箭头p)。自我意象或第三神经网络nn3从第一神经网络nn1的每个行动中学习这个行动如何改变自身状态以及世界观或第二智能体w的状态。
104.在做梦阶段，第一智能体s或第一神经网络nn1与第二智能体w或第三神经网络nn3解耦(无箭头p)。在解耦状态下，不会将第一神经网络nn1的第一输出向量y导引至第二神经网络nn2。在该状态下，自我意象或第三神经网络nn3可以在第二智能体w内自由行动。
105.世界观或第二神经网络nn2可以生成预期输入(第三神经网络nn3的第一输入向量x')和预期情绪(第三神经网络nn3的第二输入向量e”)并且第三神经网络nn3可以生成其他输入(第二神经网络nn2的另一输入向量y')，因此，世界观或第二神经网络nn2以及自我意象或第三神经网络nn3可以完全自由地交替行动。
106.尽管如此，仍然可以对第一智能体s或第一神经网络nn1进行训练，因为自我或第一神经网络nn1的新状态h
t+1
仍然生成第一神经网络nn1的第二输出向量e'，可以将这个第二输出向量与第二(理想的)参考e*进行对比。
107.因此，做梦可用于产生自我意象或第三神经网络nn3与预期世界观的有所改善的交互。
108.在替代性变型方案中，这些内部状态不会耦合，而是第一神经网络nn1和第三神经网络nn3中的学习连接(箭头)会耦合。这样就产生一个配置，其中训练(第三神经网络nn3的)自我意象也会引起(第一神经网络nn1的)实际自我的改善。作为替代方案，在将自我与输入和输出解耦时，自我和自我意象可以交换角色。这表明，代替通过距离函数松散地对两个网络进行训练，两个网络可以使用相同的存储器来存储权重。因此，对于第一神经网络nn1和第三神经网络nn3的参数而言，这两个网络始终采用相同的值。
109.图9示出图8所示系统的根据本发明的扩展。根据图9所示扩展，可以将图8所示整个系统与扩展功能耦合。这些扩展功能例如可以是能够存储和加载第二神经网络nn2的状态和/或第三神经网络nn3的状态的扩展存储器(设计为存储设备)。仅示例性列出的其他扩展可以是：
110.‑
可以将第二神经网络nn2的状态和/或第三神经网络nn3的状态转换成单词和字母的符号序列的语言处理器；
111.‑
扩展输入功能，例如视觉和听觉皮层；
112.‑
可以生成人类语音的语音合成模块；
113.‑
可以建模和执行复杂的运动计划的触觉和运动规划模块；
114.‑
用于加载和存储图形的模块，其能够将世界和自我意象的不同状态相互链接、对这些状态进行处理、存储和加载(关联存储器)；
115.‑
用于处理和分析命题逻辑和算术的模块；
116.‑
能够识别复杂的社会行为并将其映射到感觉上的扩展感觉功能。
117.此外，可以设有能够与第二神经网络nn1的状态和第三神经网络nn3的状态交互的任何其他模块。
118.可以借助本发明进行控制的技术系统的一个示例是独立完成任务并逐渐探测其周围环境的火星探测器。
119.在此情况下，第一神经网络nn1的第二输入向量e例如可以表示重要参数(蓄电池的电量、轴的功能等，其中这些参数可以由适当的传感器来提供)。但是，第一神经网络nn1的第二输入向量e也可以表示或描述目标，例如探测其周围环境的冲动(好奇心)或处理所分配的任务(忠诚度)，其中图9中所示的扩展功能可以用于该目的。
120.这些扩展功能可以直接在自我意象或第三神经网络nn3中引起第二智能体w的状态变化。例如，如果工作列表尚未完成，则第二智能体w的状态发生变化，使得引起情绪e'(通过第一神经网络nn1的第二输出向量表示)，进而又使第一智能体s激起处理列表的欲望。为此，可能需要其他扩展功能。例如可以设有任务规划器作为使第一智能体s能够处理一系列行动的扩展功能。
121.设置扩展功能能够模块化地扩展第一智能体s的功能范围。特别是还可以设置仅在需要时才会被训练的自由功能。
122.类似地实现对火星探测器的周围环境的探测，即世界观的学习。在此，可以提供用于制图(例如借助即时定位与地图构建(slam)，其中同时对地图和火星探测器的位置进行评估)的扩展功能。可以由适用的传感器，例如超声波传感器或激光雷达，来提供与此相关的信息。另一模块可以检查地图的缺漏和错误。如果发现这类缺漏或错误，则可以改变自我意象或第三神经网络nn3的状态，从而产生相应的情绪e'(通过第一神经网络nn1的第二输
出向量表示)。因此，系统或第一智能体s试图离开该状态并消除地图中的错误和/或缺漏。这一点也可以通过任务规划器来实现。
123.就这些扩展功能而言，可以使用预先训练的神经网络或者也可以直接使用算法，如果这些算法是基于可微分式编程而实现的话。这样就能有利地将神经网络与编程混合，从而显著加速神经网络的开发和训练。
124.根据本发明的方法首次提供一种整体解决方案，其可以通过情绪和与世界的交互以类似于人类感知过程的方式进行训练。为此，无需如现有技术中所需要的那样预设固定的世界观。
125.而是，世界观是要自主自学习的。纯粹通过情绪，通过弱标签来学习需要的行为。根据根据本发明的方法，智能体s可以完全自主地以自学习的方式行动。根据图8所示改进方案，甚至对世界中的或世界观的自我意象进行建模，借此可以对世界观进行训练。图8所示系统可以在清醒和睡眠阶段自行学习，而无需与真实世界进行交互。
126.此外，在图8所示系统中，例如可以重新发现许多神经解剖学和神经病理学观察：
127.‑
关断自我或第一智能体s将使整个系统处于只能与自身交互的状态。该状态在神经病理学中被描述为闭锁综合征。
128.‑
可以完全关断完全意识。这一点可以通过移除世界观来实现。整个系统仍然可以行动，但其将不再能够创建复杂的计划，因为这需要世界观。这相当于神经病理学中所观察到的所谓的自动症。梦游的状态也会引起类似的现象。
129.‑
移除区块e'(第一神经网络nn1的第二输出向量)类似于限制大脑的杏仁核。在此，整个系统无法再正确地处理情绪。就自闭症而言，也存在类似的限制。
130.‑
图9所示扩展功能的限制也可以被映射到相应的神经病理学现象上。这些现象例如包括遗忘症、皮质性聋或皮质性盲。
131.‑
可以通过错误地创建多个自我意象而生成多重人格。
132.‑
难以解释的正常神经过程，例如自我和自我意象的交互(其也许会引起意识的感觉)，可以如下方式理解：如果自我实际上经历了自我意象在梦中已经经历过的情形，则会产生既视感。
133.‑
这个系统也有利于理解感受性问题。
134.每个系统都可能具有不同的自我意象和世界观。因此，相同的图像(例如红色的感知)是可能的，但完全相同的可能性极小。因此，本发明也可以用于对这类现象的客观研究。
135.总而言之，借助本发明可以以先前未知的详细程度映射人类意识。此外，第一智能体s能够适应全新的环境，因为可以完全重新对世界观和自我意象进行学习和适应。借此，这个系统不仅能够学习和适应世界的变化，而且能够观察和考虑到自我的变化。使用这个系统无需任何训练数据。仅自身基于情绪的反馈就足以适应复杂的新情况。
136.附图标记表
137.e
ꢀꢀꢀꢀꢀ
第一神经网络nn1的第二输入向量
138.e'
ꢀꢀꢀꢀ
第一神经网络nn1的第二输出向量
139.e
”ꢀꢀꢀ
第二神经网络nn2的第二输出向量或第三神经网络nn3的第二输入向量
140.e”'
ꢀꢀ
第三神经网络nn3的第二输出向量
141.e*
ꢀꢀꢀꢀ
第二参考
142.e**
ꢀꢀꢀ
第三参考
143.h
t
ꢀꢀꢀꢀ
第一神经网络nn1的当前状态
144.h'
t
ꢀꢀꢀ
第三神经网络nn3的当前状态
145.h
t+1
ꢀꢀ
第一神经网络nn1的新状态
146.h'
t+1 第三神经网络nn3的新状态
147.nn1
ꢀꢀꢀ
第一人工神经网络
148.nn2
ꢀꢀꢀ
第二人工神经网络
149.nn3
ꢀꢀꢀ
第三人工神经网络
150.p
ꢀꢀꢀꢀꢀ
耦合/箭头
151.s
ꢀꢀꢀꢀꢀ
第一智能体(也称为“自我”)
152.t
ꢀꢀꢀꢀꢀ
训练
153.w
ꢀꢀꢀꢀꢀ
第二智能体(也称为“世界观”)
154.w
t
ꢀꢀꢀꢀ
第二神经网络nn2的当前状态
155.w
t+1
ꢀꢀ
第二神经网络nn2的新状态
156.x
ꢀꢀꢀꢀꢀ
第一神经网络nn1的第一输入向量
157.x'
ꢀꢀꢀꢀ
第二神经网络nn2的第一输出向量或第三神经网络nn3的第一输入向量
158.y
ꢀꢀꢀꢀꢀ
第一神经网络nn1的第一输出向量
159.y'
ꢀꢀꢀꢀ
第三神经网络nn3的第一输出向量或第二神经网络nn2的另一输入向量
160.y*
ꢀꢀꢀꢀ
第一参考

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A
技术所有人：弗里德里希-亚历山大埃尔朗根-纽伦堡大学
我是此专利的发明人

上一篇：包括抗微生物颗粒的涂层、其制备方法和其用途与流程
上一篇：用活性炭制备脱色乙酰乙酰化甘油的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。