本发明的实施方式涉及航空器控制系统、航空器控制方法、存储装置以及航空器。
背景技术:
1、近年来,进行强化学习的人工智能(ai:artificial intelligence)被用于各种技术领域(例如参照专利文献1和专利文献2)。强化学习是搭载了ai的计算机自身反复进行试错来进行最优控制的机器学习的一种,也应用于进行自动驾驶车的自动驾驶和/或无人航空器(uav:unmanned aerial vehicle)的自动操纵的控制系统(例如参照专利文献3)。
2、现有技术文献
3、专利文献
4、专利文献1:日本特开平11-015807号公报
5、专利文献2:日本特开平11-306216号公报
6、专利文献3:日本特开2019-105891号公报
技术实现思路
1、技术问题
2、在想要利用搭载了ai的控制系统使uav等航空器自动操纵的情况下,需要使控制系统进行复杂的行动判断。即,有时需要进行多个判断来完成整体的行动判断。作为具体例,在对uav赋予了达成任务这一课题的情况下,ai若不在决定了目的地之后就无法决定飞行路径,若不在决定了飞行路径之后就无法决定旋转翼的转速等机体控制量。
3、因此,在想要使ai执行uav等的自动操纵的情况下,正在研究通过课程强化学习而使ai学习的尝试,该课程强化学习将整体的行动判断分为多个局部性的行动判断而阶段性地学习。
4、然而,在ai进行课程强化学习的情况下,由于在学习中针对局部性的行为判断进行学习,所以学习结果也成为局部性的结果。因此,若不完成全部的学习则无法进行整体的评价。其结果是,在下游的学习取得进展后,需要再次返回上游的学习而重新开始学习的可能性高。即,在课程强化学习的情况下,有可能返工率变大。作为具体例,在ai决定了uav到目的地为止的飞行路径之后,旋转翼的转速等机体控制量成为无法实现的条件的情况下,必须再次从目的地的决定开始进行行动判断。
5、除此以外,在ai进行课程强化学习的情况下,需要根据学习的阶段来赋予条件或制作达成基准,因此有可能使ai的开发规模变大。
6、因此,本发明的目的在于,在利用搭载了ai的控制系统来辅助uav等航空器的操纵的情况下,能够使ai以更短时间对决策所需要的事项进行强化学习。
7、技术方案
8、本发明的实施方式的航空器控制系统具有:规则设定部,其基于为了使航空器飞行而在先进行的第一决策的结果来设定用于进行在后进行的第二决策的规则;强化学习部,其通过进行以第一学习案例为对象的第一强化学习而学习到用于进行所述第一决策的第一学习结果,另一方面,通过进行以与所述第一学习案例不同的第二学习案例为对象的第二强化学习而学习到用于进行所述第二决策的第二学习结果;评价部,其评价所述第一决策的结果和所述第二决策的结果;以及操纵信息生成部,其基于所述第一学习结果和所述第二学习结果来生成用于辅助所述航空器的操纵的信息,所述评价部构成为,一方面,在所述第一强化学习中没有获得过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述规则的所述第二决策的结果来确定所述第一学习结果,另一方面,在所述第一强化学习中获得了过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述过去的第二学习结果的所述第二决策的结果来确定所述第一学习结果。
9、另外,本发明的实施方式的航空器具备上述的航空器控制系统。
10、另外,本发明的实施方式的航空器控制方法具有:基于为了使航空器飞行而在先进行的第一决策的结果来设定用于进行在后进行的第二决策的规则的步骤;通过进行以第一学习案例为对象的第一强化学习而学习到用于进行所述第一决策的第一学习结果,另一方面,通过进行以与所述第一学习案例不同的第二学习案例为对象的第二强化学习而学习到用于进行所述第二决策的第二学习结果的步骤;评价所述第一决策的结果和所述第二决策的结果的步骤;以及基于所述第一学习结果和所述第二学习结果来生成用于辅助所述航空器的操纵的信息的结果的步骤,一方面,在所述第一强化学习中没有获得过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述规则的所述第二决策的结果来确定所述第一学习结果,另一方面,在所述第一强化学习中获得了过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述过去的第二学习结果的所述第二决策的结果来确定所述第一学习结果。
11、另外,本发明的实施方式的存储装置存储有航空器控制程序,所述航空器控制程序使计算机执行如下步骤:基于为了使航空器飞行而在先进行的第一决策的结果来设定用于进行在后进行的第二决策的规则的步骤;通过进行以第一学习案例为对象的第一强化学习而学习到用于进行所述第一决策的第一学习结果,另一方面,通过进行以与所述第一学习案例不同的第二学习案例为对象的第二强化学习而学习到用于进行所述第二决策的第二学习结果的步骤;评价所述第一决策的结果和所述第二决策的结果的步骤;以及基于所述第一学习结果和所述第二学习结果来生成用于辅助所述航空器的操纵的信息的结果的步骤,一方面,在所述第一强化学习中没有获得过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述规则的所述第二决策的结果来确定所述第一学习结果,另一方面,在所述第一强化学习中获得了过去的所述第二学习结果的情况下,通过评价所述第一强化学习中的所述第一决策的结果与基于所述过去的第二学习结果的所述第二决策的结果来确定所述第一学习结果。
1.一种航空器控制系统,其特征在于,具有:
2.根据权利要求1所述的航空器控制系统,其特征在于,
3.一种航空器,其特征在于,
4.一种航空器控制方法,其特征在于,具有:
5.一种存储装置,其特征在于,存储有航空器控制程序,所述航空器控制程序使计算机执行如下步骤: