本发明涉及模型选择装置、模型选择方法和非临时性计算机可读介质。
背景技术:
1、在专利文献1中记载了“模型45输出推荐控制参数,该推荐控制参数表示为了根据测量数据的输入来提高回报值而推荐的第一种控制内容”。此外,在非专利文献1中记载了一种“fkdpp(factorial kernel dynamic policy programming,阶乘内核动态策略规划)”。
2、现有技术文献
3、专利文献1:日本专利公开公报特开2021-086283
4、非专利文献1:“横河电机和naist面向化学工厂的强化学习”、日经robotics 2019年3月号
技术实现思路
1、在本发明的第一方式中提供一种模型选择装置。所述模型选择装置包括:存储多个候选模型的候选模型存储部,所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成,并且能够输出与设备中的状态对应的行动,所述评价模型输出评价了所述设备的状态的指标;状态数据取得部,取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据;指标取得部,取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标;模型选择部,基于所述多个指标,从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型;以及对象模型输出部,输出所述对象模型。
2、在所述模型选择装置中,可以是所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。
3、在所述模型选择装置中的任意一个中,可以是所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。
4、在所述模型选择装置中的任意一个中,可以是所述统计量包含平均值和最小值中的至少任意一个。
5、在所述模型选择装置中的任意一个中,可以是所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。
6、在所述模型选择装置中的任意一个中,可以是所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。
7、所述模型选择装置中的任意一个也可以还包括根据输出了所述对象模型而接收用户输入的输入部。
8、所述模型选择装置中的任意一个也可以还包括使用所述对象模型对所述控制对象进行控制的控制部。
9、所述模型选择装置中的任意一个也可以还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。
10、所述模型选择装置中的任意一个也可以还包括存储所述评价模型的评价模型存储部。
11、所述模型选择装置中的任意一个也可以还包括通过机器学习生成所述评价模型的评价模型生成部。
12、在本发明的第二方式中提供一种模型选择方法。由计算机执行所述模型选择方法,所述模型选择方法包括:存储多个候选模型,所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成,并且能够输出与设备中的状态对应的行动,所述评价模型输出评价了所述设备的状态的指标;取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据;取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标;基于所述多个指标,从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型;以及输出所述对象模型。
13、在本发明的第三方式中提供一种记录有模型选择程序的非临时性计算机可读介质。计算机通过执行所述模型选择程序而发挥作为候选模型存储部、状态数据取得部、指标取得部、模型选择部和对象模型输出部的功能,所述候选模型存储部存储多个候选模型,所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成,并且能够输出与设备中的状态对应的行动,所述评价模型输出评价了所述设备的状态的指标,所述状态数据取得部取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据,所述指标取得部取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标,所述模型选择部基于所述多个指标,从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型,所述对象模型输出部输出所述对象模型。
14、另外,上述发明的概要没有列举出本发明的所有特征。此外,这些特征组的子组合也可以成为发明。
1.一种模型选择装置,其特征在于包括:
2.根据权利要求1所述的模型选择装置,其特征在于,所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。
3.根据权利要求2所述的模型选择装置,其特征在于,所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。
4.根据权利要求3所述的模型选择装置,其特征在于,所述统计量包含平均值和最小值中的至少任意一个。
5.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。
6.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。
7.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择装置还包括根据输出了所述对象模型而接收用户输入的输入部。
8.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择装置还包括使用所述对象模型对所述控制对象进行控制的控制部。
9.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择装置还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。
10.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择装置还包括存储所述评价模型的评价模型存储部。
11.根据权利要求1至4中任意一项所述的模型选择装置,其特征在于,所述模型选择装置还包括通过机器学习生成所述评价模型的评价模型生成部。
12.一种模型选择方法,其特征在于,
13.一种记录有模型选择程序的非临时性计算机可读介质,其特征在于,