模型选择装置、模型选择方法和非临时性计算机可读介质与流程

文档序号：36238392发布日期：2023-12-01 21:41阅读：21来源：国知局

本发明涉及模型选择装置、模型选择方法和非临时性计算机可读介质。

背景技术：

1、在专利文献1中记载了“模型45输出推荐控制参数，该推荐控制参数表示为了根据测量数据的输入来提高回报值而推荐的第一种控制内容”。此外，在非专利文献1中记载了一种“fkdpp(factorial kernel dynamic policy programming，阶乘内核动态策略规划)”。

2、现有技术文献

3、专利文献1：日本专利公开公报特开2021-086283

4、非专利文献1：“横河电机和naist面向化学工厂的强化学习”、日经robotics 2019年3月号

技术实现思路

1、在本发明的第一方式中提供一种模型选择装置。所述模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。

2、在所述模型选择装置中，可以是所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。

3、在所述模型选择装置中的任意一个中，可以是所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。

4、在所述模型选择装置中的任意一个中，可以是所述统计量包含平均值和最小值中的至少任意一个。

5、在所述模型选择装置中的任意一个中，可以是所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。

6、在所述模型选择装置中的任意一个中，可以是所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。

7、所述模型选择装置中的任意一个也可以还包括根据输出了所述对象模型而接收用户输入的输入部。

8、所述模型选择装置中的任意一个也可以还包括使用所述对象模型对所述控制对象进行控制的控制部。

9、所述模型选择装置中的任意一个也可以还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。

10、所述模型选择装置中的任意一个也可以还包括存储所述评价模型的评价模型存储部。

11、所述模型选择装置中的任意一个也可以还包括通过机器学习生成所述评价模型的评价模型生成部。

12、在本发明的第二方式中提供一种模型选择方法。由计算机执行所述模型选择方法，所述模型选择方法包括：存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标；取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及输出所述对象模型。

13、在本发明的第三方式中提供一种记录有模型选择程序的非临时性计算机可读介质。计算机通过执行所述模型选择程序而发挥作为候选模型存储部、状态数据取得部、指标取得部、模型选择部和对象模型输出部的功能，所述候选模型存储部存储多个候选模型，所述多个候选模型分别通过将评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与设备中的状态对应的行动，所述评价模型输出评价了所述设备的状态的指标，所述状态数据取得部取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据，所述指标取得部取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标，所述模型选择部基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型，所述对象模型输出部输出所述对象模型。

14、另外，上述发明的概要没有列举出本发明的所有特征。此外，这些特征组的子组合也可以成为发明。

技术特征：

1.一种模型选择装置，其特征在于包括：

2.根据权利要求1所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了所述指标达到最高的行动的候选模型作为所述对象模型。

3.根据权利要求2所述的模型选择装置，其特征在于，所述模型选择部选择所述多个候选模型中的输出了多个时间点的所述指标的统计量达到最高的行动的候选模型作为所述对象模型。

4.根据权利要求3所述的模型选择装置，其特征在于，所述统计量包含平均值和最小值中的至少任意一个。

5.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据所述评价模型被更新而重新选择所述对象模型。

6.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择部根据经过了预先确定的时间而重新选择所述对象模型。

7.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括根据输出了所述对象模型而接收用户输入的输入部。

8.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括使用所述对象模型对所述控制对象进行控制的控制部。

9.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括通过所述强化学习生成成为所述多个候选模型的多个作业模型的作业模型生成部。

10.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括存储所述评价模型的评价模型存储部。

11.根据权利要求1至4中任意一项所述的模型选择装置，其特征在于，所述模型选择装置还包括通过机器学习生成所述评价模型的评价模型生成部。

12.一种模型选择方法，其特征在于，

13.一种记录有模型选择程序的非临时性计算机可读介质，其特征在于，

技术总结
本发明提供模型选择装置、模型选择方法和非临时性计算机可读介质，模型选择装置包括：存储多个候选模型的候选模型存储部，所述多个候选模型分别通过将输出评价了设备的状态的指标的评价模型的输出作为回报的至少一部分的强化学习而生成，并且能够输出与所述设备中的状态对应的行动；状态数据取得部，取得将基于所述多个候选模型的输出的各个操作量提供给所述设备中的控制对象时的表示所述设备的状态的多个状态数据；指标取得部，取得所述评价模型根据输入了所述多个状态数据的每一个而输出的多个指标；模型选择部，基于所述多个指标，从所述多个候选模型中选择用于对所述控制对象进行控制的对象模型；以及对象模型输出部，输出所述对象模型。

技术研发人员：高见豪,冈本浩実,佐藤正彦,藤井英幸,神宫善行,御供颂弘
受保护的技术使用者：横河电机株式会社
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高见豪冈本浩実佐藤正彦藤井英幸神宫善行御供颂弘
技术所有人：横河电机株式会社
我是此专利的发明人

上一篇：一种可以展示机械原理的趣味仿生鱼
上一篇：一种适用于反应堆分析程序不确定性分析的通用接口方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。